استفاده از مدلهای هوش مصنوعی برای دورزدن محدودیتهای چت جی پی تی و بارد
محققان دانشگاه نانیانگ سنگاپور روشی ابداع کردند که با آن میتوان چتباتهای معروف هوش مصنوعی از جمله گوگل بارد، کوپایلوت و چت جی پی تی را جیلبریک کرد؛ بدینمعنا که میتوان محدودیتهای مدل هوش مصنوعی را دور زد و اطلاعات ممنوعه را استخراج کرد. هدف محققان درواقع آزمایش محدودیتهای مدلهای زبانی بزرگ (ال ال ام) بوده است.
براساس مقاله محققان دانشگاه نانیانگ سنگاپور (ان تی یو)، روشی که برای جیلبریککردن چتبات هوش مصنوعی ابداع شده است مسترکی نام دارد. «مسترکی» یک روش دوگانه است که در آن مکانیسمهای دفاعی ال ال ام مهندسی معکوس میشود. سپس، با دادههای بهدستآمده، ال ال ام دیگری آموزش داده میشود تا نحوه بایپسکردن یا دورزدن چتبات اول را بیاموزد. به این ترتیب، یک مسترکی ایجاد میشود. با این مسترکی حتی اگر مدل هوش مصنوعی بهروز شود نیز میتوان آن را جیلبریک کرد.
جیلبریککردن هوش مصنوعی با روش مسترکی
روش مسترکی درواقع از نقطه قوت هوش مصنوعی علیه خودش استفاده میکند. مدلهای زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری معروف هستند. بنابراین مدلی که فهرستی از کلمات کلیدی ممنوعه برای جلوگیری از تولید محتوای خشونتآمیز و غیراخلاقی دارد را میتوان به وسیله یک هوش مصنوعی آموزشدیده دیگر دور زد. در اینجا در واقع مدل دوم از چتبات هوش مصنوعی اول برای دورزدن کلمات کلیدی لیست سیاه، جلو میزند.
در چند وقت اخیر، چتباتهای هوش مصنوعی بهطور تصاعدی درحال رشد بودهاند؛ ازاینرو، برای سازندگان و ارائهدهندگان خدمات هوش مصنوعی مهم است که دائماً در برابر جیلبریکها و دیگر سوءاستفادههای مخرب بهروز شوند. شرکتهای بزرگ فناوری معمولاً زمانی که بایپسهای جدید پیدا و منتشر میشوند، مدل هوش مصنوعی خود را بهروز میکنند. بااینحال، روش جدید مسترکی که خود از هوش مصنوعی بهره میبرد و به شکل خودکار درحال یادگیری است، میتواند نگرانکننده باشد.
هوش مصنوعی ابزار قدرتمندی است و اگر از چنین قدرتی به شکل مخرب استفاده شود، میتواند مشکلات زیادی به بار بیاورد. پژوهش محققان ان تی یو میتواند به توسعهدهندگان هوش مصنوعی در یافتن راهحلهای مؤثر کمک کند.