چتبات ChatGPT اکنون قابلاعتمادتر است، اما سادهتر فریب میخورد
تحقیقات مایکروسافت نشان میدهد کاربران میتوانند GPT-4 را برای انتشار نتایج مغرضانه و افشای اطلاعات خصوصی، فریب دهند.
براساس تحقیقاتی که مایکروسافت انجام داده، مدل زبان بزرگ GPT-4 شرکت OpenAI نسبتبه GPT-3.5 قابلاعتمادتر است اما درمقابل فریب و سوگیری نیز آسیبپذیرتر است.
مقالهی جدید نشان میدهد محققان دانشگاه ایلینویز، دانشگاه استنفورد، دانشگاه کالیفرنیا، دانشگاه برکلی، مرکز ایمنی هوش مصنوعی و مرکز تحقیقات مایکروسافت، GPT-4 را قابلاعتمادتر از نسخهی قبلی این مدل میدانند. به بیان دیگر، آنها متوجه شدند مدل هوش مصنوعی مذکور در محافظت از اطلاعات خصوصی، اجتناب از ارائهی پاسخهای نامرتبط و جانبدارانه و همچنین مقاومت دربرابر حملات هکرها، بهتر عمل میکند.
ازطرف دیگر GPT-4 میتواند اقدامات امنیتی را نادیده بگیرد و درنتیجه اطلاعات شخصی و تاریخچهی مکالمات افراد را فاش کند. محققان دریافتند امکان دورزدن لایههای محافظتی این مدل هوش مصنوعی وجود دارد زیرا GPT-4 اطلاعات گمراهکننده را با دقت بیشتری دنبال میکند.
تیم تحقیقاتی اعلام کرده آسیبپذیریهای مختلف در محصولات مبتنیبر GPT-4 ازجمله خدمات و نرمافزارهای مایکروسافت و ChatGPT شناسایی نشدهاند.
محققان برای سنجش قابلیت اعتماد GPT-4، نتایج تحقیقات خود را به چند بخش ازجمله پاسخهای غیرمرتبط، کلیشهها، حریم خصوصی، اخلاق ماشینی، انصاف و قدرت در مقاومت دربرابر حملههای خصمانه، تقسیم کردند.
محققان در آزمایش خود ابتدا GPT 3.5 و GPT-4 را با استفاده از روشهای استانداردی بررسی کردند که شامل استفاده از کلمات ممنوعه بود. در مرحلهی بعد از دستورالعملهای طراحیشده برای اعمال فشار به مدل و شکستن محدودیتهای خطمشی محتوای آن استفاده شد. تیم تحقیقاتی درنهایت تلاشهایی برای فریب مدل انجام دادند تا مشخص شود آیا چارچوب محافظتی آن حفظ میشود یا خیر.
محققان میگویند:
هدف ما تشویق جامعهی تحقیقاتی است تا از آزمایشهای ما بهره ببرند و کارهای جدیدی براساس آن انجام دهند؛ زیرا اینکار بهطور بالقوه از اقدامات شرورانه که از آسیبپذیریها سؤاستفاده میکنند، جلوگیری خواهد کرد. ارزیابی قابلیت اعتماد مدلهای هوش مصنوعی، فقط نقطهی شروع است و امیدواریم با همکاری دیگران در یافتههای خود به ایجاد مدلهای قدرتمندتر و قابلاعتمادتر در آینده کمک کنیم.
تیم تحقیقاتی، معیارهای خود را برای آزمایش قابلیت اطمینان مدلهای هوش مصنوعی منتشر کرد تا دیگران بتوانند از یافتههای آنها در تحقیقات آینده استفاده کنند.
توسعهدهندگان معمولاً چندین درخواست مختلف را به مدلهای هوش مصنوعی مثل GPT-4 ارائه میدهند تا مشخص شود آیا نتایج ناخواسته ازطرف این مدلها ارائه میشود یا خیر. البته سم آلتمن پساز معرفی GPT-4 اعلام کرد این مدل هوش مصنوعی همچنان نقصهایی دارد.
کمیسون تجارت فدرال (FTC) پساز معرفی GPT-4، تحقیقات درمورد OpenAI را با هدف کشف آسیبهای احتمالی مثل انتشار اطلاعات نادرست که میتواند مصرفکنندگان را درمعرض خطر قرار دهد، آغاز کرده است.
منبع : زوم ایت