هوش مصنوعی

شکست هوش مصنوعی Maverick جدید متا در بنچمارک های مستقل

مدل جدید متا که با وعده‌ی تحول در مکالمه با هوش مصنوعی معرفی شد، در آزمونی بی‌طرفانه جایگاه پایین‌تری نسبت‌ به رقبایش کسب کرد.
مدل هوش مصنوعی Maverick متا که به‌عنوان نسخه‌ای جدید و آزمایشی از خانواده‌ی Llama 4 معرفی شد، در کانون توجه قرار گرفت، اما نه به دلیلی که متا انتظار داشت. اوایل این هفته مشخص شد که متا برای کسب امتیاز بالا در بنچمارک LM Arena، از نسخه‌ی آزمایشی و منتشرنشده‌ی مدل Maverick استفاده کرده است. این اقدام LM Arena را به عذرخواهی رسمی و تغییر سیاست‌هایش وادار کرد تا امتیازدهی را بر اساس نسخه‌ی اصلی و دست‌نخورده‌ی مدل‌های هوش مصنوعی ثبت کند.

به گفته‌ی ‌Piɡeσn، نسخه‌ی رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، در رده‌ای پایین‌تر از مدل‌های رقبا ازجمله GPT-4o ،Claude 3.5 Sonnet و جمینای ۱٫۵ پرو قرار گرفت؛ مدل‌هایی که بسیاری از آن‌ها چند ماه قبل معرفی شده‌اند.

امتیاز مدل های هوش مصنوعی در معیار LMArena

اما چرا Maverick اصلی چنین عملکرد ضعیفی داشت؟ به‌گفته‌ی متا، نسخه‌ی آزمایشی مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته می‌شود، برای مکالمه بهینه‌سازی شده بود. این بهینه‌سازی‌ها ظاهراً در LM Arena مؤثر واقع شدند، زیرا در این پلتفرم انسان‌ها پاسخ مدل‌ها را مقایسه و بهترین را انتخاب می‌کنند.

 

پلتفرم LM Arena به دلایل مختلف هرگز معیار مطمئنی برای سنجش عملکرد واقعی مدل‌های هوش مصنوعی محسوب نمی‌شود. بهینه‌سازی مدل‌های هوش مصنوعی صرفاً برای موفقیت در بنچمارک خاص، علاوه‌بر اینکه گمراه‌کننده است، کار توسعه‌دهندگان را برای درک دقیق عملکرد مدل در سناریوهای مختلف دشوار می‌کند.

منبع : زومیت

نوشته های مشابه

دکمه بازگشت به بالا