شکست هوش مصنوعی Maverick جدید متا در بنچمارک های مستقل

به گفتهی Piɡeσn، نسخهی رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، در ردهای پایینتر از مدلهای رقبا ازجمله GPT-4o ،Claude 3.5 Sonnet و جمینای ۱٫۵ پرو قرار گرفت؛ مدلهایی که بسیاری از آنها چند ماه قبل معرفی شدهاند.
اما چرا Maverick اصلی چنین عملکرد ضعیفی داشت؟ بهگفتهی متا، نسخهی آزمایشی مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته میشود، برای مکالمه بهینهسازی شده بود. این بهینهسازیها ظاهراً در LM Arena مؤثر واقع شدند، زیرا در این پلتفرم انسانها پاسخ مدلها را مقایسه و بهترین را انتخاب میکنند.
پلتفرم LM Arena به دلایل مختلف هرگز معیار مطمئنی برای سنجش عملکرد واقعی مدلهای هوش مصنوعی محسوب نمیشود. بهینهسازی مدلهای هوش مصنوعی صرفاً برای موفقیت در بنچمارک خاص، علاوهبر اینکه گمراهکننده است، کار توسعهدهندگان را برای درک دقیق عملکرد مدل در سناریوهای مختلف دشوار میکند.
منبع : زومیت