به گزارش رسانه تحلیلی خبری آناژورنال جنگ بر سر بنچمارکهای هوش مصنوعی و چگونگی گزارشدادن آنها توسط آزمایشگاههای هوش مصنوعی اکنون به عرصه عمومی کشیده شده است.
این هفته، یکی از کارکنان OpenAI، شرکت هوش مصنوعی Elon Musk، xAI، را به انتشار نتایج گمراهکننده بنچمارک برای جدیدترین مدل هوش مصنوعی خود، Grok 3، متهم کرد.
اما ایگور بابوشکین، یکی از بنیانگذاران xAI، از شرکت دفاع کرده و ادعا کرد که آنها در موقعیت درستی قرار دارند.
جدال بر سر یک پست وبلاگ از xAI است که در آن گرافی از عملکرد Grok 3 در آزمون ریاضی AIME 2025 منتشر شده بود.
در این گراف، ادعا شده بود که دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، از مدل بهترین عملکرد OpenAI، o3-mini-high، در آزمون AIME 2025 پیشی گرفتهاند.
اما کارکنان OpenAI سریعاً به این نکته اشاره کردند که گراف xAI نمره cons@64 برای مدل o3-mini-high را نشان نمیدهد.
cons@64 به تکنیک بنچمارکی اطلاق میشود که در آن به مدلها 64 تلاش داده میشود تا به هر سؤال پاسخ دهند و پاسخهایی که بیشتر از همه تکرار میشوند، به عنوان پاسخ نهایی در نظر گرفته میشود.
این تکنیک معمولاً برای تقویت نتایج بنچمارکها استفاده میشود و حذف آن از گراف ممکن است باعث شود که به نظر برسد یک مدل از مدل دیگر پیشی گرفته است، در حالی که در واقع چنین نیست.
دادههای واقعی نشان میدهند که Grok 3 Reasoning Beta و Grok 3 mini Reasoning در @1 (اولین تلاش) نمرات پایینتری از o3-mini-high کسب کردهاند.
حتی Grok 3 Reasoning Beta کمی پایینتر از مدل o1 OpenAI در تنظیمات محاسباتی متوسط قرار دارد.
با این حال، xAI همچنان Grok 3 را به عنوان “هوش مصنوعی هوشمندترین جهان” تبلیغ میکند.
بابوشکین در پاسخ به این انتقادات اشاره کرد که OpenAI خود نیز قبلاً دادههای بنچمارک مشابهی را به طور ناقص منتشر کرده است.
به منظور افزودن شفافیت بیشتر، یک طرف مستقل گراف دقیقتری از عملکرد مدلها در cons@64 تهیه کرده که تصویر واقعیتری از عملکرد مدلها ارائه میدهد.
همچنین، پژوهشگر هوش مصنوعی ناتان لامبرت به این نکته اشاره کرد که هزینه محاسباتی (و هزینه مالی مرتبط با آن) برای دستیابی به بهترین عملکرد هر مدل هنوز به طور گسترده منتشر نشده است، که نشان میدهد بنچمارکها تنها بخش کوچکی از تصویر کامل کارایی یا محدودیتهای مدلها را نشان میدهند.
در نهایت، اگرچه Grok 3 ممکن است عملکرد خوبی در بنچمارک AIME 2025 داشته باشد، حذف دادههای حیاتی باعث ایجاد فضای زیادی برای بحث در مورد شفافیت و دقت بنچمارکهای هوش مصنوعی و آنچه که واقعاً در مورد قابلیتهای این سیستمها بیان میکنند، شده است.
سوالات متداول:
1. آیا xAI واقعا در مورد Grok 3 دروغ گفته است؟
xAI در گزارشهای بنچمارک خود نتایج مدل Grok 3 را به گونهای نمایش داده که ممکن است گمراهکننده باشد، زیرا دادههای حیاتی مانند cons@64 حذف شده است که ممکن است عملکرد واقعی مدلها را تغییر دهد.
2. تفاوت بین نتایج اولیه و cons@64 در بنچمارک چیست؟
cons@64 به مدلها اجازه میدهد 64 بار به یک سوال پاسخ دهند و پاسخهای تکراری را به عنوان پاسخ نهایی در نظر بگیرند، که باعث میشود نتایج مدلها به شدت تقویت شوند.
حذف این دادهها ممکن است گمراهکننده باشد.
3. چرا xAI بنچمارکهای خود را به این صورت گزارش کرده است؟
xAI ممکن است سعی کرده تا Grok 3 را به عنوان هوشمندترین مدل هوش مصنوعی تبلیغ کند، اما حذف دادههای مهم باعث شد که نتایج به نظر بهتر از آنچه که واقعاً هست، بیایند.
4. آیا سایر شرکتها نیز در بنچمارکهای خود اشتباهاتی مشابه داشتهاند؟
بله، OpenAI نیز قبلاً مشابه این نوع اشتباهات را در گزارشهای بنچمارک خود منتشر کرده است.
این مسئله نشان میدهد که بنچمارکهای هوش مصنوعی هنوز نیاز به شفافیت بیشتری دارند.
ارسال پاسخ
نمایش دیدگاه ها