آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟

آیا xAI در گزارش‌های بنچمارک Grok 3 دستکاری کرده؟ اتهاماتی که OpenAI به xAI وارد کرده و تحلیل دقیق اشتباهات در گزارش‌ها.

آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟
آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟

به گزارش رسانه تحلیلی خبری آناژورنال جنگ بر سر بنچمارک‌های هوش مصنوعی و چگونگی گزارش‌دادن آن‌ها توسط آزمایشگاه‌های هوش مصنوعی اکنون به عرصه عمومی کشیده شده است.

این هفته، یکی از کارکنان OpenAI، شرکت هوش مصنوعی Elon Musk، xAI، را به انتشار نتایج گمراه‌کننده بنچمارک برای جدیدترین مدل هوش مصنوعی خود، Grok 3، متهم کرد.

اما ایگور بابوشکین، یکی از بنیان‌گذاران xAI، از شرکت دفاع کرده و ادعا کرد که آن‌ها در موقعیت درستی قرار دارند.

جدال بر سر یک پست وبلاگ از xAI است که در آن گرافی از عملکرد Grok 3 در آزمون ریاضی AIME 2025 منتشر شده بود.

در این گراف، ادعا شده بود که دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، از مدل بهترین عملکرد OpenAI، o3-mini-high، در آزمون AIME 2025 پیشی گرفته‌اند.

اما کارکنان OpenAI سریعاً به این نکته اشاره کردند که گراف xAI نمره cons@64 برای مدل o3-mini-high را نشان نمی‌دهد.

cons@64 به تکنیک بنچمارکی اطلاق می‌شود که در آن به مدل‌ها 64 تلاش داده می‌شود تا به هر سؤال پاسخ دهند و پاسخ‌هایی که بیشتر از همه تکرار می‌شوند، به عنوان پاسخ نهایی در نظر گرفته می‌شود.

این تکنیک معمولاً برای تقویت نتایج بنچمارک‌ها استفاده می‌شود و حذف آن از گراف ممکن است باعث شود که به نظر برسد یک مدل از مدل دیگر پیشی گرفته است، در حالی که در واقع چنین نیست.

داده‌های واقعی نشان می‌دهند که Grok 3 Reasoning Beta و Grok 3 mini Reasoning در @1 (اولین تلاش) نمرات پایین‌تری از o3-mini-high کسب کرده‌اند.

حتی Grok 3 Reasoning Beta کمی پایین‌تر از مدل o1 OpenAI در تنظیمات محاسباتی متوسط قرار دارد.

با این حال، xAI همچنان Grok 3 را به عنوان “هوش مصنوعی هوشمندترین جهان” تبلیغ می‌کند.

بابوشکین در پاسخ به این انتقادات اشاره کرد که OpenAI خود نیز قبلاً داده‌های بنچمارک مشابهی را به طور ناقص منتشر کرده است.

به منظور افزودن شفافیت بیشتر، یک طرف مستقل گراف دقیق‌تری از عملکرد مدل‌ها در cons@64 تهیه کرده که تصویر واقعی‌تری از عملکرد مدل‌ها ارائه می‌دهد.

همچنین، پژوهشگر هوش مصنوعی ناتان لامبرت به این نکته اشاره کرد که هزینه محاسباتی (و هزینه مالی مرتبط با آن) برای دستیابی به بهترین عملکرد هر مدل هنوز به طور گسترده منتشر نشده است، که نشان می‌دهد بنچمارک‌ها تنها بخش کوچکی از تصویر کامل کارایی یا محدودیت‌های مدل‌ها را نشان می‌دهند.

در نهایت، اگرچه Grok 3 ممکن است عملکرد خوبی در بنچمارک AIME 2025 داشته باشد، حذف داده‌های حیاتی باعث ایجاد فضای زیادی برای بحث در مورد شفافیت و دقت بنچمارک‌های هوش مصنوعی و آنچه که واقعاً در مورد قابلیت‌های این سیستم‌ها بیان می‌کنند، شده است.

سوالات متداول:

1. آیا xAI واقعا در مورد Grok 3 دروغ گفته است؟

xAI در گزارش‌های بنچمارک خود نتایج مدل Grok 3 را به گونه‌ای نمایش داده که ممکن است گمراه‌کننده باشد، زیرا داده‌های حیاتی مانند cons@64 حذف شده است که ممکن است عملکرد واقعی مدل‌ها را تغییر دهد.

2. تفاوت بین نتایج اولیه و cons@64 در بنچمارک چیست؟

cons@64 به مدل‌ها اجازه می‌دهد 64 بار به یک سوال پاسخ دهند و پاسخ‌های تکراری را به عنوان پاسخ نهایی در نظر بگیرند، که باعث می‌شود نتایج مدل‌ها به شدت تقویت شوند.

حذف این داده‌ها ممکن است گمراه‌کننده باشد.

3. چرا xAI بنچمارک‌های خود را به این صورت گزارش کرده است؟

xAI ممکن است سعی کرده تا Grok 3 را به عنوان هوشمندترین مدل هوش مصنوعی تبلیغ کند، اما حذف داده‌های مهم باعث شد که نتایج به نظر بهتر از آنچه که واقعاً هست، بیایند.

4. آیا سایر شرکت‌ها نیز در بنچمارک‌های خود اشتباهاتی مشابه داشته‌اند؟

بله، OpenAI نیز قبلاً مشابه این نوع اشتباهات را در گزارش‌های بنچمارک خود منتشر کرده است.

این مسئله نشان می‌دهد که بنچمارک‌های هوش مصنوعی هنوز نیاز به شفافیت بیشتری دارند.

فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.