آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟ ترفندهای پنهان

آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟

آیا xAI در گزارش‌های بنچمارک Grok 3 دستکاری کرده؟ اتهاماتی که OpenAI به xAI وارد کرده و تحلیل دقیق اشتباهات در گزارش‌ها.

آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟

به گزارش رسانه تحلیلی خبری آناژورنال جنگ بر سر بنچمارک‌های هوش مصنوعی و چگونگی گزارش‌دادن آن‌ها توسط آزمایشگاه‌های هوش مصنوعی اکنون به عرصه عمومی کشیده شده است.

این هفته، یکی از کارکنان OpenAI، شرکت هوش مصنوعی Elon Musk، xAI، را به انتشار نتایج گمراه‌کننده بنچمارک برای جدیدترین مدل هوش مصنوعی خود، Grok 3، متهم کرد.

اما ایگور بابوشکین، یکی از بنیان‌گذاران xAI، از شرکت دفاع کرده و ادعا کرد که آن‌ها در موقعیت درستی قرار دارند.

تسلیم ترامپ در برابر پوتین

وب 3 چیست؟

جدال بر سر یک پست وبلاگ از xAI است که در آن گرافی از عملکرد Grok 3 در آزمون ریاضی AIME 2025 منتشر شده بود.

در این گراف، ادعا شده بود که دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، از مدل بهترین عملکرد OpenAI، o3-mini-high، در آزمون AIME 2025 پیشی گرفته‌اند.

اما کارکنان OpenAI سریعاً به این نکته اشاره کردند که گراف xAI نمره cons@64 برای مدل o3-mini-high را نشان نمی‌دهد.

cons@64 به تکنیک بنچمارکی اطلاق می‌شود که در آن به مدل‌ها 64 تلاش داده می‌شود تا به هر سؤال پاسخ دهند و پاسخ‌هایی که بیشتر از همه تکرار می‌شوند، به عنوان پاسخ نهایی در نظر گرفته می‌شود.

رزمایش ذوالفقار ۱۴۰۳؛ رهگیری پهپاد کرّار توسط جنگنده میگ ۲۹

این تکنیک معمولاً برای تقویت نتایج بنچمارک‌ها استفاده می‌شود و حذف آن از گراف ممکن است باعث شود که به نظر برسد یک مدل از مدل دیگر پیشی گرفته است، در حالی که در واقع چنین نیست.

داده‌های واقعی نشان می‌دهند که Grok 3 Reasoning Beta و Grok 3 mini Reasoning در @1 (اولین تلاش) نمرات پایین‌تری از o3-mini-high کسب کرده‌اند.

حتی Grok 3 Reasoning Beta کمی پایین‌تر از مدل o1 OpenAI در تنظیمات محاسباتی متوسط قرار دارد.

با این حال، xAI همچنان Grok 3 را به عنوان “هوش مصنوعی هوشمندترین جهان” تبلیغ می‌کند.

بابوشکین در پاسخ به این انتقادات اشاره کرد که OpenAI خود نیز قبلاً داده‌های بنچمارک مشابهی را به طور ناقص منتشر کرده است.

کیوبیت های توپولوژیک چه تاثیری بر محاسبات کوانتومی دارند؟

روز مهندس

به منظور افزودن شفافیت بیشتر، یک طرف مستقل گراف دقیق‌تری از عملکرد مدل‌ها در cons@64 تهیه کرده که تصویر واقعی‌تری از عملکرد مدل‌ها ارائه می‌دهد.

همچنین، پژوهشگر هوش مصنوعی ناتان لامبرت به این نکته اشاره کرد که هزینه محاسباتی (و هزینه مالی مرتبط با آن) برای دستیابی به بهترین عملکرد هر مدل هنوز به طور گسترده منتشر نشده است، که نشان می‌دهد بنچمارک‌ها تنها بخش کوچکی از تصویر کامل کارایی یا محدودیت‌های مدل‌ها را نشان می‌دهند.

در نهایت، اگرچه Grok 3 ممکن است عملکرد خوبی در بنچمارک AIME 2025 داشته باشد، حذف داده‌های حیاتی باعث ایجاد فضای زیادی برای بحث در مورد شفافیت و دقت بنچمارک‌های هوش مصنوعی و آنچه که واقعاً در مورد قابلیت‌های این سیستم‌ها بیان می‌کنند، شده است.

بررسی شایعه جدید سامسونگ: گلکسی Z Fold و Z Flip همراه با پوشش ضد انعکاس!

سوالات متداول:

1. آیا xAI واقعا در مورد Grok 3 دروغ گفته است؟

xAI در گزارش‌های بنچمارک خود نتایج مدل Grok 3 را به گونه‌ای نمایش داده که ممکن است گمراه‌کننده باشد، زیرا داده‌های حیاتی مانند cons@64 حذف شده است که ممکن است عملکرد واقعی مدل‌ها را تغییر دهد.

2. تفاوت بین نتایج اولیه و cons@64 در بنچمارک چیست؟

cons@64 به مدل‌ها اجازه می‌دهد 64 بار به یک سوال پاسخ دهند و پاسخ‌های تکراری را به عنوان پاسخ نهایی در نظر بگیرند، که باعث می‌شود نتایج مدل‌ها به شدت تقویت شوند.

حذف این داده‌ها ممکن است گمراه‌کننده باشد.

3. چرا xAI بنچمارک‌های خود را به این صورت گزارش کرده است؟

xAI ممکن است سعی کرده تا Grok 3 را به عنوان هوشمندترین مدل هوش مصنوعی تبلیغ کند، اما حذف داده‌های مهم باعث شد که نتایج به نظر بهتر از آنچه که واقعاً هست، بیایند.

4. آیا سایر شرکت‌ها نیز در بنچمارک‌های خود اشتباهاتی مشابه داشته‌اند؟

بله، OpenAI نیز قبلاً مشابه این نوع اشتباهات را در گزارش‌های بنچمارک خود منتشر کرده است.

این مسئله نشان می‌دهد که بنچمارک‌های هوش مصنوعی هنوز نیاز به شفافیت بیشتری دارند.

چرا بعضی فیلترشکن‌ ها هنوز وصل‌ اند؟ – قطعی اینترنت تا کی ادامه دارد؟

اینستاگرام لیست فالوور های کاربران داخل ایران را مخفی کرد

دفتر محمدجواد ظریف ادعای تماس با رضا پهلوی را تکذیب کرد

گلوبال ژورنال چه گفت؟ ادعای آزمایش موشک قاره‌ پیمای ایران

چرا بعضی فیلترشکن‌ ها هنوز وصل‌ اند؟ – قطعی اینترنت تا کی ادامه دارد؟

اینستاگرام لیست فالوور های کاربران داخل ایران را مخفی کرد

دفتر محمدجواد ظریف ادعای تماس با رضا پهلوی را تکذیب کرد

گلوبال ژورنال چه گفت؟ ادعای آزمایش موشک قاره‌ پیمای ایران

آیا xAI در مورد بنچمارک‌ های Grok 3 دروغ گفته؟

آیا xAI در گزارش‌های بنچمارک Grok 3 دستکاری کرده؟ اتهاماتی که OpenAI به xAI وارد کرده و تحلیل دقیق اشتباهات در گزارش‌ها.

تاریخ دقیق روز دندانپزشک در سال 1405 چه زمانی است؟

تاریخ دقیق معراج رسول اکرم (ص) در سال 1404 – شب معراج پیامبر کی است؟

تاریخ دقیق روز غزه در سال 1404 کی است؟ – روز غزه کیه؟

تاریخ دقیق روز ملی شدن صنعت نفت ایران در سال 1404 کی است؟