مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌ تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟

OpenAI مدل جدید o3 خود را با ادعای برتری در حل مسائل FrontierMath معرفی کرد، اما آزمایش‌های مستقل نشان داد که امتیاز واقعی مدل کمتر از آنچه که اعلام شده بود است.

مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟
مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟
کانال تلگرام آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال مدل o3 هوش مصنوعی OpenAI که در دسامبر 2024 به شدت مورد توجه قرار گرفت، در یک ارزیابی مستقل، امتیاز پایین‌تری از آنچه که شرکت قبلاً اعلام کرده بود، کسب کرد.

زمانی که این مدل معرفی شد، OpenAI ادعا کرده بود که می‌تواند بیش از 25٪ از مسائل FrontierMath را پاسخ دهد که به‌طور قابل توجهی بهتر از رقبا است که تنها حدود 2٪ از مسائل را به درستی حل کرده بودند.

جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.

اما آزمایش‌های مستقل از سوی Epoch AI نشان داد که نسخه عمومی o3 تنها حدود 10٪ از همان مسائل را به درستی پاسخ داده است که این میزان کمتر از ادعای اولیه OpenAI بود.

تفاوت نتایج بین ارزیابی‌های OpenAI و نتایج بنچمارک مستقل به تفاوت در تنظیمات آزمایشی برمی‌گردد.

OpenAI از یک زیرساخت داخلی قدرتمندتر در آزمایش‌های خود استفاده کرده بود، در حالی که Epoch AI از یک زیرمجموعه متفاوت از FrontierMath و احتمالاً نسخه متفاوتی از تست‌ها استفاده کرده است.

OpenAI تأیید کرده است که نسخه عمومی o3 برای استفاده در دنیای واقعی بهینه‌سازی شده است و بیشتر بر سرعت و بهینگی هزینه تمرکز دارد تا دستیابی به بالاترین امتیازات بنچمارک.

علاوه بر این، OpenAI برنامه دارد نسخه‌های قدرتمندتری از مدل o3 مانند o3-pro را در هفته‌های آینده منتشر کند.

این وضعیت، نگرانی‌های مداوم در صنعت هوش مصنوعی را در مورد قابلیت اطمینان و شفافیت بنچمارک‌ها به نمایش می‌گذارد، به‌ویژه زمانی که شرکت‌ها در حال تبلیغ مدل‌های خود هستند.

پیش‌تر نیز شرکت‌هایی مانند Meta و xAI در مورد نتایج گمراه‌کننده بنچمارک‌های خود برای مدل‌هایشان مورد انتقاد قرار گرفته بودند.

سوالات متداول:

1. مدل هوش مصنوعی o3 OpenAI چیست؟

مدل o3 جدیدترین مدل هوش مصنوعی از OpenAI است که برای حل مسائل پیچیده ریاضی و علمی طراحی شده است.

این مدل با استفاده از الگوریتم‌های پیشرفته، قادر به پاسخ‌گویی به چالش‌های FrontierMath است.

2. چرا نتایج بنچمارک o3 از آنچه که OpenAI اعلام کرده متفاوت است؟

آزمایش‌های مستقل نشان دادند که مدل عمومی o3 امتیازی پایین‌تر از 25% اعلام شده توسط OpenAI کسب کرده است.

این تفاوت به احتمال زیاد به دلیل استفاده از تنظیمات سخت‌افزاری قدرتمندتر و تست‌های متفاوت در آزمایش‌های اولیه است.

3. آیا OpenAI عمداً نتایج نادرست را اعلام کرده است؟

نه، OpenAI هیچ گونه تقلبی نکرده است. تفاوت‌ها عمدتاً به دلیل تفاوت در تنظیمات آزمایشی و نسخه‌های مختلف مدل o3 است.

این تفاوت‌ها نشان می‌دهند که برخی از نتایج اعلام شده در دموها مربوط به نسخه‌های بهینه‌تر و قوی‌تر بوده‌اند.

4. چرا OpenAI تصمیم به عرضه نسخه‌های بهینه‌تر از o3 گرفت؟

OpenAI هدف خود را بر روی بهینه‌سازی عملکرد مدل o3 برای استفاده‌های دنیای واقعی قرار داده است.

این بهینه‌سازی‌ها موجب کاهش زمان پردازش و افزایش بهره‌وری مدل در استفاده‌های عمومی شده است.

5. آیا مدل‌های دیگر OpenAI بهتر از o3 هستند؟

مدل‌های کوچک‌تر مانند o3-mini و o4-mini عملکرد بهتری نسبت به o3 در بنچمارک‌ها داشته‌اند و OpenAI نیز قصد دارد نسخه‌های قوی‌تری مانند o3-pro را در آینده عرضه کند.

تبلیغ در آناژورنال بنری
فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.