مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌ تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟

OpenAI مدل جدید o3 خود را با ادعای برتری در حل مسائل FrontierMath معرفی کرد، اما آزمایش‌های مستقل نشان داد که امتیاز واقعی مدل کمتر از آنچه که اعلام شده بود است.

مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟

به گزارش رسانه تحلیلی خبری آناژورنال مدل o3 هوش مصنوعی OpenAI که در دسامبر 2024 به شدت مورد توجه قرار گرفت، در یک ارزیابی مستقل، امتیاز پایین‌تری از آنچه که شرکت قبلاً اعلام کرده بود، کسب کرد.

دولت خواهان بازگشت اختیار تغییر ساعت رسمی کشور _ لایحه جدید در راه مجلس

زمانی که این مدل معرفی شد، OpenAI ادعا کرده بود که می‌تواند بیش از 25٪ از مسائل FrontierMath را پاسخ دهد که به‌طور قابل توجهی بهتر از رقبا است که تنها حدود 2٪ از مسائل را به درستی حل کرده بودند.

جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.

رونمایی رسمی از شاسی‌بلند غول‌پیکر BYD Yangwang U8L در شانگهای _ ترکیبی از قدرت، لوکس‌گرایی و فناوری هوشمند

اما آزمایش‌های مستقل از سوی Epoch AI نشان داد که نسخه عمومی o3 تنها حدود 10٪ از همان مسائل را به درستی پاسخ داده است که این میزان کمتر از ادعای اولیه OpenAI بود.

تفاوت نتایج بین ارزیابی‌های OpenAI و نتایج بنچمارک مستقل به تفاوت در تنظیمات آزمایشی برمی‌گردد.

رونمایی از فایرفلای؛ هاچ‌بک برقی Nio با قیمت اقتصادی و امکانات لوکس در مسیر بازار اروپا

OpenAI از یک زیرساخت داخلی قدرتمندتر در آزمایش‌های خود استفاده کرده بود، در حالی که Epoch AI از یک زیرمجموعه متفاوت از FrontierMath و احتمالاً نسخه متفاوتی از تست‌ها استفاده کرده است.

مدیرعامل پست بانک ایران: پست بانک با ایجاد بیش از ۹ هزار شغل و همکاری با وزارت ارتباطات در مسیر توسعه است

OpenAI تأیید کرده است که نسخه عمومی o3 برای استفاده در دنیای واقعی بهینه‌سازی شده است و بیشتر بر سرعت و بهینگی هزینه تمرکز دارد تا دستیابی به بالاترین امتیازات بنچمارک.

علاوه بر این، OpenAI برنامه دارد نسخه‌های قدرتمندتری از مدل o3 مانند o3-pro را در هفته‌های آینده منتشر کند.

بورس تهران در ۱ اردیبهشت ۱۴۰۴ صعودی شد؛ شاخص کل به ۳ میلیون و ۱۳۴ هزار واحد رسید

این وضعیت، نگرانی‌های مداوم در صنعت هوش مصنوعی را در مورد قابلیت اطمینان و شفافیت بنچمارک‌ها به نمایش می‌گذارد، به‌ویژه زمانی که شرکت‌ها در حال تبلیغ مدل‌های خود هستند.

پیش‌تر نیز شرکت‌هایی مانند Meta و xAI در مورد نتایج گمراه‌کننده بنچمارک‌های خود برای مدل‌هایشان مورد انتقاد قرار گرفته بودند.

رونمایی گوگل از عینک هوشمند Android XR در TED2025؛ ترکیبی از واقعیت افزوده و هوش مصنوعی جمینای!

سوالات متداول:

1. مدل هوش مصنوعی o3 OpenAI چیست؟

مدل o3 جدیدترین مدل هوش مصنوعی از OpenAI است که برای حل مسائل پیچیده ریاضی و علمی طراحی شده است.

این مدل با استفاده از الگوریتم‌های پیشرفته، قادر به پاسخ‌گویی به چالش‌های FrontierMath است.

2. چرا نتایج بنچمارک o3 از آنچه که OpenAI اعلام کرده متفاوت است؟

آزمایش‌های مستقل نشان دادند که مدل عمومی o3 امتیازی پایین‌تر از 25% اعلام شده توسط OpenAI کسب کرده است.

این تفاوت به احتمال زیاد به دلیل استفاده از تنظیمات سخت‌افزاری قدرتمندتر و تست‌های متفاوت در آزمایش‌های اولیه است.

3. آیا OpenAI عمداً نتایج نادرست را اعلام کرده است؟

نه، OpenAI هیچ گونه تقلبی نکرده است. تفاوت‌ها عمدتاً به دلیل تفاوت در تنظیمات آزمایشی و نسخه‌های مختلف مدل o3 است.

این تفاوت‌ها نشان می‌دهند که برخی از نتایج اعلام شده در دموها مربوط به نسخه‌های بهینه‌تر و قوی‌تر بوده‌اند.

4. چرا OpenAI تصمیم به عرضه نسخه‌های بهینه‌تر از o3 گرفت؟

OpenAI هدف خود را بر روی بهینه‌سازی عملکرد مدل o3 برای استفاده‌های دنیای واقعی قرار داده است.

این بهینه‌سازی‌ها موجب کاهش زمان پردازش و افزایش بهره‌وری مدل در استفاده‌های عمومی شده است.

5. آیا مدل‌های دیگر OpenAI بهتر از o3 هستند؟

مدل‌های کوچک‌تر مانند o3-mini و o4-mini عملکرد بهتری نسبت به o3 در بنچمارک‌ها داشته‌اند و OpenAI نیز قصد دارد نسخه‌های قوی‌تری مانند o3-pro را در آینده عرضه کند.

لوبیا چیتی ۴۲۰ هزار تومان شد؛ آخرین قیمت حبوبات در بازار بنکداران

تخم‌ مرغ ارزان شد؛ هر کیلو تخم‌ مرغ چند؟

پاکستان، ایران را تروریستی نامید؟ واکنش رسمی تهران و عقب‌ نشینی اسلام‌آباد

ریزش سنگین بازار طلا و سکه در ۱۱ بهمن؛ سکه‌ها دو رقمی ارزان شدند

لوبیا چیتی ۴۲۰ هزار تومان شد؛ آخرین قیمت حبوبات در بازار بنکداران

تخم‌ مرغ ارزان شد؛ هر کیلو تخم‌ مرغ چند؟

پاکستان، ایران را تروریستی نامید؟ واکنش رسمی تهران و عقب‌ نشینی اسلام‌آباد

ریزش سنگین بازار طلا و سکه در ۱۱ بهمن؛ سکه‌ها دو رقمی ارزان شدند

مدل هوش مصنوعی o3 OpenAI در بنچمارک‌ ها پایین‌ تر از انتظار ظاهر شد _ چرا نتایج واقعی متفاوت است؟

OpenAI مدل جدید o3 خود را با ادعای برتری در حل مسائل FrontierMath معرفی کرد، اما آزمایش‌های مستقل نشان داد که امتیاز واقعی مدل کمتر از آنچه که اعلام شده بود است.

تاریخ دقیق روز دندانپزشک در سال 1405 چه زمانی است؟

تاریخ دقیق معراج رسول اکرم (ص) در سال 1404 – شب معراج پیامبر کی است؟

تاریخ دقیق روز غزه در سال 1404 کی است؟ – روز غزه کیه؟

تاریخ دقیق روز ملی شدن صنعت نفت ایران در سال 1404 کی است؟