به گزارش رسانه تحلیلی خبری آناژورنال مدل o3 هوش مصنوعی OpenAI که در دسامبر 2024 به شدت مورد توجه قرار گرفت، در یک ارزیابی مستقل، امتیاز پایینتری از آنچه که شرکت قبلاً اعلام کرده بود، کسب کرد.
زمانی که این مدل معرفی شد، OpenAI ادعا کرده بود که میتواند بیش از 25٪ از مسائل FrontierMath را پاسخ دهد که بهطور قابل توجهی بهتر از رقبا است که تنها حدود 2٪ از مسائل را به درستی حل کرده بودند.
جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.
اما آزمایشهای مستقل از سوی Epoch AI نشان داد که نسخه عمومی o3 تنها حدود 10٪ از همان مسائل را به درستی پاسخ داده است که این میزان کمتر از ادعای اولیه OpenAI بود.
تفاوت نتایج بین ارزیابیهای OpenAI و نتایج بنچمارک مستقل به تفاوت در تنظیمات آزمایشی برمیگردد.
OpenAI از یک زیرساخت داخلی قدرتمندتر در آزمایشهای خود استفاده کرده بود، در حالی که Epoch AI از یک زیرمجموعه متفاوت از FrontierMath و احتمالاً نسخه متفاوتی از تستها استفاده کرده است.
OpenAI تأیید کرده است که نسخه عمومی o3 برای استفاده در دنیای واقعی بهینهسازی شده است و بیشتر بر سرعت و بهینگی هزینه تمرکز دارد تا دستیابی به بالاترین امتیازات بنچمارک.
علاوه بر این، OpenAI برنامه دارد نسخههای قدرتمندتری از مدل o3 مانند o3-pro را در هفتههای آینده منتشر کند.
این وضعیت، نگرانیهای مداوم در صنعت هوش مصنوعی را در مورد قابلیت اطمینان و شفافیت بنچمارکها به نمایش میگذارد، بهویژه زمانی که شرکتها در حال تبلیغ مدلهای خود هستند.
پیشتر نیز شرکتهایی مانند Meta و xAI در مورد نتایج گمراهکننده بنچمارکهای خود برای مدلهایشان مورد انتقاد قرار گرفته بودند.
سوالات متداول:
1. مدل هوش مصنوعی o3 OpenAI چیست؟
مدل o3 جدیدترین مدل هوش مصنوعی از OpenAI است که برای حل مسائل پیچیده ریاضی و علمی طراحی شده است.
این مدل با استفاده از الگوریتمهای پیشرفته، قادر به پاسخگویی به چالشهای FrontierMath است.
2. چرا نتایج بنچمارک o3 از آنچه که OpenAI اعلام کرده متفاوت است؟
آزمایشهای مستقل نشان دادند که مدل عمومی o3 امتیازی پایینتر از 25% اعلام شده توسط OpenAI کسب کرده است.
این تفاوت به احتمال زیاد به دلیل استفاده از تنظیمات سختافزاری قدرتمندتر و تستهای متفاوت در آزمایشهای اولیه است.
3. آیا OpenAI عمداً نتایج نادرست را اعلام کرده است؟
نه، OpenAI هیچ گونه تقلبی نکرده است. تفاوتها عمدتاً به دلیل تفاوت در تنظیمات آزمایشی و نسخههای مختلف مدل o3 است.
این تفاوتها نشان میدهند که برخی از نتایج اعلام شده در دموها مربوط به نسخههای بهینهتر و قویتر بودهاند.
4. چرا OpenAI تصمیم به عرضه نسخههای بهینهتر از o3 گرفت؟
OpenAI هدف خود را بر روی بهینهسازی عملکرد مدل o3 برای استفادههای دنیای واقعی قرار داده است.
این بهینهسازیها موجب کاهش زمان پردازش و افزایش بهرهوری مدل در استفادههای عمومی شده است.
5. آیا مدلهای دیگر OpenAI بهتر از o3 هستند؟
مدلهای کوچکتر مانند o3-mini و o4-mini عملکرد بهتری نسبت به o3 در بنچمارکها داشتهاند و OpenAI نیز قصد دارد نسخههای قویتری مانند o3-pro را در آینده عرضه کند.
ارسال پاسخ
نمایش دیدگاه ها