به گزارش رسانه تحلیلی خبری آناژورنال در دنیایی که حتی بازیهای کلاسیک مانند پوکمون هم به بنچمارک هوش مصنوعی کشیده شدهاند، حالا بحث بر سر عملکرد واقعی مدلها داغتر از همیشه شده است.
اخیراً پستی در شبکه اجتماعی X (توئیتر سابق) وایرال شده که ادعا میکند مدل Gemini متعلق به گوگل، در اجرای بازی پوکمون از مدل Claude شرکت Anthropic جلوتر است.
جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.
در این ویدیو، Gemini توانسته به شهر Lavender برسد، در حالی که Claude همچنان در کوه Mount Moon گیر کرده است.
اما ماجرا به این سادگی نیست! کاربران Reddit افشا کردهاند که Gemini از یک نقشهی کوچک کمکی (minimap) استفاده میکند که موقعیت درختان، مسیرها و موانع را سادهتر نشان میدهد.
این یعنی دیگر لازم نیست Gemini هر بار تصویر را تجزیهوتحلیل کند تا بفهمد چه باید بکند؛ یک مزیت بزرگ که Claude از آن بیبهره است.
در حالیکه بازی پوکمون معیار جدیای برای سنجش توانمندی مدلهای زبانی نیست، اما نشان میدهد که چگونه تنظیمات مختلف میتوانند نتایج را دستکاری کنند.
برای مثال، شرکت Anthropic برای مدل جدیدش Claude 3.7 Sonnet دو امتیاز اعلام کرده:
- ۶۲.۳٪ دقت در بنچمارک SWE-bench
- اما با ساختار سفارشی، این دقت به ۷۰.۳٪ میرسد!
متا نیز در مورد Llama 4 Maverick دقیقاً همین کار را انجام داده؛ نسخه اصلی عملکرد متوسطی دارد، اما با «فاینتیون» روی معیار LM Arena امتیازش بالا رفته.
سوالات متداول:
چرا بازی پوکمون به میدان مقایسه هوش مصنوعی تبدیل شده؟
چون مدلهای هوش مصنوعی حالا میتوانند بازیها را بدون کمک انسانی انجام دهند و عملکردشان قابل مشاهده است؛ البته این روش هنوز جنبهی نمایشی دارد.
آیا Gemini واقعاً بهتر از Claude است؟
ممکن است نه! کاربران Reddit فاش کردند Gemini از نقشه کمکی سفارشی استفاده کرده، که تصمیمگیری را برایش آسانتر میکند.
چرا بنچمارکها در هوش مصنوعی جنجالی شدهاند؟
چون مدلها با تنظیمات خاص (مثلاً کدهای اضافی یا دادههای پشتیبان) بهبود داده میشوند و نتایج نهایی دیگر قابل اعتماد مطلق نیستند.
ارسال پاسخ
نمایش دیدگاه ها