جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟

مقایسه هوش مصنوعی در بازی پوکمون حاشیه‌ساز شد! آیا گوگل Gemini واقعاً عملکرد بهتری از Claude دارد یا تقلب شده؟ جزئیات را بخوانید.

جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟
جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟
کانال تلگرام آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال در دنیایی که حتی بازی‌های کلاسیک مانند پوکمون هم به بنچمارک هوش مصنوعی کشیده شده‌اند، حالا بحث بر سر عملکرد واقعی مدل‌ها داغ‌تر از همیشه شده است.

اخیراً پستی در شبکه اجتماعی X (توئیتر سابق) وایرال شده که ادعا می‌کند مدل Gemini متعلق به گوگل، در اجرای بازی پوکمون از مدل Claude شرکت Anthropic جلوتر است.

جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.

در این ویدیو، Gemini توانسته به شهر Lavender برسد، در حالی که Claude همچنان در کوه Mount Moon گیر کرده است.

اما ماجرا به این سادگی نیست! کاربران Reddit افشا کرده‌اند که Gemini از یک نقشه‌ی کوچک‌ کمکی (minimap) استفاده می‌کند که موقعیت درختان، مسیرها و موانع را ساده‌تر نشان می‌دهد.

این یعنی دیگر لازم نیست Gemini هر بار تصویر را تجزیه‌وتحلیل کند تا بفهمد چه باید بکند؛ یک مزیت بزرگ که Claude از آن بی‌بهره است.

در حالی‌که بازی پوکمون معیار جدی‌ای برای سنجش توانمندی مدل‌های زبانی نیست، اما نشان می‌دهد که چگونه تنظیمات مختلف می‌توانند نتایج را دست‌کاری کنند.

برای مثال، شرکت Anthropic برای مدل جدیدش Claude 3.7 Sonnet دو امتیاز اعلام کرده:

  • ۶۲.۳٪ دقت در بنچمارک SWE-bench
  • اما با ساختار سفارشی، این دقت به ۷۰.۳٪ می‌رسد!

متا نیز در مورد Llama 4 Maverick دقیقاً همین کار را انجام داده؛ نسخه اصلی عملکرد متوسطی دارد، اما با «فاین‌تیون» روی معیار LM Arena امتیازش بالا رفته.

سوالات متداول:

چرا بازی پوکمون به میدان مقایسه هوش مصنوعی تبدیل شده؟

چون مدل‌های هوش مصنوعی حالا می‌توانند بازی‌ها را بدون کمک انسانی انجام دهند و عملکردشان قابل مشاهده است؛ البته این روش هنوز جنبه‌ی نمایشی دارد.

آیا Gemini واقعاً بهتر از Claude است؟

ممکن است نه! کاربران Reddit فاش کردند Gemini از نقشه کمکی سفارشی استفاده کرده، که تصمیم‌گیری را برایش آسان‌تر می‌کند.

چرا بنچمارک‌ها در هوش مصنوعی جنجالی شده‌اند؟

چون مدل‌ها با تنظیمات خاص (مثلاً کدهای اضافی یا داده‌های پشتیبان) بهبود داده می‌شوند و نتایج نهایی دیگر قابل اعتماد مطلق نیستند.

تبلیغ در آناژورنال بنری
فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.