جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟

مقایسه هوش مصنوعی در بازی پوکمون حاشیه‌ساز شد! آیا گوگل Gemini واقعاً عملکرد بهتری از Claude دارد یا تقلب شده؟ جزئیات را بخوانید.

جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟

به گزارش رسانه تحلیلی خبری آناژورنال در دنیایی که حتی بازی‌های کلاسیک مانند پوکمون هم به بنچمارک هوش مصنوعی کشیده شده‌اند، حالا بحث بر سر عملکرد واقعی مدل‌ها داغ‌تر از همیشه شده است.

تبریک رئیس‌جمهور ایران به تیم المپیک دانش‌آموزی پس از کسب ۸۶ مدال در صربستان

اخیراً پستی در شبکه اجتماعی X (توئیتر سابق) وایرال شده که ادعا می‌کند مدل Gemini متعلق به گوگل، در اجرای بازی پوکمون از مدل Claude شرکت Anthropic جلوتر است.

جدیدترین اخبار هوش مصنوعی را در آناژورنال بخوانید.

غایب اولین ال‌کلاسیکو مشخص شد: مصدومیت بالده، مدافع بارسا

در این ویدیو، Gemini توانسته به شهر Lavender برسد، در حالی که Claude همچنان در کوه Mount Moon گیر کرده است.

اما ماجرا به این سادگی نیست! کاربران Reddit افشا کرده‌اند که Gemini از یک نقشه‌ی کوچک‌ کمکی (minimap) استفاده می‌کند که موقعیت درختان، مسیرها و موانع را ساده‌تر نشان می‌دهد.

بازگشت روزبه چشمی به ترکیب استقلال پیش از دیدار با گل‌گهر

این یعنی دیگر لازم نیست Gemini هر بار تصویر را تجزیه‌وتحلیل کند تا بفهمد چه باید بکند؛ یک مزیت بزرگ که Claude از آن بی‌بهره است.

در حالی‌که بازی پوکمون معیار جدی‌ای برای سنجش توانمندی مدل‌های زبانی نیست، اما نشان می‌دهد که چگونه تنظیمات مختلف می‌توانند نتایج را دست‌کاری کنند.

قیمت کمپر ارسطو در سریال پایتخت ۷ چقدر است؟

برای مثال، شرکت Anthropic برای مدل جدیدش Claude 3.7 Sonnet دو امتیاز اعلام کرده:

۶۲.۳٪ دقت در بنچمارک SWE-bench
اما با ساختار سفارشی، این دقت به ۷۰.۳٪ می‌رسد!

پسر سیمئونه درخشان شد؛ هدیه‌ای در کار نیست! | عملکرد خیره‌کننده جولیانو در لالیگا

متا نیز در مورد Llama 4 Maverick دقیقاً همین کار را انجام داده؛ نسخه اصلی عملکرد متوسطی دارد، اما با «فاین‌تیون» روی معیار LM Arena امتیازش بالا رفته.

سوالات متداول:

چرا بازی پوکمون به میدان مقایسه هوش مصنوعی تبدیل شده؟

چون مدل‌های هوش مصنوعی حالا می‌توانند بازی‌ها را بدون کمک انسانی انجام دهند و عملکردشان قابل مشاهده است؛ البته این روش هنوز جنبه‌ی نمایشی دارد.

آیا Gemini واقعاً بهتر از Claude است؟

ممکن است نه! کاربران Reddit فاش کردند Gemini از نقشه کمکی سفارشی استفاده کرده، که تصمیم‌گیری را برایش آسان‌تر می‌کند.

چرا بنچمارک‌ها در هوش مصنوعی جنجالی شده‌اند؟

چون مدل‌ها با تنظیمات خاص (مثلاً کدهای اضافی یا داده‌های پشتیبان) بهبود داده می‌شوند و نتایج نهایی دیگر قابل اعتماد مطلق نیستند.

بخشی‌ دستجردی: بانک مرکزی خود عامل فروش ارز در بازار غیر رسمی است

هیچ مجوز حمله آمریکا از پاکستان به افغانستان صادر نشده است

سگا از فروش چشمگیر جدیدترین بازی سونیک خبر داد

آیا وصل کردن طولانی‌مدت گوشی به شارژ باتری را خراب می‌کند؟

بخشی‌ دستجردی: بانک مرکزی خود عامل فروش ارز در بازار غیر رسمی است

هیچ مجوز حمله آمریکا از پاکستان به افغانستان صادر نشده است

سگا از فروش چشمگیر جدیدترین بازی سونیک خبر داد

آیا وصل کردن طولانی‌مدت گوشی به شارژ باتری را خراب می‌کند؟

جنجال بنچمارک هوش مصنوعی با بازی پوکمون | آیا گوگل Gemini واقعاً از Claude قوی‌تر است؟

مقایسه هوش مصنوعی در بازی پوکمون حاشیه‌ساز شد! آیا گوگل Gemini واقعاً عملکرد بهتری از Claude دارد یا تقلب شده؟ جزئیات را بخوانید.

نحوه افتتاح حساب در مونتا مارکتس با کمترین سرمایه!

موشک بالستیک هرمز؛ تیر غیب ایران که رادار دشمن را کور می‌کند

ترجمه رسمی ایتالیایی؛ پلی میان زبان، فرهنگ و مدارک رسمی

تاریخ دقیق روز کتاب و کتاب‌ خوانی ۱۴۰۴ چه روزی هست؟