هوش مصنوعی کم آورد! وقتی مدل‌ ها در برابر معماهای NPR تسلیم شدند!

محققان با استفاده از معماهای NPR Sunday Puzzle، مدل‌های پیشرفته هوش مصنوعی را آزمایش کردند.

هوش مصنوعی کم آورد! وقتی مدل‌ ها در برابر معماهای NPR تسلیم شدند!

به گزارش رسانه تحلیلی خبری آناژورنال یک تیم تحقیقاتی متشکل از پژوهشگران دانشگاه‌های Wellesley College، Oberlin College، University of Texas at Austin، Northeastern University، Charles University و استارتاپ Cursor، با استفاده از معماهای NPR Sunday Puzzle یک معیار جدید برای ارزیابی توانایی استدلال مدل‌های هوش مصنوعی توسعه دادند.

نتایج نشان داد که برخی از این مدل‌ها هنگام مواجهه با چالش‌های پیچیده “تسلیم” شده و پاسخ‌های تصادفی ارائه می‌دهند!

زلزله در دنیای فناوری: Broadcom و TSMC به دنبال تقسیم اینتل به دو شرکت جداگانه!

چرا معماهای NPR؟

معماهای NPR به‌گونه‌ای طراحی شده‌اند که افراد بدون نیاز به دانش خاص، تنها با استدلال منطقی قادر به حل آن‌ها باشند.

آرجون گوها (Arjun Guha)، استاد علوم کامپیوتر در دانشگاه Northeastern و یکی از نویسندگان این مطالعه، می‌گوید:

“ما به دنبال معیاری بودیم که نیاز به دانش تخصصی نداشته باشد و بیشتر بر قدرت استدلال مدل‌ها تمرکز کند. معماهای NPR این ویژگی را دارند.”

نتایج حیرت‌انگیز؛ هوش مصنوعی تسلیم می‌شود!

توافق بزرگ یوتوب تی‌ وی و پارامونت!

مرگ مشکوک افشاگر OpenAI

این تحقیق بر روی حدود 600 معمای NPR انجام شد و مدل‌های o1، DeepSeek R1 و o3-mini مورد آزمایش قرار گرفتند.

مدل o1 با دقت 59٪ بهترین عملکرد را داشت، درحالی‌که مدل R1 تنها 35٪ امتیاز کسب کرد.

اما نکته جالب‌تر این بود که مدل R1 گاهی اوقات مستقیماً اعلام می‌کرد که “تسلیم” شده است!

در برخی موارد، این مدل پس از چندین تلاش ناموفق، جمله‌ای مانند “من تسلیم می‌شوم” تولید کرده و سپس پاسخی تصادفی ارائه می‌داد.

وقتی مدل‌ ها در برابر معماهای NPR تسلیم شدند!

این رفتار به طرز شگفت‌آوری شبیه به واکنش انسان‌ها در مواجهه با چالش‌های سخت است.

مرگ ناباورانه کیم سه رون در ۲۴ سالگی؛ ستاره کره‌ای در خانه‌اش پیدا شد!

برخی از مشکلات رایج در عملکرد مدل‌ها:

🔹 ارائه پاسخ اشتباه و سپس تلاش برای تصحیح آن، اما دوباره شکست خوردن
🔹 گیر کردن در یک چرخه بی‌پایان پردازش و ناتوانی در ارائه پاسخ نهایی
🔹 دادن پاسخ درست، اما سپس ادامه دادن به تحلیل‌های بی‌دلیل و ارائه پاسخ‌های جایگزین

تأثیر این تحقیق بر آینده هوش مصنوعی

گوها در ادامه می‌افزاید:

“ما در حال ورود به عصری هستیم که مدل‌های هوش مصنوعی در حوزه‌های گوناگون مورد استفاده قرار می‌گیرند. اما این نتایج نشان می‌دهد که هنوز محدودیت‌های جدی در توانایی استدلال این مدل‌ها وجود دارد.”

معرفی Perplexity Deep Research

معرفی DeepHermes-3

این تیم تحقیقاتی قصد دارد آزمایش‌های بیشتری را با مدل‌های جدیدتر انجام دهد تا نقاط ضعف و قوت هوش مصنوعی در پردازش منطق و حل مسائل پیچیده را بهتر درک کند.

آیا هوش مصنوعی واقعاً می‌تواند مانند انسان فکر کند؟

با وجود پیشرفت‌های گسترده، نتایج این تحقیق نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در درک و حل برخی چالش‌های منطقی دچار ضعف هستند.

این موضوع سؤالات مهمی را درباره آینده‌ی هوش مصنوعی و قابلیت‌های آن برای انجام وظایف پیچیده‌تر مطرح می‌کند.

نظر شما چیست؟ آیا روزی می‌رسد که هوش مصنوعی واقعاً بتواند مانند انسان فکر کند؟

Adobe Firefly AI: انقلاب هوش مصنوعی یا تهدید جدید برای خلاقان؟

سوالات متداول (FAQ):

1. چرا از معماهای NPR برای ارزیابی هوش مصنوعی استفاده شده است؟

معماهای NPR نیاز به دانش عمومی و استدلال منطقی دارند، بنابراین مدل‌های هوش مصنوعی نمی‌توانند فقط بر اساس حافظه پاسخ دهند و باید واقعاً “فکر” کنند.

2. کدام مدل هوش مصنوعی بهترین عملکرد را در این آزمون داشت؟

مدل o1 با امتیاز 59٪ بهترین عملکرد را داشت، در حالی که مدل R1 تنها 35٪ امتیاز کسب کرد.

3. آیا این آزمایش محدودیت‌هایی دارد؟

بله، این معماها فقط به زبان انگلیسی هستند و برخی از مدل‌ها ممکن است قبلاً با آن‌ها آموزش دیده باشند، که می‌تواند نتایج را تحت تأثیر قرار دهد.

4. چرا برخی از مدل‌های هوش مصنوعی “تسلیم” شده و پاسخ‌های اشتباه می‌دهند؟

برخی مدل‌ها وقتی نمی‌توانند راه‌حلی پیدا کنند، پاسخی تصادفی ارائه داده یا حتی اعلام می‌کنند که “تسلیم” شده‌اند، رفتاری که شبیه انسان‌های واقعی در مواجهه با چالش‌های دشوار است.

ترکیب رسمی پرسپولیس مقابل تراکتور اعلام شد

پنالتی‌ گیر ترین دروازه‌بان فصل کیست؟

رفع فیلتر تلگرام، اینستاگرام و یوتیوب در انتظار تصمیم نهایی

وکیل پژمان جمشیدی: اتهام موکلم حکمی در حد اعدام دارد

ترکیب رسمی پرسپولیس مقابل تراکتور اعلام شد

پنالتی‌ گیر ترین دروازه‌بان فصل کیست؟

رفع فیلتر تلگرام، اینستاگرام و یوتیوب در انتظار تصمیم نهایی

وکیل پژمان جمشیدی: اتهام موکلم حکمی در حد اعدام دارد

هوش مصنوعی کم آورد! وقتی مدل‌ ها در برابر معماهای NPR تسلیم شدند!

محققان با استفاده از معماهای NPR Sunday Puzzle، مدل‌های پیشرفته هوش مصنوعی را آزمایش کردند.

آیا هوش مصنوعی واقعاً می‌تواند مانند انسان فکر کند؟

تاریخ دقیق روز کتاب و کتاب‌ خوانی ۱۴۰۴ چه روزی هست؟

سه تاره اطلس 3 همان نجم مذنّب وعده داده شده است؟ – ستاره قبل ظهور

۷ آبان روز بزرگداشت کوروش کبیر، بنیان‌ گذار هخامنشیان

بیوگرافی نیکی نیکول: خواننده آرژانتینی که نامزد یامال است