GPT-5 دقیق‌ترین مدل هوش مصنوعی شد؛ Claude Opus 4.1 در طراحی اسناد پیشتاز

نتایج آزمون GDPval OpenAI نشان می‌دهد GPT-5 بالاترین دقت تخصصی را ثبت کرده و Claude Opus 4.1 بهترین ظاهر اسناد را داشته است.

GPT-5 دقیق‌ترین مدل هوش مصنوعی شد؛ Claude Opus 4.1 در طراحی اسناد پیشتاز

به گزارش آناژورنال، OpenAI با معرفی آزمون جدید GDPval عملکرد مدل‌های هوش مصنوعی در وظایف واقعی و شغلی را بررسی کرد.

نتایج نشان می‌دهد GPT-5 بیشترین دقت تخصصی و Claude Opus 4.1 بهترین ظاهر و قالب‌بندی اسناد را داشته‌اند.

مدل‌های هوش مصنوعی در آزمون GDPval OpenAI چگونه ارزیابی شدند؟

OpenAI اعلام کرده است که آزمون GDPval شامل ۱۳۲۰ وظیفه واقعی از ۴۴ شغل مختلف است، از جمله مهندسی نرم‌افزار، وکالت و پرستاری. این وظایف توسط گروهی از متخصصان با میانگین ۱۴ سال تجربه کاری طراحی شده‌اند. فرمت خروجی‌ها متنوع است و شامل نقشه‌های مهندسی، لایحه‌های حقوقی و طرح‌های مراقبت‌های پرستاری می‌شود.

چرا GDPval متفاوت از بنچمارک‌های سنتی است؟

بر خلاف بنچمارک‌های معمولی که ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد تا توانایی آنها را با وظایف یک نیروی کار واقعی مقایسه کند.

کدام مدل‌ها در این آزمون شرکت کردند؟

مدل‌های بررسی‌شده شامل:

  • GPT-5، o3، o4-mini و GPT-4o از OpenAI
  • Claude Opus 4.1 از آنتروپیک
  • جمینای ۲.۵ پرو گوگل
  • Grok 4 از xAI
    سپس عملکرد آنها توسط کارشناسان متخصص ارزیابی شد.

نتایج آزمون چه چیزی را نشان می‌دهد؟

  • Claude Opus 4.1: بهترین عملکرد در زیبایی و قالب‌بندی خروجی‌ها مانند اسلاید و اسناد
  • GPT-5: بالاترین دقت در اطلاعات تخصصی و صحت داده‌ها
  • توانایی مدل‌ها از زمان انتشار GPT-4o در بهار ۲۰۲۴ تا GPT-5 در تابستان ۲۰۲۵ بیش از دو برابر افزایش یافته است

آیا استفاده از مدل‌های هوش مصنوعی صرفه‌جویی اقتصادی دارد؟

طبق گزارش OpenAI، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود ۱۰۰ برابر سریع‌تر و ۱۰۰ برابر ارزان‌تر از متخصصان انسانی انجام دهند. این محاسبه شامل زمان پردازش و هزینه API است و نظارت انسانی و اصلاح پروژه‌ها را در نظر نمی‌گیرد.

محدودیت‌های آزمون GDPval چیست؟

  • تنها یک بار خروجی‌ها بررسی می‌شوند
  • توانایی مدل‌ها در ساخت چند پیش‌نویس و مدیریت پروژه‌های طولانی‌مدت اندازه‌گیری نشده است
  • تمرکز بیشتر روی وظایف شفاف و مشخص است، در حالی که دنیای واقعی وظایف مبهم و پویا دارد

آینده مدل‌های هوش مصنوعی بر اساس OpenAI

OpenAI تأکید کرده که مدل‌ها در حال رسیدن به سطحی هستند که می‌توانند بخش زیادی از وظایف کاری را انجام دهند و به نیروی انسانی امکان تمرکز روی فعالیت‌های پیچیده‌تر را بدهند. همچنین قصد دارد نسخه‌های بعدی GDPval را به حوزه‌های صنعتی بیشتری گسترش دهد و وظایف دشوارتر و تعاملی‌تر را اضافه کند.

سؤالات متداول:
چه مدل‌هایی در آزمون GDPval بهترین عملکرد را داشتند؟
GPT-5 بیشترین دقت تخصصی را داشت و Claude Opus 4.1 بهترین ظاهر و قالب‌بندی خروجی‌ها را ارائه کرد.

GDPval چیست و چه هدفی دارد؟
GDPval آزمونی است که عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی مانند مهندسی، حقوق و پرستاری ارزیابی می‌کند تا شباهت آنها با نیروی انسانی واقعی مشخص شود.

تفاوت GDPval با بنچمارک‌های سنتی چیست؟
GDPval برخلاف بنچمارک‌های آکادمیک، مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد واقعی به چالش می‌کشد.

آیا استفاده از این مدل‌ها صرفه‌جویی اقتصادی دارد؟
بله، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود ۱۰۰ برابر سریع‌تر و ارزان‌تر از متخصصان انسانی انجام دهند، هرچند نظارت انسانی و اصلاح پروژه‌ها در این محاسبه لحاظ نشده است.

محدودیت‌های آزمون GDPval چیست؟
GDPval تنها یک بار خروجی‌ها را بررسی می‌کند و توانایی مدل‌ها در مدیریت پروژه‌های طولانی‌مدت یا وظایف مبهم را اندازه‌گیری نمی‌کند.

آینده این آزمون چگونه است؟
OpenAI قصد دارد GDPval را به حوزه‌های صنعتی گسترده‌تر و وظایف دشوارتر و تعاملی‌تر توسعه دهد تا قابلیت‌های مدل‌ها بهتر سنجیده شود.

تیم تحریریه آناژورنال متشکل از روزنامه‌نگاران باتجربه و متخصص در حوزه‌های خبری متنوع از جمله اخبار سینمای ایران و جهان، فناوری، و رویدادهای محلی است. این تیم با بیش از چند سال تجربه در رسانه‌ آناژورنال، به ارائه اخبار دقیق، به‌روز و جذاب متعهد است.