به گزارش آناژورنال، OpenAI با معرفی آزمون جدید GDPval عملکرد مدلهای هوش مصنوعی در وظایف واقعی و شغلی را بررسی کرد.
نتایج نشان میدهد GPT-5 بیشترین دقت تخصصی و Claude Opus 4.1 بهترین ظاهر و قالببندی اسناد را داشتهاند.
مدلهای هوش مصنوعی در آزمون GDPval OpenAI چگونه ارزیابی شدند؟
OpenAI اعلام کرده است که آزمون GDPval شامل ۱۳۲۰ وظیفه واقعی از ۴۴ شغل مختلف است، از جمله مهندسی نرمافزار، وکالت و پرستاری. این وظایف توسط گروهی از متخصصان با میانگین ۱۴ سال تجربه کاری طراحی شدهاند. فرمت خروجیها متنوع است و شامل نقشههای مهندسی، لایحههای حقوقی و طرحهای مراقبتهای پرستاری میشود.
چرا GDPval متفاوت از بنچمارکهای سنتی است؟
بر خلاف بنچمارکهای معمولی که ماهیت آکادمیک دارند، GDPval مدلها را با فایلها و ارائههای چندرسانهای مانند اسلاید و اسناد به چالش میکشد تا توانایی آنها را با وظایف یک نیروی کار واقعی مقایسه کند.
کدام مدلها در این آزمون شرکت کردند؟
مدلهای بررسیشده شامل:
- GPT-5، o3، o4-mini و GPT-4o از OpenAI
- Claude Opus 4.1 از آنتروپیک
- جمینای ۲.۵ پرو گوگل
- Grok 4 از xAI
سپس عملکرد آنها توسط کارشناسان متخصص ارزیابی شد.
نتایج آزمون چه چیزی را نشان میدهد؟
- Claude Opus 4.1: بهترین عملکرد در زیبایی و قالببندی خروجیها مانند اسلاید و اسناد
- GPT-5: بالاترین دقت در اطلاعات تخصصی و صحت دادهها
- توانایی مدلها از زمان انتشار GPT-4o در بهار ۲۰۲۴ تا GPT-5 در تابستان ۲۰۲۵ بیش از دو برابر افزایش یافته است
آیا استفاده از مدلهای هوش مصنوعی صرفهجویی اقتصادی دارد؟
طبق گزارش OpenAI، مدلهای پیشرفته میتوانند وظایف GDPval را حدود ۱۰۰ برابر سریعتر و ۱۰۰ برابر ارزانتر از متخصصان انسانی انجام دهند. این محاسبه شامل زمان پردازش و هزینه API است و نظارت انسانی و اصلاح پروژهها را در نظر نمیگیرد.
محدودیتهای آزمون GDPval چیست؟
- تنها یک بار خروجیها بررسی میشوند
- توانایی مدلها در ساخت چند پیشنویس و مدیریت پروژههای طولانیمدت اندازهگیری نشده است
- تمرکز بیشتر روی وظایف شفاف و مشخص است، در حالی که دنیای واقعی وظایف مبهم و پویا دارد
آینده مدلهای هوش مصنوعی بر اساس OpenAI
OpenAI تأکید کرده که مدلها در حال رسیدن به سطحی هستند که میتوانند بخش زیادی از وظایف کاری را انجام دهند و به نیروی انسانی امکان تمرکز روی فعالیتهای پیچیدهتر را بدهند. همچنین قصد دارد نسخههای بعدی GDPval را به حوزههای صنعتی بیشتری گسترش دهد و وظایف دشوارتر و تعاملیتر را اضافه کند.
سؤالات متداول:
چه مدلهایی در آزمون GDPval بهترین عملکرد را داشتند؟
GPT-5 بیشترین دقت تخصصی را داشت و Claude Opus 4.1 بهترین ظاهر و قالببندی خروجیها را ارائه کرد.
GDPval چیست و چه هدفی دارد؟
GDPval آزمونی است که عملکرد مدلهای هوش مصنوعی را در وظایف واقعی و شغلی مانند مهندسی، حقوق و پرستاری ارزیابی میکند تا شباهت آنها با نیروی انسانی واقعی مشخص شود.
تفاوت GDPval با بنچمارکهای سنتی چیست؟
GDPval برخلاف بنچمارکهای آکادمیک، مدلها را با فایلها و ارائههای چندرسانهای مانند اسلاید و اسناد واقعی به چالش میکشد.
آیا استفاده از این مدلها صرفهجویی اقتصادی دارد؟
بله، مدلهای پیشرفته میتوانند وظایف GDPval را حدود ۱۰۰ برابر سریعتر و ارزانتر از متخصصان انسانی انجام دهند، هرچند نظارت انسانی و اصلاح پروژهها در این محاسبه لحاظ نشده است.
محدودیتهای آزمون GDPval چیست؟
GDPval تنها یک بار خروجیها را بررسی میکند و توانایی مدلها در مدیریت پروژههای طولانیمدت یا وظایف مبهم را اندازهگیری نمیکند.
آینده این آزمون چگونه است؟
OpenAI قصد دارد GDPval را به حوزههای صنعتی گستردهتر و وظایف دشوارتر و تعاملیتر توسعه دهد تا قابلیتهای مدلها بهتر سنجیده شود.
ارسال پاسخ
نمایش دیدگاه ها