به گزارش رسانه تحلیلی خبری آناژورنال نتایج یک مطالعه جدید که توسط دانشگاه هنگ کنگ و دانشگاه کالیفرنیا، برکلی انجام شده، نشان میدهد که مدلهای هوش مصنوعی میتوانند بدون نیاز به دادههای دستی و تنها با یادگیری از خود، عملکرد بهتری در تعمیم به دادههای ناآشنا داشته باشند.
این یافتهها به طور خاص به مدلهای زبان بزرگ (LLMs) و مدلهای زبان بصری (VLMs) مربوط میشود و فرضیهای را که معتقد بود مدلها برای آموزش نیاز به دادههای برچسبگذاری شده دارند، به چالش میکشد.
در روش سنتی آموزش مدلها، تنظیم دقیق نظارتشده (SFT) برای افزایش دقت مدلها مورد استفاده قرار میگیرد.
در این روش، پس از آموزش اولیه مدل بر روی دادههای خام، مدل روی یک مجموعه داده بزرگ از مثالهای دستی آموزش میبیند.
این فرایند اگرچه میتواند مدل را برای انجام کارهای خاص راهنمایی کند، اما جمعآوری دادهها هزینهبر و زمانبر است و ممکن است به مدلها در تعمیم به دادههای ناآشنا کمک نکند.
از سوی دیگر، یادگیری تقویتی (RL) به مدلها این امکان را میدهد که بدون نیاز به مثالهای دستی، خودشان به حل مسائل بپردازند.
مهمترین مثال در این زمینه DeepSeek-R1 است که با استفاده از یادگیری تقویتی، توانسته است به انجام وظایف پیچیدهای مانند استدلال منطقی بپردازد.
در آزمایشات انجام شده، محققان از دو وظیفه اصلی برای ارزیابی تواناییهای تعمیم مدلها استفاده کردند: ابتدا با استفاده از مجموعهای از قوانین، مدلهای متنی را آموزش دادند و سپس توانایی آنها را برای تعمیم به مجموعه قوانین دیگر آزمایش کردند.
همچنین، مدلهای بصری را با تغییر رنگها و طرحهای مختلف آزمایش کردند تا توانایی آنها در تعمیم به ورودیهای بصری مختلف را بسنجند.
نتایج این تحقیق نشان میدهد که یادگیری تقویتی به طور مداوم عملکرد بهتری در برابر دادههای ناآشنا نشان میدهد، در حالی که مدلهای آموزشدیده با SFT به طور عمده فقط بر روی دادههای آموزشدیده خوب عمل میکنند.
این موضوع میتواند تاثیر زیادی بر بهینهسازی هزینهها و زمان در صنایع مختلف داشته باشد، چرا که ایجاد دادههای دستی میتواند بسیار پرهزینه و زمانبر باشد.
این یافتهها میتواند نویدبخش استفاده از رویکردهای بیشتر یادگیری تقویتی در مدلهای هوش مصنوعی باشد، به ویژه در شرایطی که تولید دادههای آموزشی به سختی انجام میشود.
سوالات متداول:
1. آیا مدلهای هوش مصنوعی نیاز به دادههای دستی برای یادگیری دارند؟
خیر، بر اساس مطالعه جدید، مدلها میتوانند بهتر از طریق یادگیری خودکار و بدون نیاز به دادههای دستی عمومیسازی کنند.
2. چرا یادگیری تقویتی (RL) بهتر از تنظیم دقیق نظارتشده (SFT) عمل میکند؟
یادگیری تقویتی قادر است به طور مؤثرتری به دادههای ناآشنا تعمیم دهد، در حالی که تنظیم دقیق نظارتشده ممکن است باعث حفظ اطلاعات قبلی شود و نتواند به درستی به دادههای جدید پاسخ دهد.
3. آیا یادگیری تقویتی تنها راهحل برای مدلهای هوش مصنوعی است؟
خیر، تنظیم دقیق نظارتشده هنوز برای تثبیت فرمت خروجی مدل و پشتیبانی از یادگیری تقویتی ضروری است.
4. این یافتهها چه تأثیری بر استفاده از مدلهای هوش مصنوعی در دنیای واقعی دارند؟
این یافتهها میتوانند به کاهش هزینههای تولید دادههای آموزشی دستی و همچنین بهبود عملکرد مدلها در شرایط ناآشنا کمک کنند.
ارسال پاسخ
نمایش دیدگاه ها