به گزارش رسانه تحلیلی خبری آناژورنال، انویدیا با معرفی مدل زبان بزرگ جدیدی با نام Llama-3.1 Nemotron Ultra توانست نگاهها را در دنیای هوش مصنوعی به خود جلب کند.
این مدل با وجود اندازه کوچکتر نسبت به مدل معروف DeepSeek R1، در آزمونهای متنوعی عملکردی فراتر از انتظار ثبت کرده است.
جدیدترین اخبار هوش مصنوعی در آناژورنال دنبال کنید.
مدل جدید انویدیا که با ۲۵۳ میلیارد پارامتر طراحی شده، بر پایه نسخه قبلی LLaMA 3.1 از متا توسعه یافته و بهگونهای بهینهسازی شده که قابلیت استدلال پیشرفته، پیروی از دستورات و ایفای نقش به عنوان یک دستیار هوش مصنوعی را داراست.
مدل Nemotron Ultra از طریق فرایند جستجوی معماری عصبی (NAS) طراحی شده و در ساختار آن نوآوریهایی مانند حذف لایههای توجه و استفاده از شبکههای Fused feedforward اعمال شدهاند.
هدف این ساختار، ارائه خروجی باکیفیت در عین کاهش مصرف منابع محاسباتی است.
جالبتر آنکه این مدل تنها با ۸ کارت گرافیک H100 قابل اجراست و برای کاربردهای مختلف در حوزه هوش مصنوعی بهینه شده است.
همچنین از زبانهای متعددی مانند انگلیسی، فرانسوی، آلمانی، اسپانیایی، هندی، تایلندی و پرتغالی پشتیبانی میکند.
در آزمونهای مهمی مانند MATH500 و AIME25، عملکرد این مدل بهترتیب از ۸۰.۴ به ۹۷ درصد و از ۱۶.۶۷ به ۷۲.۵۰ درصد افزایش یافته که نشان از توانمندی بالا در پردازش ریاضی و استدلال دارد.
همچنین در آزمون GPQA نیز از DeepSeek R1 پیشی گرفته و امتیاز ۷۶.۰۱ درصد را ثبت کرده است.
با وجود این پیشرفتها، در برخی آزمونهای خاص مانند AIME25، DeepSeek R1 هنوز در مواردی برتری دارد.
اما در مجموع میتوان گفت انویدیا با Nemotron Ultra نشان داده که در رقابت مدلهای متنباز حرفهای زیادی برای گفتن دارد.
سوالات متداول
1. مدل Llama 3.1 Nemotron Ultra چیه و چه فرقی با بقیه مدلها داره؟
مدل Llama 3.1 Nemotron Ultra یه مدل هوش مصنوعی پیشرفتهست که توسط انویدیا ساخته شده. با اینکه نسبت به مدلهایی مثل DeepSeek R1 کوچیکتره، اما تو خیلی از تستها عملکرد بهتری داره، مخصوصاً تو استدلال و کدنویسی.
2. آیا مدل Llama 3.1 انویدیا از مدل DeepSeek R1 بهتره؟
تو بعضی از تستها بله. مثلاً تو آزمونهایی مثل GPQA و IFEval برای درک دستورها و پاسخگویی، عملکردش بهتر بوده. اما تو ریاضیات سنگین DeepSeek هنوز قویتره.
3. این مدل جدید انویدیا روی چه سختافزاری اجرا میشه؟
Llama-3.1 Nemotron Ultra با ۸ کارت گرافیک H100 اجرا میشه، و با معماریهای جدیدتر مثل B100 و Hopper هم سازگاره. حتی با دقت FP8 هم کار میکنه که یعنی میشه سریع و بهینه اجراش کرد.
4. چطوری میتونم از این مدل استفاده کنم؟ رایگانه؟
آره، این مدل متنبازه و رو پلتفرم Hugging Face در دسترسه. میتونی کد، وزنها و دیتاهای آموزشدیدهش رو دانلود و استفاده کنی.
5. این مدل برای چه کاربردهایی خوبه؟
برای چتباتها، تولید کد، استفاده در عاملهای هوش مصنوعی، و سیستمهای بازیابی-افزوده (RAG) کاربرد داره. حتی تو زبانهای مختلف مثل انگلیسی، آلمانی، هندی و… هم پشتیبانی داره.
6. چرا انویدیا لایه توجه (Attention) رو حذف کرده؟
انویدیا با حذف بعضی از بخشهای سنگین مثل لایه توجه و جایگزینیش با ساختارهای سبکتر مثل شبکههای Fused feedforward، تونسته مدل رو سریعتر و سبکتر کنه بدون اینکه کیفیت خروجی افت کنه.
7. تفاوت Llama 3.1 با Llama 4 چیه؟
Llama 4 مدل متاست و هنوز کلی سوال و انتقاد روشه، اما Llama 3.1 نسخهای از اونه که انویدیا بهینهسازیش کرده و متنباز منتشرش کرده. توی عملکرد هم خیلی جاها حتی از مدلهای بزرگتر بهتر ظاهر شده.
8. آیا این مدل به درد تولید محتوا هم میخوره؟
بله، چون درک بالایی از زبان داره و توی ساختار RAG و پاسخگویی دقیق، بسیار خوب عمل میکنه. میتونه کمک کنه محتواهایی دقیق، مرتبط و مفید تولید بشن.
9. آیا این مدل هوش مصنوعی چینیها رو شکست داده؟
تو بعضی زمینهها بله، مثلاً مدل DeepSeek R1 که از چین اومده، تو آزمونهایی مثل استدلال و اجرای دستور، از Nemotron Ultra ضعیفتر ظاهر شده. ولی تو بعضی آزمونهای ریاضی سنگین هنوز جلوتره.
ارسال پاسخ
نمایش دیدگاه ها