انویدیا مدل Llama 3.1 جدیدی معرفی کرد؛ کوچک‌تر از DeepSeek R1 اما قوی‌تر

انویدیا نسخه‌ای جدید و متن‌باز از مدل Llama 3.1 را معرفی کرده که با وجود اندازه کوچک‌تر، عملکرد بهتری نسبت به DeepSeek R1 دارد.

انویدیا مدل Llama 3.1 جدیدی معرفی کرد؛ کوچک‌تر از DeepSeek R1 اما قوی‌تر
انویدیا مدل Llama 3.1 جدیدی معرفی کرد؛ کوچک‌تر از DeepSeek R1 اما قوی‌تر
کانال تلگرام آناژورنال

به گزارش رسانه تحلیلی خبری آناژورنال، انویدیا با معرفی مدل زبان بزرگ جدیدی با نام Llama-3.1 Nemotron Ultra توانست نگاه‌ها را در دنیای هوش مصنوعی به خود جلب کند.

این مدل با وجود اندازه کوچک‌تر نسبت به مدل معروف DeepSeek R1، در آزمون‌های متنوعی عملکردی فراتر از انتظار ثبت کرده است.

جدیدترین اخبار هوش مصنوعی در آناژورنال دنبال کنید.

مدل جدید انویدیا که با ۲۵۳ میلیارد پارامتر طراحی شده، بر پایه نسخه قبلی LLaMA 3.1 از متا توسعه یافته و به‌گونه‌ای بهینه‌سازی شده که قابلیت استدلال پیشرفته، پیروی از دستورات و ایفای نقش به عنوان یک دستیار هوش مصنوعی را داراست.

مدل Nemotron Ultra از طریق فرایند جستجوی معماری عصبی (NAS) طراحی شده و در ساختار آن نوآوری‌هایی مانند حذف لایه‌های توجه و استفاده از شبکه‌های Fused feedforward اعمال شده‌اند.

هدف این ساختار، ارائه خروجی باکیفیت در عین کاهش مصرف منابع محاسباتی است.

جالب‌تر آنکه این مدل تنها با ۸ کارت گرافیک H100 قابل اجراست و برای کاربردهای مختلف در حوزه هوش مصنوعی بهینه شده است.

همچنین از زبان‌های متعددی مانند انگلیسی، فرانسوی، آلمانی، اسپانیایی، هندی، تایلندی و پرتغالی پشتیبانی می‌کند.

در آزمون‌های مهمی مانند MATH500 و AIME25، عملکرد این مدل به‌ترتیب از ۸۰.۴ به ۹۷ درصد و از ۱۶.۶۷ به ۷۲.۵۰ درصد افزایش یافته که نشان از توانمندی بالا در پردازش ریاضی و استدلال دارد.

همچنین در آزمون GPQA نیز از DeepSeek R1 پیشی گرفته و امتیاز ۷۶.۰۱ درصد را ثبت کرده است.

با وجود این پیشرفت‌ها، در برخی آزمون‌های خاص مانند AIME25، DeepSeek R1 هنوز در مواردی برتری دارد.

اما در مجموع می‌توان گفت انویدیا با Nemotron Ultra نشان داده که در رقابت مدل‌های متن‌باز حرف‌های زیادی برای گفتن دارد.

سوالات متداول

1. مدل Llama 3.1 Nemotron Ultra چیه و چه فرقی با بقیه مدل‌ها داره؟
مدل Llama 3.1 Nemotron Ultra یه مدل هوش مصنوعی پیشرفته‌ست که توسط انویدیا ساخته شده. با اینکه نسبت به مدل‌هایی مثل DeepSeek R1 کوچیک‌تره، اما تو خیلی از تست‌ها عملکرد بهتری داره، مخصوصاً تو استدلال و کدنویسی.

2. آیا مدل Llama 3.1 انویدیا از مدل DeepSeek R1 بهتره؟
تو بعضی از تست‌ها بله. مثلاً تو آزمون‌هایی مثل GPQA و IFEval برای درک دستورها و پاسخ‌گویی، عملکردش بهتر بوده. اما تو ریاضیات سنگین DeepSeek هنوز قوی‌تره.

3. این مدل جدید انویدیا روی چه سخت‌افزاری اجرا میشه؟
Llama-3.1 Nemotron Ultra با ۸ کارت گرافیک H100 اجرا میشه، و با معماری‌های جدیدتر مثل B100 و Hopper هم سازگاره. حتی با دقت FP8 هم کار می‌کنه که یعنی میشه سریع و بهینه اجراش کرد.

4. چطوری می‌تونم از این مدل استفاده کنم؟ رایگانه؟
آره، این مدل متن‌بازه و رو پلتفرم Hugging Face در دسترسه. می‌تونی کد، وزن‌ها و دیتاهای آموزش‌دیده‌ش رو دانلود و استفاده کنی.

5. این مدل برای چه کاربردهایی خوبه؟
برای چت‌بات‌ها، تولید کد، استفاده در عامل‌های هوش مصنوعی، و سیستم‌های بازیابی-افزوده (RAG) کاربرد داره. حتی تو زبان‌های مختلف مثل انگلیسی، آلمانی، هندی و… هم پشتیبانی داره.

6. چرا انویدیا لایه توجه (Attention) رو حذف کرده؟
انویدیا با حذف بعضی از بخش‌های سنگین مثل لایه توجه و جایگزینی‌ش با ساختارهای سبک‌تر مثل شبکه‌های Fused feedforward، تونسته مدل رو سریع‌تر و سبک‌تر کنه بدون اینکه کیفیت خروجی افت کنه.

7. تفاوت Llama 3.1 با Llama 4 چیه؟
Llama 4 مدل متاست و هنوز کلی سوال و انتقاد روشه، اما Llama 3.1 نسخه‌ای از اونه که انویدیا بهینه‌سازی‌ش کرده و متن‌باز منتشرش کرده. توی عملکرد هم خیلی جاها حتی از مدل‌های بزرگ‌تر بهتر ظاهر شده.

8. آیا این مدل به درد تولید محتوا هم می‌خوره؟
بله، چون درک بالایی از زبان داره و توی ساختار RAG و پاسخ‌گویی دقیق، بسیار خوب عمل می‌کنه. می‌تونه کمک کنه محتواهایی دقیق، مرتبط و مفید تولید بشن.

9. آیا این مدل هوش مصنوعی چینی‌ها رو شکست داده؟
تو بعضی زمینه‌ها بله، مثلاً مدل DeepSeek R1 که از چین اومده، تو آزمون‌هایی مثل استدلال و اجرای دستور، از Nemotron Ultra ضعیف‌تر ظاهر شده. ولی تو بعضی آزمون‌های ریاضی سنگین هنوز جلوتره.

تبلیغ در آناژورنال بنری
آیدا رادور کارشناس تولید محتوا