به گزارش رسانه تحلیلی خبری آناژورنال گوگل با معرفی خانواده مدلهای جمینی (Gemini)، تحولی بزرگ در زمینه هوش مصنوعی ایجاد کرده است.
این مدلها که توسط DeepMind و گوگل ریسرچ توسعه داده شدهاند، قابلیتهای چندرسانهای (multimodal) گستردهای دارند و به کاربران امکان انجام انواع مختلفی از کارها را میدهند.
جمینی چیست؟
جمینی مجموعهای از مدلهای هوش مصنوعی است که قادر به پردازش متن، تصویر، صدا و ویدیو هستند.
این مدلها به طور کلی در چهار نسخه اصلی تقسیم میشوند:
- جمینی اولترا: بزرگترین مدل، مناسب برای کارهای پیچیده چندرسانهای.
- جمینی پرو: مدل پرچمدار، بهینهسازی شده برای عملکرد و دقت.
- جمینی فلش: نسخه سبکتر و سریعتر پرو، شامل جمینی فلش-لایت و جمینی فلشتینکینگ که قادر به انجام استدلالهای پیچیده هستند.
- جمینی نانو: مدلهای کوچکتر که برای استفادههای آفلاین و مستقیم روی دستگاهها مانند تلفنهای هوشمند بهینه شدهاند.
برخلاف مدل قبلی گوگل به نام لامدا که فقط مبتنی بر متن بود، جمینی کاملاً چندرسانهای است و برای انجام وظایف مختلف از دادههای عمومی، تصاویر، صدا، ویدیو و کد آموزش دیده است.
اپلیکیشنهای جمینی vs مدلهای جمینی:
- اپلیکیشنهای جمینی: این اپها رابطهای کاربری هستند که با مدلهای اصلی جمینی تعامل دارند. از جمله این اپها میتوان به دستیار گوگل و جستجوی گوگل اشاره کرد که به کاربران امکان انجام کارهایی مانند خلاصهسازی، تولید محتوا و پاسخدهی به سوالات را میدهند.
- مدلهای جمینی: اینها هستههای هوش مصنوعی هستند که این اپها و سایر ابزارها را توانمند میسازند. توسعهدهندگان میتوانند از این مدلها از طریق پلتفرم ابری گوگل (Vertex AI) استفاده کنند.
ویژگیهای کلیدی:
- جمینی پیشرفته: این نسخه ویژه برای کاربران حرفهای است که به ویژگیهای پیشرفتهای مانند یادآوری (یادآوری تعاملات قبلی با مدل) و پردازش حجم بالای دادهها نیاز دارند. این نسخه به طور خاص برای استفاده از ابزارهای بهرهوری مانند Docs، Sheets و Gmail در نظر گرفته شده است.
- جمز (Gems): کاربران میتوانند چتباتهای سفارشی با استفاده از توضیحات طبیعی ایجاد کنند. این چتباتها میتوانند وظایف خاصی مانند ارائه برنامه ورزشی یا دستیار شخصی را انجام دهند.
- تعامل صوتی (جمینی لایو): قابلیت جمینی لایو برای برقراری چتهای صوتی عمیق و تعاملات در زمان واقعی طراحی شده است. کاربران میتوانند در هنگام صحبت، سوالات خود را از جمینی بپرسند و این مدل به صورت پویا به تغییرات گفتاری کاربر واکنش نشان میدهد.
- تولید هنر با Imagen 3: کاربران میتوانند تصاویر و آثار هنری تولید کنند. مدل Imagen 3 نسبت به نسخههای قبلی خود دقت و خلاقیت بیشتری در تولید تصاویر دارد.
جمینی برای کاربردهای خاص:
- نسخه مخصوص نوجوانان: نسخهای از جمینی برای دانشآموزان با هدف ارتقای آموزش هوش مصنوعی و ارائه راهنماییهای اخلاقی برای استفاده مسئولانه از هوش مصنوعی.
- دستگاههای هوشمند: مدلهای جمینی در دستگاههای مختلف گوگل مانند تلویزیون گوگل، ترموستات Nest و گوشیهای پیکسل به کار گرفته شدهاند. این مدلها میتوانند محتوا را توصیه کنند، فیلمهای امنیتی را خلاصهسازی کنند و اتوماسیونهای هوشمند بر اساس ترجیحات کاربران ایجاد کنند.
- پشتیبانی آفلاین (جمینی نانو): مدلهای نانو میتوانند به صورت آفلاین روی دستگاههای هوشمند اجرا شوند و ویژگیهایی مانند خلاصهسازی صدا و گفتگو را در برنامههایی مانند Recorder (پیکسل) و Smart Reply در Gboard ارائه دهند.
قیمتگذاری:
مدلهای جمینی به صورت پرداخت به ازای استفاده در دسترس هستند.
قیمتهای پایه برای استفاده از این مدلها به شرح زیر است (تا سپتامبر 2024):
- جمینی 1.5 پرو: 1.25 دلار به ازای هر 1 میلیون توکن ورودی.
- جمینی 2.0 فلش: 0.10 دلار به ازای هر 1 میلیون توکن ورودی.
- جمینی 2.0 فلش-لایت: 0.075 دلار به ازای هر 1 میلیون توکن ورودی.
- جمینی نانو: هنوز در دسترس عمومی نیست.
ویژگیهایی مانند کشینگ محتوا (برای ذخیرهسازی دادههای بزرگ) هزینه اضافی دارند.
پروژه آسترا: آینده هوش مصنوعی چندرسانهای
پروژه آسترا که توسط DeepMind گوگل در دست توسعه است، به دنبال ایجاد برنامهها و عاملهای هوش مصنوعی برای درک همزمان و چندرسانهای دادهها (تصاویر، ویدیو، صدا) در زمان واقعی است.
هرچند که این پروژه هنوز در مراحل اولیه است، میتواند به تحول در قابلیتهای هوش مصنوعی کمک کند و یکی از گامهای گوگل به سمت واقعیت افزوده و تعاملات پیشرفته است.
سوالات متداول:
1. جمینی گوگل چیست؟
جمینی (Gemini) مجموعهای از مدلهای هوش مصنوعی گوگل است که بهطور خاص برای پردازش دادههای چندرسانهای مانند متن، تصویر، صدا و ویدیو طراحی شده است.
این مدلها برای انجام وظایف مختلف، از جمله تولید محتوا، تحلیل دادهها و تعامل با دستگاههای هوشمند، بهکار میروند.
2. چه تفاوتی بین مدلهای مختلف جمینی وجود دارد؟
- جمینی اولترا: مدل قدرتمند برای کارهای پیچیده و محاسباتی.
- جمینی پرو: مدل پیشرفته برای کدنویسی و تجزیه و تحلیل دادهها.
- جمینی فلش: مدل سبکتر و سریعتر برای انجام کارهای سادهتر و فرآیندهای سریع.
- جمینی نانو: مدلهایی که روی دستگاههای موبایل و بهصورت آفلاین اجرا میشوند.
3. چه کاربردهایی برای جمینی وجود دارد؟
چتباتهای سفارشی (جمز)، تولید تصاویر با مدل Imagen، توصیههای هوشمند در دستگاههای گوگل، و کمک به تکالیف درسی و برنامهنویسی تنها چند نمونه از قابلیتهای این مدلها هستند.
4. آیا جمینی در دستگاههای اپل هم قابل استفاده است؟
اپل در حال مذاکره برای استفاده از مدلهای جمینی در ویژگیهای Apple Intelligence است، اما هنوز زمان دقیق انتشار و کاربرد آن مشخص نشده است.
ارسال پاسخ
نمایش دیدگاه ها