تمام آنچه که باید درباره مدل‌های جمینی گوگل (Gemini) و قابلیت‌ های جدید آن بدانید!

مدل‌های جمینی گوگل با قابلیت‌های پیشرفته هوش مصنوعی، شامل چت‌بات، تولید تصاویر و ادغام با دستگاه‌های هوشمند معرفی شدند.

تمام آنچه که باید درباره مدل‌های جمینی گوگل (Gemini) و قابلیت‌ های جدید آن بدانید!
تمام آنچه که باید درباره مدل‌های جمینی گوگل (Gemini) و قابلیت‌ های جدید آن بدانید!

به گزارش رسانه تحلیلی خبری آناژورنال گوگل با معرفی خانواده مدل‌های جمینی (Gemini)، تحولی بزرگ در زمینه هوش مصنوعی ایجاد کرده است.

این مدل‌ها که توسط DeepMind و گوگل ریسرچ توسعه داده شده‌اند، قابلیت‌های چندرسانه‌ای (multimodal) گسترده‌ای دارند و به کاربران امکان انجام انواع مختلفی از کارها را می‌دهند.

جمینی چیست؟

جمینی مجموعه‌ای از مدل‌های هوش مصنوعی است که قادر به پردازش متن، تصویر، صدا و ویدیو هستند.

این مدل‌ها به طور کلی در چهار نسخه اصلی تقسیم می‌شوند:

  • جمینی اولترا: بزرگ‌ترین مدل، مناسب برای کارهای پیچیده چندرسانه‌ای.
  • جمینی پرو: مدل پرچم‌دار، بهینه‌سازی شده برای عملکرد و دقت.
  • جمینی فلش: نسخه سبک‌تر و سریع‌تر پرو، شامل جمینی فلش-لایت و جمینی فلش‌تینکینگ که قادر به انجام استدلال‌های پیچیده هستند.
  • جمینی نانو: مدل‌های کوچک‌تر که برای استفاده‌های آفلاین و مستقیم روی دستگاه‌ها مانند تلفن‌های هوشمند بهینه شده‌اند.
جمینی چیست؟

برخلاف مدل قبلی گوگل به نام لامدا که فقط مبتنی بر متن بود، جمینی کاملاً چندرسانه‌ای است و برای انجام وظایف مختلف از داده‌های عمومی، تصاویر، صدا، ویدیو و کد آموزش دیده است.

اپلیکیشن‌های جمینی vs مدل‌های جمینی:

  • اپلیکیشن‌های جمینی: این اپ‌ها رابط‌های کاربری هستند که با مدل‌های اصلی جمینی تعامل دارند. از جمله این اپ‌ها می‌توان به دستیار گوگل و جستجوی گوگل اشاره کرد که به کاربران امکان انجام کارهایی مانند خلاصه‌سازی، تولید محتوا و پاسخ‌دهی به سوالات را می‌دهند.
  • مدل‌های جمینی: این‌ها هسته‌های هوش مصنوعی هستند که این اپ‌ها و سایر ابزارها را توانمند می‌سازند. توسعه‌دهندگان می‌توانند از این مدل‌ها از طریق پلتفرم ابری گوگل (Vertex AI) استفاده کنند.

ویژگی‌های کلیدی:

  • جمینی پیشرفته: این نسخه ویژه برای کاربران حرفه‌ای است که به ویژگی‌های پیشرفته‌ای مانند یادآوری (یادآوری تعاملات قبلی با مدل) و پردازش حجم بالای داده‌ها نیاز دارند. این نسخه به طور خاص برای استفاده از ابزارهای بهره‌وری مانند Docs، Sheets و Gmail در نظر گرفته شده است.
  • جمز (Gems): کاربران می‌توانند چت‌بات‌های سفارشی با استفاده از توضیحات طبیعی ایجاد کنند. این چت‌بات‌ها می‌توانند وظایف خاصی مانند ارائه برنامه ورزشی یا دستیار شخصی را انجام دهند.
  • تعامل صوتی (جمینی لایو): قابلیت جمینی لایو برای برقراری چت‌های صوتی عمیق و تعاملات در زمان واقعی طراحی شده است. کاربران می‌توانند در هنگام صحبت، سوالات خود را از جمینی بپرسند و این مدل به صورت پویا به تغییرات گفتاری کاربر واکنش نشان می‌دهد.
  • تولید هنر با Imagen 3: کاربران می‌توانند تصاویر و آثار هنری تولید کنند. مدل Imagen 3 نسبت به نسخه‌های قبلی خود دقت و خلاقیت بیشتری در تولید تصاویر دارد.
جمینی برای کاربردهای خاص

جمینی برای کاربردهای خاص:

  • نسخه مخصوص نوجوانان: نسخه‌ای از جمینی برای دانش‌آموزان با هدف ارتقای آموزش هوش مصنوعی و ارائه راهنمایی‌های اخلاقی برای استفاده مسئولانه از هوش مصنوعی.
  • دستگاه‌های هوشمند: مدل‌های جمینی در دستگاه‌های مختلف گوگل مانند تلویزیون گوگل، ترموستات Nest و گوشی‌های پیکسل به کار گرفته شده‌اند. این مدل‌ها می‌توانند محتوا را توصیه کنند، فیلم‌های امنیتی را خلاصه‌سازی کنند و اتوماسیون‌های هوشمند بر اساس ترجیحات کاربران ایجاد کنند.
  • پشتیبانی آفلاین (جمینی نانو): مدل‌های نانو می‌توانند به صورت آفلاین روی دستگاه‌های هوشمند اجرا شوند و ویژگی‌هایی مانند خلاصه‌سازی صدا و گفتگو را در برنامه‌هایی مانند Recorder (پیکسل) و Smart Reply در Gboard ارائه دهند.

قیمت‌گذاری:

مدل‌های جمینی به صورت پرداخت به ازای استفاده در دسترس هستند.

قیمت‌های پایه برای استفاده از این مدل‌ها به شرح زیر است (تا سپتامبر 2024):

  • جمینی 1.5 پرو: 1.25 دلار به ازای هر 1 میلیون توکن ورودی.
  • جمینی 2.0 فلش: 0.10 دلار به ازای هر 1 میلیون توکن ورودی.
  • جمینی 2.0 فلش-لایت: 0.075 دلار به ازای هر 1 میلیون توکن ورودی.
  • جمینی نانو: هنوز در دسترس عمومی نیست.

ویژگی‌هایی مانند کشینگ محتوا (برای ذخیره‌سازی داده‌های بزرگ) هزینه اضافی دارند.

پروژه آسترا: آینده هوش مصنوعی چندرسانه‌ای

پروژه آسترا که توسط DeepMind گوگل در دست توسعه است، به دنبال ایجاد برنامه‌ها و عامل‌های هوش مصنوعی برای درک همزمان و چندرسانه‌ای داده‌ها (تصاویر، ویدیو، صدا) در زمان واقعی است.

هرچند که این پروژه هنوز در مراحل اولیه است، می‌تواند به تحول در قابلیت‌های هوش مصنوعی کمک کند و یکی از گام‌های گوگل به سمت واقعیت افزوده و تعاملات پیشرفته است.

جمینی گوگل

سوالات متداول:

1. جمینی گوگل چیست؟

جمینی (Gemini) مجموعه‌ای از مدل‌های هوش مصنوعی گوگل است که به‌طور خاص برای پردازش داده‌های چندرسانه‌ای مانند متن، تصویر، صدا و ویدیو طراحی شده است.

این مدل‌ها برای انجام وظایف مختلف، از جمله تولید محتوا، تحلیل داده‌ها و تعامل با دستگاه‌های هوشمند، به‌کار می‌روند.

2. چه تفاوتی بین مدل‌های مختلف جمینی وجود دارد؟

  • جمینی اولترا: مدل قدرتمند برای کارهای پیچیده و محاسباتی.
  • جمینی پرو: مدل پیشرفته برای کدنویسی و تجزیه و تحلیل داده‌ها.
  • جمینی فلش: مدل سبک‌تر و سریع‌تر برای انجام کارهای ساده‌تر و فرآیندهای سریع.
  • جمینی نانو: مدل‌هایی که روی دستگاه‌های موبایل و به‌صورت آفلاین اجرا می‌شوند.

3. چه کاربردهایی برای جمینی وجود دارد؟

چت‌بات‌های سفارشی (جمز)، تولید تصاویر با مدل Imagen، توصیه‌های هوشمند در دستگاه‌های گوگل، و کمک به تکالیف درسی و برنامه‌نویسی تنها چند نمونه از قابلیت‌های این مدل‌ها هستند.

4. آیا جمینی در دستگاه‌های اپل هم قابل استفاده است؟

اپل در حال مذاکره برای استفاده از مدل‌های جمینی در ویژگی‌های Apple Intelligence است، اما هنوز زمان دقیق انتشار و کاربرد آن مشخص نشده است.

فاطمه زاده محمد کارشناس تولید محتوا حدودا 5 سال هست که در حوزه تولید محتوا فعالیت میکنم.