گوگل از مدل هوش مصنوعی جدید Gemini 2.5 Computer Use رونمایی کرد

گوگل مدل جدید هوش مصنوعی خود به نام Gemini 2.5 Computer Use را معرفی کرد؛ مدلی که بدون نیاز به API مستقیماً با رابط‌های کاربری تعامل می‌کند و کارهای مرورگر را خودکار انجام می‌دهد.

گوگل از مدل هوش مصنوعی جدید Gemini 2.5 Computer Use رونمایی کرد

به گزارش آناژورنال، شرکت گوگل از مدل تخصصی و پیشرفته‌ای با نام Gemini 2.5 Computer Use پرده‌برداری کرد؛ مدلی که قادر است مانند یک انسان واقعی با کلیک، اسکرول و تایپ‌کردن با رابط‌های کاربری وب و نرم‌افزارهای گرافیکی (GUI) تعامل کند و کارهای پیچیده را به‌صورت خودکار انجام دهد.

تعامل مستقیم هوش مصنوعی با رابط‌های گرافیکی

برخلاف مدل‌های سنتی که برای تعامل با نرم‌افزارها به API نیاز داشتند، مدل جدید گوگل مستقیماً رابط کاربری گرافیکی را درک می‌کند.

این سیستم با دریافت یک اسکرین‌شات از صفحه مرورگر و فرمان کاربر، صفحه را تحلیل کرده و بهترین اقدام بعدی (مثلاً کلیک روی دکمه، تایپ در فیلد یا اسکرول صفحه) را انجام می‌دهد.

سپس با گرفتن اسکرین‌شات جدید، فرآیند تا تکمیل مأموریت ادامه می‌یابد.

این مدل در حال حاضر از ۱۳ عملکرد اصلی پشتیبانی می‌کند که شامل بازکردن مرورگر، تایپ، کلیک، اسکرول و حتی Drag & Drop است.

نمایش قدرت در دموهای کاربردی

گوگل در رویداد معرفی، دو دمو از عملکرد این مدل نمایش داد:

  • در یکی از دموها، Gemini 2.5 Computer Use اطلاعات حیوانات خانگی را از یک وب‌سایت استخراج و آن‌ها را در سیستم مدیریت مشتری (CRM) دیگری وارد می‌کند و در نهایت برای آن‌ها قرار ملاقات تنظیم می‌کند.
  • در دموی دیگر، هوش مصنوعی یک تخته یادداشت دیجیتال آشفته را با کشیدن و رها کردن یادداشت‌ها در دسته‌بندی‌های مناسب مرتب می‌کند.

این فناوری درواقع همان سیستمی است که در پروژه تحقیقاتی Project Mariner و قابلیت‌های AI Mode در موتور جستجوی گوگل مورد استفاده قرار گرفته است.

رقابت مستقیم با OpenAI و Anthropic

رونمایی از این مدل تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای اپلیکیشن‌ها در ChatGPT انجام شد؛ حرکتی که نشان‌دهنده شدت رقابت میان غول‌های هوش مصنوعی است.
Gemini 2.5 Computer Use پاسخ مستقیم گوگل به سیستم‌های مشابه یعنی ChatGPT Agent از OpenAI و Claude’s Computer Use از Anthropic محسوب می‌شود.

عملکرد و محدودیت‌ها

بر اساس بنچمارک‌های رسمی گوگل، این مدل در وظایف کنترل مرورگر و وب عملکردی بهتر از رقبای خود داشته است. با این حال، فعلاً فقط برای مرورگرها بهینه‌سازی شده و کنترل کامل سیستم‌عامل دسکتاپ را – برخلاف رقبا – ندارد.

دسترسی توسعه‌دهندگان

مدل Gemini 2.5 Computer Use از امروز به‌صورت پیش‌نمایش (Preview) از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در اختیار توسعه‌دهندگان قرار گرفته است.

سوالات متداول

مدل Gemini 2.5 Computer Use گوگل چه قابلیتی دارد؟
این مدل می‌تواند مانند یک کاربر انسانی با رابط‌های وب و نرم‌افزارها تعامل کند و کارهای پیچیده را خودکار انجام دهد.

تفاوت آن با مدل‌های قبلی چیست؟
برخلاف مدل‌های سنتی، نیازی به API ندارد و مستقیماً از طریق اسکرین‌شات محیط کار را تحلیل می‌کند.

آیا این مدل می‌تواند دسکتاپ را کنترل کند؟
در حال حاضر خیر؛ این نسخه فقط برای مرورگرها بهینه‌سازی شده است.

چه زمانی برای استفاده عمومی در دسترس قرار می‌گیرد؟
اکنون در حالت پیش‌نمایش برای توسعه‌دهندگان از طریق Google AI Studio و Vertex AI قابل استفاده است.

تیم تحریریه آناژورنال متشکل از روزنامه‌نگاران باتجربه و متخصص در حوزه‌های خبری متنوع از جمله اخبار سینمای ایران و جهان، فناوری، و رویدادهای محلی است. این تیم با بیش از چند سال تجربه در رسانه‌ آناژورنال، به ارائه اخبار دقیق، به‌روز و جذاب متعهد است.