به گزارش آناژورنال، شرکت گوگل از مدل تخصصی و پیشرفتهای با نام Gemini 2.5 Computer Use پردهبرداری کرد؛ مدلی که قادر است مانند یک انسان واقعی با کلیک، اسکرول و تایپکردن با رابطهای کاربری وب و نرمافزارهای گرافیکی (GUI) تعامل کند و کارهای پیچیده را بهصورت خودکار انجام دهد.
تعامل مستقیم هوش مصنوعی با رابطهای گرافیکی
برخلاف مدلهای سنتی که برای تعامل با نرمافزارها به API نیاز داشتند، مدل جدید گوگل مستقیماً رابط کاربری گرافیکی را درک میکند.
این سیستم با دریافت یک اسکرینشات از صفحه مرورگر و فرمان کاربر، صفحه را تحلیل کرده و بهترین اقدام بعدی (مثلاً کلیک روی دکمه، تایپ در فیلد یا اسکرول صفحه) را انجام میدهد.
سپس با گرفتن اسکرینشات جدید، فرآیند تا تکمیل مأموریت ادامه مییابد.
این مدل در حال حاضر از ۱۳ عملکرد اصلی پشتیبانی میکند که شامل بازکردن مرورگر، تایپ، کلیک، اسکرول و حتی Drag & Drop است.
نمایش قدرت در دموهای کاربردی
گوگل در رویداد معرفی، دو دمو از عملکرد این مدل نمایش داد:
- در یکی از دموها، Gemini 2.5 Computer Use اطلاعات حیوانات خانگی را از یک وبسایت استخراج و آنها را در سیستم مدیریت مشتری (CRM) دیگری وارد میکند و در نهایت برای آنها قرار ملاقات تنظیم میکند.
- در دموی دیگر، هوش مصنوعی یک تخته یادداشت دیجیتال آشفته را با کشیدن و رها کردن یادداشتها در دستهبندیهای مناسب مرتب میکند.
این فناوری درواقع همان سیستمی است که در پروژه تحقیقاتی Project Mariner و قابلیتهای AI Mode در موتور جستجوی گوگل مورد استفاده قرار گرفته است.
رقابت مستقیم با OpenAI و Anthropic
رونمایی از این مدل تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای اپلیکیشنها در ChatGPT انجام شد؛ حرکتی که نشاندهنده شدت رقابت میان غولهای هوش مصنوعی است.
Gemini 2.5 Computer Use پاسخ مستقیم گوگل به سیستمهای مشابه یعنی ChatGPT Agent از OpenAI و Claude’s Computer Use از Anthropic محسوب میشود.
عملکرد و محدودیتها
بر اساس بنچمارکهای رسمی گوگل، این مدل در وظایف کنترل مرورگر و وب عملکردی بهتر از رقبای خود داشته است. با این حال، فعلاً فقط برای مرورگرها بهینهسازی شده و کنترل کامل سیستمعامل دسکتاپ را – برخلاف رقبا – ندارد.
دسترسی توسعهدهندگان
مدل Gemini 2.5 Computer Use از امروز بهصورت پیشنمایش (Preview) از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در اختیار توسعهدهندگان قرار گرفته است.
سوالات متداول
مدل Gemini 2.5 Computer Use گوگل چه قابلیتی دارد؟
این مدل میتواند مانند یک کاربر انسانی با رابطهای وب و نرمافزارها تعامل کند و کارهای پیچیده را خودکار انجام دهد.
تفاوت آن با مدلهای قبلی چیست؟
برخلاف مدلهای سنتی، نیازی به API ندارد و مستقیماً از طریق اسکرینشات محیط کار را تحلیل میکند.
آیا این مدل میتواند دسکتاپ را کنترل کند؟
در حال حاضر خیر؛ این نسخه فقط برای مرورگرها بهینهسازی شده است.
چه زمانی برای استفاده عمومی در دسترس قرار میگیرد؟
اکنون در حالت پیشنمایش برای توسعهدهندگان از طریق Google AI Studio و Vertex AI قابل استفاده است.
ارسال پاسخ
نمایش دیدگاه ها