Постер Gemini 2.5 Computer Use. Источник: Google
Подразделение Google DeepMind разработало инновационную ИИ-систему — Gemini 2.5 Computer Use, предназначенную для создания интеллектуальных агентов, способных взаимодействовать с графическими оболочками максимально близко к человеческому поведению.
Возможности Gemini 2.5 Computer Use
- Управление интерфейсами: Технология позволяет выполнять клики, вводить текстовые данные, прокручивать страницы, заполнять формуляры, работать с выпадающими меню и даже осуществлять действия после авторизации.
- Циклический алгоритм интерфейсного взаимодействия: Процесс происходит по схеме «запрос → действие → скриншот → анализ → следующий шаг» до полного завершения задачи.
- Мультиплатформенная поддержка: Модель оптимизирована для веб-браузеров и мобильных приложений с частичной поддержкой десктопных операционных систем.
Механизм функционирования
Система обрабатывает пользовательский запрос, делает моментальный снимок текущего экрана и анализирует предыдущие манипуляции. На основании полученных данных выполняются конкретные действия — нажатие кнопок или ввод текстовой информации. Некоторые операции требуют дополнительного согласования, особенно при финансовых транзакциях или критических процессах.
Принцип работы Gemini 2.5 Computer Use
Ключевые преимущества Gemini 2.5 Computer Use:
- высокая точность на специализированных тестовых платформах,
- минимальная временная задержка относительно конкурентов,
- производительность на 50% выше существующих аналогов.
Для обеспечения максимальной безопасности персональных данных корпорация внедрила комплексную защиту от потенциально опасных действий, непредвиденного поведения и веб-атак.
Разработчикам предоставлен специализированный инструментарий с предварительной оценкой каждого действия и системными механизмами блокировки рискованных операций.
На текущий момент технология применяется в тестировании пользовательских интерфейсов, автоматизации рабочих процессов и создании персональных ассистентов.
Модель доступна в публичной превью-версии через API Gemini в Google AI Studio и Vertex AI.
Источник: Google Blog