Революция в автоматизации: Google представляет ИИ-помощника, способного работать с любыми компьютерными интерфейсами

0
15

Компьютер для гиков: зачем вам нужен Gemini 2.5? Постер Gemini 2.5 Computer Use. Источник: Google

Подразделение Google DeepMind разработало инновационную ИИ-систему — Gemini 2.5 Computer Use, предназначенную для создания интеллектуальных агентов, способных взаимодействовать с графическими оболочками максимально близко к человеческому поведению.

Возможности Gemini 2.5 Computer Use

  • Управление интерфейсами: Технология позволяет выполнять клики, вводить текстовые данные, прокручивать страницы, заполнять формуляры, работать с выпадающими меню и даже осуществлять действия после авторизации.
  • Циклический алгоритм интерфейсного взаимодействия: Процесс происходит по схеме «запрос → действие → скриншот → анализ → следующий шаг» до полного завершения задачи.
  • Мультиплатформенная поддержка: Модель оптимизирована для веб-браузеров и мобильных приложений с частичной поддержкой десктопных операционных систем.

Механизм функционирования

Система обрабатывает пользовательский запрос, делает моментальный снимок текущего экрана и анализирует предыдущие манипуляции. На основании полученных данных выполняются конкретные действия — нажатие кнопок или ввод текстовой информации. Некоторые операции требуют дополнительного согласования, особенно при финансовых транзакциях или критических процессах.

Принцип работы Gemini 2.5 Computer Use

Принцип работы Gemini 2.5 Computer Use

Ключевые преимущества Gemini 2.5 Computer Use:

  • высокая точность на специализированных тестовых платформах,
  • минимальная временная задержка относительно конкурентов,
  • производительность на 50% выше существующих аналогов.

Бенчмарки Gemini 2.5 Computer Use

Для обеспечения максимальной безопасности персональных данных корпорация внедрила комплексную защиту от потенциально опасных действий, непредвиденного поведения и веб-атак.

Разработчикам предоставлен специализированный инструментарий с предварительной оценкой каждого действия и системными механизмами блокировки рискованных операций.

На текущий момент технология применяется в тестировании пользовательских интерфейсов, автоматизации рабочих процессов и создании персональных ассистентов.

Модель доступна в публичной превью-версии через API Gemini в Google AI Studio и Vertex AI.

Источник: Google Blog

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ