Google выпустила ИИ-агента на основе новой модели Gemini 2.5 Computer Use, которая, в свою очередь, сделана на базе Gemini 2.5 Pro.
Агент может работать внутри браузера и самостоятельно выполнять любые действия на сайтах: вводить URL-адреса, заполнять формы, перетаскивать файлы, выбирать параметры в выпадающих меню и чек-листах. Это позволяет агенту самостоятельно выполнять большинство задач на сайтах, не отвлекая пользователя.
Чтобы выполнить действие, Gemini 2.5 Computer Use делает скриншот экрана, анализирует его, историю действий и задачу. Затем нейросеть формирует команду, которую выполняет агент, а затем повторяет цикл.
В демонстрационном видео ИИ-агент сам находит информацию о питомце в Google-таблицах, а затем записывает все его данные в CRM-систему для приёма к врачу.
Google заявляет, что её ИИ-агент превосходит конкурентов во многих тестах.
Протестировать Gemini 2.5 Computer Use можно на сайте Browserbase. Разработчики могут получить API в Google AI Studio и Vertex AI. [Google]
параментры