Crónica España.

Crónica España.

Gemini 2.5 capacita a la IA para operar directamente en aplicaciones y sitios web.

Gemini 2.5 capacita a la IA para operar directamente en aplicaciones y sitios web.

En una reciente noticia anunciada desde Madrid, Google ha presentado de manera oficial la vista previa de su innovador modelo de inteligencia artificial, denominado Gemini 2.5 Computer Use. Este avance promete revolucionar la forma en que los agentes digitales pueden realizar tareas, brindándoles la capacidad de interactuar directamente con páginas web y aplicaciones, imitando el comportamiento humano al hacer clic y desplazarse por las interfaces.

A diferencia de los modelos de inteligencia artificial existentes, que operan principalmente a través de API estructuradas, Google ha destacado la necesidad de que en muchas actividades digitales, todavía es imperativo que exista una interacción concreta con interfaces gráficas. Un ejemplo claro de esto es cuando se trata de completar y enviar formularios en línea.

Para abordar esta desafío, Google ha establecido que es crucial que la inteligencia artificial pueda navegar por diversas plataformas como lo haría un ser humano. Esto implica realizar acciones como hacer clic, escribir y desplazarse por las diferentes funcionalidades de la interfaz.

Con esta premisa en mente, la empresa ha introducido Gemini 2.5 Computer Use, que se basa en las capacidades de comprensión y razonamiento visual de su predecesor, Gemini 2.5 Pro. Este nuevo modelo permite a los agentes de IA interactuar de manera efectiva con interfaces gráficas, tanto en entornos web como móviles.

En un comunicado publicado en su blog, Google ha explicado que este modelo no solo permite navegar por páginas y buscar información, sino que también puede hacer clic en botones, completar formularios o realizar acciones como arrastrar y soltar elementos en la interfaz, todo ello basándose en el contexto visual que puede captar.

Además, aunque está diseñado específicamente para funcionar óptimamente en navegadores web, Gemini 2.5 Computer Use también tiene aplicaciones en tareas de control en dispositivos móviles. Sin embargo, Google aclara que aún no está listo para implementarse a nivel de sistemas operativos de escritorio.

Esta nueva herramienta, accesible a través de la API de Gemini, se activa mediante una solicitud del usuario, una captura de pantalla del entorno y un historial de acciones previas. El modelo procesa esta información para generar respuestas que simulan acciones en la interfaz, aunque en ocasiones puede requerir una confirmación del usuario para proceder con acciones importantes, como realizar compras en línea. Todo el proceso está resguardado por un sistema de seguridad externo para garantizar la protección de los usuarios.

Google ha afirmado que Gemini 2.5 Computer Use ha demostrado un rendimiento sobresaliente en diferentes pruebas de control web y móvil, superando evaluaciones internas y de terceros como Broserbase. Este modelo destaca por su alta precisión al operar un navegador y gestionar tareas con gran rapidez.

La compañía ha enfatizado que la capacidad de completar formularios de manera eficiente, manipular elementos interactivos y operar en sesiones protegidas representa un hito importante para la evolución de agentes de inteligencia artificial más versátiles y robustos.

Por si fuera poco, la vista previa de Gemini 2.5 Computer Use ya está a disposición de los desarrolladores a través de Google AI Studio y Vertex AI. Además, ya se están utilizando sus funcionalidades para mejorar características en el Modo IA de Búsqueda y en Project Mariner, un proyecto que utiliza inteligencia artificial para llevar a cabo tareas de manera autónoma en navegadores.