Google ha dado un paso más en el desarrollo de su inteligencia artificial con el lanzamiento de Gemini 2.0, un modelo diseñado para revolucionar la manera en que interactuamos con la tecnología. El lanzamiento de Gemini 2.0 marca una nueva etapa en la familia de modelos de IA de Google. Mientras que Gemini 1.0 y 1.5 se destacaron por su capacidad multimodal para procesar texto, imágenes, audio, vídeo y código, el nuevo modelo va más allá.
Ahora, Gemini 2.0 no solo comprende estas entradas, sino que también genera salidas multimodales, como imágenes nativas y audio sintetizado. Esto supone un avance clave para aplicaciones como la generación de informes complejos o el uso de asistentes virtuales en tareas avanzadas.
“Hoy estamos muy contentos de lanzar nuestra próxima era de modelos diseñados para esta nueva era de agentes de IA: presentamos Gemini 2.0, nuestro modelo más capaz hasta la fecha. Los nuevos avances en multimodalidad -como la generación nativa de imágenes y audio y el uso nativo de herramientas- nos permitirán construir nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal”. Ha explicado Sundar Pichai, CEO de Google, en un comunicado de la compañía.
La empresa también dio a conocer que como parte de este lanzamiento se incluye Gemini 2.0 Flash, un modelo optimizado para dar respuestas más rápidas y eficientes en contextos de tiempo real, lo cual la convierte en una herramienta más atractiva para los usuarios.
De acuerdo con Tulsee Doshi, directora y gerente de producto de Google DeepMind, este sistema también agrega las funciones multimodales. Anteriormente, Flash ha sido utilizado para la programación de herramientas conversacionales, como asistentes digitales, debido a su velocidad para contestar.
A partir de hoy, los usuarios de Gemini pueden acceder a un chat optimizado con la versión experimental 2.0 Flash tanto en la versión de escritorio como en la móvil. Respecto a la aplicación de Gemini, Google dijo que la función estará disponible “pronto”, además de que a inicios de 2025 se extenderá a más productos.
Este se trata de un modelo de referencia con baja latencia y rendimiento mejorado. “Además de admitir entradas multimodales como imágenes, vídeo y audio, Flash 2.0 admite ahora salidas multimodales, como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe sintetizado a partir de texto (TTS). También está integrado de forma nativa con herramientas como la Búsqueda de Google o la ejecución de código, así como funciones de terceros definidas por el usuario”, explico la compañía.
“En el último año”, comentó Sundar Pichai, CEO de Google, “hemos invertido en el desarrollo de agentes, lo que significa que pueden entender más sobre el mundo que le rodea, anticiparse múltiples pasos y tomar acción en su nombre bajo supervisión”.
En este sentido, la firma también dio a conocer el proyecto Mariner, un prototipo en etapa inicial de desarrollo aplicado a tareas referentes con el navegador, pues es capaz de entender y razones entre la información que se ve en la pantalla para solicitar tareas específicas de esa página.
Google también dio a conocer los primeros vistazos de Jules, un agente autónomo centrado en desarrolladores, pues se trata de una plataforma capaz de generar líneas de código e integrarlas directamente a los flujos de trabajo en GitHub.
Aunque ya se había mostrado por primera vez previo al evento anual I/O, Google dio nuevas pistas sobre su ambicioso proyecto Astra, en el cual se combinan una gran parte de las herramientas de IA que ha ido desarrollando hasta ahora para generar una tecnología conversacional en tiempo real que funciona en diferentes tipos de dispositivos.
Con Astra es posible tener un asistente digital que responde casi a la velocidad de un humano -como si se tratara de película de ciencia ficción-, habla diferentes idiomas y, según las novedades que presentó Google, ahora está conectado a las plataformas Search, Maps y Lens para ser más útil.
Bibo Xu, gerente de producto en Google DeepMind y líder del proyecto, explicó que tras las pruebas que han hecho de Astra, ahora tiene la habilidad de combinar idiomas dentro de una misma conversación, además de entender acentos de diferentes regiones.
También tiene una memoria mejorada de 10 minutos durante una sesión e incluso recuerda elementos de conversaciones pasadas, algo que lo convierte en una herramienta personalizada para cada usuario.
“Estamos trabajando para traer este tipo de capacidades a los productos de Google, como la app de Gemini, nuestro asistente de IA y otros dispositivos, como gafas”, comentó Xu, quien también anticipó que en el futuro habrá noticias sobre este dispositivo.
Cabe recordar que los lentes inteligentes Google Glass se lanzaron en 2012, pero nunca lograron salir a flote en el mercado y se descontinuaron en marzo del año pasado. Durante ese periodo, ni siquiera la versión para empresas logró funcionar, pero ahora, en combinación con la IA, podrían tener un regreso.
Desde Google han presentado el primer modelo de la familia Gemini 2.0: una versión experimental de Gemini 2.0 Flash.
Google también ha anunciado que, a partir de hoy, los usuarios y usuarias de la versión web de ordenador y móvil de Gemini podrán acceder a una versión optimizada para chat de Gemini 2.0 Flash. Para ello solo tendrán que seleccionarla desde el menú desplegable de modelos. La integración de este modelo en su app móvil está prevista para realizarse próximamente.
C.