Las novedades de Google I/O: lanzamiento del Buscador con IA, Project Astra, Veo vs Sora y nuevo Gemini

Inteligencia artificial

Las novedades de Google I/O: lanzamiento del Buscador con IA, Project Astra, Veo vs Sora y nuevo Gemini

La conferencia de desarrolladores de Google ha tenido a la inteligencia artificial como protagonista y ha mostrado un buen número de novedades

Las novedades de Google I/O: lanzamiento del buscador con IA, Project Astra, Veo Vs Sora y nuevo Gemini.
Las novedades de Google I/O: lanzamiento del buscador con IA, Project Astra, Veo Vs Sora y nuevo Gemini.Google.

Google ha iniciado esta tarde su conferencia anual de desarrolladores, Google I/O. Se trata de un evento cuyo protagonismo, tradicionalmente, lo ha acaparado Android y el ecosistema de aplicaciones de Google, pero que el año pasado ya concedió una parte importante del espacio en la conferencia de inauguración a la IA. En este 2024, prácticamente no se ha hablado de otra cosa y ha dejado una importante ristra de anuncios. Muchos, como suele suceder en este campo, aún con disponibilidad en el futuro o muy limitada en el presente, pero también ha habido productos concretos que ya se pueden usar.

AI Overviews, la IA ya está disponible en el Buscador de Google, en Estados Unidos

Google anunció en el pasado I/O la llegada de la inteligencia artificial al buscador, lo que supone un cambio sustancial en el producto y en el modelo de negocio de Google basado en la publicidad. Durante el año transcurrido se ha conocido como Google Search Generative Experience, SGE, y ha estado disponible para usuarios limitados en Search Labs. Ahora se lanza en abierto para Estados Unidos y en inglés, otros países e idiomas llegarán más adelante.

Gemini llega al Buscador.
Gemini llega al Buscador.Google.

El Buscador de Google no renuncia a los listados ordenados de webs para que el usuario elija lo que le parece más acertado, sino que incluye un nuevo módulo llamado AI Overviews, algo así como Vista General IA, que es una contestación a la búsqueda del usuario en lenguaje natural y con enlaces. Utiliza una versión de Gemini adaptada a este fin, y es multimodal. Es decir, puede entender varios formatos, no solo texto. También audio e imagen.

La duda que atenaza a Google es cómo la IA puede afectar a su negocio publicitario. Según Liz Reid, vicepresidenta de búsquedas de la compañía, los enlaces que muestra AI Overviews reciben más clics que los incluidos en el listado tradicional de resultados, pero cabe preguntarse por qué un usuario pincharía en el enlace y visitaría otra web con más anuncios si ya tiene la información que necesita masticada por la IA y disponible en el buscador. Otro caso es el de las búsquedas relacionadas con compras o reservas, donde la afirmación de Reid encaja mejor.

También será capaz de responder preguntas complejas, con múltiples aspectos. Por ejemplo, se le podrá preguntar por los mejores lugares para practicar pilates en una ciudad, a qué distancia están y qué ofertas tienen para nuevos clientes, y AI Overviews facilitará toda la información necesaria en un lenguaje natural, exigiendo el mínimo esfuerzo cognitivo al usuario.

Project Astra

OpenAI presentó ayer su nuevo modelo de lenguaje, GPT-4o, y sus nuevas capacidades de voz que lo asemejan a un asistente IA muy similar al que interpretaba Scarlett Johansson en la película Her de Spike Jonze. El producto que Google ha presentado en la misma línea es Project Astra, que difícilmente será su nombre comercial cuando esté disponible.

Se trata de un asistente virtual con inteligencia artificial que llegará en forma de app para móviles, pero no solo. Según ha explicado Demis Hassabis, cofundador de DeepMind que ahora es la división IA de Google, será capaz de ver lo que hay a su alrededor, identificarlo y responder cuestiones sobre ello.

Hassabis ha señalado lo que Google pretende con Project Astra es “desarrollar agentes de IA universales que puedan ser útiles en nuestra vida cotidiana” y puedan entender y responder como hacen los humanos. También “recordar lo que ve y oye para entender el contexto y actuar”.

En el ejemplo mostrado en la conferencia en vídeo, no en directo, una persona utiliza el móvil para identificar lo que hay alrededor, por ejemplo, el barrio en el que se encuentra enfocando desde una ventana. La sorpresa ha sido cuando le ha preguntado al asistente dónde están sus gafas y entonces se ha visto que se trataba de unas gafas con cámara e integración con Project Astra. Debería estar disponible antes de que termine el año.

Gemini en Fotos: Pregunta a Fotos

Gemini en Fotos.
Gemini en Fotos.Google.

Google ha integrado Gemini en la app Fotos. Pregunta a Fotos es una nueva función experimental, que llegará en los próximos meses, con la que será más fácil recuperar imágenes perdidas por la galería.

Con Pregunta a Fotos, el usuario puede realizar cualquier búsqueda en su galería con preguntas en lenguaje natural. Por ejemplo, "muéstrame la mejor foto de todos los parques de atracciones que he visitado", de forma que no tendrá que realizar manualmente la selección.

Veo e Imagen 3

Paisaje creado con Imagen 3.
Paisaje creado con Imagen 3.Google.

Google también ha presentado nuevos modelos de texto a imagen y texto a vídeo. El primero es Imagen 3, que como su nombre indica es una evolución de modelos anteriores que ofrece como principal mejora su capacidad para generar texto en las imágenes, algo que sigue siendo azaroso en otros modelos como DALL-E y Midjourney.

Veo es la respuesta a Sora, la IA texto de vídeo de OpenAI que dejó con la boca abierta a todo el mundo el pasado febrero. Esta IA podrá generar vídeos a resolución 1080p y de 1 minuto de duración a partir del prompt introducido por el usuario, con una comprensión profunda del lenguaje natural para producir vídeos que respondan con exactitud a la petición, puede trabajar con conceptos visuales como “time lapse” o “toma aérea de paisaje” y destaca en la simulación de físicas en una escena. ¿Cuándo estarán disponibles? Habrá que esperar.

Gemini 1.5 Pro con 2 millones de tokens, Gemini Flash

Gemini llegó el año pasado para sustituir a Bard y lo hizo basándose en un nuevo modelo de lenguaje. Ahora, la nomenclatura que tenemos a estas alturas es complicada. Inicialmente se lanzó Gemini Nano, Pro y Ultra. Nano para ejecutarse localmente en móviles, como los Pixel 8, Pro con mejores capacidades que aquel y Ultra el más avanzado, comparable a GPT-4.

Después avanzó el Pro, pero no el Ultra, que pasó a ser Pro 1.5 con 1 millón de tokens de contexto. Los tokens se traducen en una determinada cantidad de palabras y significan la cantidad que puede manejar una IA en una conversación con el usuario, el contexto que puede adquirir. Pro ahora ha aumentado hasta los 2 millones, lo que significa que se puede profundizar mucho más con ella. Hasta ahora, estaba disponible en la suscripción Gemini Advanced en España, pero sólo en inglés. Gana el idioma español y puede realizar acciones como resumir un centenar de correos electrónicos del usuario o gestionar documentos de hasta 1.500 páginas.

Gemini 1.5 Flash, el nuevo modelo de lenguaje de Google.
Gemini 1.5 Flash, el nuevo modelo de lenguaje de Google. Google.

A todo esto, hay que añadir un nuevo miembro a la familia Gemini que es Gemini Flash. Se trata de una versión más ligera de Gemini Pro que ofrece un funcionamiento más rápido y es más económico para ejecutar a gran escala. De momento, estará disponible para desarrolladores, no el público general.