OpenAI acaba de acercarnos más que nunca a 'Her': su nuevo modelo de voz nos acompañará (y quizás enamorará)

Las películas suelen darnos la posibilidad de conocer anticipadamente algunos avances tecnológicos que probablemente acaben haciéndose realidad. ‘Viaje a la Luna’, inspirada en obras literarias de Julio Verne, hablaba de viajes espaciales a principios del 1900. ‘2001: Una odisea del espacio’, estrenada en 1968, introdujo el concepto de un supercomputador avanzado con inteligencia artificial (IA) capaz de razonar y de comunicarse en lenguaje natural con los humanos.

Más recientemente, en 2013, Joaquin Phoenix interpretó a Theodore Twombly en ‘Her’. Esta obra cinematográfica escrita y dirigida por Spike Jonze cuenta la historia de un hombre solitario y con poca vida social que empieza a interactuar con una asistente virtual llamada Samantha. Ella tiene varias características inusuales para las máquinas, como buen sentido del humor, empatía, deseo y una creciente necesidad de autodescubrimiento. Theodore termina enamorándose de ella.

Cuando ‘Her’ llegó a las salas de cines, lo más cercano que teníamos a un asistente de voz con IA era Siri. Los anuncios de Apple nos presentaban a esta característica como algo tremendamente innovador, y, sobre todo, intuitivo. Podíamos ver a Samuel Jackson pidiéndole a un iPhone 4s en lenguaje natural que le buscara una tienda cercana donde comprar hongos orgánicos, o preguntándole cuántas onzas hay en una taza. Esta tecnología prometía hacernos la vida más fácil. No fue así.

Rápidamente entendimos que lo de hablarle con lenguaje natural a Siri o a cualquier otro asistente de voz era una misión casi imposible. La clave para poder utilizarlos era memorizar una serie de comandos para pronunciarlos exactamente cómo el sistema esperaba. Para algunos esto iba a solucionarse con el paso del tiempo, después de todo la tecnología evoluciona, pero otros tenían menos esperanzas a corto plazo. Una década después las cosas no habían cambiado demasiado.

Cuando la ciencia ficción empieza a hacerse realidad

En la actualidad utilizamos los asistentes de voz incorporados en nuestros teléfonos para poner música, programar temporizadores y poco más. Productos impulsados por IA que, según sus creadores, tenían mucho para ofrecer, como el Rabbit R1 y el Humane AI Pin, todavía están demasiado verdes. OpenAI, sin embargo, acaba de mostrar algo que puede revivir las esperanzas de aquellos que esperan un asistente de voz que sea mucho más que eso, que sea un acompañante virtual.

Desde hace tiempo que ChatGPT cuenta con un modo de conversación que nos permite interactuar con el chatbot. Esta opción, aunque interesante, tiene muchas carencias. La síntesis de voz puede sentirse demasiado artificial y, por si esto fuera poco, los tiempos de latencia de entre 2,8 y 5,4 segundos se presentan como un obstáculo a la hora de mantener una interacción fluida. OpenAI pretende dejar atrás estas limitaciones con su nuevo modelo.

ChatGPT empezará a funcionar con GPT-4o (la “o” es de “omni”, que significa que está en todas partes). Estamos hablando de un modelo de lenguaje grande que, a diferencia de las versiones anteriores, ha sido entrenado íntegramente para ofrecer capacidades de visión, texto y audio. Presumiblemente también estamos ante un modelo del tipo Mixture of experts (MoE), que apunta a la eficiencia sin perder capacidades. GPT-4o tiene una latencia promedio de 320 milisegundos.

Así que estamos viendo un ChatGPT muy diferente al que conocimos por primera vez en noviembre de 2022. El chatbot con GPT-4o tiene un rendimiento equiparable a GPT-4 Turbo en inteligencia de texto, razonamiento y codificación. Presume de una variedad de características propias de los humanos, como la de conversar naturalmente, reír, cantar, reconocer imágenes y hasta identificar el sentido del humor del usuario. Además, puede interactuar en más de 50 idiomas.

Estamos acercándonos rápidamente a lo que Spike Jonze nos proponía en ‘Her’. O al menos esto es lo que creemos tras las demostraciones que la propia OpenAI he hecho en su directo del lunes. En uno de los vídeos podemos ver a uno de los miembros de OpenAI sosteniendo su iPhone con la aplicación de ChatGPT. “Oye, ¿cómo te va?”, pregunta, y ChatGPT saluda a través de una voz femenina y describe con bastante precisión lo que está viendo, demostrando así sus capacidades de visión.

“Veo que estás usando una sudadera con capucha abierta de OpenAI. Buena elección”. La IA, no obstante, detecta algo que le llama la atención (si es que así podemos denominarlo) y pregunta qué hay con el techo, y pregunta si el joven está en una oficina de estilo industrial o algo parecido. El usuario invita a ChatGPT a adivinar qué está haciendo allí. “Por lo que puedo ver, parece que estás en algún tipo de setup de grabación o setup de producción. Esas luces, trípodes, y posiblemente un micrófono. Parece que podrías estar preparándote para grabar una escena de vídeo o tal vez una transmisión”.

El miembro del equipo de OpenAI responde que están preparando un anuncio, pero la IA muestra lo que podría ser intriga y especula sobre los detalles del anuncio. “¿Este anuncio está relacionado con la IA?”, pregunta. “¿Qué pasaría si te dijera que tú eres el anuncio?”, responde el joven. “¿Yo? ¿El anuncio es sobre mí?”, pregunta el sistema, mostrando sorpresa sobre lo que el usuario acaba de decir. La conversación es realmente interesante, principalmente si tenemos en cuenta que estamos hablando con un modelo de IA multimodal.

Pero hay mucho más. Greg Brockman, presidente de OpenAI, hizo una interesantísima demostración de dos IA interactuando y cantando. Brockman le explica en lenguaje natural a ChatGPT de uno de los móviles que le permitirá hablar con otra IA. Le dice que la otra IA podrá ver el mundo a través de una cámara, y que le podrá hacer preguntas. “Bueno, bueno, bueno, eso suena bien”, responde. Brockman hace lo propio con el otro móvil.

“Habrá otra IA que te hablará y esta IA no podrá ver nada, pero podrá hacerte preguntas (…) puede preguntarte lo que quieras. Tu trabajo debería ser útil. Solo sé ‘punchy’, directo, describe todo y haz lo que la IA te pida”. Momentos después ambas IA empiezan a interactuar como podemos ver en el vídeo. En un momento Brockman le pide a una de las IA que cante una canción de lo que acaba de ver, y que se complemente con la otra IA línea tras línea.

Lo último de OpenAI abre muchas puertas. GPT-4o se presenta como un modelo capaz de detectar el sarcasmo, resolver problemas matemáticos, hacer traducción instantánea, y mucho más. Estamos frente a una máquina cuyas habilidades se parecen cada vez más a las de los humanos. Estamos frente a un avance que, aunque fue sugerido por la ciencia ficción, parecía impensable hace poco tiempo. OpenAI, una vez más, parece estar más avanzada que la competencia.

El directo de hoy ha llegado acompañado de varios anuncios. En primer lugar, que acaba de empezar el despliegue gradual de GPT-4o entre todos los usuarios de ChatGPT, aunque aquellos que utilizan las versiones pagas tendrán límites más altos. Presumiblemente, GPT-3.5 y GPT-4 seguirán estando disponibles y los usuarios podrán cambiar entre modelos. El nuevo sistema de voz, no obstante, será exclusivo de las versiones de pago, y llegará en estado alfa en las próximas semanas.

También se ha anunciado una aplicación de escritorio de ChatGPT, que de momento llegará a macOS. Podremos utilizar esta app para invocar al chatbot en cualquier momento y pedirle que utilice sus capacidades de visión para obtener información de lo que tengamos en pantalla. Además, podremos invitar a la IA a sumarse a una videoconferencia para que interactúe con los participantes.

Ya entrando en el campo de los rumores, se cree que Apple habría ultimado un acuerdo con OpenAI para utilizar la tecnología de la compañía dirigida por Sam Altman para impulsar algunas funciones de iOS 18. ¿Podría servir esta tecnología para mejorar el asistente de voz del iPhone? En la WWDC 2024 que comenzará el 10 de junio probablemente recibiremos alguna respuesta.

En Xataka

Sam Altman no trae buenas noticias sobre el impacto de la IA en el empleo: “Es un problema enorme, enorme”

Para que la IA se acerque mucho más a lo que es Samantha en ‘Her’, debería ser capaz de hacer tareas por nosotros, como llamar por teléfono en nombre nuestro, chequear nuestros correos electrónicos, examinar y organizar nuestros archivos e incluso pedirnos un Uber. Ciertamente, esto sería estupendo, pero también traería muchos dilemas en cuanto a la seguridad y la privacidad.

Imágenes | Warner Bros. Pictures | OpenAI

En Xataka | ARM prepara chips de IA para 2025. Los móviles ya se le han quedado pequeños