Lo nuevo de ChatGPT es impresionante: GPT-4o puede traducir en tiempo real y tener conversaciones más naturales

Llegó el día. OpenAI ha anunciado un nuevo modelo de inteligencia artificial, llamado GPT-4o, y promete ser un nuevo salto en la evolución de ChatGPT y sus capacidades. Específicamente, OpenAI promete un ChatGPT mucho más rápido y más inteligente, mejorando sus capacidades en texto, audio y vídeo.

Durante el evento de presentación online, que duró unos 30 minutos, el nuevo ChatGPT nos sorprendió con su latencia reducida, lo que significa que ahora el chatbot puede conversar con el usuario de una forma más natural y más rápida, sin que tengamos que esperar varios segundos antes de que nos responda, como era necesario hasta ahora.

Y por si fuera poco, OpenAI también nos ha sorprendido revelando que ahora ChatGPT también puede usarse como traductor en tiempo real.

Hazte a un lado, Translate. ChatGPT ahora puede traducir en tiempo real

La presentación fue liderada por Mira Murati, directora técnica de OpenAI. Murati comenzó el evento anunciando el nuevo modelo multimodal GPT-4o, además de la nueva aplicación para el escritorio de ChatGPT. En el caso del nuevo modelo, tiene una inteligencia al nivel de GPT-4 pero es mucho más rápido, la latencia de las respuestas ahora es mínima: según OpenAI, GPT-4o tiene un tiempo de respuesta por voz de unos 320 milisegundos, similar al de los seres humanos.

En Xataka Móvil

No esperaba que ChatGPT pudiera sorprenderme más, hasta que probé a conversar con él. Rompió la barrera de la realidad

El nuevo ChatGPT respondió con naturalidad y de inmediato a las consultas que le hicieron durante el evento. Estas incluyeron el análisis de las expresiones en el rostro de uno de los participantes de la conferencia (usando la cámara del móvil), e incluso un ejemplo en el que ChatGPT ofrecía pistas para poder solucionar una ecuación matemática. Pistas, pero no la respuesta, ya que la idea era que ChatGPT pudiera ayudar al usuario a solucionarla por sí mismo.

ChatGPT puede traducir en tiempo real, ofreciendo respuestas naturales para entender mejor qué dice cada persona en su idioma

GPT-4o da un salto en la velocidad al interactuar con los usuarios. Hasta ahora, GPT-3.5 ofrece respuestas con una latencia promedio de 2,8 segundos, mientras que GPT-4 tiene una latencia de 5,4 segundos. En GPT-4o, la latencia disminuye hasta los 320 milisegundos en promedio.

Además, permite la interrupción de la locución de forma natural, lo que significa que podemos interrumpir al chatbot mientras realiza alguna acción para ofrecerle más contexto o simplemente pedirle que se detenga, sin necesidad de presionar un botón.

En pocas palabras, podemos interactuar de una forma más natural con el chatbot, e incluso interrumpiéndolo mientras responde, como si estuviéramos hablando con otra persona. El chatbot también puede responder usando diferentes tonos de voz, si así se lo pedimos.

Una de las novedades más impresionantes que demostraron en el escenario fue la capacidad de traducir una conversación en tiempo real. Murati conversó con un ingeniero de OpenAI, ella hablando en italiano y él en inglés, y de forma inmediata ChatGPT podía traducir la conversación de una forma natural, como si una tercera persona estuviese ayudando a estos dos a comunicarse.

Es decir, en lugar de simplemente traducir lo que decía Murati palabra a palabra, ChatGPT añadió contexto para que sonara más natural y comprensible la traducción: "Mike, ella pregunta si las ballenas pudieran hablar, ¿qué nos dirían?"

En Xataka Móvil

ChatGPT reemplazó a Siri en mi iPhone, así es como lo uso de inmediato y sin acceder a la aplicación

Por último, pero no menos importante, el nuevo modelo también mejora sus capacidades de visión, lo que significa que podemos mostrarle una imagen o una foto para que la analice y nos ofrezca información al respecto. De este modo pudo analizar la ecuación matemática que mencionamos anteriormente. Además, en otra demostración en la que OpenAI hizo que un chatbot hablara con otro chatbot, la IA usó la cámara del móvil para analizar los elementos presentes en una habitación y la vestimenta del usuario.

¿Cuándo estará disponible?

Las nuevas capacidades de GPT-4o en texto e imágenes comienzan a estar disponibles en ChatGPT desde el día de hoy, y llegará de forma progresiva a todos los usuarios, tanto para las personas suscritas a ChatGPT Plus como para quienes usen la versión gratuita de ChatGPT.

La conversación mejorada de GPT-40 llegará dentro de las próximas semanas a los usuarios de ChatGPT Plus. OpenAI anunciarán más detalles de su nuevo modelo multimodal próximamente.

Vía | OpenAI

En Xataka Móvil | Cómo activar el 'modo Diablo' de ChatGPT desde el móvil y qué diferencias tiene con el "normal"

En Xataka Móvil | Cómo crear tus propios GPTs de ChatGPT desde el móvil: haz que la IA se comporte como tú quieres