OpenAI presenta un nuevo ChatGPT que escucha, mira y habla

SAN FRANCISCO – Mientras Apple y Google transforman sus asistentes de voz en chatbots, OpenAI está transformando su chatbot en un asistente de voz.

El lunes, la startup de inteligencia artificial de San Francisco presentó una nueva versión de su chatbot ChatGPT que puede recibir y responder a comandos de voz, imágenes y videos.

La compañía dijo que la nueva aplicación, basada en un sistema de inteligencia artificial llamado GPT-4o, hace malabarismos con audio, imágenes y video significativamente más rápido que la versión anterior de la tecnología.

La aplicación está disponible a partir del lunes, de forma gratuita, tanto para smartphones como para ordenadores de sobremesa.

"Estamos mirando al futuro de la interacción entre nosotros y las máquinas", dijo Mira Murati, directora de tecnología de la empresa.

OpenAI ha introducido un nuevo modelo de inteligencia artificial. Dice que funciona más rápido que las versiones anteriores y puede razonar en texto, audio y video en tiempo real. (Foto AP/Michael Dwyer, Archivo)

La nueva aplicación es parte de un esfuerzo más amplio para combinar chatbots conversacionales como ChatGPT con asistentes de voz como el Asistente de Google y Siri de Apple.

Mientras Google fusiona su chatbot Gemini con el Asistente de Google, Apple está preparando una nueva versión de Siri que es más conversacional.

OpenAI dijo que compartiría gradualmente la tecnología con los usuarios "durante las próximas semanas".

Esta es la primera vez que ofrece ChatGPT como aplicación de escritorio.

Anteriormente, la empresa ofrecía tecnologías similares desde varios productos gratuitos y de pago.

Ahora los ha integrado en un único sistema que está disponible en todos sus productos.

Durante un evento transmitido por Internet, Murati y sus colegas mostraron la nueva aplicación mientras respondía a comandos de voz conversacionales, usaban una transmisión de video en vivo para analizar problemas matemáticos escritos en una hoja de papel y leían en voz alta historias divertidas que había escrito en el momento.

La nueva aplicación no puede generar videos.

Pero puede generar imágenes fijas que representan fotogramas de un vídeo.

Inicio

Con el debut de ChatGPT a finales de 2022, OpenAI demostró que las máquinas pueden manejar solicitudes más como las personas.

En respuesta a indicaciones de texto conversacionales, podría responder preguntas, escribir trabajos finales e incluso generar código de computadora.

ChatGPT no se rige por un conjunto de reglas.

Aprendió sus habilidades analizando enormes cantidades de texto seleccionado de Internet, incluidos artículos, libros y registros de chat de Wikipedia.

Los expertos elogiaron la tecnología como una posible alternativa a los motores de búsqueda como Google y los asistentes de voz como Siri.

Las versiones más nuevas de la tecnología también han aprendido de sonidos, imágenes y vídeos.

Los investigadores llaman a esto "IA multimodal".

Básicamente, empresas como OpenAI comenzaron a combinar chatbots con generadores de imágenes, audio y vídeo de IA.

(El New York Times demandó a OpenAI y su socio, Microsoft, en diciembre, alegando infracción de derechos de autor de contenido de noticias relacionado con sistemas de inteligencia artificial).

A medida que las empresas combinan chatbots con asistentes de voz, persisten muchos obstáculos.

Debido a que los chatbots aprenden sus habilidades a partir de datos de Internet, son propensos a cometer errores.

Errores

A veces, inventan información por completo, un fenómeno que los investigadores de IA llaman "alucinación".

Esos defectos se están trasladando a los asistentes de voz.

Si bien los chatbots pueden generar un lenguaje convincente, son menos hábiles a la hora de realizar acciones como programar una reunión o reservar un vuelo en avión.

Pero empresas como OpenAI están trabajando para transformarlos en “agentes de IA” que puedan manejar tales tareas de manera confiable.

OpenAI ofrecía anteriormente una versión de ChatGPT que podía aceptar comandos de voz y responder con voz.

Pero era un mosaico de tres tecnologías de IA diferentes:

una que convertía voz en texto, otra que generaba una respuesta de texto y otra que convertía este texto en una voz sintética.

La nueva aplicación se basa en una única tecnología de inteligencia artificial (GPT-4o) que puede aceptar y generar texto, sonidos e imágenes.

Esto significa que la tecnología es más eficiente y la empresa puede darse el lujo de ofrecerla a los usuarios de forma gratuita, afirmó Murati.

"Antes, había toda esta latencia que era el resultado de tres modelos trabajando juntos", dijo Murati en una entrevista con el Times.

"Quieres tener la experiencia que estamos teniendo, donde podamos tener este diálogo tan natural".

c.2024 The New York Times Company

Sobre la firma

Cade Metz

The New York Times

Bio completa

Tags relacionados

OpenAI presenta un nuevo ChatGPT que escucha, mira y habla

El sistema, AlphaFold3, podría acelerar los esfuerzos por comprender el cuerpo humano y luchar contra las enfermedades.

Inicio

Errores

Sobre la firma

Mirá también

Mirá también

OpenAI presenta un nuevo ChatGPT que escucha, mira y habla

El sistema, AlphaFold3, podría acelerar los esfuerzos por comprender el cuerpo humano y luchar contra las enfermedades.

Inicio

Errores

Sobre la firma

Mirá también

Crece la pelea entre los gigantes tecnológicos por el control global de los datos

Mirá también

Google y Microsoft, en la mira de Wall Street por los avances del ChatGTP