El modo de voz de ChatGPT será más fluido gracias a un nuevo modelo en tiempo real.

2026-03-06 00:05:27

Generación de resúmenes en curso

Investing.com – Según The Information, OpenAI está desarrollando un nuevo modelo de audio que busca hacer que las conversaciones con ChatGPT sean menos mecánicas, permitiendo que la IA ajuste sus respuestas en tiempo real cuando es interrumpida.

Actualmente, el modo avanzado de voz en ChatGPT utiliza un sistema de diálogo por turnos, que requiere que el usuario termine de hablar antes de que la IA procese el audio y genere una respuesta. Si el usuario interrumpe con palabras como “vale” o “sí”, el modelo se detiene por completo y no continúa la conversación de forma natural.

Este nuevo modelo, llamado bidireccional o BiDi, está diseñado para procesar continuamente la voz del hablante, de modo que pueda ajustar su respuesta inmediatamente cuando sea interrumpido. En comparación con los modelos de audio existentes, esto hará que el flujo de la conversación sea más natural, ya que los modelos actuales, una vez que la IA empieza a hablar, generan respuestas fijas que no se pueden modificar.

Sin embargo, esta tecnología aún no está lista para su lanzamiento. Según una persona familiarizada con el proyecto, después de unos minutos de conversación, los prototipos suelen comenzar a fallar o emitir sonidos extraños. Aunque los investigadores de OpenAI inicialmente esperaban lanzar BiDi en el primer trimestre de este año, el calendario podría retrasarse hasta el segundo trimestre o más tarde.

OpenAI cree que reducir la brecha de rendimiento entre los modelos de voz y los modelos basados en texto ampliará el uso global de la IA, ya que la mayoría de las personas encontrarán más natural conversar con un asistente de IA que enviar mensajes de texto.

Se espera que el modelo BiDi sea especialmente útil en aplicaciones de soporte al cliente. Por ejemplo, si un cliente que llama a un asistente de soporte de IA de un minorista decide cambiar un producto en lugar de devolverlo, el modelo BiDi, en teoría, permitirá que el agente cambie de tema sin detenerse ni confundirse.

La persona familiarizada con este modelo de audio también afirmó que el modelo es más eficiente en el uso de herramientas y aplicaciones externas. Anteriormente, OpenAI había informado que planeaba mejorar su modelo de audio para futuros dispositivos de IA que interactúan principalmente mediante voz, y está considerando desarrollar un altavoz inteligente que permita consultar correos electrónicos o reservar servicios mediante comandos de voz.

Este artículo ha sido traducido con la ayuda de inteligencia artificial. Para más información, consulte nuestros términos de uso.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.