OpenAI ya tiene una IA capaz de clonar cualquier voz con solo 15 segundos de muestra
Texto, vídeo y ahora voz. OpenAI ya tiene una IA capaz de clonar cualquier voz con solo 15 segundos de muestra
Era solo cuestión de tiempo que OpenAI, que tiene modelos de inteligencia artificial capaces de generar imágenes, texto y vídeo, se animase a lanzar uno para generar voz. Efectivamente, la compañía capitaneada por Sam Altman ha anunciado Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos.
Una voz que nos suena. Lo cierto es que el modelo no es nuevo. OpenAI empezó a desarrollarlo a finales de 2022 y lo han usado para generar la voz de su API de texto a voz. Asimismo, lo utilizaron para crear la voz de ChatGPT en las apps móviles. Desde 2023, un “reducido grupo de partners de confianza” lo han estado usando para explorar posibles casos de uso y lo cierto es que el resultado, lejos de ser totalmente creíble, es realmente convincente.
15 segundos. Eso, y un poco de texto, es lo único que necesita Voice Engine para clonar una voz. Aunque no sabemos cuán grande es el modelo, según OpenAI “es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”. No pinta mal, pero lo cierto es que no parece que vayamos a poder probarlo por nosotros mismos dentro de poco. Razones hay de sobra. En palabras de la firma:
"Esperamos entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades. A partir de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo".
Los usos (buenos). OpenAI ha aprovechado el anuncio, que realmente es más una muestra de fuerza, para hablar de los casos de uso desarrollados por esos “partners de confianza” mencionados anteriormente. Uno de ellos es la asistencia a la lectura, que permite a los más pequeños o a las personas que no saben leer escuchar el texto con una voz más natural y amigable.