Microsoft está desarrollando un nuevo programa basado en inteligencia artificial (IA) que tendrá la capacidad de aprender e imitar voces humanas tomando como ejemplo una grabación de tres segundos.
“VALL-E tiene capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante invisible como un aviso acústico”, comunicó el gigante informático estadounidense.
Esta inteligencia artificial está basada en una herramienta digital que produce voces a partir de texto por medio de un proceso de análisis y conversión a una “voz digitalizada”.
La compañía tecnológica viene apostando fuerte por la implementación de las IA en sus productos y servicios. En esa línea, está trabajando en proyectos para agregar el chat desarrollado por OpenAI ChatGPT en sus buscadores y en la suite de Office.
¿Cómo funciona “VALL-E”?
Microsoft presentó su proyecto de inteligencia artificial “VALL-E”, un modelo de lenguaje Text-to-Speech (TTS por las siglas en inglés) que sintetiza el texto para transformarlo en voz.
Lo novedoso de esta tecnología es su capacidad de aprendizaje a través de grabaciones de audio de solo tres segundos, ya que es capaz de imitar las voces de estas grabaciones.
Según indica Microsoft en un documento compartido en GitHub, “VALL-E” puede sintetizar voces personalizadas de "alta calidad" con una grabación registrada de tres segundos de un hablante.
En ese sentido, sus desarrolladores señalaron que las muestras tomadas sugieren que “VALL-E” podría "preservar la emoción del hablante y el entorno acústico del mensaje".
La empresa informática destacó que esta tecnología supera "significativamente" a otros sistemas de TTS en cuanto a la naturalidad del habla y a la similitud con el hablante.