SíNTESIS Y SIMULACIóN DE LA VOZ HUMANA
Hable con ella
Por Federico Kukso
Lo siento Dave, no puedo permitirte hacer eso”, dijo con mucho desparpajo, sin mucho apuro y en un tono tranquilo y casi amigable HAL 9000, la supercomputadora parlanchina de la película 2001: Odisea del espacio (1968) de Stanley Kubrick. Y pareció lo más común del mundo. No había razón para sobresaltarse: era el futuro y las computadoras, obviamente, hablaban. Pero como sucede –y seguirá sucediendo– cuando el tiempo de las predicciones y los sueños tecnológicos se hace presente, la mayoría de las apuestas futurísticas se estrellan contra la realidad. Así es: alcanzamos el 2004 y las computadoras no hablan; todavía. Al menos, como HAL 9000...
Si bien aún no llegó el momento en que los seres humanos y las computadoras puedan sentarse a tomar un café, ya hay quienes están aceitando los cimientos de una plausible y próxima conversación. Hace tiempo que son una realidad los llamados sistemas de reconocimiento de voz, por medio de los cuales lo dicho por una persona es convertido en texto por softwares especiales como ViaVoice (IBM) y Naturally Speaking (Dragon). Primordialmente estos programas son utilizados para dictados y anotaciones, y por aquellas personas con limitaciones para mecanografiar. Primero, el usuario debe hablar frente a un micrófono que traduce su voz en una señal analógica. Luego, el programa convierte la señal analógica en una digital y la procesa, o sea, comienza a identificar las palabras una a una y las compara –casi adivinando– con las listas de palabras que engruesan su base de datos hasta que estampa en la pantalla la opción que el software considera que se adecua a la palabra emitida. El usuario debe entrenar a la máquina repitiendo frases de un texto preseleccionado para que la computadora se vaya familiarizando con su dicción y pronunciación. Cada vez que se repite el proceso, la computadora “aprende”.
Los fabricantes aseguran que sus productos ofrecen una precisión de más del 95 por ciento. No es lo que piensan muchos de sus usuarios que decidieron retornar a la vieja usanza por la inmensidad de equivocaciones de la máquina. Hay un porqué: las computadoras hacen oídos sordos a una serie de componentes no verbales de gran importancia en el habla, como tono de la voz, ademanes, acentos, matices y posturas.
Aeropuertos (con los programas Pegasus, Voyager y Orion), bancos y empresas de telefonía celular utilizan esta (todavía primitiva) tecnología para que sus clientes chequeen cuentas, reserven vuelos y paguen sus facturas. También los historiadores recurren a ella: investigadores de la Universidad Johns Hopkins, de IBM y de la Universidad de Maryland (Estados Unidos) están desarrollando un software para reconocimiento de voz que permitirá acceder a más de 51 mil entrevistas grabadas por sobrevivientes del Holocausto, testigos y personas que ingresaron en los campos de concentración cuando se produjo la liberación. Los registros son de la Fundación de Historia Visual de Sobrevivientes de la Shoah, que reunió un archivo de relatos orales grabados en video compuesto de 116 mil horas de entrevistas realizadas a 52 mil sobrevivientes y testigos del Holocausto.El proyecto consiste en desarrollar un sistema capaz de identificar, entre la vastedad del material grabado, términos y frases clave en distintos idiomas.
La cara de las noticias
La imitación y síntesis de la voz humana es una de las principales líneas de investigación en computación del momento. Tiene sus razones: el habla es el modo de comunicación más natural y extendido en la especie humana. Desde los cincuenta, se gastaron miles de millones de dólares para crear programas capaces de imitar lo que resulta tan fácil para la mayoría de las personas. Y, para colmo, si algunas computadoras logran esbozar una oración coherente lo hacen con una voz metálica, fría, distante.
Personaje virtual, de pelo verde, ojos claros y voz melodiosa, Ananova es la contracara de todo eso. Al estilo Max Headroom (esa clásica serie de televisión de 1986 que tenía como una de sus estrellas a un egocéntrico y casi tartamudo presentador virtual de videos), la primera presentadora de noticias creada 100 por ciento por computadora ya está haciendo de las suyas en la red. Su trabajo no es fácil (al menos para alguien que no tiene cuerpo): es la encargada de dar con la mayor cordialidad las noticias más importantes del día, suministrada por la agencia Associated Press, en el sitio que lleva su nombre (www.ananova.com). Para ello, los programadores de Digital Animation (la empresa que le dio “vida”) tuvieron que conseguir algo bastante difícil: lograr –miles y miles de líneas de código de computación y animación visual mediante– la perfecta sincronización a tiempo real entre el texto escrito y el movimiento de labios de la sensual presentadora con acento inglés. Sus primeras palabras no pudieron ser otras: “¡Hola, mundo! Estas son las noticias”.
Enfant terrible
En 1950, el matemático Alan Turing (1912-1954), el padre de la ciencia de la computación, planteó que mejor que escribir un programa que simulase la mente adulta sería intentar hacer uno que imitase la de un niño. Y así, con un adecuado proceso educativo se obtendría una mente adulta. A los de la compañía israelí Artificial Intelligence Enterprises (AIE) les gustó tanto la idea que pusieron todas sus fichas en la creación de un programa, llamado HAL (la originalidad no es su fuerte), que, según anunciaron, puede conversar y tiene un vocabulario y nivel de comprensión del lenguaje equivalente al de un chico de 15 meses de edad.
A través de un sistema de recompensas y castigos desarrollado por neurolingüistas, los algoritmos del programa –que tiene como antecedente más destacado al programa “Eliza”, creación de Joseph Wizenbaum que simulaba una conversación de psicoterapia– aprenden en días cuáles son las respuestas correctas y cómo reaccionar al estilo de conversación del tutor. Cada tres meses, se desarrolla una nueva versión de la infantil máquina hablante y se le transfiere el “cerebro” de su antecesor.
Con intentos como éstos, la criticable (e injustifable) necesidad de atribuir rasgos humanos a la máquina sigue viento en popa con una naturalidad espeluznante. Cualquier día de éstos aquella amable (y a veces también detestable) compañera cotidiana ya aceptada y naturalizada por la cultura moderna balbuceará por su cuenta sus primeras palabras, y no será noticia.