CIENCIA › DIáLOGO CON CLAUDIO ESTIENNE INGENIERO, PROFESOR DE LA FACULTAD DE INGENIERíA DE LA UBA
El reconocimiento del habla por las computadoras es objeto de estudio de montones de grupos: máquinas que lean, que desgraben, que traduzcan... y alguna vez que hablen, como el HAL, de 2001. Por las dudas, este diálogo no fue desgrabado por una máquina.
› Por Leonardo Moledo
–Usted es el director del...
–Grupo de procesamiento del habla, dentro del Instituto de Ingeniería Biomédica.
–¿Y cómo se procesa el habla?
–El habla tiene varias líneas. Hay un área de reconocimiento del habla, que trata de encontrar el mensaje generado por una señal acústica. Hay otra que es el área de síntesis: una persona que tiene que convertir un texto escrito en una frase hablada.
–Aclaremos que usted se refiere a cómo hacerlo a través de computadoras...
–Siempre el objetivo es que un sistema, o sea, una computadora, logre esto. Otra área es la codificación, es decir, el almacenamiento de la información del habla de una manera eficiente para poder transmitirla o mantenerla guardada ocupando el menor espacio posible. Hay algunas otras áreas, como la traducción automática: una persona habla en un idioma, el mensaje es comprendido por la máquina, que lo traduce a otro idioma y lo sintetiza.
–Cuando se habla de traductores, yo entiendo cómo funciona el programa sintáctico pero no entiendo cómo es el programa semántico.
–Es que ése es justamente el mayor de los problemas, el problema que aún no está resuelto: cuando alguien golpea una puerta en Estados Unidos, la persona que está adentro del cuarto contesta “come in” y no “between”. Ahora bien: acá decimos indistintamente “entre” como preposición y “entre” como imperativo del verbo entrar. ¿Cómo puede reconocer una máquina la diferencia entre ambos “entre”, como para traducir “come in” y no “between”?
–O “between” y no “among...”
–Para todas estas cosas de procesamiento de datos se usan modelos estadísticos. En este caso se buscará la solución de muchos expertos, de muchos traductores y se verifica que para determinada palabra determinada traducción corresponde más que otra (puesto que muchos expertos decidieron esa traducción en lugar de la otra). Nosotros, de cualquier manera, hacemos básicamente reconocimiento de voz.
–¿Y eso cómo se hace? Porque las voces son todas diferentes...
–Desde hace algunos años, los enfoques son también estadísticos. El problema es muy simple: uno tiene un mensaje que quiere transmitir y lo hace a través de la voz; el sistema, por su parte, tiene que ser capaz de tomar la señal acústica y escribir en un texto lo que esa persona quiso decir. Lo primero que se hace es un pre-procesamiento, porque la voz, la señal acústica, tiene una gran variabilidad estadística: no podría encontrarse una media ni una desviación estándar...
Ahora bien: para ver toda la cuestión de variabilidad entre personas diferentes o en una misma persona en momentos diferentes, lo que se hace es entrenar modelos estadísticos. Se toman datos de gente hablando (el típico caso es el de “esta conversación está siendo grabada para mejorar el servicio”) para hacer entrenamiento de los modelos.
–Bueno, entonces la señal llega a la computadora. ¿Qué hace la computadora?
–Previamente hubo que entrenar modelos. Por ejemplo, yo quiero que reconozca los diez dígitos. Construyo entonces un modelo de cada uno de los números del uno al nueve, a partir de datos que tomé yo (las grabaciones de muchas personas). Veo entonces cuál es la media de todos los ceros, de todos los unos, etc. Viene una nueva persona, se le extraen los parámetros estos que son más o menos estables y simplemente se mide de cuál de los nueve modelos que tiene la computadora está más cerca. Ese es el número que la computadora reconoce. El asunto es cuando dos modelos están muy juntos, porque la media es muy similar, con lo cual la computadora puede confundirse. Otro problema es que nunca da error. Siempre la computadora lo asocia a alguno, porque estadísticamente es el más cercano.
–¿Y con las palabras?
–Funciona igual. En realidad lo que se hace son modelos de fonemas, porque sería muy complicado hacer modelos de palabras. Después se concatenan. Uno define qué vocabulario va a reconocer: pueden ser 5 mil palabras, 10 mil palabras... Se concatenan entonces los modelos fonéticos de todas esas palabras. Cuando viene una nueva palabra se ve qué secuencia de fonemas es probable que haya dicho y se la compara con las que tenemos almacenadas; la que resulta más probable, ésa es.
–¿Y a qué punto llegaron?
–Hacia los años ‘90 se pensaba que era un tema que estaba casi cerrado. Pero no es así. Es cierto que los reconocimientos son altos (comparado con 20 años atrás). Hay que tener en cuenta que no es lo mismo un dictado, por ejemplo, que el habla espontánea. Para la tarea más difícil, la del habla espontánea, con un vocabulario de más de 20 mil palabras, se podría hablar de un 80 por ciento de reconocimiento (en los sistemas más avanzados, que todavía no tienen aplicación comercial). Y un 80 por ciento no es demasiado aceptable: quiere decir que de cada diez palabras se equivoca en dos. No está cerrado de ninguna manera.
–Claro, porque si se equivoca en un “sí” o en un “no” se cambia completamente el significado. Como en la Historia del cerco de Lisboa, de Saramago...
–Exacto.
–Hay semántica involucrada.
–El esquema clásico es un esquema de reconocimiento de las palabras en sí. Los más avanzados tratan de incorporar, lateralmente, algo de semántica...
–¿Y cómo se hace?
–No es mi área, pero por lo que he visto se consulta con un especialista en el tema y se trata de incorporar el conocimiento de ese especialista en modelos estadísticos. Por ejemplo: si a tal palabra le sigue tal otra, tengo que sospechar que algo está mal. Ejemplo: si al artículo “la” le sigue la palabra “volver”, es esperable que esté equivocándose, puesto que el artículo viene seguido, en general, de un sustantivo. Lo que se incorpora son “modelos de lenguaje”, es decir, modelos del lenguaje que son independientes de la voz. Eso también se puede hacer estadísticamente: tomo una cantidad de textos y determino qué posibilidades hay de que a determinada palabra la preceda o la suceda otra palabra específica. Eso se hace y mejora notablemente los sistemas.
–Y usted, ¿en qué cosa concreta trabaja?
–En dos líneas. Una tiene que ver con lo que le comentaba de los parámetros. Hay uno de los parámetros que se llama “frecuencia glótica” o “entonación”, que tiene que ver, obviamente, con cómo uno entona. La entonación no es simplemente ornamental, sino que cambia significados. No es lo mismo que yo afirme “la casa es linda” a que diga “la casa, ¿es linda?”. Si bien uso las mismas palabras, cambia el sentido, y cambia gracias al tono que empleo. La señal de voz es una señal en general periódica pero con variaciones de sus frecuencias fundamentales. Encontrar la curva de las variaciones de la frecuencia fundamental es lo que se conoce como encontrar la frecuencia glótica. Ese es uno de los temas que trabajamos, que tiene aplicaciones en síntesis de alta calidad (es decir, un sintetizador de voz que suene como una persona). También se utiliza en cosas relacionadas con prosodia: la forma en que entona una persona me puede dar una pista acerca del estado de ánimo de la persona, si está enojada, si está contenta...
–Y un sistema que sirve para un idioma, ¿sirve también para otro?
–En los idiomas latinos y sajones, sí. O sea, hay que entrenar los modelos para el idioma correspondiente, tomar bases de datos del idioma específico, pero el sistema es el mismo. En idiomas como el mandarín, donde la entonación influye,el sistema debe ser diferente.
–¿Cuándo habrá un programa que desgrabe lo que estamos charlando ahora?
–Nosotros trabajamos en investigación básica, pero de todos modos no es demasiado difícil bajarlas a aplicaciones concretas. Una cosa que teníamos pensado hacer era grabar las sesiones del Consejo Directivo, que son 16 personas que, en principio, se ceden la palabra unas a otras... Y después alguien se encarga de desgrabar todo eso. La idea sería hacer un sistema para eso.
–Aparte, en una reunión del Consejo Directivo el vocabulario debe ser muy restringido.
(Versión para móviles / versión de escritorio)
© 2000-2022 www.pagina12.com.ar | República Argentina
Versión para móviles / versión de escritorio | RSS
Política de privacidad | Todos los Derechos Reservados
Sitio desarrollado con software libre GNU/Linux