Principios Básicos |
Reconocimiento
Automático del Habla
|
|||||||||||||
El
proceso de reconocimiento automático del habla (RAH) dota a las máquinas
de la capacidad de recibir mensajes orales. Tomando con entrada la señal
acústica recogida por un micrófono, el proceso de reconocimiento automático
del habla tiene como objetivo final descodificar el mensaje contenido
en la onda acústica para realizar las acciones pertinentes. Para lograr
este fin, un sistema de RAH necesitaría conjugar una gran cantidad de
conocimientos acerca del sistema auditivo humano, sobre la estructura
del lenguaje, la representación del significado de los mensajes y sobre
todo el autoaprendizaje de la experiencia diaria. Actualmente estamos
lejos de lograr un sistema completo que pueda comprender cualquier mensaje
oral en cualquier contexto tal y como lo podría hacer un ser humano. Sin
embargo, la tecnología actual si que permite realizar sistemas de RAH
que pueden trabajar, con un error aceptable, en entornos semánticos restringidos.
|
||||||||||||||
Título |
Principios
Básicos
|
|||||||||||||
Básicamente, el reconocimiento del habla es un proceso de clasificación de patrones, cuyo objetivo es clasificar la señal de entrada (onda acústica) en una secuencia de patrones previamente aprendidos y almacenados en unos diccionarios de modelos acústicos y de lenguaje. Este proceso de clasificación supone, en primer lugar que la señal de voz puede ser analizada en segmentos de corta duración y representar cada uno de los segmentos mediante su contenido frecuencial, de forma análoga al funcionamiento del oído, en segundo lugar que mediante un proceso de clasificación podemos asignar a cada segmento o conjuntos consecutivos de segmentos una unidad con significado lingüístico y finalmente , en tercer lugar, que mediante un procesador lingüístico podemos dar significado a las secuencias de unidades. Este último paso del sistema supone incorporar al sistema de RAH conocimiento acerca de la estructura sintáctica, semántica y pragmática del lenguaje. Sin embargo, los sistemas actuales de RAH solo incorporan estas fuentes de conocimiento sobre tareas muy restringidas y controladas, estando la mayoría de ellos en experimentación en condiciones de laboratorio. |
||||||||||||||
Arquitectura
de un Sistema de RAH
|
||||||||||||||
Matemáticamente, el problema del reconocimiento automático del habla se puede formular desde un punto de vista estadístico. Para ello supongamos que O representa una secuencia de T medidas de la señal de voz (datos acústicos) y W es una secuencia de N palabras que pertenecen a un vocabulario conocido. La probabilidad condicional P(W|O) es la probabilidad de que la secuencia de palabras W se haya pronunciado dada la observación de los datos acústicos O.
Utilizando la fórmula de Bayes podemos reescribir la probabilidad condicionada
donde
sin embargo, como la probabilidad de la secuencia de datos acústicos P(O) es la misma independientemente de la secuencia de palabras pronunciada, en el proceso de maximización, esta probabilidad puede ser eliminada (la secuencia de palabras que da el máximo no varía). De esta forma obtenemos la fórmula fundamental del reconocimiento automático del habla Es decir, la secuencia de palabras reconocida es aquella que maximiza el producto de dos probabilidades, una P(O|W) que relaciona los datos acústicos con la secuencia de palabras y que denominaremos modelo acústico y P(W) que únicamente depende de la secuencia de palabras y que denominaremos modelo de lenguaje. La figura 1 se muestran los bloques básicos de un sistema de reconocimiento automático del habla basado en la anterior fórmula. En la figura se distinguen dos procesos diferenciados:
Para profundizar en cada bloque que compone un sistema de RAH ir poner el ratón sobre el bloque que se desea profundizar y pulsar. Figura 1. Bloques básicos de un sistema de reconocimiento automático del habla (Pulsar sobre los bloques de la figura para profundizar en cada uno de ellos) |
||||||||||||||
Arquitectura |
Dificultades
|
|||||||||||||
Existen muchos factores que influyen en la dificultad del proceso de RAH y por tanto en su rendimiento, pero entre todos ellos destaca la variabilidad. La variabilidad de la señal de voz depende tanto de factores intrínsecos al fenómeno de producción de voz como a factores externos al mismo. Dentro de los factores intrínsecos destacan los siguientes:
A estos factores de variabilidad acústica habrá que añadir otros factores de variabilidad lingüística relacionados con las distintas formas dialécticas de hablar un idioma, la utilización de palabras no contempladas en el vocabulario de la aplicación, la construcción de frases no permitidas por la gramática del lenguaje, la utilización de abreviaturas, los escenarios semánticos de las palabras, etc. Todo ello hace que el reconocimiento automático del habla por parte de una máquina no sea un problema tan trivial como a primera vista pueda parecer. |
||||||||||||||
Dificultades |
Clasificación
de Sistemas de RAH
|
|||||||||||||
En base a como un sistema de RAH resuelve los problemas de variabilidad, podemos realizar una primera clasificación de los mismos. R. Moore [MOO90] propuso para la descripción y clasificación de un sistema de RAH la utilización de los siguientes descriptores:
Este conjunto de descriptores permite realizar una comparación entre las prestaciones de distintos sistemas de RAH dejando patente como resuelve cada sistema los diversos problemas inherentes al reconocimiento de voz. Las fuentes de variabilidad deben de tenerse muy en cuenta a la hora de plantear una aplicación de un sistema de RAH puesto que la robustez del sistema a las mismas fijará el rendimiento del mismo. En condiciones de laboratorio, muchos factores de variabilidad están controlados y no afectan a las prestaciones del sistema y por tanto las tasas de error son reducidas. Sin embargo, cuando estos mismos sistemas son llevados a una aplicación en condiciones reales, los resultados pueden ser desalentadores, sobre todo cuando las pruebas de laboratorio estaban muy controladas. Por ejemplo, en aplicaciones de reconocimiento de dígitos conectados se puede pasar de tener un 0,3 % de error por dígito en condiciones de laboratorio a más de un 2 % de error por dígito en una aplicación en condiciones reales. |
||||||||||||||
Clasificaciones |
Aplicaciones
|
|||||||||||||
A la hora de desarrollar aplicaciones con sistemas de RAH hay que tener en mente que con la tecnología actual los sistemas no están exentos de errores, por lo que las primeras aplicaciones en las cuales este tipo de interface comienza a tener éxito son aquellas que se caracterizan por ser simples, en cuanto es sencillo el uso del mismo, supone una evolución de la tecnología ya existente en el sentido de que únicamente realizamos un cambio de interface y sobre todo, la aplicación debe ser tolerante a errores. A estas consideraciones sobre la aplicación en sí, hay que añadir una serie de requerimientos tecnológicos del sistema de RAH. Para trabajar en aplicaciones reales, el sistema de RAH tiene que tener la capacidad de reconocer palabras o comandos de la aplicación en un contexto de habla fluida, mantener un nivel de prestaciones adecuado frente a cambios de usuario, canal de comunicación, ruidos, etc., permitir el rechazo de palabras que no formen el vocabulario de reconocimiento y trabajar en tiempo real entre otros requerimientos. Como muy bien reseñan D. B. Roe y F.G. Wilpon [ROE93], a la hora de considerar una aplicación utilizando un sistema de RAH se deben realizar 3 preguntas:
El campo de aplicaciones de los sistemas de RAH es muy amplio, pero básicamente, con la tecnología actual existen tres áreas en las cuales el volumen de utilización de sistemas de RAH está creciendo de forma exponencial. Estas áreas son:
Existen varias razones por las cuales estás áreas comienzan a utilizar de forma extensiva sistemas de RAH. Normalmente se utilizan para tareas bien definidas y con un vocabulario y sintaxis bastante restringido lo que permite que:
Bajo estos supuestos, actualmente pueden encontrarse multitud de sistemas de reconocimiento integrados que trabajan con tasas de reconocimiento superiores al 98 % con palabras aisladas. Sin embargo, en gran número de servicios o productos que potencialmente pueden utilizar tecnologías del habla, el sistema de RAH no es más que el interfaz de entrada a un sistema de diálogo en donde entran en juego otras tecnologías del habla como la síntesis de voz, tal y como se muestra en el diagrama de bloques de un sistema de diálogo en la figura 2. El propósito final de un sistema de este tipo es el control de un sistema mediante órdenes orales provenientes, p.e., de un micrófono, o de línea telefónica o de un sistema de transmisión sin hilos. Las ordenes son procesadas por un sistema experto que interacciona con el sistema bajo control para que realice las acciones pertinentes y genera una contestación al usuario mediante un sistema de conversión texto-voz. Un ejemplo es el sistema Basurde [BAS00] para consulta sobre horarios y precios de trenes regionales y de largo recorrido dentro del proyecto CICYT TIC98-0423-C06. Figura 2. Sistema de diálogo utilizado en el proyecto Basurde . El sistema trabaja bajo una filosofía cliente/servidor.RAH: sistema reconocimiento automático del habla, CH: sistema de comprensión del habla, GD: sistema de gestión del diálogo, GRO: sistema de generación de la respuesta oral, CTV: sistema de conversión texto-voz. Las letras "c" y "s" hacen referencia a la función del socket. c: cliente, s:servidor. Las aplicaciones más representativas de los sistemas de RAH que actualmente se pueden encontrar en fase de experimentación o de explotación comercial son:
Una de las aplicaciones más inmediatas de los sistemas de RAH como interfaz entre hombre y máquina es la ayuda a discapacitados físicos. Mediante comandos orales se pueden controlar muchas de las funciones y actividades cotidianas. Ejemplos en fase de experimentación son la silla de ruedas controlada oralmente, camas hospitalarias, control oral de teléfonos (p.e. listín telefónico controlado oralmente) y la activación oral de aparatos y sistemas domésticos. En el caso del teléfono controlado oralmente, el usuario puede almacenar y acceder a una lista de números telefónicos utilizando comandos orales. En este tipo de aplicaciones, el sistema de reconocimiento de voz es dependiente del locutor y trabaja normalmente bajo la configuración de reconocimiento de palabras aisladas con capacidad de localización de los comandos en habla extraña [LLE93]. El sistema tiene que tener la capacidad de ser entrenado por el usuario para de esta forma hacer el acceso a los números telefónicos mediante el nombre de la persona que queremos llamar. La activación oral de aparatos y sistemas domésticos, incluida dentro del campo de la domótica, tiene como objetivo el controlar a estos mediante comandos orales a través de un sistema de diálogo. Son susceptibles de control oral, aparatos como el televisor (encender/apagar, cambiar de canal, volumen), el equipo de HIFI, abrir y cerrar puertas, abrir y cerrar persianas, control de una cámara de seguridad, activar el teléfono, la calefacción, el horno y encimera, encender y apagar luces, etc. En 1984, la empresa británica Voice Input Systems construyó, demostró y comenzó a comercializar el sistema VADAS [BRI86] para ayudar a dicapacitados físicos a controlar oralmente dispositivos domésticos. Una capacidad interesante de estos sistemas de control oral de dispositivos domésticos es la posibilidad de controlarlos de forma remota a través de la línea telefónica. Los sistemas de reconocimiento utilizados en este tipo de aplicaciones suelen ser de palabras aisladas con la capacidad de rechazar habla o sonidos extraños y dependientes del locutor, de modo que se entrena el sistema con la voz del usuario. Otra área de aplicación de los sistemas de RAH es la aviación tanto civil como militar. En aplicaciones militares se ha experimentado en la introducción de interfaces orales para interactuar con los sistemas básicos de un avión de guerra. Los sistemas de reconocimiento suelen ser de palabras aisladas y tienen que ser capaces de dar unas prestaciones muy buenas trabajando con relaciones señal a ruido muy pequeñas. En experimentos realizados sobre un Mirage 3R, se han logrado tasas de reconocimiento sobre 95 % con un vocabulario de 30 palabras. En la aviación civil se pueden encontrar aplicaciones en proceso de experimentación para el control aéreo utilizando sistemas de reconocimiento de habla continua. Una de las área con más aplicaciones potenciales son las telecomunicaciones y servicios añadidos. En ciertos servicios añadidos a la red telefónica, el uso de interfaces orales permite una reducción efectiva del coste del servicio. Ejemplos de estas aplicaciones son la automatización de los servicios de operadora y la validación de compras con tarjetas de crédito. En el primer caso, existen aplicaciones en uso en los EE.UU. por parte de las compañías telefónicas AT&T y Northen Telecom para automatizar el servicio de facturación de llamadas asistidas por operadora. En estos casos, el reconocimiento del mensaje se realiza mediante un sistema de localización de palabras. En el caso de validación de compras con tarjeta de crédito, este servicio es utilizado por comercios que no disponen de modems para validar la venta. Con un sistema de reconocimiento de dígitos conectados puede reconocerse los números de la tarjeta de crédito, la identificación del vendedor y el valor de la venta. Como el número de la tarjeta de crédito y la identificación del vendedor están formados por una secuencia de dígitos con ciertas restricciones, no causan problemas a la hora de reconocerlos. La incorporación de interfaces orales ha permitido también incrementar el número de servicios proporcionados por una red de telecomunicaciones. Ejemplos de estas aplicaciones son los servicios de información y transacciones bancarias, servicios de telefonía interactiva (p.e. el sistema VIP -Voice Interactive Phone- de AT&T que permite acceder a ciertos servicios pronunciando el nombre asignado al mismo en lugar de pulsar un código con el teclado multifrecuencia [SUK92]) y servicios de acceso a información (p.e. sistemas de audiotex).En relación a la telefonía móvil en vehículos, los sistemas de reconocimiento de voz comienzan a ser introducidos para permitir controlar el teléfono (funciones de marcado, respuesta, etc.) mediante comandos orales. Un sueño que comienza a ser realidad es la máquina de escribir oral, es decir, un sistema de conversión de voz a texto con un vocabulario muy grande ( > 5000 palabras) que puede transcribir habla natural sin restricciones a texto. Este tipo de reconocedores del habla se están desarrollado en la actualidad y ya se pueden encontrar en explotación comercial algunos de ellos. Ejemplos de los mismos son los sistemas comercializados por Dragon Systems e IBM, que permite reconocer un vocabulario de hasta 60000 palabras trabajando sobre un PC, utilizando un sistema de adaptación al usuario de modo que no es necesario un entrenamiento del mismo. El sistema aprende de forma interactiva el estilo de habla del usuario y reconoce palabras aisladas con separaciones entre palabras de un cuarto de segundo. Con este sistema se puede llegar a crear un texto a una velocidad de hasta 120 palabras por minuto. Actualmente se pueden adquirir en el mercado productos como teléfonos, juguetes, radiocassete de coche, teléfonos móviles para coche, grabadores de vídeo, agendas personales que incorporan un sistema sencillo de reconocimiento de voz para controlar las funciones más elementales de dichos productos. Con el auge de Internet, han aparecido ya navegadores que incorporan tecnologías del habla. En concreto existen navegadores que permiten realizar la navegación por voz, solo hace falta pronunicar los enlaces y permiten igualmente una interacción con el usuario utilizando un conversor texto-voz. Un ejemplo es el navegador WebConversa. Otro ejemplo de aplicación es el acceso a bases de datos, como puede ser la consulta sobre horarios y precios de trenes regionales y de largo recorrido que se ha desarrollado dentro del proyecto CICYT TIC98-0423-C06 por varios grupos universitarios del país. Estado actual e instrucciones de uso del prototipo. |
||||||||||||||