|
Conversión
Texto-Voz
|
|||||||||||
El proceso de conversión texto-voz dota a las máquinas de la capacidad de producir mensajes orales no grabados previamente como es el caso de los sistemas de respuesta oral. Tomando como entrada un texto, los sistemas de conversión texto-voz realizan el proceso de lectura de forma clara e inteligible y con una voz lo más natural y humana posible. La síntesis de voz conforma el interfaz oral de comunicación entre una máquina y el usuario de la misma. |
||||||||||||
Aquí puedes oir nuestro sistema de conversión texto-voz basado en la concatenación de difonemas. Escribe la frase en castellano que desees enviar al conversor texto-voz, conecta el sistema de audio y envía la frase |
||||||||||||
Para comprender los principios básicos sobre los que se asientan los sistemas de síntesis de voz hay que estudiar el proceso de generación de un mensaje oral desde el punto de vista acústico y lingüístico. Es necesario entender el comportamiento físico del aparato fonador del ser humano y como son procesados por el sistema auditivo humano para desarrollar un modelo matemático del mismo. A la vez hay que saber como extraer del texto, en base a su estructura lingüística, la información necesaria para controlar el modelo matemático y de este modo convertir el texto en voz. En el cuadro adjunto se presenta una clasificación de la señal de voz, en función de sus rasgos segmentales (sonidos elementales) y los rasgos prosódicos (características de enlace entre los aspectos lingüísticos y acústicos de la generación de voz). En el aspecto lingüístico,
el primer problema que se encuentra un sistema de conversión texto-voz
es que debe inferir el contenido real de la representación escrita del
mensaje. Para ello se debería realizar un procesado lingüístico del texto
a partir de un análisis fonético-morfológico para derivar la pronunciación,
un análisis sintáctico para dar la estructura gramatical del texto y poder
inferir rasgos prosódicos, un análisis semántico para dar una representación
del significado del mensaje y un análisis pragmático para dar una relación
entre frases e ideas de la conversación global. Claramente, este procesado
lingüístico es muy ambicioso y los sistemas actuales simplemente realizan
un análisis fonético-morfológico y sintáctico para de este modo determinar
los rasgos segmentales y prosódicos de los sonidos que componen el mensaje
oral. DIAGRAMA DE BLOQUES DETALLADO
|
||||||||||||
Volver al inicio | ||||||||||||
DICCIONARIO DE UNIDADES ACÚSTICAS La forma más sencilla de generar voz consiste simplemente en grabar la voz de una persona pronunciando las frases deseadas. Este sistema sólo es viable cuando el número de frases que es necesario sintetizar es pequeño. Por ejemplo, un número concreto de mensajes que se emiten en una estación de tren. En casos como éste, la calidad del sistema depende de la calidad de la grabación de las frases. Sin embargo, en el caso de un sistema conversor texto-voz, se necesita un sistema que permita sintetizar cualquier texto que se introduzca por teclado. La solución consiste en dividir la voz en segmentos, los cuales van a constituir una base de sonidos con la que trabajará el módulo de síntesis. Nuestro sistema conversor texto-voz emplea para producir voz el método de Síntesis Directa o Concatenativo, que consiste precisamente en concatenar uno tras otro todos los sonidos que constituyen el texto. Estos sonidos han sido previamente almacenados y constituyen la base de sonidos. El primer problema que se plantea para crear una buena base de sonidos, consiste en decidir el tipo de unidades acústicas o segmentos fónicos adecuados para formar parte de dicha base. Existe un compromiso entre la calidad de voz conseguida y el tamaño de la base de datos que se necesita para almacenar los segmentos. Cuanto más pequeñas sean las unidades en que se descompone la voz, menor es la base de sonidos utilizada, pero la calidad de la voz también decrece. Una solución a este problema es el empleo de difonemas, los cuales están compuestos por la porción final de un fonema y la inicial del fonema que le sigue. Como el corte está hecho en el centro del fonema, las transiciones entre ellos permanecen intactas. Para el caso del castellano, el número de difonemas necesario para constituir una base es de, al menos, 550. Para aumentar la calidad de la síntesis, se puede utilizar un número limitado de trifonemas para representar a sonidos en los que los tres fonemas se coarticulan a elevada velocidad (pla, ple, pli, plo, plu, tra, tre, ...) Una forma de obtener la base de difonemas y trifonemas consiste en la grabación de logotomas. Los logotamos son palabras carentes de significado, compuestas por tres sílabas, que permiten que el segmento a tratar esté aislado sin coarticular con los sonidos anterior y posterior. De las tres sílabas que componen el logotoma nos interesa la sílaba central, que es donde se encuentra el segmento a extraer. Su estructura general es la siguiente:
Por ejemplo: Existen algunas excepciones,
por ejemplo logotomas en los que no hay sonido explosivo final: |
||||||||||||
EL MÓDULO DE ANÁLISIS LINGÜÍSTICO El módulo de análisis lingüístico del texto lleva a cabo dos funciones fundamentales:
Lógicamente, este análisis lingüístico del texto es diferente para cada idioma, teniendo que adaptarse a las características propias de cada uno. Hay que tener en cuenta que tanto la base de fonemas como las características prosódicas son distintas para cada idioma. El texto que se desea sintetizar ha de ser analizado conforme a sus propiedades sintácticas, semánticas y contextuales para producir los parámetros adecuados. En la siguiente figura se muestra el diagrama de bloques del módulo de análisis lingüístico de nuestro conversor texto-voz. El bloque de preprocesado del texto realiza las funciones de tratamiento de abreviaturas, números, horas, fechas, signos de puntuación, etc. Para silabificar el texto, éste se va tomando palabra a palabra (el texto pasado por el módulo de preprocesado) y se aplican una serie de reglas lingüísticas basadas en las posiciones relativas de las vocales y consonantes. El objetivo del módulo de acentuación es obtener una representación del texto que incluya la información de las sílabas acentuadas en cada palabra. En castellano, sólo las vocales pueden ser acentuadas, por lo que se dispondrá de una doble representación de las vocales: sin acento {"a", "e", "i", "o", "u"} y con acento {"´a", "´e", "´i", "´o", "´u"}. En el bloque
de transcripción fonética se pasa de la representación ortográfica
del texto a una cadena de fonemas. Para ello, se analiza letra a letra
en cada palabra (distinguiendo la sílaba en la que aparece). Se entiende
como "letra", una secuencia de caracteres que se definieron como vocales
o consonantes en una apartado anterior. Por lo tanto, pueden aparecer
"letras" compuestas por varios caracteres. Este bloque permite hacer la transcripción fonética del texto. Si se introduce el texto obtenido a la salida del bloque de acentuación:
después de este bloque obtendremos:
En el bloque de análisis de la frase se estrae el típo de frase para utilizar el patrón entonativo adecuado. En el generador de prosodia se han implementado cuatro patrones melódicos diferentes, para cuatro tipos de frases distintas. Por lo tanto, necesitamos saber a qué tipo de frase pertenece cada difonema/trifonema para poder aplicar el patrón melódico correspondiente. La clasificación de cada frase del texto se realiza en función del signo de puntuación o terminación de dicha frase. A continuación se detalla la clasificación realizada:
Este bloque realiza también la clasificación del difonema/trifonema para la aplicación posterior de un modelo de duración vocálica. Se clasifica el difonema/trifonema en:
Si se introduce el texto obtenido a la salida del bloque de transcripción fonética:
al terminar su tratamiento en el módulo de análisis lingüístico, la secuencia de difonemas y trifonemas que componen el texto tendrá la siguiente representación:
|
||||||||||||
Volver al inicio | ||||||||||||
MÓDULO DE SÍNTESIS EN CONSTRUCCIÓN
|
||||||||||||
Volver al inicio | ||||||||||||
GENERADOR DE PROSODIA La naturalidad al hablar se consigue con una buena entonación, la cual puede ser incluso necesaria en algunos casos para la inteligibilidad del mensaje. Por ejemplo, la frase "Juan dijo Pedro es un mentiroso", se puede pronunciar de forma diferente, de manera que se podría interpretar de cualquiera de los siguientes modos: "Juan dijo: Pedro es un mentiroso", o "Juan, dijo Pedro, es un mentiroso". En este caso, la entonación contribuye a que cambie el significado del mensaje. La entonación se considera uno de los principales responsables de la calidad de un conversor texto-voz. La entonación es, ante todo, un fenómeno lingüístico relacionado con la sensación perceptiva que produce la variación a lo largo de todo un enunciado de tres parámetros físicos:
proporcionando esta variación, al receptor, información de distintos tipos. Estas variaciones se dan en unidades mayores que la palabra, normalmente sintagmas o frases, que son las unidades lingüísticas contenidas en los grupos fónicos. Un estudio de la entonación implica, por tanto, estudiar las variaciones de los parámetros entonativos a lo largo de todo el grupo. La entonación es un fenómeno que relaciona tres niveles diferentes:
Además, transmite los siguientes tipos de información:
Según un estudio de Jassem y Demenko (JASSE, W.,-DEMENKO, G., "Extracting Linguistic Information from F0 traces" Ed. Johns-Levis,C., Intonation in Discourse, Londres, Croom Helm, 1986.) existen catorce factores diferentes que pueden determinar las variaciones de los parámetros que influyen en la entonación. Estos factores son los siguientes:
De todos estos factores, sólo algunos transmiten información relevante para el receptor. Los patrones melódicos. Vamos a considerar melodía y entonación como dos fenómenos diferentes, aunque relacionados entre sí. Definimos melodía como el fenómeno que se relaciona con la curva de frecuencia fundamental o curva melódica de un grupo fónico (considerando grupo fónico como el enunciado comprendido entre dos pausas del discurso). Ya se ha comentado que la información que transmite la entonación se reparte a lo largo de unidades superiores a la palabra, normalmente sintagmas o frases, que son las unidades lingüísticas contenidas en los grupos fónicos. Se asocia a cada tipo de información una forma típica de curva o patrón melódico. Los patrones melódicos representan esquemáticamente la forma de las curvas de F0, y podrían identificarse con las representaciones estilizadas obtenidas tras la eliminación de las variaciones irrelevantes. La curva melódica se convierte, por lo tanto, en una unidad básica para el estudio de la entonación. Se pueden distinguir dos grandes clases de curvas melódicas, en función del grupo fónico al que pertenezcan. Los grupos fónicos son terminales o no terminales según la posición en que aparezcan dentro de la oración: ·
Para el castellano, Alcina y Blecua en su gramática ( REAL ACADEMIA ESPAÑOLA, "Esbozo de una nueva gramática de la lengua española" Ed. Espasa-Calpe, Madrid, 1982.) , distinguen tres partes dentro de una curva melódica:
En cuanto a la cuestión de los elementos que contienen más información dentro de una curva melódica, hay varias teorías; la mayoría de ellas coinciden en señalar que la información lingüística aparece en la rama final. Para las informaciones de tipo sociolingüístico y expresivo no hay acuerdo en las diferentes teorías. Tipos de patrones melódicos del español. Hay varios estudios sobre los patrones melódicos del español, como son los realizados por la Real Academia de la Lengua , Quilis y Fernández (QUILIS, A.,-FERNÁNDEZ, J.A., "Curso de fonética y fonología españolas" Madrid, Consejo Superior de Investigaciones Científicas, Instituto "Miguel de Cervantes", 1979), Quilis (QUILIS, A., "Fonética acústica de la lengua española" Colección Biblioteca románica hispánica III: Manuales 49 Ed. Gredos, Madrid 1981) , Canellada y Kuhlmann (CANELLADA, MARIA JOSÉ,-KUHLMANN, JOHN, "Pronunciación del español: lengua hablada y literaria" Ed. Castalia, Madrid, 1987) , y el más completo, realizado por Navarro Tomás (NAVARRO TOMAS, T., "Manual de entonación española" Ed. Guadarrama, Madrid, 1974), que clasifica los patrones melódicos en cuatro grandes grupos:
|
||||||||||||
Volver al inicio | ||||||||||||
©Agosto 2001, Eduardo Lleida Solano lleida@posta.unizar.es |