Principios Básicos
Estimación del Factor de Ganancia
Densidad Espectral de Ruido
Factor de Sobreestimación
Ejemplos

Cancelación de Ruido Aditivo:
Sustracción Espectral
La Sustracción Espectral (SE) está basada en la suposición de que la señal de voz ruidosa está formada por la suma aditiva de la señal de voz y el ruido y ambas señales son procesos aleatorios incorrelados y estacionarios en intervalos cortos de tiempo (estacionariedad localizada).

Inicio
Principios Básicos
Estimación del Factor de Ganancia

Sea s(n) la señal de voz limpia, v(n) el ruido contaminante y x(n) la señal de voz ruidosa


Como las señales son localmente estacionarias, el proceso de análisis lo realizaremos de forma localizada utilizando una ventana de hanning definida como

cuya longitud en muestras N será la longitud del bloque de análisis. De este modo, la señal de voz ruidosa localizada se define como

donde el índice m indica el número de bloque de análisis y en nuestro caso, para reconstruir la señal con la técnica del overlap-add, toma los valores

lo que supone un desplazamiento de la ventana de la mitad de las muestras del bloque de análisis.

En términos de análisis localizado, la señal ruidosa será

y su función de autocorrelación localizada será

En términos de las densidades espectrales de potencia, la densidad espectral de potencia de la señal de voz ruidosa será:

Como las densidades espectrales de potencia no las conocemos, deberemos estimarlas por algún método de estimación espectral.

La idea básica de la Sustracción Espectral es la estimación de la densidad espectral de potencia de la señal limpia a partir de la densidad espectral de potencia de la señal ruidosa y una estimación de la densidad espectral de potencia del ruido, estimado p.e. en intervalos de silencio, de forma que

donde es la estimación de la densidad espectral de potencia de la señal de voz ruidosa en el bloque m-ésimo, es la estimación de la densidad espectral de potencia de la señal limpia en el bloque m-ésimo y es la estimación de la densidad espectral de potencia de la señal de ruido.

Este proceso nos permite estimar la magnitud del espectro de la señal de voz limpia para el bloque m-ésimo. Sin embargo todavía nos queda estimar la fase para poder reconstruir la señal. Afortunadamente, el oido no es especialmente sensible a la fase de la señal con lo cual podemos utilizar la fase del espectro de la señal ruidosa como estimación de la fase para reconstruir la señal limpia, es decir

Finalmente, la estimación de la señal de voz limpia para el bloque m-ésimo se obtiene a partir de la transformada de Fourier inversa del espectro estimado de la señal limpia

de forma que

y aplicando la técnica del overlap-add se reconstruye la señal .

La expresión más general de la sustracción espectral es

donde los parámetros a y k aumentan la versatilidad del algoritmo. El exponente a se suele variar entre 0.5 y 2 y la constante k nos fija la sobreestimación del espectro de ruido. Como puede ocurrir que en algunas frecuencias la diferencia espectral entre la señal de voz ruidosa y la estimación de rudio puede ser negativa, se realiza una proceso de rectificación, es decir, se fija a cero la resta cuando esta es negativa. Este proceso de rectificación produce el conocido "ruido musical".

Dando un paso mas, podemos reescribir la ecuación anterior como

donde el término entre corchetes se puede interpretar como la respuesta impulsional de un filtro que modifica el espectro de la señal ruidosa de entrada. Este término está íntimamente ligado con el filtrado de Wiener. Efectivamente, en el filtrado de Wiener, el filtro óptimo viene definido por la función de red

que coincide con el término entre corchetes cuando el exponente a=2. Asi pues, la sustracción espectral no es mas que una variación del filtrado óptimo de Wiener.

Volviendo a la ecuación de la sustracción espectral, vamos a denominar al término multiplicativo como el factor de ganancia

de forma que el espectro estimado de la señal limpia se puede ver como un proceso de filtrado

siendo el módulo de la respuesta frecuencial de un filtro de fase cero.

Los dos problemas básicos asociados a este método de cancelación de ruido son:

  1. La necesidad de utilizar un sistema de detección voz/silencio (VAD - Voice Activity Detector) para ir reestimando la densidad espectral de potencia del ruido
  2. La propia varianza de la estimación de las densidades espectrales de potencia.

Estos dos factores limitan en gran medida las prestaciones del método. El problema de la detección voz/silencio se trata en un apartado específico, y en este documento estudiaremos los métodos para la reducción de la varianza de la estimación de la densidad espectral de potencia y su influencia en la reducción del ruido musical.

La figura 1 presenta el diagrama de bloques de un sistema genérico de cancelación de ruido mediante sustracción espectral.

Figura 1. Diagrama de Bloques de un sistema genérico de Sustracción Espectral

Principios Básicos
Estimación del factor de Ganancia
Densidad Espectral de Ruido

La estimación espectral mediante el periodograma (una simple FFT) no es un método consistente de estimación de la verdadera densidad espectral de potencia aunque de forma asintótica se trata de un estimado sin sesgo del espectro.Para la estimación del factor de ganancia no es necesaria una alta resolución en la estimación, se puede utilizar métodos de baja varianza por promediado como son los métodos de Bartlett y Welch.

El método de estimación espectral que vamos a explorar es el método de Welch. Este método propone promediar estimaciones espectrales realizadas mediante el periodograma (una simple FFT) mediante la división del segmento de análisis de N muestras, que denominaremos segmento principal, en K segmentos solapados de M muestras, que denominaremos segmentos de estimación. El solape utilizado es del 50%, lo que permite reducir la varianza en un factor K.

Sea x(n;m) la señal que conforma el segmento principal y la densidad espectral de potencia del k-ésimo segemento de estimación de longitud M muestras. La estimación espectral de potencia del segmento x(n;m) será

Como consecuencia del método de estimación, tenemos dos efectos:

  • La resolución de la estimación se reduce, ahora la resolución es aproximadamente

  • La varianza de la estimación disminuye y es aproximadamente

La varianza se puede reducir mas mediante un promediado temporal sobre varios segmentos principales. Un método muy usual de realizar este promediado es mediante una poderación exponencial

donde el factor de memoria es un valor entre 0 y 1.

Esta técnica de reducción de la varianza se utiliza para el cálculo del factor de Ganancia, aplicandolo tanto a la estimación de la densidad espectral de potencia como a la densidad espectral de la señal ruidosa.

Estimación del Factor de Ganancia
Densidad Espectral de Ruido
Factor de Sobrestimación

 

Densidad Espectral de Ruido
Factor de Sobreestimación
Ejemplos

 

Factor de Sobreestimación
Ejemplos
Inicio