Filtro de mínimos cuadrados medios

Los algoritmos de mínimos cuadrados medios ( LMS ) son una clase de filtro adaptativo que se utiliza para imitar un filtro deseado al encontrar los coeficientes de filtro que se relacionan con la producción del mínimo cuadrado medio de la señal de error (diferencia entre la señal deseada y la real). Es un método de descenso de gradiente estocástico en el que el filtro solo se adapta en función del error en el momento actual. Fue inventado en 1960 por el profesor de la Universidad de Stanford Bernard Widrow y su primer doctorado. estudiante, Ted Hoff .

Formulación del problema

LMS filter

Relación con el filtro Wiener

La realización del filtro de Wiener causal se parece mucho a la solución a la estimación de mínimos cuadrados, excepto en el dominio de procesamiento de señales. La solución de mínimos cuadrados, para la matriz de entrada ${\ Displaystyle \ mathbf {X}}$ y vector de salida ${\ displaystyle {\ boldsymbol {y}}}$ es

${\ Displaystyle {\ boldsymbol {\ hat {\ beta}}} = (\ mathbf {X} ^ {\ mathbf {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ mathbf {T}} {\ boldsymbol {y}}.}$

El filtro de mínimos cuadrados medios de FIR está relacionado con el filtro de Wiener, pero minimizar el criterio de error del primero no depende de correlaciones cruzadas o autocorrelaciones. Su solución converge a la solución de filtrado Wiener. La mayoría de los problemas de filtrado adaptativo lineal se pueden formular utilizando el diagrama de bloques anterior. Es decir, un sistema desconocido ${\ Displaystyle \ mathbf {h} (n)}$ debe ser identificado y el filtro adaptativo intenta adaptar el filtro ${\ Displaystyle {\ hat {\ mathbf {h}}} (n)}$ para acercarlo lo más posible a ${\ Displaystyle \ mathbf {h} (n)}$ , utilizando solo señales observables ${\ Displaystyle x (n)}$ , ${\ Displaystyle d (n)}$ y ${\ Displaystyle e (n)}$ ; pero ${\ Displaystyle y (n)}$ , ${\ Displaystyle v (n)}$ y ${\ Displaystyle h (n)}$ no son directamente observables. Su solución está estrechamente relacionada con el filtro Wiener .

Definición de símbolos

{\ Displaystyle n}

es el número de la muestra de entrada actual

{\ Displaystyle p}

es el número de grifos de filtro

{\ Displaystyle \ {\ cdot \} ^ {H}}

( Transposición hermitiana o transposición conjugada )

{\ Displaystyle \ mathbf {x} (n) = \ left [x (n), x (n-1), \ dots, x (n-p + 1) \ right] ^ {T}}

{\ Displaystyle \ mathbf {h} (n) = \ left [h_ {0} (n), h_ {1} (n), \ dots, h_ {p-1} (n) \ right] ^ {T} , \ quad \ mathbf {h} (n) \ in \ mathbb {C} ^ {p}}

{\ Displaystyle y (n) = \ mathbf {h} ^ {H} (n) \ cdot \ mathbf {x} (n)}

{\ Displaystyle d (n) = y (n) + \ nu (n)}

{\ Displaystyle {\ hat {\ mathbf {h}}} (n)}

filtro estimado; interpretar como la estimación de los coeficientes de filtro después de

n

muestras

{\ Displaystyle e (n) = re (n) - {\ hat {y}} (n) = re (n) - {\ hat {\ mathbf {h}}} ^ {H} (n) \ cdot \ mathbf {x} (n)}

Ocurrencia

La idea básica detrás del filtro LMS es acercarse a los pesos de filtro óptimos ${\ Displaystyle (R ^ {- 1} P)}$ , actualizando los pesos del filtro de manera que converjan al peso óptimo del filtro. Esto se basa en el algoritmo de descenso de gradientes. El algoritmo comienza asumiendo pesos pequeños (cero en la mayoría de los casos) y, en cada paso, al encontrar el gradiente del error cuadrático medio, se actualizan los pesos. Es decir, si el gradiente de MSE es positivo, implica que el error seguirá aumentando positivamente si se usa el mismo peso para más iteraciones, lo que significa que debemos reducir los pesos. De la misma manera, si el gradiente es negativo, necesitamos aumentar los pesos. La ecuación de actualización de peso es

${\ Displaystyle W_ {n + 1} = W_ {n} - \ mu \ nabla \ varepsilon [n]}$ ,

dónde ${\ Displaystyle \ varepsilon}$ representa el error cuadrático medio y ${\ Displaystyle \ mu}$ es un coeficiente de convergencia.

El signo negativo muestra que bajamos la pendiente del error, ${\ Displaystyle \ varepsilon}$ para encontrar los pesos de los filtros, ${\ Displaystyle W_ {i}}$ , que minimizan el error.

El error cuadrático medio en función de los pesos de los filtros es una función cuadrática, lo que significa que solo tiene un extremo, lo que minimiza el error cuadrático medio, que es el peso óptimo. Por lo tanto, el LMS se acerca a estos pesos óptimos ascendiendo / descendiendo por la curva del error cuadrático medio frente al peso del filtro.

Derivación

La idea detrás de los filtros LMS es utilizar el descenso más pronunciado para encontrar los pesos de los filtros. ${\ Displaystyle {\ hat {\ mathbf {h}}} (n)}$ que minimizan una función de costo . Comenzamos definiendo la función de costo como

{\ Displaystyle C (n) = E \ left \ {| e (n) | ^ {2} \ right \}}

dónde ${\ Displaystyle e (n)}$ es el error en la muestra actual n y ${\ Displaystyle E \ {\ cdot \}}$ denota el valor esperado .

Esta función de costo ( ${\ Displaystyle C (n)}$ ) es el error cuadrático medio y el LMS lo minimiza. Aquí es donde el LMS recibe su nombre. Aplicar el descenso más pronunciado significa tomar las derivadas parciales con respecto a las entradas individuales del vector de coeficiente de filtro (peso)

{\ Displaystyle \ nabla _ {{\ hat {\ mathbf {h}}} ^ {H}} C (n) = \ nabla _ {{\ hat {\ mathbf {h}}} ^ {H}} E \ izquierda \ {e (n) \, e ^ {*} (n) \ derecha \} = 2E \ izquierda \ {\ nabla _ {{\ hat {\ mathbf {h}}} ^ {H}} (e ( n)) \, e ^ {*} (n) \ right \}}

dónde ${\ Displaystyle \ nabla}$ es el operador de gradiente

{\ Displaystyle \ nabla _ {{\ hat {\ mathbf {h}}} ^ {H}} (e (n)) = \ nabla _ {{\ hat {\ mathbf {h}}} ^ {H}} \ left (d (n) - {\ hat {\ mathbf {h}}} ^ {H} \ cdot \ mathbf {x} (n) \ right) = - \ mathbf {x} (n)}

{\ Displaystyle \ nabla C (n) = - 2E \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \}}

Ahora, ${\ Displaystyle \ nabla C (n)}$ es un vector que apunta hacia el ascenso más pronunciado de la función de costo. Para encontrar el mínimo de la función de costo, necesitamos dar un paso en la dirección opuesta de ${\ Displaystyle \ nabla C (n)}$ . Para expresar eso en términos matemáticos

{\ Displaystyle {\ hat {\ mathbf {h}}} (n + 1) = {\ hat {\ mathbf {h}}} (n) - {\ frac {\ mu} {2}} \ nabla C ( n) = {\ hat {\ mathbf {h}}} (n) + \ mu \, E \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \}}

dónde ${\ Displaystyle {\ frac {\ mu} {2}}}$ es el tamaño del paso (constante de adaptación). Eso significa que hemos encontrado un algoritmo de actualización secuencial que minimiza la función de costo. Desafortunadamente, este algoritmo no se puede realizar hasta que sepamos ${\ Displaystyle E \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \}}$ .

Generalmente, la expectativa anterior no se calcula. En cambio, para ejecutar el LMS en un entorno en línea (que se actualiza después de recibir cada nueva muestra), utilizamos una estimación instantánea de esa expectativa. Vea abajo.

Simplificaciones

Para la mayoría de los sistemas, la función de expectativa ${\ Displaystyle {E} \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \}}$ debe ser aproximado. Esto se puede hacer con el siguiente estimador insesgado

{\ Displaystyle {\ hat {E}} \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \} = {\ frac {1} {N}} \ sum _ {i = 0} ^ {N-1} \ mathbf {x} (ni) \, e ^ {*} (ni)}

dónde ${\ Displaystyle N}$ indica el número de muestras que usamos para esa estimación. El caso más simple es ${\ Displaystyle N = 1}$

{\ Displaystyle {\ hat {E}} \ left \ {\ mathbf {x} (n) \, e ^ {*} (n) \ right \} = \ mathbf {x} (n) \, e ^ { *}(norte)}

Para ese caso simple, el algoritmo de actualización sigue como

{\ Displaystyle {\ hat {\ mathbf {h}}} (n + 1) = {\ hat {\ mathbf {h}}} (n) + \ mu \ mathbf {x} (n) \, e ^ { *}(norte)}

De hecho, esto constituye el algoritmo de actualización del filtro LMS.

Resumen del algoritmo LMS

El algoritmo LMS para un ${\ Displaystyle p}$ El filtro de orden se puede resumir como

Parámetros:	${\ Displaystyle p =}$ orden de filtro
	${\ Displaystyle \ mu =}$ Numero de pie
Inicialización:	${\ displaystyle {\ hat {\ mathbf {h}}} (0) = \ operatorname {ceros} (p)}$
Cálculo:	Para ${\ Displaystyle n = 0,1,2, ...}$
	${\ Displaystyle \ mathbf {x} (n) = \ left [x (n), x (n-1), \ dots, x (n-p + 1) \ right] ^ {T}}$
	${\ Displaystyle e (n) = d (n) - {\ hat {\ mathbf {h}}} ^ {H} (n) \ mathbf {x} (n)}$
	${\ Displaystyle {\ hat {\ mathbf {h}}} (n + 1) = {\ hat {\ mathbf {h}}} (n) + \ mu \, e ^ {*} (n) \ mathbf { x} (n)}$

Convergencia y estabilidad en la media

Como el algoritmo LMS no usa los valores exactos de las expectativas, las ponderaciones nunca alcanzarían las ponderaciones óptimas en el sentido absoluto, pero es posible una convergencia en la media. Es decir, aunque los pesos pueden cambiar en pequeñas cantidades, cambia con respecto a los pesos óptimos. Sin embargo, si la varianza con la que cambian los pesos es grande, la convergencia en la media sería engañosa. Este problema puede ocurrir si el valor del tamaño de paso ${\ Displaystyle \ mu}$ no se elige correctamente.

Si ${\ Displaystyle \ mu}$ se elige grande, la cantidad con la que cambian los pesos depende en gran medida de la estimación del gradiente, por lo que los pesos pueden cambiar en un valor grande, de modo que el gradiente que era negativo en el primer instante ahora puede volverse positivo. Y en el segundo instante, el peso puede cambiar en la dirección opuesta en una gran cantidad debido al gradiente negativo y, por lo tanto, seguiría oscilando con una gran variación sobre los pesos óptimos. Por otro lado, si ${\ Displaystyle \ mu}$ se elige demasiado pequeño, el tiempo para converger a los pesos óptimos será demasiado grande.

Por lo tanto, un límite superior en ${\ Displaystyle \ mu}$ es necesario que se da como ${\ Displaystyle 0 <\ mu <{\ frac {2} {\ lambda _ {\ mathrm {max}}}}}$

dónde ${\ Displaystyle \ lambda _ {\ max}}$ es el mayor valor propio de la matriz de autocorrelación ${\ Displaystyle {\ mathbf {R}} = E \ {{\ mathbf {x}} (n) {\ mathbf {x} ^ {H}} (n) \}}$ . Si no se cumple esta condición, el algoritmo se vuelve inestable y ${\ Displaystyle {\ hat {h}} (n)}$ diverge.

La velocidad máxima de convergencia se alcanza cuando

{\ Displaystyle \ mu = {\ frac {2} {\ lambda _ {\ mathrm {max}} + \ lambda _ {\ mathrm {min}}}},}

dónde ${\ Displaystyle \ lambda _ {\ min}}$ es el valor propio más pequeño de ${\ Displaystyle {\ mathbf {R}}}$ . Dado que ${\ Displaystyle \ mu}$ es menor o igual a este óptimo, la velocidad de convergencia está determinada por ${\ Displaystyle \ lambda _ {\ min}}$ , con un valor mayor que produce una convergencia más rápida. Esto significa que se puede lograr una convergencia más rápida cuando ${\ Displaystyle \ lambda _ {\ max}}$ esta cerca de ${\ Displaystyle \ lambda _ {\ min}}$ , es decir, la velocidad de convergencia máxima alcanzable depende de la dispersión del valor propio de ${\ Displaystyle {\ mathbf {R}}}$ .

Una señal de ruido blanco tiene una matriz de autocorrelación. ${\ Displaystyle {\ mathbf {R}} = \ sigma ^ {2} {\ mathbf {I}}}$ dónde ${\ Displaystyle \ sigma ^ {2}}$ es la varianza de la señal. En este caso, todos los valores propios son iguales y la dispersión del valor propio es el mínimo entre todas las matrices posibles. La interpretación común de este resultado es, por lo tanto, que el LMS converge rápidamente para las señales de entrada blancas y lentamente para las señales de entrada coloreadas, como los procesos con características de paso bajo o paso alto.

Es importante tener en cuenta que el límite superior anterior en ${\ Displaystyle \ mu}$ solo refuerza la estabilidad en la media, pero los coeficientes de ${\ Displaystyle {\ hat {h}} (n)}$ todavía puede crecer infinitamente, es decir, todavía es posible la divergencia de los coeficientes. Un límite más práctico es

{\ Displaystyle 0 <\ mu <{\ frac {2} {\ mathrm {tr} \ left [{\ mathbf {R}} \ right]}},}

dónde ${\ Displaystyle \ mathrm {tr} [{\ mathbf {R}}]}$ denota el rastro de ${\ Displaystyle {\ mathbf {R}}}$ . Este límite garantiza que los coeficientes de ${\ Displaystyle {\ hat {h}} (n)}$ no divergen (en la práctica, el valor de ${\ Displaystyle \ mu}$ no debe elegirse cerca de este límite superior, ya que es algo optimista debido a las aproximaciones y suposiciones hechas en la derivación del límite).

Filtro de mínimos cuadrados medios normalizados (NLMS)

El principal inconveniente del algoritmo LMS "puro" es que es sensible al escalado de su entrada. ${\ Displaystyle x (n)}$ . Esto hace que sea muy difícil (si no imposible) elegir una tasa de aprendizaje ${\ Displaystyle \ mu}$ que garantiza la estabilidad del algoritmo (Haykin 2002). El filtro de mínimos cuadrados medios normalizados (NLMS) es una variante del algoritmo LMS que resuelve este problema normalizándolo con la potencia de la entrada. El algoritmo NLMS se puede resumir como:

Parámetros:	${\ Displaystyle p =}$ orden de filtro
	${\ Displaystyle \ mu =}$ Numero de pie
Inicialización:	${\ displaystyle {\ hat {\ mathbf {h}}} (0) = \ operatorname {ceros} (p)}$
Cálculo:	Para ${\ Displaystyle n = 0,1,2, ...}$
	${\ Displaystyle \ mathbf {x} (n) = \ left [x (n), x (n-1), \ dots, x (n-p + 1) \ right] ^ {T}}$
	${\ Displaystyle e (n) = d (n) - {\ hat {\ mathbf {h}}} ^ {H} (n) \ mathbf {x} (n)}$
	${\ Displaystyle {\ hat {\ mathbf {h}}} (n + 1) = {\ hat {\ mathbf {h}}} (n) + {\ frac {\ mu \, e ^ {*} (n ) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}}}$

Tasa de aprendizaje óptima

Se puede demostrar que si no hay interferencia ( ${\ Displaystyle v (n) = 0}$ ), entonces la tasa de aprendizaje óptima para el algoritmo NLMS es

{\ Displaystyle \ mu _ {opt} = 1}

y es independiente de la entrada ${\ Displaystyle x (n)}$ y la respuesta de impulso real (desconocida) ${\ Displaystyle \ mathbf {h} (n)}$ . En el caso general con interferencia ( ${\ Displaystyle v (n) \ neq 0}$ ), la tasa de aprendizaje óptima es

{\ Displaystyle \ mu _ {opt} = {\ frac {E \ left [\ left | y (n) - {\ hat {y}} (n) \ right | ^ {2} \ right]} {E \ izquierda [| e (n) | ^ {2} \ right]}}}

Los resultados anteriores suponen que las señales ${\ Displaystyle v (n)}$ y ${\ Displaystyle x (n)}$ no están correlacionados entre sí, lo que generalmente es el caso en la práctica.

Prueba

Deje que la desalineación del filtro se defina como ${\ Displaystyle \ Lambda (n) = \ left | \ mathbf {h} (n) - {\ hat {\ mathbf {h}}} (n) \ right | ^ {2}}$ , podemos derivar la desalineación esperada para la siguiente muestra como:

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = E \ left [\ left | {\ hat {\ mathbf {h}}} (n) + {\ frac {\ mu \, e ^ {*} (n) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}} - \ mathbf {h} (n) \ right | ^ {2} \ right]}

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = E \ left [\ left | {\ hat {\ mathbf {h}}} (n) + {\ frac {\ mu \, \ left (v ^ {*} (n) + y ^ {*} (n) - {\ hat {y}} ^ {*} (n) \ right) \ mathbf {x} (n)} {\ mathbf {x } ^ {H} (n) \ mathbf {x} (n)}} - \ mathbf {h} (n) \ right | ^ {2} \ right]}

Dejar ${\ Displaystyle \ mathbf {\ delta} = {\ hat {\ mathbf {h}}} (n) - \ mathbf {h} (n)}$ y ${\ Displaystyle r (n) = {\ hat {y}} (n) -y (n)}$

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = E \ left [\ left | \ mathbf {\ delta} (n) - {\ frac {\ mu \, \ left (v (n)) + r (n) \ right) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}} \ right | ^ {2} \ right] }

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = E \ left [\ left (\ mathbf {\ delta} (n) - {\ frac {\ mu \, \ left (v (n)) + r (n) \ right) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}} \ right) ^ {H} \ left ( \ mathbf {\ delta} (n) - {\ frac {\ mu \, \ left (v (n) + r (n) \ right) \ mathbf {x} (n)} {\ mathbf {x} ^ { H} (n) \ mathbf {x} (n)}} \ derecha) \ derecha]}

Suponiendo independencia, tenemos:

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = \ Lambda (n) + E \ left [\ left ({\ frac {\ mu \, \ left (v (n) + r (n) ) \ right) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}} \ right) ^ {H} \ left ({\ frac { \ mu \, \ left (v (n) + r (n) \ right) \ mathbf {x} (n)} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)} } \ right) \ right] -2E \ left [{\ frac {\ mu | r (n) | ^ {2}} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n) }}\derecho]}

{\ Displaystyle E \ left [\ Lambda (n + 1) \ right] = \ Lambda (n) + {\ frac {\ mu ^ {2} E \ left [| e (n) | ^ {2} \ right ]} {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}} - {\ frac {2 \ mu E \ left [| r (n) | ^ {2} \ right] } {\ mathbf {x} ^ {H} (n) \ mathbf {x} (n)}}}

La tasa de aprendizaje óptima se encuentra en ${\ Displaystyle {\ frac {dE \ left [\ Lambda (n + 1) \ right]} {d \ mu}} = 0}$ , lo que lleva a:

{\ Displaystyle 2 \ mu E \ left [| e (n) | ^ {2} \ right] -2E \ left [| r (n) | ^ {2} \ right] = 0}

{\ Displaystyle \ mu = {\ frac {E \ left [| r (n) | ^ {2} \ right]} {E \ left [| e (n) | ^ {2} \ right]}}}

Ver también

Mínimos cuadrados recursivos
Para conocer las técnicas estadísticas relevantes para el filtro LMS, consulte Mínimos cuadrados .
Similitudes entre Wiener y LMS
Filtro adaptativo de dominio de frecuencia de bloque multidelay
Ecualizador de forzamiento cero
Filtro adaptativo de kernel
filtro coincidente
Filtro de salchicha

Referencias

Monson H. Hayes: Procesamiento y modelado estadístico de señales digitales, Wiley, 1996, ISBN 0-471-59431-8
Simon Haykin: Teoría del filtro adaptativo, Prentice Hall, 2002, ISBN 0-13-048434-2
Simon S. Haykin, Bernard Widrow (Editor): Filtros adaptativos de mínimos cuadrados, Wiley, 2003, ISBN 0-471-21570-8
Bernard Widrow, Samuel D. Stearns: Procesamiento adaptativo de señales, Prentice Hall, 1985, ISBN 0-13-004029-0
Weifeng Liu, Jose Principe y Simon Haykin: Kernel Adaptive Filtering: A Comprehensive Introduction, John Wiley, 2010, ISBN 0-470-44753-2
Paulo SR Diniz: Filtrado adaptativo: algoritmos e implementación práctica, Kluwer Academic Publishers, 1997, ISBN 0-7923-9912-9

enlaces externos

Algoritmo LMS en matrices de antenas adaptables www.antenna-theory.com
Demostración de cancelación de ruido de LMS www.advsolned.com