Error cuadrático medio mínimo

En estadística y procesamiento de señales , un estimador de error cuadrático medio mínimo ( MMSE ) es un método de estimación que minimiza el error cuadrático medio (MSE), que es una medida común de la calidad del estimador, de los valores ajustados de una variable dependiente . En el entorno bayesiano , el término MMSE se refiere más específicamente a la estimación con función de pérdida cuadrática. En tal caso, el estimador MMSE viene dado por la media posterior del parámetro a estimar. Dado que la media posterior es engorrosa de calcular, la forma del estimador MMSE suele estar restringida para estar dentro de una determinada clase de funciones. Los estimadores lineales MMSE son una opción popular ya que son fáciles de usar, fáciles de calcular y muy versátiles. Ha dado lugar a muchos estimadores populares, como el filtro de Wiener-Kolmogorov y el filtro de Kalman .

Motivación

El término MMSE se refiere más específicamente a la estimación en un entorno bayesiano con función de costo cuadrática. La idea básica detrás del enfoque bayesiano de la estimación proviene de situaciones prácticas en las que a menudo tenemos alguna información previa sobre el parámetro que se va a estimar. Por ejemplo, podemos tener información previa sobre el rango que puede asumir el parámetro; o podemos tener una estimación antigua del parámetro que queremos modificar cuando se pone a disposición una nueva observación; o las estadísticas de una señal aleatoria real, como el habla. Esto contrasta con el enfoque no bayesiano como el estimador insesgado de varianza mínima (MVUE), donde se supone que no se sabe absolutamente nada sobre el parámetro de antemano y que no tiene en cuenta tales situaciones. En el enfoque bayesiano, dicha información previa es capturada por la función de densidad de probabilidad previa de los parámetros; y basado directamente en el teorema de Bayes , nos permite hacer mejores estimaciones posteriores a medida que se dispone de más observaciones. Por lo tanto, a diferencia del enfoque no bayesiano donde se supone que los parámetros de interés son deterministas, pero constantes desconocidas, el estimador bayesiano busca estimar un parámetro que es en sí mismo una variable aleatoria. Además, la estimación bayesiana también puede hacer frente a situaciones en las que la secuencia de observaciones no es necesariamente independiente. Por tanto, la estimación bayesiana proporciona otra alternativa más a la MVUE. Esto es útil cuando el MVUE no existe o no se puede encontrar.

Definición

Dejar ${\ Displaystyle x}$ ser un ${\ Displaystyle n \ times 1}$ variable vectorial aleatoria oculta, y deje ${\ Displaystyle y}$ ser un ${\ Displaystyle m \ times 1}$ variable vectorial aleatoria conocida (la medición u observación), ambas no necesariamente de la misma dimensión. Un estimador ${\ Displaystyle {\ hat {x}} (y)}$ de ${\ Displaystyle x}$ es alguna función de la medida ${\ Displaystyle y}$ . El vector de error de estimación viene dado por ${\ Displaystyle e = {\ hat {x}} - x}$ y su error cuadrático medio (MSE) viene dado por la traza de la matriz de covarianza de error

{\ Displaystyle \ operatorname {MSE} = \ operatorname {tr} \ left \ {\ operatorname {E} \ {({\ hat {x}} - x) ({\ hat {x}} - x) ^ {T } \} \ right \} = \ operatorname {E} \ {({\ hat {x}} - x) ^ {T} ({\ hat {x}} - x) \},}

donde la expectativa ${\ Displaystyle \ operatorname {E}}$ se hace cargo de ambos ${\ Displaystyle x}$ y ${\ Displaystyle y}$ . Cuándo ${\ Displaystyle x}$ es una variable escalar, la expresión MSE se simplifica a ${\ Displaystyle \ operatorname {E} \ left \ {({\ hat {x}} - x) ^ {2} \ right \}}$ . Tenga en cuenta que MSE se puede definir de manera equivalente de otras formas, ya que

{\ Displaystyle \ operatorname {tr} \ left \ {\ operatorname {E} \ {ee ^ {T} \} \ right \} = \ operatorname {E} \ left \ {\ operatorname {tr} \ {ee ^ { T} \} \ right \} = \ operatorname {E} \ {e ^ {T} e \} = \ sum _ {i = 1} ^ {n} \ operatorname {E} \ {e_ {i} ^ { 2} \}.}

El estimador MMSE se define entonces como el estimador que logra un MSE mínimo:

{\ displaystyle {\ hat {x}} _ {\ operatorname {MMSE}} (y) = \ operatorname {argmin} _ {\ hat {x}} \ operatorname {MSE}.}

Propiedades

Cuando las medias y las varianzas son finitas, el estimador MMSE se define de forma única ^[1] y viene dado por:

{\ displaystyle {\ hat {x}} _ {\ operatorname {MMSE}} (y) = \ operatorname {E} \ {x \ mid y \}.}

En otras palabras, el estimador MMSE es la expectativa condicional de

{\ Displaystyle x}

dado el valor observado conocido de las mediciones.

El estimador MMSE es insesgado (bajo los supuestos de regularidad mencionados anteriormente):

{\ Displaystyle \ operatorname {E} \ {{\ hat {x}} _ {\ operatorname {MMSE}} (y) \} = \ operatorname {E} \ {\ operatorname {E} \ {x \ mid y \ } \} = \ operatorname {E} \ {x \}.}

El estimador MMSE es asintóticamente insesgado y converge en distribución a la distribución normal:

{\ displaystyle {\ sqrt {n}} ({\ hat {x}} - x) {\ xrightarrow {d}} {\ mathcal {N}} \ left (0, I ^ {- 1} (x) \ derecho),}

dónde

{\ Displaystyle I (x)}

es la información de Fisher de

{\ Displaystyle x}

. Por tanto, el estimador MMSE es asintóticamente eficiente .

El principio de ortogonalidad : cuando ${\ Displaystyle x}$ es un escalar, un estimador constreñido a ser de cierta forma ${\ Displaystyle {\ hat {x}} = g (y)}$ es un estimador óptimo, es decir ${\ Displaystyle {\ hat {x}} _ {\ operatorname {MMSE}} = g ^ {*} (y),}$ si y solo si

{\ Displaystyle \ operatorname {E} \ {({\ hat {x}} _ {\ operatorname {MMSE}} -x) g (y) \} = 0}

para todos

{\ Displaystyle g (y)}

en subespacio lineal cerrado

{\ Displaystyle {\ mathcal {V}} = \ {g (y) \ mid g: \ mathbb {R} ^ {m} \ rightarrow \ mathbb {R}, \ operatorname {E} \ {g (y) ^ {2} \} <+ \ infty \}}

de las medidas. Para vectores aleatorios, dado que el MSE para la estimación de un vector aleatorio es la suma de los MSE de las coordenadas, encontrar el estimador MMSE de un vector aleatorio se descompone en encontrar los estimadores MMSE de las coordenadas de X por separado:

{\ Displaystyle \ operatorname {E} \ {(g_ {i} ^ {*} (y) -x_ {i}) g_ {j} (y) \} = 0,}

para todo i y j . Dicho de manera más sucinta, la correlación cruzada entre el error mínimo de estimación

{\ Displaystyle {\ hat {x}} _ {\ operatorname {MMSE}} -x}

y el estimador

{\ Displaystyle {\ hat {x}}}

debe ser cero,

{\ Displaystyle \ operatorname {E} \ {({\ hat {x}} _ {\ operatorname {MMSE}} -x) {\ hat {x}} ^ {T} \} = 0.}

Si ${\ Displaystyle x}$ y ${\ Displaystyle y}$ son conjuntamente gaussianos , entonces el estimador MMSE es lineal, es decir, tiene la forma ${\ Displaystyle Wy + b}$ para matriz ${\ Displaystyle W}$ y constante ${\ Displaystyle b}$ . Esto se puede mostrar directamente usando el teorema de Bayes. Como consecuencia, para encontrar el estimador MMSE, es suficiente encontrar el estimador MMSE lineal.

Estimador lineal MMSE

En muchos casos, no es posible determinar la expresión analítica del estimador MMSE. Dos enfoques numéricos básicos para obtener la estimación MMSE dependen de encontrar la expectativa condicional ${\ Displaystyle \ operatorname {E} \ {x \ mid y \}}$ o encontrar los mínimos de MSE. La evaluación numérica directa de la expectativa condicional es computacionalmente costosa ya que a menudo requiere una integración multidimensional que generalmente se realiza mediante métodos de Monte Carlo . Otro enfoque computacional es buscar directamente los mínimos del MSE utilizando técnicas como los métodos de descenso de gradiente estocástico ; pero este método todavía requiere la evaluación de expectativas. Si bien estos métodos numéricos han sido fructíferos, no obstante, es posible una expresión de forma cerrada para el estimador MMSE si estamos dispuestos a hacer algunos compromisos.

Una posibilidad es abandonar todos los requisitos de optimalidad y buscar una técnica que minimice el MSE dentro de una clase particular de estimadores, como la clase de estimadores lineales. Por tanto, postulamos que la expectativa condicional de ${\ Displaystyle x}$ dado ${\ Displaystyle y}$ es una función lineal simple de ${\ Displaystyle y}$ , ${\ Displaystyle \ operatorname {E} \ {x \ mid y \} = Wy + b}$ , donde la medida ${\ Displaystyle y}$ es un vector aleatorio, ${\ Displaystyle W}$ es una matriz y ${\ Displaystyle b}$ es un vector. Esto puede verse como la aproximación de Taylor de primer orden de ${\ Displaystyle \ operatorname {E} \ {x \ mid y \}}$ . El estimador lineal MMSE es el estimador que logra el mínimo MSE entre todos los estimadores de dicha forma. Es decir, resuelve el siguiente problema de optimización:

{\ Displaystyle \ min _ {W, b} \ operatorname {MSE} \ qquad {\ text {st}} \ qquad {\ hat {x}} = Wy + b.}

Una ventaja de dicho estimador lineal MMSE es que no es necesario calcular explícitamente la función de densidad de probabilidad posterior de ${\ Displaystyle x}$ . Dicho estimador lineal solo depende de los dos primeros momentos de ${\ Displaystyle x}$ y ${\ Displaystyle y}$ . Entonces, aunque puede ser conveniente asumir que ${\ Displaystyle x}$ y ${\ Displaystyle y}$ son conjuntamente gaussianos, no es necesario hacer esta suposición, siempre que la distribución supuesta tenga un primer y segundo momento bien definidos. La forma del estimador lineal no depende del tipo de distribución subyacente asumida.

La expresión de óptimo ${\ Displaystyle b}$ y ${\ Displaystyle W}$ es dado por:

{\ Displaystyle b = {\ bar {x}} - W {\ bar {y}},}

{\ Displaystyle W = C_ {XY} C_ {Y} ^ {- 1}.}

dónde ${\ displaystyle {\ bar {x}} = \ operatorname {E} \ {x \}}$ , ${\ Displaystyle {\ bar {y}} = \ operatorname {E} \ {y \},}$ la ${\ Displaystyle C_ {XY}}$ es la matriz de covarianza cruzada entre ${\ Displaystyle x}$ y ${\ Displaystyle y}$ , la ${\ Displaystyle C_ {Y}}$ es la matriz de auto-covarianza de ${\ Displaystyle y}$ .

Por tanto, la expresión del estimador lineal MMSE, su media y su autocovarianza viene dada por

{\ Displaystyle {\ hat {x}} = W (y - {\ bar {y}}) + {\ bar {x}},}

{\ Displaystyle \ operatorname {E} \ {{\ hat {x}} \} = {\ bar {x}},}

{\ Displaystyle C _ {\ hat {X}} = C_ {XY} C_ {Y} ^ {- 1} C_ {YX},}

donde el ${\ Displaystyle C_ {YX}}$ es la matriz de covarianza cruzada entre ${\ Displaystyle y}$ y ${\ Displaystyle x}$ .

Por último, la covarianza del error y el error cuadrático medio mínimo que puede lograr dicho estimador es

{\ Displaystyle C_ {e} = C_ {X} -C _ {\ hat {X}} = C_ {X} -C_ {XY} C_ {Y} ^ {- 1} C_ {YX},}

{\ Displaystyle \ operatorname {LMMSE} = \ operatorname {tr} \ {C_ {e} \}.}

Derivación mediante el principio de ortogonalidad

Tengamos el estimador lineal óptimo de MMSE dado como ${\ Displaystyle {\ hat {x}} = Wy + b}$ , donde debemos encontrar la expresión para ${\ Displaystyle W}$ y ${\ Displaystyle b}$ . Se requiere que el estimador MMSE sea insesgado. Esto significa,

{\ Displaystyle \ operatorname {E} \ {{\ hat {x}} \} = \ operatorname {E} \ {x \}.}

Conectando la expresión para ${\ Displaystyle {\ hat {x}}}$ arriba, obtenemos

{\ Displaystyle b = {\ bar {x}} - W {\ bar {y}},}

dónde ${\ displaystyle {\ bar {x}} = \ operatorname {E} \ {x \}}$ y ${\ Displaystyle {\ bar {y}} = \ operatorname {E} \ {y \}}$ . Por tanto, podemos reescribir el estimador como

{\ Displaystyle {\ hat {x}} = W (y - {\ bar {y}}) + {\ bar {x}}}

y la expresión para el error de estimación se convierte en

{\ Displaystyle {\ hat {x}} - x = W (y - {\ bar {y}}) - (x - {\ bar {x}}).}

Desde el principio de ortogonalidad, podemos tener ${\ Displaystyle \ operatorname {E} \ {({\ hat {x}} - x) (y - {\ bar {y}}) ^ {T} \} = 0}$ , a donde llevamos ${\ Displaystyle g (y) = y - {\ bar {y}}}$ . Aquí el término del lado izquierdo es

{\ Displaystyle {\ begin {alineado} \ operatorname {E} \ {({\ hat {x}} - x) (y - {\ bar {y}}) ^ {T} \} & = \ operatorname {E } \ {(W (y - {\ bar {y}}) - (x - {\ bar {x}})) (y - {\ bar {y}}) ^ {T} \} \\ & = W \ operatorname {E} \ {(y - {\ bar {y}}) (y - {\ bar {y}}) ^ {T} \} - \ operatorname {E} \ {(x - {\ bar {x}}) (y - {\ bar {y}}) ^ {T} \} \\ & = WC_ {Y} -C_ {XY}. \ end {alineado}}}

Cuando se equipara a cero, obtenemos la expresión deseada para ${\ Displaystyle W}$ como

{\ Displaystyle W = C_ {XY} C_ {Y} ^ {- 1}.}

La ${\ Displaystyle C_ {XY}}$ es la matriz de covarianza cruzada entre X e Y, y ${\ Displaystyle C_ {Y}}$ es la matriz de autocovarianza de Y. Dado que ${\ Displaystyle C_ {XY} = C_ {YX} ^ {T}}$ , la expresión también se puede reescribir en términos de ${\ Displaystyle C_ {YX}}$ como

{\ Displaystyle W ^ {T} = C_ {Y} ^ {- 1} C_ {YX}.}

Por tanto, la expresión completa del estimador lineal MMSE es

{\ Displaystyle {\ hat {x}} = C_ {XY} C_ {Y} ^ {- 1} (y - {\ bar {y}}) + {\ bar {x}}.}

Dado que la estimación ${\ Displaystyle {\ hat {x}}}$ es en sí misma una variable aleatoria con ${\ Displaystyle \ operatorname {E} \ {{\ hat {x}} \} = {\ bar {x}}}$ , también podemos obtener su autocovarianza como

{\ Displaystyle {\ begin {alineado} C _ {\ hat {X}} & = \ operatorname {E} \ {({\ hat {x}} - {\ bar {x}}) ({\ hat {x} } - {\ bar {x}}) ^ {T} \} \\ & = W \ operatorname {E} \ {(y - {\ bar {y}}) (y - {\ bar {y}}) ^ {T} \} W ^ {T} \\ & = WC_ {Y} W ^ {T}. \\\ end {alineado}}}

Poniendo la expresión para ${\ Displaystyle W}$ y ${\ Displaystyle W ^ {T}}$ , obtenemos

{\ Displaystyle C _ {\ hat {X}} = C_ {XY} C_ {Y} ^ {- 1} C_ {YX}.}

Por último, la covarianza del error de estimación lineal MMSE vendrá dada por

{\ Displaystyle {\ begin {alineado} C_ {e} & = \ operatorname {E} \ {({\ hat {x}} - x) ({\ hat {x}} - x) ^ {T} \} \\ & = \ operatorname {E} \ {({\ hat {x}} - x) (W (y - {\ bar {y}}) - (x - {\ bar {x}})) ^ { T} \} \\ & = \ underbrace {\ operatorname {E} \ {({\ hat {x}} - x) (y - {\ bar {y}}) ^ {T} \}} _ {0 } W ^ {T} - \ operatorname {E} \ {({\ hat {x}} - x) (x - {\ bar {x}}) ^ {T} \} \\ & = - \ operatorname { E} \ {(W (y - {\ bar {y}}) - (x - {\ bar {x}})) (x - {\ bar {x}}) ^ {T} \} \\ & = \ nombre de operador {E} \ {(x - {\ bar {x}}) (x - {\ bar {x}}) ^ {T} \} - W \ nombre de operador {E} \ {(y - {\ bar {y}}) (x - {\ bar {x}}) ^ {T} \} \\ & = C_ {X} -WC_ {YX}. \ end {alineado}}}

El primer término de la tercera línea es cero debido al principio de ortogonalidad. Desde ${\ Displaystyle W = C_ {XY} C_ {Y} ^ {- 1}}$ , podemos reescribir ${\ Displaystyle C_ {e}}$ en términos de matrices de covarianza como

{\ Displaystyle C_ {e} = C_ {X} -C_ {XY} C_ {Y} ^ {- 1} C_ {YX}.}

Esto podemos reconocer que es lo mismo que ${\ Displaystyle C_ {e} = C_ {X} -C _ {\ hat {X}}.}$ Por lo tanto, el error cuadrático medio mínimo que se puede lograr con un estimador lineal de este tipo es

{\ Displaystyle \ operatorname {LMMSE} = \ operatorname {tr} \ {C_ {e} \}}

.

Caso univariado

Para el caso especial cuando ambos ${\ Displaystyle x}$ y ${\ Displaystyle y}$ son escalares, las relaciones anteriores se simplifican a

{\ Displaystyle {\ hat {x}} = {\ frac {\ sigma _ {XY}} {\ sigma _ {Y} ^ {2}}} (y ​​- {\ bar {y}}) + {\ bar {x}} = \ rho {\ frac {\ sigma _ {X}} {\ sigma _ {Y}}} (y ​​- {\ bar {y}}) + {\ bar {x}},}

{\ Displaystyle \ sigma _ {e} ^ {2} = \ sigma _ {X} ^ {2} - {\ frac {\ sigma _ {XY} ^ {2}} {\ sigma _ {Y} ^ {2 }}} = (1- \ rho ^ {2}) \ sigma _ {X} ^ {2},}

dónde ${\ Displaystyle \ rho}$ es el coeficiente de correlación de Pearson entre ${\ Displaystyle x}$ y ${\ Displaystyle y}$ .

Cálculo

El método estándar como la eliminación de Gauss se puede utilizar para resolver la ecuación matricial para ${\ Displaystyle W}$ . El método de descomposición QR proporciona un método más estable numéricamente . Dado que la matriz ${\ Displaystyle C_ {Y}}$ es una matriz definida positiva simétrica, ${\ Displaystyle W}$ se puede resolver dos veces más rápido con la descomposición de Cholesky , mientras que para sistemas grandes y dispersos el método de gradiente conjugado es más efectivo. La recursividad de Levinson es un método rápido cuando ${\ Displaystyle C_ {Y}}$ es también una matriz de Toeplitz . Esto puede suceder cuando ${\ Displaystyle y}$ es un proceso estacionario de sentido amplio . En estos casos estacionarios, estos estimadores también se denominan filtros de Wiener-Kolmogorov .

Estimador lineal MMSE para procesos de observación lineal

Modelemos más el proceso subyacente de observación como un proceso lineal: ${\ Displaystyle y = Ax + z}$ , dónde ${\ Displaystyle A}$ es una matriz conocida y ${\ Displaystyle z}$ es un vector de ruido aleatorio con la media ${\ Displaystyle \ operatorname {E} \ {z \} = 0}$ y covarianza cruzada ${\ Displaystyle C_ {XZ} = 0}$ . Aquí la media requerida y las matrices de covarianza serán

{\ Displaystyle \ operatorname {E} \ {y \} = A {\ bar {x}},}

{\ Displaystyle C_ {Y} = AC_ {X} A ^ {T} + C_ {Z},}

{\ Displaystyle C_ {XY} = C_ {X} A ^ {T}.}

Por lo tanto, la expresión para la matriz de estimador lineal MMSE ${\ Displaystyle W}$ además modifica a

{\ Displaystyle W = C_ {X} A ^ {T} (AC_ {X} A ^ {T} + C_ {Z}) ^ {- 1}.}

Poniendo todo en la expresión para ${\ Displaystyle {\ hat {x}}}$ , obtenemos

{\ Displaystyle {\ hat {x}} = C_ {X} A ^ {T} (AC_ {X} A ^ {T} + C_ {Z}) ^ {- 1} (yA {\ bar {x}} ) + {\ bar {x}}.}

Por último, la covarianza de error es

{\ Displaystyle C_ {e} = C_ {X} -C _ {\ hat {X}} = C_ {X} -C_ {X} A ^ {T} (AC_ {X} A ^ {T} + C_ {Z }) ^ {- 1} AC_ {X}.}

La diferencia significativa entre el problema de estimación tratado anteriormente y los de mínimos cuadrados y la estimación de Gauss-Markov es que el número de observaciones m , (es decir, la dimensión de ${\ Displaystyle y}$ ) no necesita ser al menos tan grande como el número de incógnitas, n , (es decir, la dimensión de ${\ Displaystyle x}$ ). La estimación para el proceso de observación lineal existe siempre que la matriz m- por- m ${\ Displaystyle (AC_ {X} A ^ {T} + C_ {Z}) ^ {- 1}}$ existe; este es el caso de cualquier m si, por ejemplo, ${\ Displaystyle C_ {Z}}$ es positivo definido. Físicamente, la razón de esta propiedad es que, dado que ${\ Displaystyle x}$ es ahora una variable aleatoria, es posible formar una estimación significativa (es decir, su media) incluso sin mediciones. Cada nueva medición simplemente proporciona información adicional que puede modificar nuestra estimación original. Otra característica de esta estimación es que para m < n , no es necesario que haya error de medición. Por lo tanto, podemos tener ${\ Displaystyle C_ {Z} = 0}$ , porque mientras ${\ Displaystyle AC_ {X} A ^ {T}}$ es positivo definido, la estimación todavía existe. Por último, esta técnica puede manejar casos en los que el ruido está correlacionado.

Forma alternativa

Se puede obtener una forma alternativa de expresión utilizando la identidad de la matriz

{\ Displaystyle C_ {X} A ^ {T} (AC_ {X} A ^ {T} + C_ {Z}) ^ {- 1} = (A ^ {T} C_ {Z} ^ {- 1} A + C_ {X} ^ {- 1}) ^ {- 1} A ^ {T} C_ {Z} ^ {- 1},}

que se puede establecer post-multiplicando por ${\ Displaystyle (AC_ {X} A ^ {T} + C_ {Z})}$ y pre-multiplicar por ${\ Displaystyle (A ^ {T} C_ {Z} ^ {- 1} A + C_ {X} ^ {- 1}),}$ para obtener

{\ Displaystyle W = (A ^ {T} C_ {Z} ^ {- 1} A + C_ {X} ^ {- 1}) ^ {- 1} A ^ {T} C_ {Z} ^ {- 1 },}

y

{\ Displaystyle C_ {e} = (A ^ {T} C_ {Z} ^ {- 1} A + C_ {X} ^ {- 1}) ^ {- 1}.}

Desde ${\ Displaystyle W}$ ahora se puede escribir en términos de ${\ Displaystyle C_ {e}}$ como ${\ Displaystyle W = C_ {e} A ^ {T} C_ {Z} ^ {- 1}}$ , obtenemos una expresión simplificada para ${\ Displaystyle {\ hat {x}}}$ como

{\ Displaystyle {\ hat {x}} = C_ {e} A ^ {T} C_ {Z} ^ {- 1} (yA {\ bar {x}}) + {\ bar {x}}.}

De esta forma, la expresión anterior se puede comparar fácilmente con los mínimos cuadrados ponderados y la estimación de Gauss-Markov . En particular, cuando ${\ Displaystyle C_ {X} ^ {- 1} = 0}$ , correspondiente a la varianza infinita de la información a priori relativa a ${\ Displaystyle x}$ , el resultado ${\ Displaystyle W = (A ^ {T} C_ {Z} ^ {- 1} A) ^ {- 1} A ^ {T} C_ {Z} ^ {- 1}}$ es idéntica a la estimación de mínimos cuadrados lineales ponderados con ${\ Displaystyle C_ {Z} ^ {- 1}}$ como la matriz de peso. Además, si los componentes de ${\ Displaystyle z}$ no están correlacionados y tienen la misma varianza, de modo que ${\ Displaystyle C_ {Z} = \ sigma ^ {2} I,}$ dónde ${\ Displaystyle I}$ es una matriz de identidad, entonces ${\ Displaystyle W = (A ^ {T} A) ^ {- 1} A ^ {T}}$ es idéntica a la estimación de mínimos cuadrados ordinarios.

Estimación secuencial lineal MMSE

En muchas aplicaciones en tiempo real, los datos de observación no están disponibles en un solo lote. En cambio, las observaciones se realizan en una secuencia. Una aplicación ingenua de fórmulas anteriores nos haría descartar una estimación anterior y volver a calcular una nueva estimación a medida que se disponga de datos nuevos. Pero luego perdemos toda la información proporcionada por la observación anterior. Cuando las observaciones son cantidades escalares, una forma posible de evitar tal recálculo es concatenar primero la secuencia completa de observaciones y luego aplicar la fórmula de estimación estándar como se hizo en el Ejemplo 2. Pero esto puede ser muy tedioso porque a medida que el número de observaciones aumenta también aumenta el tamaño de las matrices que deben invertirse y multiplicarse. Además, este método es difícil de extender al caso de observaciones vectoriales. Otro enfoque para la estimación a partir de observaciones secuenciales es simplemente actualizar una estimación anterior a medida que se dispone de datos adicionales, lo que conduce a estimaciones más precisas. Por tanto, se desea un método recursivo en el que las nuevas mediciones puedan modificar las estimaciones anteriores. Implícito en estas discusiones está el supuesto de que las propiedades estadísticas de ${\ Displaystyle x}$ no cambia con el tiempo. En otras palabras, ${\ Displaystyle x}$ está estacionario.

Para la estimación secuencial, si tenemos una estimación ${\ Displaystyle {\ hat {x}} _ {1}}$ basado en mediciones que generan espacio ${\ Displaystyle Y_ {1}}$ , luego, después de recibir otro conjunto de mediciones, debemos restar de estas mediciones la parte que podría anticiparse del resultado de las primeras mediciones. En otras palabras, la actualización debe basarse en la parte de los datos nuevos que sea ortogonal a los datos antiguos.

Suponga una estimación óptima ${\ Displaystyle {\ hat {x}} _ {1}}$ se ha formado sobre la base de mediciones pasadas y esa matriz de covarianza de error es ${\ Displaystyle C_ {e_ {1}}}$ . Para procesos de observación lineal, la mejor estimación de ${\ Displaystyle y}$ basado en observaciones pasadas y, por tanto, estimaciones antiguas ${\ Displaystyle {\ hat {x}} _ {1}}$ , es ${\ Displaystyle {\ hat {y}} = A {\ hat {x}} _ {1}}$ . Restando ${\ Displaystyle {\ hat {y}}}$ de ${\ Displaystyle y}$ , obtenemos el error de predicción

{\ Displaystyle {\ tilde {y}} = y - {\ hat {y}} = A (x - {\ hat {x}} _ {1}) + z = Ae_ {1} + z}

.

La nueva estimación basada en datos adicionales es ahora

{\ displaystyle {\ hat {x}} _ {2} = {\ hat {x}} _ {1} + C_ {X {\ tilde {Y}}} C _ {\ tilde {Y}} ^ {- 1 } {\ tilde {y}},}

dónde ${\ Displaystyle C_ {X {\ tilde {Y}}}}$ es la covarianza cruzada entre ${\ Displaystyle x}$ y ${\ Displaystyle {\ tilde {y}}}$ y ${\ Displaystyle C _ {\ tilde {Y}}}$ es la autocovarianza de ${\ Displaystyle {\ tilde {y}}.}$

Usando el hecho de que ${\ Displaystyle \ operatorname {E} \ {{\ tilde {y}} \} = 0}$ y ${\ Displaystyle x = {\ hat {x}} _ {1} + e_ {1}}$ , podemos obtener las matrices de covarianza en términos de covarianza de error como

{\ Displaystyle C _ {\ tilde {Y}} = AC_ {e_ {1}} A ^ {T} + C_ {Z},}

{\ Displaystyle C_ {X {\ tilde {Y}}} = \ operatorname {E} \ {({\ hat {x}} _ {1} + e_ {1} - {\ bar {x}}) (Ae_ {1} + z) ^ {T} \} = C_ {e_ {1}} A ^ {T}.}

Poniendo todo junto, tenemos la nueva estimación como

{\ Displaystyle {\ hat {x}} _ {2} = {\ hat {x}} _ {1} + C_ {e_ {1}} A ^ {T} (AC_ {e_ {1}} A ^ { T} + C_ {Z}) ^ {- 1} (yA {\ hat {x}} _ {1}),}

y la nueva covarianza de error como

{\ Displaystyle C_ {e_ {2}} = C_ {e_ {1}} - C_ {e_ {1}} A ^ {T} (AC_ {e_ {1}} A ^ {T} + C_ {Z}) ^ {- 1} AC_ {e_ {1}}.}

El uso repetido de las dos ecuaciones anteriores a medida que se dispone de más observaciones conduce a técnicas de estimación recursivas. Las expresiones se pueden escribir de forma más compacta como

${\ Displaystyle K_ {t + 1} = C_ {e_ {t}} A ^ {T} (AC_ {e_ {t}} A ^ {T} + C_ {Z}) ^ {- 1},}$
${\ Displaystyle {\ hat {x}} _ {t + 1} = {\ hat {x}} _ {t} + K_ {t + 1} (yA {\ hat {x}} _ {t}), }$
${\ Displaystyle C_ {e_ {t + 1}} = (I-K_ {t + 1} A) C_ {e_ {t}}.}$

La matriz ${\ Displaystyle K}$ a menudo se denomina factor de ganancia. La repetición de estos tres pasos a medida que se dispone de más datos conduce a un algoritmo de estimación iterativo. La generalización de esta idea a casos no estacionarios da lugar al filtro de Kalman .

Caso especial: observaciones escalares

Como caso especial importante, se puede derivar una expresión recursiva fácil de usar cuando en cada t -ésimo instante de tiempo el proceso de observación lineal subyacente produce un escalar tal que ${\ Displaystyle y_ {t} = a_ {t} ^ {T} x_ {t} + z_ {t}}$ , dónde ${\ Displaystyle a_ {t}}$ es n -por-1 vector de columna conocido cuyos valores pueden cambiar con el tiempo, ${\ Displaystyle x_ {t}}$ es el vector de columna aleatorio n -por-1 que se va a estimar, y ${\ Displaystyle z_ {t}}$ es un término de ruido escalar con varianza ${\ Displaystyle \ sigma _ {t} ^ {2}}$ . Después de ( t +1) -ésima observación, el uso directo de las ecuaciones recursivas anteriores da la expresión para la estimación ${\ Displaystyle {\ hat {x}} _ {t + 1}}$ como:

{\ Displaystyle {\ hat {x}} _ {t + 1} = {\ hat {x}} _ {t} + k_ {t + 1} (y_ {t + 1} -a_ {t + 1} ^ {T} {\ hat {x}} _ {t})}

dónde ${\ Displaystyle y_ {t + 1}}$ es la nueva observación escalar y el factor de ganancia ${\ Displaystyle k_ {t + 1}}$ es el vector de columna n -por-1 dado por

{\ Displaystyle k_ {t + 1} = {\ frac {(C_ {e}) _ {t} a_ {t + 1}} {\ sigma _ {t + 1} ^ {2} + a_ {t + 1 } ^ {T} (C_ {e}) _ {t} a_ {t + 1}}}.}

La ${\ Displaystyle (C_ {e}) _ {t + 1}}$ es n -por- n matriz de covarianza de errores dada por

{\ Displaystyle (C_ {e}) _ {t + 1} = (I-k_ {t + 1} a_ {t + 1} ^ {T}) (C_ {e}) _ {t}.}

Aquí, no se requiere inversión de matriz. Además, el factor de ganancia, ${\ Displaystyle k_ {t + 1}}$ , depende de nuestra confianza en la nueva muestra de datos, medida por la varianza del ruido, frente a la de los datos anteriores. Los valores iniciales de ${\ Displaystyle {\ hat {x}}}$ y ${\ Displaystyle C_ {e}}$ se toman como la media y la covarianza de la función de densidad de probabilidad anterior de ${\ Displaystyle x}$ .

Enfoques alternativos: Este importante caso especial también ha dado lugar a muchos otros métodos iterativos (o filtros adaptativos ), como el filtro de mínimos cuadrados medios y el filtro de mínimos cuadrados recursivo , que resuelve directamente el problema de optimización de MSE original utilizando descensos de gradiente estocásticos . Sin embargo, dado que el error de estimación ${\ Displaystyle e}$ no se puede observar directamente, estos métodos intentan minimizar el error de predicción cuadrático medio ${\ Displaystyle \ mathrm {E} \ {{\ tilde {y}} ^ {T} {\ tilde {y}} \}}$ . Por ejemplo, en el caso de observaciones escalares, tenemos el gradiente ${\ Displaystyle \ nabla _ {\ hat {x}} \ mathrm {E} \ {{\ tilde {y}} ^ {2} \} = - 2 \ mathrm {E} \ {{\ tilde {y}} a\}.}$ Por lo tanto, la ecuación de actualización para el filtro de mínimos cuadrados medios viene dada por

{\ Displaystyle {\ hat {x}} _ {t + 1} = {\ hat {x}} _ {t} + \ eta _ {t} \ mathrm {E} \ {{\ tilde {y}} _ {hacer encaje}\},}

dónde ${\ Displaystyle \ eta _ {t}}$ es el tamaño del paso escalar y la expectativa es aproximada por el valor instantáneo ${\ Displaystyle \ mathrm {E} \ {a_ {t} {\ tilde {y}} _ {t} \} \ approx a_ {t} {\ tilde {y}} _ {t}}$ . Como podemos ver, estos métodos evitan la necesidad de matrices de covarianza.

Ejemplos de

Ejemplo 1

Tomaremos un problema de predicción lineal como ejemplo. Sea una combinación lineal de variables aleatorias escalares observadas ${\ Displaystyle z_ {1}, z_ {2}}$ y ${\ Displaystyle z_ {3}}$ ser utilizado para estimar otra variable aleatoria escalar futura ${\ Displaystyle z_ {4}}$ tal que ${\ Displaystyle {\ hat {z}} _ {4} = \ sum _ {i = 1} ^ {3} w_ {i} z_ {i}}$ . Si las variables aleatorias ${\ Displaystyle z = [z_ {1}, z_ {2}, z_ {3}, z_ {4}] ^ {T}}$ son variables aleatorias gaussianas reales con media cero y su matriz de covarianza dada por

{\ displaystyle \ operatorname {cov} (Z) = \ operatorname {E} [zz ^ {T}] = \ left [{\ begin {array} {cccc} 1 & 2 & 3 & 4 \\ 2 & 5 & 8 & 9 \\ 3 & 8 & 6 & 10 \\ 4 & 9 & 10 & 15 \ end { array}} \ right],}

entonces nuestra tarea es encontrar los coeficientes ${\ Displaystyle w_ {i}}$ tal que produzca una estimación lineal óptima ${\ Displaystyle {\ hat {z}} _ {4}}$ .

En términos de la terminología desarrollada en las secciones anteriores, para este problema tenemos el vector de observación ${\ Displaystyle y = [z_ {1}, z_ {2}, z_ {3}] ^ {T}}$ , la matriz del estimador ${\ Displaystyle W = [w_ {1}, w_ {2}, w_ {3}]}$ como un vector de fila, y la variable estimada ${\ Displaystyle x = z_ {4}}$ como una cantidad escalar. La matriz de autocorrelación ${\ Displaystyle C_ {Y}}$ Se define como

{\ Displaystyle C_ {Y} = \ left [{\ begin {array} {ccc} E [z_ {1}, z_ {1}] & E [z_ {2}, z_ {1}] & E [z_ {3}] , z_ {1}] \\ E [z_ {1}, z_ {2}] & E [z_ {2}, z_ {2}] & E [z_ {3}, z_ {2}] \\ E [z_ { 1}, z_ {3}] & E [z_ {2}, z_ {3}] & E [z_ {3}, z_ {3}] \ end {array}} \ right] = \ left [{\ begin {array } {ccc} 1 & 2 & 3 \\ 2 & 5 & 8 \\ 3 & 8 & 6 \ end {array}} \ right].}

La matriz de correlación cruzada ${\ Displaystyle C_ {YX}}$ Se define como

{\ Displaystyle C_ {YX} = \ left [{\ begin {array} {c} E [z_ {4}, z_ {1}] \\ E [z_ {4}, z_ {2}] \\ E [ z_ {4}, z_ {3}] \ end {matriz}} \ right] = \ left [{\ begin {array} {c} 4 \\ 9 \\ 10 \ end {matriz}} \ right].}

Ahora resolvemos la ecuación ${\ Displaystyle C_ {Y} W ^ {T} = C_ {YX}}$ invirtiendo ${\ Displaystyle C_ {Y}}$ y pre-multiplicar para obtener

{\ displaystyle C_ {Y} ^ {- 1} C_ {YX} = \ left [{\ begin {array} {ccc} 4.85 & -1.71 & -0.142 \\ - 1.71 & 0.428 & 0.2857 \\ - 0.142 & 0 .2857 & -0.1429 \ end {matriz}} \ right] \ left [{\ begin {matriz} {c} 4 \\ 9 \\ 10 \ end {matriz}} \ right] = \ left [{\ begin {matriz } {c} 2,57 \\ - 0,142 \\ 0,5714 \ end {matriz}} \ derecha] = W ^ {T}.}

Entonces tenemos ${\ Displaystyle w_ {1} = 2.57,}$ ${\ Displaystyle w_ {2} = - 0,142,}$ y ${\ Displaystyle w_ {3} =. 5714}$ como los coeficientes óptimos para ${\ Displaystyle {\ hat {z}} _ {4}}$ . Calcular el error cuadrático medio mínimo da ${\ Displaystyle \ left \ Vert e \ right \ Vert _ {\ min} ^ {2} = \ operatorname {E} [z_ {4} z_ {4}] - WC_ {YX} = 15-WC_ {YX} = .2857}$ . ^[2] Tenga en cuenta que no es necesario obtener una matriz explícita inversa de ${\ Displaystyle C_ {Y}}$ para calcular el valor de ${\ Displaystyle W}$ . La ecuación matricial se puede resolver mediante métodos bien conocidos, como el método de eliminación de Gauss. Un ejemplo más breve y no numérico se puede encontrar en el principio de ortogonalidad .

Ejemplo 2

Considere un vector ${\ Displaystyle y}$ formado tomando ${\ Displaystyle N}$ observaciones de un parámetro escalar fijo pero desconocido ${\ Displaystyle x}$ perturbado por el ruido blanco de Gauss. Podemos describir el proceso mediante una ecuación lineal. ${\ Displaystyle y = 1x + z}$ , dónde ${\ Displaystyle 1 = [1,1, \ ldots, 1] ^ {T}}$ . Dependiendo del contexto, quedará claro si ${\ Displaystyle 1}$ representa un escalar o un vector. Supongamos que sabemos ${\ Displaystyle [-x_ {0}, x_ {0}]}$ para ser el rango dentro del cual el valor de ${\ Displaystyle x}$ va a caer. Podemos modelar nuestra incertidumbre de ${\ Displaystyle x}$ por una distribución uniforme anterior a lo largo de un intervalo ${\ Displaystyle [-x_ {0}, x_ {0}]}$ , y por lo tanto ${\ Displaystyle x}$ tendrá una variación de ${\ Displaystyle \ sigma _ {X} ^ {2} = x_ {0} ^ {2} / 3.}$ . Deje que el vector de ruido ${\ Displaystyle z}$ estar distribuido normalmente como ${\ Displaystyle N (0, \ sigma _ {Z} ^ {2} I)}$ dónde ${\ Displaystyle I}$ es una matriz de identidad. También ${\ Displaystyle x}$ y ${\ Displaystyle z}$ son independientes y ${\ Displaystyle C_ {XZ} = 0}$ . Es fácil ver eso

{\ displaystyle {\ begin {align} & \ operatorname {E} \ {y \} = 0, \\ & C_ {Y} = \ operatorname {E} \ {yy ^ {T} \} = \ sigma _ {X } ^ {2} 11 ^ {T} + \ sigma _ {Z} ^ {2} I, \\ & C_ {XY} = \ operatorname {E} \ {xy ^ {T} \} = \ sigma _ {X } ^ {2} 1 ^ {T}. \ End {alineado}}}

Por tanto, el estimador lineal MMSE viene dado por

{\ Displaystyle {\ begin {alineado} {\ hat {x}} & = C_ {XY} C_ {Y} ^ {- 1} y \\ & = \ sigma _ {X} ^ {2} 1 ^ {T } (\ sigma _ {X} ^ {2} 11 ^ {T} + \ sigma _ {Z} ^ {2} I) ^ {- 1} y. \ end {alineado}}}

Podemos simplificar la expresión usando la forma alternativa para ${\ Displaystyle W}$ como

{\ Displaystyle {\ begin {alineado} {\ hat {x}} & = \ left (1 ^ {T} {\ frac {1} {\ sigma _ {Z} ^ {2}}} I1 + {\ frac { 1} {\ sigma _ {X} ^ {2}}} \ right) ^ {- 1} 1 ^ {T} {\ frac {1} {\ sigma _ {Z} ^ {2}}} Iy \\ & = {\ frac {1} {\ sigma _ {Z} ^ {2}}} \ left ({\ frac {N} {\ sigma _ {Z} ^ {2}}} + {\ frac {1} {\ sigma _ {X} ^ {2}}} \ right) ^ {- 1} 1 ^ {T} y \\ & = {\ frac {\ sigma _ {X} ^ {2}} {\ sigma _ {X} ^ {2} + \ sigma _ {Z} ^ {2} / N}} {\ bar {y}}, \ end {alineado}}}

donde para ${\ Displaystyle y = [y_ {1}, y_ {2}, \ ldots, y_ {N}] ^ {T}}$ tenemos ${\ Displaystyle {\ bar {y}} = {\ frac {1 ^ {T} y} {N}} = {\ frac {\ sum _ {i = 1} ^ {N} y_ {i}} {N }}.}$

De manera similar, la varianza del estimador es

{\ Displaystyle \ sigma _ {\ hat {X}} ^ {2} = C_ {XY} C_ {Y} ^ {- 1} C_ {YX} = {\ Big (} {\ frac {\ sigma _ {X } ^ {2}} {\ sigma _ {X} ^ {2} + \ sigma _ {Z} ^ {2} / N}} {\ Big)} \ sigma _ {X} ^ {2}.}

Por tanto, el MMSE de este estimador lineal es

{\ Displaystyle \ operatorname {LMMSE} = \ sigma _ {X} ^ {2} - \ sigma _ {\ hat {X}} ^ {2} = {\ Big (} {\ frac {\ sigma _ {Z} ^ {2}} {\ sigma _ {X} ^ {2} + \ sigma _ {Z} ^ {2} / N}} {\ Big)} {\ frac {\ sigma _ {X} ^ {2} }{NORTE}}.}

Para muy grande ${\ Displaystyle N}$ , vemos que el estimador MMSE de un escalar con distribución anterior uniforme se puede aproximar mediante el promedio aritmético de todos los datos observados

{\ Displaystyle {\ hat {x}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} y_ {i},}

mientras que la variación no se verá afectada por los datos ${\ Displaystyle \ sigma _ {\ hat {X}} ^ {2} = \ sigma _ {X} ^ {2},}$ y el LMMSE de la estimación tenderá a cero.

Sin embargo, el estimador es subóptimo ya que está limitado a ser lineal. Tenía la variable aleatoria ${\ Displaystyle x}$ también fuera gaussiano, entonces el estimador habría sido óptimo. Observe que la forma del estimador permanecerá sin cambios, independientemente de la distribución a priori de ${\ Displaystyle x}$ , siempre que la media y la varianza de estas distribuciones sean las mismas.

Ejemplo 3

Considere una variación del ejemplo anterior: dos candidatos se presentan a las elecciones. Sea la fracción de votos que recibirá un candidato el día de las elecciones ${\ Displaystyle x \ in [0,1].}$ Por lo tanto, la fracción de votos que recibirá el otro candidato será ${\ Displaystyle 1-x.}$ Tomaremos ${\ Displaystyle x}$ como una variable aleatoria con una distribución previa uniforme sobre ${\ Displaystyle [0,1]}$ para que su media sea ${\ Displaystyle {\ bar {x}} = 1/2}$ y la varianza es ${\ Displaystyle \ sigma _ {X} ^ {2} = 1/12.}$ Unas semanas antes de las elecciones, dos encuestadores diferentes realizaron dos encuestas de opinión pública independientes. La primera encuesta reveló que es probable que el candidato obtenga ${\ Displaystyle y_ {1}}$ fracción de votos. Dado que siempre hay algún error debido al muestreo finito y a la metodología de encuesta particular adoptada, el primer encuestador declara que su estimación tiene un error. ${\ Displaystyle z_ {1}}$ con media y varianza cero ${\ Displaystyle \ sigma _ {Z_ {1}} ^ {2}.}$ De manera similar, el segundo encuestador declara que su estimación es ${\ Displaystyle y_ {2}}$ con un error ${\ Displaystyle z_ {2}}$ con media y varianza cero ${\ Displaystyle \ sigma _ {Z_ {2}} ^ {2}.}$ Tenga en cuenta que, a excepción de la media y la varianza del error, la distribución del error no está especificada. ¿Cómo se deben combinar las dos encuestas para obtener la predicción de votación para el candidato dado?

Como en el ejemplo anterior, tenemos

{\ Displaystyle {\ begin {alineado} y_ {1} & = x + z_ {1} \\ y_ {2} & = x + z_ {2}. \ end {alineado}}}

Aquí, tanto el ${\ Displaystyle \ operatorname {E} \ {y_ {1} \} = \ operatorname {E} \ {y_ {2} \} = {\ bar {x}} = 1/2}$ . Por lo tanto, podemos obtener la estimación LMMSE como la combinación lineal de ${\ Displaystyle y_ {1}}$ y ${\ Displaystyle y_ {2}}$ como

{\ Displaystyle {\ hat {x}} = w_ {1} (y_ {1} - {\ bar {x}}) + w_ {2} (y_ {2} - {\ bar {x}}) + { \ bar {x}},}

donde los pesos vienen dados por

{\ Displaystyle {\ begin {alineado} w_ {1} & = {\ frac {1 / \ sigma _ {Z_ {1}} ^ {2}} {1 / \ sigma _ {Z_ {1}} ^ {2 } + 1 / \ sigma _ {Z_ {2}} ^ {2} + 1 / \ sigma _ {X} ^ {2}}}, \\ w_ {2} & = {\ frac {1 / \ sigma _ {Z_ {2}} ^ {2}} {1 / \ sigma _ {Z_ {1}} ^ {2} + 1 / \ sigma _ {Z_ {2}} ^ {2} + 1 / \ sigma _ { X} ^ {2}}}. \ End {alineado}}}

Aquí, dado que el término del denominador es constante, la encuesta con menor error recibe mayor peso para predecir el resultado de la elección. Por último, la varianza de la predicción viene dada por

{\ Displaystyle \ sigma _ {\ hat {X}} ^ {2} = {\ frac {1 / \ sigma _ {Z_ {1}} ^ {2} + 1 / \ sigma _ {Z_ {2}} ^ {2}} {1 / \ sigma _ {Z_ {1}} ^ {2} + 1 / \ sigma _ {Z_ {2}} ^ {2} + 1 / \ sigma _ {X} ^ {2}} } \ sigma _ {X} ^ {2},}

que hace ${\ Displaystyle \ sigma _ {\ hat {X}} ^ {2}}$ menor que ${\ Displaystyle \ sigma _ {X} ^ {2}.}$

En general, si tenemos ${\ Displaystyle N}$ encuestadores, entonces ${\ Displaystyle {\ hat {x}} = \ sum _ {i = 1} ^ {N} w_ {i} (y_ {i} - {\ bar {x}}) + {\ bar {x}}, }$ donde el peso de i -ésimo encuestador viene dado por ${\ Displaystyle w_ {i} = {\ frac {1 / \ sigma _ {Z_ {i}} ^ {2}} {\ sum _ {i = 1} ^ {N} 1 / \ sigma _ {Z_ {i }} ^ {2} + 1 / \ sigma _ {X} ^ {2}}}.}$

Ejemplo 4

Supongamos que un músico está tocando un instrumento y que el sonido es recibido por dos micrófonos, cada uno de ellos ubicado en dos lugares diferentes. Deje que la atenuación del sonido debido a la distancia en cada micrófono sea ${\ Displaystyle a_ {1}}$ y ${\ Displaystyle a_ {2}}$ , que se supone que son constantes conocidas. De manera similar, deje que el ruido en cada micrófono sea ${\ Displaystyle z_ {1}}$ y ${\ Displaystyle z_ {2}}$ , cada uno con media cero y varianzas ${\ Displaystyle \ sigma _ {Z_ {1}} ^ {2}}$ y ${\ Displaystyle \ sigma _ {Z_ {2}} ^ {2}}$ respectivamente. Dejar ${\ Displaystyle x}$ denotar el sonido producido por el músico, que es una variable aleatoria con media y varianza cero ${\ Displaystyle \ sigma _ {X} ^ {2}.}$ ¿Cómo se debe combinar la música grabada de estos dos micrófonos, después de sincronizarse entre sí?

Podemos modelar el sonido recibido por cada micrófono como

{\ Displaystyle {\ begin {alineado} y_ {1} & = a_ {1} x + z_ {1} \\ y_ {2} & = a_ {2} x + z_ {2}. \ end {alineado}} }

Aquí tanto el ${\ Displaystyle \ operatorname {E} \ {y_ {1} \} = \ operatorname {E} \ {y_ {2} \} = 0}$ . Por tanto, podemos combinar los dos sonidos como

{\ Displaystyle y = w_ {1} y_ {1} + w_ {2} y_ {2}}

donde el i -ésimo peso se da como

{\ Displaystyle w_ {i} = {\ frac {a_ {i} / \ sigma _ {Z_ {i}} ^ {2}} {\ sum _ {i} a_ {i} ^ {2} / \ sigma _ {Z_ {i}} ^ {2} + 1 / \ sigma _ {X} ^ {2}}}.}

Ver también

Estimador bayesiano
Error medio cuadrado
Mínimos cuadrados
Estimador insesgado de varianza mínima (MVUE)
Principio de ortogonalidad
Filtro de salchicha
Filtro de Kalman
Predicción lineal
Ecualizador de forzamiento cero

Notas

^ "Error cuadrático medio (MSE)" . www.probabilitycourse.com . Consultado el 9 de mayo de 2017 .
^ Luna y Stirling.

Otras lecturas

Johnson, D. "Estimadores de error cuadrático medio mínimo" . Conexiones. Archivado de los estimadores de error cuadrático medio mínimo, el valor de verificación |url=original ( ayuda ) el 25 de julio de 2008 . Consultado el 8 de enero de 2013 .
Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. ISBN 978-0521592710.
Bibby, J .; Toutenburg, H. (1977). Predicción y estimación mejorada en modelos lineales . Wiley. ISBN 9780471016564.
Lehmann, EL; Casella, G. (1998). "Capítulo 4". Teoría de la estimación puntual (2ª ed.). Saltador. ISBN 0-387-98502-6.
Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. págs. 344 –350. ISBN 0-13-042268-1.
Luenberger, DG (1969). "Capítulo 4, Estimación por mínimos cuadrados". Optimización por métodos de espacio vectorial (1ª ed.). Wiley. ISBN 978-0471181170.
Luna, TK; Stirling, WC (2000). Métodos matemáticos y algoritmos para el procesamiento de señales (1ª ed.). Prentice Hall. ISBN 978-0201361865.
Van Trees, HL (1968). Detección, Evaluación y modulación teoría, Parte I . Nueva York: Wiley. ISBN 0-471-09517-6.
Haykin, SO (2013). Teoría del filtro adaptativo (5ª ed.). Prentice Hall. ISBN 978-0132671453.

[1] "Error cuadrático medio (MSE)" . www.probabilitycourse.com . Consultado el 9 de mayo de 2017 .

[2] Luna y Stirling.

[1]