En estadística y procesamiento de señales , un estimador de error cuadrático medio mínimo ( MMSE ) es un método de estimación que minimiza el error cuadrático medio (MSE), que es una medida común de la calidad del estimador, de los valores ajustados de una variable dependiente . En el entorno bayesiano , el término MMSE se refiere más específicamente a la estimación con función de pérdida cuadrática. En tal caso, el estimador MMSE viene dado por la media posterior del parámetro a estimar. Dado que la media posterior es engorrosa de calcular, la forma del estimador MMSE suele estar restringida para estar dentro de una determinada clase de funciones. Los estimadores lineales MMSE son una opción popular ya que son fáciles de usar, fáciles de calcular y muy versátiles. Ha dado lugar a muchos estimadores populares, como el filtro de Wiener-Kolmogorov y el filtro de Kalman .
Motivación
El término MMSE se refiere más específicamente a la estimación en un entorno bayesiano con función de costo cuadrática. La idea básica detrás del enfoque bayesiano de la estimación proviene de situaciones prácticas en las que a menudo tenemos alguna información previa sobre el parámetro que se va a estimar. Por ejemplo, podemos tener información previa sobre el rango que puede asumir el parámetro; o podemos tener una estimación antigua del parámetro que queremos modificar cuando se pone a disposición una nueva observación; o las estadísticas de una señal aleatoria real, como el habla. Esto contrasta con el enfoque no bayesiano como el estimador insesgado de varianza mínima (MVUE), donde se supone que no se sabe absolutamente nada sobre el parámetro de antemano y que no tiene en cuenta tales situaciones. En el enfoque bayesiano, dicha información previa es capturada por la función de densidad de probabilidad previa de los parámetros; y basado directamente en el teorema de Bayes , nos permite hacer mejores estimaciones posteriores a medida que se dispone de más observaciones. Por lo tanto, a diferencia del enfoque no bayesiano donde se supone que los parámetros de interés son deterministas, pero constantes desconocidas, el estimador bayesiano busca estimar un parámetro que es en sí mismo una variable aleatoria. Además, la estimación bayesiana también puede hacer frente a situaciones en las que la secuencia de observaciones no es necesariamente independiente. Por tanto, la estimación bayesiana proporciona otra alternativa más a la MVUE. Esto es útil cuando el MVUE no existe o no se puede encontrar.
Definición
Dejar ser un variable vectorial aleatoria oculta, y deje ser un variable vectorial aleatoria conocida (la medición u observación), ambas no necesariamente de la misma dimensión. Un estimador de es alguna función de la medida . El vector de error de estimación viene dado pory su error cuadrático medio (MSE) viene dado por la traza de la matriz de covarianza de error
donde la expectativa se hace cargo de ambos y . Cuándo es una variable escalar, la expresión MSE se simplifica a . Tenga en cuenta que MSE se puede definir de manera equivalente de otras formas, ya que
El estimador MMSE se define entonces como el estimador que logra un MSE mínimo:
Propiedades
- Cuando las medias y las varianzas son finitas, el estimador MMSE se define de forma única [1] y viene dado por:
- En otras palabras, el estimador MMSE es la expectativa condicional de dado el valor observado conocido de las mediciones.
- El estimador MMSE es insesgado (bajo los supuestos de regularidad mencionados anteriormente):
- El estimador MMSE es asintóticamente insesgado y converge en distribución a la distribución normal:
- dónde es la información de Fisher de . Por tanto, el estimador MMSE es asintóticamente eficiente .
- El principio de ortogonalidad : cuando es un escalar, un estimador constreñido a ser de cierta forma es un estimador óptimo, es decir si y solo si
- para todos en subespacio lineal cerrado de las medidas. Para vectores aleatorios, dado que el MSE para la estimación de un vector aleatorio es la suma de los MSE de las coordenadas, encontrar el estimador MMSE de un vector aleatorio se descompone en encontrar los estimadores MMSE de las coordenadas de X por separado:
- para todo i y j . Dicho de manera más sucinta, la correlación cruzada entre el error mínimo de estimación y el estimador debe ser cero,
- Si y son conjuntamente gaussianos , entonces el estimador MMSE es lineal, es decir, tiene la forma para matriz y constante . Esto se puede mostrar directamente usando el teorema de Bayes. Como consecuencia, para encontrar el estimador MMSE, es suficiente encontrar el estimador MMSE lineal.
Estimador lineal MMSE
En muchos casos, no es posible determinar la expresión analítica del estimador MMSE. Dos enfoques numéricos básicos para obtener la estimación MMSE dependen de encontrar la expectativa condicionalo encontrar los mínimos de MSE. La evaluación numérica directa de la expectativa condicional es computacionalmente costosa ya que a menudo requiere una integración multidimensional que generalmente se realiza mediante métodos de Monte Carlo . Otro enfoque computacional es buscar directamente los mínimos del MSE utilizando técnicas como los métodos de descenso de gradiente estocástico ; pero este método todavía requiere la evaluación de expectativas. Si bien estos métodos numéricos han sido fructíferos, no obstante, es posible una expresión de forma cerrada para el estimador MMSE si estamos dispuestos a hacer algunos compromisos.
Una posibilidad es abandonar todos los requisitos de optimalidad y buscar una técnica que minimice el MSE dentro de una clase particular de estimadores, como la clase de estimadores lineales. Por tanto, postulamos que la expectativa condicional de dado es una función lineal simple de , , donde la medida es un vector aleatorio, es una matriz y es un vector. Esto puede verse como la aproximación de Taylor de primer orden de. El estimador lineal MMSE es el estimador que logra el mínimo MSE entre todos los estimadores de dicha forma. Es decir, resuelve el siguiente problema de optimización:
Una ventaja de dicho estimador lineal MMSE es que no es necesario calcular explícitamente la función de densidad de probabilidad posterior de . Dicho estimador lineal solo depende de los dos primeros momentos de y . Entonces, aunque puede ser conveniente asumir que y son conjuntamente gaussianos, no es necesario hacer esta suposición, siempre que la distribución supuesta tenga un primer y segundo momento bien definidos. La forma del estimador lineal no depende del tipo de distribución subyacente asumida.
La expresión de óptimo y es dado por:
dónde , la es la matriz de covarianza cruzada entre y , la es la matriz de auto-covarianza de .
Por tanto, la expresión del estimador lineal MMSE, su media y su autocovarianza viene dada por
donde el es la matriz de covarianza cruzada entre y .
Por último, la covarianza del error y el error cuadrático medio mínimo que puede lograr dicho estimador es
Tengamos el estimador lineal óptimo de MMSE dado como , donde debemos encontrar la expresión para y . Se requiere que el estimador MMSE sea insesgado. Esto significa,
Conectando la expresión para arriba, obtenemos
dónde y . Por tanto, podemos reescribir el estimador como
y la expresión para el error de estimación se convierte en
Desde el principio de ortogonalidad, podemos tener , a donde llevamos . Aquí el término del lado izquierdo es
Cuando se equipara a cero, obtenemos la expresión deseada para como
La es la matriz de covarianza cruzada entre X e Y, y es la matriz de autocovarianza de Y. Dado que , la expresión también se puede reescribir en términos de como
Por tanto, la expresión completa del estimador lineal MMSE es
Dado que la estimación es en sí misma una variable aleatoria con , también podemos obtener su autocovarianza como
Poniendo la expresión para y , obtenemos
Por último, la covarianza del error de estimación lineal MMSE vendrá dada por
El primer término de la tercera línea es cero debido al principio de ortogonalidad. Desde, podemos reescribir en términos de matrices de covarianza como
Esto podemos reconocer que es lo mismo que Por lo tanto, el error cuadrático medio mínimo que se puede lograr con un estimador lineal de este tipo es
- .
Caso univariado
Para el caso especial cuando ambos y son escalares, las relaciones anteriores se simplifican a
dónde es el coeficiente de correlación de Pearson entre y .
Cálculo
El método estándar como la eliminación de Gauss se puede utilizar para resolver la ecuación matricial para. El método de descomposición QR proporciona un método más estable numéricamente . Dado que la matriz es una matriz definida positiva simétrica, se puede resolver dos veces más rápido con la descomposición de Cholesky , mientras que para sistemas grandes y dispersos el método de gradiente conjugado es más efectivo. La recursividad de Levinson es un método rápido cuandoes también una matriz de Toeplitz . Esto puede suceder cuandoes un proceso estacionario de sentido amplio . En estos casos estacionarios, estos estimadores también se denominan filtros de Wiener-Kolmogorov .
Estimador lineal MMSE para procesos de observación lineal
Modelemos más el proceso subyacente de observación como un proceso lineal: , dónde es una matriz conocida y es un vector de ruido aleatorio con la media y covarianza cruzada . Aquí la media requerida y las matrices de covarianza serán
Por lo tanto, la expresión para la matriz de estimador lineal MMSE además modifica a
Poniendo todo en la expresión para , obtenemos
Por último, la covarianza de error es
La diferencia significativa entre el problema de estimación tratado anteriormente y los de mínimos cuadrados y la estimación de Gauss-Markov es que el número de observaciones m , (es decir, la dimensión de) no necesita ser al menos tan grande como el número de incógnitas, n , (es decir, la dimensión de). La estimación para el proceso de observación lineal existe siempre que la matriz m- por- mexiste; este es el caso de cualquier m si, por ejemplo,es positivo definido. Físicamente, la razón de esta propiedad es que, dado quees ahora una variable aleatoria, es posible formar una estimación significativa (es decir, su media) incluso sin mediciones. Cada nueva medición simplemente proporciona información adicional que puede modificar nuestra estimación original. Otra característica de esta estimación es que para m < n , no es necesario que haya error de medición. Por lo tanto, podemos tener, porque mientras es positivo definido, la estimación todavía existe. Por último, esta técnica puede manejar casos en los que el ruido está correlacionado.
Forma alternativa
Se puede obtener una forma alternativa de expresión utilizando la identidad de la matriz
que se puede establecer post-multiplicando por y pre-multiplicar por para obtener
y
Desde ahora se puede escribir en términos de como , obtenemos una expresión simplificada para como
De esta forma, la expresión anterior se puede comparar fácilmente con los mínimos cuadrados ponderados y la estimación de Gauss-Markov . En particular, cuando, correspondiente a la varianza infinita de la información a priori relativa a , el resultado es idéntica a la estimación de mínimos cuadrados lineales ponderados con como la matriz de peso. Además, si los componentes de no están correlacionados y tienen la misma varianza, de modo que dónde es una matriz de identidad, entonces es idéntica a la estimación de mínimos cuadrados ordinarios.
Estimación secuencial lineal MMSE
En muchas aplicaciones en tiempo real, los datos de observación no están disponibles en un solo lote. En cambio, las observaciones se realizan en una secuencia. Una aplicación ingenua de fórmulas anteriores nos haría descartar una estimación anterior y volver a calcular una nueva estimación a medida que se disponga de datos nuevos. Pero luego perdemos toda la información proporcionada por la observación anterior. Cuando las observaciones son cantidades escalares, una forma posible de evitar tal recálculo es concatenar primero la secuencia completa de observaciones y luego aplicar la fórmula de estimación estándar como se hizo en el Ejemplo 2. Pero esto puede ser muy tedioso porque a medida que el número de observaciones aumenta también aumenta el tamaño de las matrices que deben invertirse y multiplicarse. Además, este método es difícil de extender al caso de observaciones vectoriales. Otro enfoque para la estimación a partir de observaciones secuenciales es simplemente actualizar una estimación anterior a medida que se dispone de datos adicionales, lo que conduce a estimaciones más precisas. Por tanto, se desea un método recursivo en el que las nuevas mediciones puedan modificar las estimaciones anteriores. Implícito en estas discusiones está el supuesto de que las propiedades estadísticas deno cambia con el tiempo. En otras palabras, está estacionario.
Para la estimación secuencial, si tenemos una estimación basado en mediciones que generan espacio , luego, después de recibir otro conjunto de mediciones, debemos restar de estas mediciones la parte que podría anticiparse del resultado de las primeras mediciones. En otras palabras, la actualización debe basarse en la parte de los datos nuevos que sea ortogonal a los datos antiguos.
Suponga una estimación óptima se ha formado sobre la base de mediciones pasadas y esa matriz de covarianza de error es . Para procesos de observación lineal, la mejor estimación de basado en observaciones pasadas y, por tanto, estimaciones antiguas , es . Restando de , obtenemos el error de predicción
- .
La nueva estimación basada en datos adicionales es ahora
dónde es la covarianza cruzada entre y y es la autocovarianza de
Usando el hecho de que y , podemos obtener las matrices de covarianza en términos de covarianza de error como
Poniendo todo junto, tenemos la nueva estimación como
y la nueva covarianza de error como
El uso repetido de las dos ecuaciones anteriores a medida que se dispone de más observaciones conduce a técnicas de estimación recursivas. Las expresiones se pueden escribir de forma más compacta como
La matriz a menudo se denomina factor de ganancia. La repetición de estos tres pasos a medida que se dispone de más datos conduce a un algoritmo de estimación iterativo. La generalización de esta idea a casos no estacionarios da lugar al filtro de Kalman .
Caso especial: observaciones escalares
Como caso especial importante, se puede derivar una expresión recursiva fácil de usar cuando en cada t -ésimo instante de tiempo el proceso de observación lineal subyacente produce un escalar tal que, dónde es n -por-1 vector de columna conocido cuyos valores pueden cambiar con el tiempo,es el vector de columna aleatorio n -por-1 que se va a estimar, y es un término de ruido escalar con varianza . Después de ( t +1) -ésima observación, el uso directo de las ecuaciones recursivas anteriores da la expresión para la estimación como:
dónde es la nueva observación escalar y el factor de ganancia es el vector de columna n -por-1 dado por
La es n -por- n matriz de covarianza de errores dada por
Aquí, no se requiere inversión de matriz. Además, el factor de ganancia,, depende de nuestra confianza en la nueva muestra de datos, medida por la varianza del ruido, frente a la de los datos anteriores. Los valores iniciales de y se toman como la media y la covarianza de la función de densidad de probabilidad anterior de .
Enfoques alternativos: Este importante caso especial también ha dado lugar a muchos otros métodos iterativos (o filtros adaptativos ), como el filtro de mínimos cuadrados medios y el filtro de mínimos cuadrados recursivo , que resuelve directamente el problema de optimización de MSE original utilizando descensos de gradiente estocásticos . Sin embargo, dado que el error de estimación no se puede observar directamente, estos métodos intentan minimizar el error de predicción cuadrático medio . Por ejemplo, en el caso de observaciones escalares, tenemos el gradiente Por lo tanto, la ecuación de actualización para el filtro de mínimos cuadrados medios viene dada por
dónde es el tamaño del paso escalar y la expectativa es aproximada por el valor instantáneo . Como podemos ver, estos métodos evitan la necesidad de matrices de covarianza.
Ejemplos de
Ejemplo 1
Tomaremos un problema de predicción lineal como ejemplo. Sea una combinación lineal de variables aleatorias escalares observadas y ser utilizado para estimar otra variable aleatoria escalar futura tal que . Si las variables aleatorias son variables aleatorias gaussianas reales con media cero y su matriz de covarianza dada por
entonces nuestra tarea es encontrar los coeficientes tal que produzca una estimación lineal óptima .
En términos de la terminología desarrollada en las secciones anteriores, para este problema tenemos el vector de observación , la matriz del estimador como un vector de fila, y la variable estimada como una cantidad escalar. La matriz de autocorrelación Se define como
La matriz de correlación cruzada Se define como
Ahora resolvemos la ecuación invirtiendo y pre-multiplicar para obtener
Entonces tenemos y como los coeficientes óptimos para . Calcular el error cuadrático medio mínimo da. [2] Tenga en cuenta que no es necesario obtener una matriz explícita inversa de para calcular el valor de . La ecuación matricial se puede resolver mediante métodos bien conocidos, como el método de eliminación de Gauss. Un ejemplo más breve y no numérico se puede encontrar en el principio de ortogonalidad .
Ejemplo 2
Considere un vector formado tomando observaciones de un parámetro escalar fijo pero desconocido perturbado por el ruido blanco de Gauss. Podemos describir el proceso mediante una ecuación lineal., dónde . Dependiendo del contexto, quedará claro sirepresenta un escalar o un vector. Supongamos que sabemos para ser el rango dentro del cual el valor de va a caer. Podemos modelar nuestra incertidumbre de por una distribución uniforme anterior a lo largo de un intervalo, y por lo tanto tendrá una variación de . Deje que el vector de ruido estar distribuido normalmente como dónde es una matriz de identidad. También y son independientes y . Es fácil ver eso
Por tanto, el estimador lineal MMSE viene dado por
Podemos simplificar la expresión usando la forma alternativa para como
donde para tenemos
De manera similar, la varianza del estimador es
Por tanto, el MMSE de este estimador lineal es
Para muy grande , vemos que el estimador MMSE de un escalar con distribución anterior uniforme se puede aproximar mediante el promedio aritmético de todos los datos observados
mientras que la variación no se verá afectada por los datos y el LMMSE de la estimación tenderá a cero.
Sin embargo, el estimador es subóptimo ya que está limitado a ser lineal. Tenía la variable aleatoriatambién fuera gaussiano, entonces el estimador habría sido óptimo. Observe que la forma del estimador permanecerá sin cambios, independientemente de la distribución a priori de, siempre que la media y la varianza de estas distribuciones sean las mismas.
Ejemplo 3
Considere una variación del ejemplo anterior: dos candidatos se presentan a las elecciones. Sea la fracción de votos que recibirá un candidato el día de las elecciones Por lo tanto, la fracción de votos que recibirá el otro candidato será Tomaremos como una variable aleatoria con una distribución previa uniforme sobre para que su media sea y la varianza es Unas semanas antes de las elecciones, dos encuestadores diferentes realizaron dos encuestas de opinión pública independientes. La primera encuesta reveló que es probable que el candidato obtengafracción de votos. Dado que siempre hay algún error debido al muestreo finito y a la metodología de encuesta particular adoptada, el primer encuestador declara que su estimación tiene un error. con media y varianza cero De manera similar, el segundo encuestador declara que su estimación es con un error con media y varianza cero Tenga en cuenta que, a excepción de la media y la varianza del error, la distribución del error no está especificada. ¿Cómo se deben combinar las dos encuestas para obtener la predicción de votación para el candidato dado?
Como en el ejemplo anterior, tenemos
Aquí, tanto el . Por lo tanto, podemos obtener la estimación LMMSE como la combinación lineal de y como
donde los pesos vienen dados por
Aquí, dado que el término del denominador es constante, la encuesta con menor error recibe mayor peso para predecir el resultado de la elección. Por último, la varianza de la predicción viene dada por
que hace menor que
En general, si tenemos encuestadores, entonces donde el peso de i -ésimo encuestador viene dado por
Ejemplo 4
Supongamos que un músico está tocando un instrumento y que el sonido es recibido por dos micrófonos, cada uno de ellos ubicado en dos lugares diferentes. Deje que la atenuación del sonido debido a la distancia en cada micrófono sea y , que se supone que son constantes conocidas. De manera similar, deje que el ruido en cada micrófono sea y , cada uno con media cero y varianzas y respectivamente. Dejar denotar el sonido producido por el músico, que es una variable aleatoria con media y varianza cero ¿Cómo se debe combinar la música grabada de estos dos micrófonos, después de sincronizarse entre sí?
Podemos modelar el sonido recibido por cada micrófono como
Aquí tanto el . Por tanto, podemos combinar los dos sonidos como
donde el i -ésimo peso se da como
Ver también
- Estimador bayesiano
- Error medio cuadrado
- Mínimos cuadrados
- Estimador insesgado de varianza mínima (MVUE)
- Principio de ortogonalidad
- Filtro de salchicha
- Filtro de Kalman
- Predicción lineal
- Ecualizador de forzamiento cero
Notas
- ^ "Error cuadrático medio (MSE)" . www.probabilitycourse.com . Consultado el 9 de mayo de 2017 .
- ^ Luna y Stirling.
Otras lecturas
- Johnson, D. "Estimadores de error cuadrático medio mínimo" . Conexiones. Archivado de los estimadores de error cuadrático medio mínimo, el valor de verificación
|url=
original ( ayuda ) el 25 de julio de 2008 . Consultado el 8 de enero de 2013 . - Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. ISBN 978-0521592710.
- Bibby, J .; Toutenburg, H. (1977). Predicción y estimación mejorada en modelos lineales . Wiley. ISBN 9780471016564.
- Lehmann, EL; Casella, G. (1998). "Capítulo 4". Teoría de la estimación puntual (2ª ed.). Saltador. ISBN 0-387-98502-6.
- Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. págs. 344 –350. ISBN 0-13-042268-1.
- Luenberger, DG (1969). "Capítulo 4, Estimación por mínimos cuadrados". Optimización por métodos de espacio vectorial (1ª ed.). Wiley. ISBN 978-0471181170.
- Luna, TK; Stirling, WC (2000). Métodos matemáticos y algoritmos para el procesamiento de señales (1ª ed.). Prentice Hall. ISBN 978-0201361865.
- Van Trees, HL (1968). Detección, Evaluación y modulación teoría, Parte I . Nueva York: Wiley. ISBN 0-471-09517-6.
- Haykin, SO (2013). Teoría del filtro adaptativo (5ª ed.). Prentice Hall. ISBN 978-0132671453.