Estimador Minimax

En la teoría de la decisión estadística , donde nos enfrentamos al problema de estimar un parámetro determinista (vector) ${\ Displaystyle \ theta \ in \ Theta}$ de observaciones ${\ Displaystyle x \ in {\ mathcal {X}},}$ un estimador (regla de estimación) ${\ Displaystyle \ delta ^ {M} \, \!}$ se llama minimax si su riesgo máximo es mínimo entre todos los estimadores de ${\ Displaystyle \ theta \, \!}$ . En cierto sentido, esto significa que ${\ Displaystyle \ delta ^ {M} \, \!}$ es un estimador que funciona mejor en el peor caso posible permitido en el problema.

Configuración del problema

Considere el problema de estimar un parámetro determinista (no bayesiano ) ${\ Displaystyle \ theta \ in \ Theta}$ de datos ruidosos o corruptos ${\ Displaystyle x \ in {\ mathcal {X}}}$ relacionado a través de la distribución de probabilidad condicional ${\ Displaystyle P (x \ mid \ theta) \, \!}$ . Nuestro objetivo es encontrar un "buen" estimador ${\ Displaystyle \ delta (x) \, \!}$ para estimar el parámetro ${\ Displaystyle \ theta \, \!}$ , que minimiza alguna función de riesgo dada ${\ Displaystyle R (\ theta, \ delta) \, \!}$ . Aquí la función de riesgo (técnicamente un Funcional u Operador desde ${\ Displaystyle R}$ es una función de una función, NO la composición de una función) es la expectativa de alguna función de pérdida ${\ Displaystyle L (\ theta, \ delta) \, \!}$ con respecto a ${\ Displaystyle P (x \ mid \ theta) \, \!}$ . Un ejemplo popular de una función de pérdida ^[1] es la pérdida por error al cuadrado ${\ Displaystyle L (\ theta, \ delta) = \ | \ theta - \ delta \ | ^ {2} \, \!}$ , y la función de riesgo para esta pérdida es el error cuadrático medio (MSE).

Desafortunadamente, en general, el riesgo no se puede minimizar ya que depende del parámetro desconocido ${\ Displaystyle \ theta \, \!}$ en sí mismo (si supiéramos cuál es el valor real de ${\ Displaystyle \ theta \, \!}$ , no necesitaríamos estimarlo). Por lo tanto, se requieren criterios adicionales para encontrar un estimador óptimo en algún sentido. Uno de esos criterios es el criterio minimax.

Definición

Definición : un estimador ${\ Displaystyle \ delta ^ {M}: {\ mathcal {X}} \ rightarrow \ Theta \, \!}$ se llama minimax con respecto a una función de riesgo ${\ Displaystyle R (\ theta, \ delta) \, \!}$ si alcanza el riesgo máximo más pequeño entre todos los estimadores, lo que significa que satisface

{\ Displaystyle \ sup _ {\ theta \ in \ Theta} R (\ theta, \ delta ^ {M}) = \ inf _ {\ delta} \ sup _ {\ theta \ in \ Theta} R (\ theta, \ delta). \,}

Distribución menos favorable

Lógicamente, un estimador es minimax cuando es el mejor en el peor de los casos. Continuando con esta lógica, un estimador minimax debería ser un estimador de Bayes con respecto a una distribución previa menos favorable de ${\ Displaystyle \ theta \, \!}$ . Para demostrar esta noción, denote el riesgo promedio del estimador de Bayes ${\ Displaystyle \ delta _ {\ pi} \, \!}$ con respecto a una distribución previa ${\ Displaystyle \ pi \, \!}$ como

{\ Displaystyle r _ {\ pi} = \ int R (\ theta, \ delta _ {\ pi}) \, d \ pi (\ theta) \,}

Definición: una distribución previa ${\ Displaystyle \ pi \, \!}$ se llama menos favorable si para cualquier otra distribución ${\ Displaystyle \ pi '\, \!}$ el riesgo medio satisface ${\ Displaystyle r _ {\ pi} \ geq r _ {\ pi '} \,}$ .

Teorema 1: Si ${\ Displaystyle r _ {\ pi} = \ sup _ {\ theta} R (\ theta, \ delta _ {\ pi}), \,}$ luego:

${\ Displaystyle \ delta _ {\ pi} \, \!}$ es minimax.
Si ${\ Displaystyle \ delta _ {\ pi} \, \!}$ es un estimador de Bayes único, también es el estimador minimax único.
${\ Displaystyle \ pi \, \!}$ es menos favorable.

Corolario: si un estimador de Bayes tiene un riesgo constante, es minimax. Tenga en cuenta que esta no es una condición necesaria.

Ejemplo 1: Moneda injusta ^[2]^[3] : Considere el problema de estimar la tasa de "éxito" de una variable binomial , ${\ Displaystyle x \ sim B (n, \ theta) \, \!}$ . Esto puede verse como una estimación de la tasa a la que una moneda injusta cae sobre "cara" o "cruz". En este caso el estimador de Bayes con respecto a una distribución Beta previa, ${\ Displaystyle \ theta \ sim {\ text {Beta}} ({\ sqrt {n}} / 2, {\ sqrt {n}} / 2) \,}$ es

{\ Displaystyle \ delta ^ {M} = {\ frac {x + 0.5 {\ sqrt {n}}} {n + {\ sqrt {n}}}}, \,}

con riesgo constante de Bayes

{\ Displaystyle r = {\ frac {1} {4 (1 + {\ sqrt {n}}) ^ {2}}} \,}

y, según el Corolario, es minimax.

Definición: una secuencia de distribuciones previas ${\ Displaystyle \ pi _ {n} \, \!}$ se llama menos favorable si para cualquier otra distribución ${\ Displaystyle \ pi '\, \!}$ ,

{\ Displaystyle \ lim _ {n \ rightarrow \ infty} r _ {\ pi _ {n}} \ geq r _ {\ pi '}. \,}

Teorema 2: si hay una secuencia de priores ${\ Displaystyle \ pi _ {n} \, \!}$ y un estimador ${\ Displaystyle \ delta \, \!}$ tal que ${\ Displaystyle \ sup _ {\ theta} R (\ theta, \ delta) = \ lim _ {n \ rightarrow \ infty} r _ {\ pi _ {n}} \, \!}$ , luego :

${\ Displaystyle \ delta \, \!}$ es minimax.
La secuencia ${\ Displaystyle \ pi _ {n} \, \!}$ es menos favorable.

Tenga en cuenta que aquí no se garantiza la unicidad. Por ejemplo, el estimador ML del ejemplo anterior puede obtenerse como el límite de los estimadores de Bayes con respecto a un previo uniforme , ${\ Displaystyle \ pi _ {n} \ sim U [-n, n] \, \!}$ con un apoyo creciente y también con respecto a una media cero a priori normal ${\ Displaystyle \ pi _ {n} \ sim N (0, n \ sigma ^ {2}) \, \!}$ con variación creciente. Por lo tanto, ni el estimador de ML resultante es un minimax único ni el anterior menos favorable es único.

Ejemplo 2: considere el problema de estimar la media de ${\ Displaystyle p \, \!}$ vector aleatorio gaussiano dimensional , ${\ Displaystyle x \ sim N (\ theta, I_ {p} \ sigma ^ {2}) \, \!}$ . El estimador de máxima verosimilitud (ML) para ${\ Displaystyle \ theta \, \!}$ en este caso es simplemente ${\ Displaystyle \ delta _ {\ text {ML}} = x \, \!}$ , y su riesgo es

{\ Displaystyle R (\ theta, \ delta _ {\ text {ML}}) = E {\ | \ delta _ {ML} - \ theta \ | ^ {2}} = \ sum _ {i = 1} ^ {p} E (x_ {i} - \ theta _ {i}) ^ {2} = p \ sigma ^ {2}. \,}

MSE del estimador de máxima verosimilitud frente al estimador de James-Stein

El riesgo es constante, pero el estimador ML en realidad no es un estimador de Bayes, por lo que no se aplica el corolario del teorema 1. Sin embargo, el estimador ML es el límite de los estimadores de Bayes con respecto a la secuencia previa. ${\ Displaystyle \ pi _ {n} \ sim N (0, n \ sigma ^ {2}) \, \!}$ y, por tanto, minimax según el teorema 2. No obstante, minimaxidad no siempre implica admisibilidad . De hecho, en este ejemplo, se sabe que el estimador de ML es inadmisible (no admisible) siempre que ${\ Displaystyle p> 2 \, \!}$ . El famoso estimador James-Stein domina el ML siempre que ${\ Displaystyle p> 2 \, \!}$ . Aunque ambos estimadores tienen el mismo riesgo ${\ Displaystyle p \ sigma ^ {2} \, \!}$ Cuándo ${\ Displaystyle \ | \ theta \ | \ rightarrow \ infty \, \!}$ , y ambos son minimax, el estimador de James-Stein tiene un riesgo menor para cualquier finito ${\ Displaystyle \ | \ theta \ | \, \!}$ . Este hecho se ilustra en la siguiente figura.

Algunos ejemplos

En general, es difícil, a menudo incluso imposible, determinar el estimador minimax. No obstante, en muchos casos, se ha determinado un estimador minimax.

Ejemplo 3: Media normal acotada: al estimar la media de un vector normal ${\ Displaystyle x \ sim N (\ theta, I_ {n} \ sigma ^ {2}) \, \!}$ , donde se sabe que ${\ Displaystyle \ | \ theta \ | ^ {2} \ leq M \, \!}$ . Se sabe que el estimador de Bayes con respecto a un prior que se distribuye uniformemente en el borde de la esfera delimitadora es minimax siempre que ${\ Displaystyle M \ leq n \, \!}$ . La expresión analítica de este estimador es

{\ Displaystyle \ delta ^ {M} = {\ frac {nJ_ {n + 1} (n \ | x \ |)} {\ | x \ | J_ {n} (n \ | x \ |)}}, \,}

dónde ${\ Displaystyle J_ {n} (t) \, \!}$ , es la función de Bessel modificada del primer tipo de orden n .

Estimador asintótico minimax

La dificultad de determinar el estimador minimax exacto ha motivado el estudio de estimadores de minimax asintóticos - un estimador ${\ Displaystyle \ delta '}$ se llama ${\ Displaystyle c}$ -minimax asintótico (o aproximado) si

{\ Displaystyle \ sup _ {\ theta \ in \ Theta} R (\ theta, \ delta ') \ leq c \ inf _ {\ delta} \ sup _ {\ theta \ in \ Theta} R (\ theta, \ delta).}

Para muchos problemas de estimación, especialmente en el entorno de estimación no paramétrica, se han establecido varios estimadores minimax aproximados. El diseño del estimador minimax aproximado está íntimamente relacionado con la geometría, como el número de entropía métrica , de ${\ Displaystyle \ Theta}$ .

Estimador minimax aleatorio

A veces, un estimador minimax puede adoptar la forma de una regla de decisión aleatoria . Se muestra un ejemplo a la izquierda. El espacio de parámetros tiene solo dos elementos y cada punto del gráfico corresponde al riesgo de una regla de decisión: la coordenada x es el riesgo cuando el parámetro es ${\ Displaystyle \ theta _ {1}}$ y la coordenada y es el riesgo cuando el parámetro es ${\ Displaystyle \ theta _ {2}}$ . En este problema de decisión, el estimador minimax se encuentra en un segmento de línea que conecta dos estimadores deterministas. Elegir ${\ Displaystyle \ delta _ {1}}$ con probabilidad ${\ Displaystyle 1-p}$ y ${\ Displaystyle \ delta _ {2}}$ con probabilidad ${\ Displaystyle p}$ minimiza el riesgo supremo.

Relación con la optimización robusta

La optimización robusta es un enfoque para resolver problemas de optimización bajo incertidumbre en el conocimiento de los parámetros subyacentes. ^[4]^[5] Por ejemplo, la estimación bayesiana MMSE de un parámetro requiere el conocimiento de la función de correlación de parámetros. Si el conocimiento de esta función de correlación no está perfectamente disponible, un enfoque popular de optimización robusta minimax ^[6] es definir un conjunto que caracterice la incertidumbre sobre la función de correlación y luego buscar una optimización minimax sobre el conjunto de incertidumbre y el estimador respectivamente. Se pueden realizar optimizaciones de minimax similares para hacer que los estimadores sean robustos a ciertos parámetros conocidos de manera imprecisa. Por ejemplo, un estudio reciente que trata sobre estas técnicas en el área del procesamiento de señales se puede encontrar en. ^[7]

En R. Fandom Noubiap y W. Seidel (2001) se ha desarrollado un algoritmo para calcular una regla de decisión Gamma-minimax, cuando Gamma viene dada por un número finito de condiciones de momento generalizadas. Tal regla de decisión minimiza el máximo de las integrales de la función de riesgo con respecto a todas las distribuciones en Gamma. Las reglas de decisión de gamma-minimax son de interés en los estudios de robustez en las estadísticas bayesianas.

Referencias

EL Lehmann y G. Casella (1998), Teoría de la estimación puntual, 2ª ed. Nueva York: Springer-Verlag.
F. Perron y E. Marchand (2002), "Sobre el estimador minimax de una media normal acotada", Estadísticas y letras de probabilidad 58 : 327–333.
R. Fandom Noubiap y W. Seidel (2001), "Un algoritmo para calcular las reglas de decisión Gamma-Minimax en condiciones de momento generalizadas", Annals of Statistics , agosto de 2001, vol. 29, no. 4, págs. 1094-1116
Stein, C. (1981). "Estimación de la media de una distribución normal multivariante" . Annals of Statistics . 9 (6): 1135-1151. doi : 10.1214 / aos / 1176345632 . Señor 0630098 . Zbl 0476.62035 .

^ Berger, JO (1985). Teoría de la decisión estadística y análisis bayesiano (2 ed.). Nueva York: Springer-Verlag . págs. xv + 425. ISBN 0-387-96098-8. Señor 0580664 .
^ Hodges, Jr., JL; Lehmann, EL (1950). "Algunos problemas en la estimación de puntos minimax" . Ana. Matemáticas. Estadista . 21 (2): 182-197. doi : 10.1214 / aoms / 1177729838 . JSTOR 2236900 . Señor 0035949 . Zbl 0038.09802 .
^ Steinhaus, Hugon (1957). "El problema de la estimación" . Ana. Matemáticas. Estadista . 28 (3): 633–648. doi : 10.1214 / aoms / 1177706876 . JSTOR 2237224 . Señor 0092313 . Zbl 0088.35503 .
^ SA Kassam y HV Poor (1985), "Técnicas robustas para el procesamiento de señales: una encuesta", Actas del IEEE , vol. 73, págs. 433–481, marzo de 1985.
^ A. Ben-Tal, L. El Ghaoui y A. Nemirovski (2009), "Optimización robusta", Princeton University Press, 2009.
^ S. Verdu y HV Poor (1984), "Sobre la robustez de Minimax: un enfoque general y aplicaciones", IEEE Transactions on Information Theory , vol. 30, págs. 328-340, marzo de 1984.
^ M. Danés Nisar. Robustez de Minimax en el procesamiento de señales para comunicaciones , Shaker Verlag, ISBN 978-3-8440-0332-1 , agosto de 2011.

[OJBerger-1] Berger, JO (1985). Teoría de la decisión estadística y análisis bayesiano (2 ed.). Nueva York: Springer-Verlag . págs. xv + 425. ISBN 0-387-96098-8. Señor 0580664 .

[HodLeh-2] Hodges, Jr., JL; Lehmann, EL (1950). "Algunos problemas en la estimación de puntos minimax" . Ana. Matemáticas. Estadista . 21 (2): 182-197. doi : 10.1214 / aoms / 1177729838 . JSTOR 2236900 . Señor 0035949 . Zbl 0038.09802 .

[SteinAMS-3] Steinhaus, Hugon (1957). "El problema de la estimación" . Ana. Matemáticas. Estadista . 28 (3): 633–648. doi : 10.1214 / aoms / 1177706876 . JSTOR 2237224 . Señor 0092313 . Zbl 0088.35503 .

[kassam-4] SA Kassam y HV Poor (1985), "Técnicas robustas para el procesamiento de señales: una encuesta", Actas del IEEE , vol. 73, págs. 433–481, marzo de 1985.

[ben_tal-5] A. Ben-Tal, L. El Ghaoui y A. Nemirovski (2009), "Optimización robusta", Princeton University Press, 2009.

[verdu-6] S. Verdu y HV Poor (1984), "Sobre la robustez de Minimax: un enfoque general y aplicaciones", IEEE Transactions on Information Theory , vol. 30, págs. 328-340, marzo de 1984.

[nisar_book-7] M. Danés Nisar. Robustez de Minimax en el procesamiento de señales para comunicaciones , Shaker Verlag, ISBN 978-3-8440-0332-1 , agosto de 2011.

[1]