Estimación de riesgo imparcial de Stein

En estadística , la estimación de riesgo insesgada de Stein (SURE) es un estimador insesgado del error cuadrático medio de "un estimador sesgado no lineal, casi arbitrario". ^[1] En otras palabras, proporciona una indicación de la precisión de un estimador dado. Esto es importante ya que el verdadero error cuadrático medio de un estimador es una función del parámetro desconocido que se va a estimar y, por lo tanto, no se puede determinar con exactitud.

La técnica lleva el nombre de su descubridor, Charles Stein . ^[2]

Declaración formal

Dejar ${\ Displaystyle \ mu \ in {\ mathbb {R}} ^ {d}}$ ser un parámetro desconocido y dejar ${\ Displaystyle x \ in {\ mathbb {R}} ^ {d}}$ ser un vector de medición cuyos componentes son independientes y están distribuidos normalmente con media ${\ Displaystyle \ mu _ {i}, i = 1, ..., d,}$ y varianza ${\ Displaystyle \ sigma ^ {2}}$ . Suponer ${\ Displaystyle h (x)}$ es un estimador de ${\ Displaystyle \ mu}$ de ${\ Displaystyle x}$ y se puede escribir ${\ Displaystyle h (x) = x + g (x)}$ , dónde ${\ Displaystyle g}$ es débilmente diferenciable . Entonces, la estimación de riesgo no sesgada de Stein viene dada por ^[3]

{\ Displaystyle \ operatorname {SEGURO} (h) = d \ sigma ^ {2} + \ | g (x) \ | ^ {2} +2 \ sigma ^ {2} \ sum _ {i = 1} ^ { d} {\ frac {\ parcial} {\ parcial x_ {i}}} g_ {i} (x) = - d \ sigma ^ {2} + \ | g (x) \ | ^ {2} +2 \ sigma ^ {2} \ sum _ {i = 1} ^ {d} {\ frac {\ parcial} {\ parcial x_ {i}}} h_ {i} (x),}

dónde ${\ Displaystyle g_ {i} (x)}$ es el ${\ Displaystyle i}$ th componente de la función ${\ Displaystyle g (x)}$ , y ${\ Displaystyle \ | \ cdot \ |}$ es la norma euclidiana .

La importancia de SURE es que es una estimación insesgada del error cuadrático medio (o riesgo de error cuadrático) de ${\ Displaystyle h (x)}$ , es decir

{\ Displaystyle \ operatorname {E} _ {\ mu} \ {\ operatorname {SURE} (h) \} = \ operatorname {MSE} (h), \, \!}

con

{\ Displaystyle \ operatorname {MSE} (h) = \ operatorname {E} _ {\ mu} \ | h (x) - \ mu \ | ^ {2}.}

Por lo tanto, minimizar SURE puede actuar como un sustituto para minimizar el MSE. Tenga en cuenta que no hay dependencia del parámetro desconocido ${\ Displaystyle \ mu}$ en la expresión de SURE anterior. Por lo tanto, se puede manipular (por ejemplo, para determinar la configuración de estimación óptima) sin conocimiento de ${\ Displaystyle \ mu}$ .

Prueba

Deseamos demostrar que

{\ Displaystyle \ operatorname {E} _ {\ mu} \ | h (x) - \ mu \ | ^ {2} = \ operatorname {E} _ {\ mu} \ {\ operatorname {SURE} (h) \ }.}

Comenzamos expandiendo el MSE como

{\ Displaystyle {\ begin {alineado} \ operatorname {E} _ {\ mu} \ | h (x) - \ mu \ | ^ {2} & = \ operatorname {E} _ {\ mu} \ | g ( x) + x- \ mu \ | ^ {2} \\ & = \ operatorname {E} _ {\ mu} \ | g (x) \ | ^ {2} + \ operatorname {E} _ {\ mu} \ | x- \ mu \ | ^ {2} +2 \ operatorname {E} _ {\ mu} g (x) ^ {T} (x- \ mu) \\ & = \ operatorname {E} _ {\ mu} \ | g (x) \ | ^ {2} + d \ sigma ^ {2} +2 \ operatorname {E} _ {\ mu} g (x) ^ {T} (x- \ mu). \ final {alineado}}}

Ahora usamos la integración por partes para reescribir el último término:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} _ {\ mu} g (x) ^ {T} (x- \ mu) & = \ int _ {{\ mathbb {R}} ^ {d} } {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2d}}}} \ exp \ left (- {\ frac {\ | x- \ mu \ | ^ {2}} {2 \ sigma ^ {2}}} \ right) \ sum _ {i = 1} ^ {d} g_ {i} (x) (x_ {i} - \ mu _ {i}) d ^ {d} x \\ & = \ sigma ^ {2} \ sum _ {i = 1} ^ {d} \ int _ {{\ mathbb {R}} ^ {d}} {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2d}}}} \ exp \ left (- {\ frac {\ | x- \ mu \ | ^ {2}} {2 \ sigma ^ {2}}} \ right) {\ frac {dg_ {i }} {dx_ {i}}} d ^ {d} x \\ & = \ sigma ^ {2} \ sum _ {i = 1} ^ {d} \ operatorname {E} _ {\ mu} {\ frac {dg_ {i}} {dx_ {i}}}. \ end {alineado}}}

Sustituyendo esto en la expresión del MSE, llegamos a

{\ Displaystyle \ operatorname {E} _ {\ mu} \ | h (x) - \ mu \ | ^ {2} = \ operatorname {E} _ {\ mu} \ left (d \ sigma ^ {2} + \ | g (x) \ | ^ {2} +2 \ sigma ^ {2} \ sum _ {i = 1} ^ {d} {\ frac {dg_ {i}} {dx_ {i}}} \ right ).}

Aplicaciones

Una aplicación estándar de SURE es elegir una forma paramétrica para un estimador y luego optimizar los valores de los parámetros para minimizar la estimación del riesgo. Esta técnica se ha aplicado en varios entornos. Por ejemplo, se puede derivar una variante del estimador de James-Stein encontrando el estimador de contracción óptimo . ^[2] La técnica también ha sido utilizada por Donoho y Johnstone para determinar el factor de contracción óptimo en una configuración de eliminación de ruido de ondas . ^[1]

Referencias

↑ ^a ^b Donoho, David L .; Iain M. Johnstone (diciembre de 1995). "Adaptación a la suavidad desconocida a través de la contracción de ondas". Revista de la Asociación Estadounidense de Estadística . 90 (432): 1200-1244. CiteSeerX 10.1.1.161.8697 . doi : 10.2307 / 2291512 . JSTOR 2291512 .
^ ^a ^b Stein, Charles M. (noviembre de 1981). "Estimación de la media de una distribución normal multivariante" . The Annals of Statistics . 9 (6): 1135-1151. doi : 10.1214 / aos / 1176345632 . JSTOR 2240405 .
^ Wasserman, Larry (2005). Todas las estadísticas no paramétricas .

[donoho95-1] Donoho, David L .; Iain M. Johnstone (diciembre de 1995). "Adaptación a la suavidad desconocida a través de la contracción de ondas". Revista de la Asociación Estadounidense de Estadística . 90 (432): 1200-1244. CiteSeerX 10.1.1.161.8697 . doi : 10.2307 / 2291512 . JSTOR 2291512 .

[stein81-2] Stein, Charles M. (noviembre de 1981). "Estimación de la media de una distribución normal multivariante" . The Annals of Statistics . 9 (6): 1135-1151. doi : 10.1214 / aos / 1176345632 . JSTOR 2240405 .

[wasserman05-3] Wasserman, Larry (2005). Todas las estadísticas no paramétricas .

[1]