El ejemplo de Stein

El ejemplo de Stein (o fenómeno o paradoja ), en la teoría de la decisión y la teoría de la estimación , es el fenómeno de que cuando se estiman tres o más parámetros simultáneamente, existen estimadores combinados más precisos en promedio (es decir, que tienen un error cuadrático medio esperado más bajo ) que cualquier otro. método que maneja los parámetros por separado. Lleva el nombre de Charles Stein de la Universidad de Stanford , quien descubrió el fenómeno en 1955. ^[1]

Una explicación intuitiva es que optimizar para el error cuadrático medio de un estimador combinado no es lo mismo que optimizar para los errores de estimadores separados de los parámetros individuales. En términos prácticos, si el error combinado es de hecho de interés, entonces se debe utilizar un estimador combinado, incluso si los parámetros subyacentes son independientes. Si, en cambio, uno está interesado en estimar un parámetro individual, entonces el uso de un estimador combinado no ayuda y, de hecho, es peor.

Declaración formal

La siguiente es quizás la forma más simple de la paradoja, el caso especial en el que el número de observaciones es igual al número de parámetros a estimar. Sea θ un vector que consta de n ≥ 3 parámetros desconocidos. Para estimar estos parámetros, se realiza una sola medición X _i para cada parámetro θ _i , lo que da como resultado un vector X de longitud n . Supongamos que las mediciones son conocidos por ser independientes , gaussianas variables aleatorias con media θ y varianza 1, es decir,

{\ Displaystyle {\ mathbf {X}} \ sim N ({\ boldsymbol {\ theta}}, 1).}

Por lo tanto, cada parámetro se estima utilizando una única medición ruidosa y cada medición es igualmente inexacta.

En estas condiciones, es intuitivo y común utilizar cada medición como una estimación de su parámetro correspondiente. Esta regla de decisión llamada "ordinaria" se puede escribir como

{\ displaystyle {\ hat {\ boldsymbol {\ theta}}} = {\ mathbf {X}}.}

La calidad de dicho estimador se mide por su función de riesgo . Una función de riesgo comúnmente utilizada es el error cuadrático medio , definido como

{\ Displaystyle \ operatorname {E} \ left [\ left \ | {\ boldsymbol {\ theta}} - {\ hat {\ boldsymbol {\ theta}}} \ right \ | ^ {2} \ right].}

Sorprendentemente, resulta que el estimador "ordinario" propuesto anteriormente es subóptimo en términos de error cuadrático medio cuando n ≥ 3. En otras palabras, en el escenario discutido aquí, existen estimadores alternativos que siempre logran un error cuadrático medio más bajo , sin importar cual es el valor de ${\ displaystyle {\ boldsymbol {\ theta}}}$ es.

Para un θ dado, obviamente se podría definir un "estimador" perfecto que siempre sea solo θ , pero este estimador sería malo para otros valores de θ . Los estimadores de la paradoja de Stein son, para un θ dado , mejores que X para algunos valores de X pero necesariamente peores para otros (excepto quizás para un vector θ particular , para el cual la nueva estimación es siempre mejor que X ). Solo en promedio son mejores.

Más exactamente, un estimador ${\ displaystyle {\ hat {\ boldsymbol {\ theta}}} _ {1}}$ se dice que domina otro estimador ${\ Displaystyle {\ hat {\ boldsymbol {\ theta}}} _ {2}}$ si, para todos los valores de ${\ displaystyle {\ boldsymbol {\ theta}}}$ , el riesgo de ${\ displaystyle {\ hat {\ boldsymbol {\ theta}}} _ {1}}$ es menor o igual que el riesgo de ${\ Displaystyle {\ hat {\ boldsymbol {\ theta}}} _ {2}}$ , y si la desigualdad es estricta para algunos ${\ displaystyle {\ boldsymbol {\ theta}}}$ . Se dice que un estimador es admisible si ningún otro estimador lo domina, de lo contrario es inadmisible . Por lo tanto, el ejemplo de Stein puede expresarse simplemente de la siguiente manera: la regla de decisión ordinaria para estimar la media de una distribución gaussiana multivariada es inadmisible bajo el riesgo de error cuadrático medio.

Muchos estimadores simples y prácticos logran un mejor desempeño que el estimador ordinario. El ejemplo más conocido es el estimador de James-Stein , que funciona comenzando en X y avanzando hacia un punto particular (como el origen) en una cantidad inversamente proporcional a la distancia de X desde ese punto.

Para ver un bosquejo de la prueba de este resultado, vea el ejemplo de Prueba de Stein . Una prueba alternativa se debe a Larry Brown: demostró que el estimador ordinario para un vector medio normal multivariante n- dimensional es admisible si y sólo si el movimiento browniano n- dimensional es recurrente. ^[2] Dado que el movimiento browniano no es recurrente para n ≥ 3, el estimador ordinario no es admisible para n ≥ 3.

Trascendencia

El ejemplo de Stein es sorprendente, ya que la regla de decisión "ordinaria" es intuitiva y de uso común. De hecho, numerosos métodos para la construcción de estimadores, incluida la estimación de máxima verosimilitud , la mejor estimación lineal insesgada , la estimación por mínimos cuadrados y la estimación equivariante óptima , dan como resultado el estimador "ordinario". Sin embargo, como se discutió anteriormente, este estimador es subóptimo.

Para demostrar la naturaleza poco intuitiva del ejemplo de Stein, considere el siguiente ejemplo del mundo real. Supongamos que vamos a estimar tres parámetros no relacionados, como el rendimiento de trigo de EE. UU. Para 1993, el número de espectadores en el torneo de tenis de Wimbledon en 2001 y el peso de una barra de chocolate elegida al azar en el supermercado. Suponga que tenemos medidas gaussianas independientes de cada una de estas cantidades. El ejemplo de Stein ahora nos dice que podemos obtener una mejor estimación (en promedio) para el vector de tres parámetros utilizando simultáneamente las tres medidas no relacionadas.

A primera vista, parece que de alguna manera obtenemos un mejor estimador del rendimiento de trigo de EE. UU. Midiendo algunas otras estadísticas no relacionadas, como el número de espectadores en Wimbledon y el peso de una barra de chocolate. Por supuesto, esto es absurdo; no hemos obtenido un mejor estimador para el rendimiento del trigo estadounidense por sí solo, pero hemos producido un estimador para el vector de las medias de las tres variables aleatorias, que tiene un riesgo total reducido . Esto ocurre porque el costo de una mala estimación en un componente del vector se compensa con una mejor estimación en otro componente. Además, un conjunto específico de los tres valores medios estimados obtenidos con el nuevo estimador no será necesariamente mejor que el conjunto ordinario (los valores medidos). Solo en promedio es mejor el nuevo estimador.

Una explicación intuitiva

Para cualquier valor particular de θ, el nuevo estimador mejorará al menos uno de los errores cuadráticos medios individuales ${\ Displaystyle \ operatorname {E} \ left [\ left ({\ theta _ {i}} - {{\ hat {\ theta}} _ {i}} \ right) ^ {2} \ right].}$ Esto no es difícil, por ejemplo, si ${\ Displaystyle \ theta _ {1}}$ está entre −1 y 1, y σ = 1, entonces un estimador que se mueve ${\ Displaystyle X_ {1}}$ hacia 0 por 0,5 (o lo pone a cero si su valor absoluto era inferior a 0,5) tendrá un error cuadrático medio menor que ${\ Displaystyle X_ {1}}$ sí mismo. Pero hay otros valores de ${\ Displaystyle \ theta _ {1}}$ para lo cual este estimador es peor que ${\ Displaystyle X_ {1}}$ sí mismo. El truco del estimador de Stein, y otros que producen la paradoja de Stein, es que ajustan el desplazamiento de tal manera que siempre hay (para cualquier vector θ ) al menos un ${\ Displaystyle X_ {i}}$ cuyo error cuadrático medio se mejora, y su mejora más que compensa cualquier degradación en el error cuadrático medio que pueda ocurrir para otro ${\ Displaystyle {\ hat {\ theta}} _ {i}}$ . El problema es que, sin saber θ , no se sabe cuál de los n errores cuadrados medios se mejora, por lo que no se puede usar el estimador de Stein solo para esos parámetros.

Un ejemplo de la configuración anterior ocurre en la estimación de canales en telecomunicaciones, por ejemplo, porque diferentes factores afectan el rendimiento general del canal.

Ver también

Notas

^ Efron y Morris 1977
^ Marrón, LD (1971). "Estimadores admisibles, difusiones recurrentes y problemas de valores de frontera insolubles" . Los Anales de Estadística Matemática . 42 (3): 855–903. doi : 10.1214 / aoms / 1177693318 . ISSN 0003-4851 .

Referencias

Efron, B .; Morris, C. (1977), "La paradoja de Stein en las estadísticas" (PDF) , Scientific American , 236 (5): 119-127, doi : 10.1038 / scientificamerican0577-119
Lehmann, EL ; Casella, G. (1998), "cap.5", Teoría de la estimación puntual (2ª ed.), ISBN 0-471-05849-1
Stein, C. (1956). "Inadmisibilidad del estimador habitual para la media de una distribución multivariante" . Actas del Tercer Simposio de Berkeley sobre Probabilidad y Estadística Matemática . 1 . págs. 197–206. Señor 0084922 .
Samworth, RJ (2012), "La paradoja de Stein" (PDF) , Eureka , 62 : 38–41

[1] Efron y Morris 1977

[2] Marrón, LD (1971). "Estimadores admisibles, difusiones recurrentes y problemas de valores de frontera insolubles" . Los Anales de Estadística Matemática . 42 (3): 855–903. doi : 10.1214 / aoms / 1177693318 . ISSN 0003-4851 .

[1]