Regla de decisión admisible

En la teoría de la decisión estadística , una regla de decisión admisible es una regla para tomar una decisión tal que no hay otra regla que sea siempre "mejor" que ella ^[1] (o al menos a veces mejor y nunca peor), en el sentido preciso de "mejor" definido a continuación. Este concepto es análogo a la eficiencia de Pareto .

Definición

Definir conjuntos ${\ Displaystyle \ Theta \,}$ , ${\ Displaystyle {\ mathcal {X}}}$ y ${\ Displaystyle {\ mathcal {A}}}$ , dónde ${\ Displaystyle \ Theta \,}$ son los estados de la naturaleza, ${\ Displaystyle {\ mathcal {X}}}$ las posibles observaciones, y ${\ Displaystyle {\ mathcal {A}}}$ las acciones que se pueden tomar. Una observación ${\ Displaystyle x \ in {\ mathcal {X}} \, \!}$ se distribuye como ${\ Displaystyle F (x \ mid \ theta) \, \!}$ y por lo tanto proporciona evidencia sobre el estado de naturaleza ${\ Displaystyle \ theta \ en \ Theta \, \!}$ . Una regla de decisión es una función ${\ Displaystyle \ delta: {\ mathcal {X}} \ rightarrow {\ mathcal {A}}}$ , donde al observar ${\ Displaystyle x \ in {\ mathcal {X}}}$ , elegimos tomar medidas ${\ Displaystyle \ delta (x) \ in {\ mathcal {A}} \, \!}$ .

También defina una función de pérdida ${\ Displaystyle L: \ Theta \ times {\ mathcal {A}} \ rightarrow \ mathbb {R}}$ , que especifica la pérdida en la que incurriríamos al tomar medidas ${\ Displaystyle a \ in {\ mathcal {A}}}$ cuando el verdadero estado de la naturaleza es ${\ Displaystyle \ theta \ in \ Theta}$ . Por lo general, tomaremos esta acción después de observar los datos. ${\ Displaystyle x \ in {\ mathcal {X}}}$ , para que la perdida sea ${\ Displaystyle L (\ theta, \ delta (x)) \, \!}$ . (Es posible, aunque poco convencional, reformular las siguientes definiciones en términos de una función de utilidad , que es el negativo de la pérdida).

Definir la función de riesgo como la expectativa

{\ Displaystyle R (\ theta, \ delta) = \ operatorname {E} _ {F (x \ mid \ theta)} [{L (\ theta, \ delta (x))]}. \, \!}

Si una regla de decisión ${\ Displaystyle \ delta \, \!}$ tiene bajo riesgo depende del verdadero estado de la naturaleza ${\ Displaystyle \ theta \, \!}$ . Una regla de decisión ${\ Displaystyle \ delta ^ {*} \, \!}$ domina una regla de decisión ${\ Displaystyle \ delta \, \!}$ si y solo si ${\ Displaystyle R (\ theta, \ delta ^ {*}) \ leq R (\ theta, \ delta)}$ para todos ${\ Displaystyle \ theta \, \!}$ , y la desigualdad es estricta para algunos ${\ Displaystyle \ theta \, \!}$ .

Una regla de decisión es admisible (con respecto a la función de pérdida) si y solo si ninguna otra regla la domina; de lo contrario es inadmisible . Por tanto, una regla de decisión admisible es un elemento máximo con respecto al orden parcial anterior. No se prefiere una regla inadmisible (excepto por razones de simplicidad o eficiencia computacional), ya que por definición existe alguna otra regla que logrará un riesgo igual o menor para todos. ${\ Displaystyle \ theta \, \!}$ . Pero solo porque una regla ${\ Displaystyle \ delta \, \!}$ es admisible no significa que sea una buena regla de uso. Ser admisible significa que no hay otra regla única que sea siempre tan buena o mejor, pero otras reglas admisibles pueden reducir el riesgo para la mayoría de las personas. ${\ Displaystyle \ theta \, \!}$ que ocurren en la práctica. (El riesgo de Bayes que se analiza a continuación es una forma de considerar explícitamente qué ${\ Displaystyle \ theta \, \!}$ ocurren en la práctica.)

Reglas de Bayes y reglas de Bayes generalizadas

Reglas de Bayes

Dejar ${\ Displaystyle \ pi (\ theta) \, \!}$ ser una distribución de probabilidad sobre los estados de la naturaleza. Desde un punto de vista bayesiano , lo consideraríamos como una distribución previa . Es decir, es nuestra distribución de probabilidad creída sobre los estados de la naturaleza, antes de observar los datos. Para un frecuentista , es simplemente una función en ${\ Displaystyle \ Theta \, \!}$ sin una interpretación tan especial. El riesgo de Bayes de la regla de decisión ${\ Displaystyle \ delta \, \!}$ con respecto a ${\ Displaystyle \ pi (\ theta) \, \!}$ es la expectativa

{\ Displaystyle r (\ pi, \ delta) = \ operatorname {E} _ {\ pi (\ theta)} [R (\ theta, \ delta)]. \, \!}

Una regla de decisión ${\ Displaystyle \ delta \, \!}$ que minimiza ${\ Displaystyle r (\ pi, \ delta) \, \!}$ se llama regla de Bayes con respecto a ${\ Displaystyle \ pi (\ theta) \, \!}$ . Puede haber más de una regla de Bayes de este tipo. Si el riesgo de Bayes es infinito para todos ${\ Displaystyle \ delta \, \!}$ , entonces no se define ninguna regla de Bayes.

Reglas de Bayes generalizadas

En el enfoque bayesiano de la teoría de la decisión, el observado ${\ Displaystyle x \, \!}$ se considera fijo . Considerando que el enfoque frecuentista (es decir, el riesgo) promedia sobre posibles muestras ${\ Displaystyle x \ in {\ mathcal {X}} \, \!}$ , el bayesiano fijaría la muestra observada ${\ Displaystyle x \, \!}$ y promedio sobre hipótesis ${\ Displaystyle \ theta \ en \ Theta \, \!}$ . Por lo tanto, el enfoque bayesiano debe tener en cuenta para nuestras observaciones ${\ Displaystyle x \, \!}$ la pérdida esperada

{\ Displaystyle \ rho (\ pi, \ delta \ mid x) = \ operatorname {E} _ {\ pi (\ theta \ mid x)} [L (\ theta, \ delta (x))]. \, \ !}

donde la expectativa está por encima de la parte posterior de ${\ Displaystyle \ theta \, \!}$ dado ${\ Displaystyle x \, \!}$ (obtenido de ${\ Displaystyle \ pi (\ theta) \, \!}$ y ${\ Displaystyle F (x \ mid \ theta) \, \!}$ utilizando el teorema de Bayes ).

Habiendo explicitado la pérdida esperada para cada dado ${\ Displaystyle x \, \!}$ por separado, podemos definir una regla de decisión ${\ Displaystyle \ delta \, \!}$ especificando para cada ${\ Displaystyle x \, \!}$ una acción ${\ Displaystyle \ delta (x) \, \!}$ que minimiza la pérdida esperada. Esto se conoce como una regla de Bayes generalizada con respecto a ${\ Displaystyle \ pi (\ theta) \, \!}$ . Puede haber más de una regla de Bayes generalizada, ya que puede haber múltiples opciones de ${\ Displaystyle \ delta (x) \, \!}$ que logran la misma pérdida esperada.

Al principio, esto puede parecer bastante diferente del enfoque de la regla de Bayes de la sección anterior, no una generalización. Sin embargo, observe que el riesgo de Bayes ya promedia más de ${\ Displaystyle \ Theta \, \!}$ en forma bayesiana, y el riesgo de Bayes puede recuperarse a medida que la expectativa sobre ${\ Displaystyle {\ mathcal {X}}}$ de la pérdida esperada (donde ${\ Displaystyle x \ sim \ theta \, \!}$ y ${\ Displaystyle \ theta \ sim \ pi \, \!}$ ). Mas o menos, ${\ Displaystyle \ delta \, \!}$ minimiza esta expectativa de pérdida esperada (es decir, es una regla de Bayes) si y solo si minimiza la pérdida esperada para cada ${\ Displaystyle x \ in {\ mathcal {X}}}$ por separado (es decir, es una regla de Bayes generalizada).

Entonces, ¿por qué es una mejora la noción de regla de Bayes generalizada? De hecho, es equivalente a la noción de regla de Bayes cuando existe una regla de Bayes y todos ${\ Displaystyle x \, \!}$ tiene probabilidad positiva. Sin embargo, no existe ninguna regla de Bayes si el riesgo de Bayes es infinito (para todos ${\ Displaystyle \ delta \, \!}$ ). En este caso, sigue siendo útil definir una regla de Bayes generalizada. ${\ Displaystyle \ delta \, \!}$ , que al menos elige una acción de pérdida mínima esperada ${\ Displaystyle \ delta (x) \! \,}$ para esos ${\ Displaystyle x \, \!}$ para lo cual existe una acción de pérdida esperada finita. Además, una regla de Bayes generalizada puede ser deseable porque debe elegir una acción de pérdida mínima esperada ${\ Displaystyle \ delta (x) \, \!}$ por cada ${\ Displaystyle x \, \!}$ , mientras que una regla de Bayes podría desviarse de esta política en un conjunto ${\ Displaystyle X \ subseteq {\ mathcal {X}}}$ de la medida 0 sin afectar el riesgo de Bayes.

Más importante aún, a veces es conveniente utilizar un antecedente inadecuado. ${\ Displaystyle \ pi (\ theta) \, \!}$ . En este caso, el riesgo de Bayes ni siquiera está bien definido, ni hay una distribución bien definida sobre ${\ Displaystyle x \, \!}$ . Sin embargo, la parte posterior ${\ Displaystyle \ pi (\ theta \ mid x) \, \!}$ —Y por lo tanto la pérdida esperada— puede estar bien definida para cada ${\ Displaystyle x \, \!}$ , por lo que todavía es posible definir una regla de Bayes generalizada.

Admisibilidad de las reglas de Bayes (generalizadas)

De acuerdo con los teoremas de clase completos, en condiciones moderadas, toda regla admisible es una regla de Bayes (generalizada) (con respecto a algunas ${\ Displaystyle \ pi (\ theta) \, \!}$ —Posiblemente impropio — que favorece las distribuciones ${\ Displaystyle \ theta \, \!}$ donde esa regla logra bajo riesgo). Por lo tanto, en la teoría de la decisión frecuentista es suficiente considerar solo las reglas de Bayes (generalizadas).

Por el contrario, mientras que las reglas de Bayes con respecto a los anteriores adecuados son prácticamente siempre admisibles, las reglas de Bayes generalizadas correspondientes a los anteriores incorrectos no tienen por qué producir procedimientos admisibles. El ejemplo de Stein es una de esas situaciones famosas.

Ejemplos de

El estimador de James-Stein es un estimador no lineal de la media de los vectores aleatorios gaussianos que se puede demostrar que dominan, o superan, la técnica de mínimos cuadrados ordinarios con respecto a una función de pérdida de error cuadrático medio. ^[2] Por tanto, la estimación por mínimos cuadrados no es un procedimiento de estimación admisible en este contexto. Algunas otras de las estimaciones estándar asociadas con la distribución normal también son inadmisibles: por ejemplo, la estimación muestral de la varianza cuando se desconocen la media y la varianza de la población. ^[3]

Notas

^ Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9 (entrada para la función de decisión admisible)
^ Cox y Hinkley 1974 , sección 11.8
^ Cox y Hinkley 1974 , ejercicio 11.7

Referencias

Cox, RD; Hinkley, DV (1974). Estadística teórica . Wiley. ISBN 0-412-12420-3.
Berger, James O. (1980). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Springer-Verlag. ISBN 0-387-96098-8.
DeGroot, Morris (2004) [1er. pub. 1970]. Decisiones estadísticas óptimas . Biblioteca de clásicos de Wiley. ISBN 0-471-68029-X.
Robert, Christian P. (1994). La elección bayesiana . Springer-Verlag. ISBN 3-540-94296-3.

[1] Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9 (entrada para la función de decisión admisible)

[2] Cox y Hinkley 1974 , sección 11.8

[3] Cox y Hinkley 1974 , ejercicio 11.7

[1]