El ejemplo de Stein es un resultado importante en la teoría de la decisión que puede enunciarse como
- La regla de decisión ordinaria para estimar la media de una distribución gaussiana multivariante es inadmisible bajo el riesgo de error cuadrático medio en la dimensión al menos 3 .
El siguiente es un resumen de su prueba . [1] Se remite al lector al artículo principal para obtener más información.
La función de riesgo de la regla de decisión
es
![{\displaystyle R(\theta ,d)=\operatorname {E} _{\theta }[|\mathbf {\theta -X} |^{2}]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![=\int ({\mathbf {\theta -x}})^{T}({\mathbf {\theta -x}})\left({\frac {1}{2\pi }}\right)^{{n/2}}e^{{(-1/2)({\mathbf {\theta -x}})^{T}({\mathbf {\theta -x}})}}m(dx)](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =n.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ahora considere la regla de decisión
![d'({\mathbf {x}})={\mathbf {x}}-{\frac {\alpha }{|{\mathbf {x}}|^{2}}}{\mathbf {x}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
. Te mostraremos que
es una mejor regla de decisión que
. La función de riesgo es
![{\displaystyle R(\theta ,d')=\operatorname {E} _{\theta }\left[\left|\mathbf {\theta -X} +{\frac {\alpha }{|\mathbf {X} |^{2}}}\mathbf {X} \right|^{2}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =\operatorname {E} _{\theta }\left[|\mathbf {\theta -X} |^{2}+2(\mathbf {\theta -X} )^{T}{\frac {\alpha }{|\mathbf {X} |^{2}}}\mathbf {X} +{\frac {\alpha ^{2}}{|\mathbf {X} |^{4}}}|\mathbf {X} |^{2}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =\operatorname {E} _{\theta }\left[|\mathbf {\theta -X} |^{2}\right]+2\alpha \operatorname {E} _{\theta }\left[{\frac {\mathbf {(\theta -X)^{T}X} }{|\mathbf {X} |^{2}}}\right]+\alpha ^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- una cuadrática en
. Podemos simplificar el término medio considerando una función general de "buen comportamiento"
y el uso de la integración por partes . Para
, para cualquier diferenciable continua
creciendo lo suficientemente lento para grandes
tenemos:
![{\displaystyle \operatorname {E} _{\theta }[(\theta _{i}-X_{i})h(\mathbf {X} )|X_{j}=x_{j}(j\neq i)]=\int (\theta _{i}-x_{i})h(\mathbf {x} )\left({\frac {1}{2\pi }}\right)^{n/2}e^{-(1/2)\mathbf {(x-\theta )} ^{T}\mathbf {(x-\theta )} }m(dx_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![=\left[h({\mathbf {x}})\left({\frac {1}{2\pi }}\right)^{{n/2}}e^{{-(1/2){\mathbf {(x-\theta )}}^{T}{\mathbf {(x-\theta )}}}}\right]_{{x_{i}=-\infty }}^{\infty }-\int {\frac {\partial h}{\partial x_{i}}}({\mathbf {x}})\left({\frac {1}{2\pi }}\right)^{{n/2}}e^{{-(1/2){\mathbf {(x-\theta )}}^{T}{\mathbf {(x-\theta )}}}}m(dx_{i})](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =-\operatorname {E} _{\theta }\left[{\frac {\partial h}{\partial x_{i}}}(\mathbf {X} )|X_{j}=x_{j}(j\neq i)\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por lo tanto,
![{\displaystyle \operatorname {E} _{\theta }[(\theta _{i}-X_{i})h(\mathbf {X} )]=-\operatorname {E} _{\theta }\left[{\frac {\partial h}{\partial x_{i}}}(\mathbf {X} )\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
(Este resultado se conoce como lema de Stein ).
Ahora, elegimos
![h({\mathbf {x}})={\frac {x_{i}}{|{\mathbf {x}}|^{2}}}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Si
cumplió la condición de "buen comportamiento" (no es así, pero esto se puede remediar, ver más abajo), habríamos
![{\frac {\partial h}{\partial x_{i}}}={\frac {1}{|{\mathbf {x}}|^{2}}}-{\frac {2x_{i}^{2}}{|{\mathbf {x}}|^{4}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y entonces
![{\displaystyle \operatorname {E} _{\theta }\left[{\frac {\mathbf {(\theta -X)^{T}X} }{|\mathbf {X} |^{2}}}\right]=\sum _{i=1}^{n}\operatorname {E} _{\theta }\left[(\theta _{i}-X_{i}){\frac {X_{i}}{|\mathbf {X} |^{2}}}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =-\sum _{i=1}^{n}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}-{\frac {2X_{i}^{2}}{|\mathbf {X} |^{4}}}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle =-(n-2)\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Luego, volviendo a la función de riesgo de
:
![{\displaystyle R(\theta ,d')=n-2\alpha (n-2)\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]+\alpha ^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Esta cuadrática en
se minimiza en
![{\displaystyle \alpha =n-2,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donación
![{\displaystyle R(\theta ,d')=R(\theta ,d)-(n-2)^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que por supuesto satisface
![R(\theta ,d')<R(\theta ,d).](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
haciendo
una regla de decisión inadmisible.
Queda por justificar el uso de
![h({\mathbf {X}})={\frac {{\mathbf {X}}}{|{\mathbf {X}}|^{2}}}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Esta función no es continuamente diferenciable, ya que es singular en
. Sin embargo, la función
![{\displaystyle h(\mathbf {X} )={\frac {\mathbf {X} }{\varepsilon +|\mathbf {X} |^{2}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es continuamente diferenciable, y después de seguir el álgebra y dejar que
, se obtiene el mismo resultado.