Teorema de Rao-Blackwell

En estadística , el teorema de Rao-Blackwell , a veces denominado teorema de Rao-Blackwell-Kolmogorov , es un resultado que caracteriza la transformación de un estimador arbitrariamente crudo en un estimador que es óptimo según el criterio del error cuadrático medio o cualquiera de una variedad de criterios similares.

El teorema de Rao-Blackwell establece que si g ( X ) es cualquier tipo de estimador de un parámetro θ, entonces la expectativa condicional de g ( X ) dada T ( X ), donde T es un estadístico suficiente , es típicamente un mejor estimador de θ, y nunca es peor. A veces, uno puede construir muy fácilmente un estimador g ( X ) muy crudo y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.

El teorema lleva el nombre de Calyampudi Radhakrishna Rao y David Blackwell . El proceso de transformación de un estimador mediante el teorema de Rao-Blackwell a veces se denomina Rao-Blackwellization . El estimador transformado se denomina estimador Rao-Blackwell . ^[1]^[2]^[3]

Definiciones

Un estimador δ ( X ) es una variable aleatoria observable (es decir, una estadística ) que se utiliza para estimar alguna cantidad no observable . Por ejemplo, uno puede ser incapaz de observar la altura promedio de todos los estudiantes varones en la Universidad de X, pero uno puede observar la altura de una muestra aleatoria de 40 de ellos. La altura promedio de esos 40 —el "promedio de la muestra" - puede usarse como un estimador del "promedio poblacional" no observable.
Un estadístico suficiente T ( X ) es un estadístico calculado a partir de los datos X para estimar algún parámetro θ para el cual ningún otro estadístico que pueda calcularse a partir de los datos X proporciona información adicional sobre θ. Se define como un observable variable aleatoria tal que la probabilidad condicional de distribución de todos los datos observable X dado T ( X ) no depende de la inobservable θ parámetro, como la desviación media o estándar de toda la población de la que los datos X era tomado. En los ejemplos citados con más frecuencia, las cantidades "no observables" son parámetros que parametrizan una familia conocida de distribuciones de probabilidad según las cuales se distribuyen los datos.

En otras palabras, un estadístico T (X) suficiente para un parámetro θ es un estadístico tal que la distribución condicional de los datos X , dado T ( X ), no depende del parámetro θ.

Un estimador Rao-Blackwell δ ₁ ( X ) de una cantidad no observable θ es el valor esperado condicional E (δ ( X ) | T ( X )) de algún estimador δ ( X ) dado un estadístico suficiente T ( X ). Llame a δ ( X ) el "estimador original" y δ ₁ ( X ) el "estimador mejorado" . Es importante que el estimador mejorado sea observable , es decir, que no dependa de θ. En general, el valor esperado condicional de una función de estos datos dados otra función de estos datos no depende de θ, pero la definición misma de la suficiencia dado anteriormente implica que éste no lo hace.
El error cuadrático medio de un estimador es el valor esperado del cuadrado de su desviación de la cantidad no observable que se estima.

El teorema

Versión de error cuadrático medio

Un caso del teorema de Rao-Blackwell establece:

El error cuadrático medio del estimador Rao-Blackwell no excede al del estimador original.

En otras palabras,

{\ Displaystyle \ operatorname {E} ((\ delta _ {1} (X) - \ theta) ^ {2}) \ leq \ operatorname {E} ((\ delta (X) - \ theta) ^ {2} ).}

Las herramientas esenciales de la demostración además de la definición anterior son la ley de la expectativa total y el hecho de que para cualquier variable aleatoria Y , E ( Y ² ) no puede ser menor que [E ( Y )] ² . Esa desigualdad es un caso de la desigualdad de Jensen , aunque también se puede demostrar que se sigue instantáneamente del hecho mencionado con frecuencia de que

{\ displaystyle 0 \ leq \ operatorname {Var} (Y) = \ operatorname {E} ((Y- \ operatorname {E} (Y)) ^ {2}) = \ operatorname {E} (Y ^ {2} ) - (\ operatorname {E} (Y)) ^ {2}.}

Más precisamente, el error cuadrático medio del estimador Rao-Blackwell tiene la siguiente descomposición ^[4]

{\ Displaystyle \ operatorname {E} [(\ delta _ {1} (X) - \ theta) ^ {2}] = \ operatorname {E} [(\ delta (X) - \ theta) ^ {2}] - \ operatorname {E} [\ operatorname {Var} (\ delta (X) \ mid T (X))]}

Desde ${\ Displaystyle \ operatorname {E} [\ operatorname {Var} (\ delta (X) \ mid T (X))] \ geq 0}$ , sigue inmediatamente el teorema de Rao-Blackwell.

Generalización de pérdidas convexas

La versión más general del teorema de Rao-Blackwell habla de la "pérdida esperada" o función de riesgo :

{\ Displaystyle \ operatorname {E} (L (\ delta _ {1} (X))) \ leq \ operatorname {E} (L (\ delta (X)))}

donde la "función de pérdida" L puede ser cualquier función convexa . Si la función de pérdida es dos veces diferenciable, como en el caso del error cuadrático medio, entonces tenemos la desigualdad más aguda ^[4]

{\ Displaystyle \ operatorname {E} (L (\ delta (X))) - \ operatorname {E} (L (\ delta _ {1} (X))) \ geq {\ frac {1} {2}} \ operatorname {E} _ {T} \ left [\ inf _ {x} L '' (x) \ operatorname {Var} (\ delta (X) \ mid T) \ right].}

Propiedades

El estimador mejorado es insesgado si y solo si el estimador original es insesgado, como se puede ver de una vez usando la ley de la expectativa total . El teorema es válido independientemente de que se utilicen estimadores sesgados o insesgados.

El teorema parece muy débil: solo dice que el estimador Rao-Blackwell no es peor que el estimador original. En la práctica, sin embargo, la mejora es a menudo enorme ^{[ cita requerida ]} .

Ejemplo

Las llamadas telefónicas llegan a una centralita de acuerdo con un proceso de Poisson a una tasa promedio de λ por minuto. Esta tasa no es observable, pero se observan los números X ₁ , ..., X _n de llamadas telefónicas que llegaron durante n períodos sucesivos de un minuto. Se desea estimar la probabilidad e ^{−λ de} que el siguiente período de un minuto pase sin llamadas telefónicas.

Un estimador extremadamente crudo de la probabilidad deseada es

{\ Displaystyle \ delta _ {0} = \ left \ {{\ begin {matrix} 1 & {\ text {if}} \ X_ {1} = 0, \\ 0 & {\ text {de lo contrario,}} \ end { matriz}} \ derecha.}

es decir, estima que esta probabilidad es 1 si no llega ninguna llamada telefónica en el primer minuto y cero en caso contrario. A pesar de las aparentes limitaciones de este estimador, el resultado dado por su Rao-Blackwellization es un estimador muy bueno.

La suma

{\ Displaystyle S_ {n} = \ sum _ {i = 1} ^ {n} X_ {i} = X_ {1} + \ cdots + X_ {n}}

puede demostrarse fácilmente que es un estadístico suficiente para λ, es decir, la distribución condicional de los datos X ₁ , ..., X _n , depende de λ sólo a través de esta suma. Por tanto, encontramos el estimador Rao-Blackwell

{\ Displaystyle \ delta _ {1} = \ operatorname {E} (\ delta _ {0} \ mid S_ {n} = s_ {n}).}

Después de hacer algo de álgebra tenemos

{\ Displaystyle {\ begin {alineado} \ delta _ {1} & = \ operatorname {E} \ left (\ mathbf {1} _ {\ {X_ {1} = 0 \}} {\ Bigg |} \ sum _ {i = 1} ^ {n} X_ {i} = s_ {n} \ right) \\ & = P \ left (X_ {1} = 0 {\ Bigg |} \ sum _ {i = 1} ^ {n} X_ {i} = s_ {n} \ right) \\ & = P \ left (X_ {1} = 0, \ sum _ {i = 2} ^ {n} X_ {i} = s_ {n } \ right) \ times P \ left (\ sum _ {i = 1} ^ {n} X_ {i} = s_ {n} \ right) ^ {- 1} \\ & = e ^ {- \ lambda} {\ frac {\ left ((n-1) \ lambda \ right) ^ {s_ {n}} e ^ {- (n-1) \ lambda}} {s_ {n}!}} \ times \ left ( {\ frac {(n \ lambda) ^ {s_ {n}} e ^ {- n \ lambda}} {s_ {n}!}} \ right) ^ {- 1} \\ & = {\ frac {\ left ((n-1) \ lambda \ right) ^ {s_ {n}} e ^ {- n \ lambda}} {s_ {n}!}} \ times {\ frac {s_ {n}!} {( n \ lambda) ^ {s_ {n}} e ^ {- n \ lambda}}} \\ & = \ left (1 - {\ frac {1} {n}} \ right) ^ {s_ {n}} \ end {alineado}}}

Dado que el número promedio de llamadas que llegan durante los primeros n minutos es n λ, uno no puede sorprenderse si este estimador tiene una probabilidad bastante alta (si n es grande) de estar cerca de

{\ Displaystyle \ left (1- {1 \ over n} \ right) ^ {n \ lambda} \ approx e ^ {- \ lambda}.}

Entonces, δ ₁ es claramente un estimador mucho mejor de esa última cantidad. De hecho, dado que S _n es completo y δ ₀ es insesgado, δ ₁ es el estimador insesgado de varianza mínima única según el teorema de Lehmann-Scheffé .

Idempotencia

Rao-Blackwellization es una operación idempotente . Usarlo para mejorar el estimador ya mejorado no obtiene una mejora adicional, sino que simplemente devuelve como resultado el mismo estimador mejorado.

Completitud y varianza mínima de Lehmann-Scheffé

Si el estadístico de condicionamiento es completo y suficiente , y el estimador inicial es insesgado, entonces el estimador Rao-Blackwell es el único " mejor estimador insesgado ": consulte el teorema de Lehmann-Scheffé .

Un ejemplo de una mejora mejorable de Rao-Blackwell, cuando se usa una estadística mínima suficiente que no está completa , fue proporcionado por Galili y Meilijson en 2016. ^[5] Let ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ ser una muestra aleatoria de una distribución de escala uniforme ${\ Displaystyle X \ sim U \ left ((1-k) \ theta, (1 + k) \ theta \ right),}$ con media desconocida ${\ Displaystyle E [X] = \ theta}$ y parámetro de diseño conocido ${\ Displaystyle k \ in (0,1)}$ . En la búsqueda de los "mejores" estimadores insesgados posibles para ${\ Displaystyle \ theta,}$ es natural considerar ${\ Displaystyle X_ {1}}$ como un estimador insesgado inicial (crudo) para ${\ Displaystyle \ theta}$ y luego intenta mejorarlo. Desde ${\ Displaystyle X_ {1}}$ no es una función de ${\ Displaystyle T = \ left (X _ {(1)}, X _ {(n)} \ right)}$ , la estadística mínima suficiente para ${\ Displaystyle \ theta}$ (dónde ${\ Displaystyle X _ {(1)} = \ min (X_ {i})}$ y ${\ Displaystyle X _ {(n)} = \ max (X_ {i})}$ ), se puede mejorar utilizando el teorema de Rao-Blackwell de la siguiente manera:

{\ Displaystyle {\ hat {\ theta}} _ {RB} = E _ {\ theta} \ left [X_ {1} | X _ {(1)}, X _ {(n)} \ right] = {\ frac { X _ {(1)} + X _ {(n)}} {2}}.}

Sin embargo, se puede demostrar que el siguiente estimador insesgado tiene una varianza más baja:

{\ Displaystyle {\ hat {\ theta}} _ {LV} = {\ frac {1} {2 \ left (k ^ {2} {\ frac {n-1} {n + 1}} + 1 \ right )}} \ left [(1-k) {{X} _ {(1)}} + (1 + k) {{X} _ {(n)}} \ right].}

Y, de hecho, podría mejorarse aún más si se utiliza el siguiente estimador:

{\ Displaystyle {\ hat {\ theta}} _ {BAYES} = {\ frac {n + 1} {n}} \ left [1 - {\ frac {{\ frac {\ left ({\ frac {{X } _ {(1)}} {1-k}} \ right)} {\ left ({\ frac {{X} _ {(n)}} {1 + k}} \ right)}} - 1} {{{\ left [{\ frac {\ left ({\ frac {{X} _ {(1)}} {1-k}} \ right)} {\ left ({\ frac {{X} _ { (n)}} {1 + k}} \ derecha)}} \ derecha]} ^ {n + 1}} - 1}} \ derecha] {\ frac {X _ {(n)}} {1 + k} }}

Ver también

Teorema de Basu : otro resultado sobre estadísticas auxiliares y suficientes completas
CR Rao
David Blackwell

Referencias

^ Blackwell, D. (1947). "Expectativa condicional y estimación secuencial insesgada" . Anales de estadística matemática . 18 (1): 105-110. doi : 10.1214 / aoms / 1177730497 . Señor 0019903 . Zbl 0033.07603 .
^ Kolmogorov, AN (1950). "Estimaciones imparciales". Izvestiya Akad. Nauk SSSR. Ser. Mat . 14 : 303–326. Señor 0036479 .
^ Rao, C. Radhakrishna (1945). "Información y precisión alcanzables en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 (3): 81–91.
^ a b JG Liao & A. Berg (22 de junio de 2018). "Agudizando la desigualdad de Jensen". El estadístico estadounidense : 1–4. arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Tal Galili & Isaac Meilijson (31 de marzo de 2016). "Un ejemplo de una mejora mejorable de Rao-Blackwell, estimador de máxima verosimilitud ineficiente y estimador de Bayes generalizado imparcial" . El estadístico estadounidense . 70 (1): 108-113. doi : 10.1080 / 00031305.2015.1100683 . PMC 4960505 . PMID 27499547 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

enlaces externos

Nikulin, MS (2001) [1994], "Teorema de Rao-Blackwell-Kolmogorov" , Enciclopedia de Matemáticas , EMS Press

[LS1-1] Blackwell, D. (1947). "Expectativa condicional y estimación secuencial insesgada" . Anales de estadística matemática . 18 (1): 105-110. doi : 10.1214 / aoms / 1177730497 . Señor 0019903 . Zbl 0033.07603 .

[LS2-2] Kolmogorov, AN (1950). "Estimaciones imparciales". Izvestiya Akad. Nauk SSSR. Ser. Mat . 14 : 303–326. Señor 0036479 .

[LS3-3] Rao, C. Radhakrishna (1945). "Información y precisión alcanzables en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 (3): 81–91.

[LiaoBerg2018-4] JG Liao & A. Berg (22 de junio de 2018). "Agudizando la desigualdad de Jensen". El estadístico estadounidense : 1–4. arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[5] Tal Galili & Isaac Meilijson (31 de marzo de 2016). "Un ejemplo de una mejora mejorable de Rao-Blackwell, estimador de máxima verosimilitud ineficiente y estimador de Bayes generalizado imparcial" . El estadístico estadounidense . 70 (1): 108-113. doi : 10.1080 / 00031305.2015.1100683 . PMC 4960505 . PMID 27499547 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[1]