Con destino a Cramér – Rao

En teoría y estadística de estimación , el límite de Cramér-Rao ( CRB ) expresa un límite inferior en la varianza de los estimadores insesgados de un parámetro determinista (fijo, aunque desconocido), indicando que la varianza de dicho estimador es al menos tan alta como el inversa de la información de Fisher . El resultado lleva el nombre de Harald Cramér y CR Rao , ^[1]^[2]^[3] pero también ha sido derivado independientemente por Maurice Fréchet , ^[4] Georges Darmois , ^[5] así comoAlexander Aitken y Harold Silverstone . ^[6]^[7]

Se dice que un estimador insesgado que alcanza este límite inferior es (completamente) eficiente . Esta solución logra el error cuadrático medio más bajo posible entre todos los métodos insesgados y, por lo tanto, es el estimador de varianza mínima insesgado (MVU). Sin embargo, en algunos casos, no existe una técnica imparcial que logre el límite. Esto puede ocurrir si para cualquier estimador insesgado, existe otro con una varianza estrictamente menor, o si existe un estimador MVU, pero su varianza es estrictamente mayor que la inversa de la información de Fisher.

La cota de Cramér-Rao también se puede utilizar para acotar la varianza de los estimadores sesgados de un sesgo dado. En algunos casos, un enfoque sesgado puede resultar en una varianza y un error cuadrático medio que están por debajo del límite inferior insesgado de Cramér-Rao; ver sesgo del estimador .

Declaración

El límite de Cramér-Rao se establece en esta sección para varios casos cada vez más generales, comenzando con el caso en el que el parámetro es un escalar y su estimador es insesgado . Todas las versiones del límite requieren ciertas condiciones de regularidad, que son válidas para la mayoría de las distribuciones con buen comportamiento. Estas condiciones se enumeran más adelante en esta sección .

Caso escalar imparcial

Suponer ${\ Displaystyle \ theta}$ es un parámetro determinista desconocido que debe estimarse a partir de ${\ Displaystyle n}$ observaciones independientes (mediciones) de ${\ Displaystyle x}$ , cada uno de una distribución de acuerdo con alguna función de densidad de probabilidad ${\ Displaystyle f (x; \ theta)}$ . La varianza de cualquier imparcial estimador ${\ Displaystyle {\ hat {\ theta}}}$ de ${\ Displaystyle \ theta}$ luego está acotado por el recíproco de la información de Fisher ${\ Displaystyle I (\ theta)}$ :

{\ Displaystyle \ operatorname {var} ({\ hat {\ theta}}) \ geq {\ frac {1} {I (\ theta)}}}

donde la información de Fisher ${\ Displaystyle I (\ theta)}$ es definido por

{\ Displaystyle I (\ theta) = n \ operatorname {E} _ {\ theta} \ izquierda [\ izquierda ({\ frac {\ parcial \ ell (X; \ theta)} {\ parcial \ theta}} \ derecha ) ^ {2} \ right]}

y ${\ Displaystyle \ ell (x; \ theta) = \ log (f (x; \ theta))}$ es el logaritmo natural de la función de verosimilitud para una sola muestra ${\ Displaystyle x}$ y ${\ Displaystyle \ operatorname {E} _ {\ theta}}$ denota el valor esperado con respecto a la densidad ${\ Displaystyle f (x; \ theta)}$ de ${\ Displaystyle X}$ . Si ${\ Displaystyle \ ell (x; \ theta)}$ es dos veces diferenciable y se cumplen determinadas condiciones de regularidad, la información de Fisher también se puede definir de la siguiente manera: ^[8]

{\ Displaystyle I (\ theta) = - n \ operatorname {E} _ {\ theta} \ left [{\ frac {\ parcial ^ {2} \ ell (X; \ theta)} {\ parcial \ theta ^ { 2}}} \ derecha]}

La eficiencia de un estimador insesgado ${\ Displaystyle {\ hat {\ theta}}}$ mide qué tan cerca llega la varianza de este estimador a este límite inferior; La eficiencia del estimador se define como

{\ Displaystyle e ({\ hat {\ theta}}) = {\ frac {I (\ theta) ^ {- 1}} {\ operatorname {var} ({\ hat {\ theta}})}}}

o la varianza mínima posible para un estimador insesgado dividida por su varianza real. El límite inferior de Cramér-Rao da

{\ Displaystyle e ({\ hat {\ theta}}) \ leq 1}

.

Caso escalar general

Se puede obtener una forma más general del límite considerando un estimador sesgado ${\ Displaystyle T (X)}$ , cuya expectativa no es ${\ Displaystyle \ theta}$ pero una función de este parámetro, digamos, ${\ Displaystyle \ psi (\ theta)}$ . Por eso ${\ Displaystyle E \ {T (X) \} - \ theta = \ psi (\ theta) - \ theta}$ no es generalmente igual a 0. En este caso, el límite está dado por

{\ Displaystyle \ operatorname {var} (T) \ geq {\ frac {[\ psi '(\ theta)] ^ {2}} {I (\ theta)}}}

dónde ${\ Displaystyle \ psi '(\ theta)}$ es la derivada de ${\ Displaystyle \ psi (\ theta)}$ (por ${\ Displaystyle \ theta}$ ), y ${\ Displaystyle I (\ theta)}$ es la información de Fisher definida anteriormente.

Vinculado a la varianza de estimadores sesgados

Además de ser un límite en los estimadores de funciones del parámetro, este enfoque se puede utilizar para derivar un límite en la varianza de los estimadores sesgados con un sesgo dado, como sigue. Considere un estimador ${\ Displaystyle {\ hat {\ theta}}}$ con sesgo ${\ Displaystyle b (\ theta) = E \ {{\ hat {\ theta}} \} - \ theta}$ , y deja ${\ Displaystyle \ psi (\ theta) = b (\ theta) + \ theta}$ . Según el resultado anterior, cualquier estimador insesgado cuya expectativa sea ${\ Displaystyle \ psi (\ theta)}$ tiene una varianza mayor o igual a ${\ Displaystyle (\ psi '(\ theta)) ^ {2} / I (\ theta)}$ . Por tanto, cualquier estimador ${\ Displaystyle {\ hat {\ theta}}}$ cuyo sesgo está dado por una función ${\ Displaystyle b (\ theta)}$ satisface

{\ Displaystyle \ operatorname {var} \ left ({\ hat {\ theta}} \ right) \ geq {\ frac {[1 + b '(\ theta)] ^ {2}} {I (\ theta)} }.}

La versión no sesgada del límite es un caso especial de este resultado, con ${\ Displaystyle b (\ theta) = 0}$ .

Es trivial tener una pequeña varianza: un "estimador" que es constante tiene una varianza de cero. Pero de la ecuación anterior encontramos que el error cuadrático medio de un estimador sesgado está acotado por

{\ Displaystyle \ operatorname {E} \ left (({\ hat {\ theta}} - \ theta) ^ {2} \ right) \ geq {\ frac {[1 + b '(\ theta)] ^ {2 }} {I (\ theta)}} + b (\ theta) ^ {2},}

utilizando la descomposición estándar del MSE. Tenga en cuenta, sin embargo, que si ${\ Displaystyle 1 + b '(\ theta) <1}$ este límite puede ser menor que el límite insesgado de Cramér-Rao ${\ Displaystyle 1 / I (\ theta)}$ . Por ejemplo, en el ejemplo de estimación de la varianza a continuación , ${\ Displaystyle 1 + b '(\ theta) = {\ frac {n} {n + 2}} <1}$ .

Caso multivariado

Extendiendo el enlace de Cramér – Rao a múltiples parámetros, defina un vector de columna de parámetro

{\ displaystyle {\ boldsymbol {\ theta}} = \ left [\ theta _ {1}, \ theta _ {2}, \ dots, \ theta _ {d} \ right] ^ {T} \ in \ mathbb { R} ^ {d}}

con función de densidad de probabilidad ${\ displaystyle f (x; {\ boldsymbol {\ theta}})}$ que satisface las dos condiciones de regularidad siguientes.

La matriz de información de Fisher es una ${\ Displaystyle d \ times d}$ matriz con elemento ${\ Displaystyle I_ {m, k}}$ definido como

{\ Displaystyle I_ {m, k} = \ operatorname {E} \ left [{\ frac {\ partial} {\ partial \ theta _ {m}}} \ log f \ left (x; {\ boldsymbol {\ theta }} \ derecha) {\ frac {\ parcial} {\ parcial \ theta _ {k}}} \ log f \ left (x; {\ boldsymbol {\ theta}} \ right) \ right] = - \ operatorname { E} \ izquierda [{\ frac {\ parcial ^ {2}} {\ parcial \ theta _ {m} \, \ parcial \ theta _ {k}}} \ log f \ left (x; {\ boldsymbol {\ theta}} \ derecha) \ derecha].}

Dejar ${\ displaystyle {\ boldsymbol {T}} (X)}$ ser un estimador de cualquier función vectorial de parámetros, ${\ Displaystyle {\ boldsymbol {T}} (X) = (T_ {1} (X), \ ldots, T_ {d} (X)) ^ {T}}$ y denotar su vector de expectativa ${\ Displaystyle \ operatorname {E} [{\ boldsymbol {T}} (X)]}$ por ${\ displaystyle {\ boldsymbol {\ psi}} ({\ boldsymbol {\ theta}})}$ . El límite de Cramér-Rao establece que la matriz de covarianza de ${\ displaystyle {\ boldsymbol {T}} (X)}$ satisface

{\ Displaystyle \ operatorname {cov} _ {\ boldsymbol {\ theta}} \ left ({\ boldsymbol {T}} (X) \ right) \ geq {\ frac {\ partial {\ boldsymbol {\ psi}} \ left ({\ boldsymbol {\ theta}} \ right)} {\ partial {\ boldsymbol {\ theta}}}} [I \ left ({\ boldsymbol {\ theta}} \ right)] ^ {- 1} \ izquierda ({\ frac {\ parcial {\ boldsymbol {\ psi}} \ izquierda ({\ boldsymbol {\ theta}} \ derecha)} {\ parcial {\ boldsymbol {\ theta}}}} \ derecha) ^ {T }}

dónde

La desigualdad de la matriz ${\ Displaystyle A \ geq B}$ se entiende que significa que la matriz ${\ Displaystyle AB}$ es positivo semidefinito , y
${\ Displaystyle \ partial {\ boldsymbol {\ psi}} ({\ boldsymbol {\ theta}}) / \ partial {\ boldsymbol {\ theta}}}$ es la matriz jacobiana cuya ${\ Displaystyle ij}$ el elemento está dado por ${\ estilo de visualización \ parcial \ psi _ {i} ({\ boldsymbol {\ theta}}) / \ parcial \ theta _ {j}}$ .

Si ${\ displaystyle {\ boldsymbol {T}} (X)}$ es un estimador insesgado de ${\ displaystyle {\ boldsymbol {\ theta}}}$ (es decir, ${\ displaystyle {\ boldsymbol {\ psi}} \ left ({\ boldsymbol {\ theta}} \ right) = {\ boldsymbol {\ theta}}}$ ), entonces el límite Cramér-Rao se reduce a

{\ Displaystyle \ operatorname {cov} _ {\ boldsymbol {\ theta}} \ left ({\ boldsymbol {T}} (X) \ right) \ geq I \ left ({\ boldsymbol {\ theta}} \ right) ^ {- 1}.}

Si es inconveniente calcular el inverso de la matriz de información de Fisher , entonces se puede simplemente tomar el recíproco del elemento diagonal correspondiente para encontrar un límite inferior (posiblemente suelto). ^[9]

{\ Displaystyle \ operatorname {var} _ {\ boldsymbol {\ theta}} (T_ {m} (X)) = \ left [\ operatorname {cov} _ {\ boldsymbol {\ theta}} \ left ({\ boldsymbol {T}} (X) \ right) \ right] _ {mm} \ geq \ left [I \ left ({\ boldsymbol {\ theta}} \ right) ^ {- 1} \ right] _ {mm} \ geq \ left (\ left [I \ left ({\ boldsymbol {\ theta}} \ right) \ right] _ {mm} \ right) ^ {- 1}.}

Condiciones de regularidad

El límite se basa en dos condiciones de regularidad débil en la función de densidad de probabilidad , ${\ Displaystyle f (x; \ theta)}$ y el estimador ${\ Displaystyle T (X)}$ :

La información de Fisher siempre está definida; de manera equivalente, para todos ${\ Displaystyle x}$ tal que ${\ Displaystyle f (x; \ theta)> 0}$ ,

{\ estilo de visualización {\ frac {\ parcial} {\ parcial \ theta}} \ log f (x; \ theta)}

existe y es finito.

Las operaciones de integración con respecto a ${\ Displaystyle x}$ y diferenciación con respecto a ${\ Displaystyle \ theta}$ se puede intercambiar con la expectativa de ${\ Displaystyle T}$ ; es decir,

{\ Displaystyle {\ frac {\ parcial} {\ parcial \ theta}} \ izquierda [\ int T (x) f (x; \ theta) \, dx \ derecha] = \ int T (x) \ izquierda [{ \ frac {\ parcial} {\ parcial \ theta}} f (x; \ theta) \ derecha] \, dx}

siempre que el lado derecho sea finito.

Esta condición a menudo se puede confirmar utilizando el hecho de que la integración y la diferenciación se pueden intercambiar cuando se cumple cualquiera de los siguientes casos:

La función ${\ Displaystyle f (x; \ theta)}$ tiene apoyo acotado en ${\ Displaystyle x}$ , y los límites no dependen de ${\ Displaystyle \ theta}$ ;
La función ${\ Displaystyle f (x; \ theta)}$ tiene soporte infinito, es continuamente diferenciable y la integral converge uniformemente para todos ${\ Displaystyle \ theta}$ .

Prueba de un solo parámetro

La siguiente es una prueba del caso escalar general del límite de Cramér-Rao descrito anteriormente . Asumir que ${\ Displaystyle T = t (X)}$ es un estimador con expectativa ${\ Displaystyle \ psi (\ theta)}$ (basado en las observaciones ${\ Displaystyle X}$ ), es decir, que ${\ Displaystyle \ operatorname {E} (T) = \ psi (\ theta)}$ . El objetivo es demostrar que, para todos ${\ Displaystyle \ theta}$ ,

{\ Displaystyle \ operatorname {var} (t (X)) \ geq {\ frac {[\ psi ^ {\ prime} (\ theta)] ^ {2}} {I (\ theta)}}.}

Dejar ${\ Displaystyle X}$ ser una variable aleatoria con función de densidad de probabilidad ${\ Displaystyle f (x; \ theta)}$ . Aquí ${\ Displaystyle T = t (X)}$ es una estadística , que se utiliza como estimador de ${\ Displaystyle \ psi (\ theta)}$ . Definir ${\ Displaystyle V}$ como la partitura :

{\ Displaystyle V = {\ frac {\ parcial} {\ parcial \ theta}} \ ln f (X; \ theta) = {\ frac {1} {f (X; \ theta)}} {\ frac {\ parcial} {\ parcial \ theta}} f (X; \ theta)}

donde la regla de la cadena se usa en la igualdad final anterior. Entonces la expectativa de ${\ Displaystyle V}$ , escrito ${\ Displaystyle \ operatorname {E} (V)}$ , es cero. Esto es porque:

{\ Displaystyle \ operatorname {E} (V) = \ int f (x; \ theta) \ left [{\ frac {1} {f (x; \ theta)}} {\ frac {\ parcial} {\ parcial \ theta}} f (x; \ theta) \ right] \, dx = {\ frac {\ partial} {\ partial \ theta}} \ int f (x; \ theta) \, dx = 0}

donde la derivada integral y parcial se han intercambiado (justificado por la segunda condición de regularidad).

Si consideramos la covarianza ${\ Displaystyle \ operatorname {cov} (V, T)}$ de ${\ Displaystyle V}$ y ${\ Displaystyle T}$ , tenemos ${\ Displaystyle \ operatorname {cov} (V, T) = \ operatorname {E} (VT)}$ , porque ${\ Displaystyle \ operatorname {E} (V) = 0}$ . Ampliando esta expresión tenemos

{\ Displaystyle {\ begin {alineado} \ operatorname {cov} (V, T) & = \ operatorname {E} \ left (T \ cdot \ left [{\ frac {1} {f (X; \ theta)} } {\ frac {\ parcial} {\ parcial \ theta}} f (X; \ theta) \ derecha] \ derecha) \\ [6pt] & = \ int t (x) \ left [{\ frac {1} {f (x; \ theta)}} {\ frac {\ parcial} {\ parcial \ theta}} f (x; \ theta) \ derecha] f (x; \ theta) \, dx \\ [6pt] & = {\ frac {\ parcial} {\ parcial \ theta}} \ izquierda [\ int t (x) f (x; \ theta) \, dx \ derecha] = {\ frac {\ parcial} {\ parcial \ theta }} E (T) = \ psi ^ {\ prime} (\ theta) \ end {alineado}}}

nuevamente porque las operaciones de integración y diferenciación conmutan (segunda condición).

La desigualdad de Cauchy-Schwarz muestra que

{\ Displaystyle {\ sqrt {\ operatorname {var} (T) \ operatorname {var} (V)}} \ geq \ left | \ operatorname {cov} (V, T) \ right | = \ left | \ psi ^ {\ prime} (\ theta) \ right |}

por lo tanto

{\ Displaystyle \ operatorname {var} (T) \ geq {\ frac {[\ psi ^ {\ prime} (\ theta)] ^ {2}} {\ operatorname {var} (V)}} = {\ frac {[\ psi ^ {\ prime} (\ theta)] ^ {2}} {I (\ theta)}}}

lo que prueba la proposición.

Ejemplos de

Distribución normal multivariante

Para el caso de una distribución normal d -variable

{\ displaystyle {\ boldsymbol {x}} \ sim N_ {d} \ left ({\ boldsymbol {\ mu}} ({\ boldsymbol {\ theta}}), {\ boldsymbol {C}} ({\ boldsymbol { \ theta}}) \ right)}

la matriz de información de Fisher tiene elementos ^[10]

{\ Displaystyle I_ {m, k} = {\ frac {\ partial {\ boldsymbol {\ mu}} ^ {T}} {\ partial \ theta _ {m}}} {\ boldsymbol {C}} ^ {- 1} {\ frac {\ parcial {\ boldsymbol {\ mu}}} {\ parcial \ theta _ {k}}} + {\ frac {1} {2}} \ operatorname {tr} \ left ({\ boldsymbol {C}} ^ {- 1} {\ frac {\ parcial {\ boldsymbol {C}}} {\ parcial \ theta _ {m}}} {\ boldsymbol {C}} ^ {- 1} {\ frac { \ parcial {\ boldsymbol {C}}} {\ parcial \ theta _ {k}}} \ derecha)}

donde "tr" es el rastro .

Por ejemplo, deja ${\ Displaystyle w [n]}$ ser una muestra de ${\ Displaystyle N}$ observaciones independientes con media desconocida ${\ Displaystyle \ theta}$ y varianza conocida ${\ Displaystyle \ sigma ^ {2}}$ .

{\ Displaystyle w [n] \ sim \ mathbb {N} _ {N} \ left (\ theta {\ boldsymbol {1}}, \ sigma ^ {2} {\ boldsymbol {I}} \ right).}

Entonces la información de Fisher es un escalar dado por

{\ Displaystyle I (\ theta) = \ left ({\ frac {\ partial {\ boldsymbol {\ mu}} (\ theta)} {\ partial \ theta}} \ right) ^ {T} {\ boldsymbol {C }} ^ {- 1} \ izquierda ({\ frac {\ parcial {\ boldsymbol {\ mu}} (\ theta)} {\ parcial \ theta}} \ derecha) = \ sum _ {i = 1} ^ { N} {\ frac {1} {\ sigma ^ {2}}} = {\ frac {N} {\ sigma ^ {2}}},}

por lo que el límite Cramér-Rao es

{\ Displaystyle \ operatorname {var} \ left ({\ hat {\ theta}} \ right) \ geq {\ frac {\ sigma ^ {2}} {N}}.}

Varianza normal con media conocida

Suponga que X es una variable aleatoria distribuida normalmente con media conocida ${\ Displaystyle \ mu}$ y varianza desconocida ${\ Displaystyle \ sigma ^ {2}}$ . Considere la siguiente estadística:

{\ Displaystyle T = {\ frac {\ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2}} {n}}.}

Entonces T es imparcial para ${\ Displaystyle \ sigma ^ {2}}$ , como ${\ Displaystyle E (T) = \ sigma ^ {2}}$ . ¿Cuál es la varianza de T ?

{\ Displaystyle \ operatorname {var} (T) = \ operatorname {var} \ left ({\ frac {(X- \ mu) ^ {2}} {n}} \ right) = {\ frac {\ operatorname { var} (X- \ mu) ^ {2}} {n ^ {2}}} = {\ frac {1} {n ^ {2}}} \ left [\ operatorname {E} \ left \ {(X - \ mu) ^ {4} \ right \} - \ left (\ operatorname {E} \ {(X- \ mu) ^ {2} \} \ right) ^ {2} \ right]}

(la segunda igualdad se deriva directamente de la definición de varianza). El primer término es el cuarto momento sobre la media y tiene valor ${\ Displaystyle 3 (\ sigma ^ {2}) ^ {2}}$ ; el segundo es el cuadrado de la varianza, o ${\ Displaystyle (\ sigma ^ {2}) ^ {2}}$ . Por lo tanto

{\ Displaystyle \ operatorname {var} (T) = {\ frac {2 (\ sigma ^ {2}) ^ {2}} {n}}.}

Ahora bien, ¿cuál es la información de Fisher en la muestra? Recuerda que la partitura ${\ Displaystyle V}$ Se define como

{\ Displaystyle V = {\ frac {\ parcial} {\ parcial \ sigma ^ {2}}} \ log L (\ sigma ^ {2}, X)}

dónde ${\ Displaystyle L}$ es la función de verosimilitud . Así, en este caso,

${\ Displaystyle L = \ log \ left [{\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- (X- \ mu) ^ {2} / {2 \ sigma ^ {2}}} \ right] = - \ log ({\ sqrt {2 \ pi}} \ sigma) - {\ frac {(X- \ mu) ^ {2}} {2 \ sigma ^ {2 }}}}$

${\ estilo de visualización {\ frac {\ parcial} {\ parcial \ sigma}} \ log L (\ sigma ^ {2}, X) = - {\ frac {1} {\ sigma}} + {\ frac {(X - \ mu) ^ {2}} {\ sigma ^ {3}}}}$

{\ Displaystyle V = {\ frac {\ parcial} {\ parcial \ sigma ^ {2}}} \ log \ left [{\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- (X- \ mu) ^ {2} / {2 \ sigma ^ {2}}} \ right] = {\ frac {(X- \ mu) ^ {2}} {2 (\ sigma ^ {2}) ^ {2}}} - {\ frac {1} {2 \ sigma ^ {2}}}}

donde la segunda igualdad es de cálculo elemental. Por lo tanto, la información en una sola observación es simplemente menos la expectativa de la derivada de ${\ Displaystyle V}$ , o

{\ Displaystyle I = - \ operatorname {E} \ left ({\ frac {\ parcial V} {\ parcial \ sigma ^ {2}}} \ right) = - \ operatorname {E} \ left (- {\ frac {(X- \ mu) ^ {2}} {(\ sigma ^ {2}) ^ {3}}} + {\ frac {1} {2 (\ sigma ^ {2}) ^ {2}}} \ right) = {\ frac {\ sigma ^ {2}} {(\ sigma ^ {2}) ^ {3}}} - {\ frac {1} {2 (\ sigma ^ {2}) ^ {2 }}} = {\ frac {1} {2 (\ sigma ^ {2}) ^ {2}}}.}

Así, la información en una muestra de ${\ Displaystyle n}$ observaciones independientes es solo ${\ Displaystyle n}$ veces esto, o ${\ Displaystyle {\ frac {n} {2 (\ sigma ^ {2}) ^ {2}}}.}$

El límite de Cramer-Rao establece que

{\ Displaystyle \ operatorname {var} (T) \ geq {\ frac {1} {I}}.}

En este caso, la desigualdad se satura (se logra la igualdad), lo que demuestra que el estimador es eficiente .

Sin embargo, podemos lograr un error cuadrático medio más bajo utilizando un estimador sesgado. El estimador

{\ Displaystyle T = {\ frac {\ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2}} {n + 2}}.}

obviamente tiene una varianza menor, que de hecho es

{\ Displaystyle \ operatorname {var} (T) = {\ frac {2n (\ sigma ^ {2}) ^ {2}} {(n + 2) ^ {2}}}.}

Su sesgo es

{\ Displaystyle \ left (1 - {\ frac {n} {n + 2}} \ right) \ sigma ^ {2} = {\ frac {2 \ sigma ^ {2}} {n + 2}}}

por lo que su error cuadrático medio es

{\ Displaystyle \ operatorname {MSE} (T) = \ left ({\ frac {2n} {(n + 2) ^ {2}}} + {\ frac {4} {(n + 2) ^ {2} }} \ derecha) (\ sigma ^ {2}) ^ {2} = {\ frac {2 (\ sigma ^ {2}) ^ {2}} {n + 2}}}

que es claramente menor que el límite de Cramér-Rao encontrado arriba.

Cuando no se conoce la media, la estimación del error cuadrático medio mínimo de la varianza de una muestra de la distribución gaussiana se obtiene dividiendo por ${\ Displaystyle n + 1}$ , en vez de ${\ Displaystyle n-1}$ o ${\ Displaystyle n + 2}$ .

Ver también

Con destino a Chapman-Robbins
La desigualdad de Kullback
Desigualdad de Brascamp-Lieb

Referencias y notas

^ Cramér, Harald (1946). Métodos matemáticos de estadística . Princeton, Nueva Jersey: Universidad de Princeton. Prensa. ISBN 0-691-08004-6. OCLC 185436716 .
^ Rao, Calyampudi Radakrishna (1945). "Información y precisión alcanzable en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 : 81–89. Señor 0015748 .
^ Rao, Calyampudi Radakrishna (1994). S. Das Gupta (ed.). Artículos seleccionados de CR Rao . Nueva York: Wiley. ISBN 978-0-470-22091-7. OCLC 174244259 .
^ Fréchet, Maurice (1943). "Sur l'extension de certaines évaluations statistiques au cas de petits échantillons". Rev. Inst. En t. Estadista . 11 : 182-205.
^ Darmois, Georges (1945). "Sur les limites de la dispersion de certaines estimations". Rev. Int. Inst. Estadista . 13 : 9-15.
^ Aitken, AC; Silverstone, H. (1942). "Sobre la estimación de parámetros estadísticos". Actas de la Royal Society of Edinburgh . 61 (2): 186-194. doi : 10.1017 / s008045410000618x .
^ Shenton, LR (1970). "La denominada desigualdad Cramer-Rao". El estadístico estadounidense . 24 (2): 36. JSTOR 2681931 .
^ Suba Rao. "Conferencias sobre inferencia estadística" (PDF) .
^ Para el caso bayesiano, ver eqn. (11) de Bobrovsky; Mayer-Wolf; Zakai (1987). "Algunas clases de límites globales Cramer-Rao". Ana. Stat . 15 (4): 1421–38.
^ Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. pag. 47. ISBN 0-13-042268-1.

Otras lecturas

Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. pp. 14 -17. ISBN 0-674-00560-0.
Bos, Adriaan van den (2007). Estimación de parámetros para científicos e ingenieros . Hoboken: John Wiley & Sons. págs. 45–98. ISBN 0-470-14781-4.
Kay, Steven M. (1993). Fundamentos del procesamiento estadístico de señales, Volumen I: Teoría de la estimación . Prentice Hall. ISBN 0-13-345711-7.. Capítulo 3.
Shao, junio (1998). Estadística matemática . Nueva York: Springer. ISBN 0-387-98674-X.. Sección 3.1.3.

enlaces externos

FandPLimitTool es un software basado en GUI para calcular la información de Fisher y Cramer-Rao Lower Bound con aplicación a microscopía de una sola molécula.

[Cramér-1] Cramér, Harald (1946). Métodos matemáticos de estadística . Princeton, Nueva Jersey: Universidad de Princeton. Prensa. ISBN 0-691-08004-6. OCLC 185436716 .

[Rao-2] Rao, Calyampudi Radakrishna (1945). "Información y precisión alcanzable en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 : 81–89. Señor 0015748 .

[Rao_papers-3] Rao, Calyampudi Radakrishna (1994). S. Das Gupta (ed.). Artículos seleccionados de CR Rao . Nueva York: Wiley. ISBN 978-0-470-22091-7. OCLC 174244259 .

[Fréchet_1943-4] Fréchet, Maurice (1943). "Sur l'extension de certaines évaluations statistiques au cas de petits échantillons". Rev. Inst. En t. Estadista . 11 : 182-205.

[Darmois_1945-5] Darmois, Georges (1945). "Sur les limites de la dispersion de certaines estimations". Rev. Int. Inst. Estadista . 13 : 9-15.

[6] Aitken, AC; Silverstone, H. (1942). "Sobre la estimación de parámetros estadísticos". Actas de la Royal Society of Edinburgh . 61 (2): 186-194. doi : 10.1017 / s008045410000618x .

[7] Shenton, LR (1970). "La denominada desigualdad Cramer-Rao". El estadístico estadounidense . 24 (2): 36. JSTOR 2681931 .

[SubaRao-8] Suba Rao. "Conferencias sobre inferencia estadística" (PDF) .

[9] Para el caso bayesiano, ver eqn. (11) de Bobrovsky; Mayer-Wolf; Zakai (1987). "Algunas clases de límites globales Cramer-Rao". Ana. Stat . 15 (4): 1421–38.

[10] Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. pag. 47. ISBN 0-13-042268-1.

[1]