Información de Fisher

En la estadística matemática , la información de Fisher (a veces llamado simplemente información ^[1] ) es una forma de medir la cantidad de información que un observable variable aleatoria X lleva sobre un parámetro desconocido θ de una distribución que los modelos X . Formalmente, es la varianza de la puntuación o el valor esperado de la información observada . En la estadística bayesiana , la distribución asintótica del modo posterior depende de la información de Fisher y no de la previa (según el teorema de Bernstein-von Mises , que fue anticipado por Laplace para familias exponenciales ). ^[2] El estadístico Ronald Fisher enfatizó el papel de la información de Fisher en la teoría asintótica de la estimación de máxima verosimilitud (siguiendo algunos resultados iniciales de Francis Ysidro Edgeworth ). La información de Fisher también se utiliza en el cálculo del anterior de Jeffreys , que se utiliza en las estadísticas bayesianas.

La matriz de información de Fisher se utiliza para calcular las matrices de covarianza asociadas con las estimaciones de máxima verosimilitud . También se puede utilizar en la formulación de estadísticas de prueba, como la prueba de Wald .

Se ha demostrado que los sistemas estadísticos de naturaleza científica (físicos, biológicos, etc.) cuyas funciones de verosimilitud obedecen a la invariancia de desplazamiento obedecen a la máxima información de Fisher. ^[3] El nivel del máximo depende de la naturaleza de las restricciones del sistema.

Definición [ editar ]

La información de Fisher es una forma de medir la cantidad de información que un observable variable aleatoria X lleva sobre un desconocido parámetro θ en la que la probabilidad de X depende. Sea f ( X ; θ ) la función de densidad de probabilidad (o función de masa de probabilidad ) para X condicionada al valor de θ . Describe la probabilidad de que observemos un resultado dado de X , dado un valor conocido de θ . Si f tiene un pico pronunciado con respecto a los cambios en θ, es fácil indicar el valor "correcto" de θ a partir de los datos, o de manera equivalente, que los datos X proporcionan mucha información sobre el parámetro θ . Si la probabilidad f es plana y dispersa, entonces se necesitarían muchas muestras de X para estimar el valor real "verdadero" de θ que se obtendría usando toda la población que se muestrea. Esto sugiere estudiar algún tipo de varianza con respecto a θ .

Formalmente, la derivada parcial con respecto a θ del logaritmo natural de la función de verosimilitud se llama puntuación . Bajo ciertas condiciones de regularidad, si θ es el parámetro verdadero (es decir, X se distribuye realmente como f ( X ; θ )), se puede demostrar que el valor esperado (el primer momento ) de la puntuación, evaluado en el valor verdadero del parámetro , es 0: ^[4] ${\ Displaystyle \ theta}$

{\ Displaystyle {\ begin {alineado} & \ operatorname {E} \ left [\ left. {\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) \ right | \ theta \ derecha] \\ [3pt] = {} & \ int {\ frac {{\ frac {\ parcial} {\ parcial \ theta}} f (x; \ theta)} {f (x; \ theta)}} f (x; \ theta) \, dx \\ [3pt] = {} & {\ frac {\ partial} {\ partial \ theta}} \ int f (x; \ theta) \, dx \\ [3pt] = {} & {\ frac {\ parcial} {\ parcial \ theta}} 1 = 0. \ end {alineado}}}

La varianza de la puntuación se define como la información de Fisher : ^[5]

{\ Displaystyle {\ mathcal {I}} (\ theta) = \ operatorname {E} \ left [\ left. \ left ({\ frac {\ parcial} {\ parcial \ theta}} \ log f (X; \ theta) \ right) ^ {2} \ right | \ theta \ right] = \ int \ left ({\ frac {\ partial} {\ partial \ theta}} \ log f (x; \ theta) \ right) ^ {2} f (x; \ theta) \, dx,}

Tenga en cuenta eso . Una variable aleatoria con una alta información de Fisher implica que el valor absoluto de la puntuación suele ser alto. La información de Fisher no es una función de una observación particular, ya que la variable aleatoria X se ha promediado. ${\ Displaystyle 0 \ leq {\ mathcal {I}} (\ theta)}$

Si log f ( x ; θ ) es dos veces diferenciable con respecto a θ , y bajo ciertas condiciones de regularidad, entonces la información de Fisher también puede escribirse como ^[6]

{\mathcal {I}}(\theta )=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )\right|\theta \right],

desde

{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta }}f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}

y

\operatorname {E} \left[\left.{\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}\right|\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int f(x;\theta )\,dx=0.

Por lo tanto, la información de Fisher puede verse como la curvatura de la curva de soporte (el gráfico de la probabilidad logarítmica). Cerca de la estimación de máxima verosimilitud , la información de Fisher baja indica que el máximo parece "contundente", es decir, el máximo es poco profundo y hay muchos valores cercanos con una probabilidad logarítmica similar. Por el contrario, la información alta de Fisher indica que el máximo es nítido.

Condiciones de regularidad [ editar ]

Las condiciones de regularidad son las siguientes: ^[7]

La derivada parcial de f ( X ; θ ) con respecto a θ existe casi en todas partes . (Puede no existir en un conjunto nulo, siempre que este conjunto no dependa de θ ).
La integral de f ( X ; θ ) se puede diferenciar bajo el signo integral con respecto a θ .
El apoyo de f ( X ; θ ) no depende de θ .

Si θ es un vector, entonces las condiciones de regularidad deben cumplirse para cada componente de θ . Es fácil encontrar un ejemplo de una densidad que no satisface las condiciones de regularidad: La densidad de una variable Uniforme (0, θ ) no satisface las condiciones 1 y 3. En este caso, aunque la información de Fisher se puede calcular a partir de la definición, no tendrá las propiedades que normalmente se supone que tiene.

En términos de probabilidad [ editar ]

Debido a que la probabilidad de θ dado X es siempre proporcional a la probabilidad f ( X ; θ ), sus logaritmos necesariamente difieren por una constante que es independiente de θ , y las derivadas de estos logaritmos con respecto a θ son necesariamente iguales. Por lo tanto, se puede sustituir en una probabilidad logarítmica l ( θ ; X ) en lugar de $log f (X; θ)$ en las definiciones de información de Fisher.

Muestras de cualquier tamaño [ editar ]

El valor X puede representar una sola muestra extraída de una sola distribución o puede representar una colección de muestras extraídas de una colección de distribuciones. Si hay n muestras y las n distribuciones correspondientes son estadísticamente independientes, entonces la información de Fisher será necesariamente la suma de los valores de información de Fisher de una sola muestra, uno para cada muestra individual de su distribución. En particular, si las n distribuciones son independientes y están distribuidas de manera idéntica , la información de Fisher será necesariamente n veces la información de Fisher de una sola muestra de la distribución común.

Derivación informal del enlace Cramér-Rao [ editar ]

El límite de Cramér-Rao ^[8]^[9] establece que el inverso de la información de Fisher es un límite inferior en la varianza de cualquier estimador insesgado de θ . HL Van Trees (1968) y B. Roy Frieden (2004) proporcionan el siguiente método para derivar el límite Cramér-Rao , un resultado que describe el uso de la información de Fisher.

De manera informal, comenzamos considerando un estimador insesgado . Matemáticamente, "imparcial" significa que ${\hat {\theta }}(X)$

\operatorname {E} \left[\left.{\hat {\theta }}(X)-\theta \right|\theta \right]=\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=0{\text{ regardless of the value of }}\theta .

Esta expresión es cero independiente de θ , por lo que su derivada parcial con respecto a θ también debe ser cero. Por la regla del producto , esta derivada parcial también es igual a

0={\frac {\partial }{\partial \theta }}\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=\int \left({\hat {\theta }}(x)-\theta \right){\frac {\partial f}{\partial \theta }}\,dx-\int f\,dx.

Para cada θ , la función de verosimilitud es una función de densidad de probabilidad, y por lo tanto . Un cálculo básico implica que $\int f\,dx=1$

{\frac {\partial f}{\partial \theta }}=f\,{\frac {\partial \log f}{\partial \theta }}.

Usando estos dos hechos en lo anterior, obtenemos

\int \left({\hat {\theta }}-\theta \right)f\,{\frac {\partial \log f}{\partial \theta }}\,dx=1.

Factorizar el integrando da

\int \left(\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right)\left({\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right)\,dx=1.

Al elevar al cuadrado la expresión en la integral, la desigualdad de Cauchy-Schwarz produce

1={\biggl (}\int \left[\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right]\cdot \left[{\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right]\,dx{\biggr )}^{2}\leq \left[\int \left({\hat {\theta }}-\theta \right)^{2}f\,dx\right]\cdot \left[\int \left({\frac {\partial \log f}{\partial \theta }}\right)^{2}f\,dx\right].

El segundo factor entre corchetes se define como la información de Fisher, mientras que el primer factor entre corchetes es el error cuadrático medio esperado del estimador . Al reordenar, la desigualdad nos dice que ${\hat {\theta }}$

\operatorname {Var} \left({\hat {\theta }}\right)\geq {\frac {1}{{\mathcal {I}}\left(\theta \right)}}.

En otras palabras, la precisión con la que podemos estimar θ está fundamentalmente limitada por la información de Fisher de la función de verosimilitud.

Experimento de Bernoulli de un solo parámetro [ editar ]

Un ensayo de Bernoulli es una variable aleatoria con dos resultados posibles, "éxito" y "fracaso", y el éxito tiene una probabilidad de θ . Se puede pensar que el resultado está determinado por el lanzamiento de una moneda, siendo la probabilidad de que salga cara y la probabilidad de que salga cruz 1 - θ .

Sea X un ensayo de Bernoulli. La información de Fisher contenida en X puede calcularse para ser

{\begin{aligned}{\mathcal {I}}(\theta )&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(\theta ^{X}(1-\theta )^{1-X}\right)\right|\theta \right]\\[5pt]&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left(X\log \theta +(1-X)\log(1-\theta )\right)\right|\theta \right]\\[5pt]&=\operatorname {E} \left[\left.{\frac {X}{\theta ^{2}}}+{\frac {1-X}{(1-\theta )^{2}}}\right|\theta \right]\\[5pt]&={\frac {\theta }{\theta ^{2}}}+{\frac {1-\theta }{(1-\theta )^{2}}}\\[5pt]&={\frac {1}{\theta (1-\theta )}}.\end{aligned}}

Debido a que la información de Fisher es aditiva, la información de Fisher contenida en n ensayos independientes de Bernoulli es, por lo tanto,

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}}.

Este es el recíproco de la varianza del número medio de éxitos en n ensayos de Bernoulli , por lo que en este caso, el límite de Cramér-Rao es una igualdad.

Forma de matriz [ editar ]

Cuando hay N parámetros, de modo que θ es un N × 1 vector entonces la información Fisher toma la forma de un N × N matriz . Esta matriz se llama matriz de información de Fisher (FIM) y tiene un elemento típico $\theta ={\begin{bmatrix}\theta _{1}&\theta _{2}&\dots &\theta _{N}\end{bmatrix}}^{\textsf {T}},$

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta _{i}}}\log f(X;\theta )\right)\left({\frac {\partial }{\partial \theta _{j}}}\log f(X;\theta )\right)\right|\theta \right].

El FIM es un N × N matriz semidefinida positiva . Si es positivo definido, entonces define una métrica de Riemann en el espacio de parámetros N - dimensional . La geometría de la información del tema utiliza esto para conectar la información de Fisher con la geometría diferencial y, en ese contexto, esta métrica se conoce como la métrica de información de Fisher .

Bajo ciertas condiciones de regularidad, la matriz de información de Fisher también puede escribirse como

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta _{i}\,\partial \theta _{j}}}\log f(X;\theta )\right|\theta \right]\,.

El resultado es interesante de varias formas:

Puede derivarse como el hessiano de la entropía relativa .
Puede usarse como una métrica de Riemann para definir la geometría de Fisher-Rao cuando es positiva-definida. ^[10]
Puede entenderse como una métrica inducida a partir de la métrica euclidiana , después de un cambio apropiado de variable.
En su forma de valores complejos, es la métrica Fubini-Study .
Es la parte clave de la demostración del teorema de Wilks , que permite estimaciones de la región de confianza para la estimación de máxima verosimilitud (para aquellas condiciones para las que se aplica) sin necesidad del principio de verosimilitud .
En los casos en que los cálculos analíticos del FIM anteriores sean difíciles, es posible formar un promedio de estimaciones fáciles de Monte Carlo del hessiano de la función logarítmica de verosimilitud negativa como una estimación del FIM. ^[11]^[12]^[13] Las estimaciones pueden basarse en valores de la función logarítmica de verosimilitud negativa o el gradiente de la función logarítmica de verosimilitud negativa; no se necesita ningún cálculo analítico del hessiano de la función logarítmica de verosimilitud negativa.

Parámetros ortogonales [ editar ]

Decimos que dos parámetros θ _i y θ _j son ortogonales si el elemento de la i- ésima fila y la j- ésima columna de la matriz de información de Fisher es cero. Los parámetros ortogonales son fáciles de manejar en el sentido de que sus estimaciones de máxima verosimilitud son independientes y pueden calcularse por separado. Cuando se trata de problemas de investigación, es muy común que el investigador invierta algún tiempo en buscar una parametrización ortogonal de las densidades involucradas en el problema. ^{[ cita requerida ]}

Modelo estadístico singular [ editar ]

Si la matriz de información de Fisher es positiva definida para todo $θ$ , entonces se dice que el modelo estadístico correspondiente es regular ; de lo contrario, se dice que el modelo estadístico es singular . ^[14] Ejemplos de modelos estadísticos singulares incluyen los siguientes: mezclas normales, mezclas binomiales, mezclas multinomiales, redes bayesianas, redes neuronales, funciones de base radial, modelos de Markov ocultos, gramáticas estocásticas libres de contexto, regresiones de rango reducido, máquinas de Boltzmann.

En el aprendizaje automático , si se diseña un modelo estadístico de modo que extraiga una estructura oculta de un fenómeno aleatorio, naturalmente se vuelve singular. ^[15]

Distribución normal multivariante [ editar ]

El FIM para un N -variate distribución normal multivariante , tiene una forma especial. Sea el vector de parámetros K -dimensional y el vector de variables normales aleatorias . Suponga que los valores medios de estas variables aleatorias son , y sea la matriz de covarianza . Entonces, para , la entrada ( m , n ) del FIM es: ^[16] $\,X\sim N\left(\mu (\theta ),\,\Sigma (\theta )\right)$ $\theta ={\begin{bmatrix}\theta _{1}&\dots &\theta _{K}\end{bmatrix}}^{\textsf {T}}$ $X={\begin{bmatrix}X_{1}&\dots &X_{N}\end{bmatrix}}^{\textsf {T}}$ $\,\mu (\theta )={\begin{bmatrix}\mu _{1}(\theta )&\dots &\mu _{N}(\theta )\end{bmatrix}}^{\textsf {T}}$ $\,\Sigma (\theta )$ $1\leq m,\,n\leq K$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}+{\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

donde denota la transposición de un vector, denota la traza de una matriz cuadrada y: $(\cdot )^{\textsf {T}}$ $\operatorname {tr} (\cdot )$

{\begin{aligned}{\frac {\partial \mu }{\partial \theta _{m}}}&={\begin{bmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}}&{\frac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{bmatrix}}^{\textsf {T}};\\{\frac {\partial \Sigma }{\partial \theta _{m}}}&={\begin{bmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\[5pt]{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}.\end{aligned}}

Tenga en cuenta que un caso especial, pero muy común, es aquel en el que , una constante. Luego $\Sigma (\theta )=\Sigma$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}.\

En este caso, la matriz de información de Fisher puede identificarse con la matriz de coeficientes de las ecuaciones normales de la teoría de estimación de mínimos cuadrados .

Otro caso especial ocurre cuando la media y la covarianza dependen de dos parámetros vectoriales diferentes, digamos, β y θ . Esto es especialmente popular en el análisis de datos espaciales, que a menudo utiliza un modelo lineal con residuos correlacionados. En este caso, ^[17]

{\mathcal {I}}(\beta ,\theta )=\operatorname {diag} \left({\mathcal {I}}(\beta ),{\mathcal {I}}(\theta )\right)

dónde

{\begin{aligned}{\mathcal {I}}{(\beta )_{m,n}}&={\frac {\partial \mu ^{\textsf {T}}}{\partial \beta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \beta _{n}}},\\[5pt]{\mathcal {I}}{(\theta )_{m,n}}&={\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}{\Sigma ^{-1}}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)\end{aligned}}

Propiedades [ editar ]

Regla de la cadena [ editar ]

Similar a la entropía o información mutua , la información de Fisher también posee una descomposición de reglas de cadena . En particular, si X e Y son variables aleatorias distribuidas conjuntamente, se deduce que: ^[18]

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y\mid X}(\theta ),

donde y es la información de Fisher de Y relativa a calculada con respecto a la densidad condicional de Y dado un valor específico X = x . ${\mathcal {I}}_{Y\mid X}(\theta )=\operatorname {E} _{X}\left[{\mathcal {I}}_{Y\mid X=x}(\theta )\right]$ ${\mathcal {I}}_{Y\mid X=x}(\theta )$ $\theta$

Como caso especial, si las dos variables aleatorias son independientes , la información entregada por las dos variables aleatorias es la suma de la información de cada variable aleatoria por separado:

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta ).

En consecuencia, la información en una muestra aleatoria de n observaciones independientes e idénticamente distribuidas es n veces la información en una muestra de tamaño 1.

Estadística suficiente [ editar ]

La información proporcionada por un estadístico suficiente es la misma que la de la muestra X . Esto se puede ver utilizando el criterio de factorización de Neyman para una estadística suficiente. Si T ( X ) es suficiente para θ , entonces

f(X;\theta )=g(T(X),\theta )h(X)

Para algunas funciones g y h . La independencia de h ( X ) de θ implica

{\frac {\partial }{\partial \theta }}\log \left[f(X;\theta )\right]={\frac {\partial }{\partial \theta }}\log \left[g(T(X);\theta )\right],

y la igualdad de información se deriva entonces de la definición de información de Fisher. De manera más general, si T = t ( X ) es una estadística , entonces

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

con igualdad si y solo si T es una estadística suficiente . ^[19]

Reparametrización [ editar ]

La información de Fisher depende de la parametrización del problema. Si θ y η son dos parametrizaciones escalares de un problema de estimación, y θ es una función continuamente diferenciable de η , entonces

{\mathcal {I}}_{\eta }(\eta )={\mathcal {I}}_{\theta }(\theta (\eta ))\left({\frac {d\theta }{d\eta }}\right)^{2}

donde y son las medidas de información de Fisher de η y θ , respectivamente. ^[20] ${\mathcal {I}}_{\eta }$ ${\mathcal {I}}_{\theta }$

En el caso del vector, suponga que y son k -vectores que parametrizan un problema de estimación, y suponga que es una función continuamente diferenciable de , entonces, ^[21] ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$

{\mathcal {I}}_{\boldsymbol {\eta }}({\boldsymbol {\eta }})={\boldsymbol {J}}^{\textsf {T}}{\mathcal {I}}_{\boldsymbol {\theta }}({\boldsymbol {\theta }}({\boldsymbol {\eta }})){\boldsymbol {J}}

donde el elemento ( i , j ) ésimo de la matriz jacobiana k × k está definido por ${\boldsymbol {J}}$

J_{ij}={\frac {\partial \theta _{i}}{\partial \eta _{j}}},

y donde esta la matriz transpuesta de ${\boldsymbol {J}}^{\textsf {T}}$ ${\boldsymbol {J}}.$

En la geometría de la información , esto se ve como un cambio de coordenadas en una variedad de Riemann , y las propiedades intrínsecas de la curvatura no cambian bajo diferentes parametrizaciones. En general, la matriz de información de Fisher proporciona una métrica de Riemann (más precisamente, la métrica de Fisher-Rao) para la variedad de estados termodinámicos, y puede usarse como una medida de complejidad geométrica de información para una clasificación de transiciones de fase , por ejemplo, el escalar La curvatura del tensor métrico termodinámico diverge en (y solo en) un punto de transición de fase. ^[22]

En el contexto termodinámico, la matriz de información de Fisher está directamente relacionada con la tasa de cambio en los parámetros de orden correspondientes . ^[23] En particular, tales relaciones identifican transiciones de fase de segundo orden a través de divergencias de elementos individuales de la matriz de información de Fisher.

Desigualdad isoperimétrica [ editar ]

La matriz de información de Fisher juega un papel en una desigualdad como la desigualdad isoperimétrica . ^[24] De todas las distribuciones de probabilidad con una entropía dada, aquella cuya matriz de información de Fisher tiene la menor traza es la distribución gaussiana. Así es como, de todos los conjuntos acotados con un volumen dado, la esfera tiene el área de superficie más pequeña.

La prueba implica tomar una variable aleatoria multivariante con función de densidad y agregar un parámetro de ubicación para formar una familia de densidades . Entonces, por analogía con la fórmula de Minkowski-Steiner , el "área de superficie" de se define como $X$ $f$ $\{f(x-\theta )\mid \theta \in \mathbb {R} ^{n}\}$ $X$

S(X)=\lim _{\epsilon \to 0}{\frac {e^{H(X+Z_{\epsilon })}-e^{H(X)}}{\epsilon }}

donde es una variable gaussiana con matriz de covarianza . El nombre "área de superficie" es adecuado porque el poder de entropía es el volumen del "conjunto de soporte efectivo", ^[25] por lo que es la "derivada" del volumen del conjunto de soporte efectivo, al igual que la fórmula de Minkowski-Steiner. El resto de la prueba usa la desigualdad de poder de entropía , que es como la desigualdad de Brunn-Minkowski . Se encuentra que la traza de la matriz de información de Fisher es un factor de . $Z_{\epsilon }$ $\epsilon I$ $e^{H(X)}$ $S(X)$ $S(X)$

Aplicaciones [ editar ]

Diseño óptimo de experimentos [ editar ]

La información de Fisher se usa ampliamente en el diseño experimental óptimo . Debido a la reciprocidad de la varianza del estimador y la información de Fisher, minimizar la varianza corresponde a maximizar la información .

Cuando el modelo estadístico lineal (o linealizado ) tiene varios parámetros , la media del estimador de parámetros es un vector y su varianza es una matriz . La inversa de la matriz de varianza se denomina "matriz de información". Debido a que la varianza del estimador de un vector de parámetros es una matriz, el problema de "minimizar la varianza" es complicado. Utilizando la teoría estadística , los estadísticos comprimen la matriz de información utilizando estadísticas resumidas de valor real ; al ser funciones de valor real, estos "criterios de información" pueden maximizarse.

Tradicionalmente, los estadísticos han evaluado los estimadores y diseños considerando algún estadístico resumen de la matriz de covarianza (de un estimador insesgado), generalmente con valores reales positivos (como el determinante o la traza de la matriz ). Trabajar con números reales positivos trae varias ventajas: si el estimador de un solo parámetro tiene una varianza positiva, entonces la varianza y la información de Fisher son números reales positivos; por tanto, son miembros del cono convexo de números reales no negativos (cuyos miembros distintos de cero tienen recíprocos en este mismo cono).

Para varios parámetros, las matrices de covarianza y las matrices de información son elementos del cono convexo de matrices simétricas definidas no negativas en un espacio vectorial parcialmente ordenado , bajo el orden de Loewner (Löwner). Este cono se cierra bajo la suma e inversión de matrices, así como bajo la multiplicación de números reales positivos y matrices. En Pukelsheim aparece una exposición de la teoría de matrices y el orden de Loewner. ^[26]

Los criterios tradicionales de optimalidad son los invariantes de la matriz de información , en el sentido de la teoría invariante ; Algebraicamente, los criterios de optimalidad tradicionales son funcionales de los valores propios de la matriz de información (Fisher) (ver diseño óptimo ).

Jeffreys prior en estadísticas bayesianas [ editar ]

En las estadísticas bayesianas , la información de Fisher se utiliza para calcular el previo de Jeffreys , que es un previo estándar no informativo para los parámetros de distribución continua. ^[27]

Neurociencia computacional [ editar ]

La información de Fisher se ha utilizado para encontrar límites en la precisión de los códigos neuronales. En ese caso, X son típicamente las respuestas conjuntas de muchas neuronas que representan una variable de baja dimensión θ (como un parámetro de estímulo). En particular, se ha estudiado el papel de las correlaciones en el ruido de las respuestas neuronales. ^[28]

Derivación de leyes físicas [ editar ]

La información de Fisher juega un papel central en un controvertido principio presentado por Frieden como la base de las leyes físicas, una afirmación que ha sido cuestionada. ^[29]

Aprendizaje automático [ editar ]

La información de Fisher se utiliza en técnicas de aprendizaje automático como la consolidación de peso elástico , ^[30] que reduce el olvido catastrófico en las redes neuronales artificiales .

Relación con la entropía relativa [ editar ]

La información de Fisher está relacionada con la entropía relativa . ^[31] La entropía relativa, o divergencia Kullback-Leibler , entre dos distribuciones y se puede escribir como $p$ $q$

KL(p:q)=\int p(x)\log {\frac {p(x)}{q(x)}}dx.

Ahora, considere una familia de distribuciones de probabilidad parametrizadas por . Entonces, la divergencia de Kullback-Leibler , entre dos distribuciones de la familia, se puede escribir como $f(x;\theta )$ $\theta \in \Theta$

D(\theta ,\theta ')=KL(p(.;\theta ):p(.;\theta '))=\int f(x;\theta )\log {\frac {f(x;\theta )}{f(x;\theta ')}}dx.

Si es fijo, entonces la entropía relativa entre dos distribuciones de la misma familia se minimiza en . Para cerca de , se puede expandir la expresión anterior en una serie hasta el segundo orden: $\theta$ $\theta '=\theta$ $\theta '$ $\theta$

D(\theta ,\theta ')={\frac {1}{2}}(\theta '-\theta )^{\textsf {T}}\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }(\theta '-\theta )+o\left((\theta '-\theta )^{2}\right)

Pero la derivada de segundo orden se puede escribir como

\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }=-\int f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}\log(f(x;\theta '))\right)_{\theta '=\theta }dx=[{\mathcal {I}}(\theta )]_{i,j}.

Por tanto, la información de Fisher representa la curvatura de la entropía relativa.

Historia [ editar ]

La información de Fisher fue discutida por varios estadísticos tempranos, notablemente FY Edgeworth . ^[32] Por ejemplo, Savage ^[33] dice: "En él [información de Fisher], él [Fisher] fue anticipado hasta cierto punto (Edgeworth 1908-9 esp. 502, 507-8, 662, 677-8, 82- 5 y referencias que él [Edgeworth] cita incluyendo Pearson y Filon 1898 [...]). " Hay una serie de fuentes históricas tempranas ^[34] y varias revisiones de este trabajo temprano. ^[35]^[36]^[37]

Ver también [ editar ]

Eficiencia (estadísticas)
Información observada
Métrica de información de Fisher
Matriz de formación
Geometría de la información
Jeffreys antes
Con destino a Cramér – Rao
Información mínima de Fisher

Otras medidas empleadas en la teoría de la información :

Entropía (teoría de la información)
Divergencia de Kullback-Leibler
Autoinformación

Notas [ editar ]

^ Lehmann y Casella, p. 115
^ Lucien Le Cam (1986) Métodos asintóticos en la teoría de la decisión estadística : páginas 336 y 618–621 (von Mises y Bernstein).
^ Frieden y Gatenby (2013)
^ Suba Rao. "Conferencias sobre inferencia estadística" (PDF) .
↑ Fisher (1922)
^ Lehmann y Casella, eq. (2.5.16), Lema 5.3, p.116.
^ Schervish, Mark J. (1995). Teoría de la Estadística . Nueva York, NY: Springer New York. pag. 111. ISBN 978-1-4612-4250-5. OCLC 852790658 .
↑ Cramer (1946)
↑ Rao (1945)
^ Nielsen, Frank (2010). "Límite inferior de Cramer-Rao y geometría de la información" . Conectado en Infinity II : 18–37.
^ Spall, JC (2005). "Cálculo de Monte Carlo de la matriz de información de Fisher en entornos no estándar". Revista de Estadística Computacional y Gráfica . 14 (4): 889–909. doi : 10.1198 / 106186005X78800 .
^ Spall, JC (2008), "Métodos mejorados para la estimación de Monte Carlo de la matriz de información de Fisher", Actas de la Conferencia de control estadounidense , Seattle, WA, 11-13 de junio de 2008, págs. 2395-2400. https://doi.org/10.1109/ACC.2008.4586850
^ Das, S .; Spall, JC; Ghanem, R. (2010). "Cálculo de Monte Carlo eficiente de la matriz de información de Fisher utilizando información previa". Estadística Computacional y Análisis de Datos . 54 (2): 272–289. doi : 10.1016 / j.csda.2009.09.018 .
^ Watanabe, S. (2008), Accardi, L .; Freudenberg, W .; Ohya, M. (eds.), "Método geométrico algebraico en estimación estadística singular", Bioinformática cuántica , World Scientific : 325–336, Bibcode : 2008qbi..conf..325W , doi : 10.1142 / 9789812793171_0024 , ISBN 978-981-279-316-4.
^ Watanabe, S (2013). "Un criterio de información bayesiano ampliamente aplicable". Revista de investigación sobre aprendizaje automático . 14 : 867–897.
↑ Malagò, Luigi; Pistone, Giovanni (2015). Geometría de la información de la distribución gaussiana en vista de la optimización estocástica . Actas de la Conferencia ACM de 2015 sobre los fundamentos de los algoritmos genéticos XIII . págs. 150-162. doi : 10.1145 / 2725494.2725510 . ISBN 9781450334341.
^ Mardia, KV; Marshall, RJ (1984). "Estimación de máxima verosimilitud de modelos de covarianza residual en regresión espacial". Biometrika . 71 (1): 135–46. doi : 10.1093 / biomet / 71.1.135 .
^ Zamir, R. (1998). "Una prueba de la desigualdad de información de Fisher a través de un argumento de procesamiento de datos". Transacciones IEEE sobre teoría de la información . 44 (3): 1246-1250. CiteSeerX 10.1.1.49.6628 . doi : 10.1109 / 18.669301 .
^ Schervish, Mark J. (1995). Estadística teórica . Springer-Verlag. pag. 113.
^ Lehmann y Casella, eq. (2.5.11).
^ Lehmann y Casella, eq. (2.6.16)
^ Janke, W .; Johnston, DA; Kenna, R. (2004). "Geometría de la información y transiciones de fase". Un Physica . 336 (1–2): 181. arXiv : cond-mat / 0401092 . Código bibliográfico : 2004PhyA..336..181J . doi : 10.1016 / j.physa.2004.01.023 .
↑ Prokopenko, M .; Lizier, Joseph T .; Lizier, JT; Obst, O .; Wang, XR (2011). "Relacionar la información de Fisher con los parámetros de pedido". Revisión E física . 84 (4): 041116. Código Bibliográfico : 2011PhRvE..84d1116P . doi : 10.1103 / PhysRevE.84.041116 . PMID 22181096 . S2CID 18366894 .
^ Costa, M .; Cover, T. (noviembre de 1984). "Sobre la similitud de la desigualdad de poder de entropía y la desigualdad de Brunn-Minkowski" . Transacciones IEEE sobre teoría de la información . 30 (6): 837–839. doi : 10.1109 / TIT.1984.1056983 . ISSN 1557-9654 .
^ Portada, Thomas M. (2006). Elementos de la teoría de la información . Joy A. Thomas (2ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. pag. 256. ISBN 0-471-24195-4. OCLC 59879802 .
^ Pukelsheim, Friedrick (1993). Diseño óptimo de experimentos . Nueva York: Wiley. ISBN 978-0-471-61971-0.
↑ Bernardo, Jose M .; Smith, Adrian FM (1994). Teoría Bayesiana . Nueva York: John Wiley & Sons. ISBN 978-0-471-92416-6.
^ Abbott, Larry F .; Dayan, Peter (1999). "El efecto de la variabilidad correlacionada sobre la precisión de un código de población". Computación neuronal . 11 (1): 91–101. doi : 10.1162 / 089976699300016827 . PMID 9950724 .
^ Streater, RF (2007). Causas perdidas en la física y más allá . Saltador. pag. 69. ISBN 978-3-540-36581-5.
^ Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A .; Milán, Kieran; Quan, John; Ramalho, Tiago (28 de marzo de 2017). "Superar el olvido catastrófico en las redes neuronales" . Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. doi : 10.1073 / pnas.1611835114 . ISSN 0027-8424 . PMC 5380101 . PMID 28292907 .
^ Gourieroux y Montfort (1995), página 87
^ Salvaje (1976)
^ Savage (1976), página 156
↑ Edgeworth (septiembre de 1908, diciembre de 1908)
↑ Pratt (1976)
↑ Stigler (1978, 1986, 1999)
↑ Hald (1998, 1999)

Referencias [ editar ]

Cramér, Harald (1946). Métodos matemáticos de estadística . Serie matemática de Princeton. Princeton: Prensa de la Universidad de Princeton. ISBN 0691080046.
Edgeworth, año fiscal (junio de 1908). "Sobre los probables errores de las constantes de frecuencia" . Revista de la Royal Statistical Society . 71 (2): 381–397. doi : 10.2307 / 2339461 . JSTOR 2339461 .
Edgeworth, AF (septiembre de 1908). "Sobre los probables errores de las constantes de frecuencia (cont.)" . Revista de la Royal Statistical Society . 71 (3): 499–512. doi : 10.2307 / 2339293 . JSTOR 2339293 .
Edgeworth, FY (diciembre de 1908). "Sobre los probables errores de las constantes de frecuencia (cont.)" . Revista de la Royal Statistical Society . 71 (4): 651–678. doi : 10.2307 / 2339378 . JSTOR 2339378 .
Fisher, RA (1 de enero de 1922). "Sobre los fundamentos matemáticos de la estadística teórica" . Philosophical Transactions de la Royal Society de Londres, serie A . 222 (594–604): 309–368. doi : 10.1098 / rsta.1922.0009 . Consultado el 12 de agosto de 2020 .
Frieden, BR (2004) Ciencia de Fisher Information: A Unification . Universidad de Cambridge. Prensa. ISBN 0-521-00911-1 .
Frieden, B. Roy; Gatenby, Robert A. (2013). "Principio de máxima información de Fisher de los axiomas de Hardy aplicados a sistemas estadísticos" . Revisión E física . 88 (4): 042144. arXiv : 1405.0007 . Código bibliográfico : 2013PhRvE..88d2144F . doi : 10.1103 / PhysRevE.88.042144 . PMC 4010149 . PMID 24229152 .
Hald, A. (mayo de 1999). "Sobre la historia de máxima verosimilitud en relación con la probabilidad inversa y mínimos cuadrados" . Ciencia estadística . 14 (2): 214-222. doi : 10.1214 / ss / 1009212248 . JSTOR 2676741 .
Hald, A. (1998). Una historia de la estadística matemática de 1750 a 1930 . Nueva York: Wiley. ISBN 978-0-471-17912-2.
Lehmann, EL ; Casella, G. (1998). Teoría de la estimación puntual (2ª ed.). Saltador. ISBN 978-0-387-98502-2.
Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Springer-Verlag. ISBN 978-0-387-96307-5.
Pratt, John W. (mayo de 1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud" . Annals of Statistics . 4 (3): 501–514. doi : 10.1214 / aos / 1176343457 . JSTOR 2958222 .
Rao, C. Radhakrishna (1945). "Información y precisión alcanzables en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 : 81–91. doi : 10.1007 / 978-1-4612-0919-5_16 .
Savage, LJ (mayo de 1976). "Sobre la relectura de RA Fisher" . Annals of Statistics . 4 (3): 441–500. doi : 10.1214 / aos / 1176343456 . JSTOR 2958221 .
Schervish, Mark J. (1995). Teoría de la Estadística . Nueva York: Springer. ISBN 978-0-387-94546-0.
Stigler, SM (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. ISBN 978-0-674-40340-6.^{[ página necesaria ]}
Stigler, SM (1978). "Francis Ysidro Edgeworth, estadístico" . Revista de la Sociedad Real de Estadística, Serie A . 141 (3): 287–322. doi : 10.2307 / 2344804 . JSTOR 2344804 .
Stigler, SM (1999). Estadísticas sobre la mesa: la historia de los conceptos y métodos estadísticos . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.^{[ página necesaria ]}
Van Trees, HL (1968). Detección, Evaluación y modulación teoría, Parte I . Nueva York: Wiley. ISBN 978-0-471-09517-0.

[1] Lehmann y Casella, p. 115

[2] Lucien Le Cam (1986) Métodos asintóticos en la teoría de la decisión estadística : páginas 336 y 618–621 (von Mises y Bernstein).

[3] Frieden y Gatenby (2013)

[SubaRao-4] Suba Rao. "Conferencias sobre inferencia estadística" (PDF) .

[5] Fisher (1922)

[6] Lehmann y Casella, eq. (2.5.16), Lema 5.3, p.116.

[7] Schervish, Mark J. (1995). Teoría de la Estadística . Nueva York, NY: Springer New York. pag. 111. ISBN 978-1-4612-4250-5. OCLC 852790658 .

[8] Cramer (1946)

[9] Rao (1945)

[10] Nielsen, Frank (2010). "Límite inferior de Cramer-Rao y geometría de la información" . Conectado en Infinity II : 18–37.

[11] Spall, JC (2005). "Cálculo de Monte Carlo de la matriz de información de Fisher en entornos no estándar". Revista de Estadística Computacional y Gráfica . 14 (4): 889–909. doi : 10.1198 / 106186005X78800 .

[12] Spall, JC (2008), "Métodos mejorados para la estimación de Monte Carlo de la matriz de información de Fisher", Actas de la Conferencia de control estadounidense , Seattle, WA, 11-13 de junio de 2008, págs. 2395-2400. https://doi.org/10.1109/ACC.2008.4586850

[13] Das, S .; Spall, JC; Ghanem, R. (2010). "Cálculo de Monte Carlo eficiente de la matriz de información de Fisher utilizando información previa". Estadística Computacional y Análisis de Datos . 54 (2): 272–289. doi : 10.1016 / j.csda.2009.09.018 .

[14] Watanabe, S. (2008), Accardi, L .; Freudenberg, W .; Ohya, M. (eds.), "Método geométrico algebraico en estimación estadística singular", Bioinformática cuántica , World Scientific : 325–336, Bibcode : 2008qbi..conf..325W , doi : 10.1142 / 9789812793171_0024 , ISBN 978-981-279-316-4.

[15] Watanabe, S (2013). "Un criterio de información bayesiano ampliamente aplicable". Revista de investigación sobre aprendizaje automático . 14 : 867–897.

[16] Malagò, Luigi; Pistone, Giovanni (2015). Geometría de la información de la distribución gaussiana en vista de la optimización estocástica . Actas de la Conferencia ACM de 2015 sobre los fundamentos de los algoritmos genéticos XIII . págs. 150-162. doi : 10.1145 / 2725494.2725510 . ISBN 9781450334341.

[17] Mardia, KV; Marshall, RJ (1984). "Estimación de máxima verosimilitud de modelos de covarianza residual en regresión espacial". Biometrika . 71 (1): 135–46. doi : 10.1093 / biomet / 71.1.135 .

[18] Zamir, R. (1998). "Una prueba de la desigualdad de información de Fisher a través de un argumento de procesamiento de datos". Transacciones IEEE sobre teoría de la información . 44 (3): 1246-1250. CiteSeerX 10.1.1.49.6628 . doi : 10.1109 / 18.669301 .

[Schervish-19] Schervish, Mark J. (1995). Estadística teórica . Springer-Verlag. pag. 113.

[20] Lehmann y Casella, eq. (2.5.11).

[21] Lehmann y Casella, eq. (2.6.16)

[22] Janke, W .; Johnston, DA; Kenna, R. (2004). "Geometría de la información y transiciones de fase". Un Physica . 336 (1–2): 181. arXiv : cond-mat / 0401092 . Código bibliográfico : 2004PhyA..336..181J . doi : 10.1016 / j.physa.2004.01.023 .

[23] Prokopenko, M .; Lizier, Joseph T .; Lizier, JT; Obst, O .; Wang, XR (2011). "Relacionar la información de Fisher con los parámetros de pedido". Revisión E física . 84 (4): 041116. Código Bibliográfico : 2011PhRvE..84d1116P . doi : 10.1103 / PhysRevE.84.041116 . PMID 22181096 . S2CID 18366894 .

[24] Costa, M .; Cover, T. (noviembre de 1984). "Sobre la similitud de la desigualdad de poder de entropía y la desigualdad de Brunn-Minkowski" . Transacciones IEEE sobre teoría de la información . 30 (6): 837–839. doi : 10.1109 / TIT.1984.1056983 . ISSN 1557-9654 .

[25] Portada, Thomas M. (2006). Elementos de la teoría de la información . Joy A. Thomas (2ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. pag. 256. ISBN 0-471-24195-4. OCLC 59879802 .

[26] Pukelsheim, Friedrick (1993). Diseño óptimo de experimentos . Nueva York: Wiley. ISBN 978-0-471-61971-0.

[27] Bernardo, Jose M .; Smith, Adrian FM (1994). Teoría Bayesiana . Nueva York: John Wiley & Sons. ISBN 978-0-471-92416-6.

[28] Abbott, Larry F .; Dayan, Peter (1999). "El efecto de la variabilidad correlacionada sobre la precisión de un código de población". Computación neuronal . 11 (1): 91–101. doi : 10.1162 / 089976699300016827 . PMID 9950724 .

[29] Streater, RF (2007). Causas perdidas en la física y más allá . Saltador. pag. 69. ISBN 978-3-540-36581-5.

[30] Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A .; Milán, Kieran; Quan, John; Ramalho, Tiago (28 de marzo de 2017). "Superar el olvido catastrófico en las redes neuronales" . Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. doi : 10.1073 / pnas.1611835114 . ISSN 0027-8424 . PMC 5380101 . PMID 28292907 .

[31] Gourieroux y Montfort (1995), página 87

[32] Salvaje (1976)

[33] Savage (1976), página 156

[34] Edgeworth (septiembre de 1908, diciembre de 1908)

[35] Pratt (1976)

[36] Stigler (1978, 1986, 1999)

[37] Hald (1998, 1999)

[1]