En geometría de la información , la métrica de información de Fisher es una métrica de Riemann particular que se puede definir en una variedad estadística suave , es decir , una variedad suave cuyos puntos son medidas de probabilidad definidas en un espacio de probabilidad común . Se puede utilizar para calcular la diferencia informativa entre mediciones.
La métrica es interesante en varios aspectos. Según el teorema de Chentsov , la métrica de información de Fisher en modelos estadísticos es la única métrica de Riemann (hasta el cambio de escala) que es invariante con estadísticas suficientes . [1] [2]
También puede entenderse que es la forma infinitesimal de la entropía relativa ( es decir , la divergencia Kullback-Leibler ); específicamente, es el hessiano de la divergencia. Alternativamente, puede entenderse como la métrica inducida por la métrica euclidiana del espacio plano , después de los cambios apropiados de variable. Cuando se extiende al complejo espacio proyectivo de Hilbert , se convierte en la métrica de Fubini-Study ; cuando se escribe en términos de estados mixtos , es la métrica cuántica de Bures .
Considerada puramente como una matriz, se la conoce como matriz de información de Fisher . Considerada como una técnica de medición, donde se utiliza para estimar parámetros ocultos en términos de variables aleatorias observadas, se la conoce como información observada .
Definición
Dada una variedad estadística con coordenadas , uno escribe para la distribución de probabilidad en función de . Aquíse extrae del espacio de valores R para una variable aleatoria X (discreta o continua) . La probabilidad está normalizada por
La métrica de información de Fisher toma la forma:
La integral se realiza sobre todos los valores de x en X . La variableahora es una coordenada en una variedad de Riemann . Las etiquetas j y k indexan los ejes de coordenadas locales en el colector.
Cuando la probabilidad se deriva de la medida de Gibbs , como sería para cualquier proceso de Markov , entoncestambién puede entenderse como un multiplicador de Lagrange ; Los multiplicadores de Lagrange se utilizan para imponer restricciones, como mantener constante el valor esperado de alguna cantidad. Si hay n restricciones que mantienen constantes n valores de expectativa diferentes, entonces la dimensión de la variedad es n dimensiones más pequeña que el espacio original. En este caso, la métrica se puede derivar explícitamente de la función de partición ; allí se presenta una derivación y discusión.
Sustituyendo de la teoría de la información , una forma equivalente de la definición anterior es:
Para mostrar que la forma equivalente es igual a la definición anterior, tenga en cuenta que
y aplicar a ambos lados.
Relación con la divergencia Kullback-Leibler
Alternativamente, la métrica se puede obtener como la segunda derivada de la entropía relativa o la divergencia de Kullback-Leibler . [3] Para obtener esto, se consideran dos distribuciones de probabilidad y , que están infinitesimalmente cerca unos de otros, de modo que
con un cambio infinitesimalmente pequeño de en la dirección j . Entonces, desde la divergencia Kullback-Leibler tiene un mínimo absoluto de 0 cuando , uno tiene una expansión hasta el segundo orden en de la forma
- .
La matriz simétrica es positivo (semi) definido y es la matriz hessiana de la función en el punto extremo . Esto puede pensarse intuitivamente como: "La distancia entre dos puntos infinitesimalmente cercanos en una variedad diferencial estadística es la diferencia informativa entre ellos".
Relación con la geometría de Ruppeiner
La métrica de Ruppeiner y la métrica de Weinhold son la métrica de información de Fisher calculada para distribuciones de Gibbs como las que se encuentran en la mecánica estadística de equilibrio. [4] [5]
Cambio en entropía libre
La acción de una curva sobre una variedad de Riemann está dada por
El parámetro de ruta aquí es el tiempo t ; se puede entender que esta acción da el cambio en la entropía libre de un sistema a medida que se mueve del tiempo a al tiempo b . [5] Específicamente, uno tiene
como el cambio en la entropía libre. Esta observación ha dado lugar a aplicaciones prácticas en la industria química y de procesamiento : para minimizar el cambio en la entropía libre de un sistema, se debe seguir la ruta geodésica mínima entre los puntos finales deseados del proceso. La geodésica minimiza la entropía, debido a la desigualdad de Cauchy-Schwarz , que establece que la acción está limitada por debajo por la longitud de la curva, al cuadrado.
Relación con la divergencia Jensen-Shannon
La métrica de Fisher también permite que la acción y la longitud de la curva se relacionen con la divergencia Jensen-Shannon . [5] Específicamente, uno tiene
donde el integrando dJSD se entiende como el cambio infinitesimal en la divergencia Jensen-Shannon a lo largo del camino tomado. De manera similar, para la longitud de la curva , uno tiene
Es decir, la raíz cuadrada de la divergencia Jensen-Shannon es solo la métrica de Fisher (dividida por la raíz cuadrada de 8).
Como métrica euclidiana
Para un espacio de probabilidad discreto , es decir, un espacio de probabilidad en un conjunto finito de objetos, la métrica de Fisher puede entenderse simplemente como la métrica euclidiana restringida a un "cuadrante" positivo de una esfera unitaria, después de cambios apropiados de variable. [6]
Considere un espacio euclidiano plano, de dimensión N +1 , parametrizado por puntos. La métrica del espacio euclidiano viene dada por
donde el son 1-formas ; son los vectores base del espacio cotangente . Escrituracomo los vectores base para el espacio tangente , de modo que
- ,
la métrica euclidiana se puede escribir como
El superíndice 'plano' está ahí para recordar que, cuando se escribe en forma de coordenadas, esta métrica es con respecto a la coordenada de espacio plano .
Una esfera unitaria N -dimensional incrustada en un espacio euclidiano ( N + 1) -dimensional se puede definir como
Esta incrustación induce una métrica en la esfera, se hereda directamente de la métrica euclidiana en el espacio ambiental. Toma exactamente la misma forma que la anterior, teniendo cuidado de asegurarse de que las coordenadas estén restringidas a la superficie de la esfera. Esto se puede hacer, por ejemplo, con la técnica de los multiplicadores de Lagrange .
Considere ahora el cambio de variable . La condición de esfera ahora se convierte en la condición de normalización de probabilidad.
mientras que la métrica se convierte en
El último puede reconocerse como una cuarta parte de la métrica de información de Fisher. Para completar el proceso, recuerde que las probabilidades son funciones paramétricas de las múltiples variables, es decir, uno tiene . Por lo tanto, lo anterior induce una métrica en la variedad de parámetros:
o, en forma de coordenadas, la métrica de información de Fisher es:
donde, como antes,
El superíndice 'pescador' está presente para recordar que esta expresión es aplicable para las coordenadas ; mientras que la forma sin coordenadas es la misma que la métrica euclidiana (espacio plano). Es decir, la métrica de información de Fisher en una variedad estadística es simplemente (cuatro veces) la métrica euclidiana restringida al cuadrante positivo de la esfera, después de los cambios apropiados de variable.
Cuando la variable aleatoria no es discreto, sino continuo, el argumento aún se mantiene. Esto se puede ver de dos formas diferentes. Una forma es reformular cuidadosamente todos los pasos anteriores en un espacio de dimensión infinita, teniendo cuidado de definir los límites de manera adecuada, etc., para asegurarse de que todas las manipulaciones estén bien definidas, convergentes, etc. señalado por Gromov , [6] es utilizar un enfoque de teoría de categorías ; es decir, observar que las manipulaciones anteriores siguen siendo válidas en la categoría de probabilidades. Aquí, uno debe notar que tal categoría tendría la propiedad Radon-Nikodym , es decir, el teorema Radon-Nikodym se cumple en esta categoría. Esto incluye los espacios de Hilbert ; estos son cuadrados integrables, y en las manipulaciones anteriores, esto es suficiente para reemplazar con seguridad sumar sobre cuadrados por una integral sobre cuadrados.
Como métrica de Fubini-Study
Las manipulaciones anteriores que derivan la métrica de Fisher de la métrica euclidiana pueden extenderse a espacios de Hilbert proyectivos complejos . En este caso, se obtiene la métrica Fubini-Study . [7] Esto quizás no debería sorprender, ya que la métrica del Estudio Fubini proporciona los medios para medir la información en mecánica cuántica. La métrica de Bures , también conocida como la métrica de Helstrom , es idéntica a la métrica de Fubini-Study, [7] aunque esta última generalmente se escribe en términos de estados puros , como se muestra a continuación, mientras que la métrica de Bures se escribe para estados mixtos . Al establecer la fase de la coordenada compleja en cero, se obtiene exactamente una cuarta parte de la métrica de información de Fisher, exactamente como se indicó anteriormente.
Uno comienza con el mismo truco, de construir una amplitud de probabilidad , escrita en coordenadas polares , así:
Aquí, es una amplitud de probabilidad de valor complejo ; y son estrictamente reales. Los cálculos anteriores se obtienen configurando. La condición habitual de que las probabilidades se encuentran dentro de un simplex , es decir, que
se expresa de manera equivalente por la idea de que la amplitud del cuadrado se normalice:
Cuándo es real, esta es la superficie de una esfera.
La métrica de Fubini-Study , escrita en forma infinitesimal, utilizando notación bra-ket de mecánica cuántica , es
En esta notación, uno tiene que y la integración en todo el espacio de medida X se escribe como
La expresion puede entenderse como una variación infinitesimal; de manera equivalente, puede entenderse que es una forma 1 en el espacio cotangente . Usando la notación infinitesimal, la forma polar de la probabilidad anterior es simplemente
Al insertar lo anterior en la métrica Fubini-Study, se obtiene:
Configuración lo anterior deja en claro que el primer término es (un cuarto de) la métrica de información de Fisher. La forma completa de lo anterior se puede aclarar un poco cambiando la notación a la de la geometría estándar de Riemann, de modo que la métrica se convierta en una forma simétrica de 2 que actúe sobre el espacio tangente . El cambio de notación se realiza simplemente reemplazando y y observando que las integrales son solo valores esperados; entonces:
El término imaginario es una forma simpléctica , es la fase Berry o fase geométrica . En notación de índice, la métrica es:
Nuevamente, se puede ver claramente que el primer término es (un cuarto de) la métrica de información de Fisher, estableciendo . De manera equivalente, la métrica de Fubini-Study puede entenderse como la métrica del espacio proyectivo complejo de Hilbert que es inducida por la extensión compleja de la métrica euclidiana plana. La diferencia entre esto y la métrica de Bures es que la métrica de Bures se escribe en términos de estados mixtos.
Probabilidades valoradas continuamente
Se puede dar una definición abstracta, un poco más formal, como sigue. [8]
Sea X una variedad orientable , y seaser una medida en X . Equivalentemente, dejemosser un espacio de probabilidad en, con álgebra sigma y probabilidad .
La variedad estadística S ( X ) de X se define como el espacio de todas las medidasen X (con sigma-álgebramantenido fijo). Tenga en cuenta que este espacio es de dimensión infinita y, por lo general, se considera un espacio de Fréchet . Los puntos de S ( X ) son medidas.
Elige un punto y considera el espacio tangente . La métrica de información de Fisher es entonces un producto interno en el espacio tangente. Con algún abuso de notación , uno puede escribir esto como
Aquí, y son vectores en el espacio tangente; es decir,. El abuso de la notación es escribir los vectores tangentes como si fueran derivados, e insertar la d extraña al escribir la integral: la integración debe realizarse usando la medidasobre todo el espacio X . Este abuso de notación se considera, de hecho, perfectamente normal en la teoría de la medida ; es la notación estándar para la derivada Radon-Nikodym .
Para que la integral esté bien definida, el espacio S ( X ) debe tener la propiedad Radon-Nikodym , y más específicamente, el espacio tangente está restringido a aquellos vectores que son integrables en cuadrados . La integrabilidad cuadrada equivale a decir que una secuencia de Cauchy converge a un valor finito bajo la topología débil : el espacio contiene sus puntos límite. Tenga en cuenta que los espacios de Hilbert poseen esta propiedad.
Esta definición de la métrica puede verse como equivalente a la anterior, en varios pasos. Primero, se selecciona una subvariedad de S ( X ) considerando solo esas medidas que están parametrizados por algún parámetro que varía suavemente . Entonces síes de dimensión finita, entonces también lo es la subvariedad; Asimismo, el espacio tangente tiene la misma dimensión que.
Con un poco de abuso adicional del lenguaje, se nota que el mapa exponencial proporciona un mapa de vectores en un espacio tangente a puntos en una variedad subyacente. Por tanto, si es un vector en el espacio tangente, entonces es la probabilidad correspondiente asociada con el punto (después del transporte paralelo del mapa exponencial a.) Por el contrario, dado un punto , el logaritmo da un punto en el espacio tangente (en términos generales, como de nuevo, uno debe transportar desde el origen al punto ; para obtener más detalles, consulte las fuentes originales). Así, uno tiene la apariencia de logaritmos en la definición más simple, dada anteriormente.
Ver también
- Con destino a Cramér – Rao
- Información de Fisher
- Distancia Hellinger
- Geometría de la información
Notas
- ^ Amari, Shun-ichi; Nagaoka, Horishi (2000). "Teorema de Chentsov y algunas observaciones históricas" . Métodos de geometría de la información . Nueva York: Oxford University Press. págs. 37–40. ISBN 0-8218-0531-2.
- ^ Dowty, James G. (2018). "Teorema de Chentsov para familias exponenciales". Geometría de la información . 1 (1): 117-135. arXiv : 1701.08895 . doi : 10.1007 / s41884-018-0006-4 . S2CID 5954036 .
- ^ Portada, Thomas M .; Thomas, Joy A. (2006). Elementos de la teoría de la información (2ª ed.). Hoboken: John Wiley & Sons. ISBN 0-471-24195-4.
- ^ Brody, Dorje; Garfio, Daniel (2008). "Geometría de la información en equilibrio vapor-líquido". Journal of Physics Una . 42 (2): 023001. arXiv : 0809.1166 . doi : 10.1088 / 1751-8113 / 42/2/023001 . S2CID 118311636 .
- ^ a b c Crooks, Gavin E. (2009). "Medición de longitud termodinámica". Cartas de revisión física . 99 (10): 100602. arXiv : 0706.0559 . doi : 10.1103 / PhysRevLett.99.100602 . PMID 17930381 . S2CID 7527491 .
- ^ a b Gromov, Misha (2012). "En la búsqueda de una estructura, parte 1: sobre la entropía" (PDF) . Cite journal requiere
|journal=
( ayuda ) - ^ a b Facchi, Paolo; et al. (2010). "Información clásica y cuántica de Fisher en la formulación geométrica de la mecánica cuántica". Physics Letters A . 374 (48): 4801–4803. arXiv : 1009.5219 . Código Bibliográfico : 2010PhLA..374.4801F . doi : 10.1016 / j.physleta.2010.10.005 . S2CID 55558124 .
- ^ Itoh, Mitsuhiro; Shishido, Yuichi (2008). "Métrica de información de Fisher y núcleos de Poisson". Geometría diferencial y sus aplicaciones . 26 (4): 347–356. doi : 10.1016 / j.difgeo.2007.11.027 . hdl : 2241/100265 .
Referencias
- Feng, Edward H .; Crooks, Gavin E. (2009). "Medidas de longitud termodinámica lejos del equilibrio". Revisión E física . 79 (1 Pt 1): 012104. arXiv : 0807.0621 . Código Bibliográfico : 2009PhRvE..79a2104F . doi : 10.1103 / PhysRevE.79.012104 . PMID 19257090 . S2CID 8210246 .
- Shun'ichi Amari (1985) Métodos geométricos diferenciales en estadística , Lecture Notes in Statistics, Springer-Verlag, Berlín.
- Shun'ichi Amari, Hiroshi Nagaoka (2000) Métodos de geometría de la información , Traducciones de monografías matemáticas; v. 191, Sociedad Matemática Estadounidense.
- Paolo Gibilisco, Eva Riccomagno, Maria Piera Rogantin y Henry P. Wynn, (2009) Métodos algebraicos y geométricos en estadística , Cambridge U. Press, Cambridge.