En teoría de probabilidad y estadística , la divergencia de Jensen - Shannon es un método para medir la similitud entre dos distribuciones de probabilidad . También se conoce como radio de información ( IRad ) [1] o divergencia total al promedio . [2] Se basa en la divergencia Kullback-Leibler , con algunas diferencias notables (y útiles), entre ellas que es simétrica y siempre tiene un valor finito. La raíz cuadrada de la divergencia Jensen-Shannon es una métrica a la que a menudo se hace referencia como distancia de Jensen-Shannon. [3][4] [5]
Definición
Considere el conjunto de distribuciones de probabilidad donde A es un conjunto provisto de alguna σ-álgebra de subconjuntos medibles. En particular, podemos tomar A como un conjunto finito o contable con todos los subconjuntos medibles.
La divergencia Jensen-Shannon (JSD) es una versión simétrizada y suavizada de la divergencia Kullback-Leibler . Está definido por
dónde
La divergencia geométrica de Jensen-Shannon (o divergencia de G-Jensen-Shannon) produce una fórmula de forma cerrada para la divergencia entre dos distribuciones gaussianas tomando la media geométrica.
Una definición más general, que permite la comparación de más de dos distribuciones de probabilidad, es:
dónde
y son ponderaciones que se seleccionan para las distribuciones de probabilidad , y es la entropía de Shannon para la distribución. Para el caso de dos distribuciones descrito anteriormente,
Por lo tanto, para esas distribuciones
Límites
La divergencia Jensen-Shannon está limitada por 1 para dos distribuciones de probabilidad, dado que se usa el logaritmo en base 2. [6]
Con esta normalización, es un límite inferior en la distancia de variación total entre P y Q:
Para la base logarítmica e, o ln, que se usa comúnmente en termodinámica estadística, el límite superior es ln (2):
Un límite más general, la divergencia Jensen-Shannon está delimitada por para más de dos distribuciones de probabilidad, dado que se usa el logaritmo en base 2. [6]
Relación con la información mutua
La divergencia Jensen-Shannon es la información mutua entre una variable aleatoriaasociado a una distribución de mezcla entre y y la variable indicadora binaria que se usa para cambiar entre y para producir la mezcla. Dejar ser alguna función abstracta en el conjunto subyacente de eventos que discrimina bien entre eventos, y elegir el valor de de acuerdo a Si y de acuerdo a Si , dónde es equiprobable. Es decir, estamos eligiendo según la medida de probabilidad , y su distribución es la distribución de la mezcla. Nosotros calculamos
Del resultado anterior se deduce que la divergencia Jensen-Shannon está limitada por 0 y 1 porque la información mutua no es negativa y está limitada por .
Se puede aplicar el mismo principio a una distribución conjunta y el producto de sus dos distribuciones marginales (en analogía con la divergencia e información mutua de Kullback-Leibler) y medir con qué fiabilidad se puede decidir si una respuesta dada proviene de la distribución conjunta o del producto. distribución, sujeto a la suposición de que estas son las únicas dos posibilidades. [7]
Divergencia cuántica de Jensen-Shannon
La generalización de distribuciones de probabilidad sobre matrices de densidad permite definir la divergencia cuántica de Jensen-Shannon (QJSD). [8] [9] Se define para un conjunto de matrices de densidad. y una distribución de probabilidad como
dónde es la entropía de von Neumann de. Esta cantidad se introdujo en la teoría de la información cuántica , donde se llama información de Holevo: da el límite superior para la cantidad de información clásica codificada por los estados cuánticos. bajo la distribución previa (ver teorema de Holevo ). [10] Divergencia cuántica Jensen-Shannon paray dos matrices de densidad es una función simétrica, definida en todas partes, acotada e igual a cero solo si dos matrices de densidad son iguales. Es un cuadrado de una métrica para estados puros , [11] y recientemente se demostró que esta propiedad métrica también es válida para estados mixtos. [12] [13] La métrica de Bures está estrechamente relacionada con la divergencia cuántica de JS; es el análogo cuántico de la métrica de información de Fisher .
Generalización
Nielsen introdujo la divergencia K sesgada: [14] Sigue una familia uniparamétrica de divergencias de Jensen-Shannon, llamada -Divergencias de Jensen-Shannon: que incluye la divergencia Jensen-Shannon (por ) y la mitad de la divergencia de Jeffreys (por ).
Otra generalización de la divergencia Jensen-Shannon consiste en considerar mezclas con respecto a una media M [15] (como la media geométrica en lugar de la media aritmética). La mezcla M estadística es dónde es el factor de normalización: Entonces la divergencia generalizada de Jensen-Shannon es
dónde . La divergencia geométrica de Jensen-Shannon entre las densidades de una familia exponencial se obtiene luego en una fórmula de forma cerrada.
Aplicaciones
La divergencia Jensen-Shannon se ha aplicado en bioinformática y comparación del genoma , [16] [17] en la comparación de superficies de proteínas, [18] en las ciencias sociales, [19] en el estudio cuantitativo de la historia, [20] , experimentos con incendios [ 21] y en aprendizaje automático. [22]
Notas
- ^ Hinrich Schütze; Christopher D. Manning (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, Mass: MIT Press. pag. 304. ISBN 978-0-262-13360-9.
- ^ Dagan, Ido; Lillian Lee ; Fernando Pereira (1997). "Métodos basados en la similitud para la desambiguación del sentido de la palabra" . Actas de la trigésima quinta reunión anual de la Asociación de Lingüística Computacional y Octava Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional : 56–63. arXiv : cmp-lg / 9708010 . Código bibliográfico : 1997cmp.lg .... 8010D . doi : 10.3115 / 979617.979625 . Consultado el 9 de marzo de 2008 .
- ^ Endres, DM; JE Schindelin (2003). "Una nueva métrica para distribuciones de probabilidad" (PDF) . IEEE Trans. Inf. Teoría . 49 (7): 1858–1860. doi : 10.1109 / TIT.2003.813506 . hdl : 10023/1591 .
- ^ Ôsterreicher, F .; I. Vajda (2003). "Una nueva clase de divergencias métricas en espacios de probabilidad y sus aplicaciones estadísticas". Ana. Inst. Estadístico. Matemáticas . 55 (3): 639–653. doi : 10.1007 / BF02517812 .
- ^ Fuglede, B .; Topsoe, F. (2004). "Divergencia de Jensen-Shannon e incrustación del espacio de Hilbert" (PDF) . Actas del Simposio Internacional sobre Teoría de la Información, 2004 . IEEE. pag. 30. doi : 10.1109 / ISIT.2004.1365067 . ISBN 978-0-7803-8280-0.
- ^ a b Lin, J. (1991). "Medidas de divergencia basadas en la entropía de Shannon" (PDF) . Transacciones IEEE sobre teoría de la información . 37 (1): 145-151. CiteSeerX 10.1.1.127.9167 . doi : 10.1109 / 18.61115 .
- ^ Schneidman, Elad; Bialek, W; Berry, MJ 2nd (2003). "Sinergia, redundancia e independencia en los códigos de población" . Revista de neurociencia . 23 (37): 11539-11553. doi : 10.1523 / JNEUROSCI.23-37-11539.2003 . PMID 14684857 .
- ^ Majtey, A .; Lamberti, P .; Prato, D. (2005). "Divergencia Jensen-Shannon como una medida de distinguibilidad entre estados cuánticos mixtos". Physical Review A . 72 (5): 052310. arXiv : quant-ph / 0508138 . Código Bibliográfico : 2005PhRvA..72e2310M . doi : 10.1103 / PhysRevA.72.052310 .
- ^ Briët, Jop; Harremoës, Peter (2009). "Propiedades de la divergencia clásica y cuántica de Jensen-Shannon". Physical Review A . 79 (5): 052311. arXiv : 0806.4472 . Código bibliográfico : 2009PhRvA..79e2311B . doi : 10.1103 / PhysRevA.79.052311 .
- ^ Holevo, AS (1973), "Límites para la cantidad de información transmitida por un canal de comunicación cuántica", Problemy Peredachi Informatsii (en ruso), 9 : 3-11. Traducción al inglés: Probl. Inf. Transm ., 9 : 177-183 (1975) SR.456936
- ^ Braunstein, Samuel; Cuevas, Carlton (1994). "Distancia estadística y geometría de estados cuánticos". Cartas de revisión física . 72 (22): 3439–3443. Código bibliográfico : 1994PhRvL..72.3439B . doi : 10.1103 / PhysRevLett.72.3439 . PMID 10056200 .
- ^ Virosztek, Dániel (2019). "La propiedad métrica de la divergencia cuántica Jensen-Shannon". arXiv : 1910.10447 .
- ^ Sra, Suvrit (2019). "Métricas inducidas por Quantum Jensen-Shannon-Renyí y divergencias relacionadas". arXiv : 1911.02643 .
- ^ Nielsen, Frank (2010). "Una familia de divergencias simétricas estadísticas basadas en la desigualdad de Jensen". arXiv : 1009.4004 [ cs.CV ].
- ^ Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medios abstractos" . Entropía . 21 . doi : 10.3390 / e21050485 .
- ^ Sims, GE; Jun, SR; Wu, GA; Kim, SH (2009). "Comparación de genoma sin alineación con perfiles de frecuencia de características (FFP) y resoluciones óptimas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (8): 2677–82. Código bibliográfico : 2009PNAS..106.2677S . doi : 10.1073 / pnas.0813249106 . PMC 2634796 . PMID 19188606 .
- ^ Itzkovitz, S; Hodis, E; Segal, E (2010). "Códigos superpuestos dentro de secuencias codificantes de proteínas" . Investigación del genoma . 20 (11): 1582–9. doi : 10.1101 / gr.105072.110 . PMC 2963821 . PMID 20841429 .
- ^ Ofran, Y; Rost, B (2003). "Análisis de seis tipos de interfaces proteína-proteína". Revista de Biología Molecular . 325 (2): 377–87. CiteSeerX 10.1.1.6.9207 . doi : 10.1016 / s0022-2836 (02) 01223-8 . PMID 12488102 .
- ^ DeDeo, Simon; Hawkins, Robert XD; Klingenstein, Sara; Hitchcock, Tim (2013). "Métodos Bootstrap para el estudio empírico de la toma de decisiones y los flujos de información en los sistemas sociales". Entropía . 15 (6): 2246–2276. arXiv : 1302.0907 . Código bibliográfico : 2013Entrp..15.2246D . doi : 10.3390 / e15062246 .
- ^ Klingenstein, Sara; Hitchcock, Tim; DeDeo, Simon (2014). "El proceso de civilización en Old Bailey de Londres" . Actas de la Academia Nacional de Ciencias . 111 (26): 9419–9424. Código bibliográfico : 2014PNAS..111.9419K . doi : 10.1073 / pnas.1405984111 . PMC 4084475 . PMID 24979792 .
- ^ Flavia-Corina Mitroi-Symeonidis; Ion Anghel; Nicuşor Minculete (2020). "Complejidad estadística paramétrica de Jensen-Shannon y sus aplicaciones en datos de incendios de compartimentos a gran escala" . Simetría (12 (1)): 22. doi : 10.3390 / sym12010022 .
- ^ Goodfellow, Ian J .; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas antagónicas . NIPS . arXiv : 1406.2661 . Código Bibliográfico : 2014arXiv1406.2661G .
Otras lecturas
- Frank Nielsen (2010). "Una familia de divergencias simétricas estadísticas basadas en la desigualdad de Jensen". arXiv : 1009.4004 [ cs.CV ].
enlaces externos
- Gema de rubí para calcular la divergencia de JS
- Código Python para calcular la divergencia de JS
- THOTH: un paquete de Python para la estimación eficiente de cantidades teóricas de la información a partir de datos empíricos.
- biblioteca statcomp R para calcular medidas de complejidad, incluida la divergencia de Jensen-Shannon