De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística y geometría de la información , la función de divergencia o contraste es una función que establece la "distancia" de una distribución de probabilidad a la otra en una variedad estadística . La divergencia es una noción más débil que la de la distancia , en particular la necesidad divergencia no ser simétrica (es decir, en general, la divergencia de p a q no es igual a la divergencia de q a p ), y necesidad no satisface el triángulo desigualdad .

Definición [ editar ]

Suponga que S es un espacio de todas las distribuciones de probabilidad con soporte común. Entonces una divergencia en S es una función D (· || ·): S × SR satisface [1]

  1. D ( p  ||  q ) ≥ 0 para todo p , qS ,
  2. D ( p  ||  q ) = 0 si y solo si p = q ,

La divergencia dual D * se define como

Propiedades geométricas [ editar ]

Se pueden derivar muchas propiedades de las divergencias si restringimos S para que sea una variedad estadística, lo que significa que se puede parametrizar con un sistema de coordenadas de dimensión finita θ , de modo que para una distribución pS podemos escribir p = p ( θ ) .

Para un par de puntos p , qS con coordenadas θ p y θ q , denote las derivadas parciales de D ( p  ||  q ) como

Ahora restringimos estas funciones a una diagonal p = q , y denotamos [2]

Por definición, la función D ( p  ||  q ) se minimiza en p = q , y por lo tanto

donde matriz g ( D ) es positivo semi-definido y define una única métrica de Riemann en el colector de S .

La divergencia D (· || ·) también define un único torsión exento de conexión afín( D ) con coeficientes

y el dual a esta conexión ∇ * es generado por la divergencia dual D *.

Por lo tanto, una divergencia D (· || ·) genera en una variedad estadística una estructura dualista única ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Lo contrario también es cierto: toda estructura dualista libre de torsión en una variedad estadística se induce a partir de alguna función de divergencia definida globalmente (que, sin embargo, no tiene por qué ser única). [3]

Por ejemplo, cuando D es una f-divergencia para alguna función ƒ (·), entonces genera la métrica g ( D f ) = c · gy la conexión ( D f ) = ∇ ( α ) , donde g es la métrica de información canónica de Fisher , ∇ ( α ) es la conexión α , c = ƒ ′ ′ (1) y α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1) .

Ejemplos [ editar ]

Las dos divergencias más importantes son la entropía relativa ( divergencia Kullback-Leibler , divergencia KL), que es fundamental para la teoría de la información y la estadística, y la distancia euclidiana al cuadrado (SED). Minimizar estas dos divergencias es la principal forma en que se resuelven los problemas lineales inversos , a través del principio de máxima entropía y mínimos cuadrados , especialmente en regresión logística y regresión lineal . [4]

Las dos clases más importantes de divergencias son las f -divergencias y las divergencias de Bregman ; sin embargo, también se encuentran en la literatura otros tipos de funciones de divergencia. La única divergencia que es tanto una divergencia f como una divergencia de Bregman es la divergencia Kullback-Leibler; la divergencia euclidiana al cuadrado es una divergencia de Bregman (correspondiente a la función ), pero no una divergencia f .

f-divergencias [ editar ]

Esta familia de divergencias se genera mediante funciones f ( u ), convexas en u > 0 y tales que f (1) = 0 . Entonces una f- divergencia se define como

Si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva, entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones progresivas de Kolmogorov (o ecuación maestra ), que se utiliza para describir la evolución temporal de la probabilidad. distribución en el proceso de Markov. Esto significa que todas las f- divergencias son las funciones de Lyapunov de las ecuaciones directas de Kolmogorov. El enunciado inverso también es cierto: si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y tiene la forma traza ( ) , entonces , para alguna función convexaf . [5] [6] Las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov.

Divergencias de Bregman [ editar ]

Las divergencias de Bregman corresponden a funciones convexas en conjuntos convexos. Dada una función F estrictamente convexa y continuamente diferenciable en un conjunto convexo , conocido como generador de Bregman , la divergencia de Bregman mide la convexidad de: el error de la aproximación lineal de F de q como una aproximación del valor en p :

La divergencia dual a una divergencia de Bregman es la divergencia generada por el conjugado convexo F * del generador de Bregman de la divergencia original. Por ejemplo, para la distancia euclidiana al cuadrado, el generador es , mientras que para la entropía relativa, el generador es la entropía negativa .

Historia [ editar ]

El término "divergencia" para una distancia estadística se utilizó informalmente en varios contextos desde c. 1910 a c. 1940. Su uso formal data al menos de Bhattacharyya (1943) , titulado "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad", que definió la distancia Bhattacharyya , y Bhattacharyya (1946) , titulado "Sobre una medida Divergencia entre dos poblaciones multinomiales ", que definió el ángulo de Bhattacharyya . El término se popularizó por su uso para la divergencia Kullback-Leibler en Kullback y Leibler (1951) , su uso en el libro de texto Kullback (1959) , y luego por Ali ySilvey (1966)generalmente, para la clase de f- divergencias. El término "distancia de Bregman" todavía se encuentra, pero ahora se prefiere "divergencia de Bregman". En geometría de la información, se utilizaron inicialmente términos alternativos, incluyendo "cuasi-distancia" Amari (1982 , p. 369) y "función de contraste" Eguchi (1985) , aunque "divergencia" se utilizó en Amari (1985) para la α- divergencia. , y se ha convertido en estándar (p. ej., Amari y Cichocki (2010) ).

Ver también [ editar ]

  • Distancia estadística

Referencias [ editar ]

  1. Eguchi (1985)
  2. ^ Eguchi (1992)
  3. Matumoto (1993)
  4. ^ Csiszár 1991 .
  5. ^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monotónicamente equivalentes y solución de ecuación de aditividad". Un Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . doi : 10.1016 / S0378-4371 (03) 00578-8 .
  6. ^ Amari, Shun'ichi (2009). Leung, CS; Lee, M .; Chan, JH (eds.). Divergencia, Optimización, Geometría . La 16ª Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi : 10.1007 / 978-3-642-10677-4_21 .
  • Amari, Shun-ichi ; Nagaoka, Hiroshi (2000). Métodos de geometría de la información . Prensa de la Universidad de Oxford. ISBN 0-8218-0531-2.CS1 maint: ref duplicates default (link)
  • Eguchi, Shinto (1985). "Una aproximación geométrica diferencial a la inferencia estadística sobre la base de funcionales de contraste" . Revista matemática de Hiroshima . 15 (2): 341–391. doi : 10.32917 / hmj / 1206130775 .CS1 maint: ref duplicates default (link)
  • Eguchi, Shinto (1992). "Geometría de mínimo contraste" . Revista matemática de Hiroshima . 22 (3): 631–647. doi : 10.32917 / hmj / 1206128508 .CS1 maint: ref duplicates default (link)
  • Matumoto, Takao (1993). "Cualquier colector estadístico tiene una función de contraste - en las funciones C³ tomando el mínimo en la diagonal del colector del producto" . Revista matemática de Hiroshima . 23 (2): 327–332. doi : 10.32917 / hmj / 1206128255 .CS1 maint: ref duplicates default (link)