Distancia Hellinger

En probabilidad y estadística , la distancia de Hellinger (estrechamente relacionada, aunque diferente, a la distancia de Bhattacharyya ) se utiliza para cuantificar la similitud entre dos distribuciones de probabilidad . Es un tipo de f- divergencia . La distancia de Hellinger se define en términos de la integral de Hellinger , que fue introducida por Ernst Hellinger en 1909. ^[1]^[2]

Definición

Teoría de la medida

Para definir la distancia de Hellinger en términos de la teoría de la medida , denoten P y Q dos medidas de probabilidad que son absolutamente continuas con respecto a una tercera medida de probabilidad λ. El cuadrado de la distancia de Hellinger entre P y Q se define como la cantidad

{\ Displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ Displaystyle \ int \ left ({\ sqrt {\ frac {dP} {d \ lambda}}} - {\ sqrt {\ frac {dQ} {d \ lambda}}} \ right) ^ {2} d \ lambda.}

Aquí, dP / dλ y dQ / d λ son las derivadas Radon-Nikodym de P y Q respectivamente. Esta definición no depende de λ, por lo que la distancia de Hellinger entre P y Q no cambia si λ se reemplaza con una medida de probabilidad diferente con respecto a la cual tanto P como Q son absolutamente continuos. Para compacidad, la fórmula anterior a menudo se escribe como

{\ Displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ int \ left ({\ sqrt {dP}} - {\ sqrt {dQ}} \ right) ^ {2 }.}

Teoría de la probabilidad usando la medida de Lebesgue

Para definir la distancia de Hellinger en términos de la teoría de probabilidad elemental, tomamos λ como la medida de Lebesgue , de modo que dP / dλ y dQ / d λ son simplemente funciones de densidad de probabilidad . Si denotamos las densidades como f y g , respectivamente, la distancia de Hellinger al cuadrado se puede expresar como una integral de cálculo estándar

{\ Displaystyle H ^ {2} (f, g) = {\ frac {1} {2}} \ int \ left ({\ sqrt {f (x)}} - {\ sqrt {g (x)}} \ right) ^ {2} \, dx = 1- \ int {\ sqrt {f (x) g (x)}} \, dx,}

donde la segunda forma se puede obtener expandiendo el cuadrado y usando el hecho de que la integral de una densidad de probabilidad sobre su dominio es igual a 1.

La distancia de Hellinger H ( P , Q ) satisface la propiedad (derivable de la desigualdad de Cauchy-Schwarz )

{\ Displaystyle 0 \ leq H (P, Q) \ leq 1.}

Distribuciones discretas

Para dos distribuciones de probabilidad discretas ${\ Displaystyle P = (p_ {1}, \ ldots, p_ {k})}$ y ${\ Displaystyle Q = (q_ {1}, \ ldots, q_ {k})}$ , su distancia Hellinger se define como

{\ Displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ sqrt {\ sum _ {i = 1} ^ {k} ({\ sqrt {p_ {i }}} - {\ sqrt {q_ {i}}}) ^ {2}}},}

que está directamente relacionada con la norma euclidiana de la diferencia de los vectores de raíz cuadrada, es decir

{\ Displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ bigl \ |} {\ sqrt {P}} - {\ sqrt {Q}} {\ bigr \ |} _ {2}.}

También, ${\ Displaystyle 1-H ^ {2} (P, Q) = \ sum _ {i = 1} ^ {k} {\ sqrt {p_ {i} q_ {i}}}.}$

Propiedades

La distancia de Hellinger forma una métrica acotada en el espacio de distribuciones de probabilidad sobre un espacio de probabilidad dado .

La distancia máxima 1 se logra cuando P asigna probabilidad cero a cada conjunto al que Q asigna una probabilidad positiva, y viceversa.

A veces el factor ${\ Displaystyle 1 / {\ sqrt {2}}}$ delante de la integral se omite, en cuyo caso la distancia de Hellinger varía de cero a la raíz cuadrada de dos.

La distancia de Hellinger está relacionada con el coeficiente de Bhattacharyya ${\ Displaystyle BC (P, Q)}$ ya que se puede definir como

{\ Displaystyle H (P, Q) = {\ sqrt {1-BC (P, Q)}}.}

Las distancias de Hellinger se utilizan en la teoría de la estadística secuencial y asintótica . ^[3]^[4]

La distancia de Hellinger al cuadrado entre dos distribuciones normales ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sigma _ {1} ^ {2})}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sigma _ {2} ^ {2})}$ es:

{\ Displaystyle H ^ {2} (P, Q) = 1 - {\ sqrt {\ frac {2 \ sigma _ {1} \ sigma _ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}} \, e ^ {- {\ frac {1} {4}} {\ frac {(\ mu _ {1} - \ mu _ {2}) ^ {2 }} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}}.}

La distancia de Hellinger al cuadrado entre dos distribuciones normales multivariadas ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ Sigma _ {1})}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ Sigma _ {2})}$ es ^[5]

{\ Displaystyle H ^ {2} (P, Q) = 1 - {\ frac {\ det (\ Sigma _ {1}) ^ {1/4} \ det (\ Sigma _ {2}) ^ {1 / 4}} {\ det \ left ({\ frac {\ Sigma _ {1} + \ Sigma _ {2}} {2}} \ right) ^ {1/2}}} \ exp \ left \ {- { \ frac {1} {8}} (\ mu _ {1} - \ mu _ {2}) ^ {T} \ left ({\ frac {\ Sigma _ {1} + \ Sigma _ {2}} { 2}} \ derecha) ^ {- 1} (\ mu _ {1} - \ mu _ {2}) \ derecha \}}

La distancia de Hellinger al cuadrado entre dos distribuciones exponenciales ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Exp} (\ alpha)}}}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Exp} (\ beta)}}}$ es:

{\ Displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 {\ sqrt {\ alpha \ beta}}} {\ alpha + \ beta}}.}

La distancia de Hellinger al cuadrado entre dos distribuciones de Weibull ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ rm {{W} (k, \ alpha)}}}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{W} (k, \ beta)}}}$ (dónde ${\ Displaystyle k}$ es un parámetro de forma común y ${\ Displaystyle \ alpha \ ,, \ beta}$ son los parámetros de escala respectivamente):

{\ Displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 (\ alpha \ beta) ^ {k / 2}} {\ alpha ^ {k} + \ beta ^ {k}}} .}

La distancia de Hellinger al cuadrado entre dos distribuciones de Poisson con parámetros de tasa ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ , así que eso ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Poisson} (\ alpha)}}}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Poisson} (\ beta)}}}$ , es:

{\ Displaystyle H ^ {2} (P, Q) = 1-e ^ {- {\ frac {1} {2}} ({\ sqrt {\ alpha}} - {\ sqrt {\ beta}}) ^ {2}}.}

La distancia de Hellinger al cuadrado entre dos distribuciones Beta ${\ Displaystyle \ scriptstyle P \, \ sim \, {\ text {Beta}} (a_ {1}, b_ {1})}$ y ${\ Displaystyle \ scriptstyle Q \, \ sim \, {\ text {Beta}} (a_ {2}, b_ {2})}$ es:

{\ Displaystyle H ^ {2} (P, Q) = 1 - {\ frac {B \ left ({\ frac {a_ {1} + a_ {2}} {2}}, {\ frac {b_ {1 } + b_ {2}} {2}} \ right)} {\ sqrt {B (a_ {1}, b_ {1}) B (a_ {2}, b_ {2})}}}}

dónde ${\ Displaystyle B}$ es la función Beta .

Conexión con distancia de variación total

La distancia de Hellinger ${\ Displaystyle H (P, Q)}$ y la distancia de variación total (o distancia estadística) ${\ Displaystyle \ delta (P, Q)}$ están relacionados de la siguiente manera: ^[6]

{\ Displaystyle H ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \ ,.}

Estas desigualdades siguen inmediatamente de las desigualdades entre el 1-norma y el 2-norma .

Ver también

Notas

^ Nikulin, MS (2001) [1994], "Distancia de Hellinger" , Enciclopedia de las matemáticas , EMS Press
^ Hellinger, Ernst (1909), "Neue Begründung der Theorie quadratischer Formen von unendlichvielen Veränderlichen" , Journal für die reine und angewandte Mathematik (en alemán), 136 : 210-271, doi : 10.1515 / crll.1909.136.210 , JFM 40.0393. 01
^ Torgerson, Erik (1991). "Comparación de experimentos estadísticos". Enciclopedia de Matemáticas . 36 . Prensa de la Universidad de Cambridge.
^ Liese, Friedrich; Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Saltador. ISBN 0-387-73193-8.
^ Pardo, L. (2006). Inferencia estadística basada en medidas de divergencia . Nueva York: Chapman y Hall / CRC. pag. 51. ISBN 1-58488-600-5.
^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes sobre la complejidad de la comunicación" (PDF) .

Referencias

Yang, Grace Lo ; Le Cam, Lucien M. (2000). Asintótica en estadística: algunos conceptos básicos . Berlín: Springer. ISBN 0-387-95036-2.
Vaart, AW van der. Estadística asintótica (Cambridge Series in Statistical and Probabilistic Mathematics) . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-78450-6.
Pollard, David E. (2002). Una guía del usuario para medir la probabilidad teórica . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-00289-3.

[1] Nikulin, MS (2001) [1994], "Distancia de Hellinger" , Enciclopedia de las matemáticas , EMS Press

[2] Hellinger, Ernst (1909), "Neue Begründung der Theorie quadratischer Formen von unendlichvielen Veränderlichen" , Journal für die reine und angewandte Mathematik (en alemán), 136 : 210-271, doi : 10.1515 / crll.1909.136.210 , JFM 40.0393. 01

[3] Torgerson, Erik (1991). "Comparación de experimentos estadísticos". Enciclopedia de Matemáticas . 36 . Prensa de la Universidad de Cambridge.

[4] Liese, Friedrich; Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Saltador. ISBN 0-387-73193-8.

[5] Pardo, L. (2006). Inferencia estadística basada en medidas de divergencia . Nueva York: Chapman y Hall / CRC. pag. 51. ISBN 1-58488-600-5.

[6] Harsha, Prahladh (23 de septiembre de 2011). "Apuntes sobre la complejidad de la comunicación" (PDF) .

[1]