Distancia de Bhattacharyya

En estadística , la distancia de Bhattacharyya mide la similitud de dos distribuciones de probabilidad . Está estrechamente relacionado con el coeficiente de Bhattacharyya, que es una medida de la cantidad de superposición entre dos muestras estadísticas o poblaciones. Ambas medidas llevan el nombre de Anil Kumar Bhattacharya , un estadístico que trabajó en la década de 1930 en el Instituto de Estadística de la India . ^[1]

El coeficiente se puede utilizar para determinar la proximidad relativa de las dos muestras que se están considerando. Se utiliza para medir la separabilidad de clases en la clasificación y se considera más confiable que la distancia de Mahalanobis , ya que la distancia de Mahalanobis es un caso particular de la distancia de Bhattacharyya cuando las desviaciones estándar de las dos clases son las mismas. En consecuencia, cuando dos clases tienen medias similares pero diferentes desviaciones estándar, la distancia de Mahalanobis tendería a cero, mientras que la distancia de Bhattacharyya crece dependiendo de la diferencia entre las desviaciones estándar.

Definición

Para las distribuciones de probabilidad p y q en el mismo dominio de X , la distancia Bhattacharyya se define como

{\ Displaystyle D_ {B} (p, q) = - \ ln \ left (BC (p, q) \ right)}

dónde

{\ Displaystyle BC (p, q) = \ sum _ {x \ in X} {\ sqrt {p (x) q (x)}}}

es el coeficiente de Bhattacharyya para distribuciones de probabilidad discretas .

Para distribuciones de probabilidad continuas , el coeficiente de Bhattacharyya se define como

{\ Displaystyle BC (p, q) = \ int {\ sqrt {p (x) q (x)}} \, dx}

En cualquier caso, ${\ Displaystyle 0 \ leq BC \ leq 1}$ y ${\ Displaystyle 0 \ leq D_ {B} \ leq \ infty}$ . ${\ Displaystyle D_ {B}}$ no obedece a la desigualdad del triángulo , sino a la distancia de Hellinger , que viene dada por ${\ Displaystyle {\ sqrt {1-BC (p, q)}}}$ obedece a la desigualdad del triángulo.

En su formulación más simple, la distancia de Bhattacharyya entre dos clases bajo la distribución normal se puede calcular ^[2] extrayendo la media y las varianzas de dos distribuciones o clases separadas:

{\ Displaystyle D_ {B} (p, q) = {\ frac {1} {4}} \ ln \ left ({\ frac {1} {4}} \ left ({\ frac {\ sigma _ {p } ^ {2}} {\ sigma _ {q} ^ {2}}} + {\ frac {\ sigma _ {q} ^ {2}} {\ sigma _ {p} ^ {2}}} + 2 \ right) \ right) + {\ frac {1} {4}} \ left ({\ frac {(\ mu _ {p} - \ mu _ {q}) ^ {2}} {\ sigma _ {p } ^ {2} + \ sigma _ {q} ^ {2}}} \ right)}

dónde:

${\ Displaystyle \ sigma _ {p} ^ {2}}$	es la varianza de la distribución p -ésima,
${\ Displaystyle \ mu _ {p}}$	es la media de la distribución p -ésima, y
${\ Displaystyle p, q}$	son dos distribuciones diferentes.

La distancia de Mahalanobis utilizada en el análisis discriminante lineal de Fisher es un caso particular de la distancia de Bhattacharyya.

Por normales multivariantes distribuciones ${\ Displaystyle p_ {i} = {\ mathcal {N}} ({\ boldsymbol {\ mu}} _ {i}, \, {\ boldsymbol {\ Sigma}} _ {i})}$ ,

{\ displaystyle D_ {B} = {1 \ over 8} ({\ boldsymbol {\ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {2}) ^ {T} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ boldsymbol {\ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {2}) + {1 \ over 2} \ ln \, \ left ({ \ det {\ boldsymbol {\ Sigma}} \ over {\ sqrt {\ det {\ boldsymbol {\ Sigma}} _ {1} \, \ det {\ boldsymbol {\ Sigma}} _ {2}}}} \ derecho),}

dónde ${\ displaystyle {\ boldsymbol {\ mu}} _ {i}}$ y ${\ Displaystyle {\ boldsymbol {\ Sigma}} _ {i}}$ son las medias y covarianzas de las distribuciones, y

{\ displaystyle {\ boldsymbol {\ Sigma}} = {{\ boldsymbol {\ Sigma}} _ {1} + {\ boldsymbol {\ Sigma}} _ {2} \ over 2}.}

Tenga en cuenta que, en este caso, el primer término en la distancia Bhattacharyya está relacionado con la distancia Mahalanobis .

Coeficiente de Bhattacharyya

El coeficiente de Bhattacharyya es una medida aproximada de la cantidad de superposición entre dos muestras estadísticas . El coeficiente se puede utilizar para determinar la proximidad relativa de las dos muestras que se están considerando.

El cálculo del coeficiente de Bhattacharyya implica una forma rudimentaria de integración de la superposición de las dos muestras. El intervalo de los valores de las dos muestras se divide en un número elegido de particiones , y el número de miembros de cada muestra en cada partición se utiliza en la siguiente fórmula:

{\ Displaystyle BC (\ mathbf {p}, \ mathbf {q}) = \ sum _ {i = 1} ^ {n} {\ sqrt {p_ {i} q_ {i}}},}

^[3]

donde, teniendo en cuenta la muestras de p y q , n es el número de particiones, y ${\ Displaystyle p_ {i}}$ , ${\ Displaystyle q_ {i}}$ son los números de miembros de muestras de p y q en el i partición-ésimo.

Por tanto, esta fórmula es más grande con cada partición que tiene miembros de ambas muestras y más grande con cada partición que tiene una gran superposición de los miembros de las dos muestras dentro de ella. La elección del número de particiones depende del número de miembros en cada muestra; muy pocas particiones perderán precisión al sobrestimar la región de superposición, y demasiadas particiones perderán precisión al crear particiones individuales sin miembros a pesar de estar en un espacio muestral densamente poblado.

El coeficiente de Bhattacharyya será 0 si no hay superposición en absoluto debido a la multiplicación por cero en cada partición. Esto significa que la distancia entre muestras completamente separadas no estará expuesta solo por este coeficiente.

El coeficiente de Bhattacharyya se utiliza en la construcción de códigos polares . ^[4]

Aplicaciones

La distancia de Bhattacharyya se usa ampliamente en la investigación de extracción y selección de características, ^[5] procesamiento de imágenes, ^[6] reconocimiento de locutor , ^[7] y agrupación de teléfonos. ^[8]

Se ha propuesto un "espacio Bhattacharyya" como una técnica de selección de características que se puede aplicar a la segmentación de texturas. ^[9]

Ver también

Referencias

^ Bhattacharyya, A. (1943). "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad". Boletín de la Sociedad Matemática de Calcuta . 35 : 99–109. Señor 0010358 .
^ Guy B. Coleman, Harry C. Andrews, "Segmentación de imágenes por agrupación", Proc IEEE , vol. 67, núm. 5, págs. 773–785, 1979
^ D. Comaniciu, V. Ramesh, P. Meer, Seguimiento en tiempo real de objetos no rígidos usando Mean Shift Archivado el 14 de agosto de 2010en Wayback Machine , PREMIO AL MEJOR PAPEL, IEEE Conf. Visión por computadora y reconocimiento de patrones (CVPR'00), Hilton Head Island, Carolina del Sur, vol. 2, 142–149, 2000
^ Arıkan, Erdal (julio de 2009). "Polarización de canal: un método para construir códigos de logro de capacidad para canales sin memoria de entrada binaria simétrica". Transacciones IEEE sobre teoría de la información . 55 (7): 3051-3073. arXiv : 0807.3917 . doi : 10.1109 / TIT.2009.2021379 .
^ Euisun Choi, Chulhee Lee, "Extracción de características basada en la distancia de Bhattacharyya", Reconocimiento de patrones , volumen 36, número 8, agosto de 2003, páginas 1703-1709
^ François Goudail, Philippe Réfrégier, Guillaume Delyon, "La distancia de Bhattacharyya como parámetro de contraste para el procesamiento estadístico de imágenes ópticas ruidosas", JOSA A , vol. 21, número 7, págs. 1231-1240 (2004)
^ Chang Huai You, "Un núcleo de SVM con GMM-Supervector basado en la distancia de Bhattacharyya para el reconocimiento del hablante", Cartas de procesamiento de señales , IEEE, Vol 16, Is 1, págs. 49-52
^ Mak, B., "Agrupación telefónica usando la distancia de Bhattacharyya", Lenguaje hablado , 1996. ICSLP 96. Proceedings., Cuarta Conferencia Internacional sobre, Vol 4, pp. 2005-2008 vol.4, 3-6 de octubre de 1996
^ Reyes-Aldasoro, CC y A. Bhalerao, "El espacio Bhattacharyya para la selección de características y su aplicación a la segmentación de texturas", Reconocimiento de patrones , (2006) Vol. 39, número 5, mayo de 2006, págs. 812–826

Nielsen, F .; Boltz, S. (2010). "Los centroides de Burbea-Rao y Bhattacharyya". Transacciones IEEE sobre teoría de la información . 57 (8): 5455–5466. arXiv : 1004.5049 . doi : 10.1109 / TIT.2011.2159046 .

Kailath, T. (1967). "Las medidas de distancia de divergencia y Bhattacharyya en la selección de señales". Transacciones IEEE sobre tecnología de la comunicación . 15 (1): 52–60. doi : 10.1109 / TCOM.1967.1089532 .

Djouadi, A .; Snorrason, O .; Garber, F. (1990). "La calidad de las estimaciones de la muestra de formación del coeficiente de Bhattacharyya". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 12 (1): 92–97. doi : 10.1109 / 34.41388 .

Para obtener una breve lista de propiedades, consulte: http://www.mtm.ufsc.br/~taneja/book/node20.html

enlaces externos

"Distancia de Bhattacharyya" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]

[1] Bhattacharyya, A. (1943). "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad". Boletín de la Sociedad Matemática de Calcuta . 35 : 99–109. Señor 0010358 .

[Coleman79-2] Guy B. Coleman, Harry C. Andrews, "Segmentación de imágenes por agrupación", Proc IEEE , vol. 67, núm. 5, págs. 773–785, 1979

[Ref_-3] D. Comaniciu, V. Ramesh, P. Meer, Seguimiento en tiempo real de objetos no rígidos usando Mean Shift Archivado el 14 de agosto de 2010en Wayback Machine , PREMIO AL MEJOR PAPEL, IEEE Conf. Visión por computadora y reconocimiento de patrones (CVPR'00), Hilton Head Island, Carolina del Sur, vol. 2, 142–149, 2000

[4] Arıkan, Erdal (julio de 2009). "Polarización de canal: un método para construir códigos de logro de capacidad para canales sin memoria de entrada binaria simétrica". Transacciones IEEE sobre teoría de la información . 55 (7): 3051-3073. arXiv : 0807.3917 . doi : 10.1109 / TIT.2009.2021379 .

[5] Euisun Choi, Chulhee Lee, "Extracción de características basada en la distancia de Bhattacharyya", Reconocimiento de patrones , volumen 36, número 8, agosto de 2003, páginas 1703-1709

[Goudail-6] François Goudail, Philippe Réfrégier, Guillaume Delyon, "La distancia de Bhattacharyya como parámetro de contraste para el procesamiento estadístico de imágenes ópticas ruidosas", JOSA A , vol. 21, número 7, págs. 1231-1240 (2004)

[You-7] Chang Huai You, "Un núcleo de SVM con GMM-Supervector basado en la distancia de Bhattacharyya para el reconocimiento del hablante", Cartas de procesamiento de señales , IEEE, Vol 16, Is 1, págs. 49-52

[Mak-8] Mak, B., "Agrupación telefónica usando la distancia de Bhattacharyya", Lenguaje hablado , 1996. ICSLP 96. Proceedings., Cuarta Conferencia Internacional sobre, Vol 4, pp. 2005-2008 vol.4, 3-6 de octubre de 1996

[Reyes-Aldasoro-9] Reyes-Aldasoro, CC y A. Bhalerao, "El espacio Bhattacharyya para la selección de características y su aplicación a la segmentación de texturas", Reconocimiento de patrones , (2006) Vol. 39, número 5, mayo de 2006, págs. 812–826

[1]