Distancia de Bhattacharyya


En estadística , la distancia de Bhattacharyya mide la similitud de dos distribuciones de probabilidad . Está estrechamente relacionado con el coeficiente de Bhattacharyya, que es una medida de la cantidad de superposición entre dos muestras estadísticas o poblaciones. Ambas medidas llevan el nombre de Anil Kumar Bhattacharyya , un estadístico que trabajó en la década de 1930 en el Instituto de Estadística de la India . [1] Ha desarrollado el método para medir la distancia entre dos distribuciones no normales y lo ha ilustrado con las poblaciones multinomiales clásicas [2]así como distribuciones de probabilidad absolutamente continuas con respecto a la medida de Lebesgue. [3] [4] Este último trabajo apareció parcialmente en 1943 en el Boletín de la Sociedad Matemática de Calcuta [vol. 35, págs. 99-109], [4] mientras que la primera parte, a pesar de haber sido enviada para su publicación en 1941, apareció casi cinco años después en Sankhya [vol. 7, 1946, págs. 401-406] [2] . [1]

El coeficiente se puede utilizar para determinar la proximidad relativa de las dos muestras que se están considerando. Se utiliza para medir la separabilidad de clases en la clasificación y se considera más confiable que la distancia de Mahalanobis , ya que la distancia de Mahalanobis es un caso particular de la distancia de Bhattacharyya cuando las desviaciones estándar de las dos clases son las mismas. En consecuencia, cuando dos clases tienen medias similares pero diferentes desviaciones estándar, la distancia de Mahalanobis tendería a cero, mientras que la distancia de Bhattacharyya crece dependiendo de la diferencia entre las desviaciones estándar.

Para las distribuciones de probabilidad p y q en el mismo dominio de X , la distancia Bhattacharyya se define como

En cualquier caso, y . no obedece a la desigualdad del triángulo , pero la distancia de Hellinger , que está dada por, sí obedece a la desigualdad del triángulo.

En su formulación más simple, la distancia de Bhattacharyya entre dos clases bajo la distribución normal se puede calcular [5] extrayendo la media y las varianzas de dos distribuciones o clases separadas:

La distancia de Mahalanobis utilizada en el análisis discriminante lineal de Fisher es un caso particular de la distancia de Bhattacharyya.