Índice Fowlkes-Mallows

El índice de Fowlkes-Mallows es un método de evaluación externo que se utiliza para determinar la similitud entre dos agrupaciones (agrupaciones obtenidas después de un algoritmo de agrupación ) y también una métrica para medir matrices de confusión . ^[1] Esta medida de similitud podría ser entre dos agrupaciones jerárquicas o una agrupación y una clasificación de referencia. Un valor más alto para el índice de Fowlkes-Mallows indica una mayor similitud entre los conglomerados y las clasificaciones de referencia.

Preliminares

El índice de Fowlkes-Mallows , cuando los resultados de dos algoritmos de agrupamiento se utilizan para evaluar los resultados, se define como ^[2]

{\ Displaystyle FM = {\ sqrt {PPV \ cdot TPR}} = {\ sqrt {{\ frac {TP} {TP + FP}} \ cdot {\ frac {TP} {TP + FN}}}}}

dónde ${\ displaystyle TP}$ es el número de verdaderos positivos , ${\ displaystyle FP}$ es el número de falsos positivos , y ${\ displaystyle FN}$ es el número de falsos negativos . ${\ displaystyle TPR}$ es la tasa positiva verdadera , también llamada sensibilidad o recuerdo , y ${\ Displaystyle PPV}$ es la tasa de predicción positiva , también conocida como precisión .

El valor mínimo posible del índice de Fowlkes-Mallows es 0, que corresponde a la peor clasificación binaria posible, donde todos los elementos se han clasificado erróneamente. Y el valor máximo posible del índice de Fowlkes-Mallows es 1, que corresponde a la mejor clasificación binaria posible, donde todos los elementos han sido perfectamente clasificados.

Definición

Considere dos agrupaciones jerárquicas de ${\ Displaystyle n}$ objetos etiquetados ${\ Displaystyle A_ {1}}$ y ${\ Displaystyle A_ {2}}$ . Los árboles ${\ Displaystyle A_ {1}}$ y ${\ Displaystyle A_ {2}}$ se puede cortar para producir ${\ Displaystyle k = 2, \ ldots, n-1}$ agrupaciones para cada árbol (ya sea seleccionando agrupaciones a una altura particular del árbol o estableciendo una fuerza diferente de la agrupación jerárquica). Por cada valor de ${\ Displaystyle k}$ , se puede crear la siguiente tabla

{\ Displaystyle M = [m_ {i, j}] \ qquad (i = 1, \ ldots, k {\ text {y}} j = 1, \ ldots, k)}

dónde ${\ Displaystyle m_ {i, j}}$ es de objetos comunes entre los ${\ Displaystyle i}$ th grupo de ${\ Displaystyle A_ {1}}$ y ${\ Displaystyle j}$ th grupo de ${\ Displaystyle A_ {2}}$ . El índice de Fowlkes-Mallows para el valor específico de ${\ Displaystyle k}$ entonces se define como

{\ Displaystyle B_ {k} = {\ frac {T_ {k}} {\ sqrt {P_ {k} Q_ {k}}}}}

dónde

{\ Displaystyle T_ {k} = \ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {k} m_ {i, j} ^ {2} -n}

{\ Displaystyle P_ {k} = \ sum _ {i = 1} ^ {k} (\ sum _ {j = 1} ^ {k} m_ {i, j}) ^ {2} -n}

{\ Displaystyle Q_ {k} = \ sum _ {j = 1} ^ {k} (\ sum _ {i = 1} ^ {k} m_ {i, j}) ^ {2} -n}

${\ Displaystyle B_ {k}}$ luego se puede calcular para cada valor de ${\ Displaystyle k}$ y la similitud entre los dos agrupamientos se puede mostrar trazando ${\ Displaystyle B_ {k}}$ versus ${\ Displaystyle k}$ . Para cada ${\ Displaystyle k}$ tenemos ${\ Displaystyle 0 \ leq B_ {k} \ leq 1}$ .

El índice Fowlkes-Mallows también se puede definir en función del número de puntos que son comunes o infrecuentes en las dos agrupaciones jerárquicas. Si definimos

{\ displaystyle TP}

como el número de pares de puntos que están presentes en el mismo grupo en ambos

{\ Displaystyle A_ {1}}

y

{\ Displaystyle A_ {2}}

.

{\ displaystyle FP}

como el número de pares de puntos que están presentes en el mismo grupo en

{\ Displaystyle A_ {1}}

pero no en

{\ Displaystyle A_ {2}}

.

{\ displaystyle FN}

como el número de pares de puntos que están presentes en el mismo grupo en

{\ Displaystyle A_ {2}}

pero no en

{\ Displaystyle A_ {1}}

.

{\ displaystyle TN}

como el número de pares de puntos que están en diferentes grupos en ambos

{\ Displaystyle A_ {1}}

y

{\ Displaystyle A_ {2}}

.

Se puede demostrar que los cuatro recuentos tienen la siguiente propiedad

{\ Displaystyle TP + FP + FN + TN = n (n-1) / 2}

y que el índice de Fowlkes-Mallows para dos agrupaciones se puede definir como ^[3]

{\ Displaystyle FM = {\ sqrt {PPV \ cdot TPR}} = {\ sqrt {{\ frac {TP} {TP + FP}} \ cdot {\ frac {TP} {TP + FN}}}}}

dónde

{\ displaystyle TP}

es el número de verdaderos positivos ,

{\ displaystyle FP}

es el número de falsos positivos , y

{\ displaystyle FN}

es el número de falsos negativos .

{\ displaystyle TPR}

es la tasa positiva verdadera , también llamada sensibilidad o recuerdo , y

{\ Displaystyle PPV}

es la tasa de predicción positiva , también conocida como precisión .

El índice de Fowlkes-Mallows es la media geométrica de precisión y recuerdo . ^[4]

Discusión

Dado que el índice es directamente proporcional al número de verdaderos positivos, un índice más alto significa una mayor similitud entre los dos agrupamientos utilizados para determinar el índice. Una forma básica de probar la validez de este índice es comparar dos agrupaciones que no están relacionadas entre sí. Fowlkes y Mallows demostraron que al utilizar dos agrupaciones no relacionadas, el valor de este índice se acerca a cero a medida que aumenta el número de puntos de datos totales elegidos para la agrupación; mientras que el valor del índice Rand para los mismos datos se acerca rápidamente ${\ Displaystyle 1}$ ^{[1] lo que} hace que el índice de Fowlkes-Mallows sea una representación mucho más precisa para datos no relacionados. Este índice también funciona bien si se agrega ruido a un conjunto de datos existente y se compara su similitud. Fowlkes y Mallows mostraron que el valor del índice disminuye a medida que aumenta el componente del ruido. El índice también mostró similitud incluso cuando el conjunto de datos ruidoso tenía un número diferente de grupos que los grupos del conjunto de datos original. Por lo tanto, es una herramienta confiable para medir la similitud entre dos grupos.

Lecturas adicionales

Fowlkes, Edward B; Mallows, Colin L (1983). "Un método para comparar dos agrupaciones jerárquicas" . Revista de la Asociación Estadounidense de Estadística . 78 (383): 553--569. doi : 10.1080 / 01621459.1983.10478008 .

Referencias

^ ^a ^b Fowlkes, EB; Mallows, CL (1 de septiembre de 1983). "Un método para comparar dos agrupaciones jerárquicas". Revista de la Asociación Estadounidense de Estadística . 78 (383): 553. doi : 10.2307 / 2288117 .
^ Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1 de enero de 2001). "Sobre técnicas de validación de clústeres". Revista de sistemas de información inteligentes . 17 (2/3): 107–145. doi : 10.1023 / A: 1012801612483 .
^ MEILA, M (1 de mayo de 2007). "Comparación de agrupaciones: una distancia basada en información". Revista de análisis multivariante . 98 (5): 873–895. doi : 10.1016 / j.jmva.2006.11.013 .
^ Tharwat A (agosto de 2018). "Métodos de evaluación de clasificación" . Informática y Computación Aplicada . doi : 10.1016 / j.aci.2018.08.003 .

Ver también

enlaces externos

Aplicación del índice Fowlkes-Mallows en R .

[fowlkes1983method-1] Fowlkes, EB; Mallows, CL (1 de septiembre de 1983). "Un método para comparar dos agrupaciones jerárquicas". Revista de la Asociación Estadounidense de Estadística . 78 (383): 553. doi : 10.2307 / 2288117 .

[2] Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1 de enero de 2001). "Sobre técnicas de validación de clústeres". Revista de sistemas de información inteligentes . 17 (2/3): 107–145. doi : 10.1023 / A: 1012801612483 .

[3] MEILA, M (1 de mayo de 2007). "Comparación de agrupaciones: una distancia basada en información". Revista de análisis multivariante . 98 (5): 873–895. doi : 10.1016 / j.jmva.2006.11.013 .

[4] Tharwat A (agosto de 2018). "Métodos de evaluación de clasificación" . Informática y Computación Aplicada . doi : 10.1016 / j.aci.2018.08.003 .

[1]