Índice Rand

El índice Rand ^[1] o medida Rand (llamado así en honor a William M. Rand) en estadística , y en particular en la agrupación de datos , es una medida de la similitud entre dos agrupaciones de datos . Se puede definir una forma del índice Rand que se ajusta para la agrupación aleatoria de elementos, este es el índice Rand ajustado . Desde un punto de vista matemático, el índice Rand está relacionado con la precisión , pero es aplicable incluso cuando no se utilizan etiquetas de clase.

Agrupaciones de ejemplo para un conjunto de datos con los algoritmos kMeans (izquierda) y Desplazamiento medio (derecha). El índice Rand ajustado calculado para estos dos agrupamientos es

{\ Displaystyle ARI \ aproximadamente 0,94}

Índice Rand

Definición

Dado un conjunto de ${\ Displaystyle n}$ elementos ${\ Displaystyle S = \ {o_ {1}, \ ldots, o_ {n} \}}$ y dos particiones de ${\ Displaystyle S}$ comparar, ${\ Displaystyle X = \ {X_ {1}, \ ldots, X_ {r} \}}$ , una partición de S en r subconjuntos, y ${\ Displaystyle Y = \ {Y_ {1}, \ ldots, Y_ {s} \}}$ , una partición de S en subconjuntos s , defina lo siguiente:

${\ Displaystyle a}$ , el número de pares de elementos en ${\ Displaystyle S}$ que están en el mismo subconjunto en ${\ Displaystyle X}$ y en el mismo subconjunto en ${\ Displaystyle Y}$
${\ Displaystyle b}$ , el número de pares de elementos en ${\ Displaystyle S}$ que se encuentran en diferentes subconjuntos en ${\ Displaystyle X}$ y en diferentes subconjuntos en ${\ Displaystyle Y}$
${\ Displaystyle c}$ , el número de pares de elementos en ${\ Displaystyle S}$ que están en el mismo subconjunto en ${\ Displaystyle X}$ y en diferentes subconjuntos en ${\ Displaystyle Y}$
${\ Displaystyle d}$ , el número de pares de elementos en ${\ Displaystyle S}$ que se encuentran en diferentes subconjuntos en ${\ Displaystyle X}$ y en el mismo subconjunto en ${\ Displaystyle Y}$

El índice Rand, ${\ Displaystyle R}$ , es: ^[1]^[2]

{\ Displaystyle R = {\ frac {a + b} {a + b + c + d}} = {\ frac {a + b} {n \ elige 2}}}

Intuitivamente, ${\ Displaystyle a + b}$ puede considerarse como el número de acuerdos entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ y ${\ Displaystyle c + d}$ como el número de desacuerdos entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ .

Dado que el denominador es el número total de pares, el índice Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ acordará un par elegido al azar.

${\ Displaystyle {n \ Choose 2}}$ se calcula como ${\ Displaystyle n (n-1) / 2}$ .

De manera similar, también se puede ver el índice Rand como una medida del porcentaje de decisiones correctas tomadas por el algoritmo. Se puede calcular utilizando la siguiente fórmula:

{\ Displaystyle RI = {\ frac {TP + TN} {TP + FP + FN + TN}}}

dónde

{\ displaystyle TP}

es el número de verdaderos positivos,

{\ displaystyle TN}

es el número de verdaderos negativos ,

{\ displaystyle FP}

es el número de falsos positivos , y

{\ displaystyle FN}

es el número de falsos negativos .

Propiedades

El índice Rand tiene un valor entre 0 y 1, donde 0 indica que las dos agrupaciones de datos no coinciden en ningún par de puntos y 1 indica que las agrupaciones de datos son exactamente iguales.

En términos matemáticos, a, b, c, d se definen de la siguiente manera:

${\ Displaystyle a = | S ^ {*} |}$ , dónde ${\ Displaystyle S ^ {*} = \ {(o_ {i}, o_ {j}) \ mid o_ {i}, o_ {j} \ in X_ {k}, o_ {i}, o_ {j} \ en Y_ {l} \}}$
${\ Displaystyle b = | S ^ {*} |}$ , dónde ${\ Displaystyle S ^ {*} = \ {(o_ {i}, o_ {j}) \ mid o_ {i} \ in X_ {k_ {1}}, o_ {j} \ in X_ {k_ {2} }, o_ {i} \ en Y_ {l_ {1}}, o_ {j} \ en Y_ {l_ {2}} \}}$
${\ Displaystyle c = | S ^ {*} |}$ , dónde ${\ Displaystyle S ^ {*} = \ {(o_ {i}, o_ {j}) \ mid o_ {i}, o_ {j} \ in X_ {k}, o_ {i} \ in Y_ {l_ { 1}}, o_ {j} \ en Y_ {l_ {2}} \}}$
${\ Displaystyle d = | S ^ {*} |}$ , dónde ${\ Displaystyle S ^ {*} = \ {(o_ {i}, o_ {j}) \ mid o_ {i} \ in X_ {k_ {1}}, o_ {j} \ in X_ {k_ {2} }, o_ {i}, o_ {j} \ en Y_ {l} \}}$

para algunos ${\ Displaystyle 1 \ leq i, j \ leq n, i \ neq j, 1 \ leq k, k_ {1}, k_ {2} \ leq r, k_ {1} \ neq k_ {2}, 1 \ leq l, l_ {1}, l_ {2} \ leq s, l_ {1} \ neq l_ {2}}$

Relación con la precisión de la clasificación

El índice Rand también se puede ver a través del prisma de precisión de clasificación binaria sobre los pares de elementos en ${\ Displaystyle S}$ . Las dos etiquetas de clase son " ${\ Displaystyle o_ {i}}$ y ${\ Displaystyle o_ {j}}$ están en el mismo subconjunto en ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ " y " ${\ Displaystyle o_ {i}}$ y ${\ Displaystyle o_ {j}}$ están en diferentes subconjuntos en ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ ".

En ese escenario, ${\ Displaystyle a}$ es el número de pares correctamente etiquetados como pertenecientes al mismo subconjunto ( verdaderos positivos ), y ${\ Displaystyle b}$ es el número de pares correctamente etiquetados como pertenecientes a diferentes subconjuntos ( verdaderos negativos ).

Índice de Rand ajustado

El índice Rand ajustado es la versión corregida por azar del índice Rand. ^[1]^[2]^[3] Tal corrección por azar establece una línea de base utilizando la similitud esperada de todas las comparaciones por pares entre agrupaciones especificadas por un modelo aleatorio. Tradicionalmente, el índice Rand se corrigió mediante el modelo de permutación para agrupaciones (el número y el tamaño de las agrupaciones dentro de una agrupación son fijos y todas las agrupaciones aleatorias se generan mezclando los elementos entre las agrupaciones fijas). Sin embargo, las premisas del modelo de permutación se violan con frecuencia; en muchos escenarios de agrupación en clústeres, el número de clústeres o la distribución del tamaño de esos clústeres varían drásticamente. Por ejemplo, considere que en K-medias el número de conglomerados lo fija el profesional, pero los tamaños de esos conglomerados se infieren de los datos. Las variaciones del índice Rand ajustado dan cuenta de diferentes modelos de agrupaciones aleatorias. ^[4]

Aunque el índice Rand solo puede arrojar un valor entre 0 y +1, el índice Rand ajustado puede generar valores negativos si el índice es menor que el índice esperado. ^[5]

La mesa de contingencia

Dado un conjunto $S$ de $n$ elementos, y dos agrupaciones o particiones ( por ejemplo, agrupaciones) de estos elementos, a saber ${\ Displaystyle X = \ {X_ {1}, X_ {2}, \ ldots, X_ {r} \}}$ y ${\ Displaystyle Y = \ {Y_ {1}, Y_ {2}, \ ldots, Y_ {s} \}}$ , la superposición entre $X$ e $Y$ se puede resumir en una tabla de contingencia ${\ Displaystyle \ left [n_ {ij} \ right]}$ donde cada entrada ${\ Displaystyle n_ {ij}}$ denota el número de objetos en común entre ${\ Displaystyle X_ {i}}$ y ${\ Displaystyle Y_ {j}}$ : ${\ Displaystyle n_ {ij} = | X_ {i} \ cap Y_ {j} |}$ .

{\ Displaystyle {\ begin {array} {c | cccc | c} {{} \ encima de X} \! \ diagdown \! ^ {Y} & Y_ {1} & Y_ {2} & \ cdots & Y_ {s} & { \ text {sums}} \\\ hline X_ {1} & n_ {11} & n_ {12} & \ cdots & n_ {1s} & a_ {1} \\ X_ {2} & n_ {21} & n_ {22} & \ cdots & n_ {2s} & a_ {2} \\\ vdots & \ vdots & \ vdots & \ ddots & \ vdots & \ vdots \\ X_ {r} & n_ {r1} & n_ {r2} & \ cdots & n_ {rs} & a_ { r} \\\ hline {\ text {sums}} & b_ {1} & b_ {2} & \ cdots & b_ {s} & \ end {array}}}

Definición

El Índice Rand Ajustado original usando el Modelo de Permutación es

{\ Displaystyle ARI = {\ frac {\ left. \ sum _ {ij} {\ binom {n_ {ij}} {2}} - \ left [\ sum _ {i} {\ binom {a_ {i}} " {2}} \ sum _ {j} {\ binom {b_ {j}} {2}} \ right] \ right / {\ binom {n} {2}}} {\ left. {\ Frac {1} {2}} \ left [\ sum _ {i} {\ binom {a_ {i}} {2}} + \ sum _ {j} {\ binom {b_ {j}} {2}} \ right] - \ left [\ sum _ {i} {\ binom {a_ {i}} {2}} \ sum _ {j} {\ binom {b_ {j}} {2}} \ right] \ right / {\ binom {n} {2}}}}}

dónde ${\ Displaystyle n_ {ij}, a_ {i}, b_ {j}}$ son valores de la tabla de contingencia.

Ver también

Coeficiente de coincidencia simple

Referencias

↑ ^a ^b ^c W. M. Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 66 (336): 846–850. doi : 10.2307 / 2284239 . JSTOR 2284239 .
^ ^a ^b Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .
^ Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080.PDF .
^ Alexander J Gates y Yong-Yeol Ahn (2017). "El impacto de los modelos aleatorios en la similitud de agrupación" (PDF) . Revista de investigación sobre aprendizaje automático . 18 : 1–28.PDF .
^ http://i11www.iti.uni-karlsruhe.de/extra/publications/ww-cco-06.pdf

enlaces externos

Implementación de C ++ con archivos MATLAB mex

[rand71-1] W. M. Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 66 (336): 846–850. doi : 10.2307 / 2284239 . JSTOR 2284239 .

[hb85-2] Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .

[3] Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080.PDF .

[ga17-4] Alexander J Gates y Yong-Yeol Ahn (2017). "El impacto de los modelos aleatorios en la similitud de agrupación" (PDF) . Revista de investigación sobre aprendizaje automático . 18 : 1–28.PDF .

[5] ttp://i11www.iti.uni-karlsruhe.de/extra/publications/ww-cco-06.pdf

[1]