El índice Rand [1] o medida Rand (llamado así en honor a William M. Rand) en estadística , y en particular en la agrupación de datos , es una medida de la similitud entre dos agrupaciones de datos . Se puede definir una forma del índice Rand que se ajusta para la agrupación aleatoria de elementos, este es el índice Rand ajustado . Desde un punto de vista matemático, el índice Rand está relacionado con la precisión , pero es aplicable incluso cuando no se utilizan etiquetas de clase.
Índice Rand
Definición
Dado un conjunto de elementos y dos particiones de comparar, , una partición de S en r subconjuntos, y, una partición de S en subconjuntos s , defina lo siguiente:
- , el número de pares de elementos en que están en el mismo subconjunto eny en el mismo subconjunto en
- , el número de pares de elementos en que se encuentran en diferentes subconjuntos eny en diferentes subconjuntos en
- , el número de pares de elementos en que están en el mismo subconjunto eny en diferentes subconjuntos en
- , el número de pares de elementos en que se encuentran en diferentes subconjuntos eny en el mismo subconjunto en
Intuitivamente, puede considerarse como el número de acuerdos entre y y como el número de desacuerdos entre y .
Dado que el denominador es el número total de pares, el índice Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que y acordará un par elegido al azar.
se calcula como .
De manera similar, también se puede ver el índice Rand como una medida del porcentaje de decisiones correctas tomadas por el algoritmo. Se puede calcular utilizando la siguiente fórmula:
- dónde es el número de verdaderos positivos, es el número de verdaderos negativos , es el número de falsos positivos , y es el número de falsos negativos .
Propiedades
El índice Rand tiene un valor entre 0 y 1, donde 0 indica que las dos agrupaciones de datos no coinciden en ningún par de puntos y 1 indica que las agrupaciones de datos son exactamente iguales.
En términos matemáticos, a, b, c, d se definen de la siguiente manera:
- , dónde
- , dónde
- , dónde
- , dónde
para algunos
Relación con la precisión de la clasificación
El índice Rand también se puede ver a través del prisma de precisión de clasificación binaria sobre los pares de elementos en . Las dos etiquetas de clase son " y están en el mismo subconjunto en y " y " y están en diferentes subconjuntos en y ".
En ese escenario, es el número de pares correctamente etiquetados como pertenecientes al mismo subconjunto ( verdaderos positivos ), yes el número de pares correctamente etiquetados como pertenecientes a diferentes subconjuntos ( verdaderos negativos ).
Índice de Rand ajustado
El índice Rand ajustado es la versión corregida por azar del índice Rand. [1] [2] [3] Tal corrección por azar establece una línea de base utilizando la similitud esperada de todas las comparaciones por pares entre agrupaciones especificadas por un modelo aleatorio. Tradicionalmente, el índice Rand se corrigió mediante el modelo de permutación para agrupaciones (el número y el tamaño de las agrupaciones dentro de una agrupación son fijos y todas las agrupaciones aleatorias se generan mezclando los elementos entre las agrupaciones fijas). Sin embargo, las premisas del modelo de permutación se violan con frecuencia; en muchos escenarios de agrupación en clústeres, el número de clústeres o la distribución del tamaño de esos clústeres varían drásticamente. Por ejemplo, considere que en K-medias el número de conglomerados lo fija el profesional, pero los tamaños de esos conglomerados se infieren de los datos. Las variaciones del índice Rand ajustado dan cuenta de diferentes modelos de agrupaciones aleatorias. [4]
Aunque el índice Rand solo puede arrojar un valor entre 0 y +1, el índice Rand ajustado puede generar valores negativos si el índice es menor que el índice esperado. [5]
La mesa de contingencia
Dado un conjunto S de n elementos, y dos agrupaciones o particiones ( por ejemplo, agrupaciones) de estos elementos, a saber y , la superposición entre X e Y se puede resumir en una tabla de contingencia donde cada entrada denota el número de objetos en común entre y : .
Definición
El Índice Rand Ajustado original usando el Modelo de Permutación es
dónde son valores de la tabla de contingencia.
Ver también
Referencias
- ↑ a b c W. M. Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 66 (336): 846–850. doi : 10.2307 / 2284239 . JSTOR 2284239 .
- ^ a b Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .
- ^ Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080.PDF .
- ^ Alexander J Gates y Yong-Yeol Ahn (2017). "El impacto de los modelos aleatorios en la similitud de agrupación" (PDF) . Revista de investigación sobre aprendizaje automático . 18 : 1–28.PDF .
- ^ http://i11www.iti.uni-karlsruhe.de/extra/publications/ww-cco-06.pdf