El coeficiente de coincidencia simple (SMC) o coeficiente de similitud de Rand es una estadística que se utiliza para comparar la similitud y diversidad de conjuntos de muestras . [1]
A | |||
---|---|---|---|
0 | 1 | ||
B | 0 | ||
1 |
Dados dos objetos, A y B, cada uno con n atributos binarios, SMC se define como:
dónde:
- es el número total de atributos donde A y B tienen un valor de 1.
- es el número total de atributos donde el atributo de A es 0 y el atributo de B es 1.
- es el número total de atributos donde el atributo de A es 1 y el atributo de B es 0.
- es el número total de atributos donde A y B tienen un valor de 0.
La distancia de coincidencia simple (SMD) , que mide la disimilitud entre conjuntos de muestras, viene dada por. [2]
SMC está relacionado linealmente con la similitud de Hamann: . También,, dónde es la distancia euclidiana al cuadrado entre los dos objetos (vectores binarios) yn es el número de atributos.
Diferencia con el índice Jaccard
El SMC es muy similar al índice Jaccard más popular . La principal diferencia es que el SMC tiene el términoen su numerador y denominador, mientras que el índice de Jaccard no lo hace. Por lo tanto, el SMC cuenta tanto las presencias mutuas (cuando un atributo está presente en ambos conjuntos) como la ausencia mutua (cuando un atributo está ausente en ambos conjuntos) como coincidencias y las compara con el número total de atributos en el universo, mientras que el índice de Jaccard solo cuenta la presencia mutua como coincidencias y la compara con el número de atributos que han sido elegidos por al menos uno de los dos conjuntos.
En el análisis de la canasta de mercado, por ejemplo, la canasta de dos consumidores que deseamos comparar puede contener solo una pequeña fracción de todos los productos disponibles en la tienda, por lo que el SMC generalmente arrojará valores muy altos de similitudes incluso cuando las canastas tengan muy poca semejanza, lo que hace que el índice de Jaccard sea una medida de similitud más apropiada en ese contexto. Por ejemplo, considere un supermercado con 1000 productos y dos clientes. La canasta del primer cliente contiene sal y pimienta y la canasta del segundo contiene sal y azúcar. En este escenario, la similitud entre las dos canastas medida por el índice Jaccard sería 1/3, pero la similitud se convierte en 0,998 utilizando el SMC.
En otros contextos, donde 0 y 1 llevan información equivalente (simetría), el SMC es una mejor medida de similitud. Por ejemplo, los vectores de variables demográficas almacenadas en variables ficticias , como el género binario, se compararían mejor con el SMC que con el índice de Jaccard, ya que el impacto del género en la similitud debería ser igual, independientemente de si el hombre se define como 0 y femenino como un 1 o al revés. Sin embargo, cuando tenemos variables ficticias simétricas, se podría replicar el comportamiento del SMC dividiendo las ficticias en dos atributos binarios (en este caso, masculino y femenino), transformándolos así en atributos asimétricos, permitiendo el uso del índice de Jaccard sin introduciendo cualquier sesgo. Al usar este truco, se puede considerar que el índice Jaccard hace que el SMC sea una métrica completamente redundante. Sin embargo, el SMC sigue siendo más eficiente desde el punto de vista computacional en el caso de variables ficticias simétricas, ya que no requiere agregar dimensiones adicionales.
El índice Jaccard también es más general que el SMC y se puede utilizar para comparar otros tipos de datos además de vectores de atributos binarios, como medidas de probabilidad .