Coeficiente de Sørensen-Dice


El coeficiente de Sørensen-Dice (ver más abajo para otros nombres) es una estadística utilizada para medir la similitud de dos muestras . Fue desarrollado independientemente por los botánicos Thorvald Sørensen [1] y Lee Raymond Dice , [2] quienes publicaron en 1948 y 1945 respectivamente.

El índice es conocido por varios otros nombres, especialmente índice de Sørensen-Dice , [3] índice de Sørensen y coeficiente de Dice . Otras variaciones incluyen el "coeficiente de similitud" o "índice", como el coeficiente de similitud de Dice ( DSC ). Las ortografías alternativas comunes para Sørensen son Sorenson , Soerenson y Sörenson , y las tres también se pueden ver con la terminación –sen .

La fórmula original de Sørensen estaba destinada a aplicarse a datos discretos. Dados dos conjuntos, X e Y, se define como

donde | X | y | Y | son las cardinalidades de los dos conjuntos (es decir, el número de elementos en cada conjunto). El índice de Sørensen es igual al doble del número de elementos comunes a ambos conjuntos dividido por la suma del número de elementos de cada conjunto.

Cuando se aplica a datos booleanos, utilizando la definición de verdadero positivo (TP), falso positivo (FP) y falso negativo (FN), se puede escribir como

Es diferente del índice de Jaccard, que solo cuenta los verdaderos positivos una vez tanto en el numerador como en el denominador. DSC es el cociente de similitud y oscila entre 0 y 1. [9] Puede verse como una medida de similitud entre conjuntos.