El coeficiente de Sørensen-Dice (ver más abajo para otros nombres) es una estadística que se usa para medir la similitud de dos muestras . Fue desarrollado independientemente por los botánicos Thorvald Sørensen [1] y Lee Raymond Dice , [2] quienes publicaron en 1948 y 1945 respectivamente.
Nombre
El índice es conocido por varios otros nombres, especialmente índice de Sørensen-Dice , [3] índice de Sørensen y coeficiente de Dice . Otras variaciones incluyen el "coeficiente de similitud" o "índice", como el coeficiente de similitud de dados ( DSC ). Las ortografías alternativas comunes para Sørensen son Sorenson , Soerenson y Sörenson , y las tres también se pueden ver con la terminación –sen .
Otros nombres incluyen:
- Puntuación F1
- Índice binario (no cuantitativo) de Czekanowski [4]
- Medida de similitud genética [5]
- Índice de similitud de Zijdenbos, [6] [7] en referencia a un artículo de 1994 de Zijdenbos et al. [8] [3]
Fórmula
La fórmula original de Sørensen estaba destinada a aplicarse a datos discretos. Dados dos conjuntos, X e Y, se define como
donde | X | y | Y | son las cardinalidades de los dos conjuntos (es decir, el número de elementos de cada conjunto). El índice de Sørensen equivale al doble del número de elementos comunes a ambos conjuntos dividido por la suma del número de elementos de cada conjunto.
Cuando se aplica a datos booleanos, utilizando la definición de verdadero positivo (TP), falso positivo (FP) y falso negativo (FN), se puede escribir como
- .
Es diferente del índice de Jaccard, que solo cuenta los verdaderos positivos una vez tanto en el numerador como en el denominador. DSC es el cociente de similitud y varía entre 0 y 1. [9] Puede verse como una medida de similitud entre conjuntos.
De manera similar al índice de Jaccard , el conjunto de operaciones se pueden expresar en términos de las operaciones vectoriales sobre vectores binarios una y b :
que da el mismo resultado sobre los vectores binarios y también da una métrica de similitud más general sobre los vectores en términos generales.
Para los conjuntos X e Y de palabras clave utilizadas en la recuperación de información , el coeficiente puede definirse como el doble de la información compartida (intersección) sobre la suma de cardinalidades: [10]
Cuando se toma como una cadena de medida de similitud, el coeficiente puede calcularse por dos cuerdas, x y Y usando bigramas como sigue: [11]
donde n t es el número de bigramas de caracteres que se encuentran en ambas cadenas, n x es el número de bigramas en la cadena x y n y es el número de bigramas en la cadena y . Por ejemplo, para calcular la similitud entre:
night
nacht
Encontraríamos el conjunto de bigramas en cada palabra:
- {
ni
,ig
,gh
,ht
} - {
na
,ac
,ch
,ht
}
Cada conjunto tiene cuatro elementos, y la intersección de estos dos conjuntos tiene sólo un elemento: ht
.
Insertando estos números en la fórmula, calculamos, s = (2 · 1) / (4 + 4) = 0.25.
Diferencia de Jaccard
Este coeficiente no es muy diferente en forma del índice de Jaccard . De hecho, ambos son equivalentes en el sentido de que dado un valor para el coeficiente de Sørensen-Dice, se puede calcular el valor del índice Jaccard respectivo y viceversa, usando las ecuaciones y .
Dado que el coeficiente de Sørensen-Dice no satisface la desigualdad del triángulo, se puede considerar una versión semimétrica del índice de Jaccard. [4]
La función varía entre cero y uno, como Jaccard. A diferencia de Jaccard, la función de diferencia correspondiente
no es una métrica de distancia adecuada ya que no satisface la desigualdad del triángulo . [4] El contraejemplo más simple de esto viene dado por los tres conjuntos {a}, {b} y {a, b}, la distancia entre los dos primeros es 1, y la diferencia entre el tercero y cada uno de los otros es un tercio. Para satisfacer la desigualdad triangular, la suma de cualquier dos de estos tres lados debe ser mayor que o igual al lado restante. Sin embargo, la distancia entre {a} y {a, b} más la distancia entre {b} y {a, b} es igual a 2/3 y, por lo tanto, es menor que la distancia entre {a} y {b} que es 1.
Aplicaciones
El coeficiente de Sørensen-Dice es útil para los datos de comunidades ecológicas (por ejemplo, Looman & Campbell, 1960 [12] ). La justificación de su uso es principalmente empírica más que teórica (aunque puede justificarse teóricamente como la intersección de dos conjuntos difusos [13] ). En comparación con la distancia euclidiana , la distancia de Sørensen conserva la sensibilidad en conjuntos de datos más heterogéneos y da menos peso a los valores atípicos. [14] Recientemente, la puntuación de Dice (y sus variaciones, por ejemplo, logDice tomando un logaritmo) se ha vuelto popular en la lexicografía informática para medir la puntuación de asociación léxica de dos palabras determinadas. [15] logDice también se usa como parte de Mash Distance para la estimación de la distancia del genoma y metagenoma [16] Finalmente, Dice se usa en la segmentación de imágenes , en particular para comparar la salida del algoritmo con máscaras de referencia en aplicaciones médicas. [8]
Versión de abundancia
La expresión se extiende fácilmente a abundancia en lugar de presencia / ausencia de especies. Esta versión cuantitativa se conoce por varios nombres:
- Índice cuantitativo de Sørensen-Dice [4]
- Índice de Sørensen cuantitativo [4]
- Índice cuantitativo de dados [4]
- Similitud de Bray-Curtis (1 menos la diferencia de Bray-Curtis ) [4]
- Índice cuantitativo de Czekanowski [4]
- Índice de Steinhaus [4]
- Porcentaje de similitud de Pielou [4]
- 1 menos la distancia de Hellinger [17]
- Proporción de acuerdo específico [18] o acuerdo positivo [19]
Ver también
- Correlación
- Puntuación F1
- Índice de Jaccard
- Distancia de Hamming
- Prueba de mantel
- Índice de superposición de Morisita
- Personajes k más frecuentes
- Coeficiente de superposición
- Índice de similitud de Renkonen (debido a Olavi Renkonen )
- Índice de Tversky
- Teoría de la estrategia adaptativa universal (UAST)
Referencias
- ↑ Sørensen, T. (1948). "Un método para establecer grupos de igual amplitud en sociología vegetal basado en la similitud de especies y su aplicación a los análisis de la vegetación en los comunes daneses". Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34.
- ^ Dados, Lee R. (1945). "Medidas de la cantidad de asociación ecológica entre especies". Ecología . 26 (3): 297-302. doi : 10.2307 / 1932409 . JSTOR 1932409 .
- ^ a b Carass, A .; Roy, S .; Gherman, A .; Reinhold, JC; Jesson, A .; et al. (2020). "Evaluación de las segmentaciones de lesiones de materia blanca con análisis refinado de Sørensen-Dice" . Informes científicos . 10 (1): 8242. Código Bibliográfico : 2020NatSR..10.8242C . doi : 10.1038 / s41598-020-64803-w . ISSN 2045-2322 . PMC 7237671 . PMID 32427874 .
- ^ a b c d e f g h i j Gallagher, ED, 1999. Documentación de COMPAH , Universidad de Massachusetts, Boston
- ^ Nei, M .; Li, WH (1979). "Modelo matemático para estudiar la variación genética en términos de endonucleasas de restricción" . PNAS . 76 (10): 5269–5273. Código Bibliográfico : 1979PNAS ... 76.5269N . doi : 10.1073 / pnas.76.10.5269 . PMC 413122 . PMID 291943 .
- ^ Prescott, JW; Pennell, M .; Mejor, TM; Swanson, MS; Haq, F .; Jackson, R .; Gurcan, MN (2009). Un método automatizado para segmentar el fémur para la investigación de la osteoartritis . IEEE. doi : 10.1109 / iembs.2009.5333257 . PMC 2826829 .
- ^ Swanson, MS; Prescott, JW; Mejor, TM; Powell, K .; Jackson, RD; Haq, F .; Gurcan, MN (2010). "Segmentación semiautomatizada para evaluar el menisco lateral en rodillas normales y artríticas" . Artrosis y cartílago . 18 (3): 344–353. doi : 10.1016 / j.joca.2009.10.004 . ISSN 1063-4584 . PMC 2826568 . PMID 19857510 .
- ^ a b Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). "Análisis morfométrico de lesiones de materia blanca en imágenes de RM: método y validación". Transacciones IEEE sobre imágenes médicas . 13 (4): 716–724. doi : 10.1109 / 42.363096 . ISSN 0278-0062 . PMID 18218550 .
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
- ^ van Rijsbergen, Cornelis Joost (1979). Recuperación de información . Londres: Butterworths. ISBN 3-642-12274-4.
- ^ Kondrak, Grzegorz; Marcu, Daniel; Caballero, Kevin (2003). "Los cognados pueden mejorar los modelos de traducción estadística" (PDF) . Actas de HLT-NAACL 2003: Conferencia de Tecnología del Lenguaje Humano del Capítulo Norteamericano de la Asociación de Lingüística Computacional . págs. 46–48.
- ^ Looman, J .; Campbell, JB (1960). "Adaptación de K de Sorensen (1948) para estimar afinidades unitarias en vegetación de pradera". Ecología . 41 (3): 409–416. doi : 10.2307 / 1933315 . JSTOR 1933315 .
- ^ Roberts, DW (1986). "Ordenación sobre la base de la teoría de conjuntos difusos". Vegetatio . 66 (3): 123-131. doi : 10.1007 / BF00039905 . S2CID 12573576 .
- ^ McCune, Bruce y Grace, James (2002) Análisis de comunidades ecológicas. Diseño de software Mjm; ISBN 0-9721290-0-6 .
- ^ Rychlý, P. (2008) Una puntuación de asociación amigable con el lexicógrafo. Actas del segundo taller sobre avances recientes en el procesamiento del lenguaje natural eslavo RASLAN 2008: 6–9
- ^ Ondov, Brian D., et al. "Mash: estimación rápida de la distancia del genoma y del metagenoma utilizando MinHash". Biología del genoma 17.1 (2016): 1-14.
- ^ Bray, J. Roger; Curtis, JT (1957). "Una ordenación de las comunidades forestales de montaña del sur de Wisconsin". Monografías ecológicas . 27 (4): 326–349. doi : 10.2307 / 1942268 . JSTOR 1942268 .
- ^ Ayappa, Indu; Norman, Robert G (2000). "Detección no invasiva de despertares relacionados con el esfuerzo respiratorio (RERA) por un sistema de transductor de presión / cánula nasal". Duerme . 23 (6).
- ^ John Uebersax. "Índices de acuerdo sin procesar" .