Índice de Jaccard

El índice de Jaccard , también conocido como coeficiente de similitud de Jaccard , es una estadística que se utiliza para medir la similitud y diversidad de conjuntos de muestras . Fue desarrollado por Paul Jaccard , originalmente dando el nombre francés coefficient de communauté , ^[1] y formulado de nuevo de forma independiente por T. Tanimoto. ^[2] Así, el índice de Tanimoto o el coeficiente de Tanimoto también se utilizan en algunos campos. Sin embargo, son idénticos en general, tomando la relación de intersección sobre unión. El coeficiente de Jaccard mide la similitud entre conjuntos de muestras finitos y se define como el tamaño de la intersección dividido por el tamaño de la unión de los conjuntos de muestras:

Intersección y unión de dos conjuntos A y B

Intersección sobre Unión como medida de similitud para la detección de objetos en imágenes, una tarea importante en la visión por computadora .

{\ Displaystyle J (A, B) = {{| A \ cap B |} \ over {| A \ cup B |}} = {{| A \ cap B |} \ over {| A | + | B | - | A \ cap B |}}.}

Tenga en cuenta que por diseño, ${\ Displaystyle 0 \ leq J (A, B) \ leq 1.}$ Si A y B están vacíos, defina J ( A , B ) = 1. El coeficiente de Jaccard se usa ampliamente en ciencias de la computación, ecología, genómica y otras ciencias, donde se usan datos binarios o binarizados . Tanto la solución exacta como los métodos de aproximación están disponibles para la prueba de hipótesis con el coeficiente de Jaccard. ^[3]

La similitud de Jaccard también se aplica a las bolsas, es decir, Multisets . Tiene una fórmula similar, ^[4] pero los símbolos significan intersección de bolsas y suma de bolsas (no unión). El valor máximo es 1/2.

{\ Displaystyle J (A, B) = {{| A \ cap B |} \ over {| A \ uplus B |}} = {{| A \ cap B |} \ over {| A | + | B | }}.}

La distancia de Jaccard , que mide la disimilitud entre conjuntos de muestras, es complementaria al coeficiente de Jaccard y se obtiene restando el coeficiente de Jaccard de 1 o, de manera equivalente, dividiendo la diferencia de los tamaños de la unión y la intersección de dos conjuntos por el tamaño de la unión:

{\ Displaystyle d_ {J} (A, B) = 1-J (A, B) = {{| A \ cup B | - | A \ cap B |} \ over | A \ cup B |}.}

Una interpretación alternativa de la distancia de Jaccard es como la relación entre el tamaño de la diferencia simétrica ${\ Displaystyle A \ triangle B = (A \ cup B) - (A \ cap B)}$ al sindicato. La distancia de Jaccard se usa comúnmente para calcular una matriz n × n para la agrupación y el escalado multidimensional de n conjuntos de muestras.

Esta distancia es una métrica de la colección de todos los conjuntos finitos. ^[5]^[6]^[7]

También hay una versión de la distancia Jaccard para medidas , incluidas las medidas de probabilidad . Si ${\ Displaystyle \ mu}$ es una medida en un espacio medible ${\ Displaystyle X}$ , luego definimos el coeficiente de Jaccard por

{\ Displaystyle J _ {\ mu} (A, B) = {{\ mu (A \ cap B)} \ over {\ mu (A \ cup B)}},}

y la distancia de Jaccard por

{\ Displaystyle d _ {\ mu} (A, B) = 1-J _ {\ mu} (A, B) = {{\ mu (A \ triangle B)} \ over {\ mu (A \ cup B)} }.}

Se debe tener cuidado si ${\ Displaystyle \ mu (A \ cup B) = 0}$ o ${\ Displaystyle \ infty}$ , ya que estas fórmulas no están bien definidas en estos casos.

El esquema de hash sensible a la localidad de permutaciones independientes de MinHash se puede utilizar para calcular de manera eficiente una estimación precisa del coeficiente de similitud de Jaccard de pares de conjuntos, donde cada conjunto está representado por una firma de tamaño constante derivada de los valores mínimos de una función hash .

Similitud de atributos binarios asimétricos

Dados dos objetos, A y B , cada uno con n atributos binarios , el coeficiente de Jaccard es una medida útil de la superposición que A y B comparten con sus atributos. Cada atributo de A y B puede ser 0 o 1. El número total de cada combinación de atributos para A y B se especifica de la siguiente manera:

{\ Displaystyle M_ {11}}

representa el número total de atributos donde A y B tienen un valor de 1.

{\ Displaystyle M_ {01}}

representa el número total de atributos donde el atributo de A es 0 y el atributo de B es 1.

{\ Displaystyle M_ {10}}

representa el número total de atributos donde el atributo de A es 1 y el atributo de B es 0.

{\ Displaystyle M_ {00}}

representa el número total de atributos donde A y B tienen un valor de 0.

A B	0	1
0	${\ Displaystyle M_ {00}}$	${\ Displaystyle M_ {10}}$
1	${\ Displaystyle M_ {01}}$	${\ Displaystyle M_ {11}}$

Cada atributo debe caer en una de estas cuatro categorías, lo que significa que

{\ Displaystyle M_ {11} + M_ {01} + M_ {10} + M_ {00} = n.}

El coeficiente de similitud de Jaccard, J , se da como

{\ Displaystyle J = {M_ {11} \ over M_ {01} + M_ {10} + M_ {11}}.}

La distancia de Jaccard, d _J , se da como

{\ Displaystyle d_ {J} = {M_ {01} + M_ {10} \ over M_ {01} + M_ {10} + M_ {11}} = 1-J.}

La inferencia estadística se puede hacer basándose en los coeficientes de similitud de Jaccard y, en consecuencia, en las métricas relacionadas. ^[3] Dados dos conjuntos de muestras A y B con n atributos, se puede realizar una prueba estadística para ver si una superposición es estadísticamente significativa . La solución exacta está disponible, aunque el cálculo puede resultar costoso a medida que n aumenta. ^[3] Los métodos de estimación están disponibles mediante la aproximación de una distribución multinomial o mediante bootstrapping. ^[3]

Diferencia con el coeficiente de coincidencia simple (SMC)

Cuando se utiliza para atributos binarios, el índice de Jaccard es muy similar al coeficiente de coincidencia simple . La principal diferencia es que el SMC tiene el término ${\ Displaystyle M_ {00}}$ en su numerador y denominador, mientras que el índice de Jaccard no lo hace. Por lo tanto, el SMC cuenta tanto las presencias mutuas (cuando un atributo está presente en ambos conjuntos) como la ausencia mutua (cuando un atributo está ausente en ambos conjuntos) como coincidencias y las compara con el número total de atributos en el universo, mientras que el índice de Jaccard solo cuenta la presencia mutua como coincidencias y la compara con el número de atributos que han sido elegidos por al menos uno de los dos conjuntos.

En el análisis de la canasta de mercado , por ejemplo, la canasta de dos consumidores que deseamos comparar puede contener solo una pequeña fracción de todos los productos disponibles en la tienda, por lo que el SMC generalmente arrojará valores muy altos de similitudes incluso cuando las canastas tengan muy poca semejanza, lo que hace que el índice de Jaccard sea una medida de similitud más apropiada en ese contexto. Por ejemplo, considere un supermercado con 1000 productos y dos clientes. La canasta del primer cliente contiene sal y pimienta y la canasta del segundo contiene sal y azúcar. En este escenario, la similitud entre las dos canastas medida por el índice Jaccard sería 1/3, pero la similitud se convierte en 0,998 utilizando el SMC.

En otros contextos, donde 0 y 1 llevan información equivalente (simetría), el SMC es una mejor medida de similitud. Por ejemplo, los vectores de variables demográficas almacenadas en variables ficticias , como el género, se compararían mejor con el SMC que con el índice de Jaccard, ya que el impacto del género en la similitud debería ser igual, independientemente de si el hombre se define como 0 o como mujer. como un 1 o al revés. Sin embargo, cuando tenemos variables ficticias simétricas, se podría replicar el comportamiento del SMC dividiendo las variables ficticias en dos atributos binarios (en este caso, masculino y femenino), transformándolos así en atributos asimétricos, permitiendo el uso del índice de Jaccard sin introduciendo cualquier sesgo. Sin embargo, el SMC sigue siendo más eficiente desde el punto de vista computacional en el caso de variables ficticias simétricas, ya que no requiere agregar dimensiones adicionales.

Similitud y distancia ponderadas de Jaccard

Si ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots, x_ {n})}$ y ${\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ son dos vectores con todo real ${\ Displaystyle x_ {i}, y_ {i} \ geq 0}$ , entonces su coeficiente de similitud de Jaccard (también conocido entonces como similitud de Ruzicka) se define como

{\ Displaystyle J _ {\ mathcal {W}} (\ mathbf {x}, \ mathbf {y}) = {\ frac {\ sum _ {i} \ min (x_ {i}, y_ {i})} { \ sum _ {i} \ max (x_ {i}, y_ {i})}},}

y distancia de Jaccard (también conocida entonces como distancia de Soergel)

{\ Displaystyle d_ {J {\ mathcal {W}}} (\ mathbf {x}, \ mathbf {y}) = 1-J _ {\ mathcal {W}} (\ mathbf {x}, \ mathbf {y} ).}

Con aún más generalidad, si ${\ Displaystyle f}$ y ${\ Displaystyle g}$ son dos funciones medibles no negativas en un espacio medible ${\ Displaystyle X}$ con medida ${\ Displaystyle \ mu}$ , entonces podemos definir

{\ Displaystyle J _ {\ mathcal {W}} (f, g) = {\ frac {\ int \ min (f, g) d \ mu} {\ int \ max (f, g) d \ mu}}, }

dónde ${\ Displaystyle \ max}$ y ${\ Displaystyle \ min}$ son operadores puntuales. Entonces la distancia Jaccard es

{\ Displaystyle d_ {J {\ mathcal {W}}} (f, g) = 1-J _ {\ mathcal {W}} (f, g).}

Entonces, por ejemplo, para dos conjuntos medibles ${\ Displaystyle A, B \ subseteq X}$ , tenemos ${\ Displaystyle J _ {\ mu} (A, B) = J (\ chi _ {A}, \ chi _ {B}),}$ dónde ${\ Displaystyle \ chi _ {A}}$ y ${\ Displaystyle \ chi _ {B}}$ son las funciones características del conjunto correspondiente.

Probabilidad similitud y distancia de Jaccard

La similitud ponderada de Jaccard descrita anteriormente generaliza el índice de Jaccard a vectores positivos, donde un conjunto corresponde a un vector binario dado por la función indicadora , es decir ${\ Displaystyle x_ {i} \ in \ {0,1 \}}$ . Sin embargo, no generaliza el índice de Jaccard a distribuciones de probabilidad, donde un conjunto corresponde a una distribución de probabilidad uniforme, es decir

{\ displaystyle x_ {i} = {\ begin {cases} {\ frac {1} {| X |}} & i \ in X \\ 0 & {\ text {de lo contrario}} \ end {cases}}}

Siempre es menor si los conjuntos difieren en tamaño. Si ${\ Displaystyle | X |> | Y |}$ , y ${\ Displaystyle x_ {i} = \ mathbf {1} _ {X} (i) / | X |, y_ {i} = \ mathbf {1} _ {Y} (i) / | Y |}$ luego

{\ Displaystyle J _ {\ mathcal {W}} (x, y) = {\ frac {| X \ cap Y |} {| X \ setminus Y | + | X |}}

El índice de probabilidad de Jaccard se puede interpretar como intersecciones de simples.

En cambio, una generalización que es continua entre las distribuciones de probabilidad y sus correspondientes conjuntos de soporte es

{\ Displaystyle J _ {\ mathcal {P}} (x, y) = \ sum _ {x_ {i} \ neq 0, y_ {i} \ neq 0} {\ frac {1} {\ sum _ {j} \ max \ left ({\ frac {x_ {j}} {x_ {i}}}, {\ frac {y_ {j}} {y_ {i}}} \ right)}}}

que se llama Jaccard "Probabilidad". ^[8] Tiene los siguientes límites contra el Jaccard ponderado en vectores de probabilidad.

{\ Displaystyle J _ {\ mathcal {W}} (x, y) \ leq J _ {\ mathcal {P}} (x, y) \ leq {\ frac {2J _ {\ mathcal {W}} (x, y) } {1 + J _ {\ mathcal {W}} (x, y)}}}

Aquí, el límite superior es el coeficiente de Sørensen-Dice (ponderado) . La distancia correspondiente, ${\ Displaystyle 1-J _ {\ mathcal {P}} (x, y)}$ , es una métrica sobre distribuciones de probabilidad y una pseudométrica sobre vectores no negativos.

El índice de probabilidad de Jaccard tiene una interpretación geométrica como el área de una intersección de simples . Cada punto de una unidad ${\ Displaystyle k}$ -simplex corresponde a una distribución de probabilidad en ${\ Displaystyle k + 1}$ elementos, porque la unidad ${\ Displaystyle k}$ -simplex es el conjunto de puntos en ${\ Displaystyle k + 1}$ dimensiones que suman 1. Para derivar el índice de probabilidad de Jaccard geométricamente, represente una distribución de probabilidad como la unidad simplex dividida en sub simples de acuerdo con la masa de cada elemento. Si superpone dos distribuciones representadas de esta manera una encima de la otra y cruza los simples correspondientes a cada elemento, el área que queda es igual al índice de probabilidad de Jaccard de las distribuciones.

Optimidad del índice de probabilidad de Jaccard

Una prueba visual de la optimalidad del índice Jaccard de probabilidad en distribuciones de tres elementos.

Considere el problema de construir variables aleatorias de manera que colisionen entre sí tanto como sea posible. Es decir, si ${\ Displaystyle X \ sim x}$ y ${\ Displaystyle Y \ sim y}$ , nos gustaría construir ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ para maximizar ${\ Displaystyle \ Pr [X = Y]}$ . Si miramos solo dos distribuciones ${\ Displaystyle x, y}$ en aislamiento, el más alto ${\ Displaystyle \ Pr [X = Y]}$ que podemos lograr está dado por ${\ Displaystyle 1 - {\ text {TV}} (x, y)}$ dónde ${\ displaystyle {\ text {TV}}}$ es la distancia de variación total . Sin embargo, supongamos que no solo nos preocupamos por maximizar ese par en particular, supongamos que nos gustaría maximizar la probabilidad de colisión de cualquier par arbitrario. Se podría construir un número infinito de variables aleatorias, una para cada distribución. ${\ Displaystyle x}$ y busca maximizar ${\ Displaystyle \ Pr [X = Y]}$ para todos los pares ${\ Displaystyle x, y}$ . En un sentido bastante fuerte que se describe a continuación, el índice de Jaccard de probabilidad es una forma óptima de alinear estas variables aleatorias.

Para cualquier método de muestreo ${\ Displaystyle G}$ y distribuciones discretas ${\ Displaystyle x, y}$ , Si ${\ Displaystyle \ Pr [G (x) = G (y)]> J _ {\ mathcal {P}} (x, y)}$ entonces para algunos ${\ Displaystyle z}$ dónde ${\ Displaystyle J _ {\ mathcal {P}} (x, z)> J _ {\ mathcal {P}} (x, y)}$ y ${\ Displaystyle J _ {\ mathcal {P}} (y, z)> J _ {\ mathcal {P}} (x, y)}$ , ya sea ${\ Displaystyle \ Pr [G (x) = G (z)]$ o ${\ Displaystyle \ Pr [G (y) = G (z)]$ . ^[8]

Es decir, ningún método de muestreo puede lograr más colisiones que ${\ Displaystyle J _ {\ mathcal {P}}}$ en un par sin lograr menos colisiones que ${\ Displaystyle J _ {\ mathcal {P}}}$ en otro par, donde el par reducido es más similar bajo ${\ Displaystyle J _ {\ mathcal {P}}}$ que el par aumentado. Este teorema es cierto para el índice de conjuntos de Jaccard (si se interpreta como distribuciones uniformes) y la probabilidad de Jaccard, pero no para el Jaccard ponderado. (El teorema usa la palabra "método de muestreo" para describir una distribución conjunta sobre todas las distribuciones en un espacio, porque se deriva del uso de algoritmos de minhashing ponderados que logran esto como su probabilidad de colisión).

Este teorema tiene una demostración visual de distribuciones de tres elementos usando la representación simplex.

Similitud y distancia de Tanimoto

Varias formas de funciones descritas como similitud de Tanimoto y distancia de Tanimoto ocurren en la literatura y en Internet. La mayoría de estos son sinónimos de similitud Jaccard y distancia Jaccard, pero algunos son matemáticamente diferentes. Muchas fuentes ^[9] citan un Informe técnico de IBM ^[2] como referencia fundamental. El informe está disponible en varias bibliotecas .

En "Un programa informático para clasificar plantas", publicado en octubre de 1960, ^{[10] se da} un método de clasificación basado en una relación de similitud y una función de distancia derivada. Parece que esta es la fuente más autorizada para el significado de los términos "similitud de Tanimoto" y "Distancia de Tanimoto". La relación de similitud es equivalente a la similitud de Jaccard, pero la función de distancia no es la misma que la distancia de Jaccard.

Las definiciones de similitud y distancia de Tanimoto

En ese documento, se da una "relación de similitud" sobre mapas de bits , donde cada bit de una matriz de tamaño fijo representa la presencia o ausencia de una característica en la planta que se está modelando. La definición de la relación es el número de bits comunes, dividido por el número de bits establecidos ( es decir, distinto de cero) en cualquiera de las muestras.

Presentado en términos matemáticos, si las muestras X e Y son mapas de bits, ${\ Displaystyle X_ {i}}$ es el i- ésimo bit de X , y ${\ Displaystyle \ land, \ lor}$ son operadores bit a bit y , or respectivamente, entonces la relación de similitud ${\ Displaystyle T_ {s}}$ es

{\ Displaystyle T_ {s} (X, Y) = {\ frac {\ sum _ {i} (X_ {i} \ land Y_ {i})} {\ sum _ {i} (X_ {i} \ lor Y_ {i})}}}

Si cada muestra se modela en cambio como un conjunto de atributos, este valor es igual al coeficiente de Jaccard de los dos conjuntos. Jaccard no se cita en el artículo y parece probable que los autores no lo supieran.

Tanimoto pasa a definir un "coeficiente de distancia" basado en esta relación, definida para mapas de bits con similitud distinta de cero:

{\ Displaystyle T_ {d} (X, Y) = - \ log _ {2} (T_ {s} (X, Y))}

Este coeficiente, deliberadamente, no es una métrica de distancia. Se elige para permitir la posibilidad de que dos ejemplares, que son bastante diferentes entre sí, sean similares a un tercero. Es fácil construir un ejemplo que refute la propiedad de la desigualdad triangular .

Otras definiciones de distancia de Tanimoto

La distancia de Tanimoto a menudo se denomina, erróneamente, como sinónimo de distancia de Jaccard. ${\ Displaystyle 1-T_ {s}}$ . Esta función es una métrica de distancia adecuada. La "Distancia de Tanimoto" se indica a menudo como una métrica de distancia adecuada, probablemente debido a su confusión con la distancia de Jaccard.

Si la similitud de Jaccard o Tanimoto se expresa sobre un vector de bits, entonces se puede escribir como

{\ Displaystyle f (A, B) = {\ frac {A \ cdot B} {\ | A \ | ^ {2} + \ | B \ | ^ {2} -A \ cdot B}}}

donde el mismo cálculo se expresa en términos de producto escalar vectorial y magnitud. Esta representación se basa en el hecho de que, para un vector de bits (donde el valor de cada dimensión es 0 o 1), entonces

{\ Displaystyle A \ cdot B = \ sum _ {i} A_ {i} B_ {i} = \ sum _ {i} (A_ {i} \ land B_ {i})}

y

{\ Displaystyle \ | A \ | ^ {2} = \ sum _ {i} A_ {i} ^ {2} = \ sum _ {i} A_ {i}.}

Esta es una representación potencialmente confusa, porque la función expresada sobre vectores es más general, a menos que su dominio esté explícitamente restringido. Propiedades de ${\ Displaystyle T_ {s}}$ no necesariamente se extienden a ${\ Displaystyle f}$ . En particular, la función de diferencia ${\ Displaystyle 1-f}$ no conserva la desigualdad del triángulo y, por lo tanto, no es una métrica de distancia adecuada, mientras que ${\ Displaystyle 1-T_ {s}}$ es.

Existe un peligro real de que la combinación de "Distancia de Tanimoto" que se define mediante esta fórmula, junto con la afirmación "La distancia de Tanimoto es una métrica de distancia adecuada" lleve a la falsa conclusión de que la función ${\ Displaystyle 1-f}$ de hecho, es una métrica de distancia sobre vectores o conjuntos múltiples en general, mientras que su uso en algoritmos de búsqueda de similitud o agrupamiento puede fallar en producir resultados correctos.

Lipkus ^[6] utiliza una definición de similitud de Tanimoto que es equivalente a ${\ Displaystyle f}$ , y se refiere a la distancia de Tanimoto como la función ${\ Displaystyle 1-f}$ . Sin embargo, se aclara en el documento que el contexto está restringido por el uso de un vector de ponderación (positivo) ${\ Displaystyle W}$ tal que, para cualquier vector A considerado, ${\ Displaystyle A_ {i} \ in \ {0, W_ {i} \}.}$ En estas circunstancias, la función es una métrica de distancia adecuada, por lo que un conjunto de vectores gobernados por dicho vector de ponderación forma un espacio métrico bajo esta función.

Índice de Jaccard en matrices de confusión de clasificación binaria

En las matrices de confusión empleadas para la clasificación binaria , el índice de Jaccard se puede enmarcar en la siguiente fórmula:

{\ displaystyle {\ text {índice de Jaccard}} = {\ frac {TP} {TP + FP + FN}}}

donde TP son los verdaderos positivos, TN son los verdaderos negativos, FP son los falsos positivos y FN son los falsos negativos. ^[11]

Ver también

Coeficiente de superposición
Coeficiente de coincidencia simple
Distancia de Hamming
Coeficiente de Sørensen-Dice , que es equivalente: ${\ Displaystyle J = S / (2-S)}$ y ${\ Displaystyle S = 2J / (1 + J)}$ ( ${\ Displaystyle J}$ : Índice de Jaccard, ${\ Displaystyle S}$ : Coeficiente de Sørensen – Dice)
Índice de Tversky
Correlación
Información mutua , una variante métrica normalizada de la cual es una distancia de Jaccard entrópica.

Referencias

^ Jaccard, Paul (febrero de 1912). "LA DISTRIBUCIÓN DE LA FLORA EN LA ZONA ALPINA.1" . Nuevo fitólogo . 11 (2): 37–50. doi : 10.1111 / j.1469-8137.1912.tb05611.x . ISSN 0028-646X .
^ a b Tanimoto TT (17 de noviembre de 1958). "Una teoría matemática elemental de clasificación y predicción". Informe técnico interno de IBM . 1957 (¿8?).
^ a b c d Chung NC, Miasojedow B, Startek M, Gambin A (diciembre de 2019). "Ensayo de similitud Jaccard / Tanimoto y métodos de estimación para datos biológicos de presencia-ausencia" . BMC Bioinformática . 20 (Suppl 15): 644. doi : 10.1186 / s12859-019-3118-5 . PMC 6929325 . PMID 31874610 .
^ Leskovec J, Rajaraman A, Ullman J (2020). Minería de conjuntos de datos masivos . Cambridge. ISBN 9781108476348.y P. 76-77 en una versión anterior http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
^ Kosub S (abril de 2019). "Una nota sobre la desigualdad del triángulo para la distancia de Jaccard". Cartas de reconocimiento de patrones . 120 : 36–8. arXiv : 1612.02696 . doi : 10.1016 / j.patrec.2018.12.007 .
^ a b Lipkus AH (1999). "Una prueba de la desigualdad del triángulo para la distancia de Tanimoto". Revista de Química Matemática . 26 (1-3): 263-265. doi : 10.1023 / A: 1019154432472 .
^ Levandowsky M, Winter D (1971). "Distancia entre conjuntos". Naturaleza . 234 (5): 34–35. doi : 10.1038 / 234034a0 .
^ a b Moulton R, Jiang Y (2018). "Muestreo de máxima coherencia y el índice de Jaccard de distribuciones de probabilidad". Conferencia internacional sobre minería de datos, taller sobre minería de datos de alta dimensión : 347–356. arXiv : 1809.04052 . doi : 10.1109 / ICDM.2018.00050 . ISBN 978-1-5386-9159-5.
^ Por ejemplo Huihuan Q, Xinyu W, Yangsheng X (2011). Sistemas de vigilancia inteligente . Saltador. pag. 161. ISBN 978-94-007-1137-2.
^ Rogers DJ, Tanimoto TT (octubre de 1960). "Un programa informático para la clasificación de plantas". Ciencia . 132 (3434): 1115–8. doi : 10.1126 / science.132.3434.1115 . PMID 17790723 .
^ Aziz Taha, Abdel (2015). "Métricas para evaluar la segmentación de imágenes médicas 3D: análisis, selección y herramienta" . Imágenes médicas de BMC . 15 (29): 1–28. doi : 10.1186 / s12880-015-0068-x .

Otras lecturas

Tan PN, Steinbach M, Kumar V (2005). Introducción a la minería de datos . ISBN 0-321-32136-7.
Jaccard P (1901). "Étude comparative de la distribution florale dans une porción des Alpes et des Jura". Bulletin de la Société vaudoise des sciences naturelles . 37 : 547–579.
Jaccard P (1912). "La distribución de la flora en la zona alpina". Nuevo fitólogo . 11 (2): 37–50. doi : 10.1111 / j.1469-8137.1912.tb05611.x .

enlaces externos

Introducción a las notas de clase de la minería de datos de Tan, Steinbach, Kumar
SimMetrics, una implementación de sourceforge del índice Jaccard y muchas otras métricas de similitud
Una calculadora basada en la web para encontrar el coeficiente de Jaccard
Tutorial sobre cómo calcular diferentes similitudes
Intersección sobre Unión (IoU) para detección de objetos
Detección de características de imágenes satelitales Kaggle Dstl - Evaluación

[1] Jaccard, Paul (febrero de 1912). "LA DISTRIBUCIÓN DE LA FLORA EN LA ZONA ALPINA.1" . Nuevo fitólogo . 11 (2): 37–50. doi : 10.1111 / j.1469-8137.1912.tb05611.x . ISSN 0028-646X .

[:1-2] Tanimoto TT (17 de noviembre de 1958). "Una teoría matemática elemental de clasificación y predicción". Informe técnico interno de IBM . 1957 (¿8?).

[:0-3] Chung NC, Miasojedow B, Startek M, Gambin A (diciembre de 2019). "Ensayo de similitud Jaccard / Tanimoto y métodos de estimación para datos biológicos de presencia-ausencia" . BMC Bioinformática . 20 (Suppl 15): 644. doi : 10.1186 / s12859-019-3118-5 . PMC 6929325 . PMID 31874610 .

[4] Leskovec J, Rajaraman A, Ullman J (2020). Minería de conjuntos de datos masivos . Cambridge. ISBN 9781108476348.y P. 76-77 en una versión anterior http://infolab.stanford.edu/~ullman/mmds/ch3.pdf

[5] Kosub S (abril de 2019). "Una nota sobre la desigualdad del triángulo para la distancia de Jaccard". Cartas de reconocimiento de patrones . 120 : 36–8. arXiv : 1612.02696 . doi : 10.1016 / j.patrec.2018.12.007 .

[lipkus-6] Lipkus AH (1999). "Una prueba de la desigualdad del triángulo para la distancia de Tanimoto". Revista de Química Matemática . 26 (1-3): 263-265. doi : 10.1023 / A: 1019154432472 .

[7] Levandowsky M, Winter D (1971). "Distancia entre conjuntos". Naturaleza . 234 (5): 34–35. doi : 10.1038 / 234034a0 .

[pminhash-8] Moulton R, Jiang Y (2018). "Muestreo de máxima coherencia y el índice de Jaccard de distribuciones de probabilidad". Conferencia internacional sobre minería de datos, taller sobre minería de datos de alta dimensión : 347–356. arXiv : 1809.04052 . doi : 10.1109 / ICDM.2018.00050 . ISBN 978-1-5386-9159-5.

[9] Por ejemplo Huihuan Q, Xinyu W, Yangsheng X (2011). Sistemas de vigilancia inteligente . Saltador. pag. 161. ISBN 978-94-007-1137-2.

[10] Rogers DJ, Tanimoto TT (octubre de 1960). "Un programa informático para la clasificación de plantas". Ciencia . 132 (3434): 1115–8. doi : 10.1126 / science.132.3434.1115 . PMID 17790723 .

[11] Aziz Taha, Abdel (2015). "Métricas para evaluar la segmentación de imágenes médicas 3D: análisis, selección y herramienta" . Imágenes médicas de BMC . 15 (29): 1–28. doi : 10.1186 / s12880-015-0068-x .

[1]