Índice de Jaccard

El índice de Jaccard , también conocido como coeficiente de similitud de Jaccard , es una estadística utilizada para medir la similitud y diversidad de conjuntos de muestras . Fue desarrollado por Paul Jaccard , originalmente dando el nombre francés coefficient de communauté , ^[1] y formulado de nuevo independientemente por T. Tanimoto. ^[2] Por lo tanto, el índice de Tanimoto o el coeficiente de Tanimoto también se utilizan en algunos campos. Sin embargo, son idénticos al tomar en general la relación de intersección sobre unión. El coeficiente de Jaccard mide la similitud entre conjuntos de muestras finitos y se define como el tamaño de la intersección dividido por el tamaño de la unión de los conjuntos de muestras:

Tenga en cuenta que por diseño, si A y B están vacíos, defina J ( A , B ) = 1. El coeficiente de Jaccard se usa ampliamente en informática, ecología, genómica y otras ciencias, donde se utilizan datos binarios o binarizados . Tanto la solución exacta como los métodos de aproximación están disponibles para la prueba de hipótesis con el coeficiente de Jaccard. ^[3] ${\ Displaystyle 0 \ leq J (A, B) \ leq 1.}$

La similitud de Jaccard también se aplica a las bolsas, es decir, Multisets . Tiene una fórmula similar, ^[4] pero los símbolos significan intersección de bolsas y suma de bolsas (no unión). El valor máximo es 1/2.

La distancia de Jaccard , que mide la disimilitud entre conjuntos de muestras, es complementaria al coeficiente de Jaccard y se obtiene restando el coeficiente de Jaccard de 1 o, de manera equivalente, dividiendo la diferencia de los tamaños de la unión y la intersección de dos conjuntos por el tamaño de la unión:

Una interpretación alternativa de la distancia de Jaccard es la relación entre el tamaño de la diferencia simétrica y la unión. La distancia de Jaccard se usa comúnmente para calcular una matriz n × n para la agrupación y el escalado multidimensional de n conjuntos de muestras. ${\ Displaystyle A \ triangle B = (A \ cup B) - (A \ cap B)}$

También existe una versión de la distancia Jaccard para medidas , incluidas las medidas de probabilidad . Si es una medida en un espacio medible , entonces definimos el coeficiente de Jaccard por ${\ Displaystyle \ mu}$ ${\ Displaystyle X}$

Intersección y unión de dos conjuntos A y B

Intersección sobre Unión como medida de similitud para la detección de objetos en imágenes, una tarea importante en la visión por computadora .

El índice de probabilidad de Jaccard se puede interpretar como intersecciones de simples.

Una prueba visual de la optimalidad del índice Jaccard de probabilidad en distribuciones de tres elementos.