Índice de Tversky


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El índice de Tversky , llamado así por Amos Tversky , [1] es una medida de similitud asimétrica en conjuntos que compara una variante con un prototipo. El índice de Tversky puede verse como una generalización del coeficiente de Sørensen-Dice y del coeficiente de Tanimoto (también conocido como índice de Jaccard ).

Para los conjuntos X e Y, el índice de Tversky es un número entre 0 y 1 dado por

Aquí, denota el complemento relativo de Y en X.

Además, son parámetros del índice de Tversky. El ajuste produce el coeficiente de Tanimoto; el ajuste produce el coeficiente de Sørensen-Dice.

Si consideramos que X es el prototipo e Y es la variante, entonces corresponde al peso del prototipo y corresponde al peso de la variante. Las medidas de Tversky con son de especial interés. [2]

Debido a la asimetría inherente, el índice de Tversky no cumple los criterios para una métrica de similitud. Sin embargo, si se necesita simetría, se ha propuesto una variante de la formulación original utilizando funciones max y min [3] .

,

,

Esta formulación también reordena los parámetros y . Por lo tanto, controla el equilibrio entre y en el denominador. Del mismo modo, controla el efecto de la diferencia simétrica frente al denominador.

Notas

  1. ^ Tversky, Amos (1977). "Características de la similitud" (PDF) . Revisión psicológica . 84 (4): 327–352. doi : 10.1037 / 0033-295x.84.4.327 .
  2. ^ http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
  3. ^ Jiménez, S., Becerra, C., Gelbukh, A. SOFTCARDINALITY-CORE: Mejora de la superposición de texto con medidas de distribución para la similitud textual semántica . Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM), Volumen 1: Actas de la Conferencia Principal y la Tarea Compartida: Similitud Textual Semántica, p.194-201, 7-8 de junio de 2013, Atlanta, Georgia, EE. UU.