Similitud de coseno

La similitud de coseno es una medida de similitud entre dos vectores distintos de cero de un espacio de producto interno . Se define para igualar el coseno del ángulo entre ellos, que también es el mismo que el producto interno de los mismos vectores normalizados para que ambos tengan longitud 1. El coseno de 0 ° es 1, y es menor que 1 para cualquier ángulo. en el intervalo $(0, π]$ radianes. Por lo tanto, es un juicio de orientación y no de magnitud: dos vectores con la misma orientación tienen una similitud de coseno de 1, dos vectores orientados a 90 ° entre sí tienen una similitud de 0, y dos vectores diametralmente opuestos tienen una similitud de - 1, independientemente de su magnitud. La similitud del coseno se usa particularmente en el espacio positivo, donde el resultado está claramente delimitado en ${\ Displaystyle [0,1]}$ . El nombre deriva del término "coseno de dirección": en este caso, los vectores unitarios son máximamente "similares" si son paralelos y máximamente "diferentes" si son ortogonales (perpendiculares). Esto es análogo al coseno, que es la unidad (valor máximo) cuando los segmentos subtienden un ángulo cero y cero (no correlacionado) cuando los segmentos son perpendiculares.

Estos límites se aplican a cualquier número de dimensiones, y la similitud de coseno se usa más comúnmente en espacios positivos de alta dimensión. Por ejemplo, en la recuperación de información y la minería de texto , a cada término se le asigna teóricamente una dimensión diferente y un documento se caracteriza por un vector donde el valor en cada dimensión corresponde al número de veces que el término aparece en el documento. La similitud de coseno proporciona una medida útil de cuán similares pueden ser dos documentos en términos de su tema. ^[1]

La técnica también se utiliza para medir la cohesión dentro de los clústeres en el campo de la minería de datos . ^[2]

El término distancia del coseno se usa a menudo para el complemento en el espacio positivo, es decir: ${\ Displaystyle D_ {C} (A, B) = 1-S_ {C} (A, B),}$ dónde ${\ Displaystyle D_ {C}}$ es la distancia del coseno y ${\ Displaystyle S_ {C}}$ es la similitud del coseno. Sin embargo, es importante señalar que esta no es una métrica de distancia adecuada, ya que no tiene la propiedad de desigualdad del triángulo —o, más formalmente, la desigualdad de Schwarz— y viola el axioma de coincidencia; para reparar la propiedad de desigualdad del triángulo manteniendo el mismo orden, es necesario convertir a distancia angular (ver más abajo).

Una ventaja de la similitud del coseno es su baja complejidad , especialmente para los vectores dispersos : solo se deben considerar las dimensiones distintas de cero.

Otros nombres de semejanza de coseno son semejanza de Orchini y coeficiente de congruencia de Tucker ; La similitud de Ochiai (ver más abajo) es la similitud de coseno aplicada a datos binarios.

Definición

El coseno de dos vectores distintos de cero se puede derivar utilizando la fórmula del producto escalar euclidiano :

{\ Displaystyle \ mathbf {A} \ cdot \ mathbf {B} = \ left \ | \ mathbf {A} \ right \ | \ left \ | \ mathbf {B} \ right \ | \ cos \ theta}

Dados dos vectores de atributos, A y B , la similitud del coseno, $cos (θ)$ , se representa mediante un producto escalar y la magnitud como

{\ Displaystyle {\ text {similitud}} = \ cos (\ theta) = {\ mathbf {A} \ cdot \ mathbf {B} \ over \ | \ mathbf {A} \ | \ | \ mathbf {B} \ |} = {\ frac {\ suma \ límites _ {i = 1} ^ {n} {A_ {i} B_ {i}}} {{\ sqrt {\ suma \ límites _ {i = 1} ^ {n } {A_ {i} ^ {2}}}} {\ sqrt {\ sum \ limits _ {i = 1} ^ {n} {B_ {i} ^ {2}}}}}},}

dónde ${\ Displaystyle A_ {i}}$ y ${\ Displaystyle B_ {i}}$ son componentes del vector ${\ Displaystyle A}$ y ${\ Displaystyle B}$ respectivamente.

La similitud resultante varía de -1 que significa exactamente lo contrario, a 1 que significa exactamente lo mismo, con 0 que indica ortogonalidad o descorrelación , mientras que los valores intermedios indican similitud o disimilitud intermedia.

Para la concordancia de texto , los vectores de atributo A y B suelen ser los vectores de frecuencia del término de los documentos. La similitud de coseno puede verse como un método para normalizar la longitud del documento durante la comparación.

En el caso de la recuperación de información , la similitud de coseno de dos documentos variará de 0 a 1, ya que el término frecuencias (utilizando ponderaciones tf-idf ) no puede ser negativo. El ángulo entre dos vectores de frecuencia de término no puede ser mayor de 90 °.

Si los vectores de atributos se normalizan restando las medias vectoriales (p. Ej., ${\ Displaystyle A - {\ bar {A}}}$ ), la medida se llama semejanza de coseno centrada y es equivalente al coeficiente de correlación de Pearson . Para un ejemplo de centrado, ${\ Displaystyle {\ text {if}} \, A = [A_ {1}, A_ {2}] ^ {T}, {\ text {then}} {\ bar {A}} = \ left [{\ frac {(A_ {1} + A_ {2})} {2}}, {\ frac {(A_ {1} + A_ {2})} {2}} \ right] ^ {T}, {\ text {so}} A - {\ bar {A}} = \ left [{\ frac {(A_ {1} -A_ {2})} {2}}, {\ frac {(-A_ {1} + A_ {2})} {2}} \ right] ^ {T}.}$

Distancia angular y similitud

El término "similitud de coseno" se usa a veces para referirse a una definición diferente de similitud proporcionada a continuación. Sin embargo, el uso más común de "similitud de coseno" es el definido anteriormente y las métricas de similitud y distancia definidas a continuación se denominan "similitud angular" y "distancia angular", respectivamente. El ángulo normalizado entre los vectores es una métrica de distancia formal y se puede calcular a partir de la puntuación de similitud definida anteriormente. ^[3] Esta métrica de distancia angular se puede utilizar para calcular una función de similitud limitada entre 0 y 1, inclusive.

Cuando los elementos del vector pueden ser positivos o negativos:

{\ displaystyle {\ text {distancia angular}} = {\ frac {\ cos ^ {- 1} ({\ text {similitud de coseno}})} {\ pi}}}

{\ displaystyle {\ text {similitud angular}} = 1 - {\ text {distancia angular}}}

O, si los elementos del vector son siempre positivos:

{\ displaystyle {\ text {distancia angular}} = {\ frac {2 \ cdot \ cos ^ {- 1} ({\ text {similitud de coseno}})} {\ pi}}}

{\ displaystyle {\ text {similitud angular}} = 1 - {\ text {distancia angular}}}

Aunque se ha utilizado el término "semejanza de coseno" para esta distancia angular, el término se utiliza como coseno del ángulo sólo como un mecanismo conveniente para calcular el ángulo en sí y no forma parte del significado. La ventaja del coeficiente de similitud angular es que, cuando se usa como coeficiente de diferencia (restando de 1), la función resultante es una métrica de distancia adecuada , lo que no es el caso del primer significado. Sin embargo, para la mayoría de los usos, esta no es una propiedad importante. Para cualquier uso en el que solo sea importante el orden relativo de similitud o distancia dentro de un conjunto de vectores, entonces la función que se use es irrelevante, ya que el orden resultante no se verá afectado por la elección.

${\ Displaystyle L_ {2}}$ -distancia euclidiana normalizada

Otro proxy efectivo para la distancia del coseno se puede obtener mediante ${\ Displaystyle L_ {2}}$ normalización de los vectores, seguida de la aplicación de la distancia euclidiana normal. Usando esta técnica, cada término en cada vector se divide primero por la magnitud del vector, lo que produce un vector de longitud unitaria. Entonces, está claro, la distancia euclidiana sobre los puntos finales de dos vectores cualesquiera es una métrica adecuada que da el mismo orden que la distancia del coseno para cualquier comparación de vectores, y además evita las operaciones trigonométricas potencialmente costosas requeridas para producir un valor adecuado. métrico. Una vez que se ha producido la normalización, el espacio vectorial se puede utilizar con la gama completa de técnicas disponibles para cualquier espacio euclidiano, en particular las técnicas de reducción de dimensionalidad estándar. Esta distancia de forma normalizada se utiliza notablemente en muchos algoritmos de aprendizaje profundo.

Coeficiente de Otsuka-Ochiai

En biología, existe un concepto similar conocido como el coeficiente Otsuka-Ochiai que lleva el nombre de Yanosuke Otsuka (también escrito como Ōtsuka, Ootsuka u Otuka, ^[4] japonés :大塚弥之助) ^[5] y Akira Ochiai ( japonés :落合明), ^[6] también conocido como el coeficiente Ochiai-Barkman ^[7] o Ochiai, ^[8] que se puede representar como:

{\ Displaystyle K = {\ frac {| A \ cap B |} {\ sqrt {| A | \ times | B |}}}}

Aquí, ${\ Displaystyle A}$ y ${\ Displaystyle B}$ son conjuntos , y ${\ Displaystyle | A |}$ es el número de elementos en ${\ Displaystyle A}$ . Si los conjuntos se representan como vectores de bits, se puede ver que el coeficiente de Otsuka-Ochiai es el mismo que la similitud del coseno.

En un libro reciente, ^[9] el coeficiente se atribuye erróneamente a otro investigador japonés con el apellido Otsuka. La confusión surge porque en 1957 Akira Ochiai atribuye el coeficiente solo a Otsuka (sin nombre mencionado) ^[6] citando un artículo de Ikuso Hamai ( japonés :浜井生三), ^[10] quien a su vez cita el artículo original de 1936 de Yanosuke Otsuka. ^[5]

Propiedades

La propiedad más notable de la similitud del coseno es que refleja una comparación relativa, en lugar de absoluta, de las dimensiones vectoriales individuales. Para cualquier constante ${\ Displaystyle a}$ y vector ${\ Displaystyle V}$ , los vectores ${\ Displaystyle V}$ y ${\ Displaystyle aV}$ son máximamente similares. Por tanto, la medida es más apropiada para datos en los que la frecuencia es más importante que los valores absolutos; en particular, la frecuencia de términos en los documentos. Sin embargo , se ha demostrado que las métricas más recientes con una base en la teoría de la información, como Jensen-Shannon , SED y Triangular Divergence, han mejorado la semántica en al menos algunos contextos. ^[11]

La similitud del coseno está relacionada con la distancia euclidiana de la siguiente manera. Denote la distancia euclidiana por la habitual ${\ Displaystyle \ | AB \ |}$ , y observe que

{\ Displaystyle \ | AB \ | ^ {2} = (AB) ^ {\ mathsf {T}} (AB) = \ | A \ | ^ {2} + \ | B \ | ^ {2} -2A ^ {\ mathsf {T}} B}

por expansión . Cuando $A$ y $B$ se normalizan a la longitud unitaria, ${\ Displaystyle \ | A \ | ^ {2} = \ | B \ | ^ {2} = 1}$ entonces esta expresión es igual a

{\ Displaystyle 2 (1- \ cos (A, B)).}

La distancia euclidiana se llama distancia de cuerda (porque es la longitud de la cuerda en el círculo unitario) y es la distancia euclidiana entre los vectores que se normalizaron a la suma unitaria de valores cuadrados dentro de ellos.

Distribución nula: para datos que pueden ser tanto negativos como positivos, la distribución nula para la similitud del coseno es la distribución del producto escalar de dos vectores unitarios aleatorios independientes . Esta distribución tiene una media de cero y una varianza de ${\ Displaystyle 1 / n}$ (dónde ${\ Displaystyle n}$ es el número de dimensiones), y aunque la distribución está limitada entre -1 y +1, como ${\ Displaystyle n}$ crece mucho, la distribución se aproxima cada vez más a la distribución normal . ^[12]^[13] Otros tipos de datos como los flujos de bits , que solo toman los valores 0 o 1, la distribución nula toma una forma diferente y puede tener una media distinta de cero. ^[14]

Medida de coseno suave

Un coseno suave o (similitud "suave") entre dos vectores considera similitudes entre pares de características. ^[15] La similitud de coseno tradicional considera las características del modelo de espacio vectorial (VSM) como independientes o completamente diferentes, mientras que la medida del coseno suave propone considerar la similitud de características en VSM, que ayudan a generalizar el concepto de coseno (y coseno suave) también. como la idea de similitud (suave).

Por ejemplo, en el campo del procesamiento del lenguaje natural (PNL), la similitud entre características es bastante intuitiva. Las características como palabras, n -gramas o n -gramas sintácticos ^[16] pueden ser bastante similares, aunque formalmente se consideran características diferentes en VSM. Por ejemplo, las palabras "juego" y "juego" son palabras diferentes y, por lo tanto, se asignan a diferentes puntos en VSM; sin embargo, están semánticamente relacionados. En el caso de n -grams o sintáctica n -grams, Levenshtein distancia se puede aplicar (de hecho, la distancia Levenshtein se puede aplicar a palabras también).

Para calcular el coseno blando, la matriz $s$ se usa para indicar similitud entre características. Puede calcularse mediante la distancia de Levenshtein, la similitud de WordNet u otras medidas de similitud . Luego, simplemente multiplicamos por esta matriz.

Dados dos vectores de dimensión $N$ ${\ Displaystyle a}$ y ${\ Displaystyle b}$ , la similitud del coseno blando se calcula de la siguiente manera:

{\ Displaystyle {\ begin {alineado} \ operatorname {soft \ _cosine} _ {1} (a, b) = {\ frac {\ sum \ nolimits _ {i, j} ^ {N} s_ {ij} a_ { i} b_ {j}} {{\ sqrt {\ sum \ nolimits _ {i, j} ^ {N} s_ {ij} a_ {i} a_ {j}}} {\ sqrt {\ sum \ nolimits _ { i, j} ^ {N} s_ {ij} b_ {i} b_ {j}}}}}, \ end {alineado}}}

donde $s ij = similitud (característica i, característica j)$ .

Si no hay similitud entre características ( $s ii = 1$ , $s ij = 0$ para $i \neq j$ ), la ecuación dada es equivalente a la fórmula de similitud de coseno convencional.

La complejidad temporal de esta medida es cuadrática, lo que la hace aplicable a tareas del mundo real. Tenga en cuenta que la complejidad se puede reducir a subcuadrática. ^[17] Una implementación eficiente de tal similitud de coseno blando se incluye en la biblioteca de código abierto de Gensim .

Ver también

Coeficiente de Sørensen-Dice
Distancia de Hamming
Correlación
Índice de Jaccard
SimRank
Recuperación de información

Referencias

^ Singhal, Amit (2001). " Recuperación de información moderna: una breve descripción ". Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society 24 (4): 35–43.
^ P.-N. Tan, M. Steinbach & V. Kumar, Introducción a la minería de datos , Addison-Wesley (2005), ISBN 0-321-32136-7 , capítulo 8; página 500.
^ "DISTANCIA DE COSENO, SIMILITUD DE COSENO, DISTANCIA DE COSENO ANGULAR, SIMILARIDAD DE COSENO ANGULAR" . www.itl.nist.gov . Consultado el 11 de julio de 2020 .
^ Omori, Masae (2004). "Idea geológica de Yanosuke Otuka, quien construyó la base de la neotectónica (geocientífico)" . Ciencias de la Tierra . 58 (4): 256–259. doi : 10.15080 / agcjchikyukagaku.58.4_256 .
^ a b Otsuka, Yanosuke (1936). "El carácter faunístico de los moluscos marinos del Pleistoceno japonés, como evidencia de que el clima se ha vuelto más frío durante el Pleistoceno en Japón". Boletín de la Sociedad Biogeográfica de Japón . 6 (16): 165-170.
^ a b Ochiai, Akira (1957). "Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas-II" . Boletín de la Sociedad Japonesa de Pesca Científica . 22 (9): 526–530. doi : 10.2331 / suisan.22.526 .
^ Barkman, Jan J. (1958). Fitosociología y ecología de las epífitas criptogámicas: incluida una encuesta taxonómica y una descripción de sus unidades de vegetación en Europa . Assen: Van Gorcum.
^ H. Charles Romesburg (1984). Análisis de conglomerados para investigadores . Belmont, California: Publicaciones de aprendizaje de por vida. pag. 149.
^ Howarth, Richard J. (2017). Diccionario de geociencias matemáticas: con notas históricas . Cham, Suiza: Springer. pag. 421. doi : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.
^ Hamai, Ikuso (1955). "Estratificación de comunidad mediante" coeficiente de comunidad "(continuación)" . Revista japonesa de ecología . 5 (1): 41–45. doi : 10.18960 / seitai.5.1_41 .
^ Connor, Richard (2016). Una historia de cuatro métricas . Búsqueda de similitudes y aplicaciones. Tokio: Springer.
^ Spruill, Marcus C. (2007). "Distribución asintótica de coordenadas en esferas de alta dimensión" . Comunicaciones electrónicas en probabilidad . 12 : 234–247. doi : 10.1214 / ECP.v12-1294 .
^ "Distribución de productos escalares entre dos vectores unitarios aleatorios en RD" . CrossValidated .
^ Graham L. Giller (2012). "Las propiedades estadísticas de los flujos de bits aleatorios y la distribución de muestreo de la similitud del coseno". Notas de investigación de Giller Investments (20121024/1). doi : 10.2139 / ssrn.2167044 .
^ Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David (29 de septiembre de 2014). "Similitud suave y medida de coseno suave: similitud de características en el modelo de espacio vectorial" . Computación y Sistemas . 18 (3): 491–504. doi : 10.13053 / CyS-18-3-2043 . Consultado el 7 de octubre de 2014 .
^ Sidorov, Grigori; Velásquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2013). Avances en Inteligencia Computacional . Apuntes de conferencias en informática. 7630 . LNAI 7630. págs. 1-11. doi : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.
^ Novotný, Vít (2018). Notas de implementación para la medida del coseno blando . La 27ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento. Torun, Italia: Asociación de Maquinaria Informática. págs. 1639-1642. arXiv : 1808.09407 . doi : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.

enlaces externos

Medida de coseno ponderada
Un tutorial sobre la similitud del coseno usando Python

[1] Singhal, Amit (2001). " Recuperación de información moderna: una breve descripción ". Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society 24 (4): 35–43.

[2] P.-N. Tan, M. Steinbach & V. Kumar, Introducción a la minería de datos , Addison-Wesley (2005), ISBN 0-321-32136-7 , capítulo 8; página 500.

[3] "DISTANCIA DE COSENO, SIMILITUD DE COSENO, DISTANCIA DE COSENO ANGULAR, SIMILARIDAD DE COSENO ANGULAR" . www.itl.nist.gov . Consultado el 11 de julio de 2020 .

[Omori-4] Omori, Masae (2004). "Idea geológica de Yanosuke Otuka, quien construyó la base de la neotectónica (geocientífico)" . Ciencias de la Tierra . 58 (4): 256–259. doi : 10.15080 / agcjchikyukagaku.58.4_256 .

[Otsuka1936-5] Otsuka, Yanosuke (1936). "El carácter faunístico de los moluscos marinos del Pleistoceno japonés, como evidencia de que el clima se ha vuelto más frío durante el Pleistoceno en Japón". Boletín de la Sociedad Biogeográfica de Japón . 6 (16): 165-170.

[Ochiai1957-6] Ochiai, Akira (1957). "Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas-II" . Boletín de la Sociedad Japonesa de Pesca Científica . 22 (9): 526–530. doi : 10.2331 / suisan.22.526 .

[Barkman1958-7] Barkman, Jan J. (1958). Fitosociología y ecología de las epífitas criptogámicas: incluida una encuesta taxonómica y una descripción de sus unidades de vegetación en Europa . Assen: Van Gorcum.

[Romesburg1984-8] H. Charles Romesburg (1984). Análisis de conglomerados para investigadores . Belmont, California: Publicaciones de aprendizaje de por vida. pag. 149.

[Howarth2017-9] Howarth, Richard J. (2017). Diccionario de geociencias matemáticas: con notas históricas . Cham, Suiza: Springer. pag. 421. doi : 10.1007 / 978-3-319-57315-1 . ISBN 978-3-319-57314-4.

[Hamai1955-10] Hamai, Ikuso (1955). "Estratificación de comunidad mediante" coeficiente de comunidad "(continuación)" . Revista japonesa de ecología . 5 (1): 41–45. doi : 10.18960 / seitai.5.1_41 .

[11] Connor, Richard (2016). Una historia de cuatro métricas . Búsqueda de similitudes y aplicaciones. Tokio: Springer.

[12] Spruill, Marcus C. (2007). "Distribución asintótica de coordenadas en esferas de alta dimensión" . Comunicaciones electrónicas en probabilidad . 12 : 234–247. doi : 10.1214 / ECP.v12-1294 .

[13] "Distribución de productos escalares entre dos vectores unitarios aleatorios en RD" . CrossValidated .

[14] Graham L. Giller (2012). "Las propiedades estadísticas de los flujos de bits aleatorios y la distribución de muestreo de la similitud del coseno". Notas de investigación de Giller Investments (20121024/1). doi : 10.2139 / ssrn.2167044 .

[15] Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David (29 de septiembre de 2014). "Similitud suave y medida de coseno suave: similitud de características en el modelo de espacio vectorial" . Computación y Sistemas . 18 (3): 491–504. doi : 10.13053 / CyS-18-3-2043 . Consultado el 7 de octubre de 2014 .

[16] Sidorov, Grigori; Velásquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2013). Avances en Inteligencia Computacional . Apuntes de conferencias en informática. 7630 . LNAI 7630. págs. 1-11. doi : 10.1007 / 978-3-642-37798-3_1 . ISBN 978-3-642-37798-3.

[17] Novotný, Vít (2018). Notas de implementación para la medida del coseno blando . La 27ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento. Torun, Italia: Asociación de Maquinaria Informática. págs. 1639-1642. arXiv : 1808.09407 . doi : 10.1145 / 3269206.3269317 . ISBN 978-1-4503-6014-2.

[1]