Aprendizaje de similitud

El aprendizaje por similitud es un área del aprendizaje automático supervisado en inteligencia artificial . Está estrechamente relacionado con la regresión y la clasificación , pero el objetivo es aprender una función de similitud que mida qué tan similares o relacionados son dos objetos. Tiene aplicaciones en ranking , en sistemas de recomendación , rastreo de identidad visual, verificación facial y verificación de locutor.

Configuración de aprendizaje

Hay cuatro configuraciones comunes para el aprendizaje a distancia por similitudes y métricas.

Aprendizaje de similitud de regresión: En esta configuración, los pares de objetos se dan junto con una medida de su similitud . El objetivo es aprender una función que se aproxime para cada nuevo ejemplo de triplete etiquetado . Por lo general, esto se logra minimizando una pérdida regularizada . ${\ Displaystyle (x_ {i} ^ {1}, x_ {i} ^ {2})}$ ${\ Displaystyle y_ {i} \ in R}$ ${\ Displaystyle f (x_ {i} ^ {1}, x_ {i} ^ {2}) \ sim y_ {i}}$ ${\ Displaystyle (x_ {i} ^ {1}, x_ {i} ^ {2}, y_ {i})}$ ${\ Displaystyle \ min _ {W} \ sum _ {i} pérdida (w; x_ {i} ^ {1}, x_ {i} ^ {2}, y_ {i}) + reg (w)}$
Aprendizaje de similitud de clasificación: Se dan pares de objetos similares y objetos no similares . Una formulación equivalente es que cada par se da junto con una etiqueta binaria que determina si los dos objetos son similares o no. El objetivo es nuevamente aprender un clasificador que pueda decidir si un nuevo par de objetos es similar o no. ${\ Displaystyle (x_ {i}, x_ {i} ^ {+})}$ ${\ Displaystyle (x_ {i}, x_ {i} ^ {-})}$ ${\ Displaystyle (x_ {i} ^ {1}, x_ {i} ^ {2})}$ ${\ Displaystyle y_ {i} \ in \ {0,1 \}}$
Clasificación del aprendizaje por similitud: Se dan tripletes de objetos cuya relativa similitud obedece a un orden predefinido: se sabe que es más similar a que a . El objetivo es aprender una función tal que para cualquier nuevo triplete de objetos , obedezca ( aprendizaje contrastivo ). Esta configuración asume una forma de supervisión más débil que en la regresión, porque en lugar de proporcionar una medida exacta de similitud , uno solo tiene que proporcionar el orden relativo de similitud. Por esta razón, el aprendizaje de similitudes basado en rankings es más fácil de aplicar en aplicaciones reales a gran escala. ^[1] $(x_{i},x_{i}^{+},x_{i}^{-})$ $x_{i}$ $x_{i}^{+}$ $x_{i}^{-}$ $f$ $(x,x^{+},x^{-})$ $f(x,x^{+})>f(x,x^{-})$
Hash sensible a la localidad (LSH) ^[2]: Aplica hash a los elementos de entrada para que los elementos similares se asignen a los mismos "depósitos" en la memoria con alta probabilidad (el número de depósitos es mucho menor que el universo de posibles elementos de entrada). A menudo se aplica en la búsqueda de vecinos más cercanos en datos de alta dimensión a gran escala, por ejemplo, bases de datos de imágenes, colecciones de documentos, bases de datos de series de tiempo y bases de datos de genomas. ^[3]

Un enfoque común para aprender la similitud es modelar la función de similitud como una forma bilineal . Por ejemplo, en el caso de clasificar el aprendizaje de similitud, se pretende aprender una matriz W que parametriza la función de similitud . Cuando los datos son abundantes, un enfoque común es aprender una red siamesa : un modelo de red profunda con intercambio de parámetros. $f_{W}(x,z)=x^{T}Wz$

Aprendizaje métrico

El aprendizaje por similitud está estrechamente relacionado con el aprendizaje métrico a distancia . El aprendizaje métrico es la tarea de aprender una función a distancia sobre objetos. Una función métrica o de distancia debe obedecer a cuatro axiomas: no negatividad , identidad de indiscernibles , simetría y subaditividad (o la desigualdad del triángulo). En la práctica, los algoritmos de aprendizaje métrico ignoran la condición de identidad de los indiscernibles y aprenden una pseudométrica.

Cuando los objetos son vectores , entonces cualquier matriz en el cono semidefinido positivo simétrico define una distancia pseudométrica del espacio de x a través de la forma . Cuando es una matriz definida positiva simétrica, es una métrica. Además, como cualquier matriz semidefinida positiva simétrica se puede descomponer como dónde y , la función de distancia se puede reescribir de manera equivalente . La distancia corresponde a la distancia euclidiana entre los vectores de características transformadas y . $x_{i}$ $R^{d}$ $W$ $S_{+}^{d}$ $D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }W(x_{1}-x_{2})$ $W$ $D_{W}$ $W\in S_{+}^{d}$ $W=L^{\top }L$ $L\in R^{e\times d}$ $e\geq rank(W)$ $D_{W}$ $D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }L^{\top }L(x_{1}-x_{2})=\|L(x_{1}-x_{2})\|_{2}^{2}$ $D_{W}(x_{1},x_{2})^{2}=\|x_{1}'-x_{2}'\|_{2}^{2}$ $x_{1}'=Lx_{1}$ $x_{2}'=Lx_{2}$

Se han propuesto muchas formulaciones para el aprendizaje métrico. ^[4]^[5] Algunos enfoques bien conocidos para el aprendizaje métrico incluyen Aprendizaje de comparaciones relativas ^[6] que se basa en la pérdida de triplete , Gran margen vecino más cercano , ^[7] Aprendizaje métrico teórico de la información (ITML). ^[8]

En estadística , la matriz de covarianza de los datos a veces se usa para definir una métrica de distancia llamada distancia de Mahalanobis .

Aplicaciones

El aprendizaje por similitud se utiliza en la recuperación de información para aprender a clasificar , en la verificación facial o identificación facial, ^[9]^[10] y en los sistemas de recomendación . Además, muchos enfoques de aprendizaje automático se basan en alguna métrica. Esto incluye el aprendizaje no supervisado , como la agrupación , que agrupa objetos cercanos o similares. También incluye enfoques supervisados como el algoritmo de vecino más cercano K que se basa en etiquetas de objetos cercanos para decidir la etiqueta de un nuevo objeto. El aprendizaje métrico se ha propuesto como un paso previo al procesamiento de muchos de estos enfoques. ^[11]

Escalabilidad

El aprendizaje de la métrica y la similitud se escalan ingenuamente de forma cuadrática con la dimensión del espacio de entrada, como se puede ver fácilmente cuando la métrica aprendida tiene una forma bilineal . Se puede escalar a dimensiones más altas imponiendo una estructura de escasez sobre el modelo matricial, como se hizo con HDSL, ^[12] y con COMET. ^[13] $f_{W}(x,z)=x^{T}Wz$

Ver también

Aprendiendo a clasificar
Análisis semántico latente

Otras lecturas

Para obtener más información sobre este tema, consulte las encuestas sobre aprendizaje de métricas y similitudes de Bellet et al. ^[4] y Kulis. ^[5]

Referencias

^ Chechik, G .; Sharma, V .; Shalit, U .; Bengio, S. (2010). "Aprendizaje en línea a gran escala de la similitud de imágenes a través de la clasificación" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 1109-1135.
^ Gionis, Arístides, Piotr Indyk y Rajeev Motwani. "Búsqueda de similitudes en grandes dimensiones mediante hash". VLDB. Vol. 99. No. 6. 1999.
^ Rajaraman, A .; Ullman, J. (2010). "Minería de conjuntos de datos masivos, cap. 3" .
^ a b Bellet, A .; Habrard, A .; Sebban, M. (2013). "Una encuesta sobre aprendizaje métrico para vectores de características y datos estructurados". arXiv : 1306,6709 [ cs.LG ].
↑ a b Kulis, B. (2012). "Aprendizaje métrico: una encuesta" . Fundamentos y Tendencias en Machine Learning . 5 (4): 287–364. doi : 10.1561 / 2200000019 .
↑ Schultz, M .; Joachims, T. (2004). "Aprendiendo una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.
^ Weinberger, KQ; Blitzer, JC; Saul, LK (2006). "Aprendizaje métrico a distancia para la clasificación del vecino más cercano de gran margen" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 : 1473-1480.
^ Davis, JV; Kulis, B .; Jain, P .; Sra, S .; Dhillon, IS (2007). "Aprendizaje métrico de la teoría de la información" . Conferencia internacional sobre aprendizaje automático (ICML) : 209–216.
↑ Guillaumin, M .; Verbeek, J .; Schmid, C. (2009). "¿Eres tú? Enfoques de aprendizaje métrico para la identificación de rostros" (PDF) . Conferencia Internacional IEEE sobre Visión por Computador (ICCV) .
^ Mignon, A .; Jurie, F. (2012). "PCCA: un nuevo enfoque para el aprendizaje a distancia a partir de restricciones por pares dispersos" (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones .
^ Xing, EP; Ng, AY; Jordan, MI; Russell, S. (2002). "Aprendizaje métrico a distancia, con aplicación a la agrupación en clústeres con información complementaria" (PDF) . Avances en sistemas de procesamiento de información neuronal . 15 : 505–512.
^ Liu; Bellet; Sha (2015). "Aprendizaje de similitud para datos dispersos de alta dimensión" (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística (AISTATS) . arXiv : 1411.2374 . Código bibliográfico : 2014arXiv1411.2374L .
^ Atzmon; Shalit; Chechik (2015). "Aprendizaje de métricas dispersas, una característica a la vez" (PDF) . J. Mach. Aprender. Investigación (JMLR) .

[1] Chechik, G .; Sharma, V .; Shalit, U .; Bengio, S. (2010). "Aprendizaje en línea a gran escala de la similitud de imágenes a través de la clasificación" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 1109-1135.

[2] Gionis, Arístides, Piotr Indyk y Rajeev Motwani. "Búsqueda de similitudes en grandes dimensiones mediante hash". VLDB. Vol. 99. No. 6. 1999.

[3] Rajaraman, A .; Ullman, J. (2010). "Minería de conjuntos de datos masivos, cap. 3" .

[survey-4] Bellet, A .; Habrard, A .; Sebban, M. (2013). "Una encuesta sobre aprendizaje métrico para vectores de características y datos estructurados". arXiv : 1306,6709 [ cs.LG ].

[survey2-5] Kulis, B. (2012). "Aprendizaje métrico: una encuesta" . Fundamentos y Tendencias en Machine Learning . 5 (4): 287–364. doi : 10.1561 / 2200000019 .

[SchultzJoachims-6] Schultz, M .; Joachims, T. (2004). "Aprendiendo una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.

[LMNN-7] Weinberger, KQ; Blitzer, JC; Saul, LK (2006). "Aprendizaje métrico a distancia para la clasificación del vecino más cercano de gran margen" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 : 1473-1480.

[ITML-8] Davis, JV; Kulis, B .; Jain, P .; Sra, S .; Dhillon, IS (2007). "Aprendizaje métrico de la teoría de la información" . Conferencia internacional sobre aprendizaje automático (ICML) : 209–216.

[GUILLAUMIN-9] Guillaumin, M .; Verbeek, J .; Schmid, C. (2009). "¿Eres tú? Enfoques de aprendizaje métrico para la identificación de rostros" (PDF) . Conferencia Internacional IEEE sobre Visión por Computador (ICCV) .

[MIGNON-10] Mignon, A .; Jurie, F. (2012). "PCCA: un nuevo enfoque para el aprendizaje a distancia a partir de restricciones por pares dispersos" (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones .

[XING-11] Xing, EP; Ng, AY; Jordan, MI; Russell, S. (2002). "Aprendizaje métrico a distancia, con aplicación a la agrupación en clústeres con información complementaria" (PDF) . Avances en sistemas de procesamiento de información neuronal . 15 : 505–512.

[Liu-12] Liu; Bellet; Sha (2015). "Aprendizaje de similitud para datos dispersos de alta dimensión" (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística (AISTATS) . arXiv : 1411.2374 . Código bibliográfico : 2014arXiv1411.2374L .

[13] Atzmon; Shalit; Chechik (2015). "Aprendizaje de métricas dispersas, una característica a la vez" (PDF) . J. Mach. Aprender. Investigación (JMLR) .

[1]