Pérdida de triplete

La pérdida de tripletes es una función de pérdida para los algoritmos de aprendizaje automático donde una entrada de línea de base (ancla) se compara con una entrada positiva (veraz) y una entrada negativa (falsa). La distancia desde la entrada de línea base (ancla) a la entrada positiva (veraz) se minimiza, y la distancia desde la entrada de línea base (ancla) a la entrada negativa (falsa) se maximiza. ^[1]^[2] Se introdujo una formulación temprana equivalente a la pérdida de triplete (sin la idea de usar anclas) para el aprendizaje métrico a partir de comparaciones relativas por M. Schultze y T. Joachims en 2003. ^[3]

Al hacer cumplir el orden de las distancias, los modelos de pérdida de tripletes se incrustan de manera que un par de muestras con las mismas etiquetas son más pequeñas en distancia que aquellas con etiquetas diferentes. A diferencia de t-SNE, que conserva los órdenes de incrustación ^{[ se necesita una explicación más detallada ]} mediante distribuciones de probabilidad, la pérdida de tripletes funciona directamente en distancias incrustadas. Por lo tanto, en su implementación común, necesita un tratamiento de margen suave con una variable de holgura ${\ Displaystyle \ alpha}$ en su formulación estilo pérdida de bisagra . A menudo se usa para aprender similitudes con el propósito de aprender incorporaciones, como aprender a clasificar , incorporaciones de palabras , vectores de pensamiento y aprendizaje métrico . ^[4]

Considere la tarea de entrenar una red neuronal para reconocer caras (por ejemplo, para la admisión a una zona de alta seguridad). Un clasificador capacitado para clasificar una instancia tendría que volver a capacitarse cada vez que se agrega una nueva persona a la base de datos de rostros. Esto puede evitarse planteando el problema como un problema de aprendizaje de similitud en lugar de un problema de clasificación. Aquí la red se entrena (usando una pérdida de contraste) para generar una distancia que es pequeña si la imagen pertenece a una persona conocida y grande si la imagen pertenece a una persona desconocida. Sin embargo, si queremos generar las imágenes más cercanas a una imagen determinada, nos gustaría conocer una clasificación y no solo una similitud. En este caso se utiliza una pérdida de triplete.

La función de pérdida se puede describir usando una función de distancia euclidiana

{\ Displaystyle {\ mathcal {L}} \ left (A, P, N \ right) = \ operatorname {max} \ left ({\ | \ operatorname {f} \ left (A \ right) - \ operatorname {f } \ left (P \ right) \ |} ^ {2} - {\ | \ operatorname {f} \ left (A \ right) - \ operatorname {f} \ left (N \ right) \ |} ^ {2 } + \ alpha, 0 \ right)}

dónde

{\ Displaystyle A}

es una entrada de anclaje ,

{\ Displaystyle P}

es una entrada positiva de la misma clase que

{\ Displaystyle A}

,

{\ Displaystyle N}

es una entrada negativa de una clase diferente de

{\ Displaystyle A}

,

{\ Displaystyle \ alpha}

es un margen entre pares positivos y negativos, y

{\ Displaystyle \ operatorname {f}}

es una incrustación.

Esto luego se puede usar en una función de costo, que es la suma de todas las pérdidas, que luego se puede usar para minimizar el problema de optimización planteado

{\ Displaystyle {\ mathcal {J}} = \ sum _ {i = 1} ^ {{} M} {\ mathcal {L}} \ left (A ^ {(i)}, P ^ {(i)} , N ^ {(i)} \ right)}

Los índices son para vectores de entrada individuales dados como un triplete. El triplete se forma dibujando una entrada de ancla, una entrada positiva que describe la misma entidad que la entidad de ancla y una entrada negativa que no describe la misma entidad que la entidad de ancla. Estas entradas luego se ejecutan a través de la red y las salidas se utilizan en la función de pérdida.

Comparación y extensiones

En las tareas de visión por computadora , como la reidentificación, una creencia predominante ha sido que la pérdida del triplete es inferior al uso de pérdidas sustitutas (es decir, pérdidas de clasificación típicas) seguidas de pasos de aprendizaje métricos separados. Alexander Hermans, Lucas Beyer y Bastian Leibe demostraron que para los modelos entrenados desde cero, así como los modelos previamente entrenados, una versión especial de la pérdida de tripletes que realiza un aprendizaje métrico profundo de extremo a extremo supera a la mayoría de los otros métodos publicados a partir de 2017. ^[5]

Además, la pérdida de tripletes se ha ampliado para mantener simultáneamente una serie de órdenes de distancia optimizando un grado de relevancia continuo con una cadena (es decir, una escalera ) de desigualdades de distancia. Esto conduce a la pérdida de escalera , que se ha demostrado que ofrece mejoras en el rendimiento de la incrustación visual-semántica en el aprendizaje de clasificar las tareas. ^[6]

Ver también

Referencias

^ Chechik, G .; Sharma, V .; Shalit, U .; Bengio, S. (2010). "Aprendizaje en línea a gran escala de la similitud de imágenes a través de la clasificación" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 1109-1135.
^ Schroff, F .; Kalenichenko, D .; Philbin, J. (junio de 2015). FaceNet: una incrustación unificada para reconocimiento facial y agrupación . 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) . págs. 815–823. arXiv : 1503.03832 . doi : 10.1109 / CVPR.2015.7298682 . ISBN 978-1-4673-6964-0. S2CID 206592766 .
^ Schultz, M .; Joachims, T. (2004). "Aprendiendo una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.
^ Ailon, Nir; Hoffer, Elad (20 de diciembre de 2014). "Aprendizaje profundo de métricas usando la red Triplet". arXiv : 1412.6622 . Código bibliográfico : 2014arXiv1412.6622H . Cite journal requiere |journal=( ayuda )
^ Hermans, Alexander; Beyer, Lucas; Leibe, Bastián (22 de marzo de 2017). "En defensa de la pérdida de tripletes para la reidentificación de personas". arXiv : 1703.07737 [ cs.CV ].
^ Zhou, Mo; Niu, Zhenxing; Wang, Le; Gao, Zhanning; Zhang, Qilin; Hua, Gang (3 de abril de 2020). "Pérdida de escalera para la incrustación coherente visual-semántica" (PDF) . Actas de la Conferencia AAAI sobre Inteligencia Artificial . 34 (7): 13050–13057. doi : 10.1609 / aaai.v34i07.7006 . ISSN 2374-3468 . S2CID 208139521 .

[1] Chechik, G .; Sharma, V .; Shalit, U .; Bengio, S. (2010). "Aprendizaje en línea a gran escala de la similitud de imágenes a través de la clasificación" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 1109-1135.

[2] Schroff, F .; Kalenichenko, D .; Philbin, J. (junio de 2015). FaceNet: una incrustación unificada para reconocimiento facial y agrupación . 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) . págs. 815–823. arXiv : 1503.03832 . doi : 10.1109 / CVPR.2015.7298682 . ISBN 978-1-4673-6964-0. S2CID 206592766 .

[SchultzJoachims-3] Schultz, M .; Joachims, T. (2004). "Aprendiendo una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.

[4] Ailon, Nir; Hoffer, Elad (20 de diciembre de 2014). "Aprendizaje profundo de métricas usando la red Triplet". arXiv : 1412.6622 . Código bibliográfico : 2014arXiv1412.6622H . Cite journal requiere |journal=( ayuda )

[5] Hermans, Alexander; Beyer, Lucas; Leibe, Bastián (22 de marzo de 2017). "En defensa de la pérdida de tripletes para la reidentificación de personas". arXiv : 1703.07737 [ cs.CV ].

[Zhou_Niu_Wang_Gao_2020_pp._13050–13057-6] Zhou, Mo; Niu, Zhenxing; Wang, Le; Gao, Zhanning; Zhang, Qilin; Hua, Gang (3 de abril de 2020). "Pérdida de escalera para la incrustación coherente visual-semántica" (PDF) . Actas de la Conferencia AAAI sobre Inteligencia Artificial . 34 (7): 13050–13057. doi : 10.1609 / aaai.v34i07.7006 . ISSN 2374-3468 . S2CID 208139521 .

[1]