El aprendizaje semi-supervisado es un enfoque del aprendizaje automático que combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados durante el entrenamiento. El aprendizaje semi-supervisado se ubica entre el aprendizaje no supervisado (sin datos de entrenamiento etiquetados) y el aprendizaje supervisado (con solo datos de entrenamiento etiquetados). Es un caso especial de supervisión débil . [1]
Los datos no etiquetados, cuando se utilizan junto con una pequeña cantidad de datos etiquetados, pueden producir una mejora considerable en la precisión del aprendizaje. La adquisición de datos etiquetados para un problema de aprendizaje a menudo requiere un agente humano experto (por ejemplo, para transcribir un segmento de audio) o un experimento físico (por ejemplo, determinar la estructura 3D de una proteína o determinar si hay aceite en una ubicación particular). Por lo tanto, el costo asociado con el proceso de etiquetado puede hacer que los conjuntos de entrenamiento grandes y completamente etiquetados no sean factibles, mientras que la adquisición de datos sin etiquetar es relativamente económica. En tales situaciones, el aprendizaje semi-supervisado puede ser de gran valor práctico. El aprendizaje semi-supervisado también es de interés teórico en el aprendizaje automático y como modelo para el aprendizaje humano.
Un conjunto de ejemplos distribuidos de forma idéntica de forma independiente con las etiquetas correspondientes y ejemplos sin etiquetar son procesados. El aprendizaje semi-supervisado combina esta información para superar el rendimiento de clasificación que se puede obtener descartando los datos sin etiquetar y realizando un aprendizaje supervisado o descartando las etiquetas y realizando un aprendizaje no supervisado.
El aprendizaje semi-supervisado puede referirse al aprendizaje transductivo o al aprendizaje inductivo . [2] El objetivo del aprendizaje transductivo es inferir las etiquetas correctas para los datos no etiquetados dados.solo. El objetivo del aprendizaje inductivo es inferir el mapeo correcto de a .
Intuitivamente, el problema de aprendizaje puede verse como un examen y los datos etiquetados como ejemplos de problemas que el profesor resuelve para la clase como ayuda para resolver otro conjunto de problemas. En el entorno transductivo, estos problemas no resueltos actúan como preguntas de examen. En el entorno inductivo, se convierten en problemas de práctica del tipo que compondrán el examen.
Es innecesario (y, según el principio de Vapnik , imprudente) realizar un aprendizaje transductivo mediante la inferencia de una regla de clasificación sobre todo el espacio de entrada; sin embargo, en la práctica, los algoritmos diseñados formalmente para la transducción o inducción a menudo se usan indistintamente.
Supuestos
Para poder hacer uso de los datos no etiquetados, debe existir alguna relación con la distribución subyacente de los datos. Los algoritmos de aprendizaje semi-supervisados hacen uso de al menos uno de los siguientes supuestos: [3]
Supuesto de continuidad
Es más probable que los puntos cercanos entre sí compartan una etiqueta. Esto también se asume generalmente en el aprendizaje supervisado y produce una preferencia por límites de decisión geométricamente simples . En el caso del aprendizaje semi-supervisado, el supuesto de suavidad también produce una preferencia por los límites de decisión en regiones de baja densidad, por lo que pocos puntos están cerca entre sí pero en clases diferentes.
Supuesto de clúster
Los datos tienden a formar grupos discretos y es más probable que los puntos en el mismo grupo compartan una etiqueta (aunque los datos que comparten una etiqueta pueden extenderse a través de múltiples grupos). Este es un caso especial del supuesto de suavidad y da lugar al aprendizaje de características con algoritmos de agrupación.
Supuesto múltiple
Los datos se encuentran aproximadamente en una variedad de dimensión mucho menor que el espacio de entrada. En este caso, aprender la variedad utilizando los datos etiquetados y no etiquetados puede evitar la maldición de la dimensionalidad . Luego, el aprendizaje puede continuar utilizando distancias y densidades definidas en el colector.
El supuesto múltiple es práctico cuando los datos de alta dimensión son generados por algún proceso que puede ser difícil de modelar directamente, pero que tiene solo unos pocos grados de libertad. Por ejemplo, la voz humana está controlada por unas pocas cuerdas vocales, [4] y las imágenes de diversas expresiones faciales están controladas por unos pocos músculos. En estos casos distancias y suavidad en el espacio natural del problema generador, es superior a considerar el espacio de todas las posibles ondas acústicas o imágenes, respectivamente.
Historia
El enfoque heurístico del autoaprendizaje (también conocido como autoaprendizaje o autoetiquetado ) es históricamente el enfoque más antiguo del aprendizaje semi-supervisado, [3] con ejemplos de aplicaciones que comenzaron en la década de 1960. [5]
Vladimir Vapnik introdujo formalmente el marco de aprendizaje transductivo en la década de 1970. [6] El interés en el aprendizaje inductivo utilizando modelos generativos también comenzó en la década de 1970. A probablemente aproximadamente correcto aprendizaje con destino a semi-aprendizaje supervisado de un Gaussian mezcla fue demostrado por Ratsaby y Venkatesh en 1995. [7]
El aprendizaje semi-supervisado se ha vuelto recientemente más popular y prácticamente relevante debido a la variedad de problemas para los cuales se encuentran disponibles grandes cantidades de datos sin etiquetar, por ejemplo, texto en sitios web, secuencias de proteínas o imágenes. [8]
Métodos
Modelos generativos
Los enfoques generativos del aprendizaje estadístico buscan primero estimar , [ disputado ] la distribución de puntos de datos pertenecientes a cada clase. La probabilidad que un punto dado tiene etiqueta es entonces proporcional a por la regla de Bayes . El aprendizaje semi-supervisado con modelos generativos puede verse como una extensión del aprendizaje supervisado (clasificación más información sobre) o como una extensión del aprendizaje no supervisado (agrupamiento más algunas etiquetas).
Los modelos generativos asumen que las distribuciones toman alguna forma particular parametrizado por el vector . Si estas suposiciones son incorrectas, los datos no etiquetados pueden disminuir la precisión de la solución en relación con lo que se habría obtenido solo de los datos etiquetados. [9] Sin embargo, si las suposiciones son correctas, los datos sin etiquetar necesariamente mejoran el rendimiento. [7]
Los datos no etiquetados se distribuyen de acuerdo con una mezcla de distribuciones de clases individuales. Para aprender la distribución de la mezcla a partir de los datos no etiquetados, debe ser identificable, es decir, diferentes parámetros deben producir diferentes distribuciones sumadas. Las distribuciones de mezclas gaussianas son identificables y se usan comúnmente para modelos generativos.
La distribución conjunta parametrizada se puede escribir comoutilizando la regla de la cadena . Cada vector de parámetro está asociado con una función de decisión . Luego, el parámetro se elige en función del ajuste a los datos etiquetados y no etiquetados, ponderado por:
Separación de baja densidad
Otra clase importante de métodos intenta colocar límites en regiones con pocos puntos de datos (etiquetados o no etiquetados). Uno de los algoritmos más utilizados es la máquina de vectores de soporte transductivo , o TSVM (que, a pesar de su nombre, también se puede utilizar para el aprendizaje inductivo). Mientras que las máquinas de vectores de soporte para el aprendizaje supervisado buscan un límite de decisión con un margen máximo sobre los datos etiquetados, el objetivo de TSVM es etiquetar los datos no etiquetados de manera que el límite de decisión tenga un margen máximo sobre todos los datos. Además de la pérdida de bisagra estándar para datos etiquetados, una función de pérdida se introduce sobre los datos sin etiquetar al permitir . TSVM luego seleccionadesde un espacio de Hilbert del núcleo en reproducción minimizando el riesgo empírico regularizado :
Una solución exacta es intratable debido al término no convexo, por lo que la investigación se centra en aproximaciones útiles. [10]
Otros enfoques que implementan la separación de baja densidad incluyen los modelos de procesos gaussianos, la regularización de la información y la minimización de la entropía (de los cuales TSVM es un caso especial).
Métodos basados en gráficos
Los métodos basados en gráficos para el aprendizaje semi-supervisado utilizan una representación gráfica de los datos, con un nodo para cada ejemplo etiquetado y no etiquetado. El gráfico puede construirse utilizando el conocimiento del dominio o la similitud de ejemplos; dos métodos comunes son conectar cada punto de datos a su vecinos más cercanos o ejemplos a cierta distancia . El peso de un borde entre y luego se establece en .
En el marco de la regularización múltiple , [11] [12] el gráfico sirve como proxy de la variedad. Se agrega un término al problema de regularización estándar de Tikhonov para hacer cumplir la suavidad de la solución en relación con la variedad (en el espacio intrínseco del problema), así como en relación con el espacio de entrada ambiental. El problema de minimización se convierte en
- [10]
dónde es un espacio de Hilbert del núcleo que se reproduce yes la variedad en la que se encuentran los datos. Los parámetros de regularización y controlar la suavidad en los espacios ambientales e intrínsecos, respectivamente. El gráfico se utiliza para aproximar el término de regularización intrínseco. Definiendo el grafo laplaciano dónde y el vector , tenemos
- .
El Laplacian también se puede utilizar para extender los algoritmos de aprendizaje supervisado: mínimos cuadrados regularizados y máquinas de vectores de soporte (SVM) a versiones semi-supervisadas Mínimos cuadrados regularizados Laplacian y SVM Laplacian.
Enfoques heurísticos
Algunos métodos para el aprendizaje semi-supervisado no están intrínsecamente orientados a aprender de datos etiquetados y no etiquetados, sino que utilizan datos no etiquetados dentro de un marco de aprendizaje supervisado. Por ejemplo, los ejemplos etiquetados y no etiquetadospuede informar una elección de representación, métrica de distancia o kernel para los datos en un primer paso sin supervisión. Luego, el aprendizaje supervisado procede únicamente de los ejemplos etiquetados. En este sentido, algunos métodos aprenden una representación de baja dimensión utilizando los datos supervisados y luego aplican métodos de separación de baja densidad o basados en gráficos a la representación aprendida. [13] [14] Refinar iterativamente la representación y luego realizar un aprendizaje semi-supervisado en dicha representación puede mejorar aún más el rendimiento.
La autoformación es un método de envoltura para el aprendizaje semi supervisado. [15] Primero, se entrena un algoritmo de aprendizaje supervisado basándose únicamente en los datos etiquetados. Este clasificador luego se aplica a los datos no etiquetados para generar más ejemplos etiquetados como entrada para el algoritmo de aprendizaje supervisado. Generalmente, en cada paso solo se agregan las etiquetas en las que el clasificador confía más. [dieciséis]
El co-entrenamiento es una extensión del auto-entrenamiento en el que múltiples clasificadores son entrenados en diferentes conjuntos de características (idealmente disjuntos) y generan ejemplos etiquetados entre sí. [17]
En la cognición humana
Las respuestas humanas a los problemas formales de aprendizaje semi-supervisado han arrojado conclusiones variables sobre el grado de influencia de los datos no etiquetados. [18] Los problemas de aprendizaje más naturales también pueden verse como ejemplos de aprendizaje semi-supervisado. Gran parte del aprendizaje de conceptos humanos implica una pequeña cantidad de instrucción directa (por ejemplo, etiquetado de objetos por parte de los padres durante la infancia) combinada con grandes cantidades de experiencia sin etiquetar (por ejemplo, observación de objetos sin nombrarlos o contarlos, o al menos sin comentarios).
Los bebés humanos son sensibles a la estructura de categorías naturales no etiquetadas, como imágenes de perros y gatos o rostros masculinos y femeninos. [19] Los bebés y los niños tienen en cuenta no solo los ejemplos sin etiquetar, sino también el proceso de muestreo del que surgen los ejemplos etiquetados. [20] [21]
Ver también
- Aprendizaje de PU
- Supervisión débil
Referencias
- ^ Cabannes, Vivien; Rudi, Alessandro; Bach, Francis (2021). "Desambiguación de supervisión débil con tasas de convergencia exponencial". CoRR . arXiv : 2102.02789 .
- ^ "Encuesta de literatura de aprendizaje semi-supervisado, página 5". 2007. CiteSeerX 10.1.1.99.9681 . Cite journal requiere
|journal=
( ayuda ) - ↑ a b Chapelle, Schölkopf y Zienin, 2006 .
- ^ Stevens, Kenneth N., 1924- (1998). Fonética acústica . Cambridge, Mass .: MIT Press. ISBN 0-585-08720-2. OCLC 42856189 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Scudder, H. (julio de 1965). "Probabilidad de error de algunas máquinas de reconocimiento de patrones adaptativos". Transacciones IEEE sobre teoría de la información . 11 (3): 363–371. doi : 10.1109 / TIT.1965.1053799 . ISSN 1557-9654 .
- ^ Vapnik, V .; Chervonenkis, A. (1974). Teoría del reconocimiento de patrones (en ruso). Moscú: Nauka.citado en Chapelle, Schölkopf & Zienin 2006 , p. 3
- ^ a b Ratsaby, J .; Venkatesh, S. "Aprendiendo de una mezcla de ejemplos etiquetados y no etiquetados con información lateral paramétrica" (PDF) . en Actas de la octava conferencia anual sobre teoría del aprendizaje computacional - COLT '95 . Nueva York, Nueva York, Estados Unidos: ACM Press. 1995. págs. 412–417. doi : 10.1145 / 225298.225348 . ISBN 0-89791-723-5.. Citado en Chapelle, Schölkopf & Zienin 2006 , p. 4
- ^ Zhu, Xiaojin (2008). "Encuesta de literatura de aprendizaje semi-supervisado" (PDF) . Universidad de Wisconsin-Madison.
- ^ Fabio, Cozman; Ira, Cohen (2006-09-22), "Riesgos del aprendizaje semi-supervisado: cómo los datos no etiquetados pueden degradar el rendimiento de los clasificadores generativos", Aprendizaje semi-supervisado , The MIT Press, págs. 56-72, doi : 10.7551 / mitpress /9780262033589.003.0004 , ISBN 978-0-262-03358-9En: Chapelle, Schölkopf & Zienin 2006
- ^ a b c Zhu, Xiaojin. Universidad de Aprendizaje Semi Supervisado de Wisconsin-Madison.
- ^ M. Belkin; P. Niyogi (2004). "Aprendizaje semi-supervisado en colectores riemannianos" . Aprendizaje automático . 56 (Número especial sobre agrupación en clústeres): 209–239. doi : 10.1023 / b: mach.0000033120.25363.1e .
- ^ M. Belkin, P. Niyogi, V. Sindhwani. Sobre la regularización de colectores. AISTATS 2005.
- ^ Iscen, Ahmet; Tolias, Giorgos; Avrithis, Yannis; Chum, Ondrej (2019). "Propagación de etiquetas para el aprendizaje semi-supervisado profundo" . Conferencia sobre visión artificial y reconocimiento de patrones (CVPR) : 5065–5074. arXiv : 1904.04717 . doi : 10.1109 / CVPR.2019.00521 . Consultado el 26 de marzo de 2021 .
- ^ Burkhart, Michael C .; Shan, Kyle (2020). "Separación profunda de baja densidad para clasificación semi-supervisada" . Conferencia Internacional sobre Ciencias Computacionales (ICCS) : 297–311. doi : 10.1007 / 978-3-030-50420-5_22 . Consultado el 26 de marzo de 2021 .
- ^ Triguero, Isaac; García, Salvador; Herrera, Francisco (26 de noviembre de 2013). "Técnicas autoetiquetadas para el aprendizaje semi-supervisado: taxonomía, software y estudio empírico". Sistemas de conocimiento e información . 42 (2): 245-284. doi : 10.1007 / s10115-013-0706-y . ISSN 0219-1377 .
- ^ Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (29 de diciembre de 2015). "LMT autodidacta para el aprendizaje semisupervisado" . Inteligencia Computacional y Neurociencia . 2016 : 3057481. doi : 10.1155 / 2016/3057481 . PMC 4709606 . PMID 26839531 .
- ^ Didaci, Luca; Fumera, Giorgio; Roli, Fabio (7 de noviembre de 2012). Gimel'farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji (eds.). Análisis del algoritmo de co-entrenamiento con conjuntos de entrenamiento muy pequeños . Apuntes de conferencias en Ciencias de la Computación. Springer Berlín Heidelberg. págs. 719–726. doi : 10.1007 / 978-3-642-34166-3_79 . ISBN 9783642341656.
- ^ Zhu, Xiaojin (2009). Introducción al aprendizaje semi-supervisado . Goldberg, AB (Andrew B.). [San Rafael, Calif.]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. OCLC 428541480 .
- ^ BA más joven; Temiendo a DD (1999). "Análisis de elementos en categorías independientes: cambio de desarrollo en la categorización infantil". Desarrollo infantil . 70 (2): 291-303. doi : 10.1111 / 1467-8624.00022 .
- ^ Xu, F. y Tenenbaum, JB (2007). "Sensibilidad al muestreo en el aprendizaje de palabras bayesianas". Ciencia del desarrollo . 10 (3): 288-297. CiteSeerX 10.1.1.141.7505 . doi : 10.1111 / j.1467-7687.2007.00590.x . PMID 17444970 .
- ^ Gweon, H., Tenenbaum JB y Schulz LE (2010). "Los infantes consideran tanto la muestra como el proceso de muestreo en generalización inductiva" . Proc Natl Acad Sci USA . 107 (20): 9066–71. Código bibliográfico : 2010PNAS..107.9066G . doi : 10.1073 / pnas.1003095107 . PMC 2889113 . PMID 20435914 .CS1 maint: varios nombres: lista de autores ( enlace )
Fuentes
- Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Aprendizaje semi-supervisado . Cambridge, Mass .: MIT Press. ISBN 978-0-262-03358-9.
enlaces externos
- Regularización múltiple Una implementación de MATLAB disponible gratuitamente de los algoritmos semi-supervisados basados en gráficos que soportan máquinas vectoriales laplacianas y mínimos cuadrados regularizados laplacianos.
- KEEL: Una herramienta de software para evaluar algoritmos evolutivos para problemas de Data Mining (regresión, clasificación, agrupamiento, minería de patrones, etc.) Módulo KEEL para aprendizaje semi-supervisado.
- Software de aprendizaje semi-supervisado Software de aprendizaje semi-supervisado
- 1,14. Semi-supervisado - documentación de scikit-learn 0.22.1 Algoritmos semi-supervisados en scikit-learn.