En el aprendizaje automático , la regularización múltiple es una técnica para usar la forma de un conjunto de datos para restringir las funciones que deben aprenderse en ese conjunto de datos. En muchos problemas de aprendizaje automático, los datos que se deben aprender no cubren todo el espacio de entrada. Por ejemplo, es posible que un sistema de reconocimiento facial no necesite clasificar ninguna imagen posible, sino solo el subconjunto de imágenes que contienen rostros. La técnica del aprendizaje múltiple asume que el subconjunto relevante de datos proviene de una variedad , una estructura matemática con propiedades útiles. La técnica también asume que la función a aprender es fluida.: es poco probable que los datos con etiquetas diferentes estén muy juntos, por lo que la función de etiquetado no debería cambiar rápidamente en áreas donde es probable que haya muchos puntos de datos. Debido a esta suposición, un algoritmo de regularización múltiple puede usar datos sin etiquetar para informar dónde se permite que la función aprendida cambie rápidamente y dónde no, usando una extensión de la técnica de regularización de Tikhonov . Los algoritmos de regularización de múltiples pueden extender los algoritmos de aprendizaje supervisado en entornos de aprendizaje transductivo y semi-supervisado , donde los datos no etiquetados están disponibles. La técnica se ha utilizado para aplicaciones que incluyen imágenes médicas, imágenes geográficas y reconocimiento de objetos.
Regularizador de colector
Motivación
La regularización múltiple es un tipo de regularización , una familia de técnicas que reduce el sobreajuste y asegura que un problema esté bien planteado penalizando las soluciones complejas. En particular, la regularización múltiple extiende la técnica de regularización de Tikhonov aplicada a la reproducción de los espacios de Hilbert del núcleo (RKHS). Bajo la regularización estándar de Tikhonov en RKHS, un algoritmo de aprendizaje intenta aprender una función de entre un espacio de hipótesis de funciones . El espacio de hipótesis es un RKHS, lo que significa que está asociado con un kernel , y así cada función candidata tiene una norma , que representa la complejidad de la función candidata en el espacio de hipótesis. Cuando el algoritmo considera una función candidata, tiene en cuenta su norma para penalizar funciones complejas.
Formalmente, dado un conjunto de datos de entrenamiento etiquetados con y una función de pérdida , un algoritmo de aprendizaje que utiliza la regularización de Tikhonov intentará resolver la expresión
dónde es un hiperparámetro que controla cuánto preferirá el algoritmo funciones más simples a funciones que se ajustan mejor a los datos.
La regularización múltiple agrega un segundo término de regularización, el regularizador intrínseco , al regularizador ambiental usado en la regularización estándar de Tikhonov. Bajo el supuesto múltiple del aprendizaje automático, los datos en cuestión no provienen de todo el espacio de entrada., sino de una variedad no lineal . La geometría de esta variedad, el espacio intrínseco, se utiliza para determinar la norma de regularización. [1]
Norma laplaciana
Hay muchas opciones posibles para . Muchas elecciones naturales involucran el gradiente en la variedad , que puede proporcionar una medida de la fluidez de una función de destino. Una función suave debería cambiar lentamente donde los datos de entrada son densos; es decir, el gradientedebe ser pequeño donde la densidad de probabilidad marginal , la densidad de probabilidad de un punto de datos extraído al azar que aparece en, es largo. Esto le da una opción apropiada para el regularizador intrínseco:
En la práctica, esta norma no se puede calcular directamente porque la distribución marginal se desconoce, pero se puede estimar a partir de los datos proporcionados. En particular, si las distancias entre los puntos de entrada se interpretan como un gráfico, entonces la matriz laplaciana del gráfico puede ayudar a estimar la distribución marginal. Suponga que los datos de entrada incluyen ejemplos etiquetados (pares de una entrada y una etiqueta ) y ejemplos sin etiqueta (entradas sin etiquetas asociadas). Definir para ser una matriz de pesos de los bordes para un gráfico, donde es una medida de distancia entre los puntos de datos y . Definir ser una matriz diagonal con y ser la matriz laplaciana . Entonces, como el número de puntos de datos aumenta, converge con el operador Laplace-Beltrami , que es la divergencia del gradiente. [2] [3] Entonces, si es un vector de los valores de en los datos, , la norma intrínseca se puede estimar:
Como el número de puntos de datos aumenta, esta definición empírica de converge a la definición cuando es conocida. [1]
Resolviendo el problema de la regularización
Usando los pesos y para los regularizadores ambientales e intrínsecos, la expresión final a resolver es:
Al igual que con otros métodos del kernel ,puede ser un espacio de dimensión infinita, por lo que si la expresión de regularización no se puede resolver explícitamente, es imposible buscar una solución en todo el espacio. En cambio, un teorema del representador muestra que bajo ciertas condiciones en la elección de la norma, la solución óptima debe ser una combinación lineal del núcleo centrado en cada uno de los puntos de entrada: para algunos pesos ,
Con este resultado, es posible buscar la solución óptima. buscando el espacio de dimensión finita definido por las posibles elecciones de . [1]
Aplicaciones
La regularización múltiple puede extender una variedad de algoritmos que se pueden expresar usando la regularización de Tikhonov, eligiendo una función de pérdida apropiada. y espacio de hipótesis . Dos ejemplos de uso común son las familias de máquinas de vectores de soporte y los algoritmos de mínimos cuadrados regularizados . (Los mínimos cuadrados regularizados incluyen el algoritmo de regresión de crestas; los algoritmos relacionados de LASSO y la regularización neta elástica se pueden expresar como máquinas de vectores de soporte. [4] [5] ) Las versiones extendidas de estos algoritmos se denominan Mínimos Cuadrados Regularizados Laplacianos (abreviado LapRLS) y Máquinas de Vector de Soporte Laplaciano (LapSVM), respectivamente. [1]
Mínimos cuadrados regularizados laplacianos (LapRLS)
Los mínimos cuadrados regularizados (RLS) son una familia de algoritmos de regresión : algoritmos que predicen un valor por sus insumos , con el objetivo de que los valores predichos estén cerca de las etiquetas verdaderas de los datos. En particular, RLS está diseñado para minimizar el error cuadrático medio entre los valores predichos y las etiquetas verdaderas, sujeto a regularización. La regresión de crestas es una forma de RLS; en general, RLS es lo mismo que la regresión de crestas combinada con el método del kernel . [ cita requerida ] El enunciado del problema de RLS resulta de elegir la función de pérdida en la regularización de Tikhonov es el error cuadrático medio:
Gracias al teorema del representador , la solución se puede escribir como una suma ponderada del núcleo evaluado en los puntos de datos:
y resolviendo para da:
dónde se define como la matriz del núcleo, con , y es el vector de etiquetas de datos.
Al agregar un término laplaciano para la regularización múltiple, se obtiene la declaración Laplacian RLS:
El teorema del representador para la regularización múltiple da de nuevo
y esto produce una expresión para el vector . Dejando ser la matriz del núcleo como arriba, ser el vector de etiquetas de datos, y ser el matriz de bloques :
con una solución de
- [1]
LapRLS se ha aplicado a problemas que incluyen redes de sensores, [6] imágenes médicas , [7] [8] detección de objetos, [9] espectroscopia , [10] clasificación de documentos , [11] interacciones fármaco-proteína, [12] y compresión de imágenes. y videos. [13]
Máquinas de vectores de soporte laplaciano (LapSVM)
Las máquinas de vectores de soporte (SVM) son una familia de algoritmos que se utilizan a menudo para clasificar datos en dos o más grupos o clases . Intuitivamente, una SVM traza un límite entre clases de modo que los ejemplos etiquetados más cercanos al límite estén lo más lejos posible. Esto se puede expresar directamente como un programa lineal , pero también es equivalente a la regularización de Tikhonov con la función de pérdida de bisagra ,:
- [14] [15]
Al agregar el término de regularización intrínseco a esta expresión, se obtiene el enunciado del problema LapSVM:
Nuevamente, el teorema del representador permite que la solución se exprese en términos del núcleo evaluado en los puntos de datos:
se puede encontrar escribiendo el problema como un programa lineal y resolviendo el problema dual . De nuevo dejando ser la matriz del núcleo y ser la matriz de bloques , se puede demostrar que la solución es
dónde es la solución al problema dual
y es definido por
- [1]
LapSVM se ha aplicado a problemas que incluyen imágenes geográficas, [16] [17] [18] imágenes médicas, [19] [20] [21] reconocimiento facial, [22] mantenimiento de máquinas, [23] e interfaces cerebro-computadora . [24]
Limitaciones
- La regularización de múltiples asume que no es probable que los datos con diferentes etiquetas estén muy juntos. Esta suposición es lo que permite que la técnica extraiga información de datos no etiquetados, pero solo se aplica a algunos dominios problemáticos. Dependiendo de la estructura de los datos, puede ser necesario utilizar un algoritmo de aprendizaje transductivo o semi-supervisado diferente. [25]
- En algunos conjuntos de datos, la norma intrínseca de una función puede estar muy cerca de la norma ambiental : por ejemplo, si los datos constan de dos clases que se encuentran en líneas perpendiculares, la norma intrínseca será igual a la norma ambiental. En este caso, los datos no etiquetados no tienen ningún efecto sobre la solución aprendida por la regularización múltiple, incluso si los datos se ajustan a la suposición del algoritmo de que el separador debe ser uniforme. Se han propuesto enfoques relacionados con el co-entrenamiento para abordar esta limitación. [26]
- Si hay una gran cantidad de ejemplos sin etiquetar, la matriz del núcleo se vuelve muy grande y un algoritmo de regularización múltiple puede volverse prohibitivamente lento de calcular. Los algoritmos en línea y las escasas aproximaciones de la variedad pueden ayudar en este caso. [27]
Software
- La biblioteca ManifoldLearn y la biblioteca Primal LapSVM implementan LapRLS y LapSVM en MATLAB .
- La biblioteca Dlib para C ++ incluye una función de regularización de variedad lineal.
Ver también
- Aprendizaje múltiple
- Aprendizaje semi-supervisado
- Transducción (aprendizaje automático)
- Teoría de grafos espectrales
- Reproducción del espacio de Hilbert del kernel
- Regularización de Tikhonov
- Geometría diferencial
Referencias
- ^ a b c d e f Belkin, Mikhail; Niyogi, Partha; Sindhwani, Vikas (2006). "Regularización múltiple: un marco geométrico para aprender de ejemplos etiquetados y no etiquetados" . The Journal of Machine Learning Research . 7 : 2399–2434 . Consultado el 2 de diciembre de 2015 .
- ^ Hein, Matthias; Audibert, Jean-Yves; Von Luxburg, Ulrike (2005). "De los gráficos a las variedades: consistencia puntual débil y fuerte de los laplacianos de gráficos". Teoría del aprendizaje . Apuntes de conferencias en informática. 3559 . Saltador. págs. 470–485. CiteSeerX 10.1.1.103.82 . doi : 10.1007 / 11503415_32 . ISBN 978-3-540-26556-6.
- ^ Belkin, Mikhail; Niyogi, Partha (2005). "Hacia una base teórica para métodos múltiples basados en Laplacian". Teoría del aprendizaje . Apuntes de conferencias en informática. 3559 . Saltador. págs. 486–500. CiteSeerX 10.1.1.127.795 . doi : 10.1007 / 11503415_33 . ISBN 978-3-540-26556-6.
- ^ Jaggi, Martin (2014). Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). Equivalencia entre las máquinas de vector de soporte y de lazo . Chapman y Hall / CRC.
- ^ Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. Una reducción de la red elástica para admitir máquinas vectoriales con una aplicación a la computación con GPU . Asociación para el Avance de la Inteligencia Artificial .
- ^ Pan, Jeffrey Junfeng; Yang, Qiang; Chang, Hong; Yeung, Dit-Yan (2006). "Un enfoque de regularización múltiple para la reducción de la calibración para el seguimiento basado en la red de sensores" (PDF) . Actas de la conferencia nacional sobre inteligencia artificial . 21 . Menlo Park, CA; Cambridge, MA; Londres; Prensa AAAI; Prensa del MIT; 1999. p. 988 . Consultado el 2 de diciembre de 2015 .
- ^ Zhang, Daoqiang; Shen, Dinggang (2011). "Clasificación multimodal semi-supervisada de la enfermedad de Alzheimer". Imágenes biomédicas: de lo nano a lo macro, 2011 IEEE International Symposium on . IEEE. págs. 1628-1631. doi : 10.1109 / ISBI.2011.5872715 .
- ^ Park, Sang Hyun; Gao, Yaozong; Shi, Yinghuan; Shen, Dinggang (2014). "Segmentación de próstata interactiva basada en la selección de características adaptativas y regularización del colector". Aprendizaje automático en imágenes médicas . Apuntes de conferencias en informática. 8679 . Saltador. págs. 264-271. doi : 10.1007 / 978-3-319-10581-9_33 . ISBN 978-3-319-10580-2.
- ^ Pillai, Sudeep. "Detector de objetos semi-supervisado que aprende de etiquetas mínimas" (PDF) . Consultado el 15 de diciembre de 2015 . Cite journal requiere
|journal=
( ayuda ) - ^ Wan, Songjing; Wu, Di; Liu, Kangsheng (2012). "Algoritmo de aprendizaje automático semi-supervisado en calibración espectral del infrarrojo cercano: un estudio de caso sobre combustibles diesel". Cartas de ciencia avanzada . 11 (1): 416–419. doi : 10.1166 / asl.2012.3044 .
- ^ Wang, Ziqiang; Sun, Xia; Zhang, Lijie; Qian, Xu (2013). "Clasificación de documentos basada en laprls óptimas". Revista de software . 8 (4): 1011–1018. doi : 10.4304 / jsw.8.4.1011-1018 .
- ^ Xia, Zheng; Wu, Ling-Yun; Zhou, Xiaobo; Wong, Stephen TC (2010). "Predicción de interacción fármaco-proteína semi-supervisada desde espacios biológicos heterogéneos" . Biología de sistemas BMC . 4 (Supl. 2): –6. CiteSeerX 10.1.1.349.7173 . doi : 10.1186 / 1752-0509-4-S2-S6 . PMC 2982693 . PMID 20840733 .
- ^ Cheng, Li; Vishwanathan, SVN (2007). "Aprendiendo a comprimir imágenes y videos" . Actas de la 24a conferencia internacional sobre aprendizaje automático . ACM. págs. 161-168 . Consultado el 16 de diciembre de 2015 .
- ^ Lin, Yi; Wahba, Grace; Zhang, Hao; Lee, Yoonkyung (2002). "Propiedades estadísticas y sintonía adaptativa de máquinas de vectores de soporte" . Aprendizaje automático . 48 (1-3): 115-136. doi : 10.1023 / A: 1013951620650 .
- ^ Wahba, Grace; otros (1999). "Soporta máquinas vectoriales, reproduciendo los espacios del kernel de Hilbert y el GACV aleatorizado". Avances en el aprendizaje de vectores de soporte de métodos de kernel . 6 : 69–87. CiteSeerX 10.1.1.53.2114 .
- ^ Kim, Wonkook; Crawford, Melba M. (2010). "Clasificación adaptativa para datos de imágenes hiperespectrales utilizando múltiples máquinas de núcleo de regularización". Transacciones IEEE sobre geociencia y teledetección . 48 (11): 4110–4121. doi : 10.1109 / TGRS.2010.2076287 . S2CID 29580629 .
- ^ Camps-Valls, Gustavo; Tuia, Devis; Bruzzone, Lorenzo; Atli Benediktsson, Jon (2014). "Avances en la clasificación de imágenes hiperespectrales: monitoreo de la Tierra con métodos de aprendizaje estadístico". Revista de procesamiento de señales IEEE . 31 (1): 45–54. arXiv : 1310.5107 . Código Bibliográfico : 2014ISPM ... 31 ... 45C . doi : 10.1109 / msp.2013.2279179 . S2CID 11945705 .
- ^ Gómez-Chova, Luis; Camps-Valls, Gustavo; Muñoz-Marí, Jordi; Calpe, Javier (2007). "Proyección de nube semi-supervisada con Laplacian SVM". Simposio de Geociencia y Percepción Remota, 2007. IGARSS 2007. IEEE International . IEEE. págs. 1521-1524. doi : 10.1109 / IGARSS.2007.4423098 .
- ^ Cheng, Bo; Zhang, Daoqiang; Shen, Dinggang (2012). "Aprendizaje de transferencia de dominio para predicción de conversión MCI". Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2012 . Apuntes de conferencias en informática. 7510 . Saltador. págs. 82–90. doi : 10.1007 / 978-3-642-33415-3_11 . ISBN 978-3-642-33414-6. PMC 3761352 . PMID 23285538 .
- ^ Jamieson, Andrew R .; Giger, Maryellen L .; Drukker, Karen; Pesce, Lorenzo L. (2010). "Mejora de CADx de mama con datos sin etiquetar a)" . Física Médica . 37 (8): 4155–4172. Código bibliográfico : 2010MedPh..37.4155J . doi : 10.1118 / 1.3455704 . PMC 2921421 . PMID 20879576 .
- ^ Wu, Jiang; Diao, Yuan-Bo; Li, Meng-Long; Fang, Ya-Ping; Ma, Dai-Chuan (2009). "Un método basado en aprendizaje semi-supervisado: máquina de vector de apoyo laplaciano utilizada en el diagnóstico de enfermedades de diabetes". Ciencias interdisciplinarias: Ciencias de la vida computacionales . 1 (2): 151-155. doi : 10.1007 / s12539-009-0016-2 . PMID 20640829 . S2CID 21860700 .
- ^ Wang, Ziqiang; Zhou, Zhiqiang; Sun, Xia; Qian, Xu; Sun, Lijun (2012). "Algoritmo LapSVM mejorado para el reconocimiento facial" . Revista internacional de avances en tecnología informática . 4 (17) . Consultado el 16 de diciembre de 2015 .
- ^ Zhao, Xiukuan; Li, Min; Xu, Jinwu; Canción, gangbing (2011). "Un procedimiento eficaz que aprovecha los datos sin etiquetar para construir un sistema de seguimiento". Sistemas expertos con aplicaciones . 38 (8): 10199–10204. doi : 10.1016 / j.eswa.2011.02.078 .
- ^ Zhong, Ji-Ying; Lei, Xu; Yao, D. (2009). "Aprendizaje semi-supervisado basado en múltiples en BCI" (PDF) . Revista de ciencia y tecnología electrónica de China . 7 (1): 22-26 . Consultado el 16 de diciembre de 2015 .
- ^ Zhu, Xiaojin (2005). "Encuesta de literatura de aprendizaje semi-supervisado". CiteSeerX 10.1.1.99.9681 . Cite journal requiere
|journal=
( ayuda ) - ^ Sindhwani, Vikas; Rosenberg, David S. (2008). "Un RKHS para el aprendizaje de múltiples vistas y la co-regularización múltiple" . Actas de la 25a conferencia internacional sobre aprendizaje automático . ACM. págs. 976–983 . Consultado el 2 de diciembre de 2015 .
- ^ Goldberg, Andrew; Li, Ming; Zhu, Xiaojin (2008). Regularización múltiple en línea: un nuevo entorno de aprendizaje y estudio empírico . Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Apuntes de conferencias en informática. 5211 . págs. 393–407. doi : 10.1007 / 978-3-540-87479-9_44 . ISBN 978-3-540-87478-2.