De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Las máquinas de aprendizaje extremo son redes neuronales de retroalimentación para clasificación , regresión , agrupación , aproximación dispersa , compresión y aprendizaje de características con una sola capa o múltiples capas de nodos ocultos, donde los parámetros de los nodos ocultos (no solo los pesos que conectan las entradas a los nodos ocultos) necesitan no estar sintonizado. Estos nodos ocultos pueden asignarse aleatoriamente y nunca actualizarse (es decir, son proyecciones aleatoriaspero con transformaciones no lineales), o pueden heredarse de sus antepasados ​​sin cambiar. En la mayoría de los casos, los pesos de salida de los nodos ocultos generalmente se aprenden en un solo paso, lo que esencialmente equivale a aprender un modelo lineal. El nombre de "máquina de aprendizaje extrema" (ELM) fue dado a tales modelos por su principal inventor, Guang-Bin Huang.

Según sus creadores, estos modelos pueden producir un buen rendimiento de generalización y aprender miles de veces más rápido que las redes entrenadas mediante retropropagación . [1] En la literatura, también muestra que estos modelos pueden superar a las máquinas de vectores de soporte en aplicaciones de clasificación y regresión. [2] [3] [4]

Historia [ editar ]

Desde 2001-2010, la investigación ELM se centró principalmente en el marco unificado para el aprendizaje "generalizada" de la capa oculta sola redes neuronales feedforward (SLFNs), incluyendo pero no limitado a redes sigmoide, redes RBF, redes de umbral, [5] redes trigonométricas, difusa sistemas de inferencia, series de Fourier, [6] [7] transformada laplaciana, redes wavelet, [8] etc. Un logro significativo realizado en esos años es probar con éxito la aproximación universal y las capacidades de clasificación de ELM en teoría. [6] [9] [10]

De 2010 a 2015, la investigación de ELM se extendió al marco de aprendizaje unificado para el aprendizaje del kernel, SVM y algunos métodos típicos de aprendizaje de características, como el análisis de componentes principales (PCA) y la factorización de matrices no negativas (NMF). Se muestra que SVM en realidad proporciona soluciones subóptimas en comparación con ELM, y ELM puede proporcionar el mapeo del kernel de caja blanca, que se implementa mediante el mapeo de características aleatorias de ELM, en lugar del kernel de caja negra utilizado en SVM. PCA y NMF pueden considerarse casos especiales en los que se utilizan nodos ocultos lineales en ELM. [11] [12]

De 2015 a 2017, se ha prestado una mayor atención a las implementaciones jerárquicas [13] [14] de ELM. Además, desde 2011, se han realizado importantes estudios biológicos que apoyan ciertas teorías ELM. [15] [16] [17]

A partir de 2017, para superar el problema de baja convergencia durante el entrenamiento de la descomposición LU , los enfoques basados ​​en la descomposición de Hessenberg y la descomposición QR con regularización han comenzado a llamar la atención [18] [19] [20]

En un anuncio de 2017 de Google Scholar : " Artículos clásicos: artículos que han resistido la prueba del tiempo ", dos artículos de ELM se han incluido en el " Top 10 en inteligencia artificial de 2006 ", ocupando las posiciones 2 y 7.

Algoritmos [ editar ]

Dada una sola capa oculta de ELM, suponga que la función de salida del -th nodo oculto es , donde y son los parámetros del -th nodo oculto. La función de salida del ELM para SLFN con nodos ocultos es:

, donde es el peso de salida del -ésimo nodo oculto.

es el mapeo de salida de la capa oculta de ELM. Dadas las muestras de entrenamiento, la matriz de salida de la capa oculta de ELM se da como:

y es la matriz de destino de los datos de entrenamiento:

En términos generales, ELM es una especie de redes neuronales de regularización pero con mapeos de capas ocultas no ajustadas (formadas por nodos ocultos aleatorios, kernels u otras implementaciones), su función objetivo es:

donde .

Las diferentes combinaciones de , , y se puede utilizar y dar lugar a diferentes algoritmos de aprendizaje para la regresión, clasificación, escaso de codificación, la compresión, el aprendizaje característica y la agrupación.

Como caso especial, un algoritmo de entrenamiento ELM más simple aprende un modelo de la forma (para redes neuronales sigmoides de capa única oculta):

donde W 1 es la matriz de ponderaciones de capa de entrada a capa oculta, es una función de activación y W 2 es la matriz de ponderación de capa oculta a capa de salida. El algoritmo procede como sigue:

  1. Llene W 1 con valores aleatorios (por ejemplo, ruido aleatorio gaussiano );
  2. estimar W 2 por mínimos cuadrados ajustados a una matriz de variables de respuesta Y , calculada usando la pseudoinversa + , dada una matriz de diseño X :

Arquitecturas [ editar ]

En la mayoría de los casos, ELM se utiliza como una red de alimentación directa de una sola capa oculta (SLFN) que incluye, entre otras, redes sigmoides, redes RBF, redes de umbral, redes de inferencia difusa, redes neuronales complejas, redes de ondas, transformada de Fourier, transformada laplaciana, etc. Debido a sus diferentes implementaciones de algoritmos de aprendizaje para regresión, clasificación, codificación dispersa, compresión, aprendizaje de características y agrupamiento, se han utilizado múltiples ELM para formar redes de múltiples capas ocultas, aprendizaje profundo o redes jerárquicas. [13] [14] [21]

Un nodo oculto en ELM es un elemento computacional, que no necesita ser considerado como una neurona clásica. Un nodo oculto en ELM puede ser neuronas artificiales clásicas, funciones básicas o una subred formada por algunos nodos ocultos. [9]

Teorías [ editar ]

Tanto la aproximación universal como las capacidades de clasificación [2] [3] han sido probadas para ELM en la literatura. Especialmente, Guang-Bin Huang y su equipo pasaron casi siete años (2001-2008) en las pruebas rigurosas de la capacidad de aproximación universal de ELM. [6] [9] [10]

Capacidad de aproximación universal [ editar ]

En teoría, cualquier función continua por partes no constante se puede utilizar como función de activación en los nodos ocultos de ELM, no es necesario que dicha función de activación sea diferencial. Si el ajuste de los parámetros de los nodos ocultos podría hacer que los SLFN se aproximen a cualquier función objetivo , entonces los parámetros de los nodos ocultos se pueden generar aleatoriamente de acuerdo con cualquier probabilidad de distribución continua, y se mantiene con probabilidad uno con pesos de salida apropiados .

Capacidad de clasificación [ editar ]

Dada cualquier función continua por partes no constante como función de activación en SLFN, si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo , entonces los SLFN con mapeo aleatorio de capas ocultas pueden separar regiones disjuntas arbitrarias de cualquier forma.

Neuronas [ editar ]

Se puede utilizar un amplio tipo de funciones continuas por partes no lineales en neuronas ocultas de ELM, por ejemplo:

Dominio real [ editar ]

Función sigmoidea:

Función de Fourier:

Función de límite estricto:

Función gaussiana:

Función Multiquadrics:

Wavelet: donde se encuentra una función de wavelet madre única.

Dominio complejo [ editar ]

Funciones circulares:

Funciones circulares inversas:

Funciones hiperbólicas:

Funciones hiperbólicas inversas:

Fiabilidad [ editar ]

El carácter de caja negra de las redes neuronales en general y de las máquinas de aprendizaje extremo (ELM) en particular es una de las principales preocupaciones que repele a los ingenieros de la aplicación en tareas de automatización inseguras. Este tema en particular se abordó mediante varias técnicas diferentes. Un enfoque consiste en reducir la dependencia de la entrada aleatoria. [22] [23] Otro enfoque se centra en la incorporación de limitaciones continuas en el proceso de aprendizaje de los ELM [24] [25]que se derivan del conocimiento previo sobre la tarea específica. Esto es razonable, porque las soluciones de aprendizaje automático deben garantizar un funcionamiento seguro en muchos dominios de aplicaciones. Los estudios mencionados revelaron que la forma especial de los ELM, con su separación funcional y los pesos de lectura lineal, es particularmente adecuada para la incorporación eficiente de restricciones continuas en regiones predefinidas del espacio de entrada.

Controversia [ editar ]

Hay dos principales quejas de la comunidad académica sobre este trabajo, la primera es sobre "reinventar e ignorar ideas anteriores", la segunda es sobre "nombrar y popularizar indebidamente", como se muestra en algunos debates de 2008 y 2015 [26]. En particular, se señaló en una carta [27] al editor de IEEE Transactions on Neural Networks que la idea de usar una capa oculta conectada a las entradas por pesos aleatorios no entrenados ya se sugirió en los artículos originales sobre redes RBF en el finales de los 80; Guang-Bin Huang respondió señalando diferencias sutiles. [28] En un artículo de 2015, [3]Huang respondió a las quejas sobre su invención del nombre ELM para métodos ya existentes, quejándose de "comentarios muy negativos e inútiles sobre ELM de manera no académica ni profesional debido a diversas razones e intenciones" y un "ataque anónimo irresponsable que tiene la intención de destruir armonía ambiente de investigación ", argumentando que su trabajo" proporciona una plataforma de aprendizaje unificadora "para varios tipos de redes neuronales, [3] incluyendo ELM estructurado jerárquicamente. [21] En 2015, Huang también refutó formalmente lo que consideró como "maldad y ataque". [29] La investigación reciente reemplaza los pesos aleatorios con pesos aleatorios restringidos. [2] [30]

Fuentes abiertas [ editar ]

  • Biblioteca de Matlab
  • Biblioteca de Python [31]

Ver también [ editar ]

  • Computación de yacimientos
  • Proyección aleatoria
  • Matriz aleatoria

Referencias [ editar ]

  1. ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Máquina de aprendizaje extremo: teoría y aplicaciones". Neurocomputación . 70 (1): 489–501. CiteSeerX  10.1.1.217.3692 . doi : 10.1016 / j.neucom.2005.12.126 .
  2. ^ a b c Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; y Rui Zhang (2012). "Máquina de aprendizaje extremo para regresión y clasificación multiclase" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 42 (2): 513–529. CiteSeerX 10.1.1.298.1213 . doi : 10.1109 / tsmcb.2011.2168604 . PMID 21984515 . S2CID 15037168 .    
  3. ↑ a b c d Huang, Guang-Bin (2015). "¿Qué son las máquinas de aprendizaje extremo? Llenando el vacío entre el sueño de Frank Rosenblatt y el rompecabezas de John von Neumann" (PDF) . Computación cognitiva . 7 (3): 263–278. doi : 10.1007 / s12559-015-9333-0 . S2CID 13936498 .  
  4. ^ Huang, Guang-Bin (2014). "Una visión de las máquinas de aprendizaje extremas: neuronas aleatorias, características aleatorias y núcleos" (PDF) . Computación cognitiva . 6 (3): 376–390. doi : 10.1007 / s12559-014-9255-2 . S2CID 7419259 .  
  5. ^ Huang, Guang-Bin, Qin-Yu Zhu, KZ Mao, Chee-Kheong Siew, P. Saratchandran y N. Sundararajan (2006). "¿Se pueden capacitar directamente las redes de umbral?" (PDF) . Transacciones IEEE sobre circuitos y sistemas-II: Express Briefs . 53 (3): 187-191. doi : 10.1109 / tcsii.2005.857540 . S2CID 18076010 .  
  6. ↑ a b c Huang, Guang-Bin, Lei Chen y Chee-Kheong Siew (2006). "Aproximación universal utilizando redes de alimentación directa constructivas incrementales con nodos ocultos aleatorios" (PDF) . Transacciones IEEE en redes neuronales . 17 (4): 879–892. doi : 10.1109 / tnn.2006.875977 . PMID 16856652 .  
  7. ^ Rahimi, Ali y Benjamin Recht (2008). "Sumas ponderadas de fregaderos de cocina aleatorios: sustitución de la minimización con la aleatorización en el aprendizaje" (PDF) . Avances en los sistemas de procesamiento de información neuronal 21 .
  8. ^ Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang (2010). "Redes neuronales de Wavelet de función compuesta con máquina de aprendizaje extrema". Neurocomputación . 73 (7-9): 1405-1416. doi : 10.1016 / j.neucom.2009.12.007 .
  9. ↑ a b c Huang, Guang-Bin, Lei Chen (2007). "Máquina de aprendizaje extremo incremental convexo" (PDF) . Neurocomputación . 70 (16-18): 3056-3062. doi : 10.1016 / j.neucom.2007.02.009 .
  10. ↑ a b Huang, Guang-Bin y Lei Chen (2008). "Máquina de aprendizaje extremo incremental basada en búsqueda aleatoria mejorada" (PDF) . Neurocomputación . 71 (16-18): 3460-3468. CiteSeerX 10.1.1.217.3009 . doi : 10.1016 / j.neucom.2007.10.008 .  
  11. ^ Él, Qing, Xin Jin, Changying Du, Fuzhen Zhuang, Zhongzhi Shi (2014). "Agrupación en el espacio de funciones de la máquina de aprendizaje extremo" (PDF) . Neurocomputación . 128 : 88–95. doi : 10.1016 / j.neucom.2012.12.063 .
  12. ^ Kasun, Liyanaarachchi Lekamalage Chamara, Yan Yang, Guang-Bin Huang y Zhengyou Zhang (2016). "Reducción de dimensiones con Extreme Learning Machine" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 25 (8): 3906–3918. Código bibliográfico : 2016ITIP ... 25.3906K . doi : 10.1109 / tip.2016.2570569 . PMID 27214902 . S2CID 1803922 .   
  13. ↑ a b Huang, Guang-Bin, Zuo Bai y Liyanaarachchi Lekamalage Chamara Kasun y Chi Man Vong (2015). "Máquina de aprendizaje extremo basada en campos receptivos locales" (PDF) . Revista IEEE Computational Intelligence . 10 (2): 18-29. doi : 10.1109 / mci.2015.2405316 . S2CID 1417306 .  
  14. ↑ a b Tang, Jiexiong, Chenwei Deng y Guang-Bin Huang (2016). "Máquina de aprendizaje extremo para perceptrón multicapa" (PDF) . Transacciones IEEE en redes neuronales y sistemas de aprendizaje . 27 (4): 809–821. doi : 10.1109 / tnnls.2015.2424995 . PMID 25966483 . S2CID 206757279 .   
  15. ^ Barak, Omri; Rigotti, Mattia; y Fusi, Stefano (2013). "La escasez de neuronas de selectividad mixta controla la compensación entre generalización y discriminación" . Revista de neurociencia . 33 (9): 3844–3856. doi : 10.1523 / jneurosci.2753-12.2013 . PMC 6119179 . PMID 23447596 .  
  16. ^ Rigotti, Mattia; Barak, Omri; Warden, Melissa R .; Wang, Xiao-Jing; Daw, Nathaniel D .; Miller, Earl K .; y Fusi, Stefano (2013). "La importancia de la selectividad mixta en tareas cognitivas complejas" . Naturaleza . 497 (7451): 585–590. Código Bib : 2013Natur.497..585R . doi : 10.1038 / nature12160 . PMC 4412347 . PMID 23685452 .  
  17. ^ Fusi, Stefano, Earl K Miller y Mattia Rigotti (2015). "Por qué las neuronas se mezclan: alta dimensionalidad para una mayor cognición" (PDF) . Opinión actual en neurobiología . 37 : 66–74. doi : 10.1016 / j.conb.2016.01.010 . PMID 26851755 . S2CID 13897721 .   
  18. ^ Kutlu, Yakup Kutlu, Apdullah Yayık y Esen Yıldırım y Serdar Yıldırım (2017). "Máquina de aprendizaje extrema de triangularización LU en clasificación de tareas cognitivas EEG". Computación y aplicaciones neuronales . 31 (4): 1117–1126. doi : 10.1007 / s00521-017-3142-1 . S2CID 6572895 . 
  19. ^ Yayık, Apdullah Yayık, Yakup Kutlu y Gökhan Altan (2019). "HessELM regularizado y medición de entropía inclinada para la predicción de insuficiencia cardíaca congestiva". arXiv : 1907.05888 . Código bibliográfico : 2019arXiv190705888Y . Cite journal requires |journal= (help)
  20. ^ Altan, Gökhan Altan, Yakup Kutlu, Adnan Özhan Pekmezci y Apdullah Yayık (2018). "Diagnóstico de Enfermedad Pulmonar Obstructiva Crónica utilizando Máquinas de Aprendizaje Extremo Profundo con LU Autoencoder Kernel" . Congreso Internacional de Tecnologías Avanzadas .
  21. ^ a b Zhu, W .; Miao, J .; Qing, L .; Huang, GB (1 de julio de 2015). Máquina jerárquica de aprendizaje extremo para el aprendizaje de representación sin supervisión . 2015 Conferencia conjunta internacional sobre redes neuronales (IJCNN) . págs. 1–8. doi : 10.1109 / IJCNN.2015.7280669 . ISBN 978-1-4799-1960-4. S2CID  14222151 .
  22. ^ Neumann, Klaus; Steil, Jochen J. (2011). "Lote de plasticidad intrínseca para máquinas de aprendizaje extremas" . Proc. Of Conferencia Internacional sobre Redes Neuronales Artificiales : 339–346.
  23. ^ Neumann, Klaus; Steil, Jochen J. (2013). "Optimización de máquinas de aprendizaje extremas mediante regresión de crestas y plasticidad intrínseca por lotes" . Neurocomputación . 102 : 23-30. doi : 10.1016 / j.neucom.2012.01.041 .
  24. ^ Neumann, Klaus; Rolf, Matthias; Steil, Jochen J. (2013). "Integración confiable de restricciones continuas en máquinas de aprendizaje extremas" . Revista internacional de incertidumbre, confusión y sistemas basados ​​en el conocimiento . 21 (sup02): 35–50. doi : 10.1142 / S021848851340014X . ISSN 0218-4885 . 
  25. ^ Neumann, Klaus (2014). Fiabilidad . Biblioteca de la Universidad de Bielefeld. págs. 49–74.
  26. ^ "La página de inicio oficial sobre los orígenes de las máquinas de aprendizaje extremo (ELM)" . Consultado el 15 de diciembre de 2018 .
  27. ^ Wang, Lipo P .; Wan, Chunru R. (2008). "Comentarios sobre" La máquina de aprendizaje extrema " ". IEEE Trans. Redes neuronales . 19 (8): 1494–5, respuesta del autor 1495–6. CiteSeerX 10.1.1.217.2330 . doi : 10.1109 / TNN.2008.2002273 . PMID 18701376 .  
  28. ^ Huang, Guang-Bin (2008). "Responder a" comentarios sobre 'la máquina de aprendizaje extrema' " ". Transacciones IEEE en redes neuronales . 19 (8): 1495-1496. doi : 10.1109 / tnn.2008.2002275 . S2CID 14720232 . 
  29. ^ Guang-Bin, Huang (2015). "QUIÉN detrás de la malignidad y ataque a ELM, OBJETIVO del ataque y ESENCIA de ELM" (PDF) . www.extreme-learning-machines.org .
  30. ^ Zhu, W .; Miao, J .; Qing, L. (1 de julio de 2014). Constrained Extreme Learning Machine: una nueva red neuronal de retroalimentación aleatoria altamente discriminativa . 2014 Conferencia conjunta internacional sobre redes neuronales (IJCNN) . págs. 800–807. doi : 10.1109 / IJCNN.2014.6889761 . ISBN 978-1-4799-1484-5. S2CID  5769519 .
  31. ^ Akusok, Anton; Bjork, Kaj-Mikael; Miche, Yoan; Lendasse, Amaury (2015). "Máquinas de aprendizaje extremo de alto rendimiento: una caja de herramientas completa para aplicaciones de Big Data" . Acceso IEEE . 3 : 1011-1025. doi : 10.1109 / access.2015.2450498 .