Un mapa autoorganizado ( SOM ) o un mapa de características autoorganizado ( SOFM ) es un tipo de red neuronal artificial (ANN) que se entrena mediante el aprendizaje no supervisado para producir una representación discretizada de baja dimensión (generalmente bidimensional) de la espacio de entrada de las muestras de entrenamiento, llamado mapa , y por lo tanto es un método para hacer la reducción de dimensionalidad . Los mapas autoorganizados se diferencian de otras redes neuronales artificiales en que aplican el aprendizaje competitivo en oposición al aprendizaje con corrección de errores (como la propagación hacia atrás con descenso de gradiente), y en el sentido de que utilizan una función de vecindad para preservar las propiedades topológicas del espacio de entrada.
Esto hace que los SOM sean útiles para la visualización al crear vistas de baja dimensión de datos de alta dimensión, similar al escalado multidimensional . La red neuronal artificial introducida por el profesor finlandés Teuvo Kohonen en la década de 1980 a veces se denomina mapa o red de Kohonen . [1] [2] La red de Kohonen es una abstracción computacionalmente conveniente que se basa en modelos biológicos de sistemas neuronales de la década de 1970 [3] y modelos de morfogénesis que se remontan a Alan Turing en la década de 1950. [4]
Si bien es típico considerar este tipo de estructura de red como relacionada con las redes de retroalimentación donde los nodos se visualizan como conectados, este tipo de arquitectura es fundamentalmente diferente en disposición y motivación.
Las extensiones útiles incluyen el uso de rejillas toroidales donde los bordes opuestos están conectados y el uso de una gran cantidad de nodos.
También es común utilizar U-Matrix . [5] El valor de la matriz U de un nodo en particular es la distancia promedio entre el vector de peso del nodo y el de sus vecinos más cercanos. [6] En una cuadrícula, por ejemplo, se podrían considerar los 4 u 8 nodos más cercanos (los vecindarios de Von Neumann y Moore , respectivamente), o seis nodos en una cuadrícula hexagonal.
Los SOM grandes muestran propiedades emergentes . En mapas que constan de miles de nodos, es posible realizar operaciones de clúster en el mapa mismo. [7]
Estructura y operaciones
Como la mayoría de las redes neuronales artificiales, los SOM operan en dos modos: entrenamiento y mapeo. "Entrenamiento" construye el mapa usando ejemplos de entrada (un proceso competitivo , también llamado cuantificación de vectores ), mientras que "mapeo" clasifica automáticamente un nuevo vector de entrada.
La parte visible de un mapa autoorganizado es el espacio del mapa, que consta de componentes llamados nodos o neuronas. El espacio del mapa se define de antemano, generalmente como una región bidimensional finita donde los nodos están dispuestos en una cuadrícula hexagonal o rectangular regular . [8] Cada nodo está asociado con un vector de "peso", que es una posición en el espacio de entrada; es decir, tiene la misma dimensión que cada vector de entrada. Mientras los nodos en el espacio del mapa permanecen fijos, el entrenamiento consiste en mover los vectores de peso hacia los datos de entrada (reduciendo una métrica de distancia) sin estropear la topología inducida desde el espacio del mapa. Por tanto, el mapa autoorganizado describe un mapeo desde un espacio de entrada de mayor dimensión a un espacio de mapa de menor dimensión. Una vez entrenado, el mapa puede clasificar un vector del espacio de entrada al encontrar el nodo con el vector de peso más cercano (métrica de distancia más pequeña) al vector del espacio de entrada.
Algoritmo de aprendizaje
El objetivo de aprender en el mapa autoorganizado es hacer que diferentes partes de la red respondan de manera similar a ciertos patrones de entrada. Esto está motivado en parte por cómo se maneja la información visual, auditiva u otra información sensorial en partes separadas de la corteza cerebral en el cerebro humano . [9]
Los pesos de las neuronas se inicializan en pequeños valores aleatorios o se muestrean uniformemente del subespacio abarcado por los dos vectores propios de componentes principales más grandes . Con la última alternativa, el aprendizaje es mucho más rápido porque los pesos iniciales ya dan una buena aproximación de los pesos MOS. [10]
La red debe recibir una gran cantidad de vectores de ejemplo que representen, lo más cerca posible, los tipos de vectores esperados durante el mapeo. Los ejemplos generalmente se administran varias veces como iteraciones.
La formación utiliza aprendizaje competitivo . Cuando se envía un ejemplo de entrenamiento a la red, se calcula su distancia euclidiana a todos los vectores de peso. La neurona cuyo vector de peso es más similar a la entrada se denomina unidad de mejor correspondencia (UMB). Los pesos de la BMU y las neuronas cercanas a ella en la cuadrícula de SOM se ajustan hacia el vector de entrada. La magnitud del cambio disminuye con el tiempo y con la distancia de la cuadrícula desde la UMB. La fórmula de actualización para una neurona v con vector de peso W v (s) es
- ,
donde s es el índice de paso, t un índice en la muestra de entrenamiento, u es el índice de la UMB para el vector de entrada D (t), α (s) es un coeficiente de aprendizaje monótonamente decreciente ; Θ (u, v, s) es la función de vecindad que da la distancia entre la neurona u y la neurona v en el paso s. [11] Dependiendo de las implementaciones, t puede escanear el conjunto de datos de entrenamiento sistemáticamente (t es 0, 1, 2 ... T-1, luego repetir, siendo T el tamaño de la muestra de entrenamiento), extraerse aleatoriamente del conjunto de datos ( muestreo bootstrap ), o implementar algún otro método de muestreo (como jackknifing ).
La función de vecindad Θ (u, v, s) (también llamada función de interacción lateral ) depende de la distancia de cuadrícula entre la UMB (neurona u ) y la neurona v . En la forma más simple, es 1 para todas las neuronas lo suficientemente cercanas a BMU y 0 para otras, pero las funciones gaussiana y mexican-hat [12] también son opciones comunes. Independientemente de la forma funcional, la función de vecindario se reduce con el tiempo. [9] Al principio, cuando el barrio es amplio, la autoorganización tiene lugar a escala global. Cuando el vecindario se ha reducido a solo un par de neuronas, los pesos convergen a las estimaciones locales. En algunas implementaciones, el coeficiente de aprendizaje α y la función de vecindad Θ disminuyen constantemente al aumentar s, en otras (en particular aquellas en las que t escanea el conjunto de datos de entrenamiento) disminuyen de manera escalonada, una vez cada T pasos.
Este proceso se repite para cada vector de entrada durante un número (generalmente grande) de ciclos λ . La red termina asociando nodos de salida con grupos o patrones en el conjunto de datos de entrada. Si se pueden nombrar estos patrones, los nombres se pueden adjuntar a los nodos asociados en la red entrenada.
Durante el mapeo, habrá una sola neurona ganadora : la neurona cuyo vector de peso se encuentra más cerca del vector de entrada. Esto se puede determinar simplemente calculando la distancia euclidiana entre el vector de entrada y el vector de peso.
Si bien en este artículo se ha enfatizado la representación de los datos de entrada como vectores, cualquier tipo de objeto que se pueda representar digitalmente, que tenga asociada una medida de distancia adecuada y en el que las operaciones necesarias para el entrenamiento sean posibles, se puede utilizar para construir una autoevaluación. -mapa organizador. Esto incluye matrices, funciones continuas o incluso otros mapas autoorganizados.
Variables
Estas son las variables necesarias, con vectores en negrita,
- es la iteración actual
- es el límite de iteración
- es el índice del vector de datos de entrada de destino en el conjunto de datos de entrada
- es un vector de datos de entrada de destino
- es el índice del nodo en el mapa
- es el vector de peso actual del nodo
- es el índice de la mejor unidad de coincidencia (UMB) en el mapa
- es una restricción debido a la distancia de la UMB, generalmente llamada función de vecindad, y
- es una restricción de aprendizaje debido al progreso de la iteración.
Algoritmo
- Aleatorizar los vectores de peso de los nodos en un mapa
- Elija aleatoriamente un vector de entrada
- Atraviesa cada nodo en el mapa
- Utilice la fórmula de la distancia euclidiana para encontrar la similitud entre el vector de entrada y el vector de peso del nodo del mapa
- Rastree el nodo que produce la distancia más pequeña (este nodo es la mejor unidad coincidente, UMB)
- Actualice los vectores de peso de los nodos en la vecindad de la BMU (incluida la propia BMU) acercándolos al vector de entrada
- Incrementar y repita desde el paso 2 mientras
Un algoritmo variante:
- Aleatorizar los vectores de peso de los nodos del mapa
- Atraviesa cada vector de entrada en el conjunto de datos de entrada
- Atraviesa cada nodo en el mapa
- Utilice la fórmula de la distancia euclidiana para encontrar la similitud entre el vector de entrada y el vector de peso del nodo del mapa
- Rastree el nodo que produce la distancia más pequeña (este nodo es la mejor unidad coincidente, UMB)
- Actualice los nodos en la vecindad de la BMU (incluida la propia BMU) acercándolos al vector de entrada
- Atraviesa cada nodo en el mapa
- Incrementar y repita desde el paso 2 mientras
Inicialización de SOM
La selección de una buena aproximación inicial es un problema bien conocido para todos los métodos iterativos de aprendizaje de redes neuronales. Kohonen [13] utilizó la iniciación aleatoria de pesos de MOS. Recientemente, la inicialización de componentes principales, en la que los pesos de mapas iniciales se eligen del espacio de los primeros componentes principales, se ha vuelto popular debido a la reproducibilidad exacta de los resultados. [14]
La comparación cuidadosa del enfoque de iniciación aleatoria con la inicialización del componente principal para SOM unidimensional (modelos de curvas principales) demostró que las ventajas de la inicialización de SOM del componente principal no son universales. El mejor método de inicialización depende de la geometría del conjunto de datos específico. La inicialización del componente principal es preferible (en la dimensión uno) si la curva principal que se aproxima al conjunto de datos se puede proyectar de forma univalente y lineal en el primer componente principal (conjuntos cuasilineales). Sin embargo, para conjuntos de datos no lineales, la iniciación aleatoria funciona mejor. [15]
Ejemplos de
Datos de la flor de iris de Fisher
Considere una matriz de nodos n × m , cada uno de los cuales contiene un vector de peso y es consciente de su ubicación en la matriz. Cada vector de peso tiene la misma dimensión que el vector de entrada del nodo. Los pesos pueden establecerse inicialmente en valores aleatorios.
Ahora necesitamos información para alimentar el mapa. Los colores se pueden representar por sus componentes rojo, verde y azul. En consecuencia, representaremos los colores como vectores en el cubo unitario del espacio vectorial libre sobre ℝ generado por la base :
- R = <255, 0, 0>
- G = <0, 255, 0>
- B = <0, 0, 255>
El diagrama mostrado
compara los resultados del entrenamiento con los conjuntos de datos [Nota 1]
- tres colores = [255, 0, 0], [0, 255, 0], [0, 0, 255]
- ochoColores = [0, 0, 0], [255, 0, 0], [0, 255, 0], [0, 0, 255], [255, 255, 0], [0, 255, 255], [255, 0, 255], [255, 255, 255]
y las imágenes originales. Tenga en cuenta el sorprendente parecido entre los dos.
De manera similar, después de entrenar una cuadrícula de neuronas de 40 × 40 para 250 iteraciones con una tasa de aprendizaje de 0.1 en Fisher's Iris , el mapa ya puede detectar las principales diferencias entre especies.
Interpretación
Hay dos formas de interpretar un SOM. Debido a que en la fase de entrenamiento los pesos de todo el vecindario se mueven en la misma dirección, elementos similares tienden a excitar las neuronas adyacentes. Por lo tanto, SOM forma un mapa semántico donde las muestras similares se mapean juntas y las diferentes se separan. Esto puede visualizarse mediante una matriz U (distancia euclidiana entre los vectores de peso de las células vecinas) del MOS. [5] [6] [17]
La otra forma es pensar en los pesos neuronales como indicadores del espacio de entrada. Forman una aproximación discreta de la distribución de muestras de entrenamiento. Más neuronas apuntan a regiones con alta concentración de muestras de entrenamiento y menos donde las muestras son escasas.
SOM puede considerarse una generalización no lineal del análisis de componentes principales (PCA). [18] Se ha demostrado, utilizando datos geofísicos tanto artificiales como reales, que SOM tiene muchas ventajas [19] [20] sobre los métodos convencionales de extracción de características como las Funciones Ortogonales Empíricas (EOF) o PCA.
Originalmente, SOM no se formuló como una solución a un problema de optimización. Sin embargo, ha habido varios intentos de modificar la definición de MOS y formular un problema de optimización que arroje resultados similares. [21] Por ejemplo, los mapas elásticos utilizan la metáfora mecánica de la elasticidad para aproximar las variedades principales : [22] la analogía es una membrana y placa elásticas.
Alternativas
- El mapa topográfico generativo (GTM) es una alternativa potencial a los MOS. En el sentido de que un GTM requiere explícitamente un mapeo fluido y continuo desde el espacio de entrada al espacio del mapa, preserva la topología. Sin embargo, en un sentido práctico, falta esta medida de preservación topológica. [23]
- La red de mapas autoorganizados adaptativos en el tiempo (TASOM) es una extensión del SOM básico. El TASOM emplea tasas de aprendizaje adaptativo y funciones de vecindario. También incluye un parámetro de escalado para hacer que la red sea invariable al escalado, traslación y rotación del espacio de entrada. El TASOM y sus variantes se han utilizado en varias aplicaciones que incluyen agrupamiento adaptativo, umbralización multinivel, aproximación del espacio de entrada y modelado activo de contornos. [24] Además, se ha propuesto un árbol binario TASOM o BTASOM, parecido a un árbol natural binario que tiene nodos compuestos por redes TASOM, donde el número de sus niveles y el número de sus nodos se adaptan a su entorno. [25]
- El mapa autoorganizado en crecimiento (GSOM) es una variante creciente del mapa autoorganizado. El GSOM se desarrolló para abordar el problema de identificar un tamaño de mapa adecuado en el SOM. Comienza con un número mínimo de nodos (generalmente cuatro) y hace crecer nuevos nodos en el límite según una heurística. Al utilizar un valor llamado factor de dispersión , el analista de datos tiene la capacidad de controlar el crecimiento de GSOM.
- El enfoque de mapas elásticos [26] toma prestada de la interpolación spline la idea de minimización de la energía elástica . En el aprendizaje, minimiza la suma de la energía cuadrática de flexión y estiramiento con el error de aproximación de mínimos cuadrados .
- El enfoque conforme [27] [28] que utiliza el mapeo conforme para interpolar cada muestra de entrenamiento entre los nodos de la cuadrícula en una superficie continua. En este enfoque es posible un mapeo suave uno a uno.
- El mapa orientado y escalable (OS-Map) generaliza la función de vecindad y la selección ganadora. [29] La función de vecindad gaussiana homogénea se reemplaza con la matriz exponencial. Por lo tanto, se puede especificar la orientación en el espacio del mapa o en el espacio de datos. SOM tiene una escala fija (= 1), por lo que los mapas "describen de manera óptima el dominio de observación". Pero, ¿qué pasa con un mapa que cubre el dominio dos veces o en n pliegues? Esto conlleva la concepción de escala. OS-Map considera la escala como una descripción estadística de cuántos nodos de mejor coincidencia tiene una entrada en el mapa.
Aplicaciones
- Priorización y selección de proyectos [30]
- Análisis de facies sísmicas para la exploración de petróleo y gas [31]
- Análisis de modos y efectos de falla [32]
- Creación de obras de arte [33]
Ver también
- Gas neural
- Aprendizaje de cuantificación vectorial
- Máquina de estado líquido
- Kohonen SOM híbrido
- Codificación escasa
- Memoria distribuida escasa
- Aprendizaje profundo
- Neocognitron
- Análisis de datos topológicos
Notas
- ^ Estos conjuntos de datos no están normalizados . La normalización sería necesaria para entrenar al SOM.
Referencias
- ^ Kohonen, Teuvo; Honkela, Timo (2007). "Red Kohonen" . Scholarpedia . 2 (1): 1568. Bibcode : 2007SchpJ ... 2.1568K . doi : 10.4249 / scholarpedia.1568 .
- ^ Kohonen, Teuvo (1982). "Formación autoorganizada de mapas de características topológicamente correctos". Cibernética biológica . 43 (1): 59–69. doi : 10.1007 / bf00337288 . S2CID 206775459 .
- ^ Von der Malsburg, C (1973). "Autoorganización de las células sensibles a la orientación en la corteza estriada". Kybernetik . 14 (2): 85–100. doi : 10.1007 / bf00288907 . PMID 4786750 . S2CID 3351573 .
- ^ Turing, Alan (1952). "La base química de la morfogénesis" . Phil. Trans. R. Soc . 237 (641): 37–72. Código Bibliográfico : 1952RSPTB.237 ... 37T . doi : 10.1098 / rstb.1952.0012 .
- ^ a b Ultsch, Alfred; Siemon, H. Peter (1990). "Mapas de características autoorganizables de Kohonen para análisis de datos exploratorios" . En Widrow, Bernard; Angeniol, Bernard (eds.). Actas de la Conferencia Internacional de Redes Neuronales (INNC-90), París, Francia, 9 al 13 de julio de 1990 . 1 . Dordrecht, Países Bajos: Kluwer. págs. 305-308 . ISBN 978-0-7923-0831-7.
- ↑ a b Ultsch, Alfred (2003); U * -Matrix: Una herramienta para visualizar clústeres en datos de alta dimensión , Departamento de Ciencias de la Computación, Universidad de Marburg, Informe Técnico Nr. 36: 1-12
- ^ Ultsch, Alfred (2007). "Aparición en mapas de características autoorganizados". En Ritter, H .; Haschke, R. (eds.). Actas del 6º Taller Internacional sobre Mapas Autoorganizados (WSOM '07) . Bielefeld, Alemania: Grupo de Neuroinformática. ISBN 978-3-00-022473-7.
- ^ Jaakko Hollmen (9 de marzo de 1996). "Mapa Autoorganizado (SOM)" . Universidad de Aalto .
- ^ a b Haykin, Simon (1999). "9. Mapas autoorganizados". Redes neuronales: una base integral (2ª ed.). Prentice Hall. ISBN 978-0-13-908385-3.
- ^ Kohonen, Teuvo (2005). "Introducción a SOM" . Caja de herramientas de SOM . Consultado el 18 de junio de 2006 .
- ^ Kohonen, Teuvo; Honkela, Timo (2011). "Red de Kohonen" . Scholarpedia . 2 (1): 1568. Bibcode : 2007SchpJ ... 2.1568K . doi : 10.4249 / scholarpedia.1568 . Consultado el 24 de septiembre de 2012 .
- ^ Vrieze, DO (1995). "Red Kohonen" (PDF) . Redes neuronales artificiales . Springer . Apuntes de conferencias en informática. 931 . Universidad de Limburg, Maastricht. págs. 83–100. doi : 10.1007 / BFb0027024 . ISBN 978-3-540-59488-8. Consultado el 1 de julio de 2020 .
- ^ T. Kohonen, Autoorganización y memoria asociativa. Springer, Berlín, 1984.
- ^ A. Ciampi, Y. Lechevallier, Agrupación de grandes conjuntos de datos multinivel: un enfoque basado en mapas autoorganizados de Kohonen, en DA Zighed, J. Komorowski, J. Zytkow (Eds.), PKDD 2000, Springer LNCS (LNAI ), vol. 1910, págs. 353-358, 2000.
- ^ Akinduko, AA; Mirkes, EM; Gorban, AN (2016). "SOM: inicialización estocástica versus componentes principales" . Ciencias de la información . 364–365: 213–221. doi : 10.1016 / j.ins.2015.10.013 .
- ^ La ilustración se prepara con software libre: Mirkes, Evgeny M .; Análisis de componentes principales y mapas autoorganizados: subprograma , Universidad de Leicester, 2011
- ^ Saadatdoost, Robab, Alex Tze Hiang Sim y Jafarkarimi, Hosein. "Aplicación de mapa autoorganizado para el descubrimiento de conocimiento basado en datos de educación superior". Investigación e Innovación en Sistemas de Información (ICRIIS), Conferencia Internacional 2011 sobre. IEEE, 2011.
- ^ Yin, Hujun; Aprendizaje de colectores principales no lineales mediante mapas autoorganizados, en Gorban, Alexander N .; Kégl, Balázs; Wunsch, Donald C .; y Zinovyev, Andrei (Eds.); Colectores principales para la visualización de datos y la reducción de dimensiones , Notas de clase en Ciencias de la Computación e Ingeniería (LNCSE), vol. 58, Berlín, Alemania: Springer, 2008, ISBN 978-3-540-73749-0
- ^ Liu, Yonggang; Weisberg, Robert H (2005). "Patrones de variabilidad de la corriente oceánica en la plataforma del oeste de Florida utilizando el mapa autoorganizado" . Revista de Investigación Geofísica . 110 (C6): C06003. Código Bibliográfico : 2005JGRC..110.6003L . doi : 10.1029 / 2004JC002786 .
- ^ Liu, Yonggang; Weisberg, Robert H .; Mooers, Christopher NK (2006). "Evaluación del desempeño del mapa autoorganizado para la extracción de características" . Revista de Investigación Geofísica . 111 (C5): C05018. Código bibliográfico : 2006JGRC..111.5018L . doi : 10.1029 / 2005jc003117 .
- ^ Heskes, Tom; Funciones energéticas para mapas autoorganizados , en Oja, Erkki; y Kaski, Samuel (Eds.), Kohonen Maps , Elsevier, 1999
- ↑ Gorban, Alexander N .; Kégl, Balázs; Wunsch, Donald C .; y Zinovyev, Andrei (Eds.); Colectores principales para la visualización de datos y la reducción de dimensiones , Notas de clase en Ciencias de la Computación e Ingeniería (LNCSE), vol. 58, Berlín, Alemania: Springer, 2008, ISBN 978-3-540-73749-0
- ^ Kaski, Samuel (1997). Exploración de datos mediante mapas autoorganizados . Acta Polytechnica Scandinavica . Serie de Matemáticas, Computación y Gestión en Ingeniería No. 82. Espoo, Finlandia: Academia de Tecnología de Finlandia. ISBN 978-952-5148-13-8.
- ^ Shah-Hosseini, Hamed; Safabakhsh, Reza (abril de 2003). "TASOM: un nuevo mapa autoorganizado adaptable al tiempo". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 33 (2): 271–282. doi : 10.1109 / tsmcb.2003.810442 . PMID 18238177 .
- ^ Shah-Hosseini, Hamed (mayo de 2011). "Mapa de autoorganización adaptable al tiempo del árbol binario". Neurocomputación . 74 (11): 1823–1839. doi : 10.1016 / j.neucom.2010.07.037 .
- ^ AN Gorban, A. Zinovyev, Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos , International Journal of Neural Systems , vol. 20, núm. 3 (2010) 219–232.
- ^ Liou, C.-Y .; Kuo, Y.-T. (2005). "Mapa autoorganizado conforme para un colector de género cero" . La computadora visual . 21 (5): 340–353. doi : 10.1007 / s00371-005-0290-6 . S2CID 8677589 .
- ^ Liou, C.-Y .; Tai, W.-P. (2000). "Conformalidad en la red de autoorganización" . Inteligencia artificial . 116 (1–2): 265–286. doi : 10.1016 / S0004-3702 (99) 00093-4 .
- ^ Hua, H (2016). "Procesamiento de imagen y geometría con Mapa Orientado y Escalable". Redes neuronales . 77 : 1–6. doi : 10.1016 / j.neunet.2016.01.009 . PMID 26897100 .
- ^ Zheng, G. y Vaishnavi, V. (2011) "Un enfoque de mapa perceptual multidimensional para la priorización y selección de proyectos", Transacciones AIS sobre la interacción humano-computadora (3) 2, págs. 82-103
- ^ Taner, MT; Paredes, JD; Smith, M .; Taylor, G .; Carr, MB; Dumas, D. (2001). "Caracterización de yacimientos mediante calibración de conglomerados de mapas autoorganizados" . Resúmenes ampliados del programa técnico de la SEG 2001 . 2001 . págs. 1552-1555. doi : 10.1190 / 1.1816406 . S2CID 59155082 .
- ^ Chang, Wui Lee; Pang, Lie Meng; Tay, Kai Meng (marzo de 2017). "Aplicación del Mapa Autoorganizado a la Metodología de Análisis de Modos de Falla y Efectos" (PDF) . Neurocomputación . PP : 314–320. doi : 10.1016 / j.neucom.2016.04.073 .
- ^ Biblioteca ANNetGPGPU CUDA con ejemplos [1] Creación de imágenes acelerada por GPU