Mapa elástico

Los mapas elásticos proporcionan una herramienta para la reducción de dimensionalidad no lineal . Por su construcción, son un sistema de resortes elásticos incrustados en el espacio de datos. ^[1] Este sistema se aproxima a una variedad de baja dimensión. Los coeficientes elásticos de este sistema permiten el cambio de agrupamiento de k-medias completamente desestructurado (elasticidad cero) a los estimadores ubicados cerca de los colectores de PCA lineales (para módulos de alta flexión y baja extensión). Con algunos valores intermedios de los coeficientes de elasticidad , este sistema se aproxima efectivamente a las variedades principales no lineales. Este enfoque se basa en una mecánicaanalogía entre variedades principales, que pasan por "el medio" de la distribución de datos, y membranas y placas elásticas. El método fue desarrollado por AN Gorban , AY Zinovyev y AA Pitenko en 1996-1998.

PCA lineal versus colectores principales no lineales ^[1] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal 3D PCA. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector PCA 2D lineal (PCA2D). El subtipo de cáncer de mama "basal" se visualiza de manera más adecuada con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Las variedades principales son producidas por el algoritmo del mapa elástico . Los datos están disponibles para concurso público. ^{[2] El} software está disponible para uso no comercial gratuito. ^[3]^[4]

Energía del mapa elástico

Dejar ${\ Displaystyle {\ mathcal {S}}}$ ser un conjunto de datos en un espacio euclidiano de dimensión finita . El mapa elástico está representado por un conjunto de nodos ${\ Displaystyle {\ bf {w}} _ {j}}$ en el mismo espacio. Cada punto de datos ${\ Displaystyle s \ in {\ mathcal {S}}}$ tiene un nodo anfitrión , es decir, el nodo más cercano ${\ Displaystyle {\ bf {w}} _ {j}}$ (si hay varios nodos más cercanos, se toma el nodo con el número más pequeño). El conjunto de datos ${\ Displaystyle {\ mathcal {S}}}$ se divide en clases ${\ displaystyle K_ {j} = \ {s \ | \ {\ bf {w}} _ {j} {\ mbox {es un anfitrión de}} s \}}$ .

La energía de aproximación D es la distorsión

{\ Displaystyle D = {\ frac {1} {2}} \ sum _ {j = 1} ^ {k} \ sum _ {s \ in K_ {j}} \ | s - {\ bf {w}} _ {j} \ | ^ {2}}

,

que es la energía de los resortes con elasticidad unitaria que conectan cada punto de datos con su nodo anfitrión. Es posible aplicar factores de ponderación a los términos de esta suma, por ejemplo, para reflejar la desviación estándar de la función de densidad de probabilidad de cualquier subconjunto de puntos de datos. ${\ Displaystyle \ {s_ {i} \}}$ .

Sobre el conjunto de nodos se define una estructura adicional. Algunos pares de nodos, ${\ Displaystyle ({\ bf {w}} _ {i}, {\ bf {w}} _ {j})}$ , están conectados por bordes elásticos . Llame a este conjunto de pares ${\ Displaystyle E}$ . Algunos tripletes de nodos, ${\ Displaystyle ({\ bf {w}} _ {i}, {\ bf {w}} _ {j}, {\ bf {w}} _ {k})}$ , forman costillas dobladas . Llame a este conjunto de trillizos ${\ Displaystyle G}$ .

La energía de estiramiento es

{\ Displaystyle U_ {E} = {\ frac {1} {2}} \ lambda \ sum _ {({\ bf {w}} _ {i}, {\ bf {w}} _ {j}) \ en E} \ | {\ bf {w}} _ {i} - {\ bf {w}} _ {j} \ | ^ {2}}

,

La energía de flexión es

{\ Displaystyle U_ {G} = {\ frac {1} {2}} \ mu \ sum _ {({\ bf {w}} _ {i}, {\ bf {w}} _ {j}, { \ bf {w}} _ {k}) \ en G} \ | {\ bf {w}} _ {i} -2 {\ bf {w}} _ {j} + {\ bf {w}} _ {k} \ | ^ {2}}

,

dónde ${\ Displaystyle \ lambda}$ y ${\ Displaystyle \ mu}$ son los módulos de estiramiento y flexión respectivamente. La energía de estiramiento a veces se denomina membrana , mientras que la energía de flexión se denomina término de placa delgada . ^[5]

Por ejemplo, en la cuadrícula rectangular 2D, los bordes elásticos son solo bordes verticales y horizontales (pares de vértices más cercanos) y los nervios de flexión son los tripletes verticales u horizontales de vértices consecutivos (más cercanos).

La energía total del mapa elástico es entonces

{\ Displaystyle U = D + U_ {E} + U_ {G}.}

La posición de los nodos ${\ Displaystyle \ {{\ bf {w}} _ {j} \}}$ está determinada por el equilibrio mecánico del mapa elástico, es decir, su ubicación es tal que minimiza la energía total ${\ Displaystyle U}$ .

Algoritmo de maximización de expectativas

Para una división determinada de conjunto de datos ${\ Displaystyle {\ mathcal {S}}}$ en clases ${\ Displaystyle K_ {j}}$ , minimización del funcional cuadrático ${\ Displaystyle U}$ es un problema lineal con la escasa matriz de coeficientes. Por lo tanto, de manera similar al análisis de componentes principales o k-medias , se utiliza un método de división:

Por dado ${\ Displaystyle \ {{\ bf {w}} _ {j} \}}$ encontrar ${\ Displaystyle \ {K_ {j} \}}$ ;
Por dado ${\ Displaystyle \ {K_ {j} \}}$ minimizar ${\ Displaystyle U}$ y encontrar ${\ Displaystyle \ {{\ bf {w}} _ {j} \}}$ ;
Si no hay cambios, rescindir.

Este algoritmo de maximización de expectativas garantiza un mínimo local de ${\ Displaystyle U}$ . Para mejorar la aproximación se proponen varios métodos adicionales. Por ejemplo, se utiliza la estrategia de ablandamiento . Esta estrategia comienza con rejillas rígidas (módulos de pequeña longitud, pequeña flexión y gran elasticidad ${\ Displaystyle \ lambda}$ y ${\ Displaystyle \ mu}$ coeficientes) y acabados con rejillas blandas (pequeñas ${\ Displaystyle \ lambda}$ y ${\ Displaystyle \ mu}$ ). El entrenamiento se desarrolla en varias épocas, cada época con su propia rigidez de cuadrícula. Otra estrategia adaptativa está creciendo en red : se parte de una pequeña cantidad de nodos y gradualmente se agregan nuevos. Cada época va con su propio número de nodos.

Aplicaciones

Aplicación de las curvas principales construidas por el método de mapas elásticos: Índice de calidad de vida no lineal. ^{[6] Los} puntos representan datos de los 171 países de la ONU en un espacio de 4 dimensiones formado por los valores de 4 indicadores: producto bruto per cápita , esperanza de vida , mortalidad infantil , incidencia de tuberculosis . Las diferentes formas y colores corresponden a diversas ubicaciones geográficas y años. La línea roja en negrita representa la curva principal , que se aproxima al conjunto de datos.

Las aplicaciones más importantes del método y del software libre ^{[3] se} encuentran en bioinformática ^[7]^[8] para el análisis exploratorio de datos y visualización de datos multidimensionales, para la visualización de datos en ciencias económicas, sociales y políticas, ^[9] como herramienta auxiliar para mapeo de datos en sistemas de información geográfica y para visualización de datos de diversa naturaleza.

El método se aplica en biología cuantitativa para reconstruir la superficie curva de una hoja de árbol a partir de una pila de imágenes de microscopía óptica. ^[10] Esta reconstrucción se utiliza para cuantificar las distancias geodésicas entre los tricomas y su patrón, que es un marcador de la capacidad de una planta para resistir a los patógenos.

Recientemente, el método se adapta como herramienta de apoyo en el proceso de decisión subyacente a la selección, optimización y gestión de carteras financieras . ^[11]

El método de mapas elásticos ha sido probado y comparado sistemáticamente con varios métodos de aprendizaje automático sobre el problema aplicado de identificación del régimen de flujo de un flujo gas-líquido en una tubería. ^[12] Hay varios regímenes: flujo de agua o aire monofásico, flujo burbujeante, flujo de slug burbujeante, flujo de slug, flujo de slug-churn, flujo de churn, flujo de churn-anular y flujo anular. El método más simple y común utilizado para identificar el régimen de flujo es la observación visual. Sin embargo, este enfoque es subjetivo e inadecuado para caudales de gas y líquido relativamente altos. Por lo tanto, muchos autores proponen los métodos de aprendizaje automático. Los métodos se aplican a los datos de presión diferencial recopilados durante un proceso de calibración. El método de mapas elásticos proporcionó un mapa 2D, donde se representa el área de cada régimen. La comparación con algunos otros métodos de aprendizaje automático se presenta en la Tabla 1 para varios diámetros y presiones de tubería.

TABLA 1. Precisión de identificación del régimen de flujo (%)
de diferentes algoritmos de aprendizaje automático
	Calibración	Pruebas	Mayor diámetro	Mayor presión
Mapa elástico	100	98,2	100	100
ANA	99,1	89,2	76,2	70,5
SVM	100	88,5	61,7	70,5
SOM (pequeño)	94,9	94,2	83,6	88,6
SOM (grande)	100	94,6	82,1	84,1

Aquí, ANN significa redes neuronales artificiales de retropropagación , SVM significa máquina de vectores de soporte , SOM significa mapas autoorganizados . La tecnología híbrida se desarrolló para aplicaciones de ingeniería. ^[13] En esta tecnología, los mapas elásticos se utilizan en combinación con el análisis de componentes principales (PCA), el análisis de componentes independientes (ICA) y la ANN de retropropagación.

El libro de texto ^[14] proporciona una comparación sistemática de mapas elásticos y mapas autoorganizados (MOS) en aplicaciones para la toma de decisiones económicas y financieras.

Referencias

^ a b A. N. Gorban, AY Zinovyev, Principales gráficos y colectores , en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas, Olivas ES et al. Eds. Information Science Reference, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.
^ Wang, Y., Klijn, JG, Zhang, Y., Sieuwerts, AM, Look, MP, Yang, F., Talantov, D., Timmermans, M., Meijer-van Gelder, ME, Yu, J. et al .: Perfiles de expresión génica para predecir metástasis a distancia del cáncer de mama primario con ganglios linfáticos negativos. Lancet 365, 671–679 (2005); Datos en línea
^ a b A. Zinovyev, ViDaExpert - Herramienta de visualización de datos multidimensionales (gratuita para uso no comercial). Institut Curie , París.
^ A. Zinovyev, descripción general de ViDaExpert , IHES ( Institut des Hautes Études Scientifiques ), Bures-Sur-Yvette, Île-de-France.
^ Michael Kass, Andrew Witkin, Demetri Terzopoulos, Serpientes: modelos de contorno activos, Int.J. Visión por computadora, 1988 vol 1-4 pp.321-331
^ AN Gorban, A. Zinovyev, Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos , International Journal of Neural Systems , vol. 20, núm. 3 (2010) 219–232.
^ AN Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones , LNCSE 58, Springer: Berlín - Heidelberg - Nueva York, 2007. ISBN 978-3-540- 73749-0
^ M. Chacón, M. Lévano, H. Allende, H. Nowak, Detección de expresiones genéticas en microarrays mediante la aplicación de una red neuronal elástica iterativamente , En: B. Beliczynski et al. (Eds.), Lecture Notes in Computer Sciences, vol. 4432, Springer: Berlín - Heidelberg 2007, 355–363.
^ A. Zinovyev, Visualización de datos en ciencias políticas y sociales , en: SAGE "Enciclopedia internacional de ciencia política" , Badie, B., Berg-Schlosser, D., Morlino, LA (Eds.), 2011.
^ H. Failmezger, B. Jaegle, A. Schrader, M. Hülskamp, A. Tresch., Reconstrucción de hojas 3D semiautomatizada y análisis de patrones de tricomas a partir de imágenes de microscopio óptico , PLoS Computational Biology, 2013, 9 (4): e1003029 .
^ M. Resta, Optimización de la cartera a través de mapas elásticos: algunas pruebas de la bolsa de valores italiana , Sistemas de ingeniería e información inteligentes basados en el conocimiento, B. Apolloni, RJ Howlett y L. Jain (eds.), Lecture Notes in Computer Science, vol. . 4693, Springer: Berlín - Heidelberg, 2010, 635-641.
^ H. Shaban, S. Tavoularis, Identificación del régimen de flujo en el flujo vertical ascendente de la tubería de aire-agua mediante señales de presión diferencial y mapas elásticos , International Journal of Multiphase Flow 61 (2014) 62-72.
^ H. Shaban, S. Tavoularis, Medición de tasas de flujo de gas y líquido en flujos de tubería de dos fases mediante la aplicación de técnicas de aprendizaje automático a señales de presión diferencial , International Journal of Multiphase Flow 67 (2014), 106-117
^ M. Resta, Paradigmas de inteligencia computacional en la toma de decisiones económicas y financieras , Serie Biblioteca de referencia de sistemas inteligentes, Volumen 99, Springer International Publishing, Suiza 2016.

[Handbook-1] A. N. Gorban, AY Zinovyev, Principales gráficos y colectores , en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas, Olivas ES et al. Eds. Information Science Reference, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.

[2] Wang, Y., Klijn, JG, Zhang, Y., Sieuwerts, AM, Look, MP, Yang, F., Talantov, D., Timmermans, M., Meijer-van Gelder, ME, Yu, J. et al .: Perfiles de expresión génica para predecir metástasis a distancia del cáncer de mama primario con ganglios linfáticos negativos. Lancet 365, 671–679 (2005); Datos en línea

[VidaExpert-3] A. Zinovyev, ViDaExpert - Herramienta de visualización de datos multidimensionales (gratuita para uso no comercial). Institut Curie , París.

[4] A. Zinovyev, descripción general de ViDaExpert , IHES ( Institut des Hautes Études Scientifiques ), Bures-Sur-Yvette, Île-de-France.

[5] Michael Kass, Andrew Witkin, Demetri Terzopoulos, Serpientes: modelos de contorno activos, Int.J. Visión por computadora, 1988 vol 1-4 pp.321-331

[6] AN Gorban, A. Zinovyev, Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos , International Journal of Neural Systems , vol. 20, núm. 3 (2010) 219–232.

[7] AN Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones , LNCSE 58, Springer: Berlín - Heidelberg - Nueva York, 2007. ISBN 978-3-540- 73749-0

[8] M. Chacón, M. Lévano, H. Allende, H. Nowak, Detección de expresiones genéticas en microarrays mediante la aplicación de una red neuronal elástica iterativamente , En: B. Beliczynski et al. (Eds.), Lecture Notes in Computer Sciences, vol. 4432, Springer: Berlín - Heidelberg 2007, 355–363.

[9] A. Zinovyev, Visualización de datos en ciencias políticas y sociales , en: SAGE "Enciclopedia internacional de ciencia política" , Badie, B., Berg-Schlosser, D., Morlino, LA (Eds.), 2011.

[10] H. Failmezger, B. Jaegle, A. Schrader, M. Hülskamp, A. Tresch., Reconstrucción de hojas 3D semiautomatizada y análisis de patrones de tricomas a partir de imágenes de microscopio óptico , PLoS Computational Biology, 2013, 9 (4): e1003029 .

[11] M. Resta, Optimización de la cartera a través de mapas elásticos: algunas pruebas de la bolsa de valores italiana , Sistemas de ingeniería e información inteligentes basados en el conocimiento, B. Apolloni, RJ Howlett y L. Jain (eds.), Lecture Notes in Computer Science, vol. . 4693, Springer: Berlín - Heidelberg, 2010, 635-641.

[12] H. Shaban, S. Tavoularis, Identificación del régimen de flujo en el flujo vertical ascendente de la tubería de aire-agua mediante señales de presión diferencial y mapas elásticos , International Journal of Multiphase Flow 61 (2014) 62-72.

[13] H. Shaban, S. Tavoularis, Medición de tasas de flujo de gas y líquido en flujos de tubería de dos fases mediante la aplicación de técnicas de aprendizaje automático a señales de presión diferencial , International Journal of Multiphase Flow 67 (2014), 106-117

[14] M. Resta, Paradigmas de inteligencia computacional en la toma de decisiones económicas y financieras , Serie Biblioteca de referencia de sistemas inteligentes, Volumen 99, Springer International Publishing, Suiza 2016.

[1]