De Wikipedia, la enciclopedia libre
  (Redirigido desde Reducción de dimensión )
Saltar a navegación Saltar a búsqueda

La reducción de dimensionalidad , o reducción de dimensión , es la transformación de datos de un espacio de alta dimensión a un espacio de baja dimensión de modo que la representación de baja dimensión conserva algunas propiedades significativas de los datos originales, idealmente cerca de su dimensión intrínseca . Trabajar en espacios de gran dimensión puede resultar indeseable por muchas razones; Los datos brutos suelen ser escasos como consecuencia de la maldición de la dimensionalidad , y el análisis de los datos suele ser difícil de resolver desde el punto de vista computacional . La reducción de la dimensionalidad es común en campos que tratan con un gran número de observaciones y / o un gran número de variables, como el procesamiento de señales , el reconocimiento de voz., neuroinformática y bioinformática . [1]

Los métodos se dividen comúnmente en enfoques lineales y no lineales. [1] Los enfoques también se pueden dividir en selección de características y extracción de características . [2] La reducción de dimensionalidad se puede utilizar para la reducción de ruido , visualización de datos , análisis de grupos o como un paso intermedio para facilitar otros análisis.

Selección de funciones [ editar ]

Los enfoques de selección de características intentan encontrar un subconjunto de las variables de entrada (también llamadas características o atributos). Las tres estrategias son: la estrategia de filtro (por ejemplo , ganancia de información ), la estrategia de envoltura (por ejemplo, búsqueda guiada por precisión) y la estrategia incorporada (las características seleccionadas se agregan o se eliminan mientras se construye el modelo basado en errores de predicción).

El análisis de datos , como la regresión o la clasificación, se puede realizar en el espacio reducido con mayor precisión que en el espacio original. [3]

Proyección de funciones [ editar ]

La proyección de características (también llamada extracción de características) transforma los datos del espacio de alta dimensión a un espacio de menos dimensiones. La transformación de datos puede ser lineal, como en el análisis de componentes principales (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal . [4] [5] Para datos multidimensionales, la representación tensorial se puede utilizar en la reducción de dimensionalidad a través del aprendizaje subespacial multilineal . [6]

Análisis de componentes principales (PCA) [ editar ]

La principal técnica lineal para la reducción de dimensionalidad, el análisis de componentes principales, realiza un mapeo lineal de los datos a un espacio de menor dimensión de tal manera que se maximiza la varianza de los datos en la representación de baja dimensión. En la práctica, se construye la matriz de covarianza (y a veces la correlación ) de los datos y los vectores propiosen esta matriz se calculan. Los autovectores que corresponden a los autovalores más grandes (los componentes principales) ahora se pueden usar para reconstruir una gran fracción de la varianza de los datos originales. Además, los primeros vectores propios a menudo se pueden interpretar en términos del comportamiento físico a gran escala del sistema, porque a menudo contribuyen con la gran mayoría de la energía del sistema, especialmente en sistemas de baja dimensión. Aún así, esto debe probarse caso por caso, ya que no todos los sistemas exhiben este comportamiento. El espacio original (con la dimensión del número de puntos) se ha reducido (con pérdida de datos, pero con suerte conservando la varianza más importante) al espacio abarcado por unos pocos autovectores. [ cita requerida ]

Factorización matricial no negativa (NMF) [ editar ]

NMF descompone una matriz no negativa en el producto de dos no negativas, lo que ha sido una herramienta prometedora en campos donde solo existen señales no negativas, [7] [8] como la astronomía. [9] [10] NMF es bien conocido desde la regla de actualización multiplicativa de Lee & Seung, [7] que se ha desarrollado continuamente: la inclusión de incertidumbres, [9] la consideración de datos faltantes y cálculo paralelo, [11] secuencial construcción [11] que conduce a la estabilidad y linealidad de NMF, [10] así como otras actualizaciones que incluyen el manejo de datos faltantes en el procesamiento de imágenes digitales .[12]

Con una base de componentes estable durante la construcción y un proceso de modelado lineal, el NMF secuencial [11] es capaz de preservar el flujo en imágenes directas de estructuras circunestelares en astromonía, [10] como uno de los métodos de detección de exoplanetas , especialmente para el directo imagen de discos circunestelares . En comparación con PCA, NMF no elimina la media de las matrices que conduce a flujos no negativos no físicos, por lo tanto, NMF es capaz de preservar más información que PCA como lo demostraron Ren et al. [10]

Kernel PCA [ editar ]

El análisis de componentes principales se puede emplear de forma no lineal mediante el truco del núcleo . La técnica resultante es capaz de construir mapeos no lineales que maximizan la varianza en los datos. La técnica resultante se titula kernel PCA .

Kernel PCA basado en gráficos [ editar ]

Otras técnicas no lineales destacadas incluyen múltiples técnicas de aprendizaje como Isomap , incrustación local lineal (LLE), [13] Hessian LLE, mapas propios de Laplacia y métodos basados ​​en el análisis del espacio tangente. [14] [15] Estas técnicas construyen una representación de datos de baja dimensión utilizando una función de costo que retiene las propiedades locales de los datos, y puede verse como la definición de un kernel basado en gráficos para Kernel PCA.

Más recientemente, se han propuesto técnicas que, en lugar de definir un kernel fijo, intentan aprender el kernel utilizando programación semidefinida . El ejemplo más destacado de esta técnica es el despliegue de varianza máxima (MVU). La idea central de MVU es preservar exactamente todas las distancias por pares entre los vecinos más cercanos (en el espacio interior del producto), mientras maximiza las distancias entre los puntos que no son los vecinos más cercanos.

Un enfoque alternativo para la preservación del vecindario es mediante la minimización de una función de costo que mide las diferencias entre las distancias en los espacios de entrada y salida. Ejemplos importantes de tales técnicas incluyen: escalamiento multidimensional clásico , que es idéntico al PCA; Isomap , que utiliza distancias geodésicas en el espacio de datos; mapas de difusión , que utilizan distancias de difusión en el espacio de datos; incrustación de vecinos estocásticos distribuidos en t (t-SNE), que minimiza la divergencia entre distribuciones sobre pares de puntos; y análisis de componentes curvilíneos.

Un enfoque diferente para la reducción de dimensionalidad no lineal es mediante el uso de codificadores automáticos , un tipo especial de redes neuronales de avance con una capa oculta de cuello de botella. [16] El entrenamiento de codificadores profundos se realiza típicamente usando un preentrenamiento codicioso por capas (por ejemplo, usando una pila de máquinas de Boltzmann restringidas ) que es seguido por una etapa de ajuste fino basada en retropropagación .

Análisis discriminante lineal (LDA) [ editar ]

El análisis discriminante lineal (LDA) es una generalización del discriminante lineal de Fisher, un método utilizado en estadística, reconocimiento de patrones y aprendizaje automático para encontrar una combinación lineal de características que caracterizan o separan dos o más clases de objetos o eventos.

Análisis discriminante generalizado (GDA) [ editar ]

GDA se ocupa del análisis discriminante no lineal utilizando el operador de función del núcleo. La teoría subyacente está cerca de las máquinas de vectores de soporte (SVM) en la medida en que el método GDA proporciona un mapeo de los vectores de entrada en el espacio de características de alta dimensión. [17] [18] Similar a LDA, el objetivo de GDA es encontrar una proyección para las características en un espacio dimensional más bajo maximizando la relación entre la dispersión entre clases y la dispersión dentro de la clase.

Autoencoder [ editar ]

Los codificadores automáticos se pueden utilizar para aprender codificaciones y funciones de reducción de dimensión no lineal junto con una función inversa desde la codificación hasta la representación original.

t-SNE [ editar ]

La incrustación de vecinos estocásticos distribuidos en T (t-SNE) es una técnica de reducción de dimensionalidad no lineal útil para la visualización de conjuntos de datos de alta dimensión. No se recomienda su uso en análisis como agrupamiento o detección de valores atípicos, ya que no necesariamente preserva bien las densidades o distancias. [19]

UMAP [ editar ]

La aproximación y proyección de colector uniforme (UMAP) es una técnica de reducción de dimensionalidad no lineal. Visualmente, es similar a t-SNE, pero asume que los datos se distribuyen uniformemente en una variedad Riemanniana localmente conectada y que la métrica Riemanniana es localmente constante o aproximadamente localmente constante.

Reducción de dimensión [ editar ]

Para conjuntos de datos de alta dimensión (es decir, con un número de dimensiones superior a 10), la reducción de dimensiones se realiza generalmente antes de aplicar un algoritmo de K vecinos más cercanos (k-NN) para evitar los efectos de la maldición de la dimensionalidad . [20]

La extracción de características y la reducción de dimensiones se pueden combinar en un solo paso utilizando técnicas de análisis de componentes principales (PCA), análisis discriminante lineal (LDA), análisis de correlación canónica (CCA) o factorización de matriz no negativa (NMF) como paso previo al procesamiento. agrupando por K-NN en vectores de características en un espacio de dimensión reducida. En el aprendizaje automático, este proceso también se denomina incrustación de baja dimensión . [21]

Para conjuntos de datos de muy alta dimensión (p. Ej., Cuando se realiza una búsqueda de similitud en transmisiones de video en vivo, datos de ADN o series de tiempo de alta dimensión ) ejecutando una búsqueda K-NN aproximada rápida usando hash sensible a la localidad , proyección aleatoria , [22] "bocetos" [ 23] u otras técnicas de búsqueda de similitudes de alta dimensión de la caja de herramientas VLDB podrían ser la única opción factible.

Aplicaciones [ editar ]

Una técnica de reducción de dimensionalidad que a veces se utiliza en neurociencia es la dimensión máximamente informativa , [ cita requerida ] que encuentra una representación de menor dimensión de un conjunto de datos de modo que se conserva la mayor cantidad de información posible sobre los datos originales.

Ver también [ editar ]

  • Búsqueda de vecino más cercano
  • MinHash
  • Ganancia de información en árboles de decisión
  • Incrustación semidefinida
  • Reducción de dimensionalidad multifactorial
  • Aprendizaje subespacial multilineal
  • PCA multilineal
  • Proyección aleatoria
  • Valor singular de descomposición
  • Análisis semántico latente
  • Mapeo semántico
  • Tensorsketch
  • Análisis de datos topológicos
  • Hash sensible a la localidad
  • Reducción de dimensión suficiente
  • Transformación de datos (estadísticas)
  • Análisis de red de correlación ponderada
  • Optimización de hiperparámetros
  • Aproximación de la matriz CUR
  • Modelo de sobre
  • Reducción de dimensionalidad no lineal
  • Mapeo de Sammon
  • Lema de Johnson-Lindenstrauss
  • Alineación del espacio tangente local

Notas [ editar ]

  1. ^ a b van der Maaten, Laurens; Postma, Eric; van den Herik, Jaap (26 de octubre de 2009). "Reducción de dimensionalidad: una revisión comparativa" (PDF) . J Mach Learn Res . 10 : 66–71.
  2. ^ Pudil, P .; Novovičová, J. (1998). "Métodos novedosos para la selección de subconjuntos de características con respecto al conocimiento del problema". En Liu, Huan; Motoda, Hiroshi (eds.). Extracción, construcción y selección de características . pag. 101. doi : 10.1007 / 978-1-4615-5725-8_7 . ISBN 978-1-4613-7622-4.
  3. ^ Rico-Sulayes, Antonio (2017). "Reducir la dimensionalidad del espacio vectorial en la clasificación automática para la atribución de autoría" . Revista Ingeniería Electrónica, Automática y Comunicaciones . 38 (3): 26–35.
  4. ^ Samet, H. (2006) Fundamentos de estructuras de datos métricas y multidimensionales . Morgan Kaufmann. ISBN 0-12-369446-9 
  5. ^ C. Ding, X. He, H. Zha, HD Simon, Reducción de dimensión adaptativa para agrupar datos de alta dimensión , Actas de la Conferencia internacional sobre minería de datos, 2002
  6. ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Una encuesta de aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. doi : 10.1016 / j.patcog.2011.01.004 .
  7. ↑ a b Daniel D. Lee y H. Sebastian Seung (1999). "Aprendizaje de las partes de los objetos mediante factorización matricial no negativa". Naturaleza . 401 (6755): 788–791. Código Bib : 1999Natur.401..788L . doi : 10.1038 / 44565 . PMID 10548103 . 
  8. ^ Daniel D. Lee y H. Sebastian Seung (2001). Algoritmos para factorización matricial no negativa (PDF) . Avances en los sistemas de procesamiento de información neuronal 13: Actas de la Conferencia de 2000. MIT Press . págs. 556–562.
  9. ^ a b Blanton, Michael R .; Roweis, Sam (2007). "K-correcciones y transformaciones de filtros en ultravioleta, óptica e infrarrojo cercano". El diario astronómico . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Código bibliográfico : 2007AJ .... 133..734B . doi : 10.1086 / 510127 .
  10. ^ a b c d Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B .; Duchêne, Gaspard (2018). "Factorización de matrices no negativas: extracción robusta de estructuras extendidas". El diario astrofísico . 852 (2): 104. arXiv : 1712.10317 . Código Bib : 2018ApJ ... 852..104R . doi : 10.3847 / 1538-4357 / aaa1f2 .
  11. ↑ a b c Zhu, Guangtun B. (19 de diciembre de 2016). "Factorización de matrices no negativas (NMF) con incertidumbres heterocedásticas y datos faltantes". arXiv : 1612.06037 [ astro-ph.IM ].
  12. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H .; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Utilización de la imputación de datos para la separación de señales en imágenes de alto contraste". El diario astrofísico . 892 (2): 74. arXiv : 2001.00563 . Código bibliográfico : 2020ApJ ... 892 ... 74R . doi : 10.3847 / 1538-4357 / ab7024 .
  13. ^ Roweis, ST; Saul, LK (2000). "Reducción de dimensionalidad no lineal por incrustación localmente lineal". Ciencia . 290 (5500): 2323–2326. Código Bibliográfico : 2000Sci ... 290.2323R . CiteSeerX 10.1.1.111.3313 . doi : 10.1126 / science.290.5500.2323 . PMID 11125150 .  
  14. ^ Zhang, Zhenyue; Zha, Hongyuan (2004). "Colectores principales y reducción de dimensionalidad no lineal mediante alineación de espacio tangente". Revista SIAM de Computación Científica . 26 (1): 313–338. doi : 10.1137 / s1064827502419154 .
  15. ^ Bengio, Yoshua; Monperrus, Martin; Larochelle, Hugo (2006). "Estimación no local de la estructura del colector" . Computación neuronal . 18 (10): 2509-2528. CiteSeerX 10.1.1.116.4230 . doi : 10.1162 / neco.2006.18.10.2509 . PMID 16907635 .  
  16. ^ Hongbing Hu, Stephen A. Zahorian, (2010) "Métodos de reducción de dimensionalidad para el reconocimiento fonético HMM", ICASSP 2010, Dallas, TX
  17. ^ Baudat, G .; Anouar, F. (2000). "Análisis discriminante generalizado utilizando un enfoque de kernel". Computación neuronal . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . doi : 10.1162 / 089976600300014980 . PMID 11032039 .  
  18. ^ Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: identificación biométrica confiable basada en la nube y entre empresas". Sistemas expertos con aplicaciones . 42 (21): 7905–7916. doi : 10.1016 / j.eswa.2015.06.025 .
  19. ^ Schubert, Erich; Gertz, Michael (2017). Beecks, Christian; Borutta, Felix; Kröger, Peer; Seidl, Thomas (eds.). "Incrustación de vecino t-estocástico intrínseco para visualización y detección de valores atípicos" . Búsqueda de similitudes y aplicaciones . Apuntes de conferencias en Ciencias de la Computación. Cham: Springer International Publishing: 188–203. doi : 10.1007 / 978-3-319-68474-1_13 . ISBN 978-3-319-68474-1.
  20. ^ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "¿Cuándo es significativo" vecino más cercano "?" . Teoría de bases de datos — ICDT99 , 217–235
  21. ^ Shaw, B .; Jebara, T. (2009). "Estructura que conserva la incrustación" (PDF) . Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático - ICML '09 . pag. 1. CiteSeerX 10.1.1.161.451 . doi : 10.1145 / 1553374.1553494 . ISBN   9781605585161.
  22. ^ Bingham, E .; Mannila, H. (2001). "Proyección aleatoria en reducción de dimensionalidad". Actas de la séptima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '01 . pag. 245. doi : 10.1145 / 502512.502546 . ISBN 978-1581133912.
  23. ^ Shasha, D High (2004) Performance Discovery en Time Series Berlin: Springer. ISBN 0-387-00857-8 

Referencias [ editar ]

  • Boehmke, Brad; Greenwell, Brandon M. (2019). "Reducción de dimensiones" . El aprendizaje práctico de la máquina con R . Chapman y Hall. págs. 343–396. ISBN 978-1-138-49568-5.
  • Fodor, I. (2002). Estudio de técnicas de reducción de dimensiones (Informe técnico). Centro de Computación Científica Aplicada, Lawrence Livermore National. UCRL-ID-148494.
  • Cunningham, P. (2007). Reducción de dimensiones (informe técnico). University College de Dublín. UCD-CSI-2007-7.
  • Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (2016). "Estudio comparativo de métodos de selección de subconjuntos de características para la reducción de dimensionalidad en datos científicos". 2016 IEEE 6th International Conference on Advanced Computing (IACC) . págs. 31–34. doi : 10.1109 / IACC.2016.16 . ISBN 978-1-4673-8286-1.

Enlaces externos [ editar ]

  • Número especial de JMLR sobre selección de características y variables
  • MAPAS ELÁSTICOS
  • Incrustación localmente lineal
  • Comparación visual de varios métodos de reducción de dimensionalidad
  • Un marco geométrico global para la reducción de dimensionalidad no lineal