El aprendizaje no supervisado ( UL ) es un tipo de algoritmo que aprende patrones a partir de datos sin etiquetar. La esperanza es que, a través del mimetismo, la máquina se vea obligada a construir una representación interna compacta de su mundo y luego generar contenido imaginativo. En contraste con el aprendizaje supervisado (SL) donde los datos son etiquetados por un humano, por ejemplo, como "coche" o "pez", etc., UL exhibe una autoorganización que captura patrones como predilecciones neuronales o densidades de probabilidad. [1] Los otros niveles en el espectro de supervisión son el aprendizaje por refuerzo, en el que a la máquina se le da solo una puntuación de rendimiento numérica como guía, y el aprendizaje semi-supervisado.donde se etiqueta una porción más pequeña de los datos. Dos métodos generales en UL son las redes neuronales y los métodos probabilísticos.
Métodos probabilísticos
Dos de los métodos principales que se utilizan en el aprendizaje no supervisado son el análisis de conglomerados y de componentes principales . El análisis de conglomerados se utiliza en el aprendizaje no supervisado para agrupar o segmentar conjuntos de datos con atributos compartidos para extrapolar relaciones algorítmicas. [2] El análisis de conglomerados es una rama del aprendizaje automático que agrupa los datos que no se han etiquetado , clasificado o categorizado. En lugar de responder a la retroalimentación, el análisis de conglomerados identifica puntos en común en los datos y reacciona en función de la presencia o ausencia de dichos puntos en común en cada nuevo dato. Este enfoque ayuda a detectar puntos de datos anómalos que no encajan en ninguno de los grupos.
Una aplicación central del aprendizaje no supervisado se encuentra en el campo de la estimación de densidad en estadística , [3] aunque el aprendizaje no supervisado abarca muchos otros dominios que involucran resumir y explicar características de datos. Se podría contrastar con el aprendizaje supervisado diciendo que mientras que el aprendizaje supervisado intenta inferir una distribución de probabilidad condicional condicionado en la etiqueta de datos de entrada; El aprendizaje no supervisado intenta inferir una distribución de probabilidad a priori..
Enfoques
Algunos de los algoritmos más comunes utilizados en el aprendizaje no supervisado incluyen: (1) Agrupación, (2) Detección de anomalías, (3) Redes neuronales y (4) Enfoques para aprender modelos de variables latentes. Cada enfoque utiliza varios métodos de la siguiente manera:
- Los métodos de agrupamiento incluyen: agrupamiento jerárquico , [4] k-medias , [5] modelos de mezcla , DBSCAN y algoritmo OPTICS
- Los métodos de detección de anomalías incluyen: factor atípico local y bosque de aislamiento
- Enfoques para el aprendizaje de modelos de variables latentes tales como algoritmo de expectativa de maximización (EM), método de los momentos , y Blind separación de señales técnicas ( análisis de componentes principales , Análisis de Componentes Independientes , factorización no negativo matriz , descomposición de valor singular )
Método de momentos
Uno de los enfoques estadísticos para el aprendizaje no supervisado es el método de los momentos . En el método de los momentos, los parámetros desconocidos (de interés) en el modelo están relacionados con los momentos de una o más variables aleatorias y, por tanto, estos parámetros desconocidos pueden estimarse dados los momentos. Los momentos se suelen estimar empíricamente a partir de muestras. Los momentos básicos son momentos de primer y segundo orden. Para un vector aleatorio, el momento de primer orden es el vector medio y el momento de segundo orden es la matriz de covarianza (cuando la media es cero). Los momentos de orden superior generalmente se representan utilizando tensores que son la generalización de matrices a órdenes superiores como matrices multidimensionales.
En particular, se muestra que el método de los momentos es efectivo para aprender los parámetros de los modelos de variables latentes . [6] Los modelos de variables latentes son modelos estadísticos donde además de las variables observadas, también existe un conjunto de variables latentes que no se observan. Un ejemplo muy práctico de modelos de variables latentes en el aprendizaje automático es el modelado de temas, que es un modelo estadístico para generar las palabras (variables observadas) en el documento en función del tema (variable latente) del documento. En el modelado de temas, las palabras del documento se generan de acuerdo con diferentes parámetros estadísticos cuando se cambia el tema del documento. Se muestra que el método de momentos (técnicas de descomposición de tensores) recupera consistentemente los parámetros de una gran clase de modelos de variables latentes bajo algunos supuestos. [6]
El algoritmo de maximización de expectativas (EM) es también uno de los métodos más prácticos para aprender modelos de variables latentes. Sin embargo, puede atascarse en los óptimos locales y no se garantiza que el algoritmo converja con los verdaderos parámetros desconocidos del modelo. Por el contrario, para el método de momentos, la convergencia global está garantizada bajo algunas condiciones. [6]
Redes neuronales
Lo esencial
Primero, algo de vocabulario:
activación | = valor de estado de la neurona. Para las neuronas binarias, esto suele ser 0/1 o +1 / -1. |
LEVA | = contenido de memoria direccionable . Recuperación de una memoria mediante un patrón parcial en lugar de una dirección de memoria. |
convergencia | = la estabilización de un patrón de activación en una red. En SL, convergencia significa estabilización de pesos y sesgos en lugar de activaciones. |
tarea discriminativa | = relativo a las tareas de reconocimiento. También se llama análisis (en teoría de patrones ) o inferencia. |
energía | = una cantidad macroscópica que describe el patrón de activación en una red. (vea abajo) |
generalización | = comportarse con precisión en entradas no encontradas previamente |
tarea generativa | = Máquina imaginada y tarea de recordar. a veces llamado síntesis (en la teoría de patrones), mimetismo o falsificaciones profundas . En los humanos, esto se llamaría imaginación y creatividad. |
inferencia | = la fase de "correr" (en contraposición al entrenamiento). Durante la inferencia, la red realiza la tarea para la que está entrenada, ya sea reconociendo un patrón (SL) o creando uno (UL). Por lo general, la inferencia desciende por el gradiente de una función energética. En contraste con SL, el descenso de gradiente ocurre durante el entrenamiento, NO por inferencia. |
visión de máquina | = aprendizaje automático en imágenes. |
PNL | = Procesamiento del lenguaje natural . Aprendizaje automático de lenguajes humanos. |
patrón | = activaciones de red que tienen un orden interno en algún sentido, o que pueden describirse de manera más compacta por características en las activaciones. Por ejemplo, el patrón de píxeles de un cero, ya sea proporcionado como datos o imaginado por la red, tiene una característica que se puede describir como un solo bucle. Las características están codificadas en las neuronas ocultas. |
capacitación | = la fase de aprendizaje. Aquí, la red ajusta sus pesos y sesgos para aprender de las entradas. |
Tareas
Los métodos UL generalmente preparan una red para tareas generativas en lugar de reconocimiento, pero agrupar las tareas como supervisadas o no puede ser confuso. Por ejemplo, el reconocimiento de escritura a mano comenzó en la década de 1980 como SL. Luego, en 2007, UL se utiliza para cebar la red para SL posteriormente. Actualmente, SL ha recuperado su posición como mejor método.
Entrenamiento
Durante la fase de aprendizaje, una red no supervisada intenta imitar los datos que se le dan y usa el error en su salida imitada para corregirse a sí misma (por ejemplo, sus ponderaciones y sesgos). Esto se asemeja al comportamiento de mímica de los niños cuando aprenden un idioma. A veces, el error se expresa como una baja probabilidad de que se produzca una salida errónea, o puede expresarse como un estado inestable de alta energía en la red.
Energía
Una función de energía es una medida macroscópica del estado de una red. Esta analogía con la física se inspira en el análisis de Ludwig Boltzmann de la energía macroscópica de un gas a partir de las probabilidades microscópicas del movimiento de partículas pe E / kT , donde k es la constante de Boltzmann y T es la temperatura. En la red RBM, la relación es p = e −E / Z, [7] donde p & E varían sobre cada patrón de activación posible y Z =e -E (patrón) . Para ser más precisos, p (a) = e -E (a) / Z, donde a es un patrón de activación de todas las neuronas (visibles y ocultas). Por lo tanto, las primeras redes neuronales llevan el nombre de Máquina de Boltzmann. Paul Smolensky llama -E the Harmony. Una red busca poca energía que sea alta armonía.
Redes
Hopfield | Boltzmann | RBM | Helmholtz | Autoencoder | VAE |
---|---|---|---|---|---|
Boltzmann y Helmholtz llegaron antes que las formulaciones de redes neuronales, pero estas redes tomaron prestado de sus análisis, por lo que estas redes llevan sus nombres. Hopfield, sin embargo, contribuyó directamente a UL.
Intermedio
Aquí, las distribuciones p (x) y q (x) se abreviarán como p y q.
Historia
1969 | Perceptrons de Minsky & Papert muestra que un perceptrón sin capas ocultas falla en XOR |
1970 | (fechas aproximadas) AI invierno I |
1974 | Modelo magnético de Ising propuesto por WA Little para la cognición |
1980 | Fukushima introduce el neocognitrón, que más tarde se denomina red neuronal convolucional. Se utiliza principalmente en SL, pero merece una mención aquí. |
mil novecientos ochenta y dos | Red de Hopfield variante de Ising descrita como CAM y clasificadores por John Hopfield. |
1983 | Ising máquina de Boltzmann variante con neuronas probabilísticas descrita por Hinton & Sejnowski siguiendo el trabajo de 1975 de Sherington & Kirkpatrick. |
1986 | Paul Smolensky publica Harmony Theory, que es un RBM con prácticamente la misma función energética de Boltzmann. Smolensky no proporcionó un plan de formación práctica. Hinton lo hizo a mediados de la década de 2000 |
1995 | Schmidthuber presenta la neurona LSTM para idiomas. |
1995 | Dayan & Hinton presenta la máquina Helmholtz |
1995-2005 | (fechas aproximadas) AI invierno II |
2013 | Kingma, Rezende y compañía. introdujo los codificadores automáticos variacionales como una red de probabilidad gráfica bayesiana, con redes neuronales como componentes. |
Más vocabulario:
Probabilidad | |
CDF | = función de distribución acumulativa. la integral del pdf. La probabilidad de acercarse a 3 es el área bajo la curva entre 2.9 y 3.1. |
divergencia contrastiva | = un método de aprendizaje en el que se reduce la energía en los patrones de entrenamiento y se aumenta la energía en los patrones no deseados fuera del conjunto de entrenamiento. Esto es muy diferente de la divergencia KL, pero comparte una redacción similar. |
valor esperado | = E (x) = x * p (x). Este es el valor medio o valor medio. Para la entrada continua x, reemplace la suma con una integral. |
variable latente | = una cantidad no observada que ayuda a explicar los datos observados. por ejemplo, una infección de gripe (no observada) puede explicar por qué una persona estornuda (observada). En las redes neuronales probabilísticas, las neuronas ocultas actúan como variables latentes, aunque su interpretación latente no se conoce explícitamente. |
= función de densidad de probabilidad. La probabilidad de que una variable aleatoria adquiera un cierto valor. Para pdf continuo, p (3) = 1/2 todavía puede significar que hay una probabilidad cercana a cero de lograr este valor exacto de 3. Racionalizamos esto con el CDF. | |
estocástico | = se comporta de acuerdo con una fórmula de densidad de probabilidad bien descrita. |
Termodinámica | |
Distribución de Boltzmann | = Distribución de Gibbs. page E / kT |
entropía | = información esperada = p * log p |
Energía libre de Gibbs | = potencial termodinámico. Es el trabajo máximo reversible que puede realizar un sistema de calor a temperatura y presión constantes. energía libre G = calor - temperatura * entropía |
información | = la cantidad de información de un mensaje x = -log p (x) |
KLD | = entropía relativa. Para redes probabilísticas, este es el análogo del error entre la entrada y la salida imitada. La divergencia de Kullback-Liebler (KLD) mide la desviación de entropía de 1 distribución de otra distribución. KLD (p, q) =p * log (p / q). Por lo general, p refleja los datos de entrada, q refleja la interpretación que hace la red de ellos y KLD refleja la diferencia entre los dos. |
Comparación de redes
Hopfield | Boltzmann | RBM | Helmholtz | Autoencoder | VAE | |
---|---|---|---|---|---|---|
uso y notables | CAM, problema del viajante | LEVA. La libertad de conexiones hace que esta red sea difícil de analizar. | reconocimiento de patrones (MNIST, reconocimiento de voz) | imaginación, mimetismo | idioma: escritura creativa, traducción. Visión: mejora de imágenes borrosas | generar datos realistas |
neurona | estado binario determinista. Activación = {0 (o -1) si x es negativo, 1 en caso contrario} | neurona estocástica binaria de Hopfield | binario estocástico. Ampliado a valor real a mediados de la década de 2000 | binario, sigmoide | idioma: LSTM. visión: campos receptivos locales. Activación de relu por lo general de valor real. | |
conexiones | 1 capa con pesos simétricos. Sin auto-conexiones. | 2 capas. 1 oculto y 1 visible. pesos simétricos. | 2 capas. pesos simétricos. sin conexiones laterales dentro de una capa. | 3 capas: pesos asimétricos. 2 redes combinadas en 1. | 3 capas. La entrada se considera una capa aunque no tenga pesos de entrada. capas recurrentes para PNL. convoluciones feedforward para la visión. entrada y salida tienen los mismos recuentos de neuronas. | 3 capas: entrada, codificador, decodificador de muestreador de distribución. el muestreador no se considera una capa (e) |
inferencia y energía | la energía viene dada por la medida de probabilidad de Gibbs: | ← igual | ← igual | minimizar la divergencia KL | la inferencia es solo una retroalimentación. Las redes UL anteriores corrían hacia adelante y hacia atrás. | minimizar error = error de reconstrucción - KLD |
capacitación | Δw ij = s i * s j , para + 1 / -1 neurona | Δw ij = e * (p ij - p ' ij ). Esto se deriva de minimizar KLD. e = tasa de aprendizaje, p '= predicha yp = distribución real. | divergencia contrastiva con muestreo de Gibbs | Entrenamiento de vigilia-sueño | propagar hacia atrás el error de reconstrucción | reparametrizar el estado oculto para backprop |
fuerza | se asemeja a los sistemas físicos, por lo que hereda sus ecuaciones | <--- igual. Las neuronas ocultas actúan como representación interna del mundo externo. | esquema de entrenamiento más rápido y práctico que las máquinas Boltzmann | levemente anatómico. Analizable con teoría de la información y mecánica estadística | ||
debilidad | hopfield | difícil de entrenar debido a las conexiones laterales | RBM | Helmholtz |
Redes específicas A
continuación, destacamos algunas características de cada red. El ferromagnetismo inspiró las redes Hopfield, las máquinas Boltzmann y las RBM. Una neurona corresponde a un dominio de hierro con momentos magnéticos binarios Arriba y Abajo, y las conexiones neuronales corresponden a la influencia del dominio entre sí. Las conexiones simétricas permiten una formulación energética global. Durante la inferencia, la red actualiza cada estado utilizando la función de paso de activación estándar. Los pesos simétricos garantizan la convergencia a un patrón de activación estable.
Las redes Hopfield se utilizan como CAM y se garantiza que se adapten a algún patrón. Sin pesos simétricos, la red es muy difícil de analizar. Con la función de energía adecuada, una red convergerá.
Las máquinas de Boltzmann son redes estocásticas de Hopfield. Su valor de estado se extrae de este pdf de la siguiente manera: suponga que una neurona binaria se dispara con la probabilidad de Bernoulli p (1) = 1/3 y descansa con p (0) = 2/3. Uno toma una muestra tomando un número aleatorio y distribuido UNIFORMEMENTE y lo conecta a la función de distribución acumulativa invertida, que en este caso es la función escalonada con umbral de 2/3. La función inversa = {0 si x <= 2/3, 1 si x> 2/3} Las máquinas
Helmholtz son las primeras inspiraciones para los codificadores automáticos variacionales. Son 2 redes combinadas en una: las ponderaciones hacia adelante operan el reconocimiento y las ponderaciones hacia atrás implementan la imaginación. Quizás sea la primera red en hacer ambas cosas. Helmholtz no trabajó en el aprendizaje automático, pero inspiró la visión del "motor de inferencia estadística cuya función es inferir las causas probables de la entrada sensorial" (3). la neurona binaria estocástica genera una probabilidad de que su estado sea 0 o 1. La entrada de datos normalmente no se considera una capa, pero en el modo de generación de la máquina Helmholtz, la capa de datos recibe la entrada de la capa intermedia tiene pesos separados para este propósito, por lo que se considera una capa. Por lo tanto, esta red tiene 3 capas.
El Autoencoder Variacional (VAE) está inspirado en las máquinas Helmholtz y combina la red de probabilidad con las redes neuronales. Un Autoencoder es una red CAM de 3 capas, donde se supone que la capa intermedia es una representación interna de patrones de entrada. Los pesos se denominan phi & theta en lugar de W y V como en Helmholtz, una diferencia cosmética. La red neuronal del codificador es una distribución de probabilidad q φ (z | x) y la red del decodificador es p θ (x | z). Estas 2 redes aquí pueden estar completamente conectadas o usar otro esquema NN.
Aprendizaje Hebbian, ART, SOM
El ejemplo clásico de aprendizaje no supervisado en el estudio de las redes neuronales es el principio de Donald Hebb , es decir, las neuronas que se activan juntas se conectan entre sí. [8] En el aprendizaje hebbiano , la conexión se refuerza independientemente de un error, pero es exclusivamente una función de la coincidencia entre los potenciales de acción entre las dos neuronas. [9] Una versión similar que modifica los pesos sinápticos tiene en cuenta el tiempo entre los potenciales de acción ( plasticidad dependiente del tiempo de picos o STDP). Se ha planteado la hipótesis de que el aprendizaje de Hebbian subyace a una variedad de funciones cognitivas, como el reconocimiento de patrones y el aprendizaje experimental.
Entre los modelos de redes neuronales , el mapa autoorganizado (SOM) y la teoría de resonancia adaptativa (ART) se utilizan comúnmente en algoritmos de aprendizaje no supervisados. El SOM es una organización topográfica en la que las ubicaciones cercanas en el mapa representan entradas con propiedades similares. El modelo ART permite que el número de conglomerados varíe con el tamaño del problema y permite al usuario controlar el grado de similitud entre los miembros de los mismos conglomerados mediante una constante definida por el usuario denominada parámetro de vigilancia. Las redes ART se utilizan para muchas tareas de reconocimiento de patrones, como el reconocimiento automático de objetivos y el procesamiento de señales sísmicas. [10]
Ver también
- Aprendizaje automático automatizado
- Análisis de conglomerados
- Detección de anomalías
- Algoritmo de maximización de expectativas
- Mapa topográfico generativo
- Metaaprendizaje (informática)
- Analisis multivariable
- Red de función de base radial
- Supervisión débil
Referencias
- ^ Hinton, Geoffrey; Sejnowski, Terrence (1999). Aprendizaje no supervisado: fundamentos de la computación neuronal . Prensa del MIT. ISBN 978-0262581684.
- ^ Roman, Victor (21 de abril de 2019). "Aprendizaje automático no supervisado: análisis de agrupación" . Medio . Consultado el 1 de octubre de 2019 .
- ^ Jordan, Michael I .; Obispo, Christopher M. (2004). "Redes neuronales". En Allen B. Tucker (ed.). Manual de Ciencias de la Computación, Segunda Edición (Sección VII: Sistemas Inteligentes) . Boca Raton, Florida: Chapman & Hall / CRC Press LLC. ISBN 1-58488-360-X.
- ^ Hastie, Trevor, Robert Tibshirani, Friedman, Jerome (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción . Nueva York: Springer. págs. 485–586. ISBN 978-0-387-84857-0.CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Garbade, Dr. Michael J. (12 de septiembre de 2018). "Comprender la agrupación en clústeres de K-medias en el aprendizaje automático" . Medio . Consultado el 31 de octubre de 2019 .
- ^ a b c Anandkumar, Animashree; Ge, Rong; Hsu, Daniel; Kakade, Sham; Telgarsky, Matus (2014). "Descomposiciones de tensor para el aprendizaje de modelos de variables latentes" (PDF) . Revista de investigación sobre aprendizaje automático . 15 : 2773-2832. arXiv : 1210.7559 . Código bibliográfico : 2012arXiv1210.7559A .
- ^ Hinton, G (2 de agosto de 2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas".
- ^ Buhmann, J .; Kuhnel, H. (1992). "Agrupación de datos supervisada y no supervisada con redes neuronales competitivas". [Actas 1992] Conferencia conjunta internacional IJCNN sobre redes neuronales . 4 . IEEE. págs. 796–801. doi : 10.1109 / ijcnn.1992.227220 . ISBN 0780305590. S2CID 62651220 .
- ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (junio de 2016). "Una aplicación del aprendizaje hebbiano en la toma de decisiones del proceso de diseño" . Revista de fabricación inteligente . 27 (3): 487–506. doi : 10.1007 / s10845-014-0881-z . ISSN 0956-5515 . S2CID 207171436 .
- ^ Carpenter, GA y Grossberg, S. (1988). "El ARTE del reconocimiento de patrones adaptativos mediante una red neuronal autoorganizada" (PDF) . Computadora . 21 (3): 77–88. doi : 10.1109 / 2.33 . S2CID 14625094 .
Otras lecturas
- Bousquet, O .; von Luxburg, U .; Raetsch, G., eds. (2004). Conferencias avanzadas sobre aprendizaje automático . Springer-Verlag. ISBN 978-3540231226.
- Duda, Richard O .; Hart, Peter E .; Cigüeña, David G. (2001). "Agrupación y aprendizaje no supervisado". Clasificación de patrones (2ª ed.). Wiley. ISBN 0-471-05669-3.
- Hastie, Trevor; Tibshirani, Robert (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción . Nueva York: Springer. págs. 485–586. doi : 10.1007 / 978-0-387-84858-7_14 . ISBN 978-0-387-84857-0.
- Hinton, Geoffrey ; Sejnowski, Terrence J. , eds. (1999). Aprendizaje no supervisado: fundamentos de la computación neuronal . Prensa del MIT . ISBN 0-262-58168-X.(Este libro se centra en el aprendizaje no supervisado en redes neuronales )