perceptrón multicapa

Un perceptrón multicapa ( MLP ) es una clase de red neuronal artificial (ANN) feedforward . El término MLP se usa de manera ambigua, a veces vagamente para referirse a cualquier ANN de retroalimentación, a veces estrictamente para referirse a redes compuestas de múltiples capas de perceptrones (con activación de umbral); ver § Terminología . Los perceptrones multicapa a veces se denominan coloquialmente redes neuronales "vainilla", especialmente cuando tienen una sola capa oculta. ^[1]

Un MLP consta de al menos tres capas de nodos: una capa de entrada , una capa oculta y una capa de salida . A excepción de los nodos de entrada, cada nodo es una neurona que utiliza una función de activación no lineal . MLP utiliza una técnica de aprendizaje supervisado llamada retropropagación para el entrenamiento. ^[2]^[3] Sus múltiples capas y activación no lineal distinguen a MLP de un perceptrón lineal . Puede distinguir datos que no son linealmente separables . ^[4]

Si un perceptrón multicapa tiene una función de activación lineal en todas las neuronas, es decir, una función lineal que asigna las entradas ponderadas a la salida de cada neurona, entonces el álgebra lineal muestra que cualquier número de capas se puede reducir a una entrada de dos capas. modelo de salida En las MLP, algunas neuronas utilizan una función de activación no lineal que se desarrolló para modelar la frecuencia de los potenciales de acción , o activación, de las neuronas biológicas.

En desarrollos recientes de aprendizaje profundo, la unidad lineal rectificadora (ReLU) se usa con más frecuencia como una de las formas posibles de superar los problemas numéricos relacionados con los sigmoides.

La primera es una tangente hiperbólica que va de -1 a 1, mientras que la otra es la función logística , que tiene una forma similar pero va de 0 a 1. Aquí está la salida del nodo th (neurona) y es la suma ponderada de las conexiones de entrada. Se han propuesto funciones de activación alternativas, incluidas las funciones de rectificador y softplus . Las funciones de activación más especializadas incluyen funciones de base radial (utilizadas en redes de base radial , otra clase de modelos de redes neuronales supervisadas). $y_{yo}$ ${\ estilo de visualización i}$ $v_{yo}$

El MLP consta de tres o más capas (una entrada y una capa de salida con una o más capas ocultas ) de nodos de activación no lineal. Dado que los MLP están completamente conectados, cada nodo de una capa se conecta con un cierto peso a cada nodo de la siguiente capa. ${\ estilo de visualización w_ {ij}}$