Neurona artificial

Una neurona artificial es una función matemática concebida como un modelo de neuronas biológicas , una red neuronal . Las neuronas artificiales son unidades elementales de una red neuronal artificial . ^[1] La neurona artificial recibe una o más entradas (que representan los potenciales postsinápticos excitadores y los potenciales postsinápticos inhibidores en las dendritas neurales ) y las suma para producir una salida (oactivación , que representa el potencial de acción de una neuronaque se transmite a lo largo de su axón ). Por lo general, cada entrada se pondera por separadoy la suma se pasa a través de una función no lineal conocida como función de activación o función de transferencia ^{[ aclaración necesaria ]} . Las funciones de transferencia suelen tener una forma sigmoidea , pero también pueden adoptar la forma de otras funciones no lineales, funciones lineales por partes o funciones escalonadas . También suelen ser monótonamente crecientes , continuos ,diferenciable y acotado . La función de umbral ha inspirado puertas lógicas de construcción denominadas lógica de umbral; aplicable a la construcción de circuitos lógicos que se asemejan al procesamiento cerebral. Por ejemplo, en los últimos tiempos se han utilizado ampliamente nuevos dispositivos como los memristores para desarrollar dicha lógica. ^[2]

La función de transferencia de neuronas artificiales no debe confundirse con la función de transferencia de un sistema lineal .

Estructura basica

Para una neurona artificial dada k, supongamos que hay m + 1 entradas con señales x ₀ a x _my pesos w _k₀ a w _k_m . Por lo general, a la entrada x ₀ se le asigna el valor +1, lo que la convierte en una entrada de polarización con w _{k 0} = b _k . Esto deja solo m entradas reales a la neurona: desde x ₁ hasta x _m .

La salida de la k- ésima neurona es:

{\ Displaystyle y_ {k} = \ varphi \ left (\ sum _ {j = 0} ^ {m} w_ {kj} x_ {j} \ right)}

Donde (phi) es la función de transferencia (comúnmente una función de umbral). ${\ Displaystyle \ varphi}$

La salida es análoga al axón de una neurona biológica y su valor se propaga a la entrada de la siguiente capa, a través de una sinapsis. También puede salir del sistema, posiblemente como parte de un vector de salida .

No tiene un proceso de aprendizaje como tal. Se calculan los pesos de su función de transferencia y se predeterminan los valores de umbral.

Tipos

Dependiendo del modelo específico utilizado puede ser llamado un unidad semi-lineal , neurona Nv , neurona binaria , función de umbral lineal , o McCulloch-Pitts ( MCP ) neurona .

Las neuronas artificiales simples, como el modelo de McCulloch-Pitts, a veces se describen como "modelos de caricatura", ya que están destinadas a reflejar una o más observaciones neurofisiológicas, pero sin tener en cuenta el realismo. ^[3]

Esta sección necesita expansión . Puedes ayudar agregando más . ( Mayo de 2017 )

Modelos biologicos

Neurona y axón mielinizado, con flujo de señal desde las entradas en las dendritas hasta las salidas en los terminales del axón

Las neuronas artificiales están diseñadas para imitar aspectos de sus contrapartes biológicas.

Dendritas : en una neurona biológica, las dendritas actúan como vector de entrada. Estas dendritas permiten que la célula reciba señales de un gran número (> 1000) de neuronas vecinas. Como en el tratamiento matemático anterior, cada dendrita puede realizar una "multiplicación" por el "valor de peso" de esa dendrita. La multiplicación se logra aumentando o disminuyendo la relación entre los neurotransmisores sinápticos y las sustancias químicas de señal introducidas en la dendrita en respuesta al neurotransmisor sináptico. Se puede lograr un efecto de multiplicación negativo transmitiendo inhibidores de señal (es decir, iones con carga opuesta) a lo largo de la dendrita en respuesta a la recepción de neurotransmisores sinápticos.
Soma : en una neurona biológica, el soma actúa como la función de suma, como se ve en la descripción matemática anterior. A medida que las señales positivas y negativas (excitantes e inhibidoras, respectivamente) llegan al soma desde las dendritas, los iones positivos y negativos se agregan efectivamente en la suma, simplemente en virtud de estar mezclados en la solución dentro del cuerpo de la célula.
Axón : el axón obtiene su señal del comportamiento de suma que ocurre dentro del soma. La apertura del axón muestra esencialmente el potencial eléctrico de la solución dentro del soma. Una vez que el soma alcanza un cierto potencial, el axón transmitirá un pulso de señal todo incluido a lo largo de su longitud. En este sentido, el axón se comporta como la capacidad que tenemos de conectar nuestra neurona artificial con otras neuronas artificiales.

Sin embargo, a diferencia de la mayoría de las neuronas artificiales, las neuronas biológicas se activan en pulsos discretos. Cada vez que el potencial eléctrico dentro del soma alcanza un cierto umbral, se transmite un pulso por el axón. Este pulso se puede traducir en valores continuos. La velocidad (activaciones por segundo, etc.) a la que se dispara un axón se convierte directamente en la velocidad a la que las células vecinas obtienen los iones de señal que se introducen en ellas. Cuanto más rápido se dispara una neurona biológica, más rápido las neuronas cercanas acumulan potencial eléctrico (o pierden potencial eléctrico, dependiendo de la "ponderación" de la dendrita que se conecta a la neurona que se disparó). Es esta conversión la que permite a los informáticos y matemáticos simular redes neuronales biológicas utilizando neuronas artificiales que pueden generar valores distintos (a menudo de -1 a 1).

Codificación

La investigación ha demostrado que la codificación unaria se utiliza en los circuitos neuronales responsables de la producción del canto de los pájaros . ^[4]^[5] El uso de unario en redes biológicas se debe presumiblemente a la simplicidad inherente de la codificación. Otro factor contribuyente podría ser que la codificación unaria proporcione un cierto grado de corrección de errores. ^[6]

Historia

La primera neurona artificial fue la Unidad de Lógica de Umbral (TLU), o Unidad de Umbral Lineal, ^[7] propuesta por primera vez por Warren McCulloch y Walter Pitts en 1943. El modelo se apuntó específicamente como un modelo computacional de la "red nerviosa" en el cerebro. . ^[8] Como función de transferencia, empleó un umbral, equivalente a usar la función escalón Heaviside . Inicialmente, se consideró solo un modelo simple, con entradas y salidas binarias, algunas restricciones sobre los posibles pesos y un valor umbral más flexible. Desde el principio ya se notó que cualquier función booleanapodría implementarse mediante redes de tales dispositivos, lo que se ve fácilmente por el hecho de que se pueden implementar las funciones AND y OR, y usarlas en la forma disyuntiva o conjuntiva normal . Los investigadores también pronto se dieron cuenta de que las redes cíclicas, con retroalimentación a través de neuronas, podrían definir sistemas dinámicos con memoria, pero la mayor parte de la investigación se concentró (y todavía lo hace) en redes estrictamente de retroalimentación debido a la menor dificultad que presentan.

Una red neuronal artificial importante y pionera que utilizó la función de umbral lineal fue el perceptrón , desarrollado por Frank Rosenblatt . Este modelo ya consideraba valores de peso más flexibles en las neuronas y se utilizó en máquinas con capacidades adaptativas. La representación de los valores umbral como un término de sesgo fue introducida por Bernard Widrow en 1960 - ver ADALINE .

A finales de la década de 1980, cuando la investigación sobre redes neuronales recuperó fuerza, se empezaron a considerar las neuronas con formas más continuas. La posibilidad de diferenciar la función de activación permite el uso directo del descenso de gradiente y otros algoritmos de optimización para el ajuste de los pesos. Las redes neuronales también comenzaron a utilizarse como modelo de aproximación de funciones generales . El algoritmo de entrenamiento más conocido llamado retropropagación ha sido redescubierto varias veces, pero su primer desarrollo se remonta al trabajo de Paul Werbos . ^[9]^[10]

Tipos de funciones de transferencia

La función de transferencia (función de activación ) de una neurona se elige para que tenga una serie de propiedades que mejoran o simplifican la red que contiene la neurona. Fundamentalmente, por ejemplo, cualquier perceptrón multicapa que utilice una función de transferencia lineal tiene una red equivalente de una sola capa; por lo tanto, es necesaria una función no lineal para obtener las ventajas de una red multicapa. ^{[ cita requerida ]}

A continuación, u se refiere en todos los casos a la suma ponderada de todas las entradas a la neurona, es decir, para n entradas,

{\ Displaystyle u = \ sum _ {i = 1} ^ {n} w_ {i} x_ {i}}

donde w es un vector de pesos sinápticos y x es un vector de entradas.

Función de paso

La salida y de esta función de transferencia es binaria, dependiendo de si la entrada alcanza un umbral especificado, θ . Se envía la "señal", es decir, la salida se establece en uno, si la activación alcanza el umbral.

{\ displaystyle y = {\ begin {cases} 1 & {\ text {if}} u \ geq \ theta \\ 0 & {\ text {if}} u <\ theta \ end {cases}}}

Esta función se utiliza en perceptrones y, a menudo, aparece en muchos otros modelos. Realiza una división del espacio de entradas por un hiperplano . Es especialmente útil en la última capa de una red destinada a realizar una clasificación binaria de las entradas. Puede aproximarse a partir de otras funciones sigmoidales asignando valores grandes a los pesos.

Combinación lineal

En este caso, la unidad de salida es simplemente la suma ponderada de sus entradas más un término de sesgo . Varias de estas neuronas lineales realizan una transformación lineal del vector de entrada. Esto suele ser más útil en las primeras capas de una red. Existen varias herramientas de análisis basadas en modelos lineales, como el análisis armónico , y todas pueden usarse en redes neuronales con esta neurona lineal. El término de sesgo nos permite realizar transformaciones afines a los datos.

Ver: transformación lineal , análisis armónico , filtro lineal , Wavelet , análisis de componentes principales , Análisis de Componentes Independientes , deconvolución .

Sigmoideo

Una función no lineal bastante simple, la función sigmoidea , como la función logística, también tiene una derivada fácilmente calculada, que puede ser importante al calcular las actualizaciones de peso en la red. Por lo tanto, hace que la red sea más fácilmente manipulable matemáticamente y fue atractiva para los primeros científicos informáticos que necesitaban minimizar la carga computacional de sus simulaciones. Anteriormente se veía comúnmente en perceptrones multicapa . Sin embargo, un trabajo reciente ha demostrado que las neuronas sigmoides son menos efectivas que las neuronas lineales rectificadas . La razón es que los gradientes calculados por la retropropagación El algoritmo tiende a disminuir hacia cero a medida que las activaciones se propagan a través de capas de neuronas sigmoidales, lo que dificulta la optimización de las redes neuronales utilizando múltiples capas de neuronas sigmoidales.

Rectificador

En el contexto de las redes neuronales artificiales , el rectificador es una función de activación definida como la parte positiva de su argumento:

{\ Displaystyle f (x) = x ^ {+} = \ max (0, x),}

donde x es la entrada a una neurona. Esto también se conoce como función de rampa y es análoga a la rectificación de media onda en la ingeniería eléctrica. Esta función de activación fue introducida por primera vez en una red dinámica por Hahnloser et al. en un artículo de 2000 en Nature ^[11] con fuertes motivaciones biológicas y justificaciones matemáticas. ^[12] Se demostró por primera vez en 2011 que permite un mejor entrenamiento de redes más profundas, ^{[13] en} comparación con las funciones de activación ampliamente utilizadas antes de 2011, es decir, el sigmoide logístico (que se inspira en la teoría de la probabilidad ; verregresión logística ) y su contraparte más práctica ^[14] , la tangente hiperbólica .

Algoritmo de pseudocódigo

Se ha sugerido que esta sección se divida en otro artículo titulado Unidad lógica de umbral . ( Discutir ) (mayo de 2017)

La siguiente es una implementación de pseudocódigo simple de una sola TLU que toma entradas booleanas (verdadero o falso) y devuelve una única salida booleana cuando se activa. Se utiliza un modelo orientado a objetos . No se define ningún método de entrenamiento, ya que existen varios. Si se usara un modelo puramente funcional, la clase TLU a continuación se reemplazaría con una función TLU con umbral de parámetros de entrada, pesos y entradas que devolvieran un valor booleano.

clase TLU definida como: umbral de miembros de datos : número pesos de miembros de datos : lista de números de tamaño X miembro de función fuego (entradas : lista de valores booleanos de tamaño X) : booleano definido como:  variable T : número T ← 0 para cada i en 1 a X do  si las entradas (i) son verdaderas entonces T ← T + pesos (i) end if  end para cada  si T> umbral luego  devuelve verdadero else:  devuelve falso end if  end function end class

Ver también

Neurona de unión
Conexionismo

Referencias

^ "Circuitos neuromórficos con modulación neuronal que mejoran el contenido de información de la señalización neuronal | Conferencia internacional sobre sistemas neuromórficos 2020". doi : 10.1145 / 3407197.3407204 . S2CID 220794387 . Cite journal requiere |journal=( ayuda )
^ Maan, AK; Jayadevi, DA; James, AP (1 de enero de 2016). "Un estudio de circuitos lógicos de umbral Memristive". Transacciones IEEE en redes neuronales y sistemas de aprendizaje . PP (99): 1734-1746. arXiv : 1604.07121 . Código bibliográfico : 2016arXiv160407121M . doi : 10.1109 / TNNLS.2016.2547842 . ISSN 2162-237X . PMID 27164608 . S2CID 1798273 .
^ FC Hoppensteadt y EM Izhikevich (1997). Redes neuronales débilmente conectadas . Saltador. pag. 4. ISBN 978-0-387-94948-2.
^ Squire, L .; Albright, T .; Bloom, F .; Gage, F .; Spitzer, N., eds. (Octubre de 2007). Modelos de redes neuronales de producción, aprendizaje y codificación del canto de los pájaros (PDF) . Nueva enciclopedia de neurociencia: Elservier. Archivado desde el original (PDF) el 12 de abril de 2015 . Consultado el 12 de abril de 2015 .
^ Moore, JM; et al. (2011). "La convergencia de la vía del motor predice el tamaño del repertorio de sílabas en aves oscine" . Proc. Natl. Acad. Sci. USA . 108 (39): 16440–16445. Código bibliográfico : 2011PNAS..10816440M . doi : 10.1073 / pnas.1102077108 . PMC 3182746 . PMID 21918109 .
^ Potluri, Pushpa Sree (26 de noviembre de 2014). "Capacidad de corrección de errores de la codificación unaria". arXiv : 1411.7406 [ cs.IT ].
^ Martin Anthony (enero de 2001). Matemáticas discretas de redes neuronales: temas seleccionados . SIAM. págs. 3–. ISBN 978-0-89871-480-7.
^ Charu C. Aggarwal (25 de julio de 2014). Clasificación de datos: algoritmos y aplicaciones . Prensa CRC. págs. 209–. ISBN 978-1-4665-8674-1.
^ Paul Werbos , Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento. Tesis de doctorado, Universidad de Harvard, 1974
^ Werbos, PJ (1990). "Retropropagación en el tiempo: qué hace y cómo hacerlo" . Actas del IEEE . 78 (10): 1550-1560. doi : 10.1109 / 5.58337 . ISSN 0018-9219 .
^ Hahnloser, Richard HR; Sarpeshkar, Rahul; Mahowald, Misha A .; Douglas, Rodney J .; Seung, H. Sebastian (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Naturaleza . 405 (6789): 947–951. Código Bibliográfico : 2000Natur.405..947H . doi : 10.1038 / 35016072 . ISSN 0028-0836 . PMID 10879535 . S2CID 4399014 .
^ R Hahnloser, HS Seung (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétricas . NIPS 2001.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Xavier Glorot, Antoine Bordes y Yoshua Bengio (2011). Redes neuronales de rectificador disperso profundo (PDF) . AISTATS. Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Yann LeCun , Leon Bottou , Genevieve B. Orr y Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Saltador. Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

Otras lecturas

McCulloch, Warren S .; Pitts, Walter (1943). "Un cálculo lógico de las ideas inmanentes en la actividad nerviosa". Boletín de Biofísica Matemática . 5 (4): 115-133. doi : 10.1007 / bf02478259 .
Samardak, A .; Nogaret, A .; Janson, NB; Balanov, AG; Farrer, I .; Ritchie, DA (5 de junio de 2009). "Transmisión de señales controladas por ruido en una neurona semiconductora multiproceso" . Cartas de revisión física . 102 (22): 226802. Código Bibliográfico : 2009PhRvL.102v6802S . doi : 10.1103 / physrevlett.102.226802 . PMID 19658886 .

enlaces externos

La neurona artificial [ sic ] imita la función de las células humanas
Neuronas McCulloch-Pitts (descripción general)

[1] "Circuitos neuromórficos con modulación neuronal que mejoran el contenido de información de la señalización neuronal | Conferencia internacional sobre sistemas neuromórficos 2020". doi : 10.1145 / 3407197.3407204 . S2CID 220794387 . Cite journal requiere |journal=( ayuda )

[2] Maan, AK; Jayadevi, DA; James, AP (1 de enero de 2016). "Un estudio de circuitos lógicos de umbral Memristive". Transacciones IEEE en redes neuronales y sistemas de aprendizaje . PP (99): 1734-1746. arXiv : 1604.07121 . Código bibliográfico : 2016arXiv160407121M . doi : 10.1109 / TNNLS.2016.2547842 . ISSN 2162-237X . PMID 27164608 . S2CID 1798273 .

[3] FC Hoppensteadt y EM Izhikevich (1997). Redes neuronales débilmente conectadas . Saltador. pag. 4. ISBN 978-0-387-94948-2.

[4] Squire, L .; Albright, T .; Bloom, F .; Gage, F .; Spitzer, N., eds. (Octubre de 2007). Modelos de redes neuronales de producción, aprendizaje y codificación del canto de los pájaros (PDF) . Nueva enciclopedia de neurociencia: Elservier. Archivado desde el original (PDF) el 12 de abril de 2015 . Consultado el 12 de abril de 2015 .

[5] Moore, JM; et al. (2011). "La convergencia de la vía del motor predice el tamaño del repertorio de sílabas en aves oscine" . Proc. Natl. Acad. Sci. USA . 108 (39): 16440–16445. Código bibliográfico : 2011PNAS..10816440M . doi : 10.1073 / pnas.1102077108 . PMC 3182746 . PMID 21918109 .

[6] Potluri, Pushpa Sree (26 de noviembre de 2014). "Capacidad de corrección de errores de la codificación unaria". arXiv : 1411.7406 [ cs.IT ].

[Anthony2001-7] Martin Anthony (enero de 2001). Matemáticas discretas de redes neuronales: temas seleccionados . SIAM. págs. 3–. ISBN 978-0-89871-480-7.

[Aggarwal2014-8] Charu C. Aggarwal (25 de julio de 2014). Clasificación de datos: algoritmos y aplicaciones . Prensa CRC. págs. 209–. ISBN 978-1-4665-8674-1.

[9] Paul Werbos , Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento. Tesis de doctorado, Universidad de Harvard, 1974

[10] Werbos, PJ (1990). "Retropropagación en el tiempo: qué hace y cómo hacerlo" . Actas del IEEE . 78 (10): 1550-1560. doi : 10.1109 / 5.58337 . ISSN 0018-9219 .

[Hahnloser2000-11] Hahnloser, Richard HR; Sarpeshkar, Rahul; Mahowald, Misha A .; Douglas, Rodney J .; Seung, H. Sebastian (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Naturaleza . 405 (6789): 947–951. Código Bibliográfico : 2000Natur.405..947H . doi : 10.1038 / 35016072 . ISSN 0028-0836 . PMID 10879535 . S2CID 4399014 .

[Hahnloser2001-12] R Hahnloser, HS Seung (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétricas . NIPS 2001.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[glorot2011-13] Xavier Glorot, Antoine Bordes y Yoshua Bengio (2011). Redes neuronales de rectificador disperso profundo (PDF) . AISTATS. Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[14] Yann LeCun , Leon Bottou , Genevieve B. Orr y Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Saltador. Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[1]