Historia de las redes neuronales artificiales


La historia de las redes neuronales artificiales ( ANN) comenzó con Warren McCulloch y Walter Pitts [1] (1943) quienes crearon un modelo computacional para redes neuronales basado en algoritmos denominados lógica de umbral . Este modelo allanó el camino para que la investigación se dividiera en dos enfoques. Un enfoque se centró en los procesos biológicos, mientras que el otro se centró en la aplicación de redes neuronales a la inteligencia artificial . Este trabajo condujo al trabajo sobre redes nerviosas y su vínculo con autómatas finitos . [2]

A fines de la década de 1940, DO Hebb [3] creó una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que se conoció como aprendizaje hebbiano . El aprendizaje hebbiano es un aprendizaje no supervisado . Esto se convirtió en modelos para la potenciación a largo plazo . Los investigadores comenzaron a aplicar estas ideas a los modelos computacionales en 1948 con las máquinas de tipo B de Turing . Farley y Clark [4] (1954) utilizaron por primera vez máquinas computacionales, luego llamadas "calculadoras", para simular una red hebbiana. Otras máquinas computacionales de redes neuronales fueron creadas por Rochester , Holland, Habit y Duda (1956). [5] Rosenblatt[6] (1958) creó el perceptrón , un algoritmo para el reconocimiento de patrones. Con notación matemática, Rosenblatt describió los circuitos que no estaban en el perceptrón básico, como el circuito exclusivo o que no podía ser procesado por las redes neuronales en ese momento. [7] En 1959, un modelo biológico propuesto por los premios Nobel Hubel y Wiesel se basó en su descubrimiento de dos tipos de células en la corteza visual primaria : células simples y células complejas . [8] Las primeras redes funcionales con muchas capas fueron publicadas por Ivakhnenko y Lapa en 1965, como laGrupo Método de Manejo de Datos . [9] [10] [11]

La investigación se estancó después de la investigación sobre aprendizaje automático realizada por Minsky y Papert (1969), [12] quienes descubrieron dos problemas clave con las máquinas computacionales que procesaban las redes neuronales. La primera era que los perceptrones básicos eran incapaces de procesar el circuito exclusivo-o. El segundo fue que las computadoras no tenían suficiente poder de procesamiento para manejar de manera efectiva el trabajo requerido por las grandes redes neuronales. La investigación de redes neuronales se desaceleró hasta que las computadoras lograron un poder de procesamiento mucho mayor. Gran parte de la inteligencia artificial se había centrado en modelos de alto nivel (simbólicos) procesados ​​con algoritmos explícitos , caracterizados, por ejemplo, por sistemas expertos.con el conocimiento incorporado en las reglas si-entonces , hasta que a fines de la década de 1980 la investigación se expandió al aprendizaje automático de bajo nivel (subsimbólico) , caracterizado por el conocimiento incorporado en los parámetros de un modelo cognitivo . [ cita requerida ]

Un disparador clave para el renovado interés en las redes neuronales y el aprendizaje fue el algoritmo de retropropagación de Werbos (1975) que permitió la formación práctica de redes multicapa. Backpropagation distribuyó el término de error hacia arriba a través de las capas, modificando los pesos en cada nodo. [7]

A mediados de la década de 1980, el procesamiento distribuido en paralelo se hizo popular bajo el nombre de conexionismo . Rumelhart y McClelland (1986) describieron el uso del conexionismo para simular procesos neuronales. [13]

Las máquinas de vectores de soporte y los métodos más simples, como los clasificadores lineales, superaron gradualmente a las redes neuronales. Sin embargo, las redes neuronales transformaron dominios como la predicción de estructuras de proteínas. [14] [15]