Las redes neuronales artificiales ( ANN ), generalmente llamadas simplemente redes neuronales ( NN ), son sistemas informáticos inspirados vagamente en las redes neuronales biológicas que constituyen los cerebros de los animales .
Una RNA se basa en una colección de unidades o nodos conectados llamados neuronas artificiales , que modelan libremente las neuronas en un cerebro biológico. Cada conexión, como las sinapsis en un cerebro biológico, puede transmitir una señal a otras neuronas. Una neurona artificial que recibe una señal luego la procesa y puede señalar a las neuronas conectadas a ella. La "señal" en una conexión es un número real , y la salida de cada neurona se calcula mediante alguna función no lineal de la suma de sus entradas. Las conexiones se llaman bordes . Las neuronas y los bordes suelen tener un pesoque se ajusta a medida que avanza el aprendizaje. El peso aumenta o disminuye la fuerza de la señal en una conexión. Las neuronas pueden tener un umbral tal que una señal se envía solo si la señal agregada cruza ese umbral. Normalmente, las neuronas se agregan en capas. Diferentes capas pueden realizar diferentes transformaciones en sus entradas. Las señales viajan desde la primera capa (la capa de entrada) hasta la última capa (la capa de salida), posiblemente después de atravesar las capas varias veces.
Capacitación
Las redes neuronales aprenden (o se entrenan) procesando ejemplos, cada uno de los cuales contiene una "entrada" y un "resultado" conocidos, formando asociaciones ponderadas por probabilidad entre los dos, que se almacenan dentro de la estructura de datos de la propia red. El entrenamiento de una red neuronal a partir de un ejemplo dado generalmente se realiza determinando la diferencia entre la salida procesada de la red (a menudo una predicción) y una salida objetivo. Este es el error. Luego, la red ajusta sus asociaciones ponderadas de acuerdo con una regla de aprendizaje y utilizando este valor de error. Los ajustes sucesivos harán que la red neuronal produzca una salida que sea cada vez más similar a la salida objetivo. Después de un número suficiente de estos ajustes, el entrenamiento puede terminarse en base a ciertos criterios. Esto se conoce como aprendizaje supervisado .
Dichos sistemas "aprenden" a realizar tareas al considerar ejemplos, generalmente sin estar programados con reglas específicas de tareas. Por ejemplo, en el reconocimiento de imágenes , pueden aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que se han etiquetado manualmente como "gato" o "sin gato" y utilizando los resultados para identificar gatos en otras imágenes. Hacen esto sin ningún conocimiento previo de los gatos, por ejemplo, que tienen pelaje, cola, bigotes y caras de gato. En cambio, generan automáticamente características de identificación a partir de los ejemplos que procesan.
Historia
Warren McCulloch y Walter Pitts [1] (1943) abrieron el tema creando un modelo computacional para redes neuronales. [2] A finales de la década de 1940, DO Hebb [3] creó una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que se conoció como aprendizaje hebbiano . Farley y Wesley A. Clark [4] (1954) utilizaron por primera vez máquinas computacionales, luego llamadas "calculadoras", para simular una red hebbiana. Rosenblatt [5] (1958) creó el perceptrón . [6] Las primeras redes funcionales con muchas capas fueron publicadas por Ivakhnenko y Lapa en 1965, como el método grupal de manejo de datos . [7] [8] [9] Los conceptos básicos de la retropropagación continua [7] [10] [11] [12] se derivaron en el contexto de la teoría del control por Kelley [13] en 1960 y por Bryson en 1961, [14] utilizando principios de programación dinámica . A partir de entonces, la investigación se estancó siguiendo a Minsky y Papert (1969), [15] quienes descubrieron que los perceptrones básicos eran incapaces de procesar el circuito o exclusivo y que las computadoras carecían de potencia suficiente para procesar redes neuronales útiles.
En 1970, Seppo Linnainmaa publicó el método general para la diferenciación automática (AD) de redes conectadas discretas de funciones diferenciables anidadas . [16] [17] En 1973, Dreyfus utilizó la retropropagación para adaptar los parámetros de los controladores en proporción a los gradientes de error. [18] El algoritmo de retropropagación de Werbos (1975) permitió el entrenamiento práctico de redes multicapa. En 1982, aplicó el método AD de Linnainmaa a las redes neuronales en la forma que se volvió ampliamente utilizada. [10] [19]
El desarrollo de la integración a gran escala (VLSI) de semiconductores de óxido de metal (MOS) , en forma de tecnología MOS complementaria (CMOS), permitió aumentar el número de transistores MOS en la electrónica digital . Esto proporcionó más potencia de procesamiento para el desarrollo de redes neuronales artificiales prácticas en la década de 1980. [20]
En 1986 , Rumelhart , Hinton y Williams demostraron que la propagación hacia atrás aprendió representaciones internas interesantes de palabras como vectores de características cuando se entrenó para predecir la siguiente palabra en una secuencia. [21]
En 1992, se introdujo la agrupación máxima para ayudar con la invariancia de desplazamiento mínimo y la tolerancia a la deformación para ayudar al reconocimiento de objetos en 3D . [22] [23] [24] Schmidhuber adoptó una jerarquía de redes de varios niveles (1992) preentrenados un nivel a la vez mediante aprendizaje no supervisado y ajustado por retropropagación . [25]
Geoffrey Hinton y col. (2006) propusieron aprender una representación de alto nivel utilizando capas sucesivas de variables latentes binarias o de valor real con una máquina de Boltzmann restringida [26] para modelar cada capa. En 2012, Ng y Dean crearon una red que aprendió a reconocer conceptos de nivel superior, como gatos, solo viendo imágenes sin etiquetas. [27] El entrenamiento previo sin supervisión y el aumento de la potencia informática de las GPU y la computación distribuida permitieron el uso de redes más grandes, particularmente en problemas de reconocimiento visual y de imagen, que se conocieron como " aprendizaje profundo ". [28]
Ciresan et al. (2010) [29] demostraron que, a pesar del problema del gradiente de desaparición, las GPU hacen factible la propagación hacia atrás para redes neuronales de retroalimentación de muchas capas. [30] Entre 2009 y 2012, las ANN comenzaron a ganar premios en concursos de ANN, acercándose al rendimiento a nivel humano en diversas tareas, inicialmente en reconocimiento de patrones y aprendizaje automático . [31] [32] Por ejemplo, la memoria bidireccional y multidimensional a largo y corto plazo (LSTM) [33] [34] [35] [36] de Graves et al. ganó tres concursos de reconocimiento de escritura a mano conectada en 2009 sin ningún conocimiento previo sobre los tres idiomas a aprender. [35] [34]
Ciresan y sus colegas construyeron los primeros reconocedores de patrones para lograr un desempeño humano-competitivo / sobrehumano [37] en puntos de referencia como el reconocimiento de señales de tráfico (IJCNN 2012).
Modelos
Las ANN comenzaron como un intento de explotar la arquitectura del cerebro humano para realizar tareas con las que los algoritmos convencionales tuvieron poco éxito. Pronto se reorientaron hacia la mejora de los resultados empíricos, abandonando en su mayoría los intentos de permanecer fieles a sus precursores biológicos. Las neuronas están conectadas entre sí en varios patrones, para permitir que la salida de algunas neuronas se convierta en la entrada de otras. La red forma una dirigida , grafo ponderado . [38]
Una red neuronal artificial consta de una colección de neuronas simuladas. Cada neurona es un nodo que está conectado a otros nodos a través de enlaces que corresponden a conexiones biológicas axón-sinapsis-dendrita. Cada enlace tiene un peso, que determina la fuerza de la influencia de un nodo sobre otro. [39]
Componentes de las ANN
Neuronas
Las RNA están compuestas por neuronas artificiales que se derivan conceptualmente de neuronas biológicas . Cada neurona artificial tiene entradas y produce una única salida que se puede enviar a muchas otras neuronas. Las entradas pueden ser los valores de características de una muestra de datos externos, como imágenes o documentos, o pueden ser las salidas de otras neuronas. Las salidas de las neuronas de salida final de la red neuronal realizan la tarea, como reconocer un objeto en una imagen.
Para encontrar la salida de la neurona, primero tomamos la suma ponderada de todas las entradas, ponderada por los pesos de las conexiones de las entradas a la neurona. Agregamos un término de sesgo a esta suma. Esta suma ponderada a veces se denomina activación . Esta suma ponderada luego se pasa a través de una función de activación (generalmente no lineal) para producir la salida. Las entradas iniciales son datos externos, como imágenes y documentos. Los resultados finales cumplen la tarea, como reconocer un objeto en una imagen. [40]
Conexiones y pesos
La red consta de conexiones, cada conexión proporciona la salida de una neurona como entrada a otra neurona. A cada conexión se le asigna un peso que representa su importancia relativa. [38] Una neurona determinada puede tener múltiples conexiones de entrada y salida. [41]
Función de propagación
La función de propagación calcula la entrada a una neurona a partir de las salidas de sus neuronas predecesoras y sus conexiones como una suma ponderada. [38] Se puede agregar un término de sesgo al resultado de la propagación. [42]
Organización
Las neuronas suelen estar organizadas en varias capas, especialmente en el aprendizaje profundo . Las neuronas de una capa se conectan solo a las neuronas de las capas inmediatamente anterior e inmediata. La capa que recibe datos externos es la capa de entrada . La capa que produce el resultado final es la capa de salida . Entre ellos hay cero o más capas ocultas . También se utilizan redes de una sola capa y sin capas. Entre dos capas, son posibles múltiples patrones de conexión. Pueden estar completamente conectados , con cada neurona en una capa conectándose a cada neurona en la siguiente capa. Pueden estar agrupados , donde un grupo de neuronas en una capa se conectan a una sola neurona en la siguiente capa, reduciendo así el número de neuronas en esa capa. [43] Las neuronas con sólo tales conexiones forman un gráfico acíclico dirigido y se conocen como redes de alimentación directa . [44] Alternativamente, las redes que permiten conexiones entre neuronas en la misma capa o en capas anteriores se conocen como redes recurrentes . [45]
Hiperparámetro
Un hiperparámetro es un parámetro constante cuyo valor se establece antes de que comience el proceso de aprendizaje. Los valores de los parámetros se obtienen mediante el aprendizaje. Los ejemplos de hiperparámetros incluyen la tasa de aprendizaje , la cantidad de capas ocultas y el tamaño del lote. [46] Los valores de algunos hiperparámetros pueden depender de los de otros hiperparámetros. Por ejemplo, el tamaño de algunas capas puede depender del número total de capas.
Aprendiendo
El aprendizaje es la adaptación de la red para manejar mejor una tarea considerando las observaciones de muestra. El aprendizaje implica ajustar los pesos (y los umbrales opcionales) de la red para mejorar la precisión del resultado. Esto se hace minimizando los errores observados. El aprendizaje es completo cuando el examen de observaciones adicionales no reduce de manera útil la tasa de error. Incluso después del aprendizaje, la tasa de error normalmente no llega a 0. Si después del aprendizaje, la tasa de error es demasiado alta, la red normalmente debe rediseñarse. Prácticamente esto se hace definiendo una función de costo que se evalúa periódicamente durante el aprendizaje. Mientras su producción continúe disminuyendo, el aprendizaje continúa. El costo se define frecuentemente como una estadística cuyo valor solo puede ser aproximado. Las salidas son en realidad números, por lo que cuando el error es bajo, la diferencia entre la salida (casi con certeza un gato) y la respuesta correcta (gato) es pequeña. El aprendizaje intenta reducir el total de las diferencias entre las observaciones. [38] La mayoría de los modelos de aprendizaje pueden verse como una aplicación sencilla de la teoría de la optimización y la estimación estadística .
Tasa de aprendizaje
La tasa de aprendizaje define el tamaño de los pasos correctivos que toma el modelo para ajustar los errores en cada observación. Una tasa de aprendizaje alta acorta el tiempo de entrenamiento, pero con menor precisión final, mientras que una tasa de aprendizaje más baja lleva más tiempo, pero con el potencial de una mayor precisión. Las optimizaciones como Quickprop están destinadas principalmente a acelerar la minimización de errores, mientras que otras mejoras intentan principalmente aumentar la confiabilidad. Para evitar oscilaciones dentro de la red, como pesos de conexión alternos, y para mejorar la tasa de convergencia, los refinamientos utilizan una tasa de aprendizaje adaptativa que aumenta o disminuye según corresponda. [47] El concepto de impulso permite ponderar el equilibrio entre la pendiente y el cambio anterior de modo que el ajuste del peso dependa en cierto grado del cambio anterior. Un impulso cercano a 0 enfatiza el gradiente, mientras que un valor cercano a 1 enfatiza el último cambio.
Función de costo
Si bien es posible definir una función de costo ad hoc , con frecuencia la elección está determinada por las propiedades deseables de la función (como la convexidad ) o porque surge del modelo (por ejemplo, en un modelo probabilístico, la probabilidad posterior del modelo se puede usar como una inversa costo).
Retropropagación
La retropropagación es un método que se utiliza para ajustar los pesos de conexión para compensar cada error encontrado durante el aprendizaje. La cantidad de error se divide efectivamente entre las conexiones. Técnicamente, backprop calcula el gradiente (la derivada) de la función de costo asociada con un estado dado con respecto a los pesos. Las actualizaciones de peso se pueden realizar a través del descenso de gradiente estocástico u otros métodos, como Extreme Learning Machines , [48] redes "sin apoyo", [49] entrenamiento sin retroceso, [50] redes "ingrávidas", [51] [52 ] y redes neuronales no conexionistas .
Paradigmas de aprendizaje
Los tres paradigmas principales de aprendizaje son el aprendizaje supervisado , el aprendizaje no supervisado y el aprendizaje reforzado . Cada uno corresponde a una tarea de aprendizaje particular.
Aprendizaje supervisado
El aprendizaje supervisado utiliza un conjunto de entradas y salidas deseadas emparejadas. La tarea de aprendizaje es producir el resultado deseado para cada entrada. En este caso, la función de costo está relacionada con la eliminación de deducciones incorrectas. [53] Un costo comúnmente utilizado es el error cuadrático medio , que intenta minimizar el error cuadrático medio entre la salida de la red y la salida deseada. Las tareas adecuadas para el aprendizaje supervisado son el reconocimiento de patrones (también conocido como clasificación) y la regresión (también conocido como aproximación de funciones). El aprendizaje supervisado también es aplicable a datos secuenciales (por ejemplo, para escritura a mano, reconocimiento de voz y gestos ). Esto se puede considerar como un aprendizaje con un "maestro", en forma de una función que proporciona una retroalimentación continua sobre la calidad de las soluciones obtenidas hasta el momento.
Aprendizaje sin supervisión
En el aprendizaje no supervisado , los datos de entrada se dan junto con la función de costo, alguna función de los datosy la salida de la red. La función de costo depende de la tarea (el dominio del modelo) y cualquier supuesto a priori (las propiedades implícitas del modelo, sus parámetros y las variables observadas). Como ejemplo trivial, considere el modelo dónde es una constante y el costo . Minimizar este costo produce un valor deque es igual a la media de los datos. La función de costo puede ser mucho más complicada. Su forma depende de la aplicación: por ejemplo, en compresión podría estar relacionado con la información mutua entre y , mientras que en el modelado estadístico, podría estar relacionado con la probabilidad posterior del modelo dados los datos (tenga en cuenta que en ambos ejemplos esas cantidades se maximizarían en lugar de minimizar). Las tareas que caen dentro del paradigma del aprendizaje no supervisado son, en general, problemas de estimación ; las aplicaciones incluyen agrupamiento , estimación de distribuciones estadísticas , compresión y filtrado .
Aprendizaje reforzado
En aplicaciones como los videojuegos, un actor realiza una serie de acciones y recibe una respuesta generalmente impredecible del entorno después de cada una. El objetivo es ganar el juego, es decir, generar las respuestas más positivas (de menor costo). En el aprendizaje por refuerzo , el objetivo es ponderar la red (diseñar una política) para realizar acciones que minimicen el costo a largo plazo (acumulado esperado). En cada momento el agente realiza una acción y el entorno genera una observación y un costo instantáneo, según unas reglas (generalmente desconocidas). Las reglas y el costo a largo plazo generalmente solo se pueden estimar. En cualquier momento, el agente decide si explorar nuevas acciones para descubrir sus costos o aprovechar el aprendizaje previo para proceder con mayor rapidez.
Formalmente, el entorno se modela como un proceso de decisión de Markov (MDP) con estados y acciones . Debido a que no se conocen las transiciones de estado, en su lugar se utilizan distribuciones de probabilidad: la distribución instantánea de costos, la distribución de la observación y la distribución de transición , mientras que una política se define como la distribución condicional sobre las acciones dadas las observaciones. En conjunto, los dos definen una cadena de Markov (MC). El objetivo es descubrir el MC más económico.
Las ANN sirven como componente de aprendizaje en tales aplicaciones. [54] [55] La programación dinámica junto con las RNA (que proporcionan programación neurodinámica) [56] se ha aplicado a problemas como los relacionados con el enrutamiento de vehículos , [57] videojuegos, gestión de recursos naturales [58] [59] y medicina [ 60] debido a la capacidad de las ANN para mitigar las pérdidas de precisión incluso cuando se reduce la densidad de la cuadrícula de discretización para aproximar numéricamente la solución de problemas de control. Las tareas que caen dentro del paradigma del aprendizaje por refuerzo son los problemas de control, los juegos y otras tareas secuenciales de toma de decisiones.
Auto aprendizaje
El autoaprendizaje en redes neuronales se introdujo en 1982 junto con una red neuronal capaz de autoaprendizaje denominada Crossbar Adaptive Array (CAA). [61] Es un sistema con una sola entrada, situación s, y solo una salida, acción (o comportamiento) a. No tiene aportes de asesoramiento externo ni aportes de refuerzo externo del entorno. El CAA calcula, de forma transversal, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre situaciones encontradas. El sistema está impulsado por la interacción entre la cognición y la emoción. [62] Dada la matriz de memoria W = || w (a, s) ||, el algoritmo de autoaprendizaje de barra transversal en cada iteración realiza el siguiente cálculo:
En situaciones, realice la acción a; Recibe la situación de consecuencia s '; Calcular la emoción de estar en situación de consecuencia v (s '); Actualice la memoria de barra transversal w '(a, s) = w (a, s) + v (s').
El valor retropropagado (refuerzo secundario) es la emoción hacia la situación de consecuencia. El CAA existe en dos ambientes, uno es el ambiente conductual donde se comporta, y el otro es el ambiente genético, donde a partir de él inicialmente y solo una vez recibe emociones iniciales a punto de encontrarse situaciones en el ambiente conductual. Habiendo recibido el vector del genoma (vector de especies) del entorno genético, el CAA aprenderá un comportamiento de búsqueda de objetivos, en el entorno de comportamiento que contiene situaciones deseables e indeseables. [63]
Otro
En un marco bayesiano , se elige una distribución sobre el conjunto de modelos permitidos para minimizar el costo. Los métodos evolutivos , [64] la programación de la expresión génica , [65] el recocido simulado , [66] la maximización de expectativas , los métodos no paramétricos y la optimización del enjambre de partículas [67] son otros algoritmos de aprendizaje. La recursividad convergente es un algoritmo de aprendizaje para las redes neuronales del controlador de articulación del modelo cerebeloso (CMAC). [68] [69]
Modos
Hay dos modos de aprendizaje disponibles: estocástico y por lotes. En el aprendizaje estocástico, cada entrada crea un ajuste de peso. En el aprendizaje por lotes, los pesos se ajustan en función de un lote de entradas, acumulando errores sobre el lote. El aprendizaje estocástico introduce "ruido" en el proceso, utilizando el gradiente local calculado a partir de un punto de datos; esto reduce la posibilidad de que la red se atasque en los mínimos locales. Sin embargo, el aprendizaje por lotes generalmente produce un descenso más rápido y estable hasta un mínimo local, ya que cada actualización se realiza en la dirección del error promedio del lote. Un compromiso común es utilizar "mini lotes", lotes pequeños con muestras en cada lote seleccionadas estocásticamente de todo el conjunto de datos.
Tipos
Las RNA se han convertido en una amplia familia de técnicas que han avanzado el estado del arte en múltiples dominios. Los tipos más simples tienen uno o más componentes estáticos, incluido el número de unidades, el número de capas, los pesos unitarios y la topología . Los tipos dinámicos permiten que uno o más de estos evolucionen a través del aprendizaje. Estos últimos son mucho más complicados, pero pueden acortar los períodos de aprendizaje y producir mejores resultados. Algunos tipos permiten / requieren que el operador "supervise" el aprendizaje, mientras que otros operan de forma independiente. Algunos tipos operan puramente en hardware, mientras que otros son puramente software y se ejecutan en computadoras de propósito general.
Algunos de los principales avances incluyen: redes neuronales convolucionales que han demostrado ser particularmente exitosas en el procesamiento de datos visuales y otros datos bidimensionales; [70] [71] la memoria a corto plazo evita el problema del gradiente de desaparición [72] y puede manejar señales que tienen una combinación de componentes de baja y alta frecuencia que ayudan al reconocimiento de voz de vocabulario extenso, [73] [74] texto a síntesis de voz, [75] [10] [76] y cabezas parlantes fotorrealistas; [77] Redes competitivas como las redes generativas de confrontación en las que múltiples redes (de estructura variable) compiten entre sí, en tareas como ganar un juego [78] o engañar al oponente sobre la autenticidad de una entrada. [79]
Diseño de red
La búsqueda de arquitectura neuronal (NAS) utiliza el aprendizaje automático para automatizar el diseño de ANN. Varios enfoques de NAS han diseñado redes que se comparan bien con los sistemas diseñados a mano. El algoritmo de búsqueda básico es proponer un modelo candidato, evaluarlo contra un conjunto de datos y utilizar los resultados como retroalimentación para enseñar a la red NAS. [80] Los sistemas disponibles incluyen AutoML y AutoKeras. [81]
Los problemas de diseño incluyen decidir el número, el tipo y la conectividad de las capas de red, así como el tamaño de cada una y el tipo de conexión (completa, agrupada, ...).
Los hiperparámetros también deben definirse como parte del diseño (no se aprenden), gobernando asuntos como cuántas neuronas hay en cada capa, tasa de aprendizaje, paso, zancada, profundidad, campo receptivo y relleno (para CNN), etc. [ 82]
Usar
El uso de redes neuronales artificiales requiere una comprensión de sus características.
- Elección del modelo: depende de la representación de los datos y la aplicación. Los modelos demasiado complejos ralentizan el aprendizaje.
- Algoritmo de aprendizaje: existen numerosas compensaciones entre los algoritmos de aprendizaje. Casi cualquier algoritmo funcionará bien con los hiperparámetros correctos para el entrenamiento en un conjunto de datos en particular. Sin embargo, seleccionar y ajustar un algoritmo para el entrenamiento con datos invisibles requiere una experimentación significativa.
- Robustez: si el modelo, la función de coste y el algoritmo de aprendizaje se seleccionan de forma adecuada, la RNA resultante puede volverse robusta.
Las capacidades de ANN se incluyen en las siguientes categorías generales: [ cita requerida ]
- Aproximación de funciones o análisis de regresión , incluida la predicción de series de tiempo , la aproximación de aptitud y el modelado.
- Clasificación , incluido el reconocimiento de patrones y secuencias, la detección de novedades y la toma de decisiones secuencial. [83]
- Procesamiento de datos , incluido el filtrado, la agrupación en clústeres, la separación ciega de fuentes y la compresión.
- Robótica , incluida la dirección de manipuladores y prótesis .
Aplicaciones
Debido a su capacidad para reproducir y modelar procesos no lineales, las redes neuronales artificiales han encontrado aplicaciones en muchas disciplinas. Las áreas de aplicación incluyen identificación y control de sistemas (control de vehículos, predicción de trayectoria, [84] control de procesos , gestión de recursos naturales ), química cuántica , [85] juego general , [86] reconocimiento de patrones (sistemas de radar, identificación de rostros , clasificación de señales, [87] Reconstrucción 3D , [88] reconocimiento de objetos y más), reconocimiento de secuencias (reconocimiento de gestos, voz, texto escrito a mano e impreso [89] ), diagnóstico médico , finanzas [90] (por ejemplo , sistemas de comercio automatizados ), extracción de datos , visualización , traducción automática , filtrado de redes sociales [91] y filtrado de correo no deseado . Las RNA se han utilizado para diagnosticar varios tipos de cánceres [92] [93] y para distinguir líneas celulares de cáncer altamente invasivas de líneas menos invasivas utilizando solo información sobre la forma celular. [94] [95]
Las ANN se han utilizado para acelerar el análisis de fiabilidad de las infraestructuras sujetas a desastres naturales [96] [97] y para predecir asentamientos de cimientos. [98] Las ANN también se han utilizado para construir modelos de caja negra en geociencias : hidrología , [99] [100] modelización oceánica e ingeniería costera , [101] [102] y geomorfología . [103] Las ANN se han empleado en ciberseguridad , con el objetivo de discriminar entre actividades legítimas y maliciosas. Por ejemplo, el aprendizaje automático se ha utilizado para clasificar el malware de Android, [104] para identificar dominios que pertenecen a los actores de amenazas y para detectar URL que presentan un riesgo de seguridad. [105] Se están realizando investigaciones sobre sistemas ANN diseñados para pruebas de penetración, para detectar botnets, [106] fraudes con tarjetas de crédito [107] e intrusiones en la red.
Las ANN se han propuesto como una herramienta para resolver ecuaciones diferenciales parciales en física [108] [109] [110] y simular las propiedades de sistemas cuánticos abiertos de muchos cuerpos . [111] [112] [113] [114] En la investigación del cerebro, las ANN han estudiado el comportamiento a corto plazo de neuronas individuales , [115] la dinámica de los circuitos neuronales surge de interacciones entre neuronas individuales y cómo el comportamiento puede surgir de módulos neuronales abstractos que representan subsistemas completos. Los estudios consideraron la plasticidad a corto y largo plazo de los sistemas neuronales y su relación con el aprendizaje y la memoria desde la neurona individual hasta el nivel del sistema.
Propiedades teóricas
Potencia de cálculo
El perceptrón multicapa es un aproximador de función universal , como lo demuestra el teorema de aproximación universal . Sin embargo, la prueba no es constructiva con respecto al número de neuronas necesarias, la topología de la red, los pesos y los parámetros de aprendizaje.
Una arquitectura recurrente específica con pesos racionales valorados (a diferencia de los pesos valorados en números reales de precisión total ) tiene el poder de una máquina de Turing universal , [116] utilizando un número finito de neuronas y conexiones lineales estándar. Además, el uso de valores irracionales para los pesos da como resultado una máquina con un poder super-Turing . [117]
Capacidad
La propiedad de "capacidad" de un modelo corresponde a su capacidad para modelar cualquier función dada. Está relacionado con la cantidad de información que se puede almacenar en la red y con la noción de complejidad. La comunidad conoce dos nociones de capacidad. La capacidad de información y la dimensión VC. La capacidad de información de un perceptrón se analiza intensamente en el libro de Sir David MacKay [118] que resume el trabajo de Thomas Cover. [119] La capacidad de una red de neuronas estándar (no convolucionales) puede derivarse de cuatro reglas [120] que se derivan de la comprensión de una neurona como un elemento eléctrico . La capacidad de información captura las funciones modelables por la red dado cualquier dato como entrada. La segunda noción es la dimensión VC . VC Dimension utiliza los principios de la teoría de la medida y encuentra la capacidad máxima en las mejores circunstancias posibles. Esto es, dados los datos de entrada en una forma específica. Como se indica en [118], la dimensión VC para entradas arbitrarias es la mitad de la capacidad de información de un perceptrón. La dimensión VC para puntos arbitrarios a veces se denomina capacidad de memoria. [121]
Convergencia
Es posible que los modelos no converjan consistentemente en una única solución, en primer lugar porque pueden existir mínimos locales, dependiendo de la función de costo y el modelo. En segundo lugar, es posible que el método de optimización utilizado no garantice la convergencia cuando comienza lejos de cualquier mínimo local. En tercer lugar, para datos o parámetros suficientemente grandes, algunos métodos se vuelven imprácticos.
El comportamiento de convergencia de ciertos tipos de arquitecturas ANN se comprende mejor que otras. Cuando el ancho de la red se acerca al infinito, la RNA está bien descrita por su expansión de Taylor de primer orden a lo largo del entrenamiento y, por lo tanto, hereda el comportamiento de convergencia de los modelos afines . [122] [123] Otro ejemplo es cuando los parámetros son pequeños, se observa que las RNA a menudo se ajustan a las funciones objetivo de frecuencias bajas a altas. [124] [125] [126] [127] Este fenómeno es opuesto al comportamiento de algunos esquemas numéricos iterativos bien estudiados, como el método de Jacobi .
Generalización y estadísticas
Las aplicaciones cuyo objetivo es crear un sistema que generalice bien a ejemplos invisibles, se enfrentan a la posibilidad de sobreentrenamiento. Esto surge en sistemas complicados o sobreespecificados cuando la capacidad de la red excede significativamente los parámetros libres necesarios. Dos enfoques abordan el sobreentrenamiento. La primera es utilizar validación cruzada y técnicas similares para verificar la presencia de sobreentrenamiento y seleccionar hiperparámetros para minimizar el error de generalización.
El segundo es utilizar alguna forma de regularización . Este concepto surge en un marco probabilístico (bayesiano), donde la regularización se puede realizar seleccionando una probabilidad previa mayor sobre modelos más simples; pero también en la teoría del aprendizaje estadístico, donde el objetivo es minimizar más de dos cantidades: el 'riesgo empírico' y el 'riesgo estructural', que corresponde aproximadamente al error sobre el conjunto de entrenamiento y el error predicho en los datos invisibles debido al sobreajuste.
Las redes neuronales supervisadas que usan una función de costo de error cuadrático medio (MSE) pueden usar métodos estadísticos formales para determinar la confianza del modelo entrenado. El MSE en un conjunto de validación se puede utilizar como una estimación de la varianza. Este valor se puede utilizar para calcular el intervalo de confianza de la salida de la red, asumiendo una distribución normal . Un análisis de confianza realizado de esta manera es estadísticamente válido siempre que la distribución de probabilidad de salida se mantenga igual y la red no se modifique.
Al asignar una función de activación softmax , una generalización de la función logística , en la capa de salida de la red neuronal (o un componente softmax en una red basada en componentes) para variables objetivo categóricas, las salidas se pueden interpretar como probabilidades posteriores. Esto es útil en la clasificación, ya que proporciona una medida de certeza sobre las clasificaciones.
La función de activación de softmax es:
Crítica
Capacitación
Una crítica común a las redes neuronales, particularmente en robótica, es que requieren demasiado entrenamiento para operar en el mundo real. [ cita requerida ] Las posibles soluciones incluyen la reproducción aleatoria de ejemplos de entrenamiento, mediante el uso de un algoritmo de optimización numérica que no toma pasos demasiado grandes al cambiar las conexiones de red siguiendo un ejemplo, agrupando ejemplos en los llamados mini lotes y / o introduciendo un mínimo recursivo algoritmo de cuadrados para CMAC . [68]
Teoría
Una objeción fundamental es que las RNA no reflejan suficientemente la función neuronal. La retropropagación es un paso crítico, aunque no existe tal mecanismo en las redes neuronales biológicas. [128] Se desconoce cómo codifican la información las neuronas reales. Las neuronas sensoriales disparan potenciales de acción con mayor frecuencia con la activación del sensor y las células musculares tiran con más fuerza cuando sus neuronas motoras asociadas reciben potenciales de acción con mayor frecuencia. [129] Aparte del caso de la transmisión de información de una neurona sensora a una neurona motora, no se conoce casi nada de los principios de cómo la información es manejada por las redes neuronales biológicas.
Un reclamo central de las ANN es que incorporan principios generales nuevos y poderosos para el procesamiento de información. Estos principios están mal definidos. A menudo se afirma que surgen de la propia red. Esto permite que la asociación estadística simple (la función básica de las redes neuronales artificiales) se describa como aprendizaje o reconocimiento. Alexander Dewdney comentó que, como resultado, las redes neuronales artificiales tienen una "cualidad de algo por nada, una que imparte un aura peculiar de pereza y una clara falta de curiosidad sobre lo buenos que son estos sistemas informáticos. Ninguna mano humana (o mente) interviene; las soluciones se encuentran como por arte de magia; y nadie, al parecer, ha aprendido nada ". [130] Una respuesta a Dewdney es que las redes neuronales manejan muchas tareas complejas y diversas, que van desde volar aviones de forma autónoma [131] hasta detectar fraudes con tarjetas de crédito y dominar el juego de Go .
El escritor de tecnología Roger Bridgman comentó:
Las redes neuronales, por ejemplo, están en el banquillo no solo porque han sido promocionadas hasta el cielo (¿qué no?), Sino también porque podrías crear una red exitosa sin entender cómo funcionaba: el montón de números que capturan su el comportamiento sería con toda probabilidad "una tabla opaca, ilegible ... sin valor como recurso científico".
A pesar de su enfática declaración de que la ciencia no es tecnología, Dewdney parece aquí criticar las redes neuronales como mala ciencia cuando la mayoría de los que las idean están tratando de ser buenos ingenieros. Vale la pena tener una tabla ilegible que pueda leer una máquina útil. [132]
Los cerebros biológicos utilizan circuitos tanto superficiales como profundos, según lo informado por la anatomía cerebral, [133] que muestra una amplia variedad de invariancia. Weng [134] argumentó que el cerebro se auto-conecta en gran medida de acuerdo con las estadísticas de señales y, por lo tanto, una cascada en serie no puede detectar todas las dependencias estadísticas importantes.
Hardware
Las redes neuronales grandes y eficaces requieren considerables recursos informáticos. [135] Si bien el cerebro tiene hardware adaptado a la tarea de procesar señales a través de un gráfico de neuronas, simular incluso una neurona simplificada en la arquitectura de von Neumann puede consumir grandes cantidades de memoria y almacenamiento. Además, el diseñador a menudo necesita transmitir señales a través de muchas de estas conexiones y sus neuronas asociadas, lo que requiere una enorme potencia y tiempo de la CPU .
Schmidhuber señaló que el resurgimiento de las redes neuronales en el siglo XXI se puede atribuir en gran medida a los avances en el hardware: de 1991 a 2015, la potencia de cálculo, especialmente la proporcionada por las GPGPU (en las GPU ), se ha multiplicado por un millón, lo que hace que el algoritmo de retropropagación estándar factible para redes de entrenamiento que son varias capas más profundas que antes. [7] El uso de aceleradores como FPGA y GPU puede reducir los tiempos de entrenamiento de meses a días. [135]
La ingeniería neuromórfica aborda directamente la dificultad del hardware mediante la construcción de chips que no son de von Neumann para implementar directamente redes neuronales en los circuitos. Otro tipo de chip optimizado para el procesamiento de redes neuronales se llama Unidad de procesamiento de tensor , o TPU. [136]
Contraejemplos prácticos
Analizar lo aprendido por una ANN es mucho más fácil que analizar lo aprendido por una red neuronal biológica. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios generales que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, aprendizaje local versus no local y arquitectura superficial versus profunda. [137]
Enfoques híbridos
Los defensores de los modelos híbridos (que combinan redes neuronales y enfoques simbólicos) afirman que tal mezcla puede capturar mejor los mecanismos de la mente humana. [138] [139]
Galería
Una red neuronal artificial feedforward de una sola capa. Flechas que se originan ense omiten para mayor claridad. Hay p entradas a esta red y q salidas. En este sistema, el valor de la q-ésima salida, se calcularía como
Una red neuronal artificial feedforward de dos capas.
Una red neuronal artificial.
Un gráfico de dependencia ANN.
Una red neuronal artificial feedforward de una sola capa con 4 entradas, 6 ocultas y 2 salidas. Valores de control basados en la rueda de salida de estado y dirección de posición dados.
Una red neuronal artificial feedforward de dos capas con 8 entradas, 2x8 ocultas y 2 salidas. El estado de posición dado, la dirección y otros valores ambientales generan valores de control basados en el propulsor.
Estructura de canalización paralela de la red neuronal CMAC. Este algoritmo de aprendizaje puede converger en un solo paso.
Ver también
- Límites de gran ancho de redes neuronales
- Memoria temporal jerárquica
- 20Q
- ADALINE
- Teoría de la resonancia adaptativa
- Vida artificial
- Memoria asociativa
- Autoencoder
- Robótica BEAM
- Cibernética biológica
- Computación de inspiración biológica
- Proyecto Blue Brain
- Interferencia catastrófica
- Controlador de articulación modelo cerebeloso (CMAC)
- Arquitectura cognitiva
- Ciencia cognitiva
- Red neuronal convolucional (CNN)
- Sistema experto conexionista
- Conectividad
- Redes neuronales cultivadas
- Aprendizaje profundo
- Programación diferenciable
- Encog
- Lógica difusa
- Programación de expresión genética
- Algoritmo genético
- Programación genética
- Método grupal de manejo de datos
- Habituación
- Tabulación adaptativa in situ
- Conceptos de aprendizaje automático
- Modelos de computación neuronal
- Neuroevolución
- Codificación neuronal
- Gas neural
- Traducción automática neuronal
- Software de red neuronal
- Neurociencia
- Identificación del sistema no lineal
- Red neuronal óptica
- Procesos paralelos de satisfacción de restricciones
- Procesamiento distribuido en paralelo
- Red de función de base radial
- Redes neuronales recurrentes
- Mapa autoorganizado
- Red neuronal en aumento
- Matriz sistólica
- Red de productos de tensor
- Red neuronal de retardo de tiempo (TDNN)
Referencias
- ^ McCulloch, Warren; Walter Pitts (1943). "Un cálculo lógico de ideas inmanentes a la actividad nerviosa". Boletín de Biofísica Matemática . 5 (4): 115-133. doi : 10.1007 / BF02478259 .
- ^ Kleene, Carolina del Sur (1956). "Representación de eventos en redes nerviosas y autómatas finitos" . Anales de estudios matemáticos (34). Prensa de la Universidad de Princeton. págs. 3-41 . Consultado el 17 de junio de 2017 .
- ^ Hebb, Donald (1949). La organización del comportamiento . Nueva York: Wiley. ISBN 978-1-135-63190-1.
- ^ Farley, BG; WA Clark (1954). "Simulación de Sistemas Autoorganizados por Computadora Digital". Transacciones IRE sobre teoría de la información . 4 (4): 76–84. doi : 10.1109 / TIT.1954.1057468 .
- ^ Rosenblatt, F. (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi : 10.1037 / h0042519 . PMID 13602029 .
- ^ Werbos, PJ (1975). Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento .
- ^ a b c Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .
- ^ Ivakhnenko, AG (1973). Dispositivos de predicción cibernéticos . Corporación de Información CCM.
- ^ Ivakhnenko, AG; Grigorʹevich Lapa, Valentin (1967). Cibernética y técnicas de previsión . Pub americano Elsevier. Co.
- ^ a b c Schmidhuber, Jürgen (2015). "Aprendizaje profundo" . Scholarpedia . 10 (11): 85-117. Código bibliográfico : 2015SchpJ..1032832S . doi : 10.4249 / scholarpedia.32832 .
- ^ Dreyfus, Stuart E. (1 de septiembre de 1990). "Redes neuronales artificiales, retropropagación y el procedimiento de gradiente de Kelley-Bryson". Revista de Orientación, Control y Dinámica . 13 (5): 926–928. Código bibliográfico : 1990JGCD ... 13..926D . doi : 10,2514 / 3,25422 . ISSN 0731-5090 .
- ^ Mizutani, E .; Dreyfus, SE ; Nishio, K. (2000). "Sobre la derivación de la retropropagación MLP de la fórmula de gradiente de control óptimo de Kelley-Bryson y su aplicación". Actas de la Conferencia conjunta internacional IEEE-INNS-ENNS sobre redes neuronales. IJCNN 2000. Computación neuronal: nuevos desafíos y perspectivas para el nuevo milenio . IEEE: 167-172 vol.2. doi : 10.1109 / ijcnn.2000.857892 . ISBN 0-7695-0619-4. S2CID 351146 .
- ^ Kelley, Henry J. (1960). "Teoría de gradientes de trayectorias de vuelo óptimas". Revista ARS . 30 (10): 947–954. doi : 10,2514 / 8,5282 .
- ^ "Un método de gradiente para optimizar los procesos de asignación de múltiples etapas". Actas de la Universidad de Harvard. Simposio sobre computadoras digitales y sus aplicaciones . Abril de 1961.
- ^ Minsky, Marvin; Papert, Seymour (1969). Perceptrones: una introducción a la geometría computacional . MIT Press. ISBN 978-0-262-63022-1.
- ^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6–7.
- ^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas numéricas . 16 (2): 146–160. doi : 10.1007 / bf01931367 . S2CID 122357351 .
- ^ Dreyfus, Stuart (1973). "La solución computacional de problemas de control óptimo con desfase temporal". Transacciones IEEE sobre control automático . 18 (4): 383–385. doi : 10.1109 / tac.1973.1100330 .
- ^ Werbos, Paul (1982). "Aplicaciones de los avances en el análisis de sensibilidad no lineal" (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770.
- ^ Mead, Carver A .; Ismail, Mohammed (8 de mayo de 1989). Implementación VLSI analógica de sistemas neuronales (PDF) . Serie internacional de Kluwer en ingeniería y ciencias de la computación. 80 . Norwell, MA: Kluwer Academic Publishers . doi : 10.1007 / 978-1-4613-1639-8 . ISBN 978-1-4613-1639-8.
- ^ David E. Rumelhart, Geoffrey E. Hinton y Ronald J. Williams, " Representaciones de aprendizaje mediante errores de retropropagación ," Nature ', 323, páginas 533–536 1986.
- ^ J. Weng, N. Ahuja y TS Huang, " Cresceptron: una red neuronal autoorganizada que crece de forma adaptativa ", Proc. Conferencia conjunta internacional sobre redes neuronales , Baltimore, Maryland, vol I, págs. 576–581, junio de 1992.
- ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D ", Proc. 4ta Conf. Internacional Computer Vision , Berlín, Alemania, págs. 121-128, mayo de 1993.
- ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación mediante el Cresceptron ", Revista Internacional de Visión por Computadora , vol. 25, no. 2, págs. 105-139, noviembre de 1997.
- ^ J. Schmidhuber., " Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión de la historia ", Computación neuronal , 4, págs. 234–242, 1992.
- ^ Smolensky, P. (1986). "Procesamiento de información en sistemas dinámicos: Fundamentos de la teoría de la armonía". . En DE Rumelhart; JL McClelland; Grupo de Investigación PDP (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición . 1 . págs. 194-281 . ISBN 978-0-262-68053-0.
- ^ Ng, Andrew; Dean, Jeff (2012). "Creación de funciones de alto nivel mediante el aprendizaje no supervisado a gran escala". arXiv : 1112,6209 [ cs.LG ].
- ^ Ian Goodfellow y Yoshua Bengio y Aaron Courville (2016). Aprendizaje profundo . MIT Press.
- ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales simples, grandes y profundas para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi : 10.1162 / neco_a_00052 . ISSN 0899-7667 . PMID 20858131 . S2CID 1918673 .
- ^ Dominik Scherer, Andreas C. Müller y Sven Behnke: " Evaluación de operaciones de agrupación en arquitecturas convolucionales para el reconocimiento de objetos ", en la 20ª Conferencia Internacional sobre redes neuronales artificiales (ICANN) , págs. 92-101, 2010. doi : 10.1007 / 978 -3-642-15825-4_10 .
- ^ 2012 Kurzweil AI Interview Archivada el 31 de agosto de 2018 en Wayback Machine con Jürgen Schmidhuber sobre las ocho competiciones ganadas por su equipo de Deep Learning 2009-2012
- ^ "Cómo el aprendizaje profundo bioinspirado sigue ganando competencias | KurzweilAI" . www.kurzweilai.net . Archivado desde el original el 31 de agosto de 2018 . Consultado el 16 de junio de 2017 .
- ^ Tumbas, Alex; y Schmidhuber, Jürgen; Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales , en Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; y Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7-10 de diciembre de 2009, Vancouver, BC , Fundación de Neural Information Processing Systems (NIPS), 2009, págs.
- ^ a b Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (2009). "Un nuevo sistema conexionista para un mejor reconocimiento de escritura sin restricciones" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .
- ^ a b Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, editor de Chris, KI; Culotta, Aron (eds.). "Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales" . Fundación de sistemas de procesamiento de información neuronal (NIPS) . Curran Associates, Inc: 545–552.
- ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura sin restricciones". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .
- ^ Ciresan, Dan; Meier, U .; Schmidhuber, J. (junio de 2012). Redes neuronales profundas de varias columnas para clasificación de imágenes . 2012 Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . págs. 3642–3649. arXiv : 1202.2745 . Código bibliográfico : 2012arXiv1202.2745C . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / cvpr.2012.6248110 . ISBN 978-1-4673-1228-8. S2CID 2161592 .
- ^ a b c d Zell, Andreas (2003). "capítulo 5.2". Neuronaler de simulación Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987 .
- ^ Inteligencia artificial (3ª ed.). Addison-Wesley Pub. Co. 1992. ISBN 0-201-53377-4.
- ^ "El Diccionario de Aprendizaje Automático" . www.cse.unsw.edu.au . Archivado desde el original el 26 de agosto de 2018 . Consultado el 4 de noviembre de 2009 .
- ^ Abbod, Maysam F (2007). "Aplicación de la Inteligencia Artificial al Manejo del Cáncer Urológico". La Revista de Urología . 178 (4): 1150-1156. doi : 10.1016 / j.juro.2007.05.122 . PMID 17698099 .
- ^ DAWSON, CHRISTIAN W (1998). "Un enfoque de red neuronal artificial para el modelado de lluvia-escorrentía". Revista de Ciencias Hidrológicas . 43 (1): 47–66. doi : 10.1080 / 02626669809492102 .
- ^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Redes neuronales convolucionales flexibles de alto rendimiento para clasificación de imágenes" (PDF) . Actas de la Vigésima Segunda Conferencia Conjunta Internacional sobre Inteligencia Artificial - Volumen Dos . 2 : 1237-1242 . Consultado el 17 de noviembre de 2013 .
- ^ Zell, Andreas (1994). Simulation Neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. pag. 73. ISBN 3-89319-554-8.
- ^ Miljanovic, Milos (febrero-marzo de 2012). "Análisis comparativo de redes neuronales de respuesta de impulso finito y recurrente en la predicción de series de tiempo" (PDF) . Revista India de Computación e Ingeniería . 3 (1).
- ^ Lau, Suki (10 de julio de 2017). "Un recorrido por la red neuronal convolucional - ajuste de hiperparámetros" . Medio . Consultado el 23 de agosto de 2019 .
- ^ Li, Y .; Fu, Y .; Li, H .; Zhang, SW (1 de junio de 2009). El algoritmo de entrenamiento mejorado de la red neuronal de propagación hacia atrás con tasa de aprendizaje autoadaptable . 2009 Congreso Internacional de Inteligencia Computacional y Computación Natural . 1 . págs. 73–76. doi : 10.1109 / CINC.2009.111 . ISBN 978-0-7695-3645-3. S2CID 10557754 .
- ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Máquina de aprendizaje extremo: teoría y aplicaciones". Neurocomputación . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016 / j.neucom.2005.12.126 .
- ^ Widrow, Bernard; et al. (2013). "El algoritmo no-prop: un nuevo algoritmo de aprendizaje para redes neuronales multicapa". Redes neuronales . 37 : 182-188. doi : 10.1016 / j.neunet.2012.09.020 . PMID 23140797 .
- ^ Ollivier, Yann; Charpiat, Guillaume (2015). "Entrenando redes recurrentes sin dar marcha atrás". arXiv : 1507.07680 [ cs.NE ].
- ^ ESANN. 2009
- ^ Hinton, GE (2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas" . Tech. Rep. UTML TR 2010-003 .
- ^ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). "Diseño metaheurístico de redes neuronales feedforward: una revisión de dos décadas de investigación". Aplicaciones de ingeniería de la inteligencia artificial . 60 : 97-116. arXiv : 1705.05584 . Código Bib : 2017arXiv170505584O . doi : 10.1016 / j.engappai.2017.01.013 . S2CID 27910748 .
- ^ Dominic, S .; Das, R .; Whitley, D .; Anderson, C. (julio de 1991). "Aprendizaje por refuerzo genético para redes neuronales" . IJCNN-91-Seattle International Joint Conference on Neural Networks . IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, Estados Unidos: IEEE. doi : 10.1109 / IJCNN.1991.155315 . ISBN 0-7803-0164-1.
- ^ Hoskins, JC; Himmelblau, DM (1992). "Control de procesos mediante redes neuronales artificiales y aprendizaje por refuerzo". Computación e Ingeniería Química . 16 (4): 241-251. doi : 10.1016 / 0098-1354 (92) 80045-B .
- ^ Bertsekas, DP; Tsitsiklis, JN (1996). Programación neurodinámica . Athena Scientific. pag. 512. ISBN 978-1-886529-10-6.
- ^ Secomandi, Nicola (2000). "Comparación de algoritmos de programación neurodinámica para el problema de enrutamiento de vehículos con demandas estocásticas". Computadoras e Investigación Operativa . 27 (11-12): 1201-1225. CiteSeerX 10.1.1.392.4034 . doi : 10.1016 / S0305-0548 (99) 00146-X .
- ^ de Rigo, D .; Rizzoli, AE; Soncini-Sessa, R .; Weber, E .; Zenesi, P. (2001). "Programación neurodinámica para la gestión eficiente de redes de embalses". Actas de MODSIM 2001, Congreso Internacional de Modelado y Simulación . MODSIM 2001, Congreso Internacional de Modelado y Simulación . Canberra, Australia: Sociedad de Modelado y Simulación de Australia y Nueva Zelanda. doi : 10.5281 / zenodo.7481 . ISBN 0-86740-525-2.
- ^ Damas, M .; Salmeron, M .; Díaz, A .; Ortega, J .; Prieto, A .; Olivares, G. (2000). "Algoritmos genéticos y programación neurodinámica: aplicación a redes de abastecimiento de agua". Actas del Congreso de 2000 sobre Computación Evolutiva . 2000 Congreso de Computación Evolutiva. La Jolla, California, Estados Unidos: IEEE. doi : 10.1109 / CEC.2000.870269 . ISBN 0-7803-6375-2.
- ^ Deng, Geng; Ferris, MC (2008). Programación neurodinámica para la planificación fraccionada de radioterapia . Optimización de Springer y sus aplicaciones. 12 . págs. 47–70. CiteSeerX 10.1.1.137.8288 . doi : 10.1007 / 978-0-387-73299-2_3 . ISBN 978-0-387-73298-5.
- ^ Bozinovski, S. (1982). "Un sistema de autoaprendizaje mediante refuerzo secundario". En R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. Holanda Septentrional. págs. 397–402. ISBN 978-0-444-86488-8 .
- ^ Bozinovski, S. (2014) " Modelado de mecanismos de interacción cognición-emoción en redes neuronales artificiales, desde 1981 ". Procedia Computer Science p. 255-263
- ^ Bozinovski, Stevo; Bozinovska, Liljana (2001). "Agentes de autoaprendizaje: una teoría conexionista de la emoción basada en el juicio de valor transversal". Cibernética y Sistemas . 32 (6): 637–667. doi : 10.1080 / 01969720118145 . S2CID 8944741 .
- ^ de Rigo, D .; Castelletti, A .; Rizzoli, AE; Soncini-Sessa, R .; Weber, E. (enero de 2005). "Una técnica de mejora selectiva para la fijación de la programación neurodinámica en la gestión de redes de recursos hídricos" . En Pavel Zítek (ed.). Actas del 16º Congreso Mundial de IFAC - IFAC-PapersOnLine . 16º Congreso Mundial de IFAC . 16 . Praga, República Checa: IFAC. doi : 10.3182 / 20050703-6-CZ-1902.02172 . hdl : 11311/255236 . ISBN 978-3-902661-75-3. Consultado el 30 de diciembre de 2011 .
- ^ Ferreira, C. (2006). "Diseño de redes neuronales mediante programación de expresión génica" (PDF) . En A. Abraham, B. de Baets, M. Köppen y B. Nickolay, eds., Tecnologías de computación blanda aplicadas: El desafío de la complejidad, páginas 517–536, Springer-Verlag.
- ^ Día.; Xiurun, G. (julio de 2005). T. Villmann (ed.). Una RNA basada en PSO mejorada con técnica de recocido simulado . Nuevos aspectos de la neurocomputación: XI Simposio europeo sobre redes neuronales artificiales . Elsevier. doi : 10.1016 / j.neucom.2004.07.002 . Archivado desde el original
|archive-url=
requiere|url=
( ayuda ) el 25 de abril de 2012.|access-date=
requiere|url=
( ayuda ) - ^ Wu, J .; Chen, E. (mayo de 2009). Wang, H .; Shen, Y .; Huang, T .; Zeng, Z. (eds.). Un nuevo conjunto de regresión no paramétrica para la predicción de precipitaciones utilizando una técnica de optimización de enjambres de partículas junto con una red neuronal artificial . VI Simposio Internacional de Redes Neuronales, ISNN 2009 . Saltador. doi : 10.1007 / 978-3-642-01513-7_6 . ISBN 978-3-642-01215-0. Archivado desde el original
|archive-url=
requiere|url=
( ayuda ) el 31 de diciembre de 2014.|access-date=
requiere|url=
( ayuda ) - ^ a b Ting Qin, et al. " Un algoritmo de aprendizaje de CMAC basado en RLS ". Neural Processing Letters 19.1 (2004): 49–61.
- ^ Ting Qin, et al. " CMAC-QRLS continuo y su matriz sistólica ". Cartas de procesamiento neuronal 22.1 (2005): 1-16.
- ^ LeCun y col. , "Retropropagación aplicada al reconocimiento del código postal escrito a mano", Computación neuronal , 1, págs. 541–551, 1989.
- ^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea
- ^ Hochreiter, Sepp ; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a corto plazo". Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . ISSN 0899-7667 . PMID 9377276 . S2CID 1915014 .
- ^ Sak, Hasim; Mayor, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a largo plazo a corto plazo para el modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
- ^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a corto plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [ cs.CL ].
- ^ Fan, Y .; Qian, Y .; Xie, F .; Soong, FK (2014). "Síntesis TTS con redes neuronales recurrentes basadas en LSTM bidireccionales" . Actas de la Conferencia Anual de la Asociación Internacional de Comunicación de Discursos, Interspeech : 1964–1968 . Consultado el 13 de junio de 2017 .
- ^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente de memoria a corto plazo unidireccional con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASSP. págs. 4470–4474.
- ^ Fan, Bo; Wang, Lijuan; Soong, Frank K .; Xie, Lei (2015). "Cabezal parlante foto-real con LSTM bidireccional profundo" (PDF) . Actas de ICASSP .
- ^ Silver, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi por auto-juego con un algoritmo de aprendizaje de refuerzo general". arXiv : 1712.01815 [ cs.AI ].
- ^ Buen amigo, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas antagónicas (PDF) . Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS 2014). págs. 2672–2680.
- ^ Zoph, Barret; Le, Quoc V. (4 de noviembre de 2016). "Búsqueda de arquitectura neuronal con aprendizaje por refuerzo". arXiv : 1611.01578 [ cs.LG ].
- ^ "AutoKeras" . autokeras.com . Consultado el 21 de agosto de 2019 .
- ^ "Claesen, Marc y Bart De Moor." Búsqueda de hiperparámetros en Machine Learning. "ArXiv preprint arXiv: 1502.02127 (2015)". arXiv : 1502.02127 . Código bibliográfico : 2015arXiv150202127C .
- ^ Turek, Fred D. (marzo de 2007). "Introducción a la visión artificial de la red neuronal" . Diseño de sistemas de visión . 12 (3) . Consultado el 5 de marzo de 2013 .
- ^ Zissis, Dimitrios (octubre de 2015). "Una arquitectura basada en la nube capaz de percibir y predecir el comportamiento de múltiples embarcaciones" . Soft Computing aplicado . 35 : 652–661. doi : 10.1016 / j.asoc.2015.07.002 .
- ^ Roman M. Balabin ; Ekaterina I. Lomakina (2009). "Enfoque de red neuronal a datos de química cuántica: predicción precisa de energías de teoría funcional de densidad". J. Chem. Phys. 131 (7): 074104. Código Bibliográfico : 2009JChPh.131g4104B . doi : 10.1063 / 1.3206326 . PMID 19708729 .
- ^ Silver, David; et al. (2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árbol" (PDF) . Naturaleza . 529 (7587): 484–9. Código Bibliográfico : 2016Natur.529..484S . doi : 10.1038 / nature16961 . PMID 26819042 . S2CID 515925 .
- ^ Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (agosto de 2016). "Clasificación del sonido pulmonar utilizando características estadísticas basadas en cepstral". Informática en Biología y Medicina . 75 (1): 118-129. doi : 10.1016 / j.compbiomed.2016.05.013 . PMID 27286184 .
- ^ Choy, Christopher B., et al. " 3d-r2n2: un enfoque unificado para la reconstrucción de objetos 3d de una o varias vistas ". Conferencia europea sobre visión artificial. Springer, Cham, 2016.
- ^ Maitra, DS; Bhattacharya, U .; Parui, SK (agosto de 2015). "Enfoque común basado en CNN para el reconocimiento de caracteres escritos a mano de varios guiones" . 2015 Decimotercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) : 1021–1025. doi : 10.1109 / ICDAR.2015.7333916 . ISBN 978-1-4799-1805-8. S2CID 25739012 .
- ^ Francés, Jordania (2016). "El CAPM del viajero en el tiempo". Revista de analistas de inversiones . 46 (2): 81–96. doi : 10.1080 / 10293523.2016.1255469 . S2CID 157962452 .
- ^ Schechner, Sam (15 de junio de 2017). "Facebook impulsa la inteligencia artificial para bloquear la propaganda terrorista" . Wall Street Journal . ISSN 0099-9660 . Consultado el 16 de junio de 2017 .
- ^ Ganesan, N (2010). "Aplicación de redes neuronales en el diagnóstico de cáncer mediante datos demográficos" . Revista Internacional de Aplicaciones Informáticas . 1 (26): 81–97. Código Bibliográfico : 2010IJCA .... 1z..81G . doi : 10.5120 / 476-783 .
- ^ Bottaci, Leonardo (1997). "Redes neuronales artificiales aplicadas a la predicción de resultados para pacientes con cáncer colorrectal en instituciones independientes" (PDF) . Lancet . La lanceta. 350 (9076): 469–72. doi : 10.1016 / S0140-6736 (96) 11196-X . PMID 9274582 . S2CID 18182063 . Archivado desde el original (PDF) el 23 de noviembre de 2018 . Consultado el 2 de mayo de 2012 .
- ^ Alizadeh, Elaheh; Lyons, Samanthe M; Castillo, Jordan M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos Zernike" . Biología integrativa . 8 (11): 1183-1193. doi : 10.1039 / C6IB00100A . PMID 27735002 .
- ^ Lyons, Samanthe (2016). "Los cambios en la forma celular se correlacionan con el potencial metastásico en murinos" . Biología Abierta . 5 (3): 289–299. doi : 10.1242 / bio.013409 . PMC 4810736 . PMID 26873952 .
- ^ Nabian, Mohammad Amin; Meidani, Hadi (28 August 2017). "Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks". Computer-Aided Civil and Infrastructure Engineering. 33 (6): 443–458. arXiv:1708.08551. Bibcode:2017arXiv170808551N. doi:10.1111/mice.12359. S2CID 36661983.
- ^ Nabian, Mohammad Amin; Meidani, Hadi (2018). "Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates". Transportation Research Board 97th Annual Meeting.
- ^ Díaz, E.; Brotons, V.; Tomás, R. (September 2018). "Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock". Soils and Foundations. 58 (6): 1414–1422. doi:10.1016/j.sandf.2018.08.001. hdl:10045/81208. ISSN 0038-0806.
- ^ null null (1 April 2000). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". Journal of Hydrologic Engineering. 5 (2): 115–123. CiteSeerX 10.1.1.127.3861. doi:10.1061/(ASCE)1084-0699(2000)5:2(115).
- ^ null null (1 April 2000). "Artificial Neural Networks in Hydrology. II: Hydrologic Applications". Journal of Hydrologic Engineering. 5 (2): 124–137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124).
- ^ Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 October 2015). "Significant wave height record extension by neural networks and reanalysis wind data". Ocean Modelling. 94: 128–140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002.
- ^ Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). "Review on Applications of Neural Network in Coastal Engineering". Artificial Intelligent Systems and Machine Learning. 5 (7): 324–331.
- ^ Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 March 2005). "Artificial Neural Networks applied to landslide susceptibility assessment". Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327–343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025.
- ^ Nix, R.; Zhang, J. (May 2017). "Classification of Android apps and malware using deep neural networks". 2017 International Joint Conference on Neural Networks (IJCNN): 1871–1878. doi:10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2. S2CID 8838479.
- ^ "Detecting Malicious URLs". The systems and networking group at UCSD. Archived from the original on 14 July 2019. Retrieved 15 February 2019.
- ^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (eds.), "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber Threat Intelligence, Advances in Information Security, Springer International Publishing, pp. 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9
- ^ and (January 1994). "Credit card fraud detection with a neural-network". 1994 Proceedings of the Twenty-Seventh Hawaii International Conference on System Sciences. 3: 621–630. doi:10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1. S2CID 13260377.
- ^ Ananthaswamy, Anil (19 April 2021). "Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before". Quanta Magazine. Retrieved 12 May 2021.
- ^ "AI has cracked a key mathematical puzzle for understanding our world". MIT Technology Review. Retrieved 19 November 2020.
- ^ "Caltech Open-Sources AI for Solving Partial Differential Equations". InfoQ. Retrieved 20 January 2021.
- ^ Nagy, Alexandra (28 June 2019). "Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems". Physical Review Letters. 122 (25): 250501. arXiv:1902.09483. Bibcode:2019PhRvL.122y0501N. doi:10.1103/PhysRevLett.122.250501. PMID 31347886. S2CID 119074378.
- ^ Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28 June 2019). "Constructing neural stationary states for open quantum many-body systems". Physical Review B. 99 (21): 214306. arXiv:1902.07006. Bibcode:2019arXiv190207006Y. doi:10.1103/PhysRevB.99.214306. S2CID 119470636.
- ^ Hartmann, Michael J.; Carleo, Giuseppe (28 June 2019). "Neural-Network Approach to Dissipative Quantum Many-Body Dynamics". Physical Review Letters. 122 (25): 250502. arXiv:1902.05131. Bibcode:2019arXiv190205131H. doi:10.1103/PhysRevLett.122.250502. PMID 31347862. S2CID 119357494.
- ^ Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28 June 2019). "Variational Neural-Network Ansatz for Steady States in Open Quantum Systems". Physical Review Letters. 122 (25): 250503. arXiv:1902.10104. Bibcode:2019arXiv190210104V. doi:10.1103/PhysRevLett.122.250503. PMID 31347877. S2CID 119504484.
- ^ Forrest MD (April 2015). "Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster". BMC Neuroscience. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094.
- ^ Siegelmann, H.T.; Sontag, E.D. (1991). "Turing computability with neural nets" (PDF). Appl. Math. Lett. 4 (6): 77–80. doi:10.1016/0893-9659(91)90080-F.
- ^ Balcázar, José (July 1997). "Computational Power of Neural Networks: A Kolmogorov Complexity Characterization". IEEE Transactions on Information Theory. 43 (4): 1175–1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580.
- ^ a b MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. ISBN 978-0-521-64298-9.
- ^ Cover, Thomas (1965). "Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition" (PDF). IEEE Transactions on Electronic Computers. IEEE (3): 326–334. doi:10.1109/PGEC.1965.264137.
- ^ Gerald, Friedland (2019). "Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data". MM '19: Proceedings of the 27th ACM International Conference on Multimedia. ACM: 2709–2710. doi:10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. S2CID 204837170.
- ^ "The Tensorflow Meter".
- ^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "Wide neural networks of any depth evolve as linear models under gradient descent". Journal of Statistical Mechanics: Theory and Experiment. 2020 (12): 124002. arXiv:1902.06720. Bibcode:2020JSMTE2020l4002L. doi:10.1088/1742-5468/abc62b. S2CID 62841516.
- ^ [1], Neural Tangent Kernel: Convergence and Generalization in Neural Networks.
- ^ [2], Training Behavior of Deep Neural Network in Frequency Domain.
- ^ [3], On the Spectral Bias of Neural Networks.
- ^ [4], Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks.
- ^ [5], Theory of the Frequency Principle for General Deep Neural Networks.
- ^ Crick, Francis (1989). "The recent excitement about neural networks". Nature. 337 (6203): 129–132. Bibcode:1989Natur.337..129C. doi:10.1038/337129a0. PMID 2911347. S2CID 5892527.
- ^ Adrian, Edward D. (1926). "The impulses produced by sensory nerve endings". The Journal of Physiology. 61 (1): 49–72. doi:10.1113/jphysiol.1926.sp002273. PMC 1514809. PMID 16993776.
- ^ Dewdney, A. K. (1 April 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1.
- ^ NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE. Nasa.gov. Retrieved on 2013-11-20.
- ^ "Roger Bridgman's defence of neural networks". Archived from the original on 19 March 2012. Retrieved 12 July 2010.
- ^ D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1–47, 1991.
- ^ J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, ISBN 978-0-9858757-2-5, 2012.
- ^ a b Edwards, Chris (25 June 2015). "Growing pains for deep learning". Communications of the ACM. 58 (7): 14–16. doi:10.1145/2771283. S2CID 11026540.
- ^ Cade Metz (18 May 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired.
- ^ "Scaling Learning Algorithms towards {AI} - LISA - Publications - Aigaion 2.0". www.iro.umontreal.ca.
- ^ Sun and Bookman (1990)
- ^ Tahmasebi; Hezarkhani (2012). "A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation". Computers & Geosciences. 42: 18–27. Bibcode:2012CG.....42...18T. doi:10.1016/j.cageo.2012.02.004. PMC 4268588. PMID 25540468.
Bibliografía
- Bhadeshia H. K. D. H. (1999). "Neural Networks in Materials Science" (PDF). ISIJ International. 39 (10): 966–979. doi:10.2355/isijinternational.39.966.
- Bishop, Christopher M. (1995). Neural networks for pattern recognition. Clarendon Press. ISBN 978-0-19-853849-3. OCLC 33101074.
- Borgelt, Christian (2003). Neuro-Fuzzy-Systeme : von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen. Vieweg. ISBN 978-3-528-25265-6. OCLC 76538146.
- Cybenko, G.V. (2006). "Approximation by Superpositions of a Sigmoidal function". In van Schuppen, Jan H. (ed.). Mathematics of Control, Signals, and Systems. Springer International. pp. 303–314. PDF
- Dewdney, A. K. (1997). Yes, we have no neutrons : an eye-opening tour through the twists and turns of bad science. New York: Wiley. ISBN 978-0-471-10806-1. OCLC 35558945.
- Duda, Richard O.; Hart, Peter Elliot; Stork, David G. (2001). Pattern classification (2 ed.). Wiley. ISBN 978-0-471-05669-0. OCLC 41347061.
- Egmont-Petersen, M.; de Ridder, D.; Handels, H. (2002). "Image processing with neural networks – a review". Pattern Recognition. 35 (10): 2279–2301. CiteSeerX 10.1.1.21.5444. doi:10.1016/S0031-3203(01)00178-9.
- Fahlman, S.; Lebiere, C (1991). "The Cascade-Correlation Learning Architecture" (PDF).
- created for National Science Foundation, Contract Number EET-8716324, and Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499.
- Gurney, Kevin (1997). An introduction to neural networks. UCL Press. ISBN 978-1-85728-673-1. OCLC 37875698.
- Haykin, Simon S. (1999). Neural networks : a comprehensive foundation. Prentice Hall. ISBN 978-0-13-273350-2. OCLC 38908586.
- Hertz, J.; Palmer, Richard G.; Krogh, Anders S. (1991). Introduction to the theory of neural computation. Addison-Wesley. ISBN 978-0-201-51560-2. OCLC 21522159.
- Information theory, inference, and learning algorithms. Cambridge University Press. 25 September 2003. Bibcode:2003itil.book.....M. ISBN 978-0-521-64298-9. OCLC 52377690.
- Kruse, Rudolf; Borgelt, Christian; Klawonn, F.; Moewes, Christian; Steinbrecher, Matthias; Held, Pascal (2013). Computational intelligence : a methodological introduction. Springer. ISBN 978-1-4471-5012-1. OCLC 837524179.
- Lawrence, Jeanette (1994). Introduction to neural networks : design, theory and applications. California Scientific Software. ISBN 978-1-883157-00-5. OCLC 32179420.
- MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. ISBN 978-0-521-64298-9.
- Masters, Timothy (1994). Signal and image processing with neural networks : a C++ sourcebook. J. Wiley. ISBN 978-0-471-04963-0. OCLC 29877717.
- Ripley, Brian D. (2007). Pattern Recognition and Neural Networks. Cambridge University Press. ISBN 978-0-521-71770-0.
- Siegelmann, H.T.; Sontag, Eduardo D. (1994). "Analog computation via neural networks". Theoretical Computer Science. 131 (2): 331–360. doi:10.1016/0304-3975(94)90178-3. S2CID 2456483.
- Smith, Murray (1993). Neural networks for statistical modeling. Van Nostrand Reinhold. ISBN 978-0-442-01310-3. OCLC 27145760.
- Wasserman, Philip D. (1993). Advanced methods in neural computing. Van Nostrand Reinhold. ISBN 978-0-442-00461-3. OCLC 27429729.
- Wilson, Halsey (2018). Artificial intelligence. Grey House Publishing. ISBN 978-1-68217-867-6.
enlaces externos
- The Neural Network Zoo – a compilation of neural network types
- The Stilwell Brain – a Mind Field episode featuring an experiment in which humans act as individual neurons in a neural network that classifies handwritten digits