De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Una red neuronal artificial es un grupo de nodos interconectados, inspirado en una simplificación de neuronas en un cerebro . Aquí, cada nodo circular representa una neurona artificial y una flecha representa una conexión entre la salida de una neurona artificial y la entrada de otra.

Las redes neuronales artificiales ( ANN ), generalmente llamadas simplemente redes neuronales ( NN ), son sistemas informáticos inspirados vagamente en las redes neuronales biológicas que constituyen los cerebros de los animales . [1]

Una RNA se basa en una colección de unidades o nodos conectados llamados neuronas artificiales , que modelan libremente las neuronas en un cerebro biológico. Cada conexión, como las sinapsis en un cerebro biológico, puede transmitir una señal a otras neuronas. Una neurona artificial que recibe una señal luego la procesa y puede señalar a las neuronas conectadas a ella. La "señal" en una conexión es un número real , y la salida de cada neurona se calcula mediante alguna función no lineal de la suma de sus entradas. Las conexiones se llaman bordes . Las neuronas y los bordes suelen tener un pesoque se ajusta a medida que avanza el aprendizaje. El peso aumenta o disminuye la fuerza de la señal en una conexión. Las neuronas pueden tener un umbral tal que una señal se envía solo si la señal agregada cruza ese umbral. Normalmente, las neuronas se agregan en capas. Diferentes capas pueden realizar diferentes transformaciones en sus entradas. Las señales viajan desde la primera capa (la capa de entrada) hasta la última capa (la capa de salida), posiblemente después de atravesar las capas varias veces.

Entrenamiento [ editar ]

Las redes neuronales aprenden (o se entrenan) procesando ejemplos, cada uno de los cuales contiene una "entrada" y un "resultado" conocidos, formando asociaciones ponderadas por probabilidad entre los dos, que se almacenan dentro de la estructura de datos de la propia red. El entrenamiento de una red neuronal a partir de un ejemplo dado generalmente se realiza determinando la diferencia entre la salida procesada de la red (a menudo una predicción) y una salida objetivo. Este es el error. Luego, la red ajusta sus asociaciones ponderadas de acuerdo con una regla de aprendizaje y utilizando este valor de error. Los ajustes sucesivos harán que la red neuronal produzca una salida que sea cada vez más similar a la salida objetivo. Después de un número suficiente de estos ajustes, el entrenamiento puede terminarse en base a ciertos criterios.Esto se conoce como aprendizaje supervisado..

Dichos sistemas "aprenden" a realizar tareas al considerar ejemplos, generalmente sin estar programados con reglas específicas de tareas. Por ejemplo, en el reconocimiento de imágenes , pueden aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que se han etiquetado manualmente como "gato" o "sin gato" y utilizando los resultados para identificar gatos en otras imágenes. Hacen esto sin ningún conocimiento previo de los gatos, por ejemplo, que tienen pelaje, cola, bigotes y caras de gato. En cambio, generan automáticamente características de identificación a partir de los ejemplos que procesan.

Historia [ editar ]

Warren McCulloch y Walter Pitts [2] (1943) abrieron el tema creando un modelo computacional para redes neuronales. [3] A finales de la década de 1940, DO Hebb [4] creó una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que se conoció como aprendizaje hebbiano . Farley y Wesley A. Clark [5] (1954) utilizaron por primera vez máquinas computacionales, luego llamadas "calculadoras", para simular una red hebbiana. Rosenblatt [6] (1958) creó el perceptrón . [7] Ivakhnenko publicó las primeras redes funcionales con muchas capas.y Lapa en 1965, como el método grupal de manejo de datos . [8] [9] [10] Los fundamentos de la retropropagación continua [8] [11] [12] [13] se derivaron en el contexto de la teoría del control por Kelley [14] en 1960 y por Bryson en 1961, [15] utilizando principios de programación dinámica .

En 1970, Seppo Linnainmaa publicó el método general para la diferenciación automática (AD) de redes conectadas discretas de funciones diferenciables anidadas . [16] [17] En 1973, Dreyfus utilizó la retropropagación para adaptar los parámetros de los controladores en proporción a los gradientes de error. [18] El algoritmo de retropropagación de Werbos (1975) permitió el entrenamiento práctico de redes multicapa. En 1982, aplicó el método AD de Linnainmaa a las redes neuronales en la forma que se volvió ampliamente utilizada. [11] [19] Posteriormente, la investigación se estancó siguiendo a Minsky y Papert (1969),[20] quien descubrió que los perceptrones básicos eran incapaces de procesar el circuito o exclusivo y que las computadoras carecían de energía suficiente para procesar redes neuronales útiles.

El desarrollo de la integración a muy gran escala (VLSI) de semiconductores de óxido de metal (MOS) , en forma de tecnología MOS complementaria (CMOS), permitió aumentar el número de transistores MOS en la electrónica digital . Esto proporcionó más potencia de procesamiento para el desarrollo de redes neuronales artificiales prácticas en la década de 1980. [21]

En 1986 , Rumelhart , Hinton y Williams demostraron que la propagación hacia atrás aprendió representaciones internas interesantes de palabras como vectores de características cuando se entrenó para predecir la siguiente palabra en una secuencia. [22]

En 1992, se introdujo la agrupación máxima para ayudar con la invariancia de desplazamiento mínimo y la tolerancia a la deformación para ayudar al reconocimiento de objetos en 3D . [23] [24] [25] Schmidhuber adoptó una jerarquía de redes de varios niveles (1992) preentrenados un nivel a la vez mediante aprendizaje no supervisado y ajustado por retropropagación . [26]

Geoffrey Hinton y col. (2006) propusieron aprender una representación de alto nivel utilizando capas sucesivas de variables latentes binarias o de valor real con una máquina de Boltzmann restringida [27] para modelar cada capa. En 2012, Ng y Dean crearon una red que aprendió a reconocer conceptos de nivel superior, como gatos, solo viendo imágenes sin etiquetas. [28] El entrenamiento previo no supervisado y el aumento de la potencia informática de las GPU y la computación distribuida permitieron el uso de redes más grandes, particularmente en problemas de reconocimiento visual y de imagen, que se conocieron como " aprendizaje profundo ". [29]

Ciresan et al. (2010) [30] demostraron que a pesar del problema del gradiente de desaparición, las GPU hacen que la propagación hacia atrás sea factible para redes neuronales de retroalimentación de muchas capas. [31] Entre 2009 y 2012, las ANN comenzaron a ganar premios en concursos de ANN, acercándose al rendimiento a nivel humano en diversas tareas, inicialmente en reconocimiento de patrones y aprendizaje automático . [32] [33] Por ejemplo, la memoria bidireccional y multidimensional a largo y corto plazo (LSTM) [34] [35] [36] [37] de Graveset al. ganó tres concursos de reconocimiento de escritura a mano conectada en 2009 sin ningún conocimiento previo sobre los tres idiomas a aprender. [36] [35]

Ciresan y sus colegas construyeron los primeros reconocedores de patrones para lograr un desempeño humano-competitivo / sobrehumano [38] en puntos de referencia como el reconocimiento de señales de tráfico (IJCNN 2012).

Modelos [ editar ]

Neurona y axón mielinizado, con flujo de señal desde las entradas en las dendritas hasta las salidas en los terminales del axón

Las ANN comenzaron como un intento de explotar la arquitectura del cerebro humano para realizar tareas con las que los algoritmos convencionales tuvieron poco éxito. Pronto se reorientaron hacia la mejora de los resultados empíricos, abandonando en su mayoría los intentos de permanecer fieles a sus precursores biológicos. Las neuronas están conectadas entre sí en varios patrones, para permitir que la salida de algunas neuronas se convierta en la entrada de otras. La red forma una dirigida , grafo ponderado . [39]

Una red neuronal artificial consta de una colección de neuronas simuladas. Cada neurona es un nodo que está conectado a otros nodos a través de enlaces que corresponden a conexiones biológicas axón-sinapsis-dendrita. Cada enlace tiene un peso, que determina la fuerza de la influencia de un nodo sobre otro. [40]

Componentes de las ANN [ editar ]

Neuronas [ editar ]

Las RNA están compuestas por neuronas artificiales que se derivan conceptualmente de neuronas biológicas . Cada neurona artificial tiene entradas y produce una única salida que se puede enviar a muchas otras neuronas. Las entradas pueden ser los valores de características de una muestra de datos externos, como imágenes o documentos, o pueden ser las salidas de otras neuronas. Las salidas de las neuronas de salida final de la red neuronal realizan la tarea, como reconocer un objeto en una imagen.

Para encontrar la salida de la neurona, primero tomamos la suma ponderada de todas las entradas, ponderada por los pesos de las conexiones de las entradas a la neurona. Agregamos un término de sesgo a esta suma. Esta suma ponderada a veces se denomina activación . Esta suma ponderada luego se pasa a través de una función de activación (generalmente no lineal) para producir la salida. Las entradas iniciales son datos externos, como imágenes y documentos. Los resultados finales cumplen la tarea, como reconocer un objeto en una imagen. [41]

Conexiones y pesos [ editar ]

La red consta de conexiones, cada conexión proporciona la salida de una neurona como entrada a otra neurona. A cada conexión se le asigna un peso que representa su importancia relativa. [39] Una neurona determinada puede tener múltiples conexiones de entrada y salida. [42]

Función de propagación [ editar ]

La función de propagación calcula la entrada a una neurona a partir de las salidas de sus neuronas predecesoras y sus conexiones como una suma ponderada. [39] Se puede agregar un término de sesgo al resultado de la propagación. [43]

Organización [ editar ]

Las neuronas suelen estar organizadas en varias capas, especialmente en el aprendizaje profundo . Las neuronas de una capa se conectan solo a las neuronas de las capas inmediatamente anterior e inmediata. La capa que recibe datos externos es la capa de entrada . La capa que produce el resultado final es la capa de salida . Entre ellos hay cero o más capas ocultas . También se utilizan redes de una sola capa y sin capas. Entre dos capas, son posibles múltiples patrones de conexión. Pueden estar completamente conectados , con cada neurona en una capa conectándose a cada neurona en la siguiente capa. Pueden estar agrupando, donde un grupo de neuronas en una capa se conectan a una sola neurona en la siguiente capa, reduciendo así el número de neuronas en esa capa. [44] Las neuronas con sólo tales conexiones forman un gráfico acíclico dirigido y se conocen como redes de alimentación . [45] Alternativamente, las redes que permiten conexiones entre neuronas en la misma capa o en capas anteriores se conocen como redes recurrentes . [46]

Hiperparámetro [ editar ]

Un hiperparámetro es un parámetro constante cuyo valor se establece antes de que comience el proceso de aprendizaje. Los valores de los parámetros se obtienen mediante el aprendizaje. Los ejemplos de hiperparámetros incluyen la tasa de aprendizaje , la cantidad de capas ocultas y el tamaño del lote. [47] Los valores de algunos hiperparámetros pueden depender de los de otros hiperparámetros. Por ejemplo, el tamaño de algunas capas puede depender del número total de capas.

Aprendiendo [ editar ]

El aprendizaje es la adaptación de la red para manejar mejor una tarea considerando las observaciones de muestra. El aprendizaje implica ajustar los pesos (y los umbrales opcionales) de la red para mejorar la precisión del resultado. Esto se hace minimizando los errores observados. El aprendizaje es completo cuando el examen de observaciones adicionales no reduce de manera útil la tasa de error. Incluso después del aprendizaje, la tasa de error normalmente no llega a 0. Si después del aprendizaje, la tasa de error es demasiado alta, la red normalmente debe rediseñarse. Prácticamente esto se hace definiendo una función de costo que se evalúa periódicamente durante el aprendizaje. Mientras su producción continúe disminuyendo, el aprendizaje continúa. El costo se define con frecuencia como una estadísticacuyo valor solo puede ser aproximado. Las salidas son en realidad números, por lo que cuando el error es bajo, la diferencia entre la salida (casi con certeza un gato) y la respuesta correcta (gato) es pequeña. El aprendizaje intenta reducir el total de las diferencias entre las observaciones. [39] La mayoría de los modelos de aprendizaje pueden verse como una aplicación sencilla de la teoría de la optimización y la estimación estadística .

Tasa de aprendizaje [ editar ]

La tasa de aprendizaje define el tamaño de los pasos correctivos que toma el modelo para ajustar los errores en cada observación. Una tasa de aprendizaje alta acorta el tiempo de entrenamiento, pero con menor precisión final, mientras que una tasa de aprendizaje más baja lleva más tiempo, pero con el potencial de una mayor precisión. Las optimizaciones como Quickprop están destinadas principalmente a acelerar la minimización de errores, mientras que otras mejoras intentan principalmente aumentar la confiabilidad. Para evitar oscilaciones dentro de la red, como pesos de conexión alternos, y para mejorar la tasa de convergencia, los refinamientos utilizan una tasa de aprendizaje adaptativa que aumenta o disminuye según corresponda. [48]El concepto de impulso permite ponderar el equilibrio entre la pendiente y el cambio anterior de modo que el ajuste del peso dependa en cierto grado del cambio anterior. Un impulso cercano a 0 enfatiza el gradiente, mientras que un valor cercano a 1 enfatiza el último cambio.

Función de costo [ editar ]

Si bien es posible definir una función de costo ad hoc , con frecuencia la elección está determinada por las propiedades deseables de la función (como la convexidad ) o porque surge del modelo (por ejemplo, en un modelo probabilístico, la probabilidad posterior del modelo se puede usar como una inversa costo).

Retropropagación [ editar ]

La retropropagación es un método que se utiliza para ajustar los pesos de conexión para compensar cada error encontrado durante el aprendizaje. La cantidad de error se divide efectivamente entre las conexiones. Técnicamente, backprop calcula el gradiente (la derivada) de la función de costo asociada con un estado dado con respecto a los pesos. Las actualizaciones de peso se pueden realizar a través del descenso de gradiente estocástico u otros métodos, como Extreme Learning Machines , [49] redes "sin apoyo", [50] entrenamiento sin retroceso, [51] redes "ingrávidas", [52] [53 ] y redes neuronales no conexionistas .

Paradigmas de aprendizaje [ editar ]

Los tres paradigmas principales de aprendizaje son el aprendizaje supervisado , el aprendizaje no supervisado y el aprendizaje reforzado . Cada uno corresponde a una tarea de aprendizaje particular.

Aprendizaje supervisado [ editar ]

El aprendizaje supervisado utiliza un conjunto de entradas y salidas deseadas emparejadas. La tarea de aprendizaje es producir el resultado deseado para cada entrada. En este caso, la función de costo está relacionada con la eliminación de deducciones incorrectas. [54] Un costo comúnmente utilizado es el error cuadrático medio , que intenta minimizar el error cuadrático medio entre la salida de la red y la salida deseada. Las tareas adecuadas para el aprendizaje supervisado son el reconocimiento de patrones (también conocido como clasificación) y la regresión (también conocido como aproximación de funciones). El aprendizaje supervisado también es aplicable a datos secuenciales (p. Ej., Para escritura a mano, reconocimiento de voz y gestos). Esto se puede considerar como un aprendizaje con un "maestro", en forma de una función que proporciona una retroalimentación continua sobre la calidad de las soluciones obtenidas hasta el momento.

Aprendizaje no supervisado [ editar ]

En el aprendizaje no supervisado , los datos de entrada se proporcionan junto con la función de costo, alguna función de los datos y la salida de la red. La función de costo depende de la tarea (el dominio del modelo) y cualquier supuesto a priori (las propiedades implícitas del modelo, sus parámetros y las variables observadas). Como ejemplo trivial, considere el modelo donde es una constante y el costo . Minimizar este costo produce un valor que es igual a la media de los datos. La función de costo puede ser mucho más complicada. Su forma depende de la aplicación: por ejemplo, en compresión podría estar relacionado con la información mutua entre y, mientras que en el modelado estadístico, podría estar relacionado con la probabilidad posterior del modelo dados los datos (tenga en cuenta que en ambos ejemplos esas cantidades se maximizarían en lugar de minimizar). Las tareas que caen dentro del paradigma del aprendizaje no supervisado son, en general, problemas de estimación ; las aplicaciones incluyen agrupamiento , estimación de distribuciones estadísticas , compresión y filtrado .

Aprendizaje reforzado [ editar ]

En aplicaciones como los videojuegos, un actor realiza una serie de acciones y recibe una respuesta generalmente impredecible del entorno después de cada una. El objetivo es ganar el juego, es decir, generar las respuestas más positivas (de menor costo). En el aprendizaje por refuerzo , el objetivo es ponderar la red (diseñar una política) para realizar acciones que minimicen el costo a largo plazo (acumulado esperado). En cada momento el agente realiza una acción y el entorno genera una observación y un costo instantáneo, según unas reglas (generalmente desconocidas). Las reglas y el costo a largo plazo generalmente solo se pueden estimar. En cualquier momento, el agente decide si explorar nuevas acciones para descubrir sus costos o aprovechar el aprendizaje previo para proceder con mayor rapidez.

Formalmente, el entorno se modela como un proceso de decisión de Markov (MDP) con estados y acciones . Debido a que no se conocen las transiciones de estado, en su lugar se utilizan distribuciones de probabilidad: la distribución de costos instantánea , la distribución de observación y la distribución de transición , mientras que una política se define como la distribución condicional sobre acciones dadas las observaciones. En conjunto, los dos definen una cadena de Markov (MC). El objetivo es descubrir el MC más económico.

Las ANN sirven como componente de aprendizaje en tales aplicaciones. [55] [56] La programación dinámica junto con las RNA (que proporcionan programación neurodinámica) [57] se ha aplicado a problemas como los relacionados con el enrutamiento de vehículos , [58] videojuegos, gestión de recursos naturales [59] [60] y medicina [ 61] debido a la capacidad de las ANN para mitigar las pérdidas de precisión incluso al reducir la densidad de la cuadrícula de discretización para aproximar numéricamente la solución de problemas de control. Las tareas que caen dentro del paradigma del aprendizaje por refuerzo son los problemas de control, los juegos y otras tareas secuenciales de toma de decisiones.

Autoaprendizaje [ editar ]

El autoaprendizaje en redes neuronales se introdujo en 1982 junto con una red neuronal capaz de autoaprendizaje denominada Crossbar Adaptive Array (CAA). [62] Es un sistema con solo una entrada, situación s, y solo una salida, acción (o comportamiento) a. No tiene aportes de asesoramiento externo ni aportes de refuerzo externo del entorno. El CAA calcula, de forma transversal, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre situaciones encontradas. El sistema está impulsado por la interacción entre la cognición y la emoción. [63] Dada la matriz de memoria W = || w (a, s) ||, el algoritmo de autoaprendizaje de barra transversal en cada iteración realiza el siguiente cálculo:

 En situaciones, realice la acción a; Recibe la situación de consecuencia s '; Calcular la emoción de estar en situación de consecuencia v (s '); Actualice la memoria de barra transversal w '(a, s) = w (a, s) + v (s').

El valor retropropagado (refuerzo secundario) es la emoción hacia la situación de consecuencia. El CAA existe en dos ambientes, uno es el ambiente conductual donde se comporta, y el otro es el ambiente genético, donde a partir de él inicialmente y solo una vez recibe emociones iniciales a punto de encontrarse situaciones en el ambiente conductual. Habiendo recibido el vector del genoma (vector de especies) del entorno genético, el CAA aprenderá un comportamiento de búsqueda de objetivos, en el entorno de comportamiento que contiene situaciones deseables e indeseables. [64]

Otro [ editar ]

En un marco bayesiano , se elige una distribución sobre el conjunto de modelos permitidos para minimizar el costo. Los métodos evolutivos , [65] la programación de la expresión génica , [66] el recocido simulado , [67] la maximización de expectativas , los métodos no paramétricos y la optimización del enjambre de partículas [68] son otros algoritmos de aprendizaje. La recursividad convergente es un algoritmo de aprendizaje para las redes neuronales del controlador de articulación del modelo cerebeloso (CMAC). [69] [70]

Modos [ editar ]

Hay dos modos de aprendizaje disponibles: estocástico y por lotes. En el aprendizaje estocástico, cada entrada crea un ajuste de peso. En el aprendizaje por lotes, los pesos se ajustan en función de un lote de entradas, acumulando errores sobre el lote. El aprendizaje estocástico introduce "ruido" en el proceso, utilizando el gradiente local calculado a partir de un punto de datos; esto reduce la posibilidad de que la red se atasque en los mínimos locales. Sin embargo, el aprendizaje por lotes generalmente produce un descenso más rápido y estable hasta un mínimo local, ya que cada actualización se realiza en la dirección del error promedio del lote. Un compromiso común es utilizar "mini lotes", lotes pequeños con muestras en cada lote seleccionadas estocásticamente de todo el conjunto de datos.

Tipos [ editar ]

Las RNA se han convertido en una amplia familia de técnicas que han avanzado el estado del arte en múltiples dominios. Los tipos más simples tienen uno o más componentes estáticos, incluido el número de unidades, el número de capas, los pesos unitarios y la topología . Los tipos dinámicos permiten que uno o más de estos evolucionen a través del aprendizaje. Estos últimos son mucho más complicados, pero pueden acortar los períodos de aprendizaje y producir mejores resultados. Algunos tipos permiten / requieren que el operador "supervise" el aprendizaje, mientras que otros operan de forma independiente. Algunos tipos operan puramente en hardware, mientras que otros son puramente software y se ejecutan en computadoras de propósito general.

Algunos de los principales avances incluyen: redes neuronales convolucionales que han demostrado ser particularmente exitosas en el procesamiento de datos visuales y otros datos bidimensionales; [71] [72] la memoria a corto plazo evita el problema del gradiente de desaparición [73] y puede manejar señales que tienen una combinación de componentes de baja y alta frecuencia que ayudan al reconocimiento de voz de vocabulario extenso, [74] [75] texto a síntesis de voz, [76] [11] [77] y cabezas parlantes fotorrealistas; [78] redes competitivas como las redes generativas de confrontación enen las que múltiples redes (de estructura variable) compiten entre sí, en tareas como ganar un juego [79] o engañar al oponente sobre la autenticidad de una entrada. [80]

Diseño de red [ editar ]

La búsqueda de arquitectura neuronal (NAS) utiliza el aprendizaje automático para automatizar el diseño de ANN. Varios enfoques de NAS han diseñado redes que se comparan bien con los sistemas diseñados a mano. El algoritmo de búsqueda básico es proponer un modelo candidato, evaluarlo contra un conjunto de datos y utilizar los resultados como retroalimentación para enseñar a la red NAS. [81] Los sistemas disponibles incluyen AutoML y AutoKeras. [82]

Los problemas de diseño incluyen decidir el número, el tipo y la conectividad de las capas de red, así como el tamaño de cada una y el tipo de conexión (completa, agrupada, ...).

Los hiperparámetros también deben definirse como parte del diseño (no se aprenden), gobernando asuntos como cuántas neuronas hay en cada capa, tasa de aprendizaje, paso, zancada, profundidad, campo receptivo y relleno (para CNN), etc. [ 83]

Utilice [ editar ]

El uso de redes neuronales artificiales requiere una comprensión de sus características.

  • Elección del modelo: depende de la representación de los datos y la aplicación. Los modelos demasiado complejos ralentizan el aprendizaje.
  • Algoritmo de aprendizaje: existen numerosas compensaciones entre los algoritmos de aprendizaje. Casi cualquier algoritmo funcionará bien con los hiperparámetros correctos para el entrenamiento en un conjunto de datos en particular. Sin embargo, seleccionar y ajustar un algoritmo para el entrenamiento con datos invisibles requiere una experimentación significativa.
  • Robustez: si el modelo, la función de coste y el algoritmo de aprendizaje se seleccionan de forma adecuada, la RNA resultante puede volverse robusta.

Las capacidades de ANN se incluyen en las siguientes categorías generales: [ cita requerida ]

  • Aproximación de funciones o análisis de regresión , incluida la predicción de series de tiempo , la aproximación de aptitud y el modelado.
  • Clasificación , incluido el reconocimiento de patrones y secuencias, la detección de novedades y la toma de decisiones secuencial. [84]
  • Procesamiento de datos , incluido el filtrado, la agrupación en clústeres, la separación y compresión ciegas de fuentes .
  • Robótica , incluida la dirección de manipuladores y prótesis .

Aplicaciones [ editar ]

Debido a su capacidad para reproducir y modelar procesos no lineales, las redes neuronales artificiales han encontrado aplicaciones en muchas disciplinas. Las áreas de aplicación incluyen identificación y control de sistemas (control de vehículos, predicción de trayectoria, [85] control de procesos , gestión de recursos naturales ), química cuántica , [86] juego general , [87] reconocimiento de patrones (sistemas de radar, identificación de rostros , clasificación de señales, [88] Reconstrucción 3D , [89] reconocimiento de objetos y más), reconocimiento de secuencias (gestos, habla, escritura a manoy reconocimiento de texto impreso [90] ), diagnóstico médico , finanzas [91] (por ejemplo , sistemas comerciales automatizados ), extracción de datos , visualización, traducción automática , filtrado de redes sociales [92] y filtrado de correo no deseado . Las RNA se han utilizado para diagnosticar varios tipos de cánceres [93] [94] y para distinguir líneas celulares de cáncer altamente invasivas de líneas menos invasivas utilizando solo información sobre la forma celular. [95] [96]

Las ANN se han utilizado para acelerar el análisis de fiabilidad de las infraestructuras sujetas a desastres naturales [97] [98] y para predecir asentamientos de cimientos. [99] Las ANN también se han utilizado para construir modelos de caja negra en geociencias : hidrología , [100] [101] modelización oceánica e ingeniería costera , [102] [103] y geomorfología . [104] Las ANN se han empleado en ciberseguridad , con el objetivo de discriminar entre actividades legítimas y maliciosas. Por ejemplo, el aprendizaje automático se ha utilizado para clasificar el malware de Android [105].para identificar dominios pertenecientes a agentes de amenazas y para detectar URL que supongan un riesgo para la seguridad. [106] Se están realizando investigaciones sobre sistemas ANN diseñados para pruebas de penetración, para detectar botnets, [107] fraudes con tarjetas de crédito [108] e intrusiones en la red.

Las ANN se han propuesto como una herramienta para resolver ecuaciones diferenciales parciales en física [109] [110] y simular las propiedades de sistemas cuánticos abiertos de muchos cuerpos . [111] [112] [113] [114] En la investigación del cerebro, las ANN han estudiado el comportamiento a corto plazo de neuronas individuales , [115] la dinámica de los circuitos neuronales surge de interacciones entre neuronas individuales y cómo el comportamiento puede surgir de módulos neuronales abstractos que representan subsistemas completos. Los estudios consideraron la plasticidad a corto y largo plazo de los sistemas neuronales y su relación con el aprendizaje y la memoria desde la neurona individual hasta el nivel del sistema.

Propiedades teóricas [ editar ]

Poder computacional [ editar ]

El perceptrón multicapa es un aproximador de función universal , como lo demuestra el teorema de aproximación universal . Sin embargo, la prueba no es constructiva con respecto al número de neuronas necesarias, la topología de la red, los pesos y los parámetros de aprendizaje.

Una arquitectura recurrente específica con pesos racionales valorados (a diferencia de los pesos valorados en números reales de precisión total ) tiene el poder de una máquina de Turing universal , [116] utilizando un número finito de neuronas y conexiones lineales estándar. Además, el uso de valores irracionales para los pesos da como resultado una máquina con un poder super-Turing . [117]

Capacidad [ editar ]

La propiedad de "capacidad" de un modelo corresponde a su capacidad para modelar cualquier función dada. Está relacionado con la cantidad de información que se puede almacenar en la red y con la noción de complejidad. La comunidad conoce dos nociones de capacidad. La capacidad de información y la dimensión VC. La capacidad de información de un perceptrón se analiza intensamente en el libro de Sir David MacKay [118] que resume el trabajo de Thomas Cover. [119] La capacidad de una red de neuronas estándar (no convolucionales) puede derivarse de cuatro reglas [120] que se derivan de la comprensión de una neurona como un elemento eléctrico . La capacidad de información captura las funciones modelables por la red dado cualquier dato como entrada. La segunda noción es laDimensión VC . VC Dimension utiliza los principios de la teoría de la medida y encuentra la capacidad máxima en las mejores circunstancias posibles. Esto es, dados los datos de entrada en una forma específica. Como se indica en [118], la dimensión VC para entradas arbitrarias es la mitad de la capacidad de información de un perceptrón. La dimensión VC para puntos arbitrarios a veces se denomina capacidad de memoria. [121]

Convergencia [ editar ]

Es posible que los modelos no converjan consistentemente en una única solución, en primer lugar porque pueden existir mínimos locales, dependiendo de la función de costo y el modelo. En segundo lugar, es posible que el método de optimización utilizado no garantice la convergencia cuando comienza lejos de cualquier mínimo local. En tercer lugar, para datos o parámetros suficientemente grandes, algunos métodos se vuelven imprácticos.

El comportamiento de convergencia de ciertos tipos de arquitecturas ANN se comprende mejor que otras. Cuando el ancho de la red se acerca al infinito, la RNA está bien descrita por su expansión de Taylor de primer orden a lo largo del entrenamiento y, por lo tanto, hereda el comportamiento de convergencia de los modelos afines . [122] [123] Otro ejemplo es cuando los parámetros son pequeños, se observa que las RNA a menudo se ajustan a las funciones objetivo de frecuencias bajas a altas. [124] [125] [126] [127] Este fenómeno es opuesto al comportamiento de algunos esquemas numéricos iterativos bien estudiados, como el método de Jacobi .

Generalización y estadísticas [ editar ]

Las aplicaciones cuyo objetivo es crear un sistema que generalice bien a ejemplos invisibles, se enfrentan a la posibilidad de sobreentrenamiento. Esto surge en sistemas complicados o sobreespecificados cuando la capacidad de la red excede significativamente los parámetros libres necesarios. Dos enfoques abordan el sobreentrenamiento. La primera es utilizar validación cruzada y técnicas similares para verificar la presencia de sobreentrenamiento y seleccionar hiperparámetros para minimizar el error de generalización.

El segundo es utilizar alguna forma de regularización . Este concepto surge en un marco probabilístico (bayesiano), donde la regularización se puede realizar seleccionando una probabilidad previa mayor sobre modelos más simples; pero también en la teoría del aprendizaje estadístico, donde el objetivo es minimizar más de dos cantidades: el 'riesgo empírico' y el 'riesgo estructural', que corresponde aproximadamente al error sobre el conjunto de entrenamiento y el error predicho en los datos invisibles debido al sobreajuste.

Análisis de confianza de una red neuronal

Las redes neuronales supervisadas que usan una función de costo de error cuadrático medio (MSE) pueden usar métodos estadísticos formales para determinar la confianza del modelo entrenado. El MSE en un conjunto de validación se puede utilizar como una estimación de la varianza. Este valor se puede utilizar para calcular el intervalo de confianza de la salida de la red, asumiendo una distribución normal . Un análisis de confianza realizado de esta manera es estadísticamente válido siempre que la distribución de probabilidad de salida se mantenga igual y la red no se modifique.

Al asignar una función de activación softmax , una generalización de la función logística , en la capa de salida de la red neuronal (o un componente softmax en una red basada en componentes) para variables objetivo categóricas, las salidas se pueden interpretar como probabilidades posteriores. Esto es útil en la clasificación, ya que proporciona una medida de certeza sobre las clasificaciones.

La función de activación de softmax es:


Crítica [ editar ]

Entrenamiento [ editar ]

Una crítica común a las redes neuronales, particularmente en robótica, es que requieren demasiado entrenamiento para operar en el mundo real. [ cita requerida ] Las posibles soluciones incluyen la reproducción aleatoria de ejemplos de entrenamiento, mediante el uso de un algoritmo de optimización numérica que no da pasos demasiado grandes al cambiar las conexiones de red siguiendo un ejemplo, agrupando ejemplos en los llamados mini lotes y / o introduciendo un mínimo recursivo algoritmo de cuadrados para CMAC . [69]

Teoría [ editar ]

Una objeción fundamental es que las RNA no reflejan suficientemente la función neuronal. La retropropagación es un paso crítico, aunque no existe tal mecanismo en las redes neuronales biológicas. [128] Se desconoce cómo codifican la información las neuronas reales. Las neuronas sensoriales disparan potenciales de acción con mayor frecuencia con la activación del sensor y las células musculares tiran con más fuerza cuando sus neuronas motoras asociadas reciben potenciales de acción con mayor frecuencia. [129] Aparte del caso de la transmisión de información de una neurona sensora a una neurona motora, no se conoce casi nada de los principios de cómo la información es manejada por las redes neuronales biológicas.

Un reclamo central de las ANN es que incorporan principios generales nuevos y poderosos para el procesamiento de información. Estos principios están mal definidos. A menudo se afirma que surgen de la propia red. Esto permite que la asociación estadística simple (la función básica de las redes neuronales artificiales) se describa como aprendizaje o reconocimiento. Alexander Dewdney comentó que, como resultado, las redes neuronales artificiales tienen una "cualidad de algo por nada, una que imparte un aura peculiar de pereza y una clara falta de curiosidad sobre lo buenos que son estos sistemas informáticos. Ninguna mano humana (o mente) interviene; las soluciones se encuentran como por arte de magia; y nadie, al parecer, ha aprendido nada ". [130]Una respuesta a Dewdney es que las redes neuronales manejan muchas tareas complejas y diversas, que van desde aviones que vuelan de forma autónoma [131] hasta detectar fraudes con tarjetas de crédito y dominar el juego del Go .

El escritor de tecnología Roger Bridgman comentó:

Las redes neuronales, por ejemplo, están en el banquillo no solo porque han sido promocionadas hasta el cielo (¿qué no?), Sino también porque podrías crear una red exitosa sin entender cómo funcionaba: el montón de números que capturan su el comportamiento sería con toda probabilidad "una tabla opaca, ilegible ... sin valor como recurso científico".

A pesar de su enfática declaración de que la ciencia no es tecnología, Dewdney parece aquí criticar las redes neuronales como mala ciencia cuando la mayoría de los que las idean están tratando de ser buenos ingenieros. Vale la pena tener una tabla ilegible que pueda leer una máquina útil. [132]

Los cerebros biológicos utilizan circuitos tanto superficiales como profundos, según lo informado por la anatomía cerebral, [133] que muestra una amplia variedad de invariancia. Weng [134] argumentó que el cerebro se auto-conecta en gran medida de acuerdo con las estadísticas de señales y, por lo tanto, una cascada en serie no puede detectar todas las dependencias estadísticas importantes.

Hardware [ editar ]

Las redes neuronales grandes y eficaces requieren considerables recursos informáticos. [135] Si bien el cerebro tiene hardware adaptado a la tarea de procesar señales a través de un gráfico de neuronas, simular incluso una neurona simplificada en la arquitectura de von Neumann puede consumir grandes cantidades de memoria y almacenamiento. Además, el diseñador a menudo necesita transmitir señales a través de muchas de estas conexiones y sus neuronas asociadas, lo que requiere una enorme potencia y tiempo de la CPU .

Schmidhuber señaló que el resurgimiento de las redes neuronales en el siglo XXI se puede atribuir en gran medida a los avances en el hardware: de 1991 a 2015, la potencia de cálculo, especialmente la proporcionada por las GPGPU (en las GPU ), se ha multiplicado por un millón, lo que hace que el algoritmo de retropropagación estándar factible para redes de entrenamiento que son varias capas más profundas que antes. [8] El uso de aceleradores como FPGA y GPU puede reducir los tiempos de entrenamiento de meses a días. [136] [135]

La ingeniería neuromórfica aborda directamente la dificultad del hardware mediante la construcción de chips que no son de von Neumann para implementar directamente redes neuronales en los circuitos. Otro tipo de chip optimizado para el procesamiento de redes neuronales se llama Unidad de procesamiento de tensor , o TPU. [137]

Contraejemplos prácticos [ editar ]

Analizar lo aprendido por una ANN es mucho más fácil que analizar lo aprendido por una red neuronal biológica. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios generales que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, aprendizaje local versus no local y arquitectura superficial versus profunda. [138]

Enfoques híbridos [ editar ]

Los defensores de los modelos híbridos (que combinan redes neuronales y enfoques simbólicos) afirman que tal mezcla puede capturar mejor los mecanismos de la mente humana. [139] [140]

Galería [ editar ]

  • Una red neuronal artificial feedforward de una sola capa. Las flechas que se originan en se omiten para mayor claridad. Hay p entradas a esta red y q salidas. En este sistema, el valor de la q-ésima salida se calcularía como

  • Una red neuronal artificial feedforward de dos capas.

  • Una red neuronal artificial.

  • Un gráfico de dependencia ANN.

  • Una red neuronal artificial feedforward de una sola capa con 4 entradas, 6 ocultas y 2 salidas. Valores de control basados ​​en la rueda de salida de estado y dirección de posición dados

  • Una red neuronal artificial feedforward de dos capas con 8 entradas, 2x8 ocultas y 2 salidas. El estado de posición, la dirección y otros valores ambientales dados generan valores de control basados ​​en el propulsor.

  • Estructura de canalización paralela de la red neuronal CMAC. Este algoritmo de aprendizaje puede converger en un solo paso.

Ver también [ editar ]

  • Límites de gran ancho de redes neuronales
  • Memoria temporal jerárquica
  • 20Q
  • ADALINE
  • Teoría de la resonancia adaptativa
  • Vida artificial
  • Memoria asociativa
  • Autoencoder
  • Robótica BEAM
  • Cibernética biológica
  • Computación de inspiración biológica
  • Proyecto Blue Brain
  • Interferencia catastrófica
  • Controlador de articulación modelo cerebeloso (CMAC)
  • Arquitectura cognitiva
  • Ciencia cognitiva
  • Red neuronal convolucional (CNN)
  • Sistema experto conexionista
  • Conectividad
  • Redes neuronales cultivadas
  • Aprendizaje profundo
  • Programación diferenciable
  • Encog
  • Lógica difusa
  • Programación de expresión genética
  • Algoritmo genético
  • Programación genética
  • Método grupal de manejo de datos
  • Habituación
  • Tabulación adaptativa in situ
  • Conceptos de aprendizaje automático
  • Modelos de computación neuronal
  • Neuroevolución
  • Codificación neuronal
  • Gas neural
  • Traducción automática neuronal
  • Software de red neuronal
  • Neurociencia
  • Identificación del sistema no lineal
  • Red neuronal óptica
  • Procesos paralelos de satisfacción de restricciones
  • Procesamiento distribuido en paralelo
  • Red de función de base radial
  • Redes neuronales recurrentes
  • Mapa autoorganizado
  • Red neuronal en aumento
  • Matriz sistólica
  • Red de productos de tensor
  • Red neuronal de retardo de tiempo (TDNN)

Referencias [ editar ]

  1. ^ Chen, Yung-Yao; Lin, Yu-Hsiu; Kung, Chia-Ching; Chung, Ming-Han; Yen, I.-Hsuan (enero de 2019). "Diseño e implementación de medidores de potencia inteligentes asistidos por análisis en la nube que consideran la inteligencia artificial avanzada como análisis de borde en la gestión del lado de la demanda para hogares inteligentes" . Sensores . 19 (9): 2047. doi : 10.3390 / s19092047 . PMC  6539684 . PMID  31052502 .
  2. ^ McCulloch, Warren; Walter Pitts (1943). "Un cálculo lógico de ideas inmanentes a la actividad nerviosa". Boletín de Biofísica Matemática . 5 (4): 115-133. doi : 10.1007 / BF02478259 .
  3. ^ Kleene, Carolina del Sur (1956). "Representación de eventos en redes nerviosas y autómatas finitos" . Anales de estudios matemáticos (34). Prensa de la Universidad de Princeton. págs. 3-41 . Consultado el 17 de junio de 2017 .
  4. ^ Hebb, Donald (1949). La organización del comportamiento . Nueva York: Wiley. ISBN 978-1-135-63190-1.
  5. ^ Farley, BG; WA Clark (1954). "Simulación de Sistemas Autoorganizados por Computadora Digital". Transacciones IRE sobre teoría de la información . 4 (4): 76–84. doi : 10.1109 / TIT.1954.1057468 .
  6. ^ Rosenblatt, F. (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi : 10.1037 / h0042519 . PMID 13602029 .  
  7. ^ Werbos, PJ (1975). Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento .
  8. ↑ a b c Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .  
  9. ^ Ivakhnenko, AG (1973). Dispositivos de predicción cibernéticos . Corporación de Información CCM.
  10. ^ Ivakhnenko, AG; Grigorʹevich Lapa, Valentin (1967). Cibernética y técnicas de previsión . Pub americano Elsevier. Co.
  11. ↑ a b c Schmidhuber, Jürgen (2015). "Aprendizaje profundo" . Scholarpedia . 10 (11): 85-117. Código bibliográfico : 2015SchpJ..1032832S . doi : 10.4249 / scholarpedia.32832 .
  12. ^ Dreyfus, Stuart E. (1 de septiembre de 1990). "Redes neuronales artificiales, retropropagación y el procedimiento de gradiente de Kelley-Bryson". Revista de Orientación, Control y Dinámica . 13 (5): 926–928. Código bibliográfico : 1990JGCD ... 13..926D . doi : 10,2514 / 3,25422 . ISSN 0731-5090 . 
  13. ^ Mizutani, E .; Dreyfus, SE ; Nishio, K. (2000). "Sobre la derivación de la retropropagación MLP de la fórmula de gradiente de control óptimo de Kelley-Bryson y su aplicación". Actas de la Conferencia conjunta internacional IEEE-INNS-ENNS sobre redes neuronales. IJCNN 2000. Computación neuronal: nuevos desafíos y perspectivas para el nuevo milenio . IEEE: 167-172 vol.2. doi : 10.1109 / ijcnn.2000.857892 . ISBN 0-7695-0619-4. S2CID  351146 .
  14. ^ Kelley, Henry J. (1960). "Teoría de gradientes de trayectorias de vuelo óptimas". Revista ARS . 30 (10): 947–954. doi : 10,2514 / 8,5282 .
  15. ^ "Un método de gradiente para optimizar los procesos de asignación de múltiples etapas". Actas de la Universidad de Harvard. Simposio sobre computadoras digitales y sus aplicaciones . Abril de 1961.
  16. ^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6–7.
  17. ^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas numéricas . 16 (2): 146–160. doi : 10.1007 / bf01931367 . S2CID 122357351 . 
  18. ^ Dreyfus, Stuart (1973). "La solución computacional de problemas de control óptimo con desfase temporal". Transacciones IEEE sobre control automático . 18 (4): 383–385. doi : 10.1109 / tac.1973.1100330 .
  19. ^ Werbos, Paul (1982). "Aplicaciones de los avances en el análisis de sensibilidad no lineal" (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770.
  20. ^ Minsky, Marvin; Papert, Seymour (1969). Perceptrones: una introducción a la geometría computacional . MIT Press. ISBN 978-0-262-63022-1.
  21. ^ Hidromiel, Carver A .; Ismail, Mohammed (8 de mayo de 1989). Implementación VLSI analógica de sistemas neuronales (PDF) . Serie internacional de Kluwer en ingeniería y ciencias de la computación. 80 . Norwell, MA: Kluwer Academic Publishers . doi : 10.1007 / 978-1-4613-1639-8 . ISBN  978-1-4613-1639-8.
  22. ^ David E. Rumelhart, Geoffrey E. Hinton y Ronald J. Williams, " Representaciones de aprendizaje mediante errores de retropropagación ," Nature ', 323, páginas 533–536 1986.
  23. ^ J. Weng, N. Ahuja y TS Huang, " Cresceptron: una red neuronal autoorganizada que crece de forma adaptativa ", Proc. Conferencia conjunta internacional sobre redes neuronales , Baltimore, Maryland, vol I, págs. 576–581, junio de 1992.
  24. ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D ", Proc. 4ta Conf. Internacional Computer Vision , Berlín, Alemania, págs. 121-128, mayo de 1993.
  25. ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación mediante el Cresceptron ", Revista Internacional de Visión por Computadora , vol. 25, no. 2, págs. 105-139, noviembre de 1997.
  26. ^ J. Schmidhuber., " Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión de la historia ", Computación neuronal , 4, págs. 234–242, 1992.
  27. ^ Smolensky, P. (1986). "Procesamiento de información en sistemas dinámicos: Fundamentos de la teoría de la armonía". . En DE Rumelhart; JL McClelland; Grupo de Investigación PDP (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición . 1 . págs.  194-281 . ISBN 978-0-262-68053-0.
  28. ^ Ng, Andrew; Dean, Jeff (2012). "Creación de funciones de alto nivel mediante el aprendizaje no supervisado a gran escala". arXiv : 1112,6209 [ cs.LG ].
  29. ^ Ian Goodfellow y Yoshua Bengio y Aaron Courville (2016). Aprendizaje profundo . MIT Press.
  30. ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales simples, grandes y profundas para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi : 10.1162 / neco_a_00052 . ISSN 0899-7667 . PMID 20858131 . S2CID 1918673 .   
  31. ^ Dominik Scherer, Andreas C. Müller y Sven Behnke: " Evaluación de operaciones de agrupación en arquitecturas convolucionales para el reconocimiento de objetos ", en la 20ª Conferencia Internacional sobre redes neuronales artificiales (ICANN) , págs. 92-101, 2010. doi : 10.1007 / 978 -3-642-15825-4_10 .
  32. ^ 2012 Kurzweil AI Interview Archivada el 31 de agosto de 2018 en Wayback Machine con Jürgen Schmidhuber sobre las ocho competiciones ganadas por su equipo de Deep Learning 2009-2012
  33. ^ "Cómo el aprendizaje profundo bioinspirado sigue ganando competencias | KurzweilAI" . www.kurzweilai.net . Archivado desde el original el 31 de agosto de 2018 . Consultado el 16 de junio de 2017 .
  34. ^ Tumbas, Alex; y Schmidhuber, Jürgen; Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales , en Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; y Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7-10 de diciembre de 2009, Vancouver, BC , Neural Information Processing Systems (NIPS) Foundation, 2009, págs. 545–552.
  35. ^ a b Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (2009). "Un nuevo sistema conexionista para un mejor reconocimiento de escritura sin restricciones" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .    
  36. ^ a b Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, editor de Chris, KI; Culotta, Aron (eds.). "Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales" . Fundación de sistemas de procesamiento de información neuronal (NIPS) . Curran Associates, Inc: 545–552.
  37. ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura sin restricciones". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .    
  38. ^ Ciresan, Dan; Meier, U .; Schmidhuber, J. (junio de 2012). Redes neuronales profundas de varias columnas para clasificación de imágenes . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . Código bibliográfico : 2012arXiv1202.2745C . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / cvpr.2012.6248110 . ISBN  978-1-4673-1228-8. S2CID  2161592 .
  39. ↑ a b c d Zell, Andreas (2003). "capítulo 5.2". Neuronaler de simulación Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC  249017987 .
  40. ^ Inteligencia artificial (3ª ed.). Addison-Wesley Pub. Co. 1992. ISBN 0-201-53377-4.
  41. ^ "El diccionario de aprendizaje automático" . www.cse.unsw.edu.au . Archivado desde el original el 26 de agosto de 2018 . Consultado el 4 de noviembre de 2009 .
  42. ^ Abbod, Maysam F (2007). "Aplicación de la Inteligencia Artificial al Manejo del Cáncer Urológico". La Revista de Urología . 178 (4): 1150-1156. doi : 10.1016 / j.juro.2007.05.122 . PMID 17698099 . 
  43. ^ DAWSON, CHRISTIAN W (1998). "Un enfoque de red neuronal artificial para el modelado de lluvia-escorrentía". Revista de Ciencias Hidrológicas . 43 (1): 47–66. doi : 10.1080 / 02626669809492102 .
  44. ^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Redes neuronales convolucionales flexibles de alto rendimiento para clasificación de imágenes" (PDF) . Actas de la Vigésima Segunda Conferencia Conjunta Internacional sobre Inteligencia Artificial - Volumen Dos . 2 : 1237-1242 . Consultado el 17 de noviembre de 2013 .
  45. ^ Zell, Andreas (1994). Simulation Neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. pag. 73. ISBN 3-89319-554-8.
  46. ^ Miljanovic, Milos (febrero-marzo de 2012). "Análisis comparativo de redes neuronales de respuesta de impulso finito y recurrente en la predicción de series de tiempo" (PDF) . Revista India de Computación e Ingeniería . 3 (1).
  47. ^ Lau, Suki (10 de julio de 2017). "Un recorrido por la red neuronal convolucional - ajuste de hiperparámetros" . Medio . Consultado el 23 de agosto de 2019 .
  48. ^ Li, Y .; Fu, Y .; Li, H .; Zhang, SW (1 de junio de 2009). El algoritmo de entrenamiento mejorado de la red neuronal de propagación hacia atrás con tasa de aprendizaje autoadaptable . 2009 Congreso Internacional de Inteligencia Computacional y Computación Natural . 1 . págs. 73–76. doi : 10.1109 / CINC.2009.111 . ISBN 978-0-7695-3645-3. S2CID  10557754 .
  49. ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Máquina de aprendizaje extremo: teoría y aplicaciones". Neurocomputación . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016 / j.neucom.2005.12.126 . 
  50. ^ Widrow, Bernard; et al. (2013). "El algoritmo no-prop: un nuevo algoritmo de aprendizaje para redes neuronales multicapa". Redes neuronales . 37 : 182-188. doi : 10.1016 / j.neunet.2012.09.020 . PMID 23140797 . 
  51. ^ Ollivier, Yann; Charpiat, Guillaume (2015). "Entrenando redes recurrentes sin dar marcha atrás". arXiv : 1507.07680 [ cs.NE ].
  52. ^ ESANN. 2009
  53. ^ Hinton, GE (2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas" . Tech. Rep. UTML TR 2010-003 .
  54. ^ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). "Diseño metaheurístico de redes neuronales feedforward: una revisión de dos décadas de investigación". Aplicaciones de ingeniería de la inteligencia artificial . 60 : 97-116. arXiv : 1705.05584 . Código Bib : 2017arXiv170505584O . doi : 10.1016 / j.engappai.2017.01.013 . S2CID 27910748 . 
  55. Dominic, S .; Das, R .; Whitley, D .; Anderson, C. (julio de 1991). "Aprendizaje por refuerzo genético para redes neuronales" . IJCNN-91-Seattle International Joint Conference on Neural Networks . IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, Estados Unidos: IEEE. doi : 10.1109 / IJCNN.1991.155315 . ISBN 0-7803-0164-1.
  56. ^ Hoskins, JC; Himmelblau, DM (1992). "Control de procesos mediante redes neuronales artificiales y aprendizaje por refuerzo". Computación e Ingeniería Química . 16 (4): 241-251. doi : 10.1016 / 0098-1354 (92) 80045-B .
  57. ^ Bertsekas, DP; Tsitsiklis, JN (1996). Programación neurodinámica . Athena Scientific. pag. 512. ISBN 978-1-886529-10-6.
  58. ^ Secomandi, Nicola (2000). "Comparación de algoritmos de programación neurodinámica para el problema de enrutamiento de vehículos con demandas estocásticas". Investigación de Computación y Operaciones . 27 (11-12): 1201-1225. CiteSeerX 10.1.1.392.4034 . doi : 10.1016 / S0305-0548 (99) 00146-X . 
  59. de Rigo, D .; Rizzoli, AE; Soncini-Sessa, R .; Weber, E .; Zenesi, P. (2001). "Programación neurodinámica para la gestión eficiente de redes de embalses". Actas de MODSIM 2001, Congreso Internacional de Modelado y Simulación . MODSIM 2001, Congreso Internacional de Modelado y Simulación . Canberra, Australia: Sociedad de Modelado y Simulación de Australia y Nueva Zelanda. doi : 10.5281 / zenodo.7481 . ISBN 0-86740-525-2.
  60. Damas, M .; Salmeron, M .; Díaz, A .; Ortega, J .; Prieto, A .; Olivares, G. (2000). "Algoritmos genéticos y programación neurodinámica: aplicación a redes de abastecimiento de agua". Actas del Congreso de 2000 sobre Computación Evolutiva . 2000 Congreso de Computación Evolutiva. La Jolla, California, Estados Unidos: IEEE. doi : 10.1109 / CEC.2000.870269 . ISBN 0-7803-6375-2.
  61. ^ Deng, Geng; Ferris, MC (2008). Programación neurodinámica para la planificación fraccionada de radioterapia . Optimización de Springer y sus aplicaciones. 12 . págs. 47–70. CiteSeerX 10.1.1.137.8288 . doi : 10.1007 / 978-0-387-73299-2_3 . ISBN  978-0-387-73298-5.
  62. ^ Bozinovski, S. (1982). "Un sistema de autoaprendizaje mediante refuerzo secundario". En R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. Holanda Septentrional. págs. 397–402. ISBN 978-0-444-86488-8 . 
  63. ^ Bozinovski, S. (2014) " Modelado de mecanismos de interacción cognición-emoción en redes neuronales artificiales, desde 1981 ". Procedia Computer Science p. 255-263
  64. ^ Bozinovski, Stevo; Bozinovska, Liljana (2001). "Agentes de autoaprendizaje: una teoría conexionista de la emoción basada en el juicio de valor transversal". Cibernética y Sistemas . 32 (6): 637–667. doi : 10.1080 / 01969720118145 . S2CID 8944741 . 
  65. de Rigo, D .; Castelletti, A .; Rizzoli, AE; Soncini-Sessa, R .; Weber, E. (enero de 2005). "Una técnica de mejora selectiva para la fijación de la programación neurodinámica en la gestión de redes de recursos hídricos" . En Pavel Zítek (ed.). Actas del 16º Congreso Mundial de IFAC - IFAC-PapersOnLine . 16º Congreso Mundial de IFAC . 16 . Praga, República Checa: IFAC. doi : 10.3182 / 20050703-6-CZ-1902.02172 . hdl : 11311/255236 . ISBN 978-3-902661-75-3. Consultado el 30 de diciembre de 2011 .
  66. ^ Ferreira, C. (2006). "Diseño de redes neuronales mediante programación de expresión génica" (PDF) . En A. Abraham, B. de Baets, M. Köppen y B. Nickolay, eds., Tecnologías de computación blanda aplicadas: El desafío de la complejidad, páginas 517–536, Springer-Verlag.
  67. ^ Da, Y .; Xiurun, G. (julio de 2005). T. Villmann (ed.). Una RNA basada en PSO mejorada con técnica de recocido simulado . Nuevos aspectos de la neurocomputación: XI Simposio europeo sobre redes neuronales artificiales . Elsevier. doi : 10.1016 / j.neucom.2004.07.002 .
  68. ^ Wu, J .; Chen, E. (mayo de 2009). Wang, H .; Shen, Y .; Huang, T .; Zeng, Z. (eds.). Un nuevo conjunto de regresión no paramétrica para la predicción de precipitaciones utilizando una técnica de optimización de enjambres de partículas junto con una red neuronal artificial . VI Simposio Internacional de Redes Neuronales, ISNN 2009 . Saltador. doi : 10.1007 / 978-3-642-01513-7-6 . ISBN 978-3-642-01215-0.
  69. ^ a b Ting Qin, et al. " Un algoritmo de aprendizaje de CMAC basado en RLS ". Neural Processing Letters 19.1 (2004): 49–61.
  70. ^ Ting Qin, et al. " CMAC-QRLS continuo y su matriz sistólica ". Cartas de procesamiento neuronal 22.1 (2005): 1-16.
  71. ^ LeCun y col. , "Retropropagación aplicada al reconocimiento del código postal escrito a mano", Computación neuronal , 1, págs. 541–551, 1989.
  72. ^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea
  73. ^ Hochreiter, Sepp ; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a corto plazo". Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . ISSN 0899-7667 . PMID 9377276 . S2CID 1915014 .   
  74. ^ Sak, Hasim; Mayor, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a largo plazo a corto plazo para el modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
  75. ^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a corto plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [ cs.CL ].
  76. ^ Ventilador, Y .; Qian, Y .; Xie, F .; Soong, FK (2014). "Síntesis TTS con redes neuronales recurrentes basadas en LSTM bidireccionales" . Actas de la Conferencia Anual de la Asociación Internacional de Comunicación de Discursos, Interspeech : 1964–1968 . Consultado el 13 de junio de 2017 .
  77. ^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente de memoria a corto plazo unidireccional con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASSP. págs. 4470–4474.
  78. ^ Fan, Bo; Wang, Lijuan; Soong, Frank K .; Xie, Lei (2015). "Cabezal parlante foto-real con LSTM bidireccional profundo" (PDF) . Actas de ICASSP .
  79. ^ Plata, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi por auto-juego con un algoritmo de aprendizaje de refuerzo general". arXiv : 1712.01815 [ cs.AI ].
  80. ^ Buen amigo, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas antagónicas (PDF) . Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS 2014). págs. 2672–2680.
  81. ^ Zoph, Barret; Le, Quoc V. (4 de noviembre de 2016). "Búsqueda de arquitectura neuronal con aprendizaje por refuerzo". arXiv : 1611.01578 [ cs.LG ].
  82. ^ "AutoKeras" . autokeras.com . Consultado el 21 de agosto de 2019 .
  83. ^ "Claesen, Marc y Bart De Moor." Búsqueda de hiperparámetros en el aprendizaje automático. "Preprint arXiv arXiv: 1502.02127 (2015)". arXiv : 1502.02127 . Código bibliográfico : 2015arXiv150202127C .
  84. ^ Turek, Fred D. (marzo de 2007). "Introducción a la visión artificial de la red neuronal" . Diseño de sistemas de visión . 12 (3) . Consultado el 5 de marzo de 2013 .
  85. ^ Zissis, Dimitrios (octubre de 2015). "Una arquitectura basada en la nube capaz de percibir y predecir el comportamiento de múltiples embarcaciones" . Soft Computing aplicado . 35 : 652–661. doi : 10.1016 / j.asoc.2015.07.002 .
  86. ^ Roman M. Balabin ; Ekaterina I. Lomakina (2009). "Enfoque de red neuronal a datos de química cuántica: predicción precisa de energías de teoría funcional de densidad". J. Chem. Phys. 131 (7): 074104. Código Bibliográfico : 2009JChPh.131g4104B . doi : 10.1063 / 1.3206326 . PMID 19708729 .  
  87. ^ Plata, David; et al. (2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árbol" (PDF) . Naturaleza . 529 (7587): 484–9. Código Bibliográfico : 2016Natur.529..484S . doi : 10.1038 / nature16961 . PMID 26819042 . S2CID 515925 .   
  88. ^ Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (agosto de 2016). "Clasificación del sonido pulmonar utilizando características estadísticas basadas en cepstral". Informática en Biología y Medicina . 75 (1): 118-129. doi : 10.1016 / j.compbiomed.2016.05.013 . PMID 27286184 . 
  89. ^ Choy, Christopher B., et al. " 3d-r2n2: un enfoque unificado para la reconstrucción de objetos 3d de una o varias vistas ". Conferencia europea sobre visión artificial. Springer, Cham, 2016.
  90. ^ Maitra, DS; Bhattacharya, U .; Parui, SK (agosto de 2015). "Enfoque común basado en CNN para el reconocimiento de caracteres escritos a mano de varios guiones" . 2015 Decimotercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) : 1021–1025. doi : 10.1109 / ICDAR.2015.7333916 .
  91. ^ Francés, Jordan (2016). "El CAPM del viajero en el tiempo". Revista de analistas de inversiones . 46 (2): 81–96. doi : 10.1080 / 10293523.2016.1255469 . S2CID 157962452 . 
  92. ^ Schechner, Sam (15 de junio de 2017). "Facebook impulsa la inteligencia artificial para bloquear la propaganda terrorista" . Wall Street Journal . ISSN 0099-9660 . Consultado el 16 de junio de 2017 . 
  93. ^ Ganesan, N (2010). "Aplicación de redes neuronales en el diagnóstico de cáncer mediante datos demográficos" . Revista Internacional de Aplicaciones Informáticas . 1 (26): 81–97. Código Bibliográfico : 2010IJCA .... 1z..81G . doi : 10.5120 / 476-783 .
  94. ^ Bottaci, Leonardo (1997). "Redes neuronales artificiales aplicadas a la predicción de resultados para pacientes con cáncer colorrectal en instituciones independientes" (PDF) . Lancet . La lanceta. 350 (9076): 469–72. doi : 10.1016 / S0140-6736 (96) 11196-X . PMID 9274582 . S2CID 18182063 . Archivado desde el original (PDF) el 23 de noviembre de 2018 . Consultado el 2 de mayo de 2012 .   
  95. ^ Alizadeh, Elaheh; Lyons, Samanthe M; Castillo, Jordan M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos de Zernike" . Biología integrativa . 8 (11): 1183-1193. doi : 10.1039 / C6IB00100A . PMID 27735002 . 
  96. ^ Lyon, Samanthe (2016). "Los cambios en la forma celular se correlacionan con el potencial metastásico en murinos" . Biología Abierta . 5 (3): 289–299. doi : 10.1242 / bio.013409 . PMC 4810736 . PMID 26873952 .  
  97. ^ Nabian, Mohammad Amin; Meidani, Hadi (28 de agosto de 2017). "Aprendizaje profundo para análisis de confiabilidad acelerado de redes de infraestructura". Ingeniería Civil y de Infraestructuras Asistida por Computadora . 33 (6): 443–458. arXiv : 1708.08551 . Código Bib : 2017arXiv170808551N . doi : 10.1111 / mice.12359 . S2CID 36661983 . 
  98. ^ Nabian, Mohammad Amin; Meidani, Hadi (2018). "Aceleración de la evaluación estocástica de la conectividad de la red de transporte posterior al terremoto a través de sustitutos basados ​​en el aprendizaje automático" . Reunión Anual 97a Transportation Research Board .
  99. ^ Díaz, E .; Brotons, V .; Tomás, R. (septiembre de 2018). "Uso de redes neuronales artificiales para predecir el asentamiento elástico 3-D de cimientos en suelos con lecho rocoso inclinado" . Suelos y Cimentaciones . 58 (6): 1414-1422. doi : 10.1016 / j.sandf.2018.08.001 . hdl : 10045/81208 . ISSN 0038-0806 . 
  100. ^ null null (1 de abril de 2000). "Redes neuronales artificiales en hidrología. I: Conceptos preliminares". Revista de Ingeniería Hidrológica . 5 (2): 115-123. CiteSeerX 10.1.1.127.3861 . doi : 10.1061 / (ASCE) 1084-0699 (2000) 5: 2 (115) . 
  101. ^ null null (1 de abril de 2000). "Redes neuronales artificiales en hidrología. II: Aplicaciones hidrológicas". Revista de Ingeniería Hidrológica . 5 (2): 124-137. doi : 10.1061 / (ASCE) 1084-0699 (2000) 5: 2 (124) .
  102. ^ Peres, DJ; Iuppa, C .; Cavallaro, L .; Cancelliere, A .; Foti, E. (1 de octubre de 2015). "Extensión de registro de altura de ola significativa por redes neuronales y reanálisis de datos de viento". Modelado de océanos . 94 : 128-140. Código bibliográfico : 2015OcMod..94..128P . doi : 10.1016 / j.ocemod.2015.08.002 .
  103. ^ Dwarakish, GS; Rakshith, Shetty; Natesan, Usha (2013). "Revisión sobre aplicaciones de redes neuronales en ingeniería costera" . Sistemas inteligentes artificiales y aprendizaje automático . 5 (7): 324–331.
  104. Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 de marzo de 2005). "Redes neuronales artificiales aplicadas a la evaluación de la susceptibilidad a los deslizamientos de tierra". Geomorfología . Riesgo geomorfológico e impacto humano en entornos montañosos. 66 (1): 327–343. Código bibliográfico : 2005Geomo..66..327E . doi : 10.1016 / j.geomorph.2004.09.025 .
  105. ^ Nix, R .; Zhang, J. (mayo de 2017). "Clasificación de aplicaciones de Android y malware mediante redes neuronales profundas". 2017 Conferencia conjunta internacional sobre redes neuronales (IJCNN) : 1871–1878. doi : 10.1109 / IJCNN.2017.7966078 . ISBN 978-1-5090-6182-2. S2CID  8838479 .
  106. ^ "Detección de URL maliciosas" . El grupo de sistemas y redes de UCSD . Archivado desde el original el 14 de julio de 2019 . Consultado el 15 de febrero de 2019 .
  107. ^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (eds.), "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber ​​Threat Intelligence , Advances in Information Security, Springer International Publishing, págs. 137-153, doi : 10.1007 / 978-3-319- 73951-9_7 , ISBN 978-3-319-73951-9
  108. ^ y (enero de 1994). "Detección de fraudes de tarjetas de crédito con una red neuronal". 1994 Actas de la Vigésima Séptima Conferencia Internacional de Ciencias de Sistemas de Hawai . 3 : 621–630. doi : 10.1109 / HICSS.1994.323314 . ISBN 978-0-8186-5090-1. S2CID  13260377 .
  109. ^ "AI ha resuelto un rompecabezas matemático clave para comprender nuestro mundo" . Revisión de tecnología del MIT . Consultado el 19 de noviembre de 2020 .
  110. ^ "AI de fuentes abiertas de Caltech para resolver ecuaciones diferenciales parciales" . InfoQ . Consultado el 20 de enero de 2021 .
  111. ^ Nagy, Alexandra (28 de junio de 2019). "Método de Monte Carlo cuántico variacional con un Ansatz de red neuronal para sistemas cuánticos abiertos". Cartas de revisión física . 122 (25): 250501. arXiv : 1902.09483 . Código bibliográfico : 2019PhRvL.122y0501N . doi : 10.1103 / PhysRevLett.122.250501 . PMID 31347886 . S2CID 119074378 .  
  112. ^ Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28 de junio de 2019). "Construcción de estados estacionarios neuronales para sistemas cuánticos abiertos de muchos cuerpos". Physical Review B . 99 (21): 214306. arXiv : 1902.07006 . Código bibliográfico : 2019arXiv190207006Y . doi : 10.1103 / PhysRevB.99.214306 . S2CID 119470636 . 
  113. ^ Hartmann, Michael J .; Carleo, Giuseppe (28 de junio de 2019). "Enfoque de red neuronal a la dinámica cuántica disipativa de muchos cuerpos". Cartas de revisión física . 122 (25): 250502. arXiv : 1902.05131 . Código bibliográfico : 2019arXiv190205131H . doi : 10.1103 / PhysRevLett.122.250502 . PMID 31347862 . S2CID 119357494 .  
  114. Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28 de junio de 2019). "Ansatz de red neuronal variacional para estados estacionarios en sistemas cuánticos abiertos". Cartas de revisión física . 122 (25): 250503. arXiv : 1902.10104 . Código bibliográfico : 2019arXiv190210104V . doi : 10.1103 / PhysRevLett.122.250503 . PMID 31347877 . S2CID 119504484 .  
  115. ^ Forrest MD (abril de 2015). "Simulación de la acción del alcohol en un modelo detallado de neuronas de Purkinje y un modelo sustituto más simple que se ejecuta> 400 veces más rápido" . BMC Neuroscience . 16 (27): 27. doi : 10.1186 / s12868-015-0162-6 . PMC 4417229 . PMID 25928094 .  
  116. ^ Siegelmann, HT; Sontag, ED (1991). "Computabilidad de Turing con redes neuronales" (PDF) . Apl. Matemáticas. Lett . 4 (6): 77–80. doi : 10.1016 / 0893-9659 (91) 90080-F .
  117. ^ Balcázar, José (julio de 1997). "Poder computacional de las redes neuronales: una caracterización de la complejidad de Kolmogorov". Transacciones IEEE sobre teoría de la información . 43 (4): 1175-1183. CiteSeerX 10.1.1.411.7782 . doi : 10.1109 / 18.605580 . 
  118. ↑ a b MacKay, David, JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . ISBN  978-0-521-64298-9.
  119. ^ Portada, Thomas (1965). "Propiedades geométricas y estadísticas de sistemas de desigualdades lineales con aplicaciones en el reconocimiento de patrones" (PDF) . Transacciones IEEE en computadoras electrónicas . IEEE (3): 326–334. doi : 10.1109 / PGEC.1965.264137 .
  120. ^ Gerald, Friedland (2019). "Reproducibilidad y Diseño Experimental para Aprendizaje Automático sobre Datos de Audio y Multimedia". MM '19: Actas de la 27ª Conferencia Internacional ACM sobre Multimedia . ACM : 2709–2710. doi : 10.1145 / 3343031.3350545 . ISBN 978-1-4503-6889-6. S2CID  204837170 .
  121. ^ "El medidor de Tensorflow" .
  122. ^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (15 de febrero de 2018). "Las redes neuronales anchas de cualquier profundidad evolucionan como modelos lineales en pendiente descendente". arXiv : 1902.06720 . Cite journal requires |journal= (help)
  123. ^ [1] , Núcleo tangente neuronal: convergencia y generalización en redes neuronales.
  124. ^ [2] , Comportamiento de entrenamiento de la red neuronal profunda en el dominio de frecuencia.
  125. ^ [3] , Sobre el sesgo espectral de las redes neuronales.
  126. ^ [4] , Principio de frecuencia: el análisis de Fourier arroja luz sobre las redes neuronales profundas.
  127. ^ [5] , Teoría del principio de frecuencia para redes neuronales profundas generales.
  128. ^ Crick, Francis (1989). "El reciente entusiasmo por las redes neuronales". Naturaleza . 337 (6203): 129-132. Código bibliográfico : 1989Natur.337..129C . doi : 10.1038 / 337129a0 . PMID 2911347 . S2CID 5892527 .  
  129. ^ Adrian, Edward D. (1926). "Los impulsos producidos por las terminaciones nerviosas sensoriales" . La revista de fisiología . 61 (1): 49–72. doi : 10.1113 / jphysiol.1926.sp002273 . PMC 1514809 . PMID 16993776 .  
  130. ^ Dewdney, AK (1 de abril de 1997). Sí, no tenemos neutrones: un recorrido revelador a través de los giros y vueltas de la mala ciencia . Wiley. pag. 82. ISBN 978-0-471-10806-1.
  131. ^ NASA - Dryden Flight Research Center - Sala de noticias: Comunicados de prensa: EL PROYECTO DE RED NEURAL DE LA NASA PASA UN HITO . Nasa.gov. Consultado el 20 de noviembre de 2013.
  132. ^ "Defensa de las redes neuronales de Roger Bridgman" . Archivado desde el original el 19 de marzo de 2012 . Consultado el 12 de julio de 2010 .
  133. ^ DJ Felleman y DC Van Essen, " Procesamiento jerárquico distribuido en la corteza cerebral de primates ", Cerebral Cortex , 1, págs. 1-47, 1991.
  134. ^ J. Weng, " Inteligencia natural y artificial: Introducción al cerebro-mente computacional ", BMI Press, ISBN 978-0-9858757-2-5 , 2012. 
  135. ↑ a b Edwards, Chris (25 de junio de 2015). "Dolores de crecimiento para el aprendizaje profundo". Comunicaciones de la ACM . 58 (7): 14–16. doi : 10.1145 / 2771283 . S2CID 11026540 . 
  136. ^ " Una encuesta de aceleradores basados ​​en FPGA para redes neuronales convolucionales ", NCAA, 2018
  137. ^ Cade Metz (18 de mayo de 2016). "Google construyó sus propios chips para impulsar sus bots de inteligencia artificial" . Cableado .
  138. ^ "Escala de algoritmos de aprendizaje hacia {AI} - LISA - Publicaciones - Aigaion 2.0" . www.iro.umontreal.ca .
  139. ^ Sun y Bookman (1990)
  140. ^ Tahmasebi; Hezarkhani (2012). "Un algoritmo genético-lógico difuso de redes neuronales híbridas para la estimación de grado" . Informática y Geociencias . 42 : 18-27. Bibcode : 2012CG ..... 42 ... 18T . doi : 10.1016 / j.cageo.2012.02.004 . PMC 4268588 . PMID 25540468 .  

Bibliografía [ editar ]

  • Bhadeshia HKDH (1999). "Redes neuronales en ciencia de materiales" (PDF) . ISIJ Internacional . 39 (10): 966–979. doi : 10.2355 / isijinternational.39.966 .
  • Obispo, Christopher M. (1995). Redes neuronales para el reconocimiento de patrones . Prensa de Clarendon. ISBN 978-0-19-853849-3. OCLC  33101074 .
  • Borgelt, Christian (2003). Neuro-Fuzzy-Systeme: von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen . Vieweg. ISBN 978-3-528-25265-6. OCLC  76538146 .
  • Cybenko, GV (2006). "Aproximación por superposiciones de una función sigmoidea" . En van Schuppen, Jan H. (ed.). Matemáticas de Control, Señales y Sistemas . Springer International. págs. 303–314. PDF
  • Dewdney, AK (1997). Sí, no tenemos neutrones: un recorrido revelador a través de los giros y vueltas de la mala ciencia . Nueva York: Wiley. ISBN 978-0-471-10806-1. OCLC  35558945 .
  • Duda, Richard O .; Hart, Peter Elliot; Cigüeña, David G. (2001). Clasificación de patrones (2 ed.). Wiley. ISBN 978-0-471-05669-0. OCLC  41347061 .
  • Egmont-Petersen, M .; de Ridder, D .; Handels, H. (2002). "Procesamiento de imágenes con redes neuronales - una revisión". Reconocimiento de patrones . 35 (10): 2279–2301. CiteSeerX  10.1.1.21.5444 . doi : 10.1016 / S0031-3203 (01) 00178-9 .
  • Fahlman, S .; Lebiere, C (1991). "La arquitectura de aprendizaje de correlación en cascada" (PDF) .
    • creado para la Fundación Nacional de Ciencias , Contrato Número EET-8716324, y la Agencia de Proyectos de Investigación Avanzada de Defensa (DOD), Orden ARPA No. 4976 bajo el Contrato F33615-87-C-1499.
  • Gurney, Kevin (1997). Introducción a las redes neuronales . Prensa UCL. ISBN 978-1-85728-673-1. OCLC  37875698 .
  • Haykin, Simon S. (1999). Redes neuronales: una base integral . Prentice Hall. ISBN 978-0-13-273350-2. OCLC  38908586 .
  • Hertz, J .; Palmer, Richard G .; Krogh, Anders S. (1991). Introducción a la teoría de la computación neuronal . Addison-Wesley. ISBN 978-0-201-51560-2. OCLC  21522159 .
  • Teoría de la información, inferencia y algoritmos de aprendizaje . Prensa de la Universidad de Cambridge. 25 de septiembre de 2003. bibcode : 2003itil.book ..... M . ISBN 978-0-521-64298-9. OCLC  52377690 .
  • Kruse, Rudolf; Borgelt, cristiano; Klawonn, F .; Moewes, Christian; Steinbrecher, Matthias; Celebrado, Pascal (2013). Inteligencia computacional: una introducción metodológica . Saltador. ISBN 978-1-4471-5012-1. OCLC  837524179 .
  • Lawrence, Jeanette (1994). Introducción a las redes neuronales: diseño, teoría y aplicaciones . Software científico de California. ISBN 978-1-883157-00-5. OCLC  32179420 .
  • MacKay, David, JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . ISBN 978-0-521-64298-9.
  • Masters, Timothy (1994). Procesamiento de señales e imágenes con redes neuronales: un libro de consulta de C ++ . J. Wiley. ISBN 978-0-471-04963-0. OCLC  29877717 .
  • Ripley, Brian D. (2007). Reconocimiento de patrones y redes neuronales . Prensa de la Universidad de Cambridge. ISBN 978-0-521-71770-0.
  • Siegelmann, HT; Sontag, Eduardo D. (1994). "Computación analógica a través de redes neuronales". Informática Teórica . 131 (2): 331–360. doi : 10.1016 / 0304-3975 (94) 90178-3 . S2CID  2456483 .
  • Smith, Murray (1993). Redes neuronales para modelado estadístico . Van Nostrand Reinhold. ISBN 978-0-442-01310-3. OCLC  27145760 .
  • Wasserman, Philip D. (1993). Métodos avanzados en computación neuronal . Van Nostrand Reinhold. ISBN 978-0-442-00461-3. OCLC  27429729 .
  • Wilson, Halsey (2018). Inteligencia artificial . Editorial de la Casa Gris. ISBN 978-1-68217-867-6.

Enlaces externos [ editar ]

  • El zoológico de redes neuronales : una recopilación de tipos de redes neuronales
  • El cerebro de Stilwell : un episodio de Mind Field que presenta un experimento en el que los humanos actúan como neuronas individuales en una red neuronal que clasifica los dígitos escritos a mano.