El aprendizaje profundo (también conocido como aprendizaje estructurado profundo ) es parte de una familia más amplia de métodos de aprendizaje automático basados en redes neuronales artificiales con aprendizaje de representación . El aprendizaje puede ser supervisado , semi-supervisado o no supervisado . [1] [2] [3]
Arquitecturas profunda-aprendizaje tales como redes profundas neuronales , redes de creencias profundas , las redes neuronales gráfico , redes neuronales recurrentes y redes neuronales convolucionales han sido aplicados a campos, incluyendo la visión artificial , reconocimiento de voz , procesamiento del lenguaje natural , la traducción automática , la bioinformática , diseño de fármacos , medicina programas de análisis de imágenes , inspección de materiales y juegos de mesa , donde han producido resultados comparables y, en algunos casos, superiores al desempeño de los expertos humanos. [4][5] [6] [7]
Las redes neuronales artificiales (ANN) se inspiraron en el procesamiento de la información y los nodos de comunicación distribuida en los sistemas biológicos . Las RNA tienen varias diferencias con los cerebros biológicos . Específicamente, las redes neuronales tienden a ser estáticas y simbólicas, mientras que el cerebro biológico de la mayoría de los organismos vivos es dinámico (plástico) y análogo. [8] [9] [10]
El adjetivo "profundo" en el aprendizaje profundo se refiere al uso de múltiples capas en la red. Los primeros trabajos demostraron que un perceptrón lineal no puede ser un clasificador universal, pero que una red con una función de activación no polinómica con una capa oculta de ancho ilimitado sí puede hacerlo. El aprendizaje profundo es una variación moderna que se ocupa de un número ilimitado de capas de tamaño limitado, lo que permite una aplicación práctica y una implementación optimizada, al tiempo que conserva la universalidad teórica en condiciones suaves. En el aprendizaje profundo, las capas también pueden ser heterogéneas y desviarse ampliamente de los modelos conexionistas biológicamente informados , en aras de la eficiencia, la capacidad de entrenamiento y la comprensibilidad, de ahí la parte "estructurada".
Definición
El aprendizaje profundo es una clase de algoritmos de aprendizaje automático que [12] ( págs . 199–200 ) usa múltiples capas para extraer progresivamente características de alto nivel de la entrada sin procesar. Por ejemplo, en el procesamiento de imágenes , las capas inferiores pueden identificar los bordes, mientras que las capas superiores pueden identificar los conceptos relevantes para un ser humano, como dígitos, letras o caras.
Descripción general
La mayoría de los modelos modernos de aprendizaje profundo se basan en redes neuronales artificiales , específicamente redes neuronales convolucionales (CNN), aunque también pueden incluir fórmulas proposicionales o variables latentes organizadas por capas en modelos generativos profundos como los nodos en redes de creencias profundas y Boltzmann profundo. Máquinas . [13]
En el aprendizaje profundo, cada nivel aprende a transformar sus datos de entrada en una representación un poco más abstracta y compuesta. En una aplicación de reconocimiento de imágenes, la entrada sin procesar puede ser una matriz de píxeles; la primera capa de representación puede abstraer los píxeles y codificar los bordes; la segunda capa puede componer y codificar disposiciones de bordes; la tercera capa puede codificar una nariz y ojos; y la cuarta capa puede reconocer que la imagen contiene un rostro. Es importante destacar que un proceso de aprendizaje profundo puede aprender qué características colocar de manera óptima en qué nivel por sí solo . Esto no elimina por completo la necesidad de realizar un ajuste manual; por ejemplo, diferentes números de capas y tamaños de capa pueden proporcionar diferentes grados de abstracción. [1] [14]
La palabra "profundo" en "aprendizaje profundo" se refiere al número de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad de ruta de asignación de créditos (CAP) sustancial . El CAP es la cadena de transformaciones de entrada a salida. Los CAP describen conexiones potencialmente causales entre entrada y salida. Para una red neuronal feedforward , la profundidad de los CAP es la de la red y es el número de capas ocultas más una (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes , en las que una señal puede propagarse a través de una capa más de una vez, la profundidad de CAP es potencialmente ilimitada. [2] Ningún umbral de profundidad acordado universalmente separa el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores están de acuerdo en que el aprendizaje profundo implica una profundidad CAP superior a 2. Se ha demostrado que el CAP de profundidad 2 es un aproximador universal en el sentido de que puede emular cualquier función. [15] Más allá de eso, más capas no se suman a la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP> 2) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.
Las arquitecturas de aprendizaje profundo se pueden construir con un método ávido capa por capa. [16] El aprendizaje profundo ayuda a desenredar estas abstracciones y seleccionar qué características mejoran el rendimiento. [1]
Para las tareas de aprendizaje supervisado , los métodos de aprendizaje profundo eliminan la ingeniería de características al traducir los datos en representaciones intermedias compactas similares a los componentes principales y derivan estructuras en capas que eliminan la redundancia en la representación.
Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisadas. Este es un beneficio importante porque los datos sin etiquetar son más abundantes que los datos etiquetados. Ejemplos de estructuras profundas que pueden entrenarse sin supervisión son los compresores de historia neuronal [17] y las redes de creencias profundas . [1] [18]
Interpretaciones
Las redes neuronales profundas se interpretan generalmente en términos del teorema de aproximación universal [24] o inferencia probabilística . [26]
El teorema de aproximación universal clásico se refiere a la capacidad de las redes neuronales feedforward con una sola capa oculta de tamaño finito para aproximarse a funciones continuas . [27] En 1989, George Cybenko publicó la primera prueba para las funciones de activación sigmoidea [19] y Kurt Hornik la generalizó a las arquitecturas multicapa de alimentación hacia adelante en 1991. [20] Un trabajo reciente también mostró que la aproximación universal también es válida para funciones de activación no acotadas, como la unidad lineal rectificada. [28]
El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con ancho limitado pero se permite que la profundidad crezca. Lu y col. [23] demostró que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue ; Si el ancho es menor o igual a la dimensión de entrada, entonces la red neuronal profunda no es un aproximador universal.
La interpretación probabilística [25] se deriva del campo del aprendizaje automático . Presenta inferencia, [29] así como los conceptos de optimización de entrenamiento y prueba , relacionados con el ajuste y la generalización , respectivamente. Más específicamente, la interpretación probabilística considera la no linealidad de activación como una función de distribución acumulativa . [25] La interpretación probabilística llevó a la introducción del abandono como regularizador en las redes neuronales. [30] La interpretación probabilística fue introducida por investigadores como Hopfield , Widrow y Narendra y popularizada en encuestas como la de Bishop . [31]
Historia
Algunas fuentes señalan que Frank Rosenblatt desarrolló y exploró todos los ingredientes básicos de los sistemas de aprendizaje profundo de hoy. [32] Lo describió en su libro "Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms", publicado por Cornell Aeronautical Laboratory, Inc., Cornell University en 1962.
Alexey Ivakhnenko y Lapa publicaron el primer algoritmo general de aprendizaje funcional para perceptrones multicapa supervisados, profundos, de retroalimentación, en 1967. [33] Un artículo de 1971 describía una red profunda con ocho capas entrenadas por el método grupal de manejo de datos . [34] Otras arquitecturas de trabajo de aprendizaje profundo, específicamente aquellas construidas para visión por computadora , comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1980. [35]
El término Deep Learning fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986, [36] [17] ya las redes neuronales artificiales por Igor Aizenberg y sus colegas en 2000, en el contexto de las neuronas de umbral booleano . [37] [38]
En 1989, Yann LeCun et al. aplicó el algoritmo de retropropagación estándar , que había existido como el modo inverso de diferenciación automática desde 1970, [39] [40] [41] [42] a una red neuronal profunda con el propósito de reconocer códigos postales escritos a mano en el correo. Si bien el algoritmo funcionó, el entrenamiento requirió 3 días. [43]
En 1991, estos sistemas se usaban para reconocer dígitos aislados escritos a mano en 2-D, mientras que el reconocimiento de objetos en 3-D se realizaba haciendo coincidir imágenes en 2-D con un modelo de objetos en 3D hecho a mano. Weng y col. sugirieron que un cerebro humano no usa un modelo de objeto tridimensional monolítico y en 1992 publicaron Cresceptron, [44] [45] [46] un método para realizar el reconocimiento de objetos tridimensionales en escenas desordenadas. Debido a que utilizaba imágenes naturales directamente, Cresceptron inició el comienzo del aprendizaje visual de propósito general para los mundos naturales en 3D. Cresceptron es una cascada de capas similar a Neocognitron. Pero mientras Neocognitron requería que un programador humano fusionara manualmente las características, Cresceptron aprendió un número abierto de características en cada capa sin supervisión, donde cada característica está representada por un kernel de convolución . Cresceptron segmentó cada objeto aprendido de una escena desordenada mediante un análisis posterior a través de la red. La agrupación máxima , ahora adoptada a menudo por redes neuronales profundas (por ejemplo, pruebas de ImageNet ), se utilizó por primera vez en Cresceptron para reducir la resolución de posición en un factor de (2x2) a 1 a través de la cascada para una mejor generalización.
En 1994, André de Carvalho, junto con Mike Fairhurst y David Bisset, publicaron los resultados experimentales de una red neuronal booleana multicapa, también conocida como red neuronal ingrávida, compuesta por un módulo de red neuronal de extracción de características autoorganizado de 3 capas ( SOFT) seguido de un módulo de red neuronal de clasificación multicapa (GSN), que se entrenaron de forma independiente. Cada capa del módulo de extracción de características extraía características con una complejidad creciente con respecto a la capa anterior. [47]
En 1995, Brendan Frey demostró que era posible entrenar (durante dos días) una red que contenía seis capas completamente conectadas y varios cientos de unidades ocultas utilizando el algoritmo de vigilia-sueño , desarrollado conjuntamente con Peter Dayan y Hinton . [48] Muchos factores contribuyen a la baja velocidad, incluido el problema del gradiente de desaparición analizado en 1991 por Sepp Hochreiter . [49] [50]
Desde 1997, Sven Behnke extendió el enfoque convolucional jerárquico de avance en la Pirámide de Abstracción Neural [51] mediante conexiones laterales y hacia atrás para incorporar de manera flexible el contexto en las decisiones y resolver iterativamente las ambigüedades locales.
Los modelos más simples que utilizan funciones artesanales específicas de la tarea, como los filtros de Gabor y las máquinas de vectores de soporte (SVM), fueron una opción popular en las décadas de 1990 y 2000, debido al costo computacional de la red neuronal artificial (ANN) y la falta de comprensión de cómo el cerebro conecta sus redes biológicas.
Tanto el aprendizaje superficial como el profundo (por ejemplo, redes recurrentes) de las ANN se han explorado durante muchos años. [52] [53] [54] Estos métodos nunca superaron a la tecnología no uniforme del modelo de mezcla gaussiana de elaboración manual interna no uniforme / modelo de Markov oculto (GMM-HMM) basada en modelos generativos de habla entrenados discriminativamente. [55] Se han analizado las principales dificultades, incluida la disminución del gradiente [49] y la estructura de correlación temporal débil en modelos predictivos neuronales. [56] [57] Las dificultades adicionales fueron la falta de datos de entrenamiento y la potencia informática limitada.
La mayoría de los investigadores de reconocimiento de voz se alejaron de las redes neuronales para buscar modelos generativos. Una excepción fue en SRI International a fines de la década de 1990. Financiado por la NSA y DARPA del gobierno de los EE. UU. , SRI estudió las redes neuronales profundas en el reconocimiento del habla y del hablante . El equipo de reconocimiento de oradores dirigido por Larry Heck informó de un éxito significativo con las redes neuronales profundas en el procesamiento del habla en la evaluación de reconocimiento de oradores del Instituto Nacional de Estándares y Tecnología de 1998 . [58] La red neuronal profunda SRI se implementó en Nuance Verifier, lo que representa la primera aplicación industrial importante de aprendizaje profundo. [59]
El principio de elevar las características "crudas" sobre la optimización hecha a mano se exploró por primera vez con éxito en la arquitectura del codificador automático profundo en el espectrograma "crudo" o las características del banco de filtros lineales a fines de la década de 1990, [59] mostrando su superioridad sobre el Mel- Características cepstrales que contienen etapas de transformación fija de espectrogramas. Las características en bruto del habla, las formas de onda , produjeron posteriormente excelentes resultados a mayor escala. [60]
Muchos aspectos del reconocimiento de voz fueron asumidos por un método de aprendizaje profundo llamado memoria a corto plazo largo (LSTM), una red neuronal recurrente publicada por Hochreiter y Schmidhuber en 1997. [61] Los RNN de LSTM evitan el problema del gradiente de desaparición y pueden aprender "Muy Tareas de aprendizaje profundo [2] que requieren recuerdos de eventos que ocurrieron miles de pasos de tiempo discretos antes, lo cual es importante para el habla. En 2003, LSTM comenzó a competir con los reconocedores de voz tradicionales en determinadas tareas. [62] Más tarde se combinó con la clasificación temporal conexionista (CTC) [63] en pilas de LSTM RNN. [64] En 2015, el reconocimiento de voz de Google supuestamente experimentó un aumento dramático en el rendimiento del 49% a través de LSTM capacitados en CTC, que pusieron a disposición a través de Google Voice Search . [sesenta y cinco]
En 2006, las publicaciones de Geoff Hinton , Ruslan Salakhutdinov , Osindero y Teh [66] [67] [68] mostraron cómo una red neuronal de alimentación hacia adelante de muchas capas podría ser efectivamente pre-entrenada una capa a la vez, tratando cada capa a su vez como una máquina de Boltzmann restringida no supervisada , luego ajustándola mediante retropropagación supervisada . [69] Los artículos se refirieron al aprendizaje de redes de creencias profundas.
El aprendizaje profundo es parte de los sistemas más avanzados en varias disciplinas, en particular la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados de los conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST ( clasificación de imágenes ), así como una variedad de tareas de reconocimiento de voz de vocabulario extenso, han mejorado constantemente. [70] [71] [72] [73] Las redes neuronales convolucionales (CNN) fueron reemplazadas para ASR por CTC [63] para LSTM. [61] [65] [74] [75] [76] [77] [78] pero tienen más éxito en la visión por computadora.
El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban entre el 10% y el 20% de todos los cheques emitidos en los EE. UU., Según Yann LeCun. [79] Las aplicaciones industriales del aprendizaje profundo para el reconocimiento de voz a gran escala comenzaron alrededor de 2010.
El taller NIPS de 2009 sobre aprendizaje profundo para el reconocimiento de voz [80] estuvo motivado por las limitaciones de los modelos generativos profundos del habla y la posibilidad de que, dado un hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas (DNN) pudieran llegar a ser prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. [81] Sin embargo, se descubrió que la sustitución de pre-formación con grandes cantidades de formación de datos para sencillo backpropagation utilizando DNNS con capas de salida grande, dependientes del contexto tasas de error producidos disminuyen dramáticamente que entonces el estado de la técnica de mezcla gaussiana modelo (GMM) / Modelo Oculto de Markov (HMM) y también que los sistemas basados en modelos generativos más avanzados. [70] [82] La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas fue característicamente diferente, [83] [80] ofreciendo conocimientos técnicos sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente. implementado por todos los principales sistemas de reconocimiento de voz. [12] [84] [85] El análisis realizado alrededor de 2009-2010, que contrasta los modelos GMM (y otros modelos generativos del habla) con los modelos DNN, estimuló la inversión industrial temprana en el aprendizaje profundo para el reconocimiento del habla, [83] [80] que eventualmente condujo a uso generalizado y dominante en esa industria. Ese análisis se realizó con un rendimiento comparable (menos del 1,5% en la tasa de error) entre los DNN discriminativos y los modelos generativos. [70] [83] [81] [86]
En 2010, los investigadores ampliaron el aprendizaje profundo de TIMIT al reconocimiento de voz de vocabulario extenso mediante la adopción de grandes capas de salida del DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión . [87] [88] [89] [84]
Los avances en hardware han impulsado un renovado interés en el aprendizaje profundo. En 2009, Nvidia participó en lo que se denominó el "big bang" del aprendizaje profundo, "ya que las redes neuronales de aprendizaje profundo se entrenaron con unidades de procesamiento de gráficos (GPU) de Nvidia". [90] Ese año, Andrew Ng determinó que las GPU podrían aumentar la velocidad de los sistemas de aprendizaje profundo unas 100 veces. [91] En particular, las GPU son adecuadas para los cálculos matriciales / vectoriales involucrados en el aprendizaje automático. [92] [93] [94] Las GPU aceleran los algoritmos de entrenamiento en órdenes de magnitud, reduciendo los tiempos de ejecución de semanas a días. [95] [96] Además, se pueden utilizar optimizaciones de algoritmos y hardware especializado para el procesamiento eficiente de modelos de aprendizaje profundo. [97]
Revolución del aprendizaje profundo
En 2012, un equipo dirigido por George E. Dahl ganó el "Desafío de actividad molecular de Merck" utilizando redes neuronales profundas de múltiples tareas para predecir el objetivo biomolecular de un fármaco. [98] [99] En 2014, el grupo de Hochreiter utilizó el aprendizaje profundo para detectar efectos no deseados y tóxicos de sustancias químicas ambientales en nutrientes, productos domésticos y medicamentos y ganó el "Desafío de datos Tox21" de NIH , FDA y NCATS . [100] [101] [102]
Se sintieron impactos adicionales significativos en el reconocimiento de imágenes u objetos de 2011 a 2012. Aunque las CNN entrenadas por retropropagación existían durante décadas, y las implementaciones de GPU de NN durante años, incluidas las CNN, se necesitaban implementaciones rápidas de CNN en GPU para progresar en la visión por computadora. . [92] [94] [43] [103] [2] En 2011, este enfoque logró por primera vez un rendimiento sobrehumano en un concurso de reconocimiento de patrones visuales. También en 2011, ganó el concurso de escritura a mano china ICDAR, y en mayo de 2012, ganó el concurso de segmentación de imágenes ISBI. [104] Hasta 2011, las CNN no desempeñaban un papel importante en las conferencias de visión por computadora, pero en junio de 2012, un artículo de Ciresan et al. En la conferencia líder, CVPR [5] mostró cómo la combinación máxima de CNN en GPU puede mejorar drásticamente muchos registros de referencia de visión. En octubre de 2012, un sistema similar de Krizhevsky et al. [6] ganó la competencia ImageNet a gran escala por un margen significativo sobre los métodos de aprendizaje automático poco profundos. En noviembre de 2012, el sistema de Ciresan et al. También ganó el concurso ICPR sobre análisis de imágenes médicas de gran tamaño para la detección de cáncer, y al año siguiente también el Gran Desafío MICCAI sobre el mismo tema. [105] En 2013 y 2014, la tasa de error en la tarea de ImageNet que utiliza el aprendizaje profundo se redujo aún más, siguiendo una tendencia similar en el reconocimiento de voz a gran escala.
Luego, la clasificación de imágenes se extendió a la tarea más desafiante de generar descripciones (leyendas) para las imágenes, a menudo como una combinación de CNN y LSTM. [106] [107] [108] [109]
Algunos investigadores afirman que la victoria de ImageNet en octubre de 2012 marcó el inicio de una "revolución de aprendizaje profundo" que ha transformado la industria de la inteligencia artificial. [110]
En marzo de 2019, Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el premio Turing por los avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática.
Redes neuronales
Redes neuronales artificiales
Las redes neuronales artificiales ( ANN ) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros de los animales. Dichos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica de tareas. Por ejemplo, en el reconocimiento de imágenes, pueden aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que se han etiquetado manualmente como "gato" o "no gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado mayor uso en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utiliza programación basada en reglas .
Una RNA se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico ). Cada conexión ( sinapsis ) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la (s) señal (s) y luego señalar a las neuronas aguas abajo conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales , típicamente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía en sentido descendente.
Normalmente, las neuronas se organizan en capas. Diferentes capas pueden realizar diferentes tipos de transformaciones en sus entradas. Las señales viajan desde la primera capa (entrada) hasta la última capa (salida), posiblemente después de atravesar las capas varias veces.
El objetivo original del enfoque de la red neuronal era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en hacer coincidir habilidades mentales específicas, lo que provocó desviaciones de la biología, como la propagación hacia atrás, o el paso de información en la dirección inversa y el ajuste de la red para reflejar esa información.
Las redes neuronales se han utilizado en una variedad de tareas, que incluyen visión por computadora, reconocimiento de voz , traducción automática , filtrado de redes sociales , juegos de mesa y videojuegos y diagnóstico médico.
A partir de 2017, las redes neuronales suelen tener entre varios miles y algunos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel más allá del de los humanos (p. Ej., Reconocer rostros, jugar "Go" [111] ).
Redes neuronales profundas
Una red neuronal profunda (DNN) es una red neuronal artificial (ANN) con múltiples capas entre las capas de entrada y salida. [13] [2] Existen diferentes tipos de redes neuronales, pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. [112] Estos componentes funcionan de manera similar a los cerebros humanos y pueden entrenarse como cualquier otro algoritmo ML. [ cita requerida ]
Por ejemplo, un DNN que está entrenado para reconocer razas de perros revisará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de una determinada raza. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de un cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, y los DNN complejos tienen muchas capas, de ahí el nombre de redes "profundas".
Los DNN pueden modelar relaciones complejas no lineales. Las arquitecturas DNN generan modelos de composición donde el objeto se expresa como una composición en capas de primitivas . [113] Las capas adicionales permiten la composición de entidades de capas inferiores, modelando potencialmente datos complejos con menos unidades que una red poco profunda de rendimiento similar. [13] Por ejemplo, se demostró que los polinomios multivariados dispersos son exponencialmente más fáciles de aproximar con DNN que con redes poco profundas. [114]
Las arquitecturas profundas incluyen muchas variantes de unos pocos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que se hayan evaluado en los mismos conjuntos de datos.
Los DNN suelen ser redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. Al principio, la DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconociera con precisión un patrón en particular, un algoritmo ajustaría los pesos. [115] De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.
Las redes neuronales recurrentes (RNN), en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado de lenguajes . [116] [117] [118] [119] [120] La memoria a corto plazo es particularmente eficaz para este uso. [61] [121]
Las redes neuronales profundas convolucionales (CNN) se utilizan en la visión por computadora. [122] Las CNN también se han aplicado al modelado acústico para el reconocimiento automático de voz (ASR). [78]
Desafíos
Al igual que con las ANN, pueden surgir muchos problemas con las DNN capacitadas de forma ingenua. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.
Los DNN son propensos a sobreajustarse debido a las capas adicionales de abstracción, que les permiten modelar dependencias raras en los datos de entrenamiento. Métodos de regularización como la poda unitaria de Ivakhnenko [34] o la pérdida de peso (-regularización) o escasez (-regularización) se puede aplicar durante el entrenamiento para combatir el sobreajuste. [123] Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. [124] Por último, los datos se pueden aumentar mediante métodos como el recorte y la rotación, de modo que los conjuntos de entrenamiento más pequeños se pueden aumentar en tamaño para reducir las posibilidades de sobreajuste. [125]
Los DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. Es posible que no sea factible barrer el espacio de parámetros en busca de parámetros óptimos debido al costo de tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (calcular el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) [126] aceleran el cálculo. Las grandes capacidades de procesamiento de arquitecturas de muchos núcleos (como las GPU o Intel Xeon Phi) han producido importantes aceleraciones en la capacitación, debido a la idoneidad de dichas arquitecturas de procesamiento para los cálculos matriciales y vectoriales. [127] [128]
Alternativamente, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC ( controlador de articulación del modelo cerebeloso ) es uno de esos tipos de red neuronal. No requiere tasas de aprendizaje ni pesos iniciales aleatorios para CMAC. Se puede garantizar que el proceso de entrenamiento converja en un paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas. [129] [130]
Hardware
Desde la década de 2010, los avances tanto en los algoritmos de aprendizaje automático como en el hardware de la computadora han llevado a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. [131] Para 2019, las unidades de procesamiento gráfico ( GPU ), a menudo con mejoras específicas de IA, habían desplazado a las CPU como el método dominante para entrenar la IA comercial en la nube a gran escala. [132] OpenAI estimó la computación de hardware utilizada en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) a AlphaZero (2017), y encontró un aumento de 300,000 veces en la cantidad de computación requerida, con una línea de tendencia de tiempo de duplicación de 3.4 meses. [133] [134]
Aplicaciones
Reconocimiento automático de voz
El reconocimiento automático de voz a gran escala es el primer y más convincente caso de éxito de aprendizaje profundo. Los RNN de LSTM pueden aprender tareas de "aprendizaje muy profundo" [2] que involucran intervalos de varios segundos que contienen eventos de habla separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. LSTM con puertas de olvido [121] es competitivo con los reconocedores de voz tradicionales en determinadas tareas. [62]
El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés estadounidense , donde cada hablante lee 10 oraciones. [135] Su pequeño tamaño permite probar muchas configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias telefónicas, que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigrama telefónicos débiles . Esto permite analizar más fácilmente la fuerza de los aspectos de modelado acústico del reconocimiento de voz. Las tasas de error que se enumeran a continuación, incluidos estos primeros resultados y medidas como tasas de error telefónico porcentuales (PER), se han resumido desde 1991.
Método | Tasa de porcentaje de errores telefónicos (PER) (%) |
---|---|
RNN inicializado aleatoriamente [136] | 26,1 |
Triphone bayesiano GMM-HMM | 25,6 |
Modelo de trayectoria oculta (generativo) | 24,8 |
DNN monofónico inicializado aleatoriamente | 23,4 |
Monófono DBN-DNN | 22,4 |
Triphone GMM-HMM con entrenamiento BMMI | 21,7 |
Monófono DBN-DNN en fbank | 20,7 |
DNN convolucional [137] | 20,0 |
DNN convolucional w. Agrupación heterogénea | 18,7 |
Conjunto DNN / CNN / RNN [138] | 18,3 |
LSTM bidireccional | 17,8 |
Red de Maxout profunda convolucional jerárquica [139] | 16,5 |
El debut de las DNN para el reconocimiento de hablantes a fines de la década de 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007, aceleraron el progreso en ocho áreas principales: [12] [86] [84]
- Capacitación y decodificación de DNN de escalamiento horizontal o vertical y acelerada
- Entrenamiento discriminativo de secuencia
- Procesamiento de características mediante modelos profundos con una sólida comprensión de los mecanismos subyacentes
- Adaptación de DNN y modelos profundos relacionados
- Multi-tarea y el aprendizaje transferencia por DNNS y modelos profundos relacionados
- CNN y cómo diseñarlas para aprovechar mejor el conocimiento del dominio del habla
- RNN y sus ricas variantes de LSTM
- Otros tipos de modelos profundos, incluidos los modelos basados en tensores y los modelos generativos / discriminativos profundos integrados.
Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , Baidu e iFlyTek , búsqueda por voz y una gama de productos de voz Nuance , etc.) se basan en el aprendizaje profundo. [12] [140] [141]
Reconocimiento de imagen
Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST. MNIST se compone de dígitos escritos a mano e incluye 60.000 ejemplos de formación y 10.000 ejemplos de prueba. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Está disponible una lista completa de resultados de este conjunto. [142]
El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano", produciendo resultados más precisos que los participantes humanos. Esto ocurrió por primera vez en 2011 en reconocimiento de señales de tráfico, y en 2014, con reconocimiento de rostros humanos. [143] Superando el reconocimiento facial a nivel humano
Los vehículos entrenados en aprendizaje profundo ahora interpretan vistas de cámara de 360 °. [144] Otro ejemplo es el Análisis Novedoso de Dismorfología Facial (FDNA) que se utiliza para analizar casos de malformaciones humanas conectadas a una gran base de datos de síndromes genéticos.
Procesamiento de arte visual
Estrechamente relacionado con el progreso que se ha logrado en el reconocimiento de imágenes está la aplicación cada vez mayor de técnicas de aprendizaje profundo a diversas tareas de artes visuales. Los DNN han demostrado ser capaces, por ejemplo, de a) identificar el período de estilo de una pintura determinada, b) Transferencia de estilo neuronal : capturar el estilo de una obra de arte determinada y aplicarlo de una manera visualmente agradable a una fotografía o video arbitrario, y c) generar imágenes impactantes basadas en campos de entrada visual aleatorios. [145] [146]
Procesamiento natural del lenguaje
Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. [116] LSTM ayudó a mejorar la traducción automática y el modelado de idiomas. [117] [118] [119]
Otras técnicas clave en este campo son el muestreo negativo [147] y la inserción de palabras . La incrustación de palabras, como word2vec , se puede considerar como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras del conjunto de datos; la posición se representa como un punto en un espacio vectorial . El uso de la incrustación de palabras como una capa de entrada RNN permite a la red analizar oraciones y frases utilizando una gramática vectorial de composición efectiva. Una gramática de vector composicional se puede considerar como una gramática libre de contexto probabilística (PCFG) implementada por un RNN. [148] Los codificadores automáticos recursivos construidos sobre incrustaciones de palabras pueden evaluar la similitud de oraciones y detectar paráfrasis. [148] Las arquitecturas neuronales profundas proporcionan los mejores resultados para el análisis de la circunscripción , [149] análisis de sentimientos , [150] recuperación de información, [151] [152] comprensión del lenguaje hablado, [153] traducción automática, [117] [154] entidad contextual vinculación, [154] reconocimiento de estilo de escritura, [155] clasificación de texto y otros. [156]
Los desarrollos recientes generalizan la incrustación de palabras a la incrustación de oraciones .
Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo . [157] [158] [159] [160] [161] [162] La traducción automática neuronal de Google (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". [158] Traduce "oraciones completas a la vez, en lugar de partes. Google Translate admite más de cien idiomas. [158] La red codifica la" semántica de la oración en lugar de simplemente memorizar traducciones de frase a frase ". [158] ] [163] GT utiliza el inglés como intermedio entre la mayoría de los pares de idiomas. [163]
Descubrimiento de fármacos y toxicología
Un gran porcentaje de fármacos candidatos no logra la aprobación regulatoria. Estas fallas son causadas por una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos . [164] [165] La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares , [98] [99] fuera de los objetivos y los efectos tóxicos de los productos químicos ambientales en los nutrientes, productos domésticos y medicamentos. [100] [101] [102]
AtomNet es un sistema de aprendizaje profundo para el diseño racional de fármacos basado en estructuras . [166] AtomNet se utilizó para predecir nuevas biomoléculas candidatas para enfermedades como el virus del Ébola [167] y la esclerosis múltiple . [168] [169]
En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones. [170] [171]
Gestión de relaciones con el cliente
Se ha utilizado el aprendizaje por refuerzo profundo para aproximar el valor de posibles acciones de marketing directo , definidas en términos de variables de RFM . Se demostró que la función de valor estimado tiene una interpretación natural como valor de por vida del cliente . [172]
Sistemas de recomendación
Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas de un modelo de factor latente para recomendaciones de revistas y música basada en contenido. [173] [174] Se ha aplicado el aprendizaje profundo de múltiples vistas para conocer las preferencias del usuario de múltiples dominios. [175] El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.
Bioinformática
Un autoencoder ANN se utiliza en la bioinformática , para predecir la ontología de genes anotaciones y las relaciones de genes de función. [176]
En informática médica, el aprendizaje profundo se utilizó para predecir la calidad del sueño basándose en datos de dispositivos portátiles [177] y predicciones de complicaciones de salud a partir de datos de registros médicos electrónicos . [178]
Análisis de imágenes médicas
Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas, como clasificación de células cancerosas, detección de lesiones, segmentación de órganos y mejora de imágenes. [179] [180]
La publicidad móvil
Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que un servidor de anuncios pueda crear y utilizar un segmento objetivo en la publicación de anuncios. [181] El aprendizaje profundo se ha utilizado para interpretar grandes conjuntos de datos publicitarios de muchas dimensiones. Muchos puntos de datos se recopilan durante el ciclo de publicidad en Internet de solicitud / servicio / clic. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.
Restauración de imagen
El aprendizaje profundo se ha aplicado con éxito a los problemas inversos tales como eliminación de ruido , de super-resolución , inpainting , y la coloración película . [182] Estas aplicaciones incluyen métodos de aprendizaje como "Campos de contracción para una restauración eficaz de la imagen" [183], que se entrena en un conjunto de datos de imágenes, y Deep Image Prior , que se entrena en la imagen que necesita restauración.
Detección de fraude financiero
El aprendizaje profundo se está aplicando con éxito a la detección del fraude financiero , la detección de la evasión fiscal [184] y la lucha contra el blanqueo de capitales. [185]
Militar
El Departamento de Defensa de los Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas a través de la observación. [186]
Relación con el desarrollo cognitivo y cerebral humano
El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de la década de 1990. [187] [188] [189] [190] Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convirtió en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (por ejemplo, una onda de factor de crecimiento nervioso ) apoyan la autoorganización algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que la neocorteza , las redes neuronales emplean una jerarquía de filtros en capas en la que cada capa considera información de una capa anterior (o el entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila de transductores autoorganizados , bien ajustados a su entorno operativo. Una descripción de 1995 decía, "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos ... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así hasta que todo el cerebro esté maduro ". [191]
Se han utilizado una variedad de enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo de retropropagación para aumentar su realismo de procesamiento. [192] [193] Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las que se basan en modelos generativos jerárquicos y redes de creencias profundas , pueden estar más cerca de la realidad biológica. [194] [195] A este respecto, los modelos de redes neuronales generativas se han relacionado con la evidencia neurobiológica sobre el procesamiento basado en muestras en la corteza cerebral. [196]
Aunque aún no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han informado varias analogías. Por ejemplo, los cálculos realizados por las unidades de aprendizaje profundo podrían ser similares a los de las neuronas reales [197] [198] y las poblaciones neuronales. [199] De manera similar, las representaciones desarrolladas por modelos de aprendizaje profundo son similares a las medidas en el sistema visual de primates [200] tanto a nivel de unidad única [201] como a nivel de población [202] .
Actividad comercial
El laboratorio de inteligencia artificial de Facebook realiza tareas como etiquetar automáticamente las imágenes cargadas con los nombres de las personas que aparecen en ellas. [203]
DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar videojuegos Atari usando solo píxeles como entrada de datos. En 2015 demostraron su sistema AlphaGo , que aprendió el juego de Go lo suficientemente bien como para vencer a un jugador profesional de Go. [204] [205] [206] Google Translate utiliza una red neuronal para traducir entre más de 100 idiomas.
En 2015, Blippar demostró una aplicación de realidad aumentada móvil que utiliza el aprendizaje profundo para reconocer objetos en tiempo real. [207]
En 2017, se lanzó Covariant.ai, que se centra en la integración del aprendizaje profundo en las fábricas. [208]
A partir de 2008, [209] investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Entrenamiento manual de un agente mediante refuerzo evaluativo, o TAMER, que proponía nuevos métodos para que los robots o programas informáticos aprendan a realizar tareas. interactuando con un instructor humano. [186] Desarrollado por primera vez como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) e investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas a través de la observación. [186] Usando Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo secuencias de video u observando a un humano realizar una tarea en persona. Más tarde, el robot practicó la tarea con la ayuda de un entrenamiento del entrenador, quien proporcionó comentarios como "buen trabajo" y "mal trabajo". [210]
Crítica y comentario
El aprendizaje profundo ha atraído tanto críticas como comentarios, en algunos casos desde fuera del campo de la informática.
Teoría
Una de las principales críticas se refiere a la falta de teoría en torno a algunos métodos. [211] El aprendizaje en las arquitecturas profundas más comunes se implementa utilizando un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. [ cita requerida ] (p. ej., ¿converge? Si es así, ¿qué tan rápido? ¿Qué se aproxima?) Los métodos de aprendizaje profundo a menudo se ven como una caja negra , y la mayoría de las confirmaciones se hacen empíricamente, en lugar de teóricamente. [212]
Otros señalan que el aprendizaje profundo debe considerarse como un paso hacia la realización de una IA fuerte, no como una solución integral. A pesar del poder de los métodos de aprendizaje profundo, todavía carecen de gran parte de la funcionalidad necesaria para lograr este objetivo por completo. El psicólogo investigador Gary Marcus señaló:
"Siendo realistas, el aprendizaje profundo es solo una parte del desafío más grande de construir máquinas inteligentes. Tales técnicas carecen de formas de representar las relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas , y también están muy lejos de integrar conceptos abstractos conocimiento, como información sobre qué son los objetos, para qué sirven y cómo se utilizan normalmente. Los sistemas de IA más potentes, como Watson (...) utilizan técnicas como el aprendizaje profundo como un solo elemento en un conjunto muy complicado de técnicas, que van desde la técnica estadística de inferencia bayesiana hasta el razonamiento deductivo ". [213]
En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, se publicó una serie de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes en que fueron entrenados [214] demuestran un atractivo visual: el aviso original de investigación recibieron más de 1.000 comentarios, y fue el tema de lo que fue durante un tiempo el artículo más solicitadas en The Guardian 's [215] página web.
Errores
Algunas arquitecturas de aprendizaje profundo muestran comportamientos problemáticos [216] , como clasificar con seguridad imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias [217] y clasificar erróneamente minúsculas perturbaciones de imágenes correctamente clasificadas. [218] Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas heterogéneas de inteligencia general artificial (AGI) multicomponente . [216] Estos problemas pueden posiblemente ser abordados por arquitecturas de aprendizaje profundo que forman internamente estados homólogos a descomposiciones gramaticales de imágenes [219] de entidades y eventos observados. [216] Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento sería equivalente a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramatical y es un objetivo básico tanto de la adquisición del lenguaje humano [220] como de la inteligencia artificial (AI). [221]
Amenaza cibernética
A medida que el aprendizaje profundo se traslada del laboratorio al mundo, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y el engaño. [222] Al identificar los patrones que estos sistemas utilizan para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen, de modo que la RNA encuentre una coincidencia aunque la imagen no se parezca en nada al objetivo de búsqueda de un humano. Tal manipulación se denomina "ataque contradictorio". [223]
En 2016, los investigadores utilizaron una RNA para revisar imágenes a modo de prueba y error, identificar los puntos focales de otra y, por lo tanto, generar imágenes que la engañaran. Las imágenes modificadas no se veían diferentes a los ojos humanos. Otro grupo mostró que las impresiones de imágenes manipuladas y luego fotografiadas con éxito engañaban a un sistema de clasificación de imágenes. [224] Una defensa es la búsqueda de imágenes inversa, en la que una posible imagen falsa se envía a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento es buscar usando solo partes de la imagen, para identificar imágenes de las que esa pieza puede haber sido tomada . [225]
Otro grupo demostró que ciertos espectáculos psicodélicos podían engañar a un sistema de reconocimiento facial para que pensara que la gente común eran celebridades, lo que podría permitir que una persona se hiciera pasar por otra. En 2017, los investigadores agregaron pegatinas a las señales de alto y provocaron que una ANN las clasificara erróneamente. [224]
Sin embargo, las ANN pueden recibir más capacitación para detectar intentos de engaño, lo que podría llevar a atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra malware . Las ANN han sido capacitadas para derrotar el software anti-malware basado en ANN atacando repetidamente una defensa con malware que fue continuamente alterado por un algoritmo genético hasta que engañó al anti-malware mientras conservaba su capacidad de dañar al objetivo. [224]
Otro grupo demostró que ciertos sonidos podrían hacer que el sistema de comandos de voz de Google Now abriera una dirección web particular que descargaría malware. [224]
En el "envenenamiento de datos", los datos falsos se introducen continuamente de contrabando en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que lo dominen. [224]
Dependencia del microtrabajo humano
La mayoría de los sistemas de aprendizaje profundo se basan en datos de capacitación y verificación que son generados y / o anotados por humanos. Se ha argumentado en la filosofía de los medios que no solo se implementa regularmente el trabajo de clics mal pagado (por ejemplo, en Amazon Mechanical Turk ) para este propósito, sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales. [226] El filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" del micro trabajo humano para generar datos de entrenamiento: (1) gamificación (la incorporación de tareas de anotación o computación en el flujo de un juego), (2) "captura y seguimiento "(por ejemplo, letras cifradas para el reconocimiento de imágenes o de seguimiento de clics en Google las páginas de resultados ), (3) la explotación de las motivaciones sociales (por ejemplo, el etiquetado se enfrenta en Facebook para obtener imágenes faciales marcados), (4) la minería de información (por ejemplo, mediante el aprovechamiento cuantificado por cuenta propia dispositivos como rastreadores de actividad ) y (5) clickwork . [226]
Mühlhoff sostiene que en la mayoría de las aplicaciones comerciales de Deep Learning para el usuario final, como el sistema de reconocimiento facial de Facebook , la necesidad de datos de entrenamiento no se detiene una vez que se capacita a una ANN. Más bien, existe una demanda continua de datos de verificación generados por humanos para calibrar y actualizar constantemente la ANN. Para este propósito, Facebook introdujo la función de que una vez que un usuario es reconocido automáticamente en una imagen, recibe una notificación. Pueden elegir si les gusta ser etiquetados públicamente en la imagen o decirle a Facebook que no son ellos los que aparecen en la imagen. [227] Esta interfaz de usuario es un mecanismo para generar "un flujo constante de datos de verificación" [226] para entrenar aún más a la red en tiempo real. Como sostiene Mühlhoff, la participación de usuarios humanos para generar datos de capacitación y verificación es tan típica para la mayoría de las aplicaciones comerciales de Deep Learning para usuarios finales que estos sistemas pueden denominarse "inteligencia artificial asistida por humanos". [226]
Ver también
- Aplicaciones de la inteligencia artificial
- Comparación de software de aprendizaje profundo
- Detección comprimida
- Programación diferenciable
- Red de estado de eco
- Lista de proyectos de inteligencia artificial
- Máquina de estado líquido
- Lista de conjuntos de datos para la investigación del aprendizaje automático
- Computación de yacimientos
- Codificación escasa
Referencias
- ^ a b c d e f Bengio, Y .; Courville, A .; Vincent, P. (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 35 (8): 1798–1828. arXiv : 1206.5538 . doi : 10.1109 / tpami.2013.50 . PMID 23787338 . S2CID 393948 .
- ^ a b c d e f g h Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .
- ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). "Aprendizaje profundo". Naturaleza . 521 (7553): 436–444. Código Bib : 2015Natur.521..436L . doi : 10.1038 / nature14539 . PMID 26017442 . S2CID 3074096 .
- ^ Hu, J .; Niu, H .; Carrasco, J .; Lennox, B .; Arvin, F. (2020). "Exploración autónoma de varios robots basados en Voronoi en entornos desconocidos a través del aprendizaje de refuerzo profundo" . Transacciones IEEE sobre tecnología vehicular . 69 (12): 14413-14423. doi : 10.1109 / TVT.2020.3034800 . S2CID 228989788 . Archivado desde el original el 16 de noviembre de 2020 . Consultado el 4 de mayo de 2021 .
- ^ a b Ciresan, D .; Meier, U .; Schmidhuber, J. (2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes". 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . doi : 10.1109 / cvpr.2012.6248110 . ISBN 978-1-4673-1228-8. S2CID 2161592 .
- ^ a b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). "Clasificación de ImageNet con redes neuronales convolucionales profundas" (PDF) . NIPS 2012: Sistemas de procesamiento de información neuronal, Lake Tahoe, Nevada . Archivado (PDF) desde el original el 10 de enero de 2017 . Consultado el 24 de mayo de 2017 .
- ^ "AlphaGo AI de Google gana la serie de tres partidos contra el mejor jugador de Go del mundo" . TechCrunch . 25 de mayo de 2017. Archivado desde el original el 17 de junio de 2018 . Consultado el 17 de junio de 2018 .
- ^ Marblestone, Adam H .; Wayne, Greg; Kording, Konrad P. (2016). "Hacia una integración del aprendizaje profundo y la neurociencia" . Fronteras en neurociencia computacional . 10 : 94. arXiv : 1606.03813 . Código bibliográfico : 2016arXiv160603813M . doi : 10.3389 / fncom.2016.00094 . PMC 5021692 . PMID 27683554 . S2CID 1994856 .
- ^ Olshausen, BA (1996). "Aparición de propiedades de campo receptivo de células simples mediante el aprendizaje de un código escaso para imágenes naturales". Naturaleza . 381 (6583): 607–609. Código Bibliográfico : 1996Natur.381..607O . doi : 10.1038 / 381607a0 . PMID 8637596 . S2CID 4358477 .
- ^ Bengio, Yoshua; Lee, Dong-Hyun; Bornschein, Jorg; Mesnard, Thomas; Lin, Zhouhan (13 de febrero de 2015). "Hacia un aprendizaje profundo biológicamente plausible". arXiv : 1502.04156 [ cs.LG ].
- ^ Schulz, Hannes; Behnke, Sven (1 de noviembre de 2012). "Aprendizaje profundo" . KI - Künstliche Intelligenz . 26 (4): 357–363. doi : 10.1007 / s13218-012-0198-z . ISSN 1610-1987 . S2CID 220523562 .
- ^ a b c d e f Deng, L .; Yu, D. (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y tendencias en el procesamiento de señales . 7 (3–4): 1–199. doi : 10.1561 / 2000000039 . Archivado (PDF) desde el original el 14 de marzo de 2016 . Consultado el 18 de octubre de 2014 .
- ^ a b c d e Bengio, Yoshua (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 3 de septiembre de 2015 .
- ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 de mayo de 2015). "Aprendizaje profundo". Naturaleza . 521 (7553): 436–444. Código Bib : 2015Natur.521..436L . doi : 10.1038 / nature14539 . PMID 26017442 . S2CID 3074096 .
- ^ Shigeki, Sugiyama (12 de abril de 2019). Comportamiento humano y otro tipo de conciencia: investigación y oportunidades emergentes: investigación y oportunidades emergentes . IGI Global. ISBN 978-1-5225-8218-2.
- ^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Entrenamiento codicioso por capas de redes profundas (PDF) . Avances en sistemas de procesamiento de información neuronal. págs. 153–160. Archivado (PDF) desde el original el 20 de octubre de 2019 . Consultado el 6 de octubre de 2019 .
- ^ a b Schmidhuber, Jürgen (2015). "Aprendizaje profundo" . Scholarpedia . 10 (11): 32832. Código bibliográfico : 2015SchpJ..1032832S . doi : 10.4249 / scholarpedia.32832 . Archivado desde el original el 19 de abril de 2016 . Consultado el 9 de abril de 2016 .
- ^ a b c Hinton, GE (2009). "Redes de creencias profundas" . Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ ... 4.5947H . doi : 10.4249 / scholarpedia.5947 .
- ^ a b c Cybenko (1989). "Aproximaciones por superposiciones de funciones sigmoidales" (PDF) . Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. doi : 10.1007 / bf02551274 . S2CID 3958369 . Archivado desde el original (PDF) el 10 de octubre de 2015.
- ^ a b c Hornik, Kurt (1991). "Capacidades de aproximación de redes feedforward multicapa". Redes neuronales . 4 (2): 251-257. doi : 10.1016 / 0893-6080 (91) 90009-t .
- ^ a b Haykin, Simon S. (1999). Redes neuronales: una base integral . Prentice Hall. ISBN 978-0-13-273350-2.
- ^ a b Hassoun, Mohamad H. (1995). Fundamentos de las redes neuronales artificiales . Prensa del MIT. pag. 48. ISBN 978-0-262-08239-6.
- ^ a b Lu, Z., Pu, H., Wang, F., Hu, Z. y Wang, L. (2017). El poder expresivo de las redes neuronales: una vista desde el ancho Archivado el 13 de febrero de 2019 en la Wayback Machine . Sistemas de procesamiento de información neuronal, 6231-6239.
- ^ [19] [20] [21] [22] [23]
- ^ a b c d Murphy, Kevin P. (24 de agosto de 2012). Aprendizaje automático: una perspectiva probabilística . Prensa del MIT. ISBN 978-0-262-01802-9.
- ^ [12] [13] [1] [2] [18] [25]
- ^ [19] [20] [21] [22]
- ^ Sonoda, Sho; Murata, Noboru (2017). "La red neuronal con funciones de activación ilimitadas es un aproximador universal". Análisis Armónico Computacional y Aplicado . 43 (2): 233–268. arXiv : 1505.03654 . doi : 10.1016 / j.acha.2015.12.005 . S2CID 12149203 .
- ^ [12] [13] [1] [2] [18] [25]
- ^ Hinton, GE; Srivastava, N .; Krizhevsky, A .; Sutskever, I .; Salakhutdinov, RR (2012). "Mejora de las redes neuronales evitando la coadaptación de detectores de características". arXiv : 1207.0580 [ math.LG ].
- ^ Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático (PDF) . Saltador. ISBN 978-0-387-31073-2. Archivado (PDF) desde el original el 11 de enero de 2017 . Consultado el 6 de agosto de 2017 .
- ^ Tappert, Charles C. (2019). "¿Quién es el padre del aprendizaje profundo?" . 2019 Conferencia Internacional sobre Ciencias Computacionales e Inteligencia Computacional (CSCI) . IEEE. págs. 343–348. doi : 10.1109 / CSCI49370.2019.00067 . ISBN 978-1-7281-5584-5. Consultado el 31 de mayo de 2021 .
- ^ Ivakhnenko, AG; Lapa, VG (1967). Cibernética y técnicas de pronóstico . Estadounidense Elsevier Publishing Co. ISBN 978-0-444-00020-0.
- ^ a b Ivakhnenko, Alexey (1971). "Teoría polinomial de sistemas complejos" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética . SMC-1 (4): 364–378. doi : 10.1109 / TSMC.1971.4308320 . Archivado (PDF) desde el original el 29 de agosto de 2017 . Consultado el 5 de noviembre de 2019 .
- ^ Fukushima, K. (1980). "Neocognitron: un modelo de red neuronal autoorganizadora para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición". Biol. Cybern . 36 (4): 193–202. doi : 10.1007 / bf00344251 . PMID 7370364 . S2CID 206775608 .
- ^ Rina Dechter (1986). Aprender mientras se busca en problemas de satisfacción de restricciones. Universidad de California, Departamento de Ciencias de la Computación, Laboratorio de Sistemas Cognitivos. Archivado en línea el 19 de abril de 2016 en la Wayback Machine.
- ^ Igor Aizenberg, Naum N. Aizenberg, Joos PL Vandewalle (2000). Neuronas binarias multivalorizadas y universales: teoría, aprendizaje y aplicaciones. Springer Science & Business Media.
- ^ Las neuronas recurrentes en evolución conjunta aprenden POMDP de memoria profunda. Proc. GECCO, Washington, DC, págs. 1795-1802, ACM Press, Nueva York, NY, EE. UU., 2005.
- ^ Seppo Linnainmaa (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales. Tesis de Maestría (en finlandés), Univ. Helsinki, 6-7.
- ^ Griewank, Andreas (2012). "¿Quién inventó el modo inverso de diferenciación?" (PDF) . Documenta Mathematica (volumen adicional ISMP): 389–400. Archivado desde el original (PDF) el 21 de julio de 2017 . Consultado el 11 de junio de 2017 .
- ^ Werbos, P. (1974). "Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento" . Universidad de Harvard . Consultado el 12 de junio de 2017 .
- ^ Werbos, Paul (1982). "Aplicaciones de los avances en el análisis de sensibilidad no lineal" (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770.
- ^ a b LeCun y col. , "Retropropagación aplicada al reconocimiento del código postal escrito a mano" , Computación neuronal , 1, págs. 541–551, 1989.
- ^ J. Weng, N. Ahuja y TS Huang, " Cresceptron: una red neuronal autoorganizada que crece adaptativamente. Archivado 2017-09-21 en Wayback Machine ", Proc. Conferencia conjunta internacional sobre redes neuronales , Baltimore, Maryland, vol I, págs. 576-581, junio de 1992.
- ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D. Archivado el 21 de septiembre de 2017 en Wayback Machine ", Proc. 4ta Conf. Internacional Computer Vision , Berlín, Alemania, págs. 121-128, mayo de 1993.
- ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación utilizando Cresceptron. Archivado el 25 de enero de 2021 en Wayback Machine ", International Journal of Computer Vision , vol. 25, no. 2, págs. 105-139, noviembre de 1997.
- ^ de Carvalho, Andre CLF; Fairhurst, Mike C .; Bisset, David (8 de agosto de 1994). "Una red neuronal booleana integrada para la clasificación de patrones". Cartas de reconocimiento de patrones . 15 (8): 807–813. Código bibliográfico : 1994PaReL..15..807D . doi : 10.1016 / 0167-8655 (94) 90009-4 .
- ^ Hinton, Geoffrey E .; Dayan, Peter; Frey, Brendan J .; Neal, Radford (26 de mayo de 1995). "El algoritmo de vigilia-sueño para redes neuronales no supervisadas". Ciencia . 268 (5214): 1158-1161. Código Bibliográfico : 1995Sci ... 268.1158H . doi : 10.1126 / science.7761831 . PMID 7761831 .
- ^ a b S. Hochreiter., " Untersuchungen zu dynamischen neuronalen Netzen Archivado el 6 de marzo de 2015 en la Wayback Machine ", Tesis de diploma. Institut f. Informatik, Technische Univ. Munich. Asesor: J. Schmidhuber , 1991.
- ^ Hochreiter, S .; et al. (15 de enero de 2001). "Gradiente de flujo en redes recurrentes: la dificultad de aprender dependencias a largo plazo" . En Kolen, John F .; Kremer, Stefan C. (eds.). Una guía de campo para redes dinámicas recurrentes . John Wiley e hijos. ISBN 978-0-7803-5369-5.
- ^ Behnke, Sven (2003). "Redes neuronales jerárquicas para la interpretación de imágenes" . Apuntes de conferencias en Ciencias de la Computación . 2766 . doi : 10.1007 / b11963 . ISBN 978-3-540-40722-5. ISSN 0302-9743 . S2CID 1304548 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 28 de noviembre de 2020 .
- ^ Morgan, Nelson; Bourlard, Hervé; Renales, Steve; Cohen, Michael; Franco, Horacio (1 de agosto de 1993). "Red neuronal híbrida / sistemas de modelo de markov oculto para el reconocimiento continuo de voz". Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial . 07 (4): 899–916. doi : 10.1142 / s0218001493000455 . ISSN 0218-0014 .
- ^ Robinson, T. (1992). "Un sistema de reconocimiento de palabras de red de propagación de errores recurrentes en tiempo real" . ICASSP . Icassp'92: 617–620. ISBN 9780780305328. Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de junio de 2017 .
- ^ Waibel, A .; Hanazawa, T .; Hinton, G .; Shikano, K .; Lang, KJ (marzo de 1989). "Reconocimiento de fonemas mediante redes neuronales de retardo de tiempo" (PDF) . Transacciones IEEE sobre acústica, habla y procesamiento de señales . 37 (3): 328–339. doi : 10.1109 / 29.21701 . hdl : 10338.dmlcz / 135496 . ISSN 0096-3518 . Archivado (PDF) desde el original el 27 de abril de 2021 . Consultado el 24 de septiembre de 2019 .
- ^ Baker, J .; Deng, Li; Glass, Jim; Khudanpur, S .; Lee, C.-H .; Morgan, N .; O'Shaughnessy, D. (2009). "Desarrollos de investigación y direcciones en el reconocimiento y la comprensión del habla, parte 1". Revista de procesamiento de señales IEEE . 26 (3): 75–80. Código Bibliográfico : 2009ISPM ... 26 ... 75B . doi : 10.1109 / msp.2009.932166 . S2CID 357467 .
- ^ Bengio, Y. (1991). "Redes neuronales artificiales y su aplicación al reconocimiento de voz / secuencia" . Ph.D. de la Universidad McGill tesis. Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de junio de 2017 .
- ^ Deng, L .; Hassanein, K .; Elmasry, M. (1994). "Análisis de estructura de correlación para un modelo predictivo neuronal con aplicaciones al reconocimiento de voz". Redes neuronales . 7 (2): 331–339. doi : 10.1016 / 0893-6080 (94) 90027-2 .
- ^ Doddington, G .; Przybocki, M .; Martin, A .; Reynolds, D. (2000). "La evaluación de reconocimiento de locutor del NIST ± Visión general, metodología, sistemas, resultados, perspectiva". Comunicación de voz . 31 (2): 225–254. doi : 10.1016 / S0167-6393 (99) 00080-1 .
- ^ a b Diablos, L .; Konig, Y .; Sonmez, M .; Weintraub, M. (2000). "Robustez a la distorsión del auricular del teléfono en el reconocimiento del altavoz por diseño de características discriminatorias". Comunicación de voz . 31 (2): 181-192. doi : 10.1016 / s0167-6393 (99) 00077-1 .
- ^ "Modelado acústico con redes neuronales profundas utilizando señal de tiempo sin procesar para LVCSR (descarga de PDF disponible)" . ResearchGate . Archivado desde el original el 9 de mayo de 2021 . Consultado el 14 de junio de 2017 .
- ^ a b c Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a corto plazo". Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . ISSN 0899-7667 . PMID 9377276 . S2CID 1915014 .
- ^ a b Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). "Reconocimiento de voz biológicamente plausible con redes neuronales LSTM" (PDF) . 1er Intl. Taller sobre enfoques de tecnología avanzada de la información inspirados en la biología, Bio-ADIT 2004, Lausana, Suiza . págs. 175-184. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 9 de abril de 2016 .
- ^ a b Graves, Alex; Fernández, Santiago; Gómez, Faustino (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
- ^ Santiago Fernandez, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para detectar palabras clave discriminatorias Archivado 2018-11-18 en Wayback Machine . Actas de ICANN (2), págs. 220–229.
- ^ a b Sak, Haşim; Mayor, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (septiembre de 2015). "Búsqueda por voz de Google: más rápida y precisa" . Archivado desde el original el 9 de marzo de 2016 . Consultado el 9 de abril de 2016 .
- ^ Hinton, Geoffrey E. (1 de octubre de 2007). "Aprendiendo múltiples capas de representación" . Tendencias en ciencias cognitivas . 11 (10): 428–434. doi : 10.1016 / j.tics.2007.09.004 . ISSN 1364-6613 . PMID 17921042 . S2CID 15066318 . Archivado desde el original el 11 de octubre de 2013 . Consultado el 12 de junio de 2017 .
- ^ Hinton, GE ; Osindero, S .; Teh, YW (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527-1554. doi : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 . Archivado (PDF) desde el original el 23 de diciembre de 2015 . Consultado el 20 de julio de 2011 .
- ^ Bengio, Yoshua (2012). "Recomendaciones prácticas para el entrenamiento basado en gradientes de arquitecturas profundas". arXiv : 1206,5533 [ cs.LG ].
- ^ GE Hinton., " Aprendizaje de múltiples capas de representación. Archivado el 22 de mayo de 2018 en la Wayback Machine ", Tendencias en ciencias cognitivas , 11, págs.
- ^ a b c Hinton, G .; Deng, L .; Yu, D .; Dahl, G .; Mohamed, A .; Jaitly, N .; Senior, A .; Vanhoucke, V .; Nguyen, P .; Sainath, T .; Kingsbury, B. (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación". Revista de procesamiento de señales IEEE . 29 (6): 82–97. Código Bibliográfico : 2012ISPM ... 29 ... 82H . doi : 10.1109 / msp.2012.2205597 . S2CID 206485943 .
- ^ Deng, Li; Hinton, Geoffrey; Kingsbury, Brian (1 de mayo de 2013). "Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general" . Investigación de Microsoft . CiteSeerX 10.1.1.368.1123 . Archivado desde el original el 14 de febrero de 2017 . Consultado el 13 de febrero de 2017 , a través de research.microsoft.com.
- ^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Michael; Zweig, Geoff; Él, Xiaodong; Williams, Jason; Gong, Yifan; Acero, Alex (2013). "Avances recientes en aprendizaje profundo para la investigación del habla en Microsoft". 2013 IEEE International Conference on Acustics, Speech and Signal Processing . págs. 8604–8608. doi : 10.1109 / icassp.2013.6639345 . ISBN 978-1-4799-0356-6. S2CID 13412186 .
- ^ Singh, Premjeet; Saha, Goutam; Sahidullah, Maryland (2021). "Deformación de frecuencia no lineal mediante transformación Q constante para el reconocimiento de emociones de voz". 2021 Congreso Internacional de Comunicación e Informática por Computadora (ICCCI) . págs. 1–4. arXiv : 2102.04029 . doi : 10.1109 / ICCCI50826.2021.9402569 . ISBN 978-1-7281-5875-4.
- ^ Sak, Hasim; Mayor, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a largo plazo a corto plazo para el modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
- ^ Li, Xiangang; Wu, Xihong (2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a corto plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [ cs.CL ].
- ^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente de memoria a corto plazo unidireccional con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASSP. págs. 4470–4474. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
- ^ Deng, L .; Abdel-Hamid, O .; Yu, D. (2013). "Una red neuronal convolucional profunda que utiliza agrupación heterogénea para el comercio de invariancia acústica con confusión fonética" (PDF) . Google.com . ICASSP. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
- ^ a b Sainath, Tara N .; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Redes neuronales convolucionales profundas para LVCSR". 2013 IEEE International Conference on Acustics, Speech and Signal Processing . págs. 8614–8618. doi : 10.1109 / icassp.2013.6639347 . ISBN 978-1-4799-0356-6. S2CID 13816461 .
- ^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea Archivado el 23 de abril de 2016 en Wayback Machine
- ^ a b c Taller NIPS: Aprendizaje profundo para el reconocimiento de voz y aplicaciones relacionadas, Whistler, BC, Canadá, diciembre de 2009 (Organizadores: Li Deng, Geoff Hinton, D. Yu).
- ^ a b Charla principal: Desarrollos recientes en redes neuronales profundas. ICASSP, 2013 (por Geoff Hinton).
- ^ D. Yu, L. Deng, G. Li y F. Seide (2011). "Preentrenamiento discriminativo de redes neuronales profundas", solicitud de patente de EE. UU.
- ^ a b c Deng, L .; Hinton, G .; Kingsbury, B. (2013). "Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general (ICASSP)" (PDF) . Archivado (PDF) desde el original el 26 de septiembre de 2017 . Consultado el 12 de junio de 2017 . Cite journal requiere
|journal=
( ayuda ) - ^ a b c Yu, D .; Deng, L. (2014). Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer) . ISBN 978-1-4471-5779-3.
- ^ "Deng recibe el prestigioso premio IEEE Technical Achievement Award - Microsoft Research" . Investigación de Microsoft . 3 de diciembre de 2015. Archivado desde el original el 16 de marzo de 2018 . Consultado el 16 de marzo de 2018 .
- ^ a b Li, Deng (septiembre de 2014). "Charla magistral: 'Logros y desafíos del aprendizaje profundo: desde el análisis y el reconocimiento del habla hasta el lenguaje y el procesamiento multimodal ' " . Interspeech . Archivado desde el original el 26 de septiembre de 2017 . Consultado el 12 de junio de 2017 .
- ^ Yu, D .; Deng, L. (2010). "Funciones de la formación previa y el ajuste fino en DBN-HMM dependientes del contexto para el reconocimiento de voz en el mundo real" . Taller de NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisado . Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ Seide, F .; Li, G .; Yu, D. (2011). "Transcripción de voz conversacional utilizando redes neuronales profundas dependientes del contexto" . Interspeech . Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; Él, Xiaodong (1 de mayo de 2013). "Avances recientes en el aprendizaje profundo para la investigación del habla en Microsoft" . Investigación de Microsoft . Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ "El CEO de Nvidia apuesta fuerte por el aprendizaje profundo y la realidad virtual" . Venture Beat . 5 de abril de 2016. Archivado desde el original el 25 de noviembre de 2020 . Consultado el 21 de abril de 2017 .
- ^ "De no funcionar a las redes neuronales" . The Economist . Archivado desde el original el 31 de diciembre de 2016 . Consultado el 26 de agosto de 2017 .
- ^ a b Oh, K.-S .; Jung, K. (2004). "Implementación de GPU de redes neuronales". Reconocimiento de patrones . 37 (6): 1311-1314. Código Bibliográfico : 2004PatRe..37.1311O . doi : 10.1016 / j.patcog.2004.01.013 .
- ^ " Una encuesta de técnicas para optimizar el aprendizaje profundo en GPU archivado 2021-05-09 en la Wayback Machine ", S. Mittal y S. Vaishay, Journal of Systems Architecture, 2019
- ^ a b Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos , archivado desde el original el 18 de mayo de 2020 , consultado el 14 de febrero de 2021
- ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales simples, grandes y profundas para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi : 10.1162 / neco_a_00052 . ISSN 0899-7667 . PMID 20858131 . S2CID 1918673 .
- ^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). "Aprendizaje profundo no supervisado a gran escala utilizando procesadores gráficos". Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ICML '09. Nueva York, NY, EE. UU .: ACM: 873–880. CiteSeerX 10.1.1.154.372 . doi : 10.1145 / 1553374.1553486 . ISBN 9781605585161. S2CID 392458 .
- ^ Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). "Procesamiento eficiente de redes neuronales profundas: un tutorial y una encuesta". arXiv : 1703.09039 [ cs.CV ].
- ^ a b "Desafío de actividad molecular de Merck" . kaggle.com . Archivado desde el original el 16 de julio de 2020 . Consultado el 16 de julio de 2020 .
- ^ a b "Redes neuronales multitarea para predicciones QSAR | Asociación de ciencia de datos" . www.datascienceassn.org . Archivado desde el original el 30 de abril de 2017 . Consultado el 14 de junio de 2017 .
- ^ a b "Toxicología en el desafío de datos del siglo XXI"
- ^ a b "NCATS anuncia a los ganadores del desafío de datos de Tox21" . Archivado desde el original el 8 de septiembre de 2015 . Consultado el 5 de marzo de 2015 .
- ^ a b "Copia archivada" . Archivado desde el original el 28 de febrero de 2015 . Consultado el 5 de marzo de 2015 .CS1 maint: copia archivada como título ( enlace )
- ^ Ciresan, DC; Meier, U .; Masci, J .; Gambardella, LM; Schmidhuber, J. (2011). "Redes neuronales convolucionales flexibles de alto rendimiento para clasificación de imágenes" (PDF) . Conferencia conjunta internacional sobre inteligencia artificial . doi : 10.5591 / 978-1-57735-516-8 / ijcai11-210 . Archivado (PDF) desde el original el 29 de septiembre de 2014 . Consultado el 13 de junio de 2017 .
- ^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M .; Schmidhuber, Juergen (2012). Pereira, F .; Burges, CJC; Bottou, L .; Weinberger, KQ (eds.). Avances en los sistemas de procesamiento de información neuronal 25 (PDF) . Curran Associates, Inc. págs. 2843–2851. Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 13 de junio de 2017 .
- ^ Ciresan, D .; Giusti, A .; Gambardella, LM; Schmidhuber, J. (2013). "Detección de mitosis en imágenes de histología de cáncer de mama utilizando redes neuronales profundas". Actas MICCAI . Apuntes de conferencias en Ciencias de la Computación. 7908 (Parte 2): 411–418. doi : 10.1007 / 978-3-642-40763-5_51 . ISBN 978-3-642-38708-1. PMID 24579167 .
- ^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). "Mostrar y decir: un generador de subtítulos de imágenes neuronales". arXiv : 1411.4555 [ cs.CV ]..
- ^ Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; Él, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). "De subtítulos a conceptos visuales y viceversa". arXiv : 1411,4952 [ cs.CV ]..
- ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). "Unificando las incrustaciones visual-semánticas con modelos de lenguaje neuronal multimodal". arXiv : 1411,2539 [ cs.LG ]..
- ^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). "Aprendizaje profundo bilineal para clasificación de imágenes". Actas de la XIX Conferencia Internacional ACM sobre Multimedia . MM '11. Nueva York, NY, EE. UU .: ACM: 343–352. doi : 10.1145 / 2072298.2072344 . hdl : 10397/23574 . ISBN 9781450306164. S2CID 11922007 .
- ^ "Por qué el aprendizaje profundo está cambiando repentinamente su vida" . Fortuna . 2016. Archivado desde el original el 14 de abril de 2018 . Consultado el 13 de abril de 2018 .
- ^ Silver, David; Huang, Aja; Maddison, Chris J .; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib : 2016Natur.529..484S . doi : 10.1038 / nature16961 . ISSN 1476-4687 . PMID 26819042 . S2CID 515925 .
- ^ Una guía para el aprendizaje profundo y las redes neuronales , archivado desde el original el 2020-11-02 , recuperado el 2020-11-16
- ^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Redes neuronales profundas para la detección de objetos" . Avances en los sistemas de procesamiento de información neuronal : 2553-2561. Archivado desde el original el 29 de junio de 2017 . Consultado el 13 de junio de 2017 .
- ^ Rolnick, David; Tegmark, Max (2018). "El poder de las redes más profundas para expresar funciones naturales" . Congreso Internacional de Representaciones del Aprendizaje . ICLR 2018. Archivado desde el original el 7 de enero de 2021 . Consultado el 5 de enero de 2021 .
- ^ Hof, Robert D. "¿La inteligencia artificial finalmente está logrando su objetivo?" . Revisión de tecnología del MIT . Archivado desde el original el 31 de marzo de 2019 . Consultado el 10 de julio de 2018 .
- ^ a b Gers, Felix A .; Schmidhuber, Jürgen (2001). "Las redes recurrentes LSTM aprenden lenguajes sencillos, libres de contexto y sensibles al contexto" . Transacciones IEEE en redes neuronales . 12 (6): 1333-1340. doi : 10.1109 / 72.963769 . PMID 18249962 . Archivado desde el original el 26 de enero de 2020 . Consultado el 25 de febrero de 2020 .
- ^ a b c Sutskever, L .; Vinyals, O .; Le, Q. (2014). "Secuencia para secuenciar el aprendizaje con redes neuronales" (PDF) . Proc. NIPS . arXiv : 1409,3215 . Código bibliográfico : 2014arXiv1409.3215S . Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
- ^ a b Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). "Explorando los límites del modelado del lenguaje". arXiv : 1602.02410 [ cs.CL ].
- ^ a b Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). "Procesamiento de idiomas multilingües a partir de bytes". arXiv : 1512.00103 [ cs.CL ].
- ^ Mikolov, T .; et al. (2010). "Modelo de lenguaje basado en redes neuronales recurrentes" (PDF) . Interspeech . Archivado (PDF) desde el original el 16 de mayo de 2017 . Consultado el 13 de junio de 2017 .
- ^ a b "Aprendizaje de sincronización precisa con redes recurrentes LSTM (descarga de PDF disponible)" . ResearchGate . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
- ^ LeCun, Y .; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi : 10.1109 / 5.726791 .
- ^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Avances en la optimización de redes recurrentes". 2013 IEEE International Conference on Acustics, Speech and Signal Processing . págs. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . doi : 10.1109 / icassp.2013.6639349 . ISBN 978-1-4799-0356-6. S2CID 12485056 .
- ^ Dahl, G .; et al. (2013). "Mejora de DNN para LVCSR utilizando unidades lineales rectificadas y deserción" (PDF) . ICASSP . Archivado (PDF) desde el original el 12 de agosto de 2017 . Consultado el 13 de junio de 2017 .
- ^ "Aumento de datos - deeplearning.ai | Coursera" . Coursera . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 30 de noviembre de 2017 .
- ^ Hinton, GE (2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas" . Tech. Rep. UTML TR 2010-003 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
- ^ Tú, Yang; Buluç, Aydin; Demmel, James (noviembre de 2017). "Escalar el aprendizaje profundo en GPU y clústeres de aterrizaje de caballeros" . Actas de la Conferencia Internacional de Computación, Redes, Almacenamiento y Análisis de Alto Rendimiento en - SC '17 . SC '17, ACM. págs. 1-12. doi : 10.1145 / 3126908.3126912 . ISBN 9781450351140. S2CID 8869270 . Archivado desde el original el 29 de julio de 2020 . Consultado el 5 de marzo de 2018 .
- ^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: un esquema de paralelización para el entrenamiento de redes neuronales convolucionales en Intel Xeon Phi". El diario de la supercomputación . 75 : 197-227. arXiv : 1702.07908 . Código Bib : 2017arXiv170207908V . doi : 10.1007 / s11227-017-1994-x . S2CID 14135321 .
- ^ Ting Qin, et al. "Un algoritmo de aprendizaje de CMAC basado en RLS". Cartas de procesamiento neuronal 19.1 (2004): 49-61.
- ^ Ting Qin, et al. " CMAC-QRLS continuo y su matriz sistólica Archivado 2018-11-18 en Wayback Machine ". Cartas de procesamiento neuronal 22.1 (2005): 1-16.
- ^ Research, AI (23 de octubre de 2015). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz" . airesearch.com . Archivado desde el original el 1 de febrero de 2016 . Consultado el 23 de octubre de 2015 .
- ^ "Las GPU continúan dominando el mercado de aceleradores de inteligencia artificial por ahora" . InformationWeek . Diciembre de 2019. Archivado desde el original el 10 de junio de 2020 . Consultado el 11 de junio de 2020 .
- ^ Ray, Tiernan (2019). "La IA está cambiando toda la naturaleza de la computación" . ZDNet . Archivado desde el original el 25 de mayo de 2020 . Consultado el 11 de junio de 2020 .
- ^ "IA y Computación" . OpenAI . 16 de mayo de 2018. Archivado desde el original el 17 de junio de 2020 . Consultado el 11 de junio de 2020 .
- ^ Consorcio de datos lingüísticos del Corpus acústico-fonético del habla continua de TIMIT , Filadelfia.
- ^ Robinson, Tony (30 de septiembre de 1991). "Varias mejoras a un sistema de reconocimiento telefónico de red de propagación de errores recurrentes". Informe técnico del Departamento de Ingeniería de la Universidad de Cambridge . CUED / F-INFENG / TR82. doi : 10.13140 / RG.2.2.15418.90567 .
- ^ Abdel-Hamid, O .; et al. (2014). "Redes neuronales convolucionales para el reconocimiento de voz" . Transacciones IEEE / ACM sobre procesamiento de audio, habla y lenguaje . 22 (10): 1533-1545. doi : 10.1109 / taslp.2014.2339736 . S2CID 206602362 . Archivado desde el original el 22 de septiembre de 2020 . Consultado el 20 de abril de 2018 .
- ^ Deng, L .; Platt, J. (2014). "Ensemble Deep Learning para el reconocimiento de voz". Proc. Interspeech . S2CID 15641618 .
- ^ Tóth, Laszló (2015). "Reconocimiento de teléfono con redes Maxout profundas convolucionales jerárquicas" (PDF) . Revista EURASIP sobre procesamiento de audio, voz y música . 2015 . doi : 10.1186 / s13636-015-0068-3 . S2CID 217950236 . Archivado (PDF) desde el original el 24 de septiembre de 2020 . Consultado el 1 de abril de 2019 .
- ^ McMillan, Robert (17 de diciembre de 2014). "Cómo Skype usó la inteligencia artificial para construir su increíble nuevo traductor de idiomas | WIRED" . Cableado . Archivado desde el original el 8 de junio de 2017 . Consultado el 14 de junio de 2017 .
- ^ Hannun, Awni; Caso, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). "Deep Speech: ampliación del reconocimiento de voz de un extremo a otro". arXiv : 1412,5567 [ cs.CL ].
- ^ "Base de datos de dígitos manuscritos del MNIST, Yann LeCun, Corinna Cortes y Chris Burges" . yann.lecun.com . Archivado desde el original el 13 de enero de 2014 . Consultado el 28 de enero de 2014 .
- ^ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (agosto de 2012). "Red neuronal profunda de varias columnas para clasificación de señales de tráfico". Redes neuronales . Artículos seleccionados de IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . doi : 10.1016 / j.neunet.2012.02.023 . PMID 22386783 .
- ^ Nvidia Demos a Car Computer Training with "Deep Learning" (6 de enero de 2015), David Talbot, MIT Technology Review
- ^ GW Smith; Frederic Fol Leymarie (10 de abril de 2017). "La máquina como artista: una introducción" . Artes . 6 (4): 5. doi : 10.3390 / arts6020005 .
- ^ Blaise Agüera y Arcas (29 de septiembre de 2017). "Arte en la era de la inteligencia artificial" . Artes . 6 (4): 18. doi : 10.3390 / arts6040018 .
- ^ Goldberg, Yoav; Levy, Omar (2014). "Word2vec explicado: derivación del método de inserción de palabras de muestreo negativo de Mikolov et al.". arXiv : 1402,3722 [ cs.CL ].
- ^ a b Socher, Richard; Manning, Christopher. "Aprendizaje profundo para PNL" (PDF) . Archivado (PDF) desde el original el 6 de julio de 2014 . Consultado el 26 de octubre de 2014 .
- ^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). "Análisis con gramáticas vectoriales composicionales" (PDF) . Actas de la Conferencia ACL 2013 . Archivado (PDF) desde el original el 27 de noviembre de 2014 . Consultado el 3 de septiembre de 2014 .
- ^ Socher, Richard (2013). "Modelos profundos recursivos para la composicionalidad semántica sobre un árbol de sentimiento" (PDF) . Archivado (PDF) desde el original el 28 de diciembre de 2016 . Consultado el 3 de septiembre de 2014 . Cite journal requiere
|journal=
( ayuda ) - ^ Shen, Yelong; Él, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 de noviembre de 2014). "Un modelo semántico latente con estructura de agrupación convolucional para la recuperación de información" . Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ Huang, Po-Sen; Él, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 de octubre de 2013). "Aprendizaje de modelos semánticos estructurados profundos para la búsqueda web utilizando datos de clics" . Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ Mesnil, G .; Dauphin, Y .; Ya ok.; Bengio, Y .; Deng, L .; Hakkani-Tur, D .; Él, X .; Diablos, L .; Tur, G .; Yu, D .; Zweig, G. (2015). "Uso de redes neuronales recurrentes para rellenar espacios en la comprensión del lenguaje hablado". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 23 (3): 530–539. doi : 10.1109 / taslp.2014.2383614 . S2CID 1317136 .
- ^ a b Gao, Jianfeng; Él, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 de junio de 2014). "Aprendizaje continuo de representaciones de frases para el modelado de traducciones" . Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
- ^ Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). "Verificación de autoría utilizando sistemas de redes de creencias profundas". Revista Internacional de Sistemas de Comunicación . 30 (12): e3259. doi : 10.1002 / dac.3259 .
- ^ "Aprendizaje profundo para el procesamiento del lenguaje natural: teoría y práctica (Tutorial CIKM2014) - Investigación de Microsoft" . Investigación de Microsoft . Archivado desde el original el 13 de marzo de 2017 . Consultado el 14 de junio de 2017 .
- ^ Turovsky, Barak (15 de noviembre de 2016). "Encontrado en la traducción: oraciones más precisas y fluidas en el Traductor de Google" . Blog de Google de palabras clave . Archivado desde el original el 7 de abril de 2017 . Consultado el 23 de marzo de 2017 .
- ^ a b c d Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 de noviembre de 2016). "Traducción Zero-Shot con el sistema de traducción automática neuronal multilingüe de Google" . Blog de investigación de Google . Archivado desde el original el 10 de julio de 2017 . Consultado el 23 de marzo de 2017 .
- ^ Sepp Hochreiter; Jürgen Schmidhuber (1997). "Memoria larga a corto plazo" . Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 . Archivado desde el original el 22 de enero de 2021 . Consultado el 12 de octubre de 2017 .
- ^ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprender a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi : 10.1162 / 089976600300015015 . PMID 11032042 . S2CID 11598600 .
- ^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Joven, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). "Sistema de traducción automática neuronal de Google: cerrar la brecha entre traducción humana y automática". arXiv : 1609.08144 [ cs.CL ].
- ^ Metz, Cade (27 de septiembre de 2016). "Una infusión de IA hace que Google Translate sea más poderoso que nunca" . Cableado . Archivado desde el original el 8 de noviembre de 2020 . Consultado el 12 de octubre de 2017 .
- ^ a b Boitet, cristiano; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). "MT en y para la Web" (PDF) . Archivado desde el original (PDF) el 29 de marzo de 2017 . Consultado el 1 de diciembre de 2016 .
- ^ Arrowsmith, J; Miller, P (2013). "Vigilancia de prueba: tasas de deserción de fase II y fase III 2011-2012". Nature Reviews Descubrimiento de medicamentos . 12 (8): 569. doi : 10.1038 / nrd4090 . PMID 23903212 . S2CID 20246434 .
- ^ Verbista, B; Klambauer, G; Vervoort, L; Talloen, W; El Consorcio Qstar; Shkedy, Z; Thas, O; Bender, A; Göhlmann, HW; Hochreiter, S (2015). "Uso de la transcriptómica para orientar la optimización de clientes potenciales en proyectos de descubrimiento de fármacos: lecciones aprendidas del proyecto QSTAR" . Descubrimiento de drogas hoy . 20 (5): 505–513. doi : 10.1016 / j.drudis.2014.12.014 . PMID 25582842 .
- ^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 de octubre de 2015). "AtomNet: una red neuronal convolucional profunda para la predicción de la bioactividad en el descubrimiento de fármacos basado en estructuras". arXiv : 1510.02855 [ cs.LG ].
- ^ "La startup de Toronto tiene una forma más rápida de descubrir medicamentos eficaces" . El globo y el correo . Archivado desde el original el 20 de octubre de 2015 . Consultado el 9 de noviembre de 2015 .
- ^ "Startup aprovecha las supercomputadoras para buscar curas" . KQED Future of You . Archivado desde el original el 24 de diciembre de 2015 . Consultado el 9 de noviembre de 2015 .
- ^ "La startup de Toronto tiene una forma más rápida de descubrir medicamentos eficaces" . Archivado desde el original el 25 de diciembre de 2015 . Consultado el 26 de agosto de 2017 .
- ^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Biotecnología de la naturaleza . 37 (9): 1038–1040. doi : 10.1038 / s41587-019-0224-x . PMID 31477924 . S2CID 201716327 .
- ^ Gregory, barbero. "Una molécula diseñada por AI exhibe cualidades de 'Druglike'" . Cableado . Archivado desde el original el 30 de abril de 2020 . Consultado el 5 de septiembre de 2019 .
- ^ Tkachenko, Yegor (8 de abril de 2015). "Control CRM Autónomo vía Aproximación CLV con Aprendizaje de Refuerzo Profundo en Espacio de Acción Discreta y Continua". arXiv : 1504.01840 [ cs.LG ].
- ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, CJC; Bottou, L .; Welling, M .; Ghahramani, Z .; Weinberger, KQ (eds.). Avances en los sistemas de procesamiento de información neuronal 26 (PDF) . Curran Associates, Inc. págs. 2643–2651. Archivado (PDF) desde el original el 16 de mayo de 2017 . Consultado el 14 de junio de 2017 .
- ^ Feng, XY; Zhang, H .; Ren, YJ; Shang, PH; Zhu, Y .; Liang, YC; Guan, RC; Xu, D. (2019). "El sistema de recomendación basado en aprendizaje profundo" Pubmender "para elegir un lugar de publicación biomédica: estudio de desarrollo y validación" . Revista de investigación médica en Internet . 21 (5): e12957. doi : 10.2196 / 12957 . PMC 6555124 . PMID 31127715 .
- ^ Elkahky, Ali Mamdouh; Song, Yang; Él, Xiaodong (1 de mayo de 2015). "Un enfoque de aprendizaje profundo de múltiples vistas para el modelado de usuarios de dominio cruzado en sistemas de recomendación" . Investigación de Microsoft . Archivado desde el original el 25 de enero de 2018 . Consultado el 14 de junio de 2017 .
- ^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 de enero de 2014). Redes neuronales de autoencoder profundo para predicciones de anotación de ontología genética . Actas de la 5ª Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14 . ACM. págs. 533–540. doi : 10.1145 / 2649387.2649442 . hdl : 11311/964622 . ISBN 9781450328944. S2CID 207217210 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 23 de noviembre de 2015 .
- ^ Sathyanarayana, Aarti (1 de enero de 2016). "Predicción de la calidad del sueño a partir de datos portátiles mediante aprendizaje profundo" . JMIR mHealth y uHealth . 4 (4): e125. doi : 10.2196 / mhealth.6562 . PMC 5116102 . PMID 27815231 . S2CID 3821594 .
- ^ Choi, Edward; Schuetz, Andy; Stewart, Walter F .; Sun, Jimeng (13 de agosto de 2016). "Utilizando modelos de redes neuronales recurrentes para la detección temprana de la aparición de insuficiencia cardíaca" . Revista de la Asociación Estadounidense de Informática Médica . 24 (2): 361–370. doi : 10.1093 / jamia / ocw112 . ISSN 1067-5027 . PMC 5391725 . PMID 27521897 .
- ^ Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen AWM; van Ginneken, Bram; Sánchez, Clara I. (diciembre de 2017). "Una encuesta sobre el aprendizaje profundo en el análisis de imágenes médicas". Análisis de imágenes médicas . 42 : 60–88. arXiv : 1702.05747 . Código bibliográfico : 2017arXiv170205747L . doi : 10.1016 / j.media.2017.07.005 . PMID 28778026 . S2CID 2088679 .
- ^ Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). "Redes neuronales convolucionales profundas para la detección de cambios celulares debidos a malignidad" . 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) . págs. 82–89. doi : 10.1109 / ICCVW.2017.18 . ISBN 9781538610343. S2CID 4728736 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de noviembre de 2019 .
- ^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predecir la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante el aprendizaje profundo". 2017 2do Congreso Internacional de Sistemas de Comunicación, Computación y Aplicaciones de TI (CSCITA) . págs. 174-177. doi : 10.1109 / CSCITA.2017.8066548 . ISBN 978-1-5090-4381-1. S2CID 35350962 .
- ^ "Colorear y restaurar imágenes antiguas con aprendizaje profundo" . Blog de FloydHub . 13 de noviembre de 2018. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
- ^ Schmidt, Uwe; Roth, Stefan. Campos de contracción para una restauración eficaz de la imagen (PDF) . Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2014 en. Archivado (PDF) desde el original el 2 de enero de 2018 . Consultado el 1 de enero de 2018 .
- ^ Kleanthous, Christos; Chatzis, Sotirios (2020). "Autoencoders variacionales de mezcla cerrada para selección de caso de auditoría de impuesto al valor agregado". Sistemas basados en el conocimiento . 188 : 105048. doi : 10.1016 / j.knosys.2019.105048 .
- ^ Checo, Tomasz. "Aprendizaje profundo: la próxima frontera para la detección del blanqueo de capitales" . Revisión de banca y finanzas globales . Archivado desde el original el 16 de noviembre de 2018 . Consultado el 15 de julio de 2018 .
- ^ a b c "Los investigadores del ejército desarrollan nuevos algoritmos para entrenar robots" . EurekAlert! . Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
- ^ Utgoff, PE; Stracuzzi, DJ (2002). "Aprendizaje de muchas capas". Computación neuronal . 14 (10): 2497–2529. doi : 10.1162 / 08997660260293319 . PMID 12396572 . S2CID 1119517 .
- ^ Elman, Jeffrey L. (1998). Repensar lo innato: una perspectiva conexionista sobre el desarrollo . Prensa del MIT. ISBN 978-0-262-55030-7.
- ^ Shrager, J .; Johnson, MH (1996). "La plasticidad dinámica influye en la aparición de la función en una matriz cortical simple". Redes neuronales . 9 (7): 1119–1129. doi : 10.1016 / 0893-6080 (96) 00033-0 . PMID 12662587 .
- ^ Cuarzo, SR; Sejnowski, TJ (1997). "La base neural del desarrollo cognitivo: un manifiesto constructivista". Ciencias del comportamiento y del cerebro . 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . doi : 10.1017 / s0140525x97001581 . PMID 10097006 .
- ^ S. Blakeslee., "En el crecimiento temprano del cerebro, el calendario puede ser crítico", The New York Times, sección de ciencia , págs. B5-B6, 1995.
- ^ Mazzoni, P .; Andersen, RA; Jordan, MI (15 de mayo de 1991). "Una regla de aprendizaje biológicamente más plausible para redes neuronales" . Actas de la Academia Nacional de Ciencias . 88 (10): 4433–4437. Código bibliográfico : 1991PNAS ... 88.4433M . doi : 10.1073 / pnas.88.10.4433 . ISSN 0027-8424 . PMC 51674 . PMID 1903542 .
- ^ O'Reilly, Randall C. (1 de julio de 1996). "Aprendizaje basado en errores biológicamente plausible mediante diferencias de activación local: el algoritmo de recirculación generalizada". Computación neuronal . 8 (5): 895–938. doi : 10.1162 / neco.1996.8.5.895 . ISSN 0899-7667 . S2CID 2376781 .
- ^ Testolin, Alberto; Zorzi, Marco (2016). "Modelos probabilísticos y redes neuronales generativas: hacia un marco unificado para modelar funciones neurocognitivas normales y deterioradas" . Fronteras en neurociencia computacional . 10 : 73. doi : 10.3389 / fncom.2016.00073 . ISSN 1662-5188 . PMC 4943066 . PMID 27468262 . S2CID 9868901 .
- ^ Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (septiembre de 2017). "La percepción de letras surge del aprendizaje profundo no supervisado y del reciclaje de características de la imagen natural". Comportamiento humano de la naturaleza . 1 (9): 657–664. doi : 10.1038 / s41562-017-0186-2 . ISSN 2397-3374 . PMID 31024135 . S2CID 24504018 .
- ^ Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de noviembre de 2011). "Dinámica neuronal como muestreo: un modelo para la computación estocástica en redes recurrentes de neuronas spiking" . PLOS Biología Computacional . 7 (11): e1002211. Código Bibliográfico : 2011PLSCB ... 7E2211B . doi : 10.1371 / journal.pcbi.1002211 . ISSN 1553-7358 . PMC 3207943 . PMID 22096452 . S2CID 7504633 .
- ^ Morel, Danielle; Singh, Chandan; Levy, William B. (25 de enero de 2018). "Linealización de la integración sináptica excitadora sin coste adicional". Revista de neurociencia computacional . 44 (2): 173–188. doi : 10.1007 / s10827-017-0673-5 . ISSN 0929-5313 . PMID 29372434 . S2CID 3831587 .
- ^ Efectivo, S .; Yuste, R. (febrero de 1999). "Suma lineal de entradas excitadoras por neuronas piramidales CA1". Neurona . 22 (2): 383–394. doi : 10.1016 / s0896-6273 (00) 81098-3 . ISSN 0896-6273 . PMID 10069343 . S2CID 14663106 .
- ^ Olshausen, B; Field, D (1 de agosto de 2004). "Codificación escasa de entradas sensoriales". Opinión actual en neurobiología . 14 (4): 481–487. doi : 10.1016 / j.conb.2004.07.007 . ISSN 0959-4388 . PMID 15321069 . S2CID 16560320 .
- ^ Yamins, Daniel LK; DiCarlo, James J (marzo de 2016). "Uso de modelos de aprendizaje profundo impulsados por objetivos para comprender la corteza sensorial". Neurociencia de la naturaleza . 19 (3): 356–365. doi : 10.1038 / nn.4244 . ISSN 1546-1726 . PMID 26906502 . S2CID 16970545 .
- ^ Zorzi, Marco; Testolin, Alberto (19 de febrero de 2018). "Una perspectiva emergentista sobre el origen del sentido numérico" . Phil. Trans. R. Soc. B . 373 (1740): 20170043. doi : 10.1098 / rstb.2017.0043 . ISSN 0962-8436 . PMC 5784047 . PMID 29292348 . S2CID 39281431 .
- ^ Güçlü, Umut; van Gerven, Marcel AJ (8 de julio de 2015). "Las redes neuronales profundas revelan un gradiente en la complejidad de las representaciones neuronales a través de la corriente ventral" . Revista de neurociencia . 35 (27): 10005–10014. arXiv : 1411.6422 . doi : 10.1523 / jneurosci.5023-14.2015 . PMC 6605414 . PMID 26157000 .
- ^ Metz, C. (12 de diciembre de 2013). "Gurú de 'aprendizaje profundo' de Facebook revela el futuro de la IA" . Cableado . Archivado desde el original el 28 de marzo de 2014 . Consultado el 26 de agosto de 2017 .
- ^ "El algoritmo de Google AI domina el antiguo juego de Go" . Nature News & Comment . Archivado desde el original el 2 de mayo de 2019 . Consultado el 30 de enero de 2016 .
- ^ Silver, David ; Huang, Aja ; Maddison, Chris J .; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya ; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib : 2016Natur.529..484S . doi : 10.1038 / nature16961 . ISSN 0028-0836 . PMID 26819042 . S2CID 515925 .
- ^ "Un algoritmo de Google DeepMind utiliza el aprendizaje profundo y más para dominar el juego de Go | Revisión de la tecnología del MIT" . Revisión de tecnología del MIT . Consultado el 30 de enero de 2016 .
- ^ "Blippar demuestra nueva aplicación de realidad aumentada en tiempo real" . TechCrunch . Archivado desde el original el 5 de julio de 2017 . Consultado el 25 de junio de 2017 .
- ^ Metz, Cade (6 de noviembre de 2017). "Los investigadores de AI dejan el laboratorio de Elon Musk para comenzar la puesta en marcha de la robótica" . Archivado desde el original el 7 de julio de 2019 . Consultado el 5 de julio de 2019 , a través de NYTimes.com.
- ^ Bradley Knox, W .; Piedra, Peter (2008). "TAMER: entrenar a un agente manualmente a través del refuerzo evaluativo". 2008 Séptima Conferencia Internacional IEEE sobre Desarrollo y Aprendizaje : 292–297. doi : 10.1109 / devlrn.2008.4640845 . ISBN 978-1-4244-2661-4. S2CID 5613334 .
- ^ "Habla con los algoritmos: AI se convierte en un alumno más rápido" . Governmentciomedia.com . Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
- ^ Marcus, Gary (14 de enero de 2018). "En defensa del escepticismo sobre el aprendizaje profundo" . Gary Marcus . Archivado desde el original el 12 de octubre de 2018 . Consultado el 11 de octubre de 2018 .
- ^ Knight, Will (14 de marzo de 2017). "DARPA está financiando proyectos que intentarán abrir las cajas negras de la IA" . Revisión de tecnología del MIT . Archivado desde el original el 4 de noviembre de 2019 . Consultado el 2 de noviembre de 2017 .
- ^ Marcus, Gary (25 de noviembre de 2012). "¿Es el" aprendizaje profundo "una revolución en la inteligencia artificial?" . The New Yorker . Archivado desde el original el 27 de noviembre de 2009 . Consultado el 14 de junio de 2017 .
- ^ Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 de junio de 2015). "Inceptionism: profundizar en las redes neuronales" . Blog de investigación de Google. Archivado desde el original el 3 de julio de 2015 . Consultado el 20 de junio de 2015 .
- ^ Alex Hern (18 de junio de 2015). "Sí, los androides sueñan con ovejas eléctricas" . The Guardian . Archivado desde el original el 19 de junio de 2015 . Consultado el 20 de junio de 2015 .
- ^ a b c Goertzel, Ben (2015). "¿Hay razones profundas detrás de las patologías de los algoritmos de aprendizaje profundo actuales?" (PDF) . Archivado (PDF) desde el original el 13 de mayo de 2015 . Consultado el 10 de mayo de 2015 .
- ^ Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). "Las redes neuronales profundas se engañan fácilmente: predicciones de alta confianza para imágenes irreconocibles". arXiv : 1412.1897 [ cs.CV ].
- ^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Buen amigo, Ian; Fergus, Rob (2013). "Propiedades intrigantes de las redes neuronales". arXiv : 1312,6199 [ cs.CV ].
- ^ Zhu, SC; Mumford, D. (2006). "Una gramática estocástica de imágenes". Encontró. Computación de tendencias. Grafico. Vis . 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . doi : 10.1561 / 0600000018 .
- ^ Miller, GA y N. Chomsky. "Concepción de patrones". Documento para la conferencia sobre detección de patrones, Universidad de Michigan. 1957.
- ^ Eisner, Jason. "Aprendizaje profundo de estructura recursiva: inducción gramatical" . Archivado desde el original el 30 de diciembre de 2017 . Consultado el 10 de mayo de 2015 .
- ^ "Los piratas informáticos ya han comenzado a convertir en armas la inteligencia artificial" . Gizmodo . Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
- ^ "Cómo los piratas informáticos pueden obligar a la IA a cometer errores tontos" . El punto diario . 18 de junio de 2018. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
- ^ a b c d e "La IA es fácil de engañar: por qué eso debe cambiar" . Centro de singularidad . 10 de octubre de 2017. Archivado desde el original el 11 de octubre de 2017 . Consultado el 11 de octubre de 2017 .
- ^ Gibney, Elizabeth (2017). "El científico que detecta videos falsos" . Naturaleza . doi : 10.1038 / nature.2017.22784 . Archivado desde el original el 10 de octubre de 2017 . Consultado el 11 de octubre de 2017 .
- ^ a b c d Mühlhoff, Rainer (6 de noviembre de 2019). "Inteligencia artificial asistida por humanos: o, ¿cómo ejecutar grandes cálculos en cerebros humanos? Hacia una sociología de medios de aprendizaje automático" . Nuevos medios y sociedad . 22 (10): 1868–1884. doi : 10.1177 / 1461444819885334 . ISSN 1461-4448 . S2CID 209363848 .
- ^ "Facebook ahora puede encontrar tu rostro, incluso cuando no está etiquetado" . Cableado . ISSN 1059-1028 . Archivado desde el original el 10 de agosto de 2019 . Consultado el 22 de noviembre de 2019 .
Otras lecturas
- Buen amigo, Ian ; Bengio, Yoshua ; Courville, Aaron (2016). Aprendizaje profundo . Prensa del MIT. ISBN 978-0-26203561-3. Archivado desde el original el 16 de abril de 2016 . Consultado el 9 de mayo de 2021 , libro de texto introductorio.CS1 maint: posdata ( enlace )