AlexNet es el nombre de una arquitectura de red neuronal convolucional (CNN), diseñada por Alex Krizhevsky en colaboración con Ilya Sutskever y Geoffrey Hinton , quien fue Ph.D. de Krizhevsky. tutor. [1] [2]
AlexNet compitió en el ImageNet Large Scale Visual Recognition Challenge el 30 de septiembre de 2012. [3] La red logró un error entre los 5 primeros del 15,3%, más de 10,8 puntos porcentuales menos que el del segundo lugar. El resultado principal del artículo original fue que la profundidad del modelo era esencial para su alto rendimiento, que era computacionalmente costoso, pero factible debido a la utilización de unidades de procesamiento de gráficos (GPU) durante el entrenamiento. [2]
Contexto histórico
AlexNet no fue la primera implementación rápida de GPU de una CNN en ganar un concurso de reconocimiento de imágenes. Una CNN sobre GPU de K. Chellapilla et al. (2006) fue 4 veces más rápido que una implementación equivalente en CPU. [4] Una CNN profunda de Dan Cireșan et al. (2011) en IDSIA ya era 60 veces más rápido [5] y logró un desempeño sobrehumano en agosto de 2011. [6] Entre el 15 de mayo de 2011 y el 10 de septiembre de 2012, su CNN ganó nada menos que cuatro concursos de imagen. [7] [8] También mejoraron significativamente el mejor rendimiento en la literatura para múltiples bases de datos de imágenes . [9]
Según el artículo de AlexNet, [2] la red anterior de Cireșan es "algo similar". Ambos se escribieron originalmente con CUDA para ejecutarse con soporte de GPU . De hecho, ambos son en realidad solo variantes de los diseños de CNN presentados por Yann LeCun et al. (1989) [10] [11] que aplicó el algoritmo de retropropagación a una variante de la arquitectura CNN original de Kunihiko Fukushima llamada " neocognitron ". [12] [13] La arquitectura fue posteriormente modificada por el método de J. Weng llamado max-pooling . [14] [8]
En 2015, AlexNet fue superado por la muy profunda CNN de Microsoft Research Asia con más de 100 capas, que ganó el concurso ImageNet 2015. [15]
Diseño de red
AlexNet contenía ocho capas; las primeras cinco eran capas convolucionales , algunas de ellas seguidas por capas de agrupación máxima , y las últimas tres eran capas completamente conectadas. [2] Usó la función de activación de ReLU no saturante , que mostró un rendimiento de entrenamiento mejorado sobre tanh y sigmoide . [2]
Influencia
AlexNet es considerado uno de los artículos más influyentes publicados en visión por computadora, ya que ha impulsado la publicación de muchos más artículos que emplean CNN y GPU para acelerar el aprendizaje profundo. [16] A partir de 2021[actualizar], el artículo de AlexNet ha sido citado más de 80.000 veces según Google Scholar.
Referencias
- ^ "Los datos que transformaron la investigación de la IA, y posiblemente el mundo" .
- ^ a b c d e Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (24 de mayo de 2017). "Clasificación de ImageNet con redes neuronales convolucionales profundas" (PDF) . Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145 / 3065386 . ISSN 0001-0782 . S2CID 195908774 .
- ^ "Resultados de ILSVRC2012" .
- ^ Kumar Chellapilla; Sid Puri; Patrice Simard (2006). "Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos" . En Lorette, Guy (ed.). Décimo Taller Internacional de Fronteras en el Reconocimiento de la Caligrafía . Suvisoft.
- ^ Cireșan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Redes neuronales convolucionales flexibles de alto rendimiento para clasificación de imágenes" (PDF) . Actas de la Vigésima Segunda Conferencia Conjunta Internacional sobre Inteligencia Artificial - Volumen Dos . 2 : 1237-1242 . Consultado el 17 de noviembre de 2013 .
- ^ "Tabla de resultados de la competencia IJCNN 2011" . COMPETICIÓN OFICIAL IJCNN2011 . 2010 . Consultado el 14 de enero de 2019 .
- ^ Schmidhuber, Jürgen (17 de marzo de 2017). "Historia de los concursos de visión por computadora ganados por CNN profundos en GPU" . Consultado el 14 de enero de 2019 .
- ^ a b Schmidhuber, Jürgen (2015). "Aprendizaje profundo" . Scholarpedia . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . doi : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .
- ^ Cireșan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junio de 2012). Redes neuronales profundas de varias columnas para clasificación de imágenes . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . Nueva York, NY: Instituto de Ingenieros Eléctricos y Electrónicos (IEEE). págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 978-1-4673-1226-4. OCLC 812295155 . S2CID 2161592 .
- ^ LeCun, Y .; Boser, B .; Denker, JS; Henderson, D .; Howard, RE; Hubbard, W .; Jackel, LD (1989). "Retropropagación aplicada al reconocimiento del código postal manuscrito" (PDF) . Computación neuronal . Prensa del MIT - Revistas. 1 (4): 541–551. doi : 10.1162 / neco.1989.1.4.541 . ISSN 0899-7667 . OCLC 364746139 .
- ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi : 10.1109 / 5.726791 . Consultado el 7 de octubre de 2016 .
- ^ Fukushima, K. (2007). "Neocognitron" . Scholarpedia . 2 (1): 1717. Bibcode : 2007SchpJ ... 2.1717F . doi : 10.4249 / scholarpedia.1717 .
- ^ Fukushima, Kunihiko (1980). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición" (PDF) . Cibernética biológica . 36 (4): 193–202. doi : 10.1007 / BF00344251 . PMID 7370364 . S2CID 206775608 . Consultado el 16 de noviembre de 2013 .
- ^ Weng, J; Ahuja, N; Huang, TS (1993). "Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D". Proc. 4ta Conf. Internacional Visión por computadora : 121–128.
- ^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). "Aprendizaje profundo residual para el reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) : 770–778. arXiv : 1512.03385 . doi : 10.1109 / CVPR.2016.90 . ISBN 978-1-4673-8851-1. S2CID 206594692 .
- ^ Deshpande, Adit. "Los 9 artículos de aprendizaje profundo que necesita conocer (comprensión de las CNN, parte 3)" . adeshpande3.github.io . Consultado el 4 de diciembre de 2018 .