AlexNet


AlexNet es el nombre de una arquitectura de red neuronal convolucional (CNN), diseñada por Alex Krizhevsky en colaboración con Ilya Sutskever y Geoffrey Hinton , quien fue el Ph.D. de Krizhevsky. tutor. [1] [2]

AlexNet compitió en el Desafío de reconocimiento visual a gran escala de ImageNet el 30 de septiembre de 2012. [3] La red logró un error entre los 5 primeros del 15,3 %, más de 10,8 puntos porcentuales menos que el finalista. El resultado principal del documento original fue que la profundidad del modelo era esencial para su alto rendimiento, lo cual era computacionalmente costoso, pero factible debido a la utilización de unidades de procesamiento de gráficos (GPU) durante el entrenamiento. [2]

AlexNet no fue la primera implementación rápida de GPU de una CNN en ganar un concurso de reconocimiento de imágenes. Una CNN sobre GPU de K. Chellapilla et al. (2006) fue 4 veces más rápido que una implementación equivalente en CPU. [4] Una CNN profunda de Dan Cireșan et al. (2011) en IDSIA ya era 60 veces más rápido [5] y logró un rendimiento sobrehumano en agosto de 2011. [6] Entre el 15 de mayo de 2011 y el 10 de septiembre de 2012, su CNN ganó nada menos que cuatro concursos de imagen. [7] [8] También mejoraron significativamente el mejor rendimiento en la literatura para múltiples bases de datos de imágenes . [9]

Según el artículo de AlexNet, [2] la red anterior de Cireșan es "algo similar". Ambos se escribieron originalmente con CUDA para ejecutarse con soporte de GPU . De hecho, ambos son en realidad solo variantes de los diseños de CNN presentados por Yann LeCun et al. (1989) [10] [11] quien aplicó el algoritmo de retropropagación a una variante de la arquitectura CNN original de Kunihiko Fukushima llamada " neocognitron ". [12] [13] La arquitectura fue posteriormente modificada por el método de J. Weng llamado max-pooling . [14] [8]

En 2015, AlexNet fue superado por la muy profunda CNN de Microsoft Research Asia con más de 100 capas, que ganó el concurso ImageNet 2015. [15]

AlexNet contenía ocho capas; las cinco primeras eran capas convolucionales , algunas de ellas seguidas de capas de agrupación máxima , y las últimas tres eran capas completamente conectadas. [2] Usó la función de activación ReLU no saturada , que mostró un mejor rendimiento de entrenamiento sobre tanh y sigmoid . [2]


Comparación de la convolución, agrupación y capas densas de LeNet y AlexNet