La base de datos MNIST ( Modificado Instituto Nacional de Estándares y Tecnología de base de datos [1] ) es una gran base de datos de dígitos escritos a mano que se utiliza comúnmente para la formación de varias de procesamiento de imágenes sistemas. [2] [3] La base de datos también se usa ampliamente para capacitación y pruebas en el campo del aprendizaje automático . [4] [5] Fue creado "remezclando" las muestras de los conjuntos de datos originales de NIST. [6] Los creadores sintieron que, dado que el conjunto de datos de capacitación del NIST se tomó de la Oficina del Censo Estadounidenseempleados, aunque el conjunto de datos de prueba se tomó de estudiantes estadounidenses de secundaria , no era adecuado para experimentos de aprendizaje automático. [7] Además, las imágenes en blanco y negro de NIST se normalizaron para encajar en un cuadro delimitador 28x28 pixel y -alias contra , que introdujo los niveles de escala de grises. [7]
La base de datos MNIST contiene 60.000 imágenes de formación y 10.000 imágenes de prueba. [8] La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. [9] Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. [7] En su documento original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8%. [10] En 2017 se publicó un conjunto de datos extendido similar a MNIST llamado EMNIST, que contiene 240,000 imágenes de entrenamiento y 40,000 imágenes de prueba de dígitos y caracteres escritos a mano. [11]
Historia
El conjunto de imágenes de la base de datos del MNIST se creó en 1998 como una combinación de dos bases de datos del NIST : Base de datos especial 1 y Base de datos especial 3. La base de datos especial 1 y la base de datos especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del censo de Estados Unidos , respectivamente. [7]
Actuación
Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos del MNIST, utilizando un comité de redes neuronales; En el mismo artículo, los autores logran un rendimiento doble que el de los humanos en otras tareas de reconocimiento. [12] La tasa de error más alta enumerada [7] en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin procesamiento previo. [10]
En 2004, los investigadores lograron una tasa de error en el mejor de los casos del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas de neuronas basado en los principios del perceptrón de Rosenblatt. [13]
Algunos investigadores han probado sistemas de inteligencia artificial utilizando la base de datos sometida a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . [7] A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento. [14]
En 2011, los investigadores informaron una tasa de error del 0,27 por ciento, mejorando el mejor resultado anterior, utilizando un sistema similar de redes neuronales. [15] En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales utilizando DropConnect logró una tasa de error del 0,21 por ciento. [16] En 2016, el mejor rendimiento de la red neuronal convolucional única fue una tasa de error del 0,25 por ciento. [17] A partir de agosto de 2018, el mejor rendimiento de una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. [17] [18] Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funcionan en MNIST con una tasa de error del 0,21 por ciento. [19] [20] Algunas imágenes del conjunto de datos de prueba apenas se pueden leer y pueden evitar que se alcancen tasas de error de prueba del 0%. [21] En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% con tres tipos de redes neuronales apiladas simultáneamente (redes neuronales totalmente conectadas, recurrentes y de convolución). [22]
Clasificadores
Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador:
Tipo | Clasificador | Distorsión | Preprocesamiento | Tasa de error (%) |
---|---|---|---|---|
Clasificador lineal | Clasificador lineal por pares | Ninguno | Enderezar | 7,6 [10] |
K-Vecinos más cercanos | K-NN con deformación no lineal (P2DHMDM) | Ninguno | Bordes cambiables | 0,52 [23] |
Tocones potenciados | Producto de tocones en las características de Haar | Ninguno | Características de Haar | 0,87 [24] |
Clasificador no lineal | Clasificador cuadrático 40 PCA + | Ninguno | Ninguno | 3.3 [10] |
Bosque aleatorio | Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC) [25] | Ninguno | Importancia de píxeles estadísticos simples | 2.8 [26] |
Máquina de vectores de soporte (SVM) | SVM virtual , poli deg-9, jittered de 2 píxeles | Ninguno | Enderezar | 0,56 [27] |
Red neuronal profunda (DNN) | 2 capas 784-800-10 | Ninguno | Ninguno | 1,6 [28] |
Red neuronal profunda | 2 capas 784-800-10 | Distorsiones elásticas | Ninguno | 0,7 [28] |
Red neuronal profunda | 6 capas 784-2500-2000-1500-1000-500-10 | Distorsiones elásticas | Ninguno | 0,35 [29] |
Red neuronal convolucional (CNN) | 6 capas 784-40-80-500-1000-2000-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,31 [30] |
Red neuronal convolucional | 6 capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,27 [31] |
Red neuronal convolucional (CNN) | 13 capas 64-128 (5x) -256 (3x) -512-2048-256-256-10 | Ninguno | Ninguno | 0,25 [17] |
Red neuronal convolucional | Comité de 35 CNN, 1-20-P-40-P-150-10 | Distorsiones elásticas | Normalizaciones de ancho | 0,23 [12] |
Red neuronal convolucional | Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0,21 [19] [20] |
Aprendizaje profundo multimodelo aleatorio (RMDL) | 10 NN-10 RNN - 10 CNN | Ninguno | Ninguno | 0,18 [22] |
Red neuronal convolucional | Comité de 20 CNNS con redes de compresión y excitación [32] | Ninguno | Aumento de datos | 0,17 [33] |
Ver también
- Lista de conjuntos de datos para la investigación del aprendizaje automático
- Caltech 101
- Etiquetame
- LOC
Referencias
- ^ "LA BASE DE DATOS MNIST de dígitos escritos a mano" . Yann LeCun , Courant Institute, NYU Corinna Cortes, Google Labs, Nueva York Christopher JC Burges, Microsoft Research, Redmond.
- ^ "Soporte de reconocimiento de patrones de velocidad de máquinas vectoriales - Diseño de sistemas de visión" . Diseño de sistemas de visión . Consultado el 17 de agosto de 2013 .
- ^ Gangaputra, Sachin. "Base de datos de dígitos manuscritos" . Consultado el 17 de agosto de 2013 .
- ^ Qiao, Yu (2007). "LA BASE DE DATOS MNIST de dígitos escritos a mano" . Consultado el 18 de agosto de 2013 .
- ^ Platt, John C. (1999). "Uso de QP analítico y escasez para acelerar el entrenamiento de máquinas de vectores de soporte" (PDF) . Avances en los sistemas de procesamiento de información neuronal : 557–563. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 18 de agosto de 2013 .
- ^ Grother, Patrick J. "Base de datos especial del NIST 19 - Base de datos de caracteres y formularios impresos a mano " (PDF) . Instituto Nacional de Estándares y Tecnología .
- ^ a b c d e f LeCun, Yann; Cortez, Corinna; Burges, Christopher CJ "La base de datos de dígitos manuscritos del MNIST" . Sitio web de Yann LeCun yann.lecun.com . Consultado el 30 de abril de 2020 .
- ^ Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Computación de imagen y visión . 22 (12): 971–981. doi : 10.1016 / j.imavis.2004.03.008 .
- ^ Zhang, Bin; Srihari, Sargur N. (2004). " Clasificación rápida de los vecinos más cercanos k utilizando árboles basados en clústeres" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 26 (4): 525–528. doi : 10.1109 / TPAMI.2004.1265868 . PMID 15382657 . S2CID 6883417 . Consultado el 20 de abril de 2020 .
- ^ a b c d LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. doi : 10.1109 / 5.726791 . Consultado el 18 de agosto de 2013 .
- ^ Cohen, Gregory; Afshar, Saeed; Tapson, Jonathan; van Schaik, André (17 de febrero de 2017). "EMNIST: una extensión de MNIST a letras escritas a mano". arXiv : 1702.05373 [ cs.CV ].
- ^ a b Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes" (PDF) . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 978-1-4673-1228-8. S2CID 2161592 .
- ^ Kussul, Ernst; Tatiana Baidyk (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST" (PDF) . Computación de imagen y visión . 22 (12): 971–981. doi : 10.1016 / j.imavis.2004.03.008 . Archivado desde el original (PDF) el 21 de septiembre de 2013 . Consultado el 20 de septiembre de 2013 .
- ^ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). "Aprendizaje eficiente de representaciones dispersas con un modelo basado en energía" (PDF) . Avances en sistemas de procesamiento de información neuronal . 19 : 1137-1144 . Consultado el 20 de septiembre de 2013 .
- ^ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber (2011). "Comités de redes neuronales convolucionales para la clasificación de caracteres escritos a mano" (PDF) . 2011 Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) . págs. 1135-1139. CiteSeerX 10.1.1.465.2138 . doi : 10.1109 / ICDAR.2011.229 . ISBN 978-1-4577-1350-7. S2CID 10122297 . Archivado desde el original (PDF) el 22 de febrero de 2016 . Consultado el 20 de septiembre de 2013 .
- ^ Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularización de la red neuronal mediante DropConnect . Congreso Internacional de Aprendizaje Automático (ICML).
- ^ a b c SimpleNet (2016). "Hagámoslo simple, usando arquitecturas simples para superar arquitecturas más profundas y complejas" . arXiv : 1608.06037 . Consultado el 3 de diciembre de 2020 .
- ^ SimpNet. "Hacia un diseño basado en principios de redes convolucionales profundas: introducción de SimpNet" . Github . arXiv : 1802.06205 . Consultado el 3 de diciembre de 2020 .
- ^ a b Romanuke, Vadim. "El Centro de Computación Paralela (Khmelnytskyi, Ucrania) representa un conjunto de 5 redes neuronales convolucionales que funciona en MNIST con una tasa de error del 0,21 por ciento" . Consultado el 24 de noviembre de 2016 .
- ^ a b Romanuke, Vadim (2016). "Entrenamiento de expansión de datos y refuerzo de redes neuronales convolucionales para reducir la tasa de error del conjunto de datos MNIST" . Boletín de investigación de NTUU "Instituto Politécnico de Kiev" . 6 (6): 29–34. doi : 10.20535 / 1810-0546.2016.6.84115 .
- ^ Clasificador MNIST, GitHub. "Clasificar dígitos MNIST utilizando redes neuronales convolucionales" . Consultado el 3 de agosto de 2018 .
- ^ a b Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E .; Meimandi, Kiana Jafari; Barnes, Laura E. (3 de mayo de 2018). "RMDL: Deep Learning multimodelo aleatorio para clasificación". Actas de la Conferencia Internacional de 2018 sobre Sistemas de Información y Minería de Datos . arXiv : 1805.01890 . doi : 10.1145 / 3206098.3206111 . S2CID 19208611 .
- ^ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (agosto de 2007). "Modelos de deformación para el reconocimiento de imágenes". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . doi : 10.1109 / TPAMI.2007.1153 . PMID 17568145 . S2CID 2528485 .
- ^ Kégl, Balázs; Róbert Busa-Fekete (2009). "Impulso de productos de clasificadores base" (PDF) . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático : 497–504 . Consultado el 27 de agosto de 2013 .
- ^ "RandomForestSRC: bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)" . 21 de enero de 2020.
- ^ "Mehrad Mahmoudian / MNIST con RandomForest" .
- ^ Decoste, Dennis; Schölkopf, Bernhard (2002). "Entrenamiento de Máquinas de Vector de Soporte Invariante" . Aprendizaje automático . 46 (1-3): 161-190. doi : 10.1023 / A: 1012454411458 . ISSN 0885-6125 . OCLC 703649027 . Consultado el 5 de febrero de 2021 .
- ^ a b Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). "Mejores prácticas para redes neuronales convolucionales aplicadas al análisis visual de documentos" . Actas de la Séptima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos . 1 . Instituto de Ingenieros Eléctricos y Electrónicos . pag. 958. doi : 10.1109 / ICDAR.2003.1227801 . ISBN 978-0-7695-1960-9. S2CID 4659176 .
- ^ Ciresan, Claudiu Dan; Ueli Meier; Luca Maria Gambardella; Juergen Schmidhuber (diciembre de 2010). "Deep Big Simple Neural Nets Excel en reconocimiento de dígitos manuscritos". Computación neuronal . 22 (12): 3207-20. arXiv : 1003.0358 . doi : 10.1162 / NECO_a_00052 . PMID 20858131 . S2CID 1918673 .
- ^ Romanuke, Vadim. "El mejor rendimiento de la red neuronal convolucional única en 18 épocas en los datos de entrenamiento expandidos en el Centro de Computación Paralela, Khmelnytskyi, Ucrania" . Consultado el 16 de noviembre de 2016 .
- ^ Romanuke, Vadim. "Parallel Computing Center (Khmelnytskyi, Ucrania) ofrece una única red neuronal convolucional que funciona en MNIST con una tasa de error del 0,27 por ciento" . Consultado el 24 de noviembre de 2016 .
- ^ Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2019). "Redes de compresión y excitación". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 42 (8): 2011-2023. arXiv : 1709.01507 . doi : 10.1109 / TPAMI.2019.2913372 . PMID 31034408 . S2CID 140309863 .
- ^ "GitHub - Matuzas77 / MNIST-0.17: clasificador MNIST con un error promedio de 0.17%" . 25 de febrero de 2020.
Otras lecturas
- Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junio de 2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes" (PDF) . 2012 Conferencia IEEE sobre visión artificial y reconocimiento de patrones . Nueva York, NY: Instituto de ingenieros eléctricos y electrónicos . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Consultado el 9 de diciembre de 2013 .
enlaces externos
- Página web oficial
- Red neuronal para el reconocimiento de dígitos escritos a mano en JavaScript : una implementación de JavaScript de una red neuronal para la clasificación de dígitos escritos a mano basada en la base de datos MNIST
- Visualización de la base de datos MNIST - grupos de imágenes de dígitos manuscritos MNIST en GitHub