El proyecto ImageNet es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos . Más de 14 millones [1] [2] de imágenes han sido anotadas a mano por el proyecto para indicar qué objetos se representan y en al menos un millón de imágenes, también se proporcionan cuadros delimitadores. [3] ImageNet contiene más de 20.000 categorías [2] con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. [4] La base de datos de anotaciones de URL de imágenes de terceros está disponible gratuitamente directamente en ImageNet, aunque las imágenes reales no son propiedad de ImageNet. [5]Desde 2010, el proyecto ImageNet lleva a cabo un concurso de software anual, el ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), donde los programas de software compiten para clasificar y detectar correctamente objetos y escenas. El desafío utiliza una lista "recortada" de mil clases que no se superponen. [6]
Importancia para el aprendizaje profundo
El 30 de septiembre de 2012, una red neuronal convolucional (CNN) llamada AlexNet [7] logró un error entre los 5 primeros del 15,3% en el Desafío ImageNet 2012, más de 10,8 puntos porcentuales menos que el del segundo lugar. Esto fue posible gracias al uso de unidades de procesamiento de gráficos (GPU) durante el entrenamiento, [7] un ingrediente esencial de la revolución del aprendizaje profundo . Según The Economist , "De repente, la gente comenzó a prestar atención, no solo dentro de la comunidad de IA sino en toda la industria de la tecnología en su conjunto". [4] [8] [9]
En 2015, AlexNet fue superado por la muy profunda CNN de Microsoft con más de 100 capas, que ganó el concurso ImageNet 2015. [10]
Historia de la base de datos
El investigador de inteligencia artificial Fei-Fei Li comenzó a trabajar en la idea de ImageNet en 2006. En un momento en que la mayoría de las investigaciones de inteligencia artificial se centraban en modelos y algoritmos, Li quería expandir y mejorar los datos disponibles para entrenar algoritmos de inteligencia artificial. [11] En 2007, Li se reunió con la profesora de Princeton Christiane Fellbaum , una de las creadoras de WordNet para discutir el proyecto. Como resultado de esta reunión, Li pasó a construir ImageNet a partir de la base de datos de palabras de WordNet y utilizando muchas de sus funciones. [12]
Como profesor asistente en Princeton, Li reunió a un equipo de investigadores para trabajar en el proyecto ImageNet. Utilizaron Amazon Mechanical Turk para ayudar con la clasificación de imágenes. [12]
Presentaron su base de datos por primera vez como póster en la Conferencia de 2009 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) en Florida. [12] [13] [14]
Conjunto de datos
ImageNet crowdsources su proceso de anotación. Las anotaciones a nivel de imagen indican la presencia o ausencia de una clase de objeto en una imagen, como "hay tigres en esta imagen" o "no hay tigres en esta imagen". Las anotaciones a nivel de objeto proporcionan un cuadro delimitador alrededor del (parte visible del) objeto indicado. ImageNet utiliza una variante del esquema amplio de WordNet para categorizar objetos, aumentada con 120 categorías de razas de perros para mostrar una clasificación detallada. [6] Una desventaja del uso de WordNet es que las categorías pueden ser más "elevadas" de lo que sería óptimo para ImageNet: "La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en este raro tipo de diplodocus ". [ aclaración necesaria ] En 2012, ImageNet fue el usuario académico más grande del mundo de Mechanical Turk . El trabajador promedio identificó 50 imágenes por minuto. [2]
Historia del desafío ImageNet
El ILSVRC tiene como objetivo "seguir los pasos" del desafío PASCAL VOC de menor escala, establecido en 2005, que contenía sólo unas 20.000 imágenes y veinte clases de objetos. [6] Para "democratizar" ImageNet, Fei-Fei Li propuso al equipo de PASCAL VOC una colaboración, a partir de 2010, donde los equipos de investigación evaluarían sus algoritmos en el conjunto de datos dado y competirían para lograr una mayor precisión en varias tareas de reconocimiento visual. . [12]
La competencia anual resultante ahora se conoce como el Desafío de reconocimiento visual a gran escala de ImageNet (ILSVRC). El ILSVRC utiliza una lista "recortada" de solo 1000 categorías de imágenes o "clases", incluidas 90 de las 120 razas de perros clasificadas por el esquema completo de ImageNet. [6] La década de 2010 vio un progreso espectacular en el procesamiento de imágenes. Alrededor de 2011, una buena tasa de error de clasificación de los 5 principales de ILSVRC fue del 25%. En 2012, una red neuronal convolucional profunda llamada AlexNet alcanzó el 16%; en los próximos dos años, las tasas de error de los cinco primeros cayeron a un pequeño porcentaje. [15] Si bien el avance de 2012 "combinó piezas que estaban allí antes", la espectacular mejora cuantitativa marcó el comienzo de un auge de la inteligencia artificial en toda la industria. [4] En 2015, los investigadores de Microsoft informaron que sus CNN excedían la capacidad humana en las tareas limitadas de ILSVRC. [10] [16] Sin embargo, como señaló una de las organizadoras del desafío, Olga Russakovsky , en 2015, los programas solo tienen que identificar las imágenes como pertenecientes a una de mil categorías; los humanos pueden reconocer un mayor número de categorías y también (a diferencia de los programas) pueden juzgar el contexto de una imagen. [17]
Para 2014, más de cincuenta instituciones participaron en el ILSVRC. [6] En 2015, los científicos de Baidu fueron prohibidos durante un año por usar cuentas diferentes para exceder en gran medida el límite especificado de dos presentaciones por semana. [18] [19] Baidu declaró más tarde que despidió al líder del equipo involucrado y que establecería un panel asesor científico. [20]
En 2017, 29 de los 38 equipos que competían tenían una precisión superior al 95%. [21] En 2017, ImageNet declaró que lanzaría un nuevo desafío, mucho más difícil, en 2018 que implica clasificar objetos 3D utilizando lenguaje natural. Debido a que crear datos 3D es más costoso que anotar una imagen 2D preexistente, se espera que el conjunto de datos sea más pequeño. Las aplicaciones del progreso en esta área irían desde la navegación robótica hasta la realidad aumentada . [1]
Sesgo en ImageNet
Un estudio de la historia de las múltiples capas ( taxonomía , clases de objetos y etiquetado) de ImageNet y WordNet en 2019 describió cómo el sesgo está profundamente arraigado en la mayoría de los enfoques de clasificación para todo tipo de imágenes. [22] [23] [24] [25] ImageNet está trabajando para abordar varias fuentes de sesgo. [26]
Ver también
- Visión por computador
- Lista de conjuntos de datos para la investigación del aprendizaje automático
- WordNet
Referencias
- ^ a b "El nuevo desafío de visión por computadora quiere enseñar a los robots a ver en 3D" . Nuevo científico . El 7 de abril de 2017 . Consultado el 3 de febrero de 2018 .
- ^ a b c Markoff, John (19 de noviembre de 2012). "Para imágenes web, creación de nuevas tecnologías para buscar y encontrar" . The New York Times . Consultado el 3 de febrero de 2018 .
- ^ "Resumen y estadísticas de ImageNet" . ImageNet . Consultado el 22 de junio de 2016 .
- ^ a b c "De no funcionar a las redes neuronales" . The Economist . 25 de junio de 2016 . Consultado el 3 de febrero de 2018 .
- ^ "Descripción general de ImageNet" . ImageNet . Consultado el 22 de junio de 2016 .
- ^ a b c d e Olga Russakovsky *, Jia Deng *, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy , Aditya Khosla, Michael Bernstein, Alexander C. Berg y Li Fei-Fei. (* = contribución igual) Desafío de reconocimiento visual a gran escala de ImageNet. IJCV, 2015.
- ^ a b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (junio de 2017). "Clasificación de ImageNet con redes neuronales convolucionales profundas" (PDF) . Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145 / 3065386 . ISSN 0001-0782 . S2CID 195908774 . Consultado el 24 de mayo de 2017 .
- ^ "Las máquinas 'ganan a los humanos' en un número creciente de tareas" . Financial Times . 30 de noviembre de 2017 . Consultado el 3 de febrero de 2018 .
- ^ Gershgorn, Dave. "La historia interna de cómo la IA se volvió lo suficientemente buena como para dominar Silicon Valley" . Cuarzo . Consultado el 10 de diciembre de 2018 .
- ^ a b Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). "Aprendizaje profundo residual para el reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) : 770–778. arXiv : 1512.03385 . doi : 10.1109 / CVPR.2016.90 . ISBN 978-1-4673-8851-1. S2CID 206594692 .
- ^ Hempel, Jesse (13 de noviembre de 2018). "La búsqueda de Fei-Fei Li para mejorar la inteligencia artificial para la humanidad" . Cableado . Consultado el 5 de mayo de 2019 .
Cuando Li, que se había mudado de regreso a Princeton para aceptar un trabajo como profesora asistente en 2007, habló sobre su idea para ImageNet, tuvo dificultades para conseguir que los miembros de la facultad la ayudaran. Finalmente, una profesora especializada en arquitectura informática accedió a unirse a ella como colaboradora.
- ^ a b c d Gershgorn, Dave (26 de julio de 2017). "Los datos que transformaron la investigación de la IA, y posiblemente el mundo" . Cuarzo . Medios Atlántico Co . Consultado el 26 de julio de 2017 .
Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo en WordNet, durante una visita a Princeton en 2006.
- ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: Una base de datos de imágenes jerárquicas a gran escala" (PDF) , conferencia de 2009 sobre visión por computadora y reconocimiento de patrones
- ^ Li, Fei-Fei, Cómo estamos enseñando a las computadoras a entender imágenes , consultado el 16 de diciembre de 2018
- ^ Robbins, Martin (6 de mayo de 2016). "¿Una IA necesita hacer el amor con la novia de Rembrandt para hacer arte?" . The Guardian . Consultado el 22 de junio de 2016 .
- ^ Markoff, John (10 de diciembre de 2015). "Un avance en el aprendizaje de la inteligencia artificial rivaliza con las capacidades humanas" . The New York Times . Consultado el 22 de junio de 2016 .
- ^ Aron, Jacob (21 de septiembre de 2015). "Olvídese de la prueba de Turing, hay mejores formas de juzgar la IA" . Nuevo científico . Consultado el 22 de junio de 2016 .
- ^ Markoff, John (3 de junio de 2015). "Los informáticos son Astir después de que el equipo de Baidu sea excluido de la competencia de IA" . The New York Times . Consultado el 22 de junio de 2016 .
- ^ "Gigante de búsqueda chino Baidu descalificado de la prueba de inteligencia artificial" . BBC News . 14 de junio de 2015 . Consultado el 22 de junio de 2016 .
- ^ "Investigador de incendios de Baidu involucrado en la aleta del concurso de IA" . PC World . 11 de junio de 2015 . Consultado el 22 de junio de 2016 .
- ^ Gershgorn, Dave (10 de septiembre de 2017). "La guía de Quartz para la inteligencia artificial: ¿qué es, por qué es importante y debemos tener miedo?" . Cuarzo . Consultado el 3 de febrero de 2018 .
- ^ "La aplicación viral que te etiqueta no es lo que piensas" . Cableado . ISSN 1059-1028 . Consultado el 22 de septiembre de 2019 .
- ^ Wong, Julia Carrie (18 de septiembre de 2019). "La aplicación viral de selfies ImageNet Roulette parecía divertida, hasta que me llamó un insulto racista" . The Guardian . ISSN 0261-3077 . Consultado el 22 de septiembre de 2019 .
- ^ Crawford, Kate; Paglen, Trevor (19 de septiembre de 2019). "Excavar la IA: la política de los conjuntos de entrenamiento para el aprendizaje automático" . - . Consultado el 22 de septiembre de 2019 .
- ^ Lyons, Michael (4 de septiembre de 2020). "Excavando" Excavando AI ": El elefante en la galería". arXiv : 2009.01215 [ cs.CY ].
- ^ "Hacia conjuntos de datos más justos: filtrado y equilibrio de la distribución del subárbol de personas en la jerarquía de ImageNet" . image-net.org . 17 de septiembre de 2019 . Consultado el 22 de septiembre de 2019 .
enlaces externos
- Página web oficial