80 millones de imágenes diminutas

80 Million Tiny Images es un conjunto de datos destinado a entrenar sistemas de aprendizaje automático . ^[1] Contiene 79.302.017 imágenes en color de 32 × 32 píxeles, reducidas a partir de imágenes extraídas de la World Wide Web en 2008 mediante consultas de búsqueda web automatizadas en un conjunto de 75.062 sustantivos no abstractos derivados de WordNet . Las palabras de los términos de búsqueda se utilizaron luego como etiquetas para las imágenes. ^[2] Los investigadores utilizaron siete recursos de búsqueda web para este propósito: Altavista , Ask.com , Flickr , Cydral , Google , Picsearch yWebshots . ^[2]

El conjunto de datos de 80 millones de imágenes diminutas fue retirado del uso por sus creadores en 2020, ^[3] después de que un artículo de los investigadores Abeba Birhane y Vinay Prabhu descubriera que parte del etiquetado de varios conjuntos de datos de imágenes disponibles públicamente, incluidas 80 millones de imágenes diminutas, estaba causando modelos entrenados en ellos para exhibir prejuicios raciales y sexuales. ^[4]^[5] Han pedido a otros investigadores que no lo utilicen para más investigaciones y que eliminen sus copias del conjunto de datos. ^[3]

El conjunto de datos CIFAR-10 utiliza un subconjunto de las imágenes de este conjunto de datos, pero con etiquetas generadas de forma independiente. ^[6]

Ver también

Sesgo sistémico

Referencias

^ Quach, Katyanna (1 de julio de 2020). "El MIT se disculpa, extrae permanentemente un enorme conjunto de datos fuera de línea que enseñó a los sistemas de inteligencia artificial a usar insultos racistas y misóginos" . www.theregister.com . Consultado el 2 de julio de 2020 .
↑ ^a ^b Torralba, Antonio; Fergus, Rob; Freeman, William T. (noviembre de 2008). "80 millones de imágenes diminutas: un gran conjunto de datos para el reconocimiento no paramétrico de objetos y escenas" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 30 (11): 1958-1970. doi : 10.1109 / TPAMI.2008.128 . ISSN 1939-3539 . PMID 18787244 . S2CID 7487588 .
^ ^a b "80 millones de imágenes diminutas" . grupos.csail.mit.edu . Consultado el 2 de julio de 2020 .
↑ Ustik, Georgina (1 de julio de 2020). "El MIT elimina un enorme conjunto de datos que enseña a los sistemas de inteligencia artificial a utilizar insultos racistas y misóginos" . Neural | La próxima web . Consultado el 2 de julio de 2020 .
^ Prabhu, Vinay Uday; Birhane, Abeba (24 de junio de 2020). "Grandes conjuntos de datos de imágenes: una victoria pírrica para la visión por computadora?". arXiv : 2006.16923 [ cs.CY ].
^ A. Krizhevsky. Aprendiendo múltiples capas de características a partir de imágenes diminutas . Informe técnico, 2009. Universidad de Toronto

Este artículo de ciencias de la computación es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

Este artículo relacionado con la sociología es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[1] Quach, Katyanna (1 de julio de 2020). "El MIT se disculpa, extrae permanentemente un enorme conjunto de datos fuera de línea que enseñó a los sistemas de inteligencia artificial a usar insultos racistas y misóginos" . www.theregister.com . Consultado el 2 de julio de 2020 .

[Torralba2008-2] Torralba, Antonio; Fergus, Rob; Freeman, William T. (noviembre de 2008). "80 millones de imágenes diminutas: un gran conjunto de datos para el reconocimiento no paramétrico de objetos y escenas" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 30 (11): 1958-1970. doi : 10.1109 / TPAMI.2008.128 . ISSN 1939-3539 . PMID 18787244 . S2CID 7487588 .

[:0-3] "80 millones de imágenes diminutas" . grupos.csail.mit.edu . Consultado el 2 de julio de 2020 .

[4] Ustik, Georgina (1 de julio de 2020). "El MIT elimina un enorme conjunto de datos que enseña a los sistemas de inteligencia artificial a utilizar insultos racistas y misóginos" . Neural | La próxima web . Consultado el 2 de julio de 2020 .

[5] Prabhu, Vinay Uday; Birhane, Abeba (24 de junio de 2020). "Grandes conjuntos de datos de imágenes: una victoria pírrica para la visión por computadora?". arXiv : 2006.16923 [ cs.CY ].

[6] A. Krizhevsky. Aprendiendo múltiples capas de características a partir de imágenes diminutas . Informe técnico, 2009. Universidad de Toronto

[1]