80 Million Tiny Images es un conjunto de datos destinado a entrenar sistemas de aprendizaje automático . [1] Contiene 79.302.017 imágenes en color de 32 × 32 píxeles, reducidas a partir de imágenes extraídas de la World Wide Web en 2008 mediante consultas de búsqueda web automatizadas en un conjunto de 75.062 sustantivos no abstractos derivados de WordNet . Las palabras de los términos de búsqueda se utilizaron luego como etiquetas para las imágenes. [2] Los investigadores utilizaron siete recursos de búsqueda web para este propósito: Altavista , Ask.com , Flickr , Cydral , Google , Picsearch yWebshots . [2]
El conjunto de datos de 80 millones de imágenes diminutas fue retirado del uso por sus creadores en 2020, [3] después de que un artículo de los investigadores Abeba Birhane y Vinay Prabhu descubriera que parte del etiquetado de varios conjuntos de datos de imágenes disponibles públicamente, incluidas 80 millones de imágenes diminutas, estaba causando modelos entrenados en ellos para exhibir prejuicios raciales y sexuales. [4] [5] Han pedido a otros investigadores que no lo utilicen para más investigaciones y que eliminen sus copias del conjunto de datos. [3]
El conjunto de datos CIFAR-10 utiliza un subconjunto de las imágenes de este conjunto de datos, pero con etiquetas generadas de forma independiente. [6]