Caltech 101

Caltech 101 es un conjunto de datos de imágenes digitales creado en septiembre de 2003 y compilado por Fei-Fei Li , Marco Andreetto, Marc 'Aurelio Ranzato y Pietro Perona en el Instituto de Tecnología de California . Está destinado a facilitar la investigación y las técnicas de visión por computadora y es más aplicable a las técnicas que involucran la clasificación y categorización de reconocimiento de imágenes . Caltech 101 contiene un total de 9.146 imágenes, divididas en 101 categorías de objetos distintas ( caras , relojes , hormigas , pianos)., etc.) y una categoría de fondo. Con las imágenes se proporciona un conjunto de anotaciones que describen los contornos de cada imagen, junto con un script de Matlab para su visualización.

Propósito

La mayoría de los algoritmos de visión artificial y aprendizaje automático funcionan mediante el entrenamiento en entradas de ejemplo. Requieren un conjunto amplio y variado de datos de entrenamiento para funcionar de manera eficaz. Por ejemplo, el método de detección de rostros en tiempo real utilizado por Paul Viola y Michael J. Jones se entrenó en 4.916 rostros etiquetados a mano. ^[1]

Recortar, cambiar el tamaño y marcar a mano los puntos de interés es tedioso y requiere mucho tiempo.

Históricamente, la mayoría de los conjuntos de datos utilizados en la investigación de la visión por computadora se han adaptado a las necesidades específicas del proyecto en el que se está trabajando. Un gran problema al comparar las técnicas de visión por computadora es el hecho de que la mayoría de los grupos usan sus propios conjuntos de datos. Cada conjunto puede tener diferentes propiedades que hacen que los resultados reportados de diferentes métodos sean más difíciles de comparar directamente. Por ejemplo, las diferencias en el tamaño de la imagen, la calidad de la imagen, la ubicación relativa de los objetos dentro de las imágenes y el nivel de oclusión y el desorden presentes pueden dar lugar a resultados variables. ^[2]

El conjunto de datos de Caltech 101 tiene como objetivo aliviar muchos de estos problemas comunes.

Las imágenes se recortan y se redimensionan.
Se representan muchas categorías, lo que se adapta tanto a los algoritmos de reconocimiento de clase única como a los de múltiples clases.
Los contornos detallados de los objetos están marcados.
Disponible para uso general, Caltech 101 actúa como un estándar común mediante el cual comparar diferentes algoritmos sin sesgos debido a diferentes conjuntos de datos.

Sin embargo, un estudio reciente ^[3] demuestra que las pruebas basadas en imágenes naturales no controladas (como el conjunto de datos de Caltech 101) pueden ser seriamente engañosas, y potencialmente guiar el progreso en la dirección equivocada.

Conjunto de datos

Imagenes

El conjunto de datos de Caltech 101 consta de un total de 9.146 imágenes, divididas entre 101 categorías de objetos diferentes, así como una categoría adicional de fondo / desorden.

Cada categoría de objeto contiene entre 40 y 800 imágenes. Las categorías comunes y populares, como las caras, tienden a tener una mayor cantidad de imágenes que otras.

Cada imagen tiene unos 300x200 píxeles. Las imágenes de objetos orientados, como aviones y motocicletas, se reflejaron para alinearse de izquierda a derecha y las estructuras orientadas verticalmente, como los edificios, se rotaron para que estuvieran fuera del eje.

Anotaciones

Se proporciona un conjunto de anotaciones para cada imagen. Cada conjunto de anotaciones contiene dos piezas de información: el cuadro delimitador general en el que se encuentra el objeto y un contorno detallado especificado por humanos que encierra el objeto.

Se proporciona un script de Matlab con las anotaciones. Carga una imagen y su archivo de anotaciones correspondiente y los muestra como una figura de Matlab.

Usos

El conjunto de datos de Caltech 101 se utilizó para entrenar y probar varios algoritmos de clasificación y reconocimiento de visión por computadora. El primer artículo que utilizó Caltech 101 fue un enfoque bayesiano incremental para el aprendizaje de una sola vez, ^[4] un intento de clasificar un objeto utilizando solo unos pocos ejemplos, basándose en el conocimiento previo de otras clases.

Las imágenes de Caltech 101, junto con las anotaciones, se utilizaron para otro trabajo de aprendizaje de una sola vez en Caltech. ^[5]

Otros artículos de Computer Vision que informan sobre el uso del conjunto de datos Caltech 101 incluyen:

Coincidencia de formas y reconocimiento de objetos mediante correspondencia de baja distorsión. Alexander C. Berg, Tamara L. Berg, Jitendra Malik . CVPR 2005
El kernel de coincidencia piramidal: clasificación discriminativa con conjuntos de características de imagen. K. Grauman y T. Darrell. Conferencia Internacional sobre Visión por Computador (ICCV), 2005 ^[6]
Combinación de modelos generativos y núcleos de Fisher para el reconocimiento de clases de objetos. Holub, AD. Welling, M. Perona, P. International Conference on Computer Vision (ICCV), 2005 ^[7]
Reconocimiento de objetos con funciones inspiradas en Visual Cortex. T. Serre, L. Wolf y T. Poggio. Actas de la Conferencia de la Sociedad de Computación IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR 2005), IEEE Computer Society Press, San Diego, junio de 2005. ^[8]
SVM-KNN: Clasificación discriminativa del vecino más cercano para el reconocimiento visual de categorías. Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik . CVPR, 2006 ^[9]
Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales. Svetlana Lazebnik , Cordelia Schmid y Jean Ponce. CVPR, 2006 ^[10]
Estudio empírico de bancos de filtros multiescala para categorización de objetos. MJ Mar 韓 -Jim 閚 ez, y N. P 閞 ez de la Blanca. Diciembre de 2005 ^[11]
Reconocimiento de objetos multiclase con características escasas y localizadas. Jim Mutch y David G. Lowe., Pág. 11-18, CVPR 2006, IEEE Computer Society Press, Nueva York, junio de 2006 ^[12]
Uso de regiones dependientes o categorización de objetos en un marco generativo. G. Wang, Y. Zhang y L. Fei-Fei. IEEE Comp. Vis. Patt. Reconocer. 2006 ^[13]

Análisis y comparación

Ventajas

Caltech 101 tiene varias ventajas sobre otros conjuntos de datos similares:

Tamaño y presentación uniformes:
- Casi todas las imágenes dentro de cada categoría son uniformes en tamaño de imagen y en la posición relativa de los objetos de interés. Los usuarios de Caltech 101 generalmente no necesitan recortar o escalar las imágenes antes de poder usarlas.
Bajo nivel de desorden / oclusión:
- Los algoritmos relacionados con el reconocimiento generalmente funcionan almacenando características únicas del objeto. Sin embargo, la mayoría de las imágenes tomadas tienen diversos grados de desorden de fondo, lo que significa que los algoritmos pueden compilarse incorrectamente.
Anotaciones detalladas

Debilidades

Las debilidades del conjunto de datos de Caltech 101 ^[3]^[14] pueden ser compensaciones conscientes, pero otras son limitaciones del conjunto de datos. Los artículos que se basan únicamente en Caltech 101 son rechazados con frecuencia.

Las debilidades incluyen:

El conjunto de datos está demasiado limpio:
- Las imágenes tienen una presentación muy uniforme, están alineadas de izquierda a derecha y, por lo general, no están ocluidas. Como resultado, las imágenes no siempre son representativas de las entradas prácticas que el algoritmo podría esperar ver más adelante. En condiciones prácticas, las imágenes están más desordenadas, ocluidas y muestran una mayor variación en la posición relativa y la orientación de los objetos de interés. La uniformidad permite derivar conceptos utilizando el promedio de una categoría, lo cual no es realista.
Número limitado de categorías:
- El conjunto de datos de Caltech 101 representa solo una pequeña fracción de las posibles categorías de objetos.
Algunas categorías contienen pocas imágenes:
- Algunas categorías no están representadas tan bien como otras, que contienen tan solo 31 imágenes.
- Esto significa que ${\ Displaystyle \ mathrm {N} _ {\ mathrm {tren}} \ leq 30}$ . El número de imágenes utilizadas para el entrenamiento debe ser menor o igual a 30, lo cual no es suficiente para todos los propósitos.
Aliasing y artefactos debido a la manipulación:
- Algunas imágenes se han girado y escalado desde su orientación original, y presentan cierta cantidad de artefactos o alias .

Otros conjuntos de datos

Caltech 256 es otro conjunto de datos de imágenes, creado en 2007. Es un sucesor de Caltech 101. Su objetivo es abordar algunas de las debilidades de Caltech 101. En general, es un conjunto de datos más difícil que Caltech 101, pero adolece de problemas comparables. Incluye ^[3]
- 30,607 imágenes, que cubren un mayor número de categorías
- Número mínimo de imágenes por categoría elevado a 80
- Las imágenes no están alineadas de izquierda a derecha
- Más variación en la presentación de imágenes
LabelMe es un conjunto de datos abierto y dinámico creado en el Laboratorio de Inteligencia Artificial y Ciencias de la Computación del MIT (CSAIL). LabelMe adopta un enfoque diferente al problema de crear un gran conjunto de datos de imágenes, con diferentes compensaciones.
- 106,739 imágenes, 41,724 imágenes anotadas y 203,363 objetos etiquetados.
- Los usuarios pueden agregar imágenes al conjunto de datos mediante la carga y agregar etiquetas o anotaciones a las imágenes existentes.
- Debido a su naturaleza abierta, LabelMe tiene muchas más imágenes que cubren un alcance mucho más amplio que Caltech 101. Sin embargo, dado que cada persona decide qué imágenes cargar y cómo etiquetar y anotar cada imagen, las imágenes son menos consistentes.
VOC 2008 es un esfuerzo europeo para recopilar imágenes para evaluar métodos de categorización visual. En comparación con Caltech 101/256, se recopila un número menor de categorías (alrededor de 20). Sin embargo, el número de imágenes en cada categoría es mayor.
El conjunto de datos de investigación de imágenes aéreas (OIRDS) es una biblioteca anotada de imágenes y herramientas. ^[15] OIRDS v1.0 se compone de objetos de vehículos de pasajeros anotados en imágenes aéreas. Los vehículos de pasajeros en el OIRDS incluyen automóviles, camiones, camionetas, etc. Además de los contornos de los objetos, el OIRDS incluye estadísticas subjetivas y objetivas que cuantifican el vehículo dentro del contexto de la imagen. Por ejemplo, se incluyen medidas subjetivas de confusión de imágenes, claridad, ruido y color del vehículo junto con estadísticas más objetivas, como la distancia de muestra del suelo (GSD), la hora del día y el día del año.
- ~ 900 imágenes, que contienen ~ 1800 imágenes anotadas
- ~ 30 anotaciones por objeto
- ~ 60 medidas estadísticas por objeto
- Amplia variación en el contexto del objeto
- Limitado a vehículos de pasajeros en imágenes aéreas
MICC-Flickr 101 es un conjunto de datos de imágenes creado en el Centro de Integración y Comunicación de Medios (MICC), Universidad de Florencia , en 2012. Se basa en Caltech 101 y se recopila de Flickr . MICC-Flickr 101 ^[16] corrige el principal inconveniente de Caltech 101, es decir, su baja variabilidad entre clases y proporciona anotaciones sociales a través de etiquetas de usuario. Se basa en un conjunto de datos estándar y ampliamente utilizado compuesto por un número manejable de categorías (101) y, por lo tanto, se puede utilizar para comparar el rendimiento de la categorización de objetos en un escenario restringido (Caltech 101) y la categorización de objetos "en la naturaleza" (MICC-Flickr 101) en las mismas 101 categorías.

Ver también

Lista de conjuntos de datos para la investigación del aprendizaje automático
Base de datos MNIST
Etiquetame

Referencias

^ Viola, Paul; Jones, Michael J. (2004). "Detección de rostros robusta en tiempo real". Revista Internacional de Visión por Computador . 57 (2): 137-154. doi : 10.1023 / B: VISI.0000013087.49260.fb . S2CID 2796017 .
^ Oertel, Carsten; Más frío, Brian; Colombe, Jeffrey; Alto, Julia; Ingram, Michael; Sallee, Phil (2008). "Retos actuales en la automatización de la percepción visual". 2008 37º Taller de reconocimiento de patrones de imágenes aplicadas del IEEE . págs. 1–8. doi : 10.1109 / AIPR.2008.4906457 . ISBN 978-1-4244-3125-0. S2CID 36669995 .
^ a b c Pinto, Nicolás; Cox, David D .; Dicarlo, James J. (2008). "¿Por qué es difícil el reconocimiento de objetos visuales del mundo real?" . PLOS Biología Computacional . 4 (1): e27. doi : 10.1371 / journal.pcbi.0040027 . PMC 2211529 . PMID 18225950 .
^ L. Fei-Fei, R. Fergus y P. Perona. Aprendizaje de modelos visuales generativos a partir de algunos ejemplos de entrenamiento: un enfoque bayesiano incremental probado en 101 categorías de objetos. IEEE. CVPR 2004, Taller de Visión Basada en Modelos Generativos. 2004
^ L. Fei-Fei; R. Fergus; P. Perona (abril de 2006). "Aprendizaje One-Shot de categorías de objetos" (PDF) . IEEE Trans. Análisis de patrones e inteligencia de máquinas . 28 (4): 594–611. Archivado desde el original (PDF) el 2007-06-09 . Consultado el 16 de enero de 2008 .
^ El núcleo de coincidencia piramidal: clasificación discriminativa con conjuntos de características de imagen. K. Grauman y T. Darrell. Congreso Internacional de Visión por Computador (ICCV), 2005
^ Holub, AD; Welling, M; Perona, P. Combinación de modelos generativos y núcleos de Fisher para el reconocimiento de clases de objetos . International Conference on Computer Vision (ICCV), 2005. Archivado desde el original el 14 de agosto de 2007 . Consultado el 16 de enero de 2008 .
^ Reconocimiento de objetos con características inspiradas en Visual Cortex. T. Serre, L. Wolf y T. Poggio. Actas de la Conferencia de la Sociedad de Computadoras IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR 2005), IEEE Computer Society Press, San Diego, junio de 2005
^ SVM-KNN: Clasificación discriminativa del vecino más cercano para el reconocimiento visual de categorías. Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik. CVPR, 2006
^ Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales. Svetlana Lazebnik , Cordelia Schmid y Jean Ponce. CVPR, 2006
^ Estudio empírico de bancos de filtros multiescala para la categorización de objetos, MJ Mar 韓 -Jim 閚 ez y N. P 閞 ez de la Blanca. Diciembre de 2005
^ Reconocimiento de objetos multiclase con características escasas y localizadas, Jim Mutch y David G. Lowe. , pág. 11-18, CVPR 2006, IEEE Computer Society Press, Nueva York, junio de 2006
^ G. Wang; Y. Zhang; L. Fei-Fei (2006). "Uso de regiones dependientes o categorización de objetos en un marco generativo" (PDF) . IEEE Comp. Vis. Patt. Reconocer . Archivado desde el original (PDF) el 2007-06-09 . Consultado el 16 de enero de 2008 .
^ J. Ponce; TL Berg; M. Everingham; DA Forsyth; M. Hebert; S. Lazebnik ; M. Marszalek; C. Schmid; BC Russell; A. Torralba; CKI Williams; J. Zhang; A. Zisserman (2006). J. Ponce; M. Hebert; C. Schmid; A. Zisserman (eds.). "Problemas de conjuntos de datos en el reconocimiento de objetos" (PDF) . Hacia el reconocimiento de objetos a nivel de categoría, Springer-Verlag Lecture Notes in Computer Science. Archivado desde el original (PDF) el 24 de diciembre de 2016 . Consultado el 8 de febrero de 2008 .
^ F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel y P. Sallee, Overhead Imagery Research Data Set (OIRDS): una biblioteca de datos anotados y herramientas para ayudar en el desarrollo de algoritmos de visión por computadora , Junio de 2009, < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Archivado 2012-11-09 en Wayback Machine > (28 de diciembre de 2009)
^ "L. Ballan, M. Bertini, A. Del Bimbo, AM Serain, G. Serra, BF Zaccone. Combinación de modelos generativos y discriminativos para clasificar imágenes sociales de 101 categorías de objetos. Conferencia internacional sobre reconocimiento de patrones (ICPR), 2012" (PDF) . Archivado desde el original (PDF) el 26 de agosto de 2014 . Consultado el 11 de julio de 2012 .

enlaces externos

http://www.vision.caltech.edu/Image_Datasets/Caltech101/ -Página de inicio de Caltech 101 (incluye descarga)
http://www.vision.caltech.edu/Image_Datasets/Caltech256/ -Página de inicio de Caltech 256 (incluye descarga)
http://labelme.csail.mit.edu/ -LabelMe Homepage
http://www2.it.lut.fi/project/visiq/ -Página de descarga aleatoria de Caltech 101 (incluye descarga)
http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ -MICC-Flickr101 Homepage (Incluye descarga)

[Viola_Jones-1] Viola, Paul; Jones, Michael J. (2004). "Detección de rostros robusta en tiempo real". Revista Internacional de Visión por Computador . 57 (2): 137-154. doi : 10.1023 / B: VISI.0000013087.49260.fb . S2CID 2796017 .

[oertel-2] Oertel, Carsten; Más frío, Brian; Colombe, Jeffrey; Alto, Julia; Ingram, Michael; Sallee, Phil (2008). "Retos actuales en la automatización de la percepción visual". 2008 37º Taller de reconocimiento de patrones de imágenes aplicadas del IEEE . págs. 1–8. doi : 10.1109 / AIPR.2008.4906457 . ISBN 978-1-4244-3125-0. S2CID 36669995 .

[pinto_et_al_2008-3] Pinto, Nicolás; Cox, David D .; Dicarlo, James J. (2008). "¿Por qué es difícil el reconocimiento de objetos visuales del mundo real?" . PLOS Biología Computacional . 4 (1): e27. doi : 10.1371 / journal.pcbi.0040027 . PMC 2211529 . PMID 18225950 .

[OneShot-4] L. Fei-Fei, R. Fergus y P. Perona. Aprendizaje de modelos visuales generativos a partir de algunos ejemplos de entrenamiento: un enfoque bayesiano incremental probado en 101 categorías de objetos. IEEE. CVPR 2004, Taller de Visión Basada en Modelos Generativos. 2004

[OneShot2-5] L. Fei-Fei; R. Fergus; P. Perona (abril de 2006). "Aprendizaje One-Shot de categorías de objetos" (PDF) . IEEE Trans. Análisis de patrones e inteligencia de máquinas . 28 (4): 594–611. Archivado desde el original (PDF) el 2007-06-09 . Consultado el 16 de enero de 2008 .

[6] El núcleo de coincidencia piramidal: clasificación discriminativa con conjuntos de características de imagen. K. Grauman y T. Darrell. Congreso Internacional de Visión por Computador (ICCV), 2005

[7] Holub, AD; Welling, M; Perona, P. Combinación de modelos generativos y núcleos de Fisher para el reconocimiento de clases de objetos . International Conference on Computer Vision (ICCV), 2005. Archivado desde el original el 14 de agosto de 2007 . Consultado el 16 de enero de 2008 .

[8] Reconocimiento de objetos con características inspiradas en Visual Cortex. T. Serre, L. Wolf y T. Poggio. Actas de la Conferencia de la Sociedad de Computadoras IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR 2005), IEEE Computer Society Press, San Diego, junio de 2005

[9] SVM-KNN: Clasificación discriminativa del vecino más cercano para el reconocimiento visual de categorías. Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik. CVPR, 2006

[10] Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales. Svetlana Lazebnik , Cordelia Schmid y Jean Ponce. CVPR, 2006

[11] Estudio empírico de bancos de filtros multiescala para la categorización de objetos, MJ Mar 韓 -Jim 閚 ez y N. P 閞 ez de la Blanca. Diciembre de 2005

[12] Reconocimiento de objetos multiclase con características escasas y localizadas, Jim Mutch y David G. Lowe. , pág. 11-18, CVPR 2006, IEEE Computer Society Press, Nueva York, junio de 2006

[13] G. Wang; Y. Zhang; L. Fei-Fei (2006). "Uso de regiones dependientes o categorización de objetos en un marco generativo" (PDF) . IEEE Comp. Vis. Patt. Reconocer . Archivado desde el original (PDF) el 2007-06-09 . Consultado el 16 de enero de 2008 .

[14] J. Ponce; TL Berg; M. Everingham; DA Forsyth; M. Hebert; S. Lazebnik ; M. Marszalek; C. Schmid; BC Russell; A. Torralba; CKI Williams; J. Zhang; A. Zisserman (2006). J. Ponce; M. Hebert; C. Schmid; A. Zisserman (eds.). "Problemas de conjuntos de datos en el reconocimiento de objetos" (PDF) . Hacia el reconocimiento de objetos a nivel de categoría, Springer-Verlag Lecture Notes in Computer Science. Archivado desde el original (PDF) el 24 de diciembre de 2016 . Consultado el 8 de febrero de 2008 .

[OIRDSVehicles-15] F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel y P. Sallee, Overhead Imagery Research Data Set (OIRDS): una biblioteca de datos anotados y herramientas para ayudar en el desarrollo de algoritmos de visión por computadora , Junio de 2009, < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Archivado 2012-11-09 en Wayback Machine > (28 de diciembre de 2009)

[ballan_et_al_2012-16] "L. Ballan, M. Bertini, A. Del Bimbo, AM Serain, G. Serra, BF Zaccone. Combinación de modelos generativos y discriminativos para clasificar imágenes sociales de 101 categorías de objetos. Conferencia internacional sobre reconocimiento de patrones (ICPR), 2012" (PDF) . Archivado desde el original (PDF) el 26 de agosto de 2014 . Consultado el 11 de julio de 2012 .

[1]