Estos conjuntos de datos se aplican para la investigación de aprendizaje automático y se han citado en revistas académicas revisadas por pares. Los conjuntos de datos son una parte integral del campo del aprendizaje automático. Los principales avances en este campo pueden resultar de los avances en los algoritmos de aprendizaje (como el aprendizaje profundo ), el hardware de la computadora y, de manera menos intuitiva, la disponibilidad de conjuntos de datos de capacitación de alta calidad. [1] Conjuntos de datos de entrenamiento etiquetados de alta calidad para supervisados y semi-supervisadosLos algoritmos de aprendizaje automático suelen ser difíciles y costosos de producir debido a la gran cantidad de tiempo que se necesita para etiquetar los datos. Aunque no es necesario etiquetarlos, los conjuntos de datos de alta calidad para el aprendizaje no supervisado también pueden ser difíciles y costosos de producir. [2] [3] [4] [5]
Datos de imagen
Conjuntos de datos que consisten principalmente en imágenes o videos para tareas como detección de objetos , reconocimiento facial y clasificación de múltiples etiquetas .
Reconocimiento facial
En visión por computadora , las imágenes faciales se han utilizado ampliamente para desarrollar sistemas de reconocimiento facial , detección de rostros y muchos otros proyectos que utilizan imágenes de rostros.
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 videos de 200 individuos, ~ 1,250,000 imágenes anotadas manualmente: anotadas en términos de afecto dimensional (activación de valencia); entorno salvaje; base de datos de colores; varias resoluciones (promedio = 640x360) | los rostros detectados, los puntos de referencia faciales y las anotaciones de activación de valencia | ~ 1,250,000 imágenes anotadas manualmente | video (modalidades visual + audio) | reconocimiento de efectos (estimación de la activación de valencia) | 2017 | CVPR [6] IJCV [7] | D.Kollias y col. |
Aff-Wild2 | 558 videos de 458 individuos, ~ 2.800.000 imágenes anotadas manualmente: anotadas en términos de i) afecto categórico (7 expresiones básicas: neutral, felicidad, tristeza, sorpresa, miedo, disgusto, ira); ii) afecto dimensional (despertar de valencia); iii) unidades de acción (AUs 1, 2, 4, 6, 12, 15, 20, 25); entorno salvaje; base de datos de colores; varias resoluciones (promedio = 1030x630) | los rostros detectados, los rostros detectados y alineados y las anotaciones | ~ 2.800.000 imágenes anotadas manualmente | video (modalidades visual + audio) | reconocimiento de afecto (estimación de activación de valencia, clasificación de expresión básica, detección de unidad de acción) | 2019 | BMVC [8] FG [9] | D.Kollias y col. |
FERET (tecnología de reconocimiento facial) | 11338 imágenes de 1199 individuos en diferentes posiciones y en diferentes momentos. | Ninguno. | 11,338 | Imagenes | Clasificación, reconocimiento facial | 2003 | [10] [11] | Departamento de Defensa de los Estados Unidos |
Base de datos audiovisual de habla y canción emocionales de Ryerson (RAVDESS) | 7.356 grabaciones de audio y video de 24 actores profesionales. 8 emociones cada una a dos intensidades. | Archivos etiquetados con expresión. Calificaciones de validación perceptiva proporcionadas por 319 evaluadores. | 7.356 | Video, archivos de sonido | Clasificación, reconocimiento facial, reconocimiento de voz | 2018 | [12] [13] | SR Livingstone y FA Russo |
SCFace | Imágenes en color de rostros en varios ángulos. | Ubicación de los rasgos faciales extraídos. Coordenadas de características dadas. | 4.160 | Imágenes, texto | Clasificación , reconocimiento facial | 2011 | [14] [15] | M. Grgic y col. |
Base de datos de caras de Yale | Rostros de 15 individuos en 11 expresiones diferentes. | Etiquetas de expresiones. | 165 | Imagenes | Reconocimiento facial | 1997 | [16] [17] | J. Yang y col. |
Base de datos de expresiones codificadas en AU de Cohn-Kanade | Gran base de datos de imágenes con etiquetas para expresiones. | Seguimiento de determinados rasgos faciales. | 500+ secuencias | Imágenes, texto | Análisis de expresión facial | 2000 | [18] [19] | T. Kanade y col. |
Base de datos de expresión facial de JAFFE | 213 imágenes de 7 expresiones faciales (6 expresiones faciales básicas + 1 neutra) planteadas por 10 modelos femeninas japonesas. | Las imágenes se recortan en la región facial. Incluye datos de calificaciones semánticas en etiquetas de emociones. | 213 | Imágenes, texto | Cognición de expresión facial | 1998 | [20] [21] | Lyon, Kamachi, Gyoba |
FaceScrub | Imágenes de figuras públicas eliminadas de la búsqueda de imágenes. | Nombre y anotación m / f. | 107,818 | Imágenes, texto | Reconocimiento facial | 2014 | [22] [23] | H. Ng y col. |
Base de datos facial BioID | Imágenes de rostros con posiciones de ojos marcadas. | Configure manualmente las posiciones de los ojos. | 1521 | Imágenes, texto | Reconocimiento facial | 2001 | [24] [25] | BioID |
Conjunto de datos de segmentación de la piel | Valores de color muestreados aleatoriamente a partir de imágenes faciales. | B, G, R, valores extraídos. | 245,057 | Texto | Segmentación, clasificación | 2012 | [26] [27] | R. Bhatt. |
bósforo | Base de datos de imágenes de caras 3D. | 34 unidades de acción y 6 expresiones etiquetadas; 24 puntos de referencia faciales etiquetados. | 4652 | Imágenes, texto | Reconocimiento facial, clasificación | 2008 | [28] [29] | A Savran et al. |
UOY 3D-Cara | rostro neutral, 5 expresiones: enfado, alegría, tristeza, ojos cerrados, cejas levantadas. | etiquetado. | 5250 | Imágenes, texto | Reconocimiento facial, clasificación | 2004 | [30] [31] | Universidad de York |
Base de datos de caras 3D de CASIA | Expresiones: Ira, sonrisa, risa, sorpresa, ojos cerrados. | Ninguno. | 4624 | Imágenes, texto | Reconocimiento facial, clasificación | 2007 | [32] [33] | Instituto de Automatización, Academia de Ciencias de China |
CASIA NIR | Expresiones: Ira Disgusto Miedo Felicidad Tristeza Sorpresa | Ninguno. | 480 | Capturas de vídeo de espectro visible e infrarrojo cercano anotado a 25 fotogramas por segundo | Reconocimiento facial, clasificación | 2011 | [34] | Zhao, G. y col. |
BU-3DFE | rostro neutral y 6 expresiones: enfado, alegría, tristeza, sorpresa, disgusto, miedo (4 niveles). Imágenes 3D extraídas. | Ninguno. | 2500 | Imágenes, texto | Reconocimiento de expresiones faciales, clasificación. | 2006 | [35] | Universidad de Binghamton |
Conjunto de datos del gran desafío de reconocimiento facial | Hasta 22 muestras para cada tema. Expresiones: enfado, alegría, tristeza, sorpresa, disgusto, hinchazón. Datos 3D. | Ninguno. | 4007 | Imágenes, texto | Reconocimiento facial, clasificación | 2004 | [36] [37] | Instituto Nacional de Estándares y Tecnología |
Gavabdb | Hasta 61 muestras para cada tema. Expresiones de rostro neutro, sonrisa, risa frontal acentuada, gesto frontal al azar. Imágenes en 3D. | Ninguno. | 549 | Imágenes, texto | Reconocimiento facial, clasificación | 2008 | [38] [39] | Universidad Rey Juan Carlos |
3D-RMA | Hasta 100 sujetos, expresiones en su mayoría neutrales. Varias poses también. | Ninguno. | 9971 | Imágenes, texto | Reconocimiento facial, clasificación | 2004 | [40] [41] | Real Academia Militar (Bélgica) |
SoF | 112 personas (66 hombres y 46 mujeres) usan anteojos en diferentes condiciones de iluminación. | Un conjunto de filtros sintéticos (desenfoque, oclusiones, ruido y posterización) con diferente nivel de dificultad. | 42,592 (2,662 imagen original × 16 imagen sintética) | Imágenes, archivo Mat | Clasificación de género, detección de rostros, reconocimiento de rostros, estimación de edad y detección de anteojos | 2017 | [42] [43] | Afifi, M. y col. |
IMDB-WIKI | Imágenes de caras de IMDB y Wikipedia con etiquetas de género y edad. | Ninguno | 523,051 | Imagenes | Clasificación de género, detección de rostros, reconocimiento de rostros, estimación de edad | 2015 | [44] | R. Rothe, R. Timofte, LV Gool |
Reconocimiento de acciones
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de interacción humana de TV | Vídeos de 20 programas de televisión diferentes para la predicción de acciones sociales: apretón de manos, choca esos cinco, abrazo, beso y ninguno. | Ninguno. | 6.766 videoclips | clips de video | Predicción de acción | 2013 | [45] | Patron-Perez, A. et al. |
Base de datos de acción humana multimodal de Berkeley (MHAD) | Grabaciones de una sola persona realizando 12 acciones | Preprocesamiento de MoCap | 660 muestras de acción | Captura de movimiento de 8 PhaseSpace, 2 cámaras estéreo, 4 cámaras cuádruples, 6 acelerómetros, 4 micrófonos | Clasificación de acciones | 2013 | [46] | Ofli, F. y col. |
Conjunto de datos THUMOS | Gran conjunto de datos de video para clasificación de acciones. | Acciones clasificadas y etiquetadas. | 45 millones de fotogramas de video | Video, imágenes, texto | Clasificación, detección de acciones | 2013 | [47] [48] | Y. Jiang y col. |
MEXAcción2 | Conjunto de datos de video para localización y detección de acciones | Acciones clasificadas y etiquetadas. | 1000 | Video | Detección de acciones | 2014 | [49] | Stoian y col. |
Detección y reconocimiento de objetos
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Genoma visual | Imágenes y su descripción | 108.000 | imágenes, texto | Subtítulos de imagen | 2016 | [50] | R. Krishna y col. | |
Conjunto de datos de objetos 3-D de Berkeley | 849 imágenes tomadas en 75 escenas diferentes. Aproximadamente 50 clases de objetos diferentes están etiquetadas. | Cuadros delimitadores de objetos y etiquetado. | 849 | imágenes etiquetadas, texto | Reconocimiento de objetos | 2014 | [51] [52] | A. Janoch y col. |
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500) | 500 imágenes naturales, explícitamente separadas en subconjuntos de tren, validación y prueba separados + código de evaluación comparativa. Basado en BSDS300. | Cada imagen segmentada por cinco sujetos diferentes en promedio. | 500 | Imágenes segmentadas | Detección de contornos y segmentación jerárquica de imágenes | 2011 | [53] | Universidad de California, Berkeley |
Objetos comunes de Microsoft en contexto (COCO) | escenas cotidianas complejas de objetos comunes en su contexto natural. | Resaltado, etiquetado y clasificación de objetos en 91 tipos de objetos. | 2.500.000 | Imágenes etiquetadas, texto | Reconocimiento de objetos | 2015 | [54] [55] | T. Lin y col. |
Base de datos SUN | Base de datos de reconocimiento de objetos y escenas muy grande. | Los lugares y los objetos están etiquetados. Los objetos están segmentados. | 131.067 | Imágenes, texto | Reconocimiento de objetos, reconocimiento de escenas | 2014 | [56] [57] | J. Xiao y col. |
ImageNet | Base de datos de imágenes de objetos etiquetados, utilizada en el desafío de reconocimiento visual a gran escala de ImageNet | Objetos etiquetados, cuadros delimitadores, palabras descriptivas, funciones SIFT | 14.197.122 | Imágenes, texto | Reconocimiento de objetos, reconocimiento de escenas | 2009 (2014) | [58] [59] [60] | J. Deng y col. |
Abrir imágenes | Un gran conjunto de imágenes enumeradas con licencia CC BY 2.0 con etiquetas a nivel de imagen y cuadros delimitadores que abarcan miles de clases. | Etiquetas a nivel de imagen, cuadros delimitadores | 9.178.275 | Imágenes, texto | Clasificación, reconocimiento de objetos | 2017 | [61] | |
Conjunto de datos de detección comercial de canales de noticias de televisión | Anuncios de televisión y transmisiones de noticias. | Funciones de audio y video extraídas de imágenes fijas. | 129.685 | Texto | Agrupación, clasificación | 2015 | [62] [63] | P. Guha y col. |
Conjunto de datos Statlog (segmentación de imágenes) | Las instancias se extrajeron al azar de una base de datos de 7 imágenes al aire libre y se segmentaron a mano para crear una clasificación para cada píxel. | Muchas características calculadas. | 2310 | Texto | Clasificación | 1990 | [64] | Universidad de massachusetts |
Caltech 101 | Imágenes de objetos. | Contornos detallados de objetos marcados. | 9146 | Imagenes | Clasificación, reconocimiento de objetos. | 2003 | [65] [66] | F. Li y col. |
Caltech-256 | Gran conjunto de datos de imágenes para la clasificación de objetos. | Imágenes categorizadas y ordenadas a mano. | 30,607 | Imágenes, texto | Clasificación, detección de objetos | 2007 | [67] [68] | G. Griffin y col. |
Conjunto de datos SIFT10M | Funciones SIFT del conjunto de datos Caltech-256. | Extracción extensa de funciones SIFT. | 11,164,866 | Texto | Clasificación, detección de objetos | 2016 | [69] | X. Fu y col. |
Etiquetame | Imágenes anotadas de escenas. | Objetos descritos. | 187,240 | Imágenes, texto | Clasificación, detección de objetos | 2005 | [70] | Laboratorio de Informática e Inteligencia Artificial del MIT |
Conjunto de datos de paisajes urbanos | Secuencias de video estéreo grabadas en escenas callejeras, con anotaciones a nivel de píxel. También se incluyen metadatos. | Segmentación y etiquetado a nivel de píxeles | 25 000 | Imágenes, texto | Clasificación, detección de objetos | 2016 | [71] | Daimler AG y col. |
Conjunto de datos PASCAL VOC | Gran cantidad de imágenes para tareas de clasificación. | Etiquetado, cuadro delimitador incluido | 500.000 | Imágenes, texto | Clasificación, detección de objetos | 2010 | [72] [73] | M. Everingham y col. |
Conjunto de datos CIFAR-10 | Muchas imágenes pequeñas de baja resolución de 10 clases de objetos. | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas. | 60.000 | Imagenes | Clasificación | 2009 | [59] [74] | A. Krizhevsky y col. |
Conjunto de datos CIFAR-100 | Como CIFAR-10, arriba, pero se dan 100 clases de objetos. | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas. | 60.000 | Imagenes | Clasificación | 2009 | [59] [74] | A. Krizhevsky y col. |
Conjunto de datos CINIC-10 | Una contribución unificada de CIFAR-10 e Imagenet con 10 clases y 3 divisiones. Más grande que CIFAR-10. | Clases etiquetadas, formación, validación, divisiones de conjuntos de pruebas creadas. | 270.000 | Imagenes | Clasificación | 2018 | [75] | Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey |
Moda-MNIST | Una base de datos de productos de moda similar a MNIST | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas. | 60.000 | Imagenes | Clasificación | 2017 | [76] | Zalando SE |
notMNIST | Algunas fuentes disponibles públicamente y glifos extraídos de ellas para crear un conjunto de datos similar al MNIST. Hay 10 clases, con letras AJ tomadas de diferentes fuentes. | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas. | 500.000 | Imagenes | Clasificación | 2011 | [77] | Yaroslav Bulatov |
Conjunto de datos de referencia de detección de señales de tráfico en Alemania | Imágenes de vehículos de señales de tráfico en las carreteras alemanas. Estos letreros cumplen con los estándares de la ONU y por lo tanto son los mismos que en otros países. | Señales etiquetadas manualmente | 900 | Imagenes | Clasificación | 2013 | [78] [79] | S Houben y col. |
Conjunto de datos de referencia de KITTI Vision | Los vehículos autónomos que atravesaban una ciudad de tamaño medio capturaron imágenes de varias áreas utilizando cámaras y escáneres láser. | Muchos puntos de referencia extraídos de los datos. | > 100 GB de datos | Imágenes, texto | Clasificación, detección de objetos | 2012 | [80] [81] | A Geiger et al. |
Conjunto de datos de Linnaeus 5 | Imágenes de 5 clases de objetos. | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas. | 8000 | Imagenes | Clasificación | 2017 | [82] | Chaladze y Kalatozishvili |
FieldSAFE | Conjunto de datos multimodal para la detección de obstáculos en la agricultura, que incluye cámara estéreo, cámara térmica, cámara web, cámara de 360 grados, lidar, radar y localización precisa. | Clases etiquetadas geográficamente. | > 400 GB de datos | Imágenes y nubes de puntos 3D | Clasificación, detección de objetos, localización de objetos | 2017 | [83] | M. Kragh y col. |
11K manos | 11,076 imágenes de manos (1600 x 1200 píxeles) de 190 sujetos, de diferentes edades entre 18 y 75 años, para el reconocimiento de género y la identificación biométrica. | Ninguno | 11,076 imágenes de mano | Imágenes y archivos de etiquetas (.mat, .txt y .csv) | Reconocimiento de género e identificación biométrica | 2017 | [84] | M Afifi |
CORe50 | Diseñado específicamente para el aprendizaje continuo / permanente y el reconocimiento de objetos, es una colección de más de 500 videos (30 fps) de 50 objetos domésticos pertenecientes a 10 categorías diferentes. | Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas en base a un punto de referencia de múltiples ejecuciones de 3 vías. | 164,866 imágenes RBG-D | imágenes (.png o .pkl) y archivos de etiquetas (.pkl, .txt, .tsv) | Clasificación, reconocimiento de objetos | 2017 | [85] | V. Lomonaco y D. Maltoni |
Objeto OpenLORIS | El conjunto de datos de visión robótica permanente / continua (OpenLORIS-Object) recopilado por robots reales montados con múltiples sensores de alta resolución, incluye una colección de 121 instancias de objetos (primera versión del conjunto de datos, 40 categorías de objetos de necesidades diarias en 20 escenas). El conjunto de datos ha considerado rigurosamente 4 factores ambientales en diferentes escenas, incluida la iluminación, la oclusión, el tamaño del píxel del objeto y el desorden, y define los niveles de dificultad de cada factor de forma explícita. | Clases etiquetadas, divisiones de conjuntos de entrenamiento / validación / prueba creadas por scripts de referencia. | 1,106,424 imágenes RBG-D | imágenes (.png y .pkl) y archivos de etiquetas (.pkl) | Clasificación, reconocimiento de objetos de por vida, visión robótica | 2019 | [86] | P. She et al. |
Conjunto de datos de vídeo térmico y THz | Este conjunto de datos multiespectrales incluye videos de terahercios, térmicos, visuales, infrarrojos cercanos y tridimensionales de objetos ocultos debajo de la ropa de las personas. | Se proporcionan tablas de búsqueda 3D que le permiten proyectar imágenes en nubes de puntos 3D. | Más de 20 videos. La duración de cada video es de aproximadamente 85 segundos (aproximadamente 345 fotogramas). | AP2J | Experimentos con detección de objetos ocultos | 2019 | [87] [88] | Alexei A. Morozov y Olga S. Sushkova |
Escritura a mano y reconocimiento de caracteres.
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de caracteres artificiales | Datos generados artificialmente que describen la estructura de 10 letras mayúsculas en inglés. | Las coordenadas de las líneas dibujadas se dan como números enteros. Varias otras características. | 6000 | Texto | Reconocimiento de escritura a mano, clasificación | 1992 | [89] | H. Guvenir y col. |
Conjunto de datos de letras | Letras impresas en mayúsculas. | Se extraen 17 características de todas las imágenes. | 20.000 | Texto | OCR, clasificación | 1991 | [90] [91] | D. Slate y col. |
CASIA-HWDB | Base de datos de caracteres chinos escritos a mano sin conexión . 3755 clases en el juego de caracteres GB 2312 . | Imágenes en escala de grises con píxeles de fondo etiquetados como 255. | 1,172,907 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 2009 | [92] | CASIA |
CASIA-OLHWDB | Base de datos de caracteres chinos manuscritos en línea, recopilada con lápiz Anoto sobre papel. 3755 clases en el juego de caracteres GB 2312 . | Proporciona las secuencias de coordenadas de trazos. | 1,174,364 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 2009 | [93] [92] | CASIA |
Conjunto de datos de trayectorias de caracteres | Muestras etiquetadas de trayectorias de punta de lápiz para personas que escriben caracteres simples. | Matriz de trayectoria de velocidad de la punta del lápiz tridimensional para cada muestra | 2858 | Texto | Reconocimiento de escritura a mano, clasificación | 2008 | [94] [95] | B. Williams |
Conjunto de datos Chars74K | Reconocimiento de caracteres en imágenes naturales de símbolos utilizados tanto en inglés como en kannada. | 74,107 | Reconocimiento de caracteres, reconocimiento de escritura a mano, OCR, clasificación | 2009 | [96] | T. de Campos | ||
Conjunto de datos de personajes de la pluma UJI | Caracteres escritos a mano aislados | Se dieron las coordenadas de la posición de la pluma a medida que se escribían los caracteres. | 11,640 | Texto | Reconocimiento de escritura a mano, clasificación | 2009 | [97] [98] | F. Prat y col. |
Conjunto de datos de Gisette | Muestras de escritura a mano de los 4 y 9 caracteres que a menudo se confunden. | Funciones extraídas de imágenes, divididas en tren / prueba, imágenes de escritura a mano con tamaño normalizado. | 13.500 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 2003 | [99] | Yann LeCun y col. |
Conjunto de datos omniglot | 1623 caracteres manuscritos diferentes de 50 alfabetos diferentes. | Etiquetado a mano. | 38,300 | Imágenes, texto, trazos | Clasificación, aprendizaje de una sola vez | 2015 | [100] [101] | Asociación Estadounidense para el Avance de la Ciencia |
Base de datos MNIST | Base de datos de dígitos escritos a mano. | Etiquetado a mano. | 60.000 | Imágenes, texto | Clasificación | 1998 | [102] [103] | Instituto Nacional de Estándares y Tecnología |
Conjunto de datos de reconocimiento óptico de dígitos escritos a mano | Mapas de bits normalizados de datos escritos a mano. | Tamaño normalizado y mapeado a mapas de bits. | 5620 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 1998 | [104] | E. Alpaydin y col. |
Conjunto de datos de reconocimiento basado en lápiz de dígitos escritos a mano | Dígitos escritos a mano en tableta electrónica. | Los vectores de características se extraen para espaciarlos uniformemente. | 10.992 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 1998 | [105] [106] | E. Alpaydin y col. |
Conjunto de datos de dígitos manuscritos de Semeion | Dígitos manuscritos de 80 personas. | Todos los dígitos escritos a mano se normalizaron para el tamaño y se asignaron a la misma cuadrícula. | 1593 | Imágenes, texto | Reconocimiento de escritura a mano, clasificación | 2008 | [107] | T. Srl |
HASYv2 | Símbolos matemáticos escritos a mano | Todos los símbolos están centrados y tienen un tamaño de 32px x 32px. | 168233 | Imágenes, texto | Clasificación | 2017 | [108] | Martín Thoma |
Conjunto de datos en bangla manuscrito ruidoso | Incluye un conjunto de datos numérico escrito a mano (10 clases) y un conjunto de datos de caracteres básicos (50 clases), cada conjunto de datos tiene tres tipos de ruido: gaussiano blanco, desenfoque de movimiento y contraste reducido. | Todas las imágenes están centradas y tienen un tamaño de 32x32. | Conjunto de datos numéricos: 23330, Conjunto de datos de caracteres: 76000 | Imagenes texto | Reconocimiento de escritura a mano, clasificación | 2017 | [109] [110] | M. Karki y col. |
Imágenes aéreas
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de segmentación de imágenes aéreas | 80 imágenes aéreas de alta resolución con una resolución espacial que va de 0,3 a 1,0. | Imágenes segmentadas manualmente. | 80 | Imagenes | Clasificación aérea, detección de objetos | 2013 | [111] [112] | J. Yuan y col. |
Conjunto de datos KIT AIS | Múltiples conjuntos de datos de entrenamiento y evaluación etiquetados de imágenes aéreas de multitudes. | Imágenes etiquetadas manualmente para mostrar los caminos de las personas a través de multitudes. | ~ 150 | Imágenes con caminos | Seguimiento de personas, seguimiento aéreo | 2012 | [113] [114] | M. Butenuth y col. |
Conjunto de datos de marchitez | Datos de teledetección de árboles enfermos y otras coberturas terrestres. | Varias características extraídas. | 4899 | Imagenes | Clasificación, detección de objetos aéreos | 2014 | [115] [116] | B. Johnson |
Conjunto de datos MASATI | Escenas marítimas de imágenes aéreas ópticas del espectro visible. Contiene imágenes en color en entornos marinos dinámicos, cada imagen puede contener uno o varios objetivos en diferentes condiciones climáticas y de iluminación. | Cuadros delimitadores de objetos y etiquetado. | 7389 | Imagenes | Clasificación, detección de objetos aéreos | 2018 | [117] [118] | A.-J. Gallego y col. |
Conjunto de datos de mapeo de tipo de bosque | Imágenes satelitales de bosques en Japón. | Bandas de longitud de onda de la imagen extraídas. | 326 | Texto | Clasificación | 2015 | [119] [120] | B. Johnson |
Conjunto de datos de investigación de imágenes aéreas | Imágenes aéreas anotadas. Imágenes con múltiples objetos. | Más de 30 anotaciones y más de 60 estadísticas que describen el objetivo dentro del contexto de la imagen. | 1000 | Imágenes, texto | Clasificación | 2009 | [121] [122] | F. Tanner y col. |
SpaceNet | SpaceNet es un corpus de imágenes de satélite comerciales y datos de entrenamiento etiquetados. | Archivos GeoTiff y GeoJSON que contienen huellas de edificios. | > 17533 | Imagenes | Clasificación, identificación de objetos | 2017 | [123] [124] [125] | DigitalGlobe, Inc. |
Conjunto de datos de uso de la tierra de UC Merced | Estas imágenes se extrajeron manualmente de imágenes grandes de la colección de imágenes del área urbana del mapa nacional del USGS para varias áreas urbanas de los EE. UU. | Este es un conjunto de datos de imágenes de uso de la tierra de 21 clases destinado a fines de investigación. Hay 100 imágenes para cada clase. | 2,100 | Chips de imagen de 256x256, 30 cm (1 pie) GSD | Clasificación de cobertura terrestre | 2010 | [126] | Yi Yang y Shawn Newsam |
Conjunto de datos aerotransportados SAT-4 | Las imágenes se extrajeron del conjunto de datos del Programa Nacional de Imágenes Agrícolas (NAIP). | SAT-4 tiene cuatro clases amplias de cobertura terrestre, incluye tierras estériles, árboles, pastizales y una clase que consta de todas las clases de cobertura terrestre distintas de las tres anteriores. | 500.000 | Imagenes | Clasificación | 2015 | [127] [128] | S. Basu y col. |
Conjunto de datos aerotransportados SAT-6 | Las imágenes se extrajeron del conjunto de datos del Programa Nacional de Imágenes Agrícolas (NAIP). | El SAT-6 tiene seis clases amplias de cobertura terrestre, que incluye terrenos baldíos, árboles, pastizales, carreteras, edificios y cuerpos de agua. | 405.000 | Imagenes | Clasificación | 2015 | [127] [128] | S. Basu y col. |
Otras imagenes
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Teoría funcional de la densidad simulaciones cuánticas de grafeno | Imágenes etiquetadas de entrada sin procesar a una simulación de grafeno | Datos brutos (en formato HDF5) y etiquetas de salida de la simulación cuántica de teoría funcional de densidad | 60744 archivos de prueba y 501473 y de formación | Imágenes etiquetadas | Regresión | 2019 | [129] | K. Mills y I. Tamblyn |
Simulaciones cuánticas de un electrón en un pozo de potencial bidimensional | Imágenes etiquetadas de entrada sin procesar a una simulación de mecánica cuántica 2D | Datos brutos (en formato HDF5) y etiquetas de salida de simulación cuántica | 1,3 millones de imágenes | Imágenes etiquetadas | Regresión | 2017 | [130] | K. Mills, MA Spanner e I. Tamblyn |
Conjunto de datos de actividades de cocina MPII | Vídeos e imágenes de diversas actividades culinarias. | Rutas e indicaciones de actividad, etiquetas, etiquetado de movimiento detallado, clase de actividad, extracción y etiquetado de imágenes fijas. | 881,755 cuadros | Vídeo, imágenes y texto con etiquetas | Clasificación | 2012 | [131] [132] | M. Rohrbach y col. |
Conjunto de datos de FAMOS | 5000 microestructuras únicas, todas las muestras se han adquirido 3 veces con dos cámaras diferentes. | Archivos PNG originales, ordenados por cámara y luego por adquisición. Archivos de datos MATLAB con una matriz 16384 veces 5000 por cámara por adquisición. | 30.000 | Imágenes y archivos .mat | Autenticación | 2012 | [133] | S. Voloshynovskiy y col. |
Conjunto de datos de PharmaPack | 1000 clases únicas con 54 imágenes por clase. | Etiquetado de clases, muchos descriptores locales, como SIFT y aKaZE, y creadores de características locales, como Fisher Vector (FV). | 54.000 | Imágenes y archivos .mat | Clasificación de grano fino | 2017 | [134] | O. Taran y S. Rezaeifar, et al. |
Conjunto de datos de Stanford Dogs | Imágenes de 120 razas de perros de todo el mundo. | Se proporcionan divisiones de entrenamiento / prueba y anotaciones de ImageNet. | 20.580 | Imágenes, texto | Clasificación de grano fino | 2011 | [135] [136] | A. Khosla y col. |
StanfordExtra Conjunto de datos | Puntos clave y segmentaciones 2D para el conjunto de datos de Stanford Dogs. | Se proporcionan segmentaciones y puntos clave 2D. | 12,035 | Imágenes etiquetadas | Reconstrucción 3D / estimación de pose | 2020 | [137] | B. Biggs y col. |
El conjunto de datos de mascotas Oxford-IIIT | 37 categorías de mascotas con aproximadamente 200 imágenes de cada una. | Etiqueta de raza, cuadro delimitador ajustado, segmentación de primer plano y fondo. | ~ 7400 | Imágenes, texto | Clasificación, detección de objetos | 2012 | [136] [138] | O. Parkhi y col. |
Conjunto de datos de características de imagen de Corel | Base de datos de imágenes con características extraídas. | Muchas características, incluido el histograma de color, la textura de co-ocurrencia y los momentos de color, | 68,040 | Texto | Clasificación, detección de objetos | 1999 | [139] [140] | M. Ortega-Bindenberger y col. |
Características de video en línea y conjunto de datos de tiempo de transcodificación. | Tiempos de transcodificación para varios videos y propiedades de video diferentes. | Características de video dadas. | 168.286 | Texto | Regresión | 2015 | [141] | T. Deneke y col. |
Conjunto de datos narrativos de imágenes secuenciales de Microsoft (SIND) | Conjunto de datos para visión secuencial al lenguaje | Leyenda descriptiva y narración de cada foto, y las fotos están organizadas en secuencias. | 81,743 | Imágenes, texto | Narración visual | 2016 | [142] | Investigación de Microsoft |
Conjunto de datos Caltech-UCSD Birds-200-2011 | Gran conjunto de datos de imágenes de aves. | Ubicaciones de piezas para pájaros, cuadros delimitadores, 312 atributos binarios dados | 11,788 | Imágenes, texto | Clasificación | 2011 | [143] [144] | C. Wah y col. |
YouTube-8M | Conjunto de datos de video etiquetado grande y diverso | ID de video de YouTube y etiquetas asociadas de un vocabulario diverso de 4800 entidades visuales | 8 millones | Video, texto | Clasificación de video | 2016 | [145] [146] | S. Abu-El-Haija y col. |
YFCC100M | Conjunto de datos de imagen y video etiquetado grande y diverso | Vídeos e imágenes de Flickr y descripción, títulos, etiquetas y otros metadatos asociados (como EXIF y geoetiquetas) | 100 millones | Video, imagen, texto | Clasificación de imágenes y videos | 2016 | [147] [148] | B. Thomee y col. |
Discreto LIRIS-ACCEDE | Vídeos cortos anotados por la valencia y la excitación. | Etiquetas de valencia y excitación. | 9800 | Video | Detección de provocación de emoción por video | 2015 | [149] | Y. Baveye y col. |
LIRIS-ACCEDE continuo | Vídeos largos con anotaciones de valencia y excitación, al tiempo que recopilan Galvanic Skin Response. | Etiquetas de valencia y excitación. | 30 | Video | Detección de provocación de emoción por video | 2015 | [150] | Y. Baveye y col. |
LIRIS-ACCEDE medieval | Ampliación de Discrete LIRIS-ACCEDE que incluye anotaciones para los niveles de violencia de las películas. | Etiquetas de violencia, valencia y excitación. | 10900 | Video | Detección de provocación de emoción por video | 2015 | [151] | Y. Baveye y col. |
Postura deportiva de Leeds | Anotaciones de poses humanas articuladas en 2000 imágenes de deportes naturales de Flickr. | Cultivo basto alrededor de una sola persona de interés con 14 etiquetas conjuntas | 2000 | Imágenes más etiquetas de archivo .mat | Estimación de la pose humana | 2010 | [152] | S. Johnson y M. Everingham |
Leeds Sports Pose Extended Training | Anotaciones de poses humanas articuladas en 10,000 imágenes de deportes naturales de Flickr. | 14 etiquetas conjuntas a través de crowdsourcing | 10000 | Imágenes más etiquetas de archivo .mat | Estimación de la pose humana | 2011 | [153] | S. Johnson y M. Everingham |
Conjunto de datos de MCQ | 6 exámenes reales diferentes basados en opciones múltiples (735 hojas de respuestas y 33.540 casillas de respuestas) para evaluar las técnicas y los sistemas de visión por computadora desarrollados para los sistemas de evaluación de pruebas de opción múltiple. | Ninguno | 735 hojas de respuestas y 33,540 casillas de respuestas | Imágenes y etiquetas de archivo .mat | Desarrollo de sistemas de evaluación de pruebas de opción múltiple | 2017 | [154] [155] | Afifi, M. y col. |
Videos de vigilancia | Los videos de vigilancia reales cubren un gran tiempo de vigilancia (7 días con 24 horas cada uno). | Ninguno | 19 videos de vigilancia (7 días con 24 horas cada uno). | Videos | Compresión de datos | 2016 | [156] | Taj-Eddin, IATF y col. |
LILA BC | Biblioteca de información etiquetada de Alejandría: biología y conservación. Imágenes etiquetadas que respaldan la investigación del aprendizaje automático en torno a la ecología y las ciencias ambientales. | Ninguno | ~ 10 millones de imágenes | Imagenes | Clasificación | 2019 | [157] | Grupo de trabajo LILA |
¿Podemos ver la fotosíntesis? | 32 videos de ocho hojas vivas y ocho muertas grabados en condiciones de iluminación de CC y CA. | Ninguno | 32 videos | Videos | Detección de vitalidad de plantas | 2017 | [158] | Taj-Eddin, IATF y col. |
Datos de texto
Conjuntos de datos que consisten principalmente en texto para tareas como procesamiento de lenguaje natural , análisis de sentimientos , traducción y análisis de grupos .
Reseñas
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Reseñas de Amazon | Reseñas de productos de EE. UU . De Amazon.com . | Ninguno. | ~ 82M | Texto | Clasificación, análisis de sentimiento | 2015 | [159] | McAuley y col. |
Conjunto de datos de revisión de OpinRank | Reseñas de automóviles y hoteles de Edmunds.com y TripAdvisor respectivamente. | Ninguno. | 42,230 / ~ 259,000 respectivamente | Texto | Análisis de sentimiento, agrupación | 2011 | [160] [161] | K. Ganesan y col. |
MovieLens | 22.000.000 clasificaciones y 580.000 etiquetas aplicadas a 33.000 películas por 240.000 usuarios. | Ninguno. | ~ 22M | Texto | Regresión, agrupamiento, clasificación | 2016 | [162] | Investigación de GroupLens |
Yahoo! Calificaciones de los usuarios de música de artistas musicales | Más de 10 millones de calificaciones de artistas por usuarios de Yahoo. | Ninguno descrito. | ~ 10 M | Texto | Agrupación, regresión | 2004 | [163] [164] | Yahoo! |
Conjunto de datos de evaluación de automóviles | Propiedades del automóvil y su aceptabilidad general. | Se dan seis características categóricas. | 1728 | Texto | Clasificación | 1997 | [165] [166] | M. Bohanec |
Conjunto de datos de preferencias de YouTube Comedy Slam | Datos de votos de usuarios para pares de videos que se muestran en YouTube. Los usuarios votaron por videos más divertidos. | Se proporcionaron metadatos de video. | 1,138,562 | Texto | Clasificación | 2012 | [167] [168] | |
Conjunto de datos de reseñas de usuarios de Skytrax | Reseñas de usuarios de aerolíneas, aeropuertos, asientos y salones de Skytrax. | Las calificaciones son detalladas e incluyen muchos aspectos de la experiencia en el aeropuerto. | 41396 | Texto | Clasificación, regresión | 2015 | [169] | Q. Nguyen |
Conjunto de datos de evaluación del asistente de enseñanza | Revisiones de ayudantes de enseñanza. | Se proporcionan características de cada instancia, como la clase, el tamaño de la clase y el instructor. | 151 | Texto | Clasificación | 1997 | [170] [171] | W. Loh y col. |
Corpus de comentarios de estudiantes vietnamitas (UIT-VSFC) | Comentarios de los estudiantes. | Comentarios | 16 000 | Texto | Clasificación | 1997 | [172] | Nguyen y col. |
Corpus vietnamita de emociones en las redes sociales (UIT-VSMEC) | Comentarios de Facebook de los usuarios. | Comentarios | 6,927 | Texto | Clasificación | 1997 | [173] | Nguyen y col. |
Conjunto de datos de detección de quejas de dominio abierto vietnamita (ViOCD) | Reseñas de productos de clientes | Comentarios | 5.485 | Texto | Clasificación | 2021 | [174] | Nguyen y col. |
Articulos de noticias
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de NYSK | Artículos de noticias en inglés sobre el caso relacionado con las acusaciones de agresión sexual contra el exdirector del FMI , Dominique Strauss-Kahn . | Filtrado y presentado en formato XML. | 10,421 | XML, texto | Análisis de sentimiento, extracción de temas | 2013 | [175] | Dermouche, M. y col. |
The Reuters Corpus Volumen 1 | Amplio corpus de noticias de Reuters en inglés. | Categorización detallada y códigos de temas. | 810 000 | Texto | Clasificación, agrupamiento, resumen | 2002 | [176] | Reuters |
The Reuters Corpus Volumen 2 | Amplio corpus de noticias de Reuters en varios idiomas. | Categorización detallada y códigos de temas. | 487.000 | Texto | Clasificación, agrupamiento, resumen | 2005 | [177] | Reuters |
Colección de investigación de texto de Thomson Reuters | Gran corpus de noticias. | Detalles no descritos. | 1.800.370 | Texto | Clasificación, agrupamiento, resumen | 2009 | [178] | T. Rose y col. |
Corpus de periódicos sauditas | 31.030 artículos de periódicos árabes. | Metadatos extraídos. | 31.030 | JSON | Resumen, agrupación | 2015 | [179] | M. Alhagri |
RE3D (Conjunto de datos de evaluación de extracción de relaciones y entidades) | Entidad y Relación marcaron datos de varias fuentes de noticias y gubernamentales. Patrocinado por Dstl | Filtrado, categorización usando tipos de Baleen | no conocida | JSON | Reconocimiento de clasificación, entidad y relación | 2017 | [180] | Dstl |
Examiner Spam Clickbait Catalog | Clickbait, spam, titulares de fuentes colectivas de 2010 a 2015 | Publicar fecha y titulares | 3,089,781 | CSV | Agrupación, eventos, sentimiento | 2016 | [181] | R. Kulkarni |
ABC Australia News Corpus | Todo el corpus de noticias de ABC Australia de 2003 a 2019 | Publicar fecha y titulares | 1,186,018 | CSV | Agrupación, eventos, sentimiento | 2020 | [182] | R. Kulkarni |
Noticias mundiales: total de 20.000 feeds | Instantánea de una semana de todos los titulares en línea en más de 20 idiomas | Hora de publicación, URL y titulares | 1,398,431 | CSV | Agrupación, eventos, detección de idioma | 2018 | [183] | R. Kulkarni |
Titular de Reuters News Wire | 11 años de eventos con marca de tiempo publicados en el cable de noticias | Hora de publicación, texto del título | 16,121,310 | CSV | PNL, Lingüística Computacional, Eventos | 2018 | [184] | R. Kulkarni |
The Irish Times Ireland News Corpus | Noticias de 24 años de Irlanda de 1996 a 2019 | Hora de publicación, categoría del título y texto | 1,484,340 | CSV | PNL, Lingüística Computacional, Eventos | 2020 | [185] | R. Kulkarni |
Titulares de noticias Conjunto de datos para la detección del sarcasmo | Conjunto de datos de alta calidad con titulares de noticias sarcásticos y no sarcásticos. | Texto limpio y normalizado | 26,709 | JSON | PNL, Clasificación, Lingüística | 2018 | [186] | Rishabh Misra |
Mensajes
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de correo electrónico de Enron | Los correos electrónicos de los empleados de Enron organizados en carpetas. | Archivos adjuntos eliminados, direcciones de correo electrónico inválidas convertidas a [email protected] o [email protected]. | ~ 500 000 | Texto | Análisis de redes , análisis de sentimientos | 2004 (2015) | [187] [188] | Klimt, B. y Y. Yang |
Conjunto de datos Ling-Spam | Corpus que contiene correos electrónicos tanto legítimos como spam . | Cuatro versiones del corpus que implican si se habilitó o no un lematizador o una lista de exclusión . | 2,412 Jamón 481 Spam | Texto | Clasificación | 2000 | [189] [190] | Androutsopoulos, J. et al. |
Conjunto de datos de recopilación de spam por SMS | Mensajes de spam recopilados por SMS. | Ninguno. | 5.574 | Texto | Clasificación | 2011 | [191] [192] | T. Almeida y col. |
Conjunto de datos de veinte grupos de noticias | Mensajes de 20 grupos de noticias diferentes. | Ninguno. | 20.000 | Texto | Procesamiento natural del lenguaje | 1999 | [193] | T. Mitchell y col. |
Conjunto de datos de Spambase | Correos electrónicos no deseados. | Se extrajeron muchas características de texto. | 4.601 | Texto | Detección de spam, clasificación | 1999 | [194] | M. Hopkins y col. |
Conjunto de datos ColBERT | Chistes cortos. | Se eliminaron los valores atípicos. | 200.000 | Texto | Detección de humor, clasificación | 2020 | [195] | I. Annamoradnejad. |
Twitter y tweets
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
PelículaPeliculas | Conjunto de datos de clasificación de películas basado en tweets públicos y bien estructurados | ~ 710 000 | Texto | Clasificación, regresión | 2018 | [196] | S. Dooms | |
Twitter100k | Pares de imágenes y tweets | 100.000 | Texto e imágenes | Recuperación de medios cruzados | 2017 | [197] [198] | Y. Hu y col. | |
Sentimiento140 | Tweet datos de 2009, incluido el texto original, la marca de tiempo, el usuario y el sentimiento. | Clasificados mediante la supervisión a distancia de la presencia de emoticonos en un tweet. | 1,578,627 | Tweets, coma, valores separados | Análisis de los sentimientos | 2009 | [199] [200] | A. Go et al. |
Conjunto de datos de Twitter de ASU | Datos de la red de Twitter, no tweets reales. Muestra conexiones entre una gran cantidad de usuarios. | Ninguno. | 11,316,811 usuarios, 85,331,846 conexiones | Texto | Agrupación, análisis de gráficos | 2009 | [201] [202] | R. Zafarani y col. |
Círculos sociales SNAP: base de datos de Twitter | Grandes datos de la red de Twitter. | Funciones de nodo, círculos y redes del ego. | 1,768,149 | Texto | Agrupación, análisis de gráficos | 2012 | [203] [204] | J. McAuley y col. |
Conjunto de datos de Twitter para el análisis del sentimiento árabe | Tweets árabes. | Muestras etiquetadas a mano como positivas o negativas. | 2000 | Texto | Clasificación | 2014 | [205] [206] | N. Abdulla |
Buzz en el conjunto de datos de redes sociales | Datos de Twitter y Tom's Hardware. Este conjunto de datos se centra en temas específicos de boca en boca que se debaten en esos sitios. | Los datos se muestran en una ventana para que el usuario pueda intentar predecir los eventos que conducen a los rumores de las redes sociales. | 140.000 | Texto | Regresión, clasificación | 2013 | [207] [208] | F. Kawala y col. |
Paráfrasis y similitud semántica en Twitter (PIT) | Este conjunto de datos se centra en si los tweets tienen (casi) el mismo significado / información o no. Etiquetado manualmente. | tokenización, parte del discurso y etiquetado de entidad con nombre | 18,762 | Texto | Regresión, clasificación | 2015 | [209] [210] | Xu y col. |
Conjunto de datos de referencia de Twitter de Geoparse | Este conjunto de datos contiene tweets durante diferentes eventos de noticias en diferentes países. Menciones de ubicación etiquetadas manualmente. | anotaciones de ubicación agregadas a metadatos JSON | 6.386 | Tweets, JSON | Clasificación, extracción de información | 2014 | [211] [212] | SE Middleton y col. |
Colección de redes sociales holandesas | Este conjunto de datos contiene tweets COVID-19 hechos por hablantes holandeses o usuarios de Holanda. Los datos han sido anotados por máquina | clasificado por sentimiento, texto del tweet y descripción del usuario traducida al inglés. Se extraen menciones de la industria | 271,342 | JSONL | Sentimiento, clasificación de etiquetas múltiples, traducción automática | 2020 | [213] [214] [215] | Aaaksh Gupta, Corona |
Diálogos
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Corpus de chat de NPS | Publicaciones de salas de chat en línea específicas para cada edad. | Privacidad de la mano enmascarada, etiquetada como parte del discurso y acto de diálogo. | ~ 500 000 | XML | PNL, programación, lingüística | 2007 | [216] | Forsyth, E., Lin, J. y Martell, C. |
Twitter Triple Corpus | ABA se triplica extraído de Twitter. | 4.232 | Texto | PNL | 2016 | [217] | Sordini, A. et al. | |
UseNet Corpus | Publicaciones en foros de UseNet. | Correos electrónicos y URL anonimizados. Omitió documentos con una extensión <500 palabras o> 500.000 palabras, o que eran <90% en inglés. | 7 billones | Texto | 2011 | [218] | Shaoul, C. y Westbury C. | |
NUS SMS Corpus | Mensajes SMS recopilados entre dos usuarios, con análisis de tiempos. | ~ 10,000 | XML | PNL | 2011 | [219] | KAN, M | |
Reddit Todos los comentarios Corpus | Todos los comentarios de Reddit (a partir de 2015). | ~ 1.7 mil millones | JSON | PNL, investigación | 2015 | [220] | Stuck_In_the_Matrix | |
Corpus de diálogo de Ubuntu | Diálogos extraídos del flujo de chat de Ubuntu en IRC. | CSV | Investigación de sistemas de diálogo | 2015 | [221] | Lowe, R. y col. | ||
Desafío de seguimiento de estado de diálogo | Los desafíos de seguimiento del estado de diálogo 2 y 3 (DSTC2 y 3) fueron un desafío de investigación centrado en mejorar el estado del arte en el seguimiento del estado de los sistemas de diálogo hablado. | Transcripción de diálogos hablados con etiquetado | DSTC2 contiene ~ 3.2k llamadas - DSTC3 contiene ~ 2.3k llamadas | Json | Seguimiento del estado de diálogo | 2014 | [222] | Henderson, Matthew y Thomson, Blaise y Williams, Jason D |
Otro texto
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de Web of Science | Conjuntos de datos jerárquicos para la clasificación de texto | Ninguno. | 46,985 | Texto | Clasificación, Categorización | 2017 | [223] [224] | K. Kowsari y col. |
Informes de casos legales | Casos del Tribunal Federal de Australia de 2006 a 2009. | Ninguno. | 4000 | Texto | Resumen, análisis de citas | 2012 | [225] [226] | F. Galgani y col. |
Corpus de autoría de Blogger | Entradas de blog de 19,320 personas de blogger.com. | Blogger autoproporcionado género, edad, industria y signo astrológico. | 681,288 | Texto | Análisis de sentimiento, resumen, clasificación | 2006 | [227] [228] | J. Schler y col. |
Estructura social de las redes de Facebook | Gran conjunto de datos de la estructura social de Facebook. | Ninguno. | 100 universidades cubiertas | Texto | Análisis de red, agrupación | 2012 | [229] [230] | A. Traud y col. |
Conjunto de datos para la comprensión automática de texto | Historias y preguntas asociadas para probar la comprensión del texto. | Ninguno. | 660 | Texto | Procesamiento del lenguaje natural, comprensión de la máquina. | 2013 | [231] [232] | M. Richardson y col. |
El Proyecto Penn Treebank | Texto de origen natural anotado para estructura lingüística. | El texto se analiza en árboles semánticos. | ~ 1 millón de palabras | Texto | Procesamiento de lenguaje natural, resumen | 1995 | [233] [234] | M. Marcus y col. |
Conjunto de datos DEXTER | La tarea asignada es determinar, a partir de las características dadas, qué artículos se refieren a adquisiciones corporativas. | Las características extraídas incluyen raíces de palabras. Incluye funciones de distractor. | 2600 | Texto | Clasificación | 2008 | [235] | Reuters |
N-gramas de Google Libros | N-gramas de un corpus de libros muy grande | Ninguno. | 2,2 TB de texto | Texto | Clasificación, agrupamiento, regresión | 2011 | [236] [237] | |
Personae Corpus | Recopilado para experimentos de atribución de autoría y predicción de personalidad. Consta de 145 ensayos en holandés. | Además de los textos normales, se proporcionan textos con anotaciones sintácticas. | 145 | Texto | Clasificación, regresión | 2008 | [238] [239] | K. Luyckx y col. |
Conjunto de datos CNAE-9 | Tarea de categorización para descripciones de texto libre de empresas brasileñas. | Se ha extraído la frecuencia de palabras. | 1080 | Texto | Clasificación | 2012 | [240] [241] | P. Ciarelli y col. |
Conjunto de datos de oraciones etiquetadas por sentimiento | 3000 frases etiquetadas con sentimiento. | El sentimiento de cada oración se ha etiquetado a mano como positivo o negativo. | 3000 | Texto | Clasificación, análisis de sentimiento | 2015 | [242] [243] | D. Kotzias |
BlogFeedback Dataset | Conjunto de datos para predecir la cantidad de comentarios que recibirá una publicación en función de las características de esa publicación. | Se extraen muchas características de cada publicación. | 60,021 | Texto | Regresión | 2014 | [244] [245] | K. Buza |
Corpus de inferencia del lenguaje natural de Stanford (SNLI) | Leyendas de imágenes combinadas con oraciones recién construidas para formar pares neutrales, contradictorios o vinculantes. | Etiquetas de clase de vinculación, análisis sintáctico por el analizador PCFG de Stanford | 570.000 | Texto | Inferencia del lenguaje natural / reconocimiento de la vinculación textual | 2015 | [246] | S. Bowman y col. |
Colección DSL Corpus (DSLCC) | Una colección multilingüe de extractos breves de textos periodísticos en idiomas y dialectos similares. | Ninguno | 294.000 frases | Texto | Discriminar entre idiomas similares | 2017 | [247] | Tan, Liling y col. |
Conjunto de datos de diccionario urbano | Corpus de palabras, votos y definiciones | Nombres de usuario anonimizados | 2,580,925 | CSV | PNL, comprensión de la máquina | 2016 mayo | [248] | Anónimo |
Tirano saurio Rex | Resúmenes de Wikipedia alineados con entidades de Wikidata | La alineación de Wikidata se triplica con los resúmenes de Wikipedia | 11M triples alineados | JSON y NIF [2] | PNL, extracción de relaciones | 2018 | [249] | H. Elsahar y col. |
Evaluación de comprensión del lenguaje general (GLUE) | Benchmark de nueve tareas | Varios | ~ 1 millón de oraciones y pares de oraciones | NLU | 2018 | [250] [251] | Wang y col. | |
Contract Understanding Atticus Dataset (CUAD) (anteriormente conocido como Atticus Open Contract Dataset (AOK)) | Conjunto de datos de contratos legales con abundantes anotaciones de expertos | ~ 13.000 etiquetas | CSV y PDF | Procesamiento de lenguaje natural, QnA | 2021 | El proyecto Atticus | ||
Conjunto de datos de subtítulos de imágenes vietnamitas (UIT-ViIC) | Conjunto de datos de subtítulos de imágenes vietnamitas | 19,250 subtítulos para 3,850 imágenes | CSV y PDF | Procesamiento del lenguaje natural, Visión por computadora | 2020 | [252] | Lam y col. | |
Nombres vietnamitas anotados con géneros (UIT-ViNames) | Nombres vietnamitas anotados con géneros | 26,850 nombres completos vietnamitas anotados con géneros | CSV | Procesamiento natural del lenguaje | 2020 | [253] | To et al. | |
Conjunto de datos de detección de habla tóxica y constructiva vietnamita (UIT-ViCTSD) | Conjunto de datos de detección de habla tóxica y constructiva vietnamita | 10,000 comentarios de usuarios vietnamitas en periódicos en línea en 10 dominios | CSV | Procesamiento natural del lenguaje | 2021 | [254] | Nguyen y col. | |
Conjunto de datos ColBERT | Chistes cortos. | Se eliminaron los valores atípicos. | 200.000 | Texto | Detección de humor, clasificación | 2020 | [255] | Annamoradnejad y col. |
Datos de sonido
Conjuntos de datos de sonidos y características de sonido.
Discurso
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Desafío de discurso de recursos cero 2015 | Habla espontánea (inglés), habla de lectura (Xitsonga). | wav crudo | Inglés: 5h, 12 hablantes; Xitsonga: 2h30; 24 ponentes | sonar | Descubrimiento no supervisado de características del habla / unidades de subpalabras / unidades de palabras | 2015 | [256] [257] | Versteegh y col. |
Conjunto de datos del habla de Parkinson | Múltiples grabaciones de personas con y sin enfermedad de Parkinson. | Características de voz extraídas, enfermedad calificada por el médico mediante una escala unificada de calificación de la enfermedad de Parkinson | 1.040 | Texto | Clasificación, regresión | 2013 | [258] [259] | BE Sakar y col. |
Dígitos hablados en árabe | Dígitos hablados en árabe de 44 hombres y 44 mujeres. | Serie temporal de coeficientes de cepstrum de frecuencia mel . | 8.800 | Texto | Clasificación | 2010 | [260] [261] | M. Bedda y col. |
Conjunto de datos ISOLET | Nombres de letras habladas. | Características extraídas de los sonidos. | 7797 | Texto | Clasificación | 1994 | [262] [263] | R. Cole y col. |
Conjunto de datos de vocales japonesas | Nueve hablantes masculinos pronunciaron dos vocales japonesas sucesivamente. | Se le aplicó un análisis de predicción lineal de 12 grados para obtener una serie de tiempo discreto con 12 coeficientes cepstrum. | 640 | Texto | Clasificación | 1999 | [264] [265] | M. Kudo y col. |
Conjunto de datos de telemonitorización de Parkinson | Múltiples grabaciones de personas con y sin enfermedad de Parkinson. | Características de sonido extraídas. | 5875 | Texto | Clasificación | 2009 | [266] [267] | A. Tsanas y col. |
TIMIT | Grabaciones de 630 hablantes de ocho dialectos principales del inglés americano, cada uno de los cuales lee diez oraciones fonéticamente ricas. | El habla se transcribe léxica y fonémicamente. | 6300 | Texto | Reconocimiento de voz, clasificación. | 1986 | [268] [269] | J. Garofolo y col. |
Corpus de habla árabe | Un corpus de voz de un solo hablante, árabe estándar moderno (MSA) con transcripciones fonéticas y ortográficas alineadas al nivel del fonema | El habla se transcribe ortográfica y fonéticamente con marcas de acento. | ~ 1900 | Texto, WAV | Síntesis de voz, reconocimiento de voz, alineación de corpus, logopedia, educación. | 2016 | [270] | N. Halabi |
Voz común | Una base de datos de dominio público de datos de fuentes colaborativas en una amplia gama de dialectos. | Validación por otros usuarios | Inglés: 1,118 horas | MP3 con los archivos de texto correspondientes | Reconocimiento de voz | Junio de 2017 (diciembre de 2019) | [271] | Mozilla |
Música
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Origen geográfico del conjunto de datos musicales | Funciones de audio de muestras de música de diferentes ubicaciones. | Funciones de audio extraídas mediante el software MARSYAS. | 1.059 | Texto | Clasificación geográfica, agrupación | 2014 | [272] [273] | F. Zhou y col. |
Conjunto de datos de millones de canciones | Funciones de audio de un millón de canciones diferentes. | Funciones de audio extraídas. | 1 M | Texto | Clasificación, agrupamiento | 2011 | [274] [275] | T. Bertin-Mahieux y col. |
MUSDB18 | Grabaciones de música popular multipista | Audio sin procesar | 150 | MP4, WAV | Separación de fuente | 2017 | [276] | Z. Rafii y col. |
Archivo de música gratis | Audio bajo Creative Commons de 100k canciones (343 días, 1TiB) con una jerarquía de 161 géneros, metadatos, datos de usuario, texto de forma libre. | Funciones de audio y audio sin procesar. | 106,574 | Texto, MP3 | Clasificación, recomendación | 2017 | [277] | M. Defferrard y col. |
Conjunto de datos de armonía coral de Bach | Acordes de coral de Bach. | Funciones de audio extraídas. | 5665 | Texto | Clasificación | 2014 | [278] [279] | D. Radicioni y col. |
Otros sonidos
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
UrbanSound | Grabaciones de sonido etiquetadas de sonidos como acondicionadores de aire, bocinas de automóviles y niños jugando. | Ordenado en carpetas por clase de eventos, así como metadatos en un archivo JSON y anotaciones en un archivo CSV. | 1.059 | Sonar ( WAV ) | Clasificación | 2014 | [280] [281] | J. Salamon y col. |
AudioSet | Fragmentos de sonido de 10 segundos de videos de YouTube y una ontología de más de 500 etiquetas. | Funciones de 128-d PCA'd VGG-ish cada 1 segundo. | 2,084,320 | Archivos de texto (CSV) y TensorFlow Record | Clasificación | 2017 | [282] | J. Gemmeke y col., Google |
Desafío de detección de audio de aves | Audio de estaciones de monitoreo ambiental, además de grabaciones colaborativas | 17.000+ | Clasificación | 2016 (2018) | [283] [284] | Queen Mary University y IEEE Signal Processing Society | ||
WSJ0 Hipster Ambient Mezclas | Audio de WSJ0 mezclado con ruido grabado en el Área de la Bahía de San Francisco | Clips de ruido adaptados a los clips WSJ0 | 28.000 | Sonido ( WAV ) | Separación de fuente de audio | 2019 | [285] | Wichern, G., et al., Whisper y MERL |
Cloto | 4.981 muestras de audio de 15 a 30 segundos de duración, cada muestra de audio tiene cinco subtítulos diferentes de ocho a 20 palabras de longitud. | 24,905 | Sonido ( WAV ) y texto ( CSV ) | Subtítulos de audio automatizados | 2020 | [286] [287] | K. Drossos, S. Lipping y T. Virtanen |
Datos de señal
Conjuntos de datos que contienen información de señales eléctricas que requieren algún tipo de procesamiento de señales para su posterior análisis.
Eléctrico
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de gusanos ingeniosos | Conjunto de datos que detalla la propagación del gusano Witty y las computadoras infectadas. | Dividir en un conjunto disponible públicamente y un conjunto restringido que contiene información más confidencial como encabezados IP y UDP. | 55,909 direcciones IP | Texto | Clasificación | 2004 | [288] [289] | Centro de análisis de datos de Internet aplicado |
Conjunto de datos de estimación de la presión arterial sin manguito | Señales vitales limpias de pacientes humanos que se pueden usar para estimar la presión arterial. | Se han limpiado los signos vitales de 125 Hz. | 12.000 | Texto | Clasificación, regresión | 2015 | [290] [291] | M. Kachuee y col. |
Conjunto de datos de deriva de matriz de sensor de gas | Mediciones de 16 sensores químicos utilizados en simulaciones para compensación de deriva. | Se proporciona una gran cantidad de funciones. | 13,910 | Texto | Clasificación | 2012 | [292] [293] | A. Vergara |
Conjunto de datos de servo | Datos que cubren las relaciones no lineales observadas en un circuito de servoamplificador. | Se dan los niveles de varios componentes en función de otros componentes. | 167 | Texto | Regresión | 1993 | [294] [295] | K. Ullrich |
Conjunto de datos UJIIndoorLoc-Mag | Base de datos de localización en interiores para probar sistemas de posicionamiento en interiores. Los datos se basan en campos magnéticos. | Entrene y pruebe las divisiones dadas. | 40.000 | Texto | Clasificación, regresión, agrupación | 2015 | [296] [297] | D. Rambla y col. |
Conjunto de datos de diagnóstico de unidades sin sensores | Señales eléctricas de motores con componentes defectuosos. | Características estadísticas extraídas. | 58.508 | Texto | Clasificación | 2015 | [298] [299] | M. Bator |
Rastreo de movimiento
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Computación portátil: Clasificación de posturas y movimientos corporales (PUC-Rio) | Personas que realizan cinco acciones estándar con rastreadores de movimiento. | Ninguno. | 165,632 | Texto | Clasificación | 2013 | [300] [301] | Pontificia Universidad Católica de Rio de Janeiro |
Conjunto de datos de segmentación de fase de gestos | Funciones extraídas de videos de personas que realizan varios gestos. | Las características extraídas tienen como objetivo estudiar la segmentación de la fase del gesto. | 9900 | Texto | Clasificación, agrupamiento | 2014 | [302] [303] | R. Madeo et a |
Conjunto de datos de conjunto de datos de acción física de Vicon | 10 acciones físicas normales y 10 agresivas que miden la actividad humana rastreada por un rastreador 3D. | Muchos parámetros registrados por el rastreador 3D. | 3000 | Texto | Clasificación | 2011 | [304] [305] | T. Theodoridis |
Conjunto de datos de actividades diarias y deportivas | Datos del sensor motor para 19 actividades diarias y deportivas. | Se han proporcionado muchos sensores, sin preprocesamiento de señales. | 9120 | Texto | Clasificación | 2013 | [306] [307] | B. Barshan y col. |
Reconocimiento de actividad humana mediante el conjunto de datos de teléfonos inteligentes | Datos de giroscopio y acelerómetro de personas que usan teléfonos inteligentes y realizan acciones normales. | Las acciones realizadas están etiquetadas, todas las señales preprocesadas para ruido. | 10,299 | Texto | Clasificación | 2012 | [308] [309] | J. Reyes-Ortiz y col. |
Signos del lenguaje de señas australiano | Signos de lenguaje de señas australiano capturados por guantes de seguimiento de movimiento. | Ninguno. | 2565 | Texto | Clasificación | 2002 | [310] [311] | M. Kadous |
Ejercicios de levantamiento de pesas monitoreados con unidades de medida inercial | Cinco variaciones del ejercicio de curl de bíceps monitoreados con IMU. | Algunas estadísticas calculadas a partir de datos brutos. | 39,242 | Texto | Clasificación | 2013 | [312] [313] | W. Ugulino y col. |
sEMG para el conjunto de datos básicos de movimientos manuales | Dos bases de datos de señales electromiográficas de superficie de 6 movimientos de la mano. | Ninguno. | 3000 | Texto | Clasificación | 2014 | [314] [315] | C. Sapsanis y col. |
Conjunto de datos de reconocimiento de actividad REALDISP | Evaluar técnicas que se ocupen de los efectos del desplazamiento del sensor en el reconocimiento de actividad portátil. | Ninguno. | 1419 | Texto | Clasificación | 2014 | [315] [316] | O. Banos y col. |
Conjunto de datos de reconocimiento de actividad de heterogeneidad | Datos de múltiples dispositivos inteligentes diferentes para humanos que realizan diversas actividades. | Ninguno. | 43,930,257 | Texto | Clasificación, agrupamiento | 2015 | [317] [318] | A. Stisen y col. |
Predicción del movimiento del usuario en interiores a partir de datos RSS | Datos de red inalámbrica temporal que se pueden utilizar para rastrear el movimiento de personas en una oficina. | Ninguno. | 13.197 | Texto | Clasificación | 2016 | [319] [320] | D. Bacciu |
Conjunto de datos de monitoreo de actividad física PAMAP2 | 18 tipos diferentes de actividades físicas realizadas por 9 sujetos que llevaban 3 IMU. | Ninguno. | 3.850.505 | Texto | Clasificación | 2012 | [321] | A. Reiss |
OPORTUNIDAD Conjunto de datos de reconocimiento de actividad | El reconocimiento de actividad humana a partir de sensores portátiles, de objetos y ambientales es un conjunto de datos diseñado para comparar los algoritmos de reconocimiento de la actividad humana. | Ninguno. | 2551 | Texto | Clasificación | 2012 | [322] [323] | D. Roggen y col. |
Conjunto de datos de reconocimiento de actividades del mundo real | Reconocimiento de actividad humana desde dispositivos portátiles. Distingue entre siete posiciones del dispositivo en el cuerpo y comprende seis tipos diferentes de sensores. | Ninguno. | 3,150,000 (por sensor) | Texto | Clasificación | 2016 | [324] | T. Sztyler y col. |
Conjunto de datos de pose de accidente cerebrovascular de rehabilitación de Toronto | Estimaciones de poses humanas en 3D (Kinect) de pacientes con accidente cerebrovascular y participantes sanos que realizan una serie de tareas utilizando un robot de rehabilitación de accidentes cerebrovasculares | Ninguno. | 10 personas sanas y 9 sobrevivientes de derrames cerebrales (3500-6000 cuadros por persona) | CSV | Clasificación | 2017 | [325] [326] [327] | E. Dolatabadi y col. |
Corpus of Social Touch (CoST) | 7805 capturas de gestos de 14 gestos táctiles sociales diferentes realizados por 31 sujetos. Los gestos se realizaron en tres variaciones: suave, normal y áspero, en una rejilla de sensor de presión envuelta alrededor de un brazo de maniquí. | Los gestos táctiles realizados están segmentados y etiquetados. | 7805 capturas de gestos | CSV | Clasificación | 2016 | [328] [329] | M. Jung y col. |
Otras señales
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de vino | Análisis químico de vinos cultivados en la misma región en Italia pero derivados de tres cultivares diferentes. | Se dan 13 propiedades de cada vino | 178 | Texto | Clasificación, regresión | 1991 | [330] [331] | M. Forina y col. |
Conjunto de datos de plantas de energía de ciclo combinado | Datos de varios sensores dentro de una planta de energía funcionando durante 6 años. | Ninguno | 9568 | Texto | Regresión | 2014 | [332] [333] | P. Tufekci y col. |
Datos físicos
Conjuntos de datos de sistemas físicos.
Física de altas energías
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos HIGGS | Simulaciones de Monte Carlo de colisiones de aceleradores de partículas. | Se dan 28 características de cada colisión. | 11M | Texto | Clasificación | 2014 | [334] [335] [336] | D. Whiteson |
Conjunto de datos HEPMASS | Simulaciones de Monte Carlo de colisiones de aceleradores de partículas. El objetivo es separar la señal del ruido. | Se dan 28 características de cada colisión. | 10,500,000 | Texto | Clasificación | 2016 | [335] [336] [337] | D. Whiteson |
Sistemas
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de hidrodinámica de yates | Rendimiento del yate basado en dimensiones. | Se dan seis características para cada yate. | 308 | Texto | Regresión | 2013 | [338] [339] | R. López |
Conjunto de datos de fallos de ejecución de robots | 5 conjuntos de datos que se centran en la falla robótica para ejecutar tareas comunes. | Características con valores enteros, como el par y otras medidas del sensor. | 463 | Texto | Clasificación | 1999 | [340] | L. Seabra y col. |
Conjunto de datos de puentes de Pittsburgh | La descripción del diseño se da en términos de varias propiedades de varios puentes. | Se dan varias características del puente. | 108 | Texto | Clasificación | 1990 | [341] [342] | Y. Reich y col. |
Conjunto de datos de automóviles | Datos sobre automóviles, su riesgo de seguro y sus pérdidas normalizadas. | Características del coche extraídas. | 205 | Texto | Regresión | 1987 | [343] [344] | J. Schimmer y col. |
Conjunto de datos de MPG automático | Datos de MPG para automóviles. | Ocho características de cada coche dadas. | 398 | Texto | Regresión | 1993 | [345] | Universidad de Carnegie mellon |
Conjunto de datos de eficiencia energética | Requisitos de calefacción y refrigeración dados en función de los parámetros del edificio. | Parámetros de construcción dados. | 768 | Texto | Clasificación, regresión | 2012 | [346] [347] | A. Xifara y col. |
Conjunto de datos de ruido propio de la superficie aerodinámica | Una serie de pruebas aerodinámicas y acústicas de secciones de palas aerodinámicas de dos y tres dimensiones. | Se proporcionan datos sobre frecuencia, ángulo de ataque, etc. | 1503 | Texto | Regresión | 2014 | [348] | R. López |
Conjunto de datos de juntas tóricas del transbordador espacial Challenger USA | Intente predecir problemas de juntas tóricas dados los datos anteriores del Challenger. | Se dan varias características de cada vuelo, como la temperatura de lanzamiento. | 23 | Texto | Regresión | 1993 | [349] [350] | D. Draper y col. |
Conjunto de datos Statlog (Shuttle) | Conjuntos de datos del transbordador espacial de la NASA. | Nueve características dadas. | 58.000 | Texto | Clasificación | 2002 | [351] | NASA |
Astronomía
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Volcanes en Venus - Conjunto de datos del experimento JARtool | Imágenes de Venus devueltas por la nave espacial Magellan. | Las imágenes están etiquetadas por humanos. | no dado | Imagenes | Clasificación | 1991 | [352] [353] | M. Burl |
Conjunto de datos del telescopio gamma MAGIC | Monte Carlo generó eventos de partículas gamma de alta energía. | Numerosas características extraídas de las simulaciones. | 19,020 | Texto | Clasificación | 2007 | [353] [354] | R. Bock |
Conjunto de datos de llamaradas solares | Mediciones del número de ciertos tipos de eventos de llamaradas solares que ocurren en un período de 24 horas. | Se dan muchas características específicas de las erupciones solares. | 1389 | Texto | Regresión, clasificación | 1989 | [355] | G. Bradshaw |
Ciencia de la Tierra
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Volcanes del mundo | Datos de erupciones volcánicas para todos los eventos volcánicos conocidos en la tierra. | Se dan detalles tales como región, subregión, entorno tectónico, tipo de roca dominante. | 1535 | Texto | Regresión, clasificación | 2013 | [356] | E. Venzke y col. |
Conjunto de datos de golpes sísmicos | Actividades sísmicas de una mina de carbón. | La actividad sísmica se clasificó como peligrosa o no. | 2584 | Texto | Clasificación | 2013 | [357] [358] | M. Sikora y col. |
Otro físico
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de resistencia a la compresión del hormigón | Conjunto de datos de propiedades del hormigón y resistencia a la compresión. | Se dan nueve características para cada muestra. | 1030 | Texto | Regresión | 2007 | [359] [360] | Yo, yeh |
Conjunto de datos de prueba de asentamiento de hormigón | Flujo de asentamiento del hormigón expresado en términos de propiedades. | Características del hormigón dadas como cenizas volantes, agua, etc. | 103 | Texto | Regresión | 2009 | [361] [362] | Yo, yeh |
Conjunto de datos de Musk | Predice si una molécula, dadas las características, será almizclada o no almizclada. | 168 características dadas para cada molécula. | 6598 | Texto | Clasificación | 1994 | [363] | Arris Pharmaceutical Corp. |
Conjunto de datos de fallas de placas de acero | Placas de acero de 7 tipos diferentes. | 27 características dadas para cada muestra. | 1941 | Texto | Clasificación | 2010 | [364] | Centro de Investigación Semeion |
Datos biologicos
Conjuntos de datos de sistemas biológicos.
Humano
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Base de datos de EEG | Estudio para examinar los correlatos de EEG de predisposición genética al alcoholismo. | Mediciones de 64 electrodos colocados en el cuero cabelludo muestreados a 256 Hz (época de 3,9 ms) durante 1 segundo. | 122 | Texto | Clasificación | 1999 | [365] | H. Begleiter |
Conjunto de datos de interfaz P300 | Datos de nueve sujetos recopilados mediante la interfaz cerebro-computadora basada en P300 para sujetos discapacitados. | Dividir en cuatro sesiones para cada tema. Se proporciona el código MATLAB . | 1.224 | Texto | Clasificación | 2008 | [366] [367] | U. Hoffman y col. |
Conjunto de datos de enfermedades cardíacas | Atribuido de pacientes con y sin cardiopatía. | 75 atributos dados para cada paciente con algunos valores perdidos. | 303 | Texto | Clasificación | 1988 | [368] [369] | A. Janosi y col. |
Conjunto de datos (diagnóstico) de cáncer de mama de Wisconsin | Conjunto de datos de características de masas mamarias. Se dan los diagnósticos por parte del médico. | Se dan 10 características para cada muestra. | 569 | Texto | Clasificación | 1995 | [370] [371] | W. Wolberg y col. |
Encuesta Nacional sobre el Uso de Drogas y la Salud | Encuesta a gran escala sobre salud y consumo de drogas en Estados Unidos. | Ninguno. | 55.268 | Texto | Clasificación, regresión | 2012 | [372] | Departamento de Salud y Servicios Humanos de los Estados Unidos |
Conjunto de datos de cáncer de pulmón | Conjunto de datos de cáncer de pulmón sin definiciones de atributos | Se dan 56 características para cada caso | 32 | Texto | Clasificación | 1992 | [373] [374] | Z. Hong y col. |
Conjunto de datos de arritmias | Datos de un grupo de pacientes, algunos de los cuales tienen arritmia cardíaca. | 276 funciones para cada instancia. | 452 | Texto | Clasificación | 1998 | [375] [376] | H. Altay y col. |
Diabetes 130 hospitales de EE. UU. Durante los años 1999-2008 Conjunto de datos | 9 años de datos de readmisión en 130 hospitales de EE. UU. Para pacientes con diabetes. | Se dan muchas características de cada readmisión. | 100.000 | Texto | Clasificación, agrupamiento | 2014 | [377] [378] | J. Clore y col. |
Retinopatía diabética Conjunto de datos de Debrecen | Características extraídas de imágenes de ojos con y sin retinopatía diabética. | Características extraídas y condiciones diagnosticadas. | 1151 | Texto | Clasificación | 2014 | [379] [380] | B. Antal y col. |
Conjunto de datos Messidor de retinopatía diabética | Métodos para evaluar técnicas de segmentación e indexación en el campo de la oftalmología retiniana (MESSIDOR) | Presenta grado de retinopatía y riesgo de edema macular. | 1200 | Imágenes, texto | Clasificación, segmentación | 2008 | [381] [382] | Proyecto Messidor |
Conjunto de datos de trastornos hepáticos | Datos para personas con trastornos hepáticos. | Siete características biológicas dadas para cada paciente. | 345 | Texto | Clasificación | 1990 | [383] [384] | Bupa Medical Research Ltd. |
Conjunto de datos de enfermedades de la tiroides | 10 bases de datos de datos de pacientes con enfermedades de la tiroides. | Ninguno. | 7200 | Texto | Clasificación | 1987 | [385] [386] | R. Quinlan |
Conjunto de datos de mesotelioma | Datos de pacientes con mesotelioma. | Se dan una gran cantidad de características, incluida la exposición al asbesto. | 324 | Texto | Clasificación | 2016 | [387] [388] | A. Tanrikulu y col. |
Conjunto de datos de estimación de pose basada en la visión de Parkinson | Estimaciones de pose humana 2D de los pacientes de Parkinson que realizan una variedad de tareas. | El movimiento de la cámara se ha eliminado de las trayectorias. | 134 | Texto | Clasificación, regresión | 2017 | [389] [390] [391] | M. Li y col. |
Conjunto de datos de la red de reacción metabólica de KEGG (no dirigida) | Red de vías metabólicas. Se dan una red de reacción y una red de relación . | Se proporcionan características detalladas para cada nodo de red y ruta. | 65,554 | Texto | Clasificación, agrupamiento, regresión | 2011 | [392] | M. Naeem y col. |
Conjunto de datos de análisis de morfología de esperma humano modificado (MHSMA) | Imágenes de esperma humano de 235 pacientes con infertilidad por factor masculino, etiquetadas para acrosoma, cabeza, vacuola y cola de espermatozoides normales o anormales. | Recortada alrededor de la cabeza de un solo espermatozoide. Aumento normalizado. Se crearon divisiones de conjuntos de entrenamiento, validación y prueba. | 1,540 | archivos .npy | Clasificación | 2019 | [393] [394] | S. Javadi y SA Mirroshandel |
Animal
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de abulón | Medidas físicas del abulón. También se dan los patrones climáticos y la ubicación. | Ninguno. | 4177 | Texto | Regresión | 1995 | [395] | Laboratorios de investigación marina - Taroona |
Conjunto de datos del zoológico | Conjunto de datos artificiales que cubren 7 clases de animales. | Los animales se clasifican en 7 categorías y se dan características para cada una. | 101 | Texto | Clasificación | 1990 | [396] | R. Forsyth |
Conjunto de datos de Demospongiae | Datos sobre esponjas marinas. | 503 esponjas de la clase Demosponge se describen mediante varias características. | 503 | Texto | Clasificación | 2010 | [397] | E. Armengol y col. |
Conjunto de datos de secuencias de genes de empalme-unión | Secuencias de genes de empalme-unión (ADN) de primates con la teoría del dominio imperfecto asociado. | Ninguno. | 3190 | Texto | Clasificación | 1992 | [374] | G. Towell y col. |
Conjunto de datos de expresión de proteínas de ratones | Niveles de expresión de 77 proteínas medidos en la corteza cerebral de ratones. | Ninguno. | 1080 | Texto | Clasificación, agrupación | 2015 | [398] [399] | C. Higuera y col. |
Hongos
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de hongos UCI | Atributos y clasificación de los hongos. | Se dan muchas propiedades de cada hongo. | 8124 | Texto | Clasificación | 1987 | [400] | J. Schlimmer |
Conjunto de datos de hongos secundarios | Atributos y clasificación de los hongos | Datos simulados de entradas de hongos primarios más grandes y realistas. Totalmente reproducible. | 61069 | Texto | Clasificación | 2020 | [401] [402] | D. Wagner y col. |
Planta
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de incendios forestales | Los incendios forestales y sus propiedades. | Se extraen 13 características de cada fuego. | 517 | Texto | Regresión | 2008 | [403] [404] | P. Cortez y col. |
Conjunto de datos de iris | Tres tipos de plantas de iris se describen mediante 4 atributos diferentes. | Ninguno. | 150 | Texto | Clasificación | 1936 | [405] [406] | R. Fisher |
Conjunto de datos de hojas de especies de plantas | Dieciséis muestras de hojas cada una de cien especies de plantas. | Se proporcionan el descriptor de forma, el margen de escala fina y los histogramas de textura. | 1600 | Texto | Clasificación | 2012 | [407] [408] | J. Cope y col. |
Conjunto de datos de soja | Base de datos de plantas de soja enfermas. | Se dan 35 características para cada planta. Las plantas se clasifican en 19 categorías. | 307 | Texto | Clasificación | 1988 | [409] | R. Michalski y col. |
Conjunto de datos de semillas | Mediciones de propiedades geométricas de granos pertenecientes a tres variedades diferentes de trigo. | Ninguno. | 210 | Texto | Clasificación, agrupamiento | 2012 | [410] [411] | Charytanowicz y col. |
Conjunto de datos Covertype | Datos para predecir el tipo de cobertura forestal estrictamente a partir de variables cartográficas. | Se dan muchas características geográficas. | 581,012 | Texto | Clasificación | 1998 | [412] [413] | J. Blackard y col. |
Conjunto de datos de red de señalización de ácido abscísico | Datos para una red de señalización de planta. El objetivo es determinar el conjunto de reglas que gobiernan la red. | Ninguno. | 300 | Texto | Descubrimiento causal | 2008 | [414] | J. Jenkens y col. |
Conjunto de datos en folio | 20 fotos de hojas para cada una de las 32 especies. | Ninguno. | 637 | Imágenes, texto | Clasificación, agrupamiento | 2015 | [415] [416] | T. Munisami y col. |
Conjunto de datos de flores de Oxford | Conjunto de datos de 17 categorías de flores. | Divisiones de entrenamiento / prueba, imágenes etiquetadas, | 1360 | Imágenes, texto | Clasificación | 2006 | [138] [417] | ME Nilsback y col. |
Conjunto de datos de plántulas de plantas | Conjunto de datos de 12 categorías de plántulas de plantas. | Imágenes etiquetadas, imágenes segmentadas, | 5544 | Imagenes | Clasificación, detección | 2017 | [418] | Giselsson y col. |
Conjunto de datos de Fruits 360 | Base de datos con imágenes de 120 frutas y verduras. | 100x100 píxeles, fondo blanco. | 82213 | Imágenes (jpg) | Clasificación | 2017-2019 | [419] [420] | Mihai Oltean, Horea Muresan |
Microbio
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de Ecoli | Sitios de localización de proteínas. | Se dan varias características de los sitios de localización de proteínas. | 336 | Texto | Clasificación | 1996 | [421] [422] | K. Nakai y col. |
Conjunto de datos de MicroMass | Identificación de microorganismos a partir de datos de espectrometría de masas. | Varias características del espectrómetro de masas. | 931 | Texto | Clasificación | 2013 | [423] [424] | P. Mahe y col. |
Conjunto de datos de levadura | Predicciones de sitios de localización celular de proteínas. | Ocho características dadas por instancia. | 1484 | Texto | Clasificación | 1996 | [425] [426] | K. Nakai y col. |
Descubrimiento de medicamento
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos Tox21 | Predicción del resultado de ensayos biológicos. | Se dan descriptores químicos de moléculas. | 12707 | Texto | Clasificación | 2016 | [427] | A. Mayr y col. |
Datos de anomalías
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Numenta Anomaly Benchmark (NAB) | Los datos son métricas ordenadas, con sello de tiempo y de un solo valor. Todos los archivos de datos contienen anomalías, a menos que se indique lo contrario. | Ninguno | 50+ archivos | Valores Separados por Comas | Detección de anomalías | 2016 (actualizado continuamente) | [428] | Numenta |
Benchmark de anomalías de Skoltech (SKAB) | Cada archivo representa un único experimento y contiene una única anomalía. El conjunto de datos representa una serie de tiempo multivariante recopilada de los sensores instalados en el banco de pruebas. | Hay dos marcas para problemas de detección de valores atípicos (anomalías puntuales) y detección de puntos de cambio (anomalías colectivas) | 30+ archivos (v0.9) | Valores Separados por Comas | Detección de anomalías | 2020 (actualizado continuamente) | [429] [430] | Iurii D. Katser y Vyacheslav O. Kozitsin |
Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico | La mayoría de los archivos de datos están adaptados de los datos del Repositorio de aprendizaje automático de la UCI, algunos se recopilan de la literatura. | tratado por valores perdidos, atributos numéricos solamente, diferentes porcentajes de anomalías, etiquetas | 1000+ archivos | ARFF | Detección de anomalías | 2016 (posiblemente actualizado con nuevos conjuntos de datos y / o resultados) | [431] | Campos y col. |
Pregunta Respuesta datos
Esta sección incluye conjuntos de datos que tratan con datos estructurados.
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de respuesta a preguntas neuronales de DBpedia (DBNQA) | Una gran colección de Question to SPARQL especialmente diseñada para Respuesta a preguntas neuronales de dominio abierto sobre la base de conocimiento DBpedia. | Este conjunto de datos contiene una gran colección de plantillas e instancias de Open Neural SPARQL para entrenar máquinas Neural SPARQL; fue procesado previamente por herramientas de anotación semiautomáticas, así como por tres expertos de SPARQL. | 894,499 | Pares pregunta-consulta | Respuesta a preguntas | 2018 | [432] [433] | Hartmann, Soru y Marx et al. |
Conjunto de datos de respuesta a preguntas vietnamitas (UIT-ViQuAD) | Una gran colección de preguntas vietnamitas para evaluar los modelos MRC. | Este conjunto de datos comprende más de 23,000 pares de preguntas y respuestas generados por humanos basados en 5,109 pasajes de 174 artículos vietnamitas de Wikipedia. | 23,074 | Pares de preguntas y respuestas | Respuesta a preguntas | 2020 | [434] | Nguyen y col. |
Corpus vietnamita de comprensión de lectura de máquina de opción múltiple (ViMMRC) | Una colección de preguntas vietnamitas de opción múltiple para evaluar los modelos MRC. | Este corpus incluye 2.783 preguntas vietnamitas de opción múltiple. | 2,783 | Pares de preguntas y respuestas | Respuesta a preguntas / Comprensión de lectura automática | 2020 | [435] | Nguyen y col. |
Datos multivariados
Conjuntos de datos que consisten en filas de observaciones y columnas de atributos que caracterizan esas observaciones. Normalmente se utiliza para análisis de regresión o clasificación, pero también se pueden utilizar otros tipos de algoritmos. Esta sección incluye conjuntos de datos que no encajan en las categorías anteriores.
Financiero
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Índice Dow Jones | Datos semanales de existencias del primer y segundo trimestre de 2011. | Se incluyen los valores calculados, como el cambio porcentual y los retrasos. | 750 | Valores Separados por Comas | Clasificación, regresión, series de tiempo | 2014 | [436] [437] | M. Brown y col. |
Statlog (Aprobación de crédito australiano) | Solicitudes de tarjetas de crédito aceptadas o rechazadas y atributos sobre la solicitud. | Se eliminan los nombres de los atributos y la información de identificación. Los factores se han vuelto a etiquetar. | 690 | Valores Separados por Comas | Clasificación | 1987 | [438] [439] | R. Quinlan |
Datos de la subasta de eBay | Datos de subasta de varios objetos de eBay.com en subastas de diferentes tamaños | Contiene todas las pujas, bidderID, tiempos de puja y precios de apertura. | ~ 550 | Texto | Regresión, clasificación | 2012 | [440] [441] | G. Shmueli y col. |
Statlog (datos crediticios alemanes) | Clasificación crediticia binaria en "buena" o "mala" con muchas características | Se dan varias características financieras de cada persona. | 690 | Texto | Clasificación | 1994 | [442] | H. Hofmann |
Conjunto de datos de marketing bancario | Datos de una gran campaña de marketing realizada por un gran banco. | Se dan muchos atributos de los clientes contactados. Si el cliente suscrito al banco también se da. | 45,211 | Texto | Clasificación | 2012 | [443] [444] | S. Moro y col. |
Conjunto de datos de la Bolsa de Valores de Estambul | Varios índices bursátiles rastreados durante casi dos años. | Ninguno. | 536 | Texto | Clasificación, regresión | 2013 | [445] [446] | O. Akbilgic |
Incumplimiento de clientes de tarjetas de crédito | Datos de incumplimiento crediticio para acreedores taiwaneses. | Se dan varias características sobre cada cuenta. | 30.000 | Texto | Clasificación | 2016 | [447] [448] | Yo, yeh |
Tiempo
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos en la nube | Datos sobre 1024 nubes diferentes. | Características de la imagen extraídas. | 1024 | Texto | Clasificación, agrupamiento | 1989 | [449] | P. Collard |
Conjunto de datos de El Niño | Lecturas oceanográficas y meteorológicas de superficie tomadas de una serie de boyas ubicadas a lo largo del Pacífico ecuatorial. | Se miden 12 atributos meteorológicos en cada boya. | 178080 | Texto | Regresión | 1999 | [450] | Laboratorio Ambiental Marino del Pacífico |
Conjunto de datos de la red de observación de gases de efecto invernadero | Serie de tiempo de concentraciones de gases de efecto invernadero en 2921 celdas de cuadrícula en California creadas usando simulaciones del clima. | Ninguno. | 2921 | Texto | Regresión | 2015 | [451] | D. Lucas |
CO2 atmosférico de muestras de aire continuas en el Observatorio Mauna Loa | Muestras de aire continuas en Hawái, EE. UU. 44 años de récords. | Ninguno. | 44 años | Texto | Regresión | 2001 | [452] | Observatorio Mauna Loa |
Conjunto de datos de ionosfera | Datos de radar de la ionosfera. La tarea consiste en clasificar en buenos y malos resultados de radar. | Se dan muchas características de radar. | 351 | Texto | Clasificación | 1989 | [386] [453] | Universidad Johns Hopkins |
Conjunto de datos de detección de nivel de ozono | Dos conjuntos de datos de nivel de ozono terrestre. | Se proporcionan muchas características, incluidas las condiciones meteorológicas en el momento de la medición. | 2536 | Texto | Clasificación | 2008 | [454] [455] | K. Zhang y col. |
Censo
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos para adultos | Datos del censo de 1994 que contienen características demográficas de los adultos y sus ingresos. | Limpio y anonimizado. | 48,842 | Valores Separados por Comas | Clasificación | 1996 | [456] | Oficina del censo de Estados Unidos |
Ingresos del censo (KDD) | Datos censales ponderados de las Encuestas de población actual de 1994 y 1995 . | Dividir en conjuntos de entrenamiento y prueba. | 299,285 | Valores Separados por Comas | Clasificación | 2000 | [457] [458] | Oficina del censo de Estados Unidos |
Base de datos del censo de IPUMS | Datos del censo de las áreas de Los Ángeles y Long Beach. | Ninguno | 256,932 | Texto | Clasificación, regresión | 1999 | [459] | IPUMS |
Datos del censo de EE. UU. 1990 | Datos parciales del censo estadounidense de 1990. | Resultados aleatorios y atributos útiles seleccionados. | 2,458,285 | Texto | Clasificación, regresión | 1990 | [460] | Oficina del censo de Estados Unidos |
Tránsito
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de bicicletas compartidas | Recuento diario y horario de bicicletas de alquiler en una gran ciudad. | Se proporcionan muchas características, incluido el clima, la duración del viaje, etc. | 17.389 | Texto | Regresión | 2013 | [461] [462] | H. Fanaee-T |
Datos de viajes en taxi de la ciudad de Nueva York | Datos de viaje para taxis amarillos y verdes en la ciudad de Nueva York. | Ofrece lugares para recoger y dejar, tarifas y otros detalles de los viajes. | 6 años | Texto | Clasificación, agrupamiento | 2015 | [463] | Comisión de taxis y limusinas de la ciudad de Nueva York |
Trayectoria del servicio de taxi ECML PKDD | Trayectorias de todos los taxis en una gran ciudad. | Se ofrecen muchas funciones, incluidos los puntos de inicio y finalización. | 1,710,671 | Texto | Agrupación, descubrimiento causal | 2015 | [464] [465] | M. Ferreira y col. |
METR-LA | Velocidad de los detectores de bucle en la carretera del condado de Los Ángeles. | Velocidad promedio en pasos de tiempo de 5 minutos. | 7.094.304 de 207 sensores y 34.272 pasos de tiempo | Valores Separados por Comas | Regresión, pronóstico | 2014 | [466] | Jagadish y col. |
PeMS | Velocidad, flujo, ocupación y otras métricas de detectores de bucle y otros sensores en la autopista del estado de California, EE. UU. | La métrica generalmente se agrega a través de Promedio en pasos de tiempo de 5 minutos. | 39.000 detectores individuales, cada uno con años de series temporales | Valores Separados por Comas | Regresión, previsión, predicción inmediata, interpolación | (actualizado en tiempo real) | [467] | Departamento de Transporte de California |
Internet
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Páginas web de Common Crawl 2012 | Gran colección de páginas web y cómo están conectadas a través de hipervínculos. | Ninguno. | 3,5 mil millones | Texto | agrupamiento, clasificación | 2013 | [468] | V. Granville |
Conjunto de datos de anuncios en Internet | Conjunto de datos para predecir si una imagen dada es un anuncio o no. | Las funciones codifican la geometría de los anuncios y las frases que aparecen en la URL. | 3279 | Texto | Clasificación | 1998 | [469] [470] | N. Kushmerick |
Conjunto de datos de uso de Internet | Demografía general de los usuarios de Internet. | Ninguno. | 10,104 | Texto | Clasificación, agrupamiento | 1999 | [471] | D. Cocinar |
Conjunto de datos de URL | 120 días de datos de URL de una gran conferencia. | Se proporcionan muchas características de cada URL. | 2,396,130 | Texto | Clasificación | 2009 | [472] [473] | J. Ma |
Conjunto de datos de sitios web de phishing | Conjunto de datos de sitios web de phishing. | Se dan muchas características de cada sitio. | 2456 | Texto | Clasificación | 2015 | [474] | R. Mustafa y col. |
Conjunto de datos minoristas en línea | Transacciones en línea para un minorista en línea del Reino Unido. | Detalles de cada transacción dada. | 541,909 | Texto | Clasificación, agrupamiento | 2015 | [475] | D. Chen |
Volcado de tema simple de Freebase | Freebase es un esfuerzo en línea para estructurar todo el conocimiento humano. | Se han extraído temas de Freebase. | grande | Texto | Clasificación, agrupamiento | 2011 | [476] [477] | Freebase |
Conjunto de datos de anuncios agrícolas | El texto de los anuncios agrícolas de los sitios web. Se otorga aprobación o desaprobación binaria por parte de los propietarios del contenido. | SVMlight vectores dispersos de palabras de texto en anuncios calculados. | 4143 | Texto | Clasificación | 2011 | [478] [479] | C. Masterharm y col. |
Juegos
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de mano de póquer | 5 manos de cartas de una baraja estándar de 52 cartas. | Se dan los atributos de cada mano, incluidas las manos de póquer formadas por las cartas que contiene. | 1.025.010 | Texto | Regresión, clasificación | 2007 | [480] | R. Cattral |
Conjunto de datos Connect-4 | Contiene todas las posiciones legales de 8 capas en el juego de conectar 4 en las que ningún jugador ha ganado todavía y en las que no se fuerza el siguiente movimiento. | Ninguno. | 67,557 | Texto | Clasificación | 1995 | [481] | J. Tromp |
Conjunto de datos de ajedrez (King-Rook vs. King) | Base de datos de Endgame para White King y Rook contra Black King. | Ninguno. | 28,056 | Texto | Clasificación | 1994 | [482] [483] | M. Bain y col. |
Conjunto de datos de ajedrez (rey-torre frente a rey-peón) | Rey + Torre contra Rey + Peón en a7. | Ninguno. | 3196 | Texto | Clasificación | 1989 | [484] | R. Holte |
Conjunto de datos de finales de Tic-Tac-Toe | Clasificación binaria para condiciones de victoria en tic-tac-toe. | Ninguno. | 958 | Texto | Clasificación | 1991 | [485] | D. Ajá |
Otro multivariado
Nombre del conjunto de datos | Breve descripción | Preprocesamiento | Instancias | Formato | Tarea predeterminada | Creado (actualizado) | Referencia | Creador |
---|---|---|---|---|---|---|---|---|
Conjunto de datos de vivienda | Valores medios de las viviendas de Boston con atributos asociados de viviendas y vecindarios. | Ninguno. | 506 | Texto | Regresión | 1993 | [486] | D. Harrison y col. |
Los vocabularios de Getty | terminología estructurada para el arte y otra cultura material, materiales de archivo, sustitutos visuales y materiales bibliográficos. | Ninguno. | grande | Texto | Clasificación | 2015 | [487] | Centro Getty |
Yahoo! Página principal Registro de clic del usuario del módulo Hoy | Registro de clics del usuario para los artículos de noticias que se muestran en la pestaña Destacados del Módulo Hoy en Yahoo! Página delantera. | Análisis conjunto con un modelo bilineal. | 45,811,883 visitas de usuarios | Texto | Regresión, agrupamiento | 2009 | [488] [489] | Chu y col. |
Centro Británico de Datos Oceanográficos | Datos biológicos, químicos, físicos y geofísicos de los océanos. 22K variables rastreadas. | Varios. | 22K variables, muchas instancias | Texto | Regresión, agrupamiento | 2015 | [490] | Centro Británico de Datos Oceanográficos |
Conjunto de datos de registros de votación del Congreso | Datos de votación de todos los representantes de EE. UU. En 16 temas. | Más allá de los datos de votación sin procesar, se proporcionan otras características. | 435 | Texto | Clasificación | 1987 | [491] | J. Schlimmer |
Entree Conjunto de datos de recomendaciones de Chicago | Registro de interacciones del usuario con el sistema de recomendación de Entree Chicago. | Los detalles del uso de la aplicación por parte de cada usuario se registran en detalle. | 50,672 | Texto | Regresión, recomendación | 2000 | [492] | R. Burke |
Benchmark de la compañía de seguros (COIL 2000) | Información sobre clientes de una compañía de seguros. | Muchas características de cada cliente y los servicios que utiliza. | 9.000 | Texto | Regresión, clasificación | 2000 | [493] [494] | P. van der Putten |
Conjunto de datos de vivero | Datos de postulantes a guarderías. | Se incluyen datos sobre la familia del solicitante y varios otros factores. | 12,960 | Texto | Clasificación | 1997 | [495] [496] | V. Rajkovic y col. |
Conjunto de datos universitarios | Datos que describen atribuidos de un gran número de universidades. | Ninguno. | 285 | Texto | Agrupación, clasificación | 1988 | [497] | S. Sounders y col. |
Conjunto de datos del centro de servicio de transfusión de sangre | Datos del centro de servicio de transfusión de sangre. Proporciona datos sobre la tasa de retorno de los donantes, la frecuencia, etc. | Ninguno. | 748 | Texto | Clasificación | 2008 | [498] [499] | Yo, yeh |
Conjunto de datos de patrones de comparación de vínculos de registros | Gran conjunto de datos de registros. La tarea consiste en vincular los registros relevantes. | Se aplicó el procedimiento de bloqueo para seleccionar solo ciertos pares de registros. | 5.749.132 | Texto | Clasificación | 2011 | [500] [501] | Universidad de Mainz |
Conjunto de datos de Nomao | Nomao recopila datos sobre lugares de muchas fuentes diferentes. La tarea consiste en detectar elementos que describan el mismo lugar. | Duplicados etiquetados. | 34,465 | Texto | Clasificación | 2012 | [502] [503] | Laboratorios Nomao |
Conjunto de datos de películas | Datos para 10,000 películas. | Se dan varias características para cada película. | 10,000 | Texto | Agrupación, clasificación | 1999 | [504] | G. Wiederhold |
Conjunto de datos de análisis de aprendizaje de Open University | Información sobre los estudiantes y sus interacciones con un entorno de aprendizaje virtual. | Ninguno. | ~ 30 000 | Texto | Clasificación, agrupamiento, regresión | 2015 | [505] [506] | J. Kuzilek y col. |
Registros de teléfonos móviles | Actividad e interacciones de telecomunicaciones | Agregación por celdas de la cuadrícula geográfica y cada 15 minutos. | grande | Texto | Clasificación, agrupamiento, regresión | 2015 | [507] | G. Barlacchi y col. |
Repositorios seleccionados de conjuntos de datos
Dado que los conjuntos de datos vienen en innumerables formatos y, a veces, pueden ser difíciles de usar, se ha realizado un trabajo considerable para seleccionar y estandarizar el formato de los conjuntos de datos para que sean más fáciles de usar para la investigación del aprendizaje automático.
- OpenML: [508] Plataforma web con Python, R, Java y otras API para descargar cientos de conjuntos de datos de aprendizaje automático, evaluar algoritmos en conjuntos de datos y comparar el rendimiento del algoritmo con docenas de otros algoritmos.
- PMLB: [509] Un gran repositorio curado de conjuntos de datos de referencia para evaluar algoritmos de aprendizaje automático supervisados. Proporciona conjuntos de datos de clasificación y regresión en un formato estandarizado a los que se puede acceder a través de una API de Python.
- Metatext NLP: https://metatext.io/datasets repositorio web mantenido por la comunidad, que contiene casi 1000 conjuntos de datos de referencia y contando. Proporciona muchas tareas, desde clasificación hasta control de calidad, y varios idiomas, desde inglés, portugués hasta árabe.
- Appen : Off The Shelf y conjuntos de datos de código abierto alojados y mantenidos por la empresa. Estos recursos biológicos, de imagen, físicos, de respuesta a preguntas, señal, sonido, texto y video suman más de 250 y se pueden aplicar a más de 25 casos de uso diferentes. [510] [511]
Ver también
- Comparación de software de aprendizaje profundo
- Lista de herramientas manuales de anotación de imágenes
- Lista de bases de datos biológicas
Referencias
- ^ Wissner-Gross, A. "Conjuntos de datos sobre algoritmos" . Edge.com . Consultado el 8 de enero de 2016 .
- ^ Weiss, GM; Provost, F. (1 de septiembre de 2003). "Aprender cuando los datos de formación son costosos: el efecto de la distribución de clases en la inducción de árboles" . Revista de Investigación en Inteligencia Artificial . Fundación AI Access. 19 : 315–354. doi : 10.1613 / jair.1199 . ISSN 1076-9757 . S2CID 2344521 .
- ^ Turney, Peter (2000). "Tipos de costo en el aprendizaje de conceptos inductivos". arXiv : cs / 0212034 .
- ^ Abney, Steven (17 de septiembre de 2007). Aprendizaje semisupervisado para lingüística computacional . Prensa CRC. ISBN 978-1-4200-1080-0.
- ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Aprendizaje activo con la evolución de la transmisión de datos". Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Berlín, Heidelberg: Springer Berlin Heidelberg. págs. 597–612. doi : 10.1007 / 978-3-642-23808-6_39 . ISBN 978-3-642-23807-9. ISSN 0302-9743 .
- ^ Zafeiriou, S .; Kollias, D .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Kotsia, I. (2017). "Aff-Wild: desafío de valencia y excitación en la naturaleza" (PDF) . Talleres de Visión por Computador y Reconocimiento de Patrones (CVPRW), 2017 : 1980–1987. doi : 10.1109 / CVPRW.2017.248 . ISBN 978-1-5386-0733-6. S2CID 3107614 .
- ^ Kollias, D .; Tzirakis, P .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Zafeiriou, S. (2019). "Predicción de efectos profundos en la naturaleza: desafío y base de datos de Aff-Wild, arquitecturas profundas y más allá" . Revista Internacional de Visión por Computador (IJCV), 2019 . 127 (6–7): 907–929. doi : 10.1007 / s11263-019-01158-4 . S2CID 13679040 .
- ^ Kollias, D .; Zafeiriou, S. (2019). "Expresión, afecto, reconocimiento de unidad de acción: Aff-wild2, aprendizaje multitarea y arcface" (PDF) . Conferencia británica de visión artificial (BMVC), 2019 . arXiv : 1910.04855 .
- ^ Kollias, D .; Schulc, A .; Hajiyev, E .; Zafeiriou, S. (2020). "Analizando el comportamiento afectivo en el primer concurso abaw 2020" . Conferencia internacional IEEE sobre reconocimiento automático de rostros y gestos (FG), 2020 : 637–643. arXiv : 2001.11409 . doi : 10.1109 / FG47880.2020.00126 . ISBN 978-1-7281-3079-8. S2CID 210966051 .
- ^ Phillips, P. Jonathon; et al. (1998). "La base de datos FERET y el procedimiento de evaluación de los algoritmos de reconocimiento facial". Computación de imagen y visión . 16 (5): 295-306. doi : 10.1016 / s0262-8856 (97) 00070-x .
- ^ Wiskott, Laurenz; et al. (1997). "Reconocimiento facial por coincidencia de gráfico de manojo elástico". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . doi : 10.1109 / 34.598235 .
- ^ Livingstone, Steven R .; Russo, Frank A. (2018). "La base de datos audiovisual de habla y canción emocional de Ryerson (RAVDESS): un conjunto dinámico y multimodal de expresiones faciales y vocales en inglés norteamericano" . PLOS ONE . 13 (5): e0196391. Código bibliográfico : 2018PLoSO..1396391L . doi : 10.1371 / journal.pone.0196391 . PMC 5955500 . PMID 29768426 .
- ^ Livingstone, Steven R .; Russo, Frank A. (2018). "Emoción". La base de datos audiovisual de habla y canto emocional de Ryerson (RAVDESS) . doi : 10.5281 / zenodo.1188976 .
- ^ Grgic, Mislav; Delac, Kresimir; Grgic, Sonja (2011). "Base de datos de caras de cámaras de vigilancia SCface". Herramientas y aplicaciones multimedia . 51 (3): 863–879. doi : 10.1007 / s11042-009-0417-2 . S2CID 207218990 .
- ^ Wallace, Roy y col. " Modelado de variabilidad entre sesiones y análisis de factores conjuntos para la autenticación facial ". Biometrics (IJCB), Conferencia conjunta internacional de 2011 sobre . IEEE, 2011.
- ^ Georghiades, A. "Base de datos de rostros de Yale". Centro de visión y control computacional de la Universidad de Yale, http://CVC.yale.edu/Projects/Yalefaces/Yalefa . 2 : 1997. Enlace externo en
|journal=
( ayuda ) - ^ Nguyen, Duy; et al. (2006). "Detección de rostros en tiempo real y extracción de características de labios mediante matrices de puertas programables en campo". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . doi : 10.1109 / tsmcb.2005.862728 . PMID 16903373 . S2CID 7334355 .
- ^ Kanade, Takeo, Jeffrey F. Cohn y Yingli Tian. " Base de datos completa para el análisis de expresiones faciales ". Reconocimiento automático de rostro y gestos, 2000. Actas. Cuarta Conferencia Internacional IEEE sobre . IEEE, 2000.
- ^ Zeng, Zhihong; et al. (2009). "Un estudio de los métodos de reconocimiento de afectos: expresiones de audio, visuales y espontáneas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . doi : 10.1109 / tpami.2008.52 . PMID 19029545 .
- ^ Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (1998). "Imágenes de expresión facial". La base de datos de expresión facial femenina japonesa (JAFFE) . doi : 10.5281 / zenodo.3451524 .
- ^ Lyons, Michael; Akamatsu, Shigeru; Kamachi, Miyuki; Gyoba, Jiro " Codificación de expresiones faciales con ondas de Gabor ". Reconocimiento automático de rostro y gestos, 1998. Actas. Tercera Conferencia Internacional IEEE sobre . IEEE, 1998.
- ^ Ng, Hong-Wei y Stefan Winkler. " Un enfoque basado en datos para limpiar grandes conjuntos de datos faciales ". Procesamiento de imágenes (ICIP), 2014 IEEE International Conference on . IEEE, 2014.
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2015). "Reconocimiento facial uno a muchos con CNN bilineales". arXiv : 1506.01342 [ cs.CV ].
- ^ Jesorsky, Oliver, Klaus J. Kirchberg y Robert W. Frischholz. "Detección de rostros robusta usando la distancia hausdorff". Autenticación biométrica de persona basada en audio y video . Springer Berlín Heidelberg, 2001.
- ^ Huang, Gary B. y col. Caras etiquetadas en la naturaleza: una base de datos para estudiar el reconocimiento facial en entornos sin restricciones . Vol. 1. No. 2. Informe técnico 07-49, Universidad de Massachusetts, Amherst, 2007.
- ^ Bhatt, Rajen B., et al. " Segmentación eficiente de la región de la piel utilizando un modelo de árbol de decisión difuso de baja complejidad ". Conferencia de la India (INDICON), IEEE anual 2009 . IEEE, 2009.
- ^ Lingala, Mounika; et al. (2014). "Detección de color de lógica difusa: áreas azules en imágenes de dermatoscopia de melanoma" . Imágenes y gráficos médicos computarizados . 38 (5): 403–410. doi : 10.1016 / j.compmedimag.2014.03.007 . PMC 4287461 . PMID 24786720 .
- ^ Maes, Chris y col. " Detección de características en superficies faciales 3D para normalización y reconocimiento de poses ". Biometrics: Theory Applications and Systems (BTAS), 2010 Cuarta Conferencia Internacional IEEE sobre . IEEE, 2010.
- ^ Savran, Arman, et al. " Base de datos del Bósforo para el análisis facial en 3D ". Biometría y Gestión de Identidad . Springer Berlin Heidelberg, 2008. 47–56.
- ^ Heseltine, Thomas, Nick Pears y Jim Austin. " Reconocimiento facial tridimensional: un enfoque de superficie propia ". Procesamiento de imágenes, 2004. ICIP'04. 2004 Conferencia Internacional sobre . Vol. 2. IEEE, 2004.
- ^ Ge, Yun; et al. (2011). "Modelado de muestra de rostro novedoso 3D para reconocimiento facial". Revista de Multimedia . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . doi : 10.4304 / jmm.6.5.467-475 .
- ^ Wang, Yueming; Liu, Jianzhuang; Tang, Xiaoou (2010). "Robusto reconocimiento facial en 3D mediante aumento de la diferencia de forma local". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . doi : 10.1109 / tpami.2009.200 . PMID 20724762 . S2CID 15263913 .
- ^ Zhong, Cheng, Zhenan Sun y Tieniu Tan. " Robusto reconocimiento facial en 3D utilizando un libro de códigos visual aprendido ". Visión por computadora y reconocimiento de patrones, 2007. CVPR'07. Conferencia IEEE sobre . IEEE, 2007.
- ^ Zhao, G .; Huang, X .; Taini, M .; Li, SZ; Pietikäinen, M. (2011). "Reconocimiento de expresiones faciales a partir de videos de infrarrojo cercano" (PDF) . Computación de imagen y visión . 29 (9): 607–619. doi : 10.1016 / j.imavis.2011.07.002 .
- ^ Soyel, Hamit y Hasan Demirel. " Reconocimiento de expresiones faciales utilizando distancias de rasgos faciales en 3D ". Análisis y reconocimiento de imágenes . Springer Berlin Heidelberg, 2007. 831–838.
- ^ Bowyer, Kevin W .; Chang, Kyong; Flynn, Patrick (2006). "Una encuesta de enfoques y desafíos en 3D y reconocimiento facial 3D + 2D multimodal". Visión por computadora y comprensión de imágenes . 101 (1): 1-15. CiteSeerX 10.1.1.134.8784 . doi : 10.1016 / j.cviu.2005.05.005 .
- ^ Tan, Xiaoyang; Triggs, Bill (2010). "Conjuntos de características de textura local mejoradas para el reconocimiento facial en condiciones de iluminación difíciles". Transacciones IEEE sobre procesamiento de imágenes . 19 (6): 1635-1650. Código bibliográfico : 2010ITIP ... 19.1635T . CiteSeerX 10.1.1.105.3355 . doi : 10.1109 / tip.2010.2042645 . PMID 20172829 . S2CID 4943234 .
- ^ Mousavi, Mir Hashem, Karim Faez y Amin Asghari. " Reconocimiento facial tridimensional mediante clasificador SVM ". Informática e Informática, 2008. ICIS 08. Séptima Conferencia Internacional IEEE / ACIS sobre . IEEE, 2008.
- ^ Amberg, Brian, Reinhard Knothe y Thomas Vetter. " Expresión invariante de reconocimiento facial 3D con un modelo transformable ". Reconocimiento automático de rostro y gestos, 2008. FG'08. 8ª Conferencia Internacional IEEE sobre . IEEE, 2008.
- ^ İrfanoğlu, MO, Berk Gökberk y Lale Akarun. " Reconocimiento facial 3D basado en formas utilizando superficies faciales registradas automáticamente ". Pattern Recognition, 2004. ICPR 2004. Actas de la 17ª Conferencia Internacional sobre . Vol. 4. IEEE, 2004.
- ^ Beumier, Charles; Acheroy, Marc (2001). "Verificación facial a partir de pistas de nivel de gris y 3D". Cartas de reconocimiento de patrones . 22 (12): 1321-1329. doi : 10.1016 / s0167-8655 (01) 00077-0 .
- ^ Afifi, Mahmoud; Abdelhamed, Abdelrahman (13 de junio de 2017). "AFIF4: clasificación de género profunda basada en la fusión basada en AdaBoost de rasgos faciales aislados y rostros brumosos". arXiv : 1706.04277 [ cs.CV ].
- ^ "Conjunto de datos de SoF" . sites.google.com . Consultado el 18 de noviembre de 2017 .
- ^ "IMDB-WIKI" . data.vision.ee.ethz.ch . Consultado el 13 de marzo de 2018 .
- ^ Patrón-Pérez, A .; Marszalek, M .; Reid, I .; Zisserman, A. (2012). "Aprendizaje estructurado de interacciones humanas en programas de televisión". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 34 (12): 2441–2453. doi : 10.1109 / tpami.2012.24 . PMID 23079467 . S2CID 6060568 .
- ^ Ofli, F., Chaudhry, R., Kurillo, G., Vidal, R. y Bajcsy, R. (enero de 2013). Berkeley MHAD: Una base de datos de acción humana multimodal integral . En Aplicaciones de la visión por computadora (WACV), 2013 IEEE Workshop on (págs. 53–60). IEEE.
- ^ Jiang, YG, et al. "Desafío THUMOS: Reconocimiento de acciones con un gran número de clases". Taller de ICCV sobre reconocimiento de acciones con un gran número de clases , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.
- ^ Simonyan, Karen y Andrew Zisserman. " Redes convolucionales de dos flujos para el reconocimiento de acciones en videos ". Avances en sistemas de procesamiento de información neuronal . 2014.
- ^ Stoian, Andrei; Ferecatu, Marin; Benois-Pineau, Jenny; Crucianu, Michel (2016). "Localización de acción rápida en archivos de video a gran escala". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 26 (10): 1917-1930. doi : 10.1109 / TCSVT.2015.2475835 . S2CID 31537462 .
- ^ Krishna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). "Genoma visual: conexión del lenguaje y la visión mediante anotaciones de imágenes densas de fuentes colaborativas". Revista Internacional de Visión por Computador . 123 : 32–73. arXiv : 1602.07332 . doi : 10.1007 / s11263-016-0981-7 . S2CID 4492210 .
- ^ Karayev, S. y col. " Un conjunto de datos de objetos 3-D a nivel de categoría: poner Kinect en funcionamiento ". Actas de la IEEE International Conference on Computer Vision Workshops . 2011.
- ^ Tighe, Joseph y Svetlana Lazebnik . " Superparsing: análisis de imágenes no paramétrico escalable con superpíxeles ". Visión por computadora – ECCV 2010 . Springer Berlín Heidelberg, 2010. 352–365.
- ^ Arbeláez, P .; Maire, M; Fowlkes, C; Malik, J (mayo de 2011). "Detección de contorno y segmentación jerárquica de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 33 (5): 898–916. doi : 10.1109 / tpami.2010.161 . PMID 20733228 . S2CID 206764694 . Consultado el 27 de febrero de 2016 .
- ^ Lin, Tsung-Yi, et al. " Microsoft coco: objetos comunes en contexto ". Visión por computadora – ECCV 2014 . Springer International Publishing, 2014. 740–755.
- ^ Russakovsky, Olga; et al. (2015). "Desafío de reconocimiento visual a gran escala de Imagenet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .
- ^ Xiao, Jianxiong, et al. "Base de datos solar: reconocimiento de escenas a gran escala desde la abadía hasta el zoológico". Visión por computadora y reconocimiento de patrones (CVPR), conferencia IEEE de 2010 . IEEE, 2010.
- ^ Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). "DeCAF: una función de activación convolucional profunda para el reconocimiento visual genérico". arXiv : 1310,1531 [ cs.CV ].
- ^ Deng, Jia, et al. " Imagenet: una base de datos de imágenes jerárquicas a gran escala ". Visión por computadora y reconocimiento de patrones, 2009. CVPR 2009. Conferencia IEEE sobre . IEEE, 2009.
- ↑ a b c Krizhevsky, Alex, Ilya Sutskever y Geoffrey E. Hinton. " Clasificación de Imagenet con redes neuronales convolucionales profundas ". Avances en sistemas de procesamiento de información neuronal . 2012.
- ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; et al. (11 de abril de 2015). "Desafío de reconocimiento visual a gran escala de ImageNet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .
- ^ Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. "OpenImages: un conjunto de datos públicos para la clasificación de imágenes de múltiples etiquetas y múltiples clases a gran escala, 2017. Disponible en https://github.com/openimages ".
- ^ Vyas, Apoorv, et al. " Detección de bloqueos comerciales en vídeos de noticias de difusión ". Actas de la Conferencia India de 2014 sobre procesamiento de imágenes y gráficos de visión por computadora . ACM, 2014.
- ^ Hauptmann, Alexander G. y Michael J. Witbrock. " Segmentación de historias y detección de comerciales en video de noticias de transmisión ". Avances en investigación y tecnología en bibliotecas digitales, 1998. ADL 98. Actas. Foro Internacional IEEE en . IEEE, 1998.
- ^ Tung, Anthony KH, Xin Xu y Beng Chin Ooi. " Curler: encontrar y visualizar agrupaciones de correlaciones no lineales ". Actas de la conferencia internacional ACM SIGMOD 2005 sobre Gestión de datos . ACM, 2005.
- ^ Jarrett, Kevin y col. " ¿Cuál es la mejor arquitectura de múltiples etapas para el reconocimiento de objetos? ". Computer Vision, 2009 IEEE 12th International Conference on . IEEE, 2009.
- ^ Lazebnik, Svetlana , Cordelia Schmid y Jean Ponce. " Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales ". Visión por computadora y reconocimiento de patrones, 2006 IEEE Computer Society Conference on . Vol. 2. IEEE, 2006.
- ^ Griffin, G., A. Holub y P. Perona. Conjunto de datos de categorías de objetos Caltech-256 California Inst . Technol., Tech. Rep. 7694, 2007 [en línea]. Disponible: http://authors.library.caltech.edu/7694 , 2007.
- ^ Baeza-Yates, Ricardo y Berthier Ribeiro-Neto. Recuperación de información moderna . Vol. 463. Nueva York: ACM press, 1999.
- ^ Fu, Xiping, et al. " NOKMeans: Hashing de K-significa no ortogonal ". Visión por Computador — ACCV 2014 . Springer International Publishing, 2014. 162-177.
- ^ Heitz, Geremy; et al. (2009). "Localización de objetos basada en formas para clasificación descriptiva". Revista Internacional de Visión por Computador . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . doi : 10.1007 / s11263-009-0228-y . S2CID 646320 .
- ^ M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth y B. Schiele, " El conjunto de datos de paisajes urbanos ". En el taller de CVPR sobre el futuro de los conjuntos de datos en la visión, 2015.
- ^ Everingham, Mark; et al. (2010). "El desafío de las clases de objetos visuales pascal (voc)" . Revista Internacional de Visión por Computador . 88 (2): 303–338. doi : 10.1007 / s11263-009-0275-4 . S2CID 4246903 .
- ^ Felzenszwalb, Pedro F .; et al. (2010). "Detección de objetos con modelos basados en piezas entrenados discriminativamente". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (9): 1627-1645. CiteSeerX 10.1.1.153.2745 . doi : 10.1109 / tpami.2009.167 . PMID 20634557 . S2CID 3198903 .
- ^ a b Gong, Yunchao y Svetlana Lazebnik . "Cuantización iterativa: un enfoque procusto para aprender códigos binarios". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2011 en . IEEE, 2011.
- ^ "Conjunto de datos CINIC-10" . Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 no es ImageNet ni CIFAR-10 . 9 de octubre de 2018 . Consultado el 13 de noviembre de 2018 .
- ^ fashion-mnist: Una base de datos de productos de moda similar a MNIST. Benchmark: point_right , Zalando Research, 7 de octubre de 2017 , consultado el 7 de octubre de 2017
- ^ "conjunto de datos notMNIST" . Aprendizaje automático, etc . 8 de septiembre de 2011 . Consultado el 13 de octubre de 2017 .
- ^ Houben, Sebastian, et al. " Detección de señales de tráfico en imágenes del mundo real: el punto de referencia alemán de detección de señales de tráfico ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.
- ^ Mathias, Mayeul, et al. " Reconocimiento de señales de tráfico: ¿qué tan lejos estamos de la solución? ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.
- ^ Geiger, Andreas, Philip Lenz y Raquel Urtasun. " ¿Estamos preparados para la conducción autónoma? La suite de referencia kitti vision ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
- ^ Sturm, Jürgen y col. " Un punto de referencia para la evaluación de sistemas SLAM RGB-D ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2012 sobre . IEEE, 2012.
- ↑ Chaladze, G., Kalatozishvili, L. (2017). Conjunto de datos de Linnaeus 5 . Chaladze.com . Consultado el 13 de noviembre de 2017 en http://chaladze.com/l5/
- ^ Kragh, Mikkel F .; et al. (2017). "FieldSAFE - conjunto de datos para la detección de obstáculos en la agricultura" . Sensores . 17 (11): 2579. arXiv : 1709.03526 . Código Bib : 2017arXiv170903526F . doi : 10.3390 / s17112579 . PMC 5713196 . PMID 29120383 .
- ^ Afifi, Mahmoud (12 de noviembre de 2017). "Reconocimiento de género e identificación biométrica utilizando un gran conjunto de datos de imágenes de manos". arXiv : 1711.04322 [ cs.CV ].
- ^ Lomonaco, Vincenzo; Maltoni, Davide (18 de octubre de 2017). "CORe50: un nuevo conjunto de datos y punto de referencia para el reconocimiento continuo de objetos". arXiv : 1705.03550 [ cs.CV ].
- ^ Ella, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao; Zhang, Yimin; Qiao, Fei; Chan, Rosa HM (15 de noviembre de 2019). "OpenLORIS-Object: un conjunto de datos de visión robótica y un punto de referencia para el aprendizaje profundo de por vida". arXiv : 1911.06487v2 [ cs.CV ].
- ^ Morozov, Alexei; Sushkova, Olga (13 de junio de 2019). "Conjunto de datos de vídeo térmico y THz" . Desarrollo del enfoque de programación lógica multiagente para un análisis del comportamiento humano en una videovigilancia multicanal . Moscú: IRE RAS . Consultado el 19 de julio de 2019 .
- ^ Morozov, Alexei; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (9 de julio de 2019). "Desarrollo de un método de videovigilancia inteligente de terahercios basado en la fusión semántica de terahercios e imágenes de video en 3D" (PDF) . CEUR . 2391 : papel19 . Consultado el 19 de julio de 2019 .
- ^ Botta, M., A. Giordana y L. Saitta. " Aprendiendo definiciones de conceptos difusos ". Fuzzy Systems, 1993., Segunda Conferencia Internacional IEEE sobre . IEEE, 1993.
- ^ Frey, Peter W .; Slate, David J. (1991). "Reconocimiento de letras utilizando clasificadores adaptativos al estilo de Holanda" . Aprendizaje automático . 6 (2): 161–182. doi : 10.1007 / bf00114162 .
- ^ Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004). "Aprendizaje mejorado de métricas riemannianas para análisis exploratorio". Redes neuronales . 17 (8): 1087-1100. CiteSeerX 10.1.1.59.4865 . doi : 10.1016 / j.neunet.2004.06.008 . PMID 15555853 .
- ^ a b Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (enero de 2013). "Reconocimiento de caracteres chinos escritos a mano en línea y fuera de línea: evaluación comparativa en nuevas bases de datos". Reconocimiento de patrones . 46 (1): 155-162. doi : 10.1016 / j.patcog.2012.06.021 .
- ^ Wang, D .; Liu, C .; Yu, J .; Zhou, X. (2009). "CASIA-OLHWDB1: una base de datos de caracteres chinos manuscritos en línea". 2009 Décima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos : 1206–1210. doi : 10.1109 / ICDAR.2009.163 . ISBN 978-1-4244-4500-4. S2CID 5705532 .
- ^ Williams, Ben H., Marc Toussaint y Amos J. Storkey. Extracción de primitivas de movimiento a partir de datos de escritura natural . Springer Berlín Heidelberg, 2006.
- ^ Meier, Franziska, et al. " Segmentación de movimiento utilizando una biblioteca primitiva ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2011 sobre . IEEE, 2011.
- ^ TE de Campos, BR Babu y M. Varma. Reconocimiento de personajes en imágenes naturales . En Actas de la Conferencia Internacional sobre Teoría y Aplicaciones de la Visión por Computador (VISAPP), Lisboa, Portugal , febrero de 2009
- ^ Llorens, David y col. " La base de datos UJIpenchars: una base de datos basada en lápiz de caracteres escritos a mano aislados ". LREC . 2008.
- ^ Calderara, Simone; Prati, Andrea; Cucchiara, Rita (2011). "Mezclas de distribuciones de von mises para análisis de forma de trayectoria de personas". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 21 (4): 457–471. doi : 10.1109 / tcsvt.2011.2125550 . S2CID 1427766 .
- ^ Guyon, Isabelle y col. " Análisis de resultados del desafío de selección de características de nips 2003 ". Avances en sistemas de procesamiento de información neuronal . 2004.
- ^ Lake, BM; Salakhutdinov, R .; Tenenbaum, JB (11 de diciembre de 2015). "Aprendizaje de conceptos a nivel humano a través de la inducción probabilística del programa" . Ciencia . 350 (6266): 1332-1338. Código Bibliográfico : 2015Sci ... 350.1332L . doi : 10.1126 / science.aab3050 . ISSN 0036-8075 . PMID 26659050 .
- ^ Lake, Brenden (9 de noviembre de 2019), conjunto de datos de Omniglot para el aprendizaje de una sola vez , recuperado el 10 de noviembre de 2019
- ^ LeCun, Yann; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi : 10.1109 / 5.726791 .
- ^ Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Computación de imagen y visión . 22 (12): 971–981. doi : 10.1016 / j.imavis.2004.03.008 .
- ^ Xu, Lei; Krzyżak, Adam; Suen, Ching Y. (1992). "Métodos de combinación de múltiples clasificadores y sus aplicaciones al reconocimiento de escritura a mano". Transacciones IEEE sobre sistemas, hombre y cibernética . 22 (3): 418–435. doi : 10.1109 / 21.155943 . hdl : 10338.dmlcz / 135217 .
- ^ Alimoglu, Fevzi, et al. " Combinación de múltiples clasificadores para el reconocimiento de dígitos escritos a mano con bolígrafo ". (1996).
- ^ Tang, E. Ke; et al. (2005). "Reducción de dimensionalidad lineal usando LDA ponderado por relevancia". Reconocimiento de patrones . 38 (4): 485–493. doi : 10.1016 / j.patcog.2004.09.005 .
- ^ Hong, Yi y col. " Aprendiendo una combinación de métricas de distancia dispersa para clasificación y reducción de dimensionalidad ". Computer Vision (ICCV), 2011 IEEE International Conference on . IEEE, 2011.
- ^ Thoma, Martín (2017). "El conjunto de datos HASYv2". arXiv : 1701.08380 [ cs.CV ].
- ^ Karki, Manohar; Liu, Qun; DiBiano, Robert; Basu, Saikat; Mukhopadhyay, Supratik (20 de junio de 2018). "Reconstrucción y clasificación a nivel de píxel para caracteres bangladeses manuscritos ruidosos". arXiv : 1806.08037 [ cs.CV ].
- ^ Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Redes adversas generativas de clasificador progresivamente capacitado para la clasificación de caracteres bangladeses manuscritos ruidosos", Bibliotecas digitales en la encrucijada de la información digital para el futuro , Springer International Publishing, págs. 3 a 15, arXiv : 1908.08987 , doi : 10.1007 / 978-3-030-34058-2_1 , ISBN 978-3-030-34057-5, S2CID 201665955
- ^ Yuan, Jiangye; Gleason, Shaun S .; Cheriyadat, Anil M. (2013). "Benchmarking sistemático de la segmentación de imágenes aéreas". IEEE Geociencias y cartas de teledetección . 10 (6): 1527-1531. Código bibliográfico : 2013IGRSL..10.1527Y . doi : 10.1109 / lgrs.2013.2261453 . S2CID 629629 .
- ^ Vatsavai, Ranga Raju. " Clasificación de imágenes basada en objetos: estado del arte y desafíos computacionales ". Actas del 2º Taller Internacional ACM SIGSPATIAL sobre Analítica de Grandes Datos Geoespaciales . ACM, 2013.
- ^ Butenuth, Matthias, et al. " Integrando simulación de peatones, seguimiento y detección de eventos para el análisis de multitudes ". Talleres de Visión por Computador (Talleres ICCV), Conferencia Internacional IEEE 2011 sobre . IEEE, 2011.
- ^ Fradi, Hajer y Jean-Luc Dugelay. " Análisis de multitudes de bajo nivel que utiliza la función normalizada por marcos para el conteo de personas ". Información forense y seguridad (WIFS), 2012 IEEE International Workshop on . IEEE, 2012.
- ^ Johnson, Brian Alan, Ryutaro Tateishi y Nguyen Thanh Hoan. " Un enfoque híbrido de enfoque panorámico y análisis de imágenes basado en objetos multiescala para mapear pinos y robles enfermos ". Revista internacional de teledetección 34.20 (2013): 6969–6982.
- ^ Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (2015). "Un nuevo modelo de clasificación para un conjunto de datos de clase desequilibrada utilizando programación genética y máquinas de vectores de apoyo: estudio de caso para la clasificación de la enfermedad de marchitez" . Cartas de teledetección . 6 (7): 568–577. doi : 10.1080 / 2150704X.2015.1062159 . S2CID 58788630 .
- ^ Gallego, A.-J .; Pertusa, A .; Gil, P. " Clasificación automática de barcos a partir de imágenes aéreas ópticas con redes neuronales convolucionales ". Percepción remota . 2018; 10 (4): 511.
- ^ Gallego, A.-J .; Pertusa, A .; Gil, P. "MAritime SATellite Imagery dataset" [En línea]. Disponible: https://www.iuii.ua.es/datasets/masati/ , 2018.
- ^ Johnson, Brian; Tateishi, Ryutaro; Xie, Zhixiao (2012). "Uso de variables ponderadas geográficamente para la clasificación de imágenes". Cartas de teledetección . 3 (6): 491–499. doi : 10.1080 / 01431161.2011.629637 . S2CID 122543681 .
- ^ Chatterjee, Sankhadeep, et al. " Clasificación de tipo de bosque: un enfoque basado en el modelo híbrido NN-GA ". Diseño de Sistemas de Información y Aplicaciones Inteligentes . Springer India, 2016. 227-236.
- ^ Diegert, Carl. " Un método combinatorio para rastrear objetos utilizando la semántica de su forma ". Taller de reconocimiento de patrones de imágenes aplicadas (AIPR), 2010 IEEE 39th . IEEE, 2010.
- ^ Razakarivony, Sebastien y Frédéric Jurie. " Detección de objetivos pequeños que combinan múltiples de fondo y de primer plano ". Conferencia internacional IAPR sobre aplicaciones de visión artificial . 2013.
- ^ "SpaceNet" . explore.digitalglobe.com . Consultado el 13 de marzo de 2018 .
- ^ Etten, Adam Van (5 de enero de 2017). "Introducción a los datos de SpaceNet" . El DownLinQ . Consultado el 13 de marzo de 2018 .
- ^ Vakalopoulou, M .; Bus, N .; Karantzalosa, K .; Paragios, N. (julio de 2017). Integración de antecedentes de borde / límite con puntajes de clasificación para la detección de edificios en datos de muy alta resolución . Simposio Internacional de Geociencia y Percepción Remota del IEEE 2017 (IGARSS) . págs. 3309–3312. doi : 10.1109 / IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6. S2CID 8297433 .
- ^ Yang, Yi; Newsam, Shawn (2010). Bolsa de palabras visuales y extensiones espaciales para la clasificación del uso del suelo . Actas de la XVIII Conferencia Internacional SIGSPATIAL sobre Avances en Sistemas de Información Geográfica - GIS '10 . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 1869790.1869829 . ISBN 9781450304283. S2CID 993769 .
- ^ a b Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3 de noviembre de 2015). DeepSat: un marco de aprendizaje para imágenes satelitales . ACM. pag. 37. doi : 10.1145 / 2820783.2820816 . ISBN 9781450339674. S2CID 4387134 .
- ^ a b Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (21 de noviembre de 2019). "DeepSat V2: función de redes neuronales convolucionales aumentadas para la clasificación de imágenes de satélite". Cartas de teledetección . 11 (2): 156-165. arXiv : 1911.07747 . doi : 10.1080 / 2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .
- ^ Mills, Kyle; Tamblyn, Isaac (16 de mayo de 2018), gran conjunto de datos de grafeno , Consejo Nacional de Investigación de Canadá, doi : 10.4224 / c8sc04578j.data
- ^ Mills, Kyle; Spanner, Michael; Tamblyn, Isaac (16 de mayo de 2018). "Simulación cuántica". Simulaciones cuánticas de un electrón en un pozo de potencial bidimensional . Consejo Nacional de Investigaciones de Canadá. doi : 10.4224 / PhysRevA.96.042113.data .
- ^ Rohrbach, M .; Amin, S .; Andriluka, M .; Schiele, B. (2012). Una base de datos para la detección detallada de actividades de cocina . IEEE. doi : 10.1109 / cvpr.2012.6247801 . ISBN 978-1-4673-1228-8.
- ^ Kuehne, Hilde, Ali Arslan y Thomas Serre. " El lenguaje de las acciones: recuperando la sintaxis y la semántica de las actividades humanas dirigidas a objetivos ". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . 2014.
- ^ Sviatoslav, Voloshynovskiy, et al. " Hacia resultados reproducibles en la autenticación basada en funciones físicas no clonables: el conjunto óptico de microestructura de autenticación forense (FAMOS) " . Proc. Actas del Taller internacional IEEE sobre seguridad y análisis forense de la información . 2012.
- ^ Olga, Taran y Shideh, Rezaeifar, et al. " PharmaPack: reconocimiento móvil detallado de paquetes farmacéuticos ". Proc. Conferencia europea de procesamiento de señales (EUSIPCO) . 2017.
- ^ Khosla, Aditya, et al. " Nuevo conjunto de datos para la categorización de imágenes de grano fino: perros de Stanford ". Proc. Taller CVPR sobre Categorización Visual Detallada (FGVC) . 2011.
- ^ a b Parkhi, Omkar M., et al. " Gatos y perros ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
- ^ Biggs, Benjamin y col. " ¿Quién dejó afuera a los perros? Reconstrucción animal 3D con maximización de expectativas en el circuito ." Proc. ECCV . 2020.
- ^ a b Razavian, Ali, et al. " Características de CNN listas para usar: una base asombrosa para el reconocimiento ". Actas de la Conferencia IEEE sobre Talleres de Reconocimiento de Patrones y Visión por Computador . 2014.
- ^ Ortega, Michael; et al. (1998). "Soporte de consultas de similitud booleana clasificadas en MARS". Transacciones IEEE sobre conocimiento e ingeniería de datos . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . doi : 10.1109 / 69.738357 .
- ^ Él, Xuming, Richard S. Zemel y Miguel Á. Carreira-Perpiñán. " Campos aleatorios condicionales multiescala para etiquetado de imágenes ". Visión por computadora y reconocimiento de patrones, 2004. CVPR 2004. Actas de la conferencia de la sociedad de computadoras IEEE 2004 sobre . Vol. 2. IEEE, 2004.
- ^ Deneke, Tewodros, et al. " Predicción de tiempo de transcodificación de video para balanceo de carga proactivo ". Multimedia y Expo (ICME), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C.Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell (13 de abril de 2016). "Visual Storytelling". arXiv : 1604.03968 [ cs.CL ].CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Wah, Catherine y col. " El conjunto de datos caltech-ucsd birds-200-2011 ". (2011).
- ^ Duan, Kun y col. " Descubriendo atributos localizados para un reconocimiento detallado ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
- ^ "Conjunto de datos YouTube-8M" . research.google.com . Consultado el 1 de octubre de 2016 .
- ^ Abu-El-Haija, Sami; Kothari, Nisarg; Lee, Joonseok; Natsev, Paul; Toderici, George; Varadarajan, Balakrishnan; Vijayanarasimhan, Sudheendra (27 de septiembre de 2016). "YouTube-8M: un punto de referencia de clasificación de vídeo a gran escala". arXiv : 1609.08675 [ cs.CV ].
- ^ "Conjunto de datos YFCC100M" . mmcommons.org . Yahoo-ICSI-LLNL . Consultado el 1 de junio de 2017 .
- ^ Bart Thomee; David A Shamma; Gerald Friedland; Benjamín Elizalde; Karl Ni; Douglas Polonia; Damian Borth; Li-Jia Li (25 de abril de 2016). "Yfcc100m: Los nuevos datos en la investigación multimedia". Comunicaciones de la ACM . 59 (2): 64–73. arXiv : 1503.01817 . doi : 10.1145 / 2812802 . S2CID 207230134 .
- ^ Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " LIRIS-ACCEDE: A Video Database for Affective Content Analysis ", en IEEE Transactions on Affective Computing, 2015.
- ^ Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " Deep Learning vs. Kernel Methods: Performance for Emotion Prediction in Videos ", en la Conferencia de la Asociación Humana de 2015 sobre Computación afectiva e Interacción inteligente (ACII), 2015 .
- ^ M. Sjöberg, Y. Baveye, H. Wang, VL Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Demarty y L. Chen, " La tarea del impacto afectivo del cine medieval 2015 ", en Taller de MediaEval 2015, 2015.
- ^ S. Johnson y M. Everingham, " Postura agrupada y modelos de apariencia no lineal para la estimación de la postura humana ", en Actas de la 21ª Conferencia británica sobre visión artificial (BMVC2010)
- ^ S. Johnson y M. Everingham, " Aprendizaje de la estimación de la postura humana efectiva a partir de anotaciones inexactas ", en las actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR2011)
- ^ Afifi, Mahmoud; Hussain, Khaled F. (2 de noviembre de 2017). "El logro de una mayor flexibilidad en pruebas basadas en opciones múltiples utilizando técnicas de clasificación de imágenes". arXiv : 1711.00972 [ cs.CV ].
- ^ "Conjunto de datos de MCQ" . sites.google.com . Consultado el 18 de noviembre de 2017 .
- ^ Taj-Eddin, IATF; Afifi, M .; Korashy, M .; Hamdy, D .; Nasser, M .; Derbaz, S. (julio de 2016). Una nueva técnica de compresión para videos de vigilancia: Evaluación utilizando un nuevo conjunto de datos . 2016 Sexta Conferencia Internacional sobre Tecnologías de la Información y las Comunicaciones Digitales y sus Aplicaciones (DICTAP) . págs. 159-164. doi : 10.1109 / DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7. S2CID 8698850 .
- ^ Tabak, Michael A .; Norouzzadeh, Mohammad S .; Wolfson, David W .; Sweeney, Steven J .; Vercauteren, Kurt C .; Snow, Nathan P .; Halseth, Joseph M .; Di Salvo, Paul A .; Lewis, Jesse S .; White, Michael D .; Teton, Ben; Beasley, James C .; Schlichting, Peter E .; Boughton, Raoul K .; Wight, Betania; Newkirk, Eric S .; Ivan, Jacob S .; Odell, Eric A .; Brook, Ryan K .; Lukacs, Paul M .; Moeller, Anna K .; Mandeville, Elizabeth G .; Clune, Jeff; Miller, Ryan S .; Photopoulou, Theoni (2018). "Machine learning para clasificar especies animales en imágenes de cámaras trampa: aplicaciones en ecología" . Métodos en ecología y evolución . 10 (4): 585–590. doi : 10.1111 / 2041-210X.13120 . ISSN 2041-210X .
- ^ Taj-Eddin, Islam ATF; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H .; Ng, Yoke Cheng; Hernández, Evelyng; Abdel-Latif, Salma M. (noviembre de 2017). "¿Podemos ver la fotosíntesis? Magnificando los pequeños cambios de color de las hojas verdes de las plantas usando un aumento de video euleriano". Revista de imágenes electrónicas . 26 (6): 060501. arXiv : 1706.03867 . Código bibliográfico : 2017JEI .... 26f0501T . doi : 10.1117 / 1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .
- ^ McAuley, Julian y col. " Recomendaciones basadas en imágenes sobre estilos y sustitutos ". Actas de la 38ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2015
- ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Ranking de entidades basado en opiniones". Recuperación de información . 15 (2): 116-150. doi : 10.1007 / s10791-011-9174-8 . hdl : 2142/15252 . S2CID 16258727 .
- ^ Lv, Yuanhua, Dimitrios Lymberopoulos y Qiang Wu. " Una exploración de la heurística de clasificación en la búsqueda local móvil ". Actas de la 35ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2012.
- ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "Los conjuntos de datos de MovieLens: historia y contexto". Transacciones ACM en sistemas inteligentes interactivos . 5 (4): 19. doi : 10.1145 / 2827872 . S2CID 16619709 .
- ^ Koenigstein, Noam, Gideon Dror y Yehuda Koren. " Recomendaciones de música de Yahoo !: modelado de clasificaciones musicales con dinámica temporal y taxonomía de elementos ". Actas de la quinta conferencia ACM sobre sistemas de recomendación . ACM, 2011.
- ^ McFee, Brian y col. " El desafío del conjunto de datos de un millón de canciones ". Actas del acompañante de la 21ª conferencia internacional en World Wide Web . ACM, 2012.
- ^ Bohanec, Marko y Vladislav Rajkovic. " Adquisición y explicación de conocimientos para la toma de decisiones multiatributo ". VIII Workshop Internacional sobre Sistemas Expertos y sus Aplicaciones . 1988.
- ^ Tan, Peter J. y David L. Dowe. " Inferencia MML de gráficos de decisión con uniones multidireccionales ". Conferencia conjunta australiana sobre inteligencia artificial . 2002.
- ^ "Cuantificar la comedia en YouTube: por qué importa el número de o en tu LOL" . Base de datos de metatexto PNL . Consultado el 26 de octubre de 2020 .
- ^ Kim, Byung Joo (2012). "Un clasificador de Big Data" . Tecnología de la información híbrida y de convergencia . Comunicaciones en Informática y Ciencias de la Información. 310 . págs. 505–512. doi : 10.1007 / 978-3-642-32692-9_63 . ISBN 978-3-642-32691-2.
- ^ Pérezgonzález, Jose D .; Gilbey, Andrew (2011). "Predecir las clasificaciones de los aeropuertos Skytrax a partir de las opiniones de los clientes" . Revista de Gestión Aeroportuaria . 5 (4): 335–339.
- ^ Loh, Wei-Yin y Yu-Shan Shih. " Métodos de selección dividida para árboles de clasificación ". Statistica sinica (1997): 815–840.
- ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "Una comparación de la precisión de la predicción, la complejidad y el tiempo de entrenamiento de treinta y tres algoritmos de clasificación antiguos y nuevos". Aprendizaje automático . 40 (3): 203–228. doi : 10.1023 / a: 1007608224229 . S2CID 17030953 .
- ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu XV Nguyen, Tham TH Truong, Ngan Luu-Thuy Nguyen. " UIT-VSFC: Corpus de comentarios de estudiantes vietnamitas para el análisis de sentimientos
- ^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Reconocimiento de emociones para el texto de las redes sociales vietnamitas" . Lingüística computacional . Comunicaciones en Informática y Ciencias de la Información. 1215 . págs. 319–333. arXiv : 1911.09339 . doi : 10.1007 / 978-981-15-6168-9_27 . ISBN 978-981-15-6167-2. S2CID 208202333 .
- ^ > Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 de abril de 2021). "Detección de quejas de dominio abierto vietnamita en sitios web de comercio electrónico". arXiv : 2104.11969 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). Un modelo conjunto para la evolución tema-sentimiento a lo largo del tiempo . IEEE. doi : 10.1109 / icdm.2014.82 . ISBN 978-1-4799-4302-9.
- ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF) . LREC . 2 . S2CID 9239414 . Archivado desde el original (PDF) el 6 de agosto de 2019.
- ^ Amini, Massih R .; Usunier, Nicolás; Goutte, Cyril (2009). "Aprendiendo de múltiples vistas parcialmente observadas - una aplicación a la categorización de texto multilingüe" . Avances en los sistemas de procesamiento de información neuronal : 28–36.
- ^ Liu, Ming; et al. (2015). "VRCA: un algoritmo de agrupamiento para una gran cantidad de textos" . Actas de la 24ª Conferencia Internacional sobre Inteligencia Artificial . AAAI Press.
- ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, MS; Al-Rajeh, A (2008). "Clasificación automática de texto árabe". Actas de la Novena Conferencia Internacional sobre Análisis Estadístico de Datos Textuales, Lyon, Francia .
- ^ "Conjunto de datos de evaluación de extracción de relación y entidad: Dstl / re3d" . 17 de diciembre de 2018.
- ^ "El examinador - Catálogo de SpamClickBait" .
- ^ "Un millón de titulares de noticias" .
- ^ "One Week of Global News Feeds" .
- ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive , Harvard Dataverse, doi : 10.7910 / DVN / XDB74W
- ^ "IrishTimes - las noticias Waxy-Wany" .
- ^ "Conjunto de datos de titulares de noticias para la detección del sarcasmo" . kaggle.com . Consultado el 27 de abril de 2019 .
- ^ Klimt, Bryan y Yiming Yang. " Presentamos el Enron Corpus ". CEAS . 2004.
- ^ Kossinets, Gueorgi, Jon Kleinberg y Duncan Watts. " La estructura de las vías de información en una red de comunicación social ". Actas de la 14ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . ACM, 2008.
- ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V .; Paliouras, George; Spyropoulos, Constantine D. (2000). "Una evaluación del filtrado anti-spam ingenuo bayesiano". En Potamias, G .; Moustakis, V .; van Someren, M. (eds.). Actas del taller sobre aprendizaje automático en la nueva era de la información . XI Congreso Europeo de Aprendizaje Automático, Barcelona, España. 11 . págs. 9-17. arXiv : cs / 0006013 . Código Bibliográfico : 2000cs ........ 6013A .
- ^ Bratko, Andrej; et al. (2006). "Filtrado de spam mediante modelos estadísticos de compresión de datos" (PDF) . The Journal of Machine Learning Research . 7 : 2673–2698.
- ^ Almeida, Tiago A., José María G. Hidalgo y Akebo Yamakami. " Contribuciones al estudio del filtrado de spam de SMS: nueva recopilación y resultados ". Actas del XI simposio ACM sobre ingeniería documental . ACM, 2011.
- ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "Filtrado de spam por SMS: métodos y datos" . Sistemas expertos con aplicaciones . 39 (10): 9899–9908. doi : 10.1016 / j.eswa.2012.02.053 .
- ^ Joachims, Thorsten. Un análisis probabilístico del algoritmo de Rocchio con TFIDF para categorización de texto . Nº CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa, departamento de ciencias de la computación, 1996.
- ^ Dimitrakakis, Christos y Samy Bengio. Adaptación de políticas en línea para algoritmos de conjuntos . No. EPFL-REPORT-82788. IDIAP, 2002.
- ^ Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.
- ^ Dooms, S. et al. "Movietweetings: un conjunto de datos de clasificación de películas recopilado de Twitter, 2013. Disponible en https://github.com/sidooms/MovieTweetings ".
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Aprendido-Miller, Erik (2017). "Twitter100k: un conjunto de datos del mundo real para la recuperación de cross-media débilmente supervisada". arXiv : 1703.06618 [ cs.CV ].
- ^ "huyt16 / Twitter100k" . GitHub . Consultado el 26 de marzo de 2018 .
- ^ Ve, Alec; Bhayani, Richa; Huang, Lei (2009). "Clasificación de sentimiento de Twitter mediante supervisión a distancia". Informe del proyecto CS224N, Stanford . 1 : 12.
- ^ Chikersal, Prerna, Soujanya Poria y Erik Cambria. " SeNTU: análisis de sentimientos de tweets mediante la combinación de un clasificador basado en reglas con aprendizaje supervisado ". Actas del Taller Internacional de Evaluación Semántica, SemEval . 2015.
- ^ Zafarani, Reza y Huan Liu . "Repositorio de datos de computación social en ASU". Escuela de Ingeniería en Computación, Informática y Sistemas de Decisión, Universidad Estatal de Arizona (2009).
- ^ Bisgin, Halil, Nitin Agarwal y Xiaowei Xu. " Investigando la homofilia en las redes sociales online ". Inteligencia web y tecnología de agente inteligente (WI-IAT), Conferencia internacional IEEE / WIC / ACM de 2010 sobre . Vol. 1. IEEE, 2010.
- ^ McAuley, Julian J .; Leskovec, Jure. "Aprender a descubrir círculos sociales en las redes del ego". NIPS . 2012 : 2012.
- ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Comparación estadística basada en la red de la topología de citas de bases de datos bibliográficas" . Informes científicos . 4 (6496): 6496. arXiv : 1502.05061 . Código Bibliográfico : 2014NatSR ... 4E6496S . doi : 10.1038 / srep06496 . PMC 4178292 . PMID 25263231 .
- ^ Abdulla, N., et al. "Análisis de sentimiento árabe: basado en corpus y basado en léxico". Actas de la conferencia IEEE sobre Ingeniería Eléctrica Aplicada y Tecnologías de Computación (AEECT) . 2013.
- ^ Abooraig, Raddad, et al. " Sobre la categorización automática de los artículos árabes en función de su orientación política ". Tercer Congreso Internacional de Ingeniería Informática y Ciencias de la Información (ICIEIS2014) . 2014.
- ^ Kawala, François, et al. " Prédictions d'activité dans les réseaux sociaux en ligne ". 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques . 2013.
- ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selección de alumnos casi óptimos mediante la asignación de datos incrementales". arXiv : 1601.00024 [ cs.LG ].
- ^ Xu y col. " SemEval-2015 Tarea 1: Paráfrasis y similitud semántica en Twitter (PIT) " Actas del 9º Taller Internacional sobre Evaluación Semántica . 2015.
- ^ Xu y col. " Extrayendo paráfrasis léxicamente divergentes de Twitter " Transacciones de la Association for Computational (TACL) . 2014.
- ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Mapeo de crisis en tiempo real de desastres naturales mediante redes sociales" (PDF) . Sistemas inteligentes IEEE . 29 (2): 9-17. doi : 10.1109 / MIS.2013.126 . S2CID 15139204 .
- ^ "geoparsepy" . 2016. Biblioteca Python PyPI
- ^ Gupta, Aakash (5 de diciembre de 2020). "Colección de redes sociales holandesas" Comprobar
|url=
valor ( ayuda ) . doi : 10.5072 / FK2 / MTPTL7 . Cite journal requiere|journal=
( ayuda ) - ^ "Streamlit" . huggingface.co . Consultado el 18 de diciembre de 2020 .
- ^ "Colección de redes sociales holandesas" . kaggle.com . Consultado el 18 de diciembre de 2020 .
- ^ Forsyth, E., Lin, J. y Martell, C. (2008, 25 de junio). El corpus de chat de NPS. Obtenido de http://faculty.nps.edu/cmartell/NPSChat.htm
- ^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao y Bill Dolan, Un enfoque de red neuronal para la generación de respuestas conversacionales sensibles al contexto , Conferencia del Capítulo de América del Norte de la Asociación de Lingüística Computacional - Tecnologías del Lenguaje Humano (NAACL-HLT 2015), junio de 2015.
- ^ Shaoul, C. y Westbury C. (2013) Un corpus de USENET de redundancia reducida (2005-2011) Edmonton, AB: University of Alberta (descargado de http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus .download.html )
- ^ KAN, M. (2011, enero). Corpus del Servicio de Mensajes Cortos (SMS) de NUS. Obtenido de http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/
- ^ Atascado_en_la_Matriz. (2015, 3 de julio). Tengo todos los comentarios de Reddit disponibles públicamente para la investigación. ~ 1.7 mil millones de comentarios @ 250 GB comprimidos. ¿Interesado en esto? [Publicación original]. Mensaje publicado en https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- ^ Ryan Lowe, Nissan Pow, Iulian V. Serban y Joelle Pineau, " El corpus de diálogo de Ubuntu: un gran conjunto de datos para la investigación en sistemas de diálogo de múltiples turnos sin estructura ", SIGDial 2015.
- ^ Jason Williams Antoine Raux Matthew Henderson, " [1] ", Diálogo y discurso | Abril de 2016.
- ^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "HDLTex: Aprendizaje profundo jerárquico para la clasificación de textos", 16ª Conferencia internacional de IEEE sobre aplicaciones y aprendizaje automático (ICMLA) de 2017, págs. 364-371. doi: 10.1109 / ICMLA.2017.0-134
- ^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "Web of Science Dataset", doi : 10.17632 / 9rw3vkcfy4.6
- ^ Galgani, Filippo, Paul Compton y Achim Hoffmann. " Combinando diferentes técnicas de resumen para texto legal ". Actas del taller sobre enfoques híbridos innovadores para el procesamiento de datos textuales . Asociación de Lingüística Computacional, 2012.
- ^ Nagwani, NK (2015). "Resumiendo gran colección de texto usando modelado de temas y agrupamiento basado en el marco MapReduce" . Revista de Big Data . 2 (1): 1–18. doi : 10.1186 / s40537-015-0020-5 .
- ^ Schler, Jonathan; et al. (2006). "Efectos de la edad y el género en los blogs" (PDF) . Simposio de primavera de AAAI: Enfoques computacionales para analizar weblogs . 6 .
- ^ Anand, Pranav y col. "¡Créame, podemos hacer esto! Anotar actos persuasivos en el texto del blog". Modelos computacionales de argumento natural . 2011.
- ^ Traud, Amanda L., Peter J. Mucha y Mason A. Porter. "Estructura social de las redes de Facebook". Physica A: Mecánica estadística y sus aplicaciones 391.16 (2012): 4165–4180.
- ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimación de matrices de rango bajo y dispersas simultáneamente". arXiv : 1206,6474 [ cs.DS ].
- ^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: un conjunto de datos de desafío para la comprensión de texto de máquina de dominio abierto" . EMNLP . 1 .
- ^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M .; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Hacia la respuesta a preguntas completa de AI: un conjunto de tareas de juguete de requisitos previos". arXiv : 1502.05698 [ cs.AI ].
- ^ Marcus, Mitchell P .; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Construyendo un gran corpus anotado de inglés: The Penn Treebank" . Lingüística computacional . 19 (2): 313–330.
- ^ Collins, Michael (2003). "Modelos estadísticos dirigidos por la cabeza para el análisis del lenguaje natural" . Lingüística computacional . 29 (4): 589–637. doi : 10.1162 / 089120103322753356 .
- ^ Guyon, Isabelle, et al., Eds. Extracción de características: fundaciones y aplicaciones . Vol. 207. Springer, 2008.
- ^ Lin, Yuri, et al. " Anotaciones sintácticas para el corpus ngram de google books ". Actas de las demostraciones del sistema ACL 2012 . Asociación de Lingüística Computacional, 2012.
- ^ Krishnamoorthy, Niveda; et al. (2013). "Generación de descripciones de video en lenguaje natural utilizando conocimientos extraídos de texto" . AAAI . 1 .
- ^ Luyckx, Kim y Walter Daelemans. " Personae: un corpus para la predicción del autor y la personalidad a partir del texto ". LREC . 2008.
- ^ Solorio, Thamar, Ragib Hasan y Mainul Mizan. " Un estudio de caso de detección de marionetas en wikipedia ". Taller de Análisis del Lenguaje en Redes Sociales (LASM) en NAACL HLT . 2013.
- ^ Ciarelli, Patrick Marques y Elias Oliveira. " Aglomeración y eliminación de términos para la reducción de dimensionalidad ". Diseño y Aplicaciones de Sistemas Inteligentes, 2009. ISDA'09. Novena Conferencia Internacional sobre . IEEE, 2009.
- ^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla y James G. Scott. "Priores para matrices de conteo aleatorias derivadas de una familia de procesos binomiales negativos". Revista de la Asociación Estadounidense de Estadística recién aceptada (2015): 00–00.
- ^ Kotzias, Dimitrios, et al. " Desde etiquetas grupales hasta etiquetas individuales con funciones profundas ". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos. ACM, 2015.
- ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Precursores de modelado para la predicción de eventos a través del aprendizaje de instancias múltiples anidadas". arXiv : 1602.08033 [ cs.SI ].
- ^ Buza, Krisztian. " Predicción de comentarios para blogs ". Análisis de datos, aprendizaje automático y descubrimiento de conocimientos . Springer International Publishing, 2014. 145-152.
- ^ Soysal, Ömer M (2015). "Minería de reglas de asociación con patrones secuenciales asociados en su mayoría". Sistemas expertos con aplicaciones . 42 (5): 2582-2592. doi : 10.1016 / j.eswa.2014.10.049 .
- ^ Bowman, Samuel y col. " Un gran corpus anotado para aprender la inferencia del lenguaje natural ". Actas de la Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). ACL, 2015.
- ^ "Colección DSL Corpus" . ttg.uni-saarland.de . Consultado el 22 de septiembre de 2017 .
- ^ "Diccionario urbano de palabras y definiciones" .
- ^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, " T-REx: Una alineación a gran escala del lenguaje natural con triples de la base de conocimientos ", Actas de la XI Congreso Internacional de Evaluación y Recursos Lingüísticos (LREC-2018).
- ^ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. y Bowman, SR (2018). Glue: una plataforma de análisis y evaluación comparativa multitarea para la comprensión del lenguaje natural. preimpresión de arXiv arXiv: 1804.07461.
- ^ "Las computadoras están aprendiendo a leer, pero aún no son tan inteligentes" . Cableado . Consultado el 29 de diciembre de 2019 .
- ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas" .
- ^ Para, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. (2020). "Predicción de género basada en nombres vietnamitas con técnicas de aprendizaje automático" (PDF) . Actas de la 4ª Conferencia Internacional sobre Procesamiento del Lenguaje Natural y Recuperación de Información . págs. 55–60. arXiv : 2010.10852 . doi : 10.1145 / 3443279.3443309 . ISBN 9781450377607. S2CID 224814110 .
- ^ Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (18 de marzo de 2021). "Detección de habla tóxica y constructiva para comentarios de redes sociales de dominio abierto en vietnamita". arXiv : 2103.10069 [ cs.CL ].
- ^ Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.
- ^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen y E. Dupoux (2015). "The Zero Resource Speech Challenge 2015", en INTERSPEECH-2015.
- ^ M. Versteegh, X. Anguera, A. Jansen y E. Dupoux, (2016). " El Desafío de Discurso de Recursos Cero 2015: Enfoques y Resultados Propuestos ", en SLTU-2016.
- ^ Sakar, Betul Erdogdu; et al. (2013). "Recolección y análisis de un conjunto de datos de voz de Parkinson con múltiples tipos de grabaciones de sonido". IEEE Journal of Biomedical and Health Informatics . 17 (4): 828–834. doi : 10.1109 / jbhi.2013.2245674 . PMID 25055311 . S2CID 15491516 .
- ^ Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.
- ^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
- ^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
- ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.
- ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Pattern Recognition Letters. 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515. doi:10.1016/s0167-8655(99)00077-x.
- ^ Jaeger, Herbert; et al. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Neural Networks. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.
- ^ Tsanas, Athanasios; et al. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions on Biomedical Engineering (Submitted manuscript). 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.
- ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.
- ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Speech Communication. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.
- ^ Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.
- ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (PhD Thesis). University of Southampton, School of Electronics and Computer Science.
- ^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL].
- ^ Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.
- ^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
- ^ Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
- ^ Rafii, Zafar (2017). "Music". MUSDB18 - a corpus for music separation. doi:10.5281/zenodo.1117372.
- ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD].
- ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.
- ^ Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropy. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.
- ^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
- ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML].
- ^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2017.
- ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Science | AAAS. 18 July 2018. Retrieved 22 July 2018.
- ^ "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3 May 2016. Retrieved 22 July 2018.
- ^ Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160
- ^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2020.
- ^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3490684
- ^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.
- ^ Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.
- ^ PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Circulation. v101 i23. e215-e220.
- ^ Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Sensors and Actuators B: Chemical. 166: 320–329. doi:10.1016/j.snb.2012.01.074.
- ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Sensors and Actuators B: Chemical. 198: 316–341. doi:10.1016/j.snb.2014.03.069.
- ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
- ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Machine Learning. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.
- ^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
- ^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
- ^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Proceedings. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
- ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
- ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
- ^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
- ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
- ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
- ^ Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.
- ^ Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.
- ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
- ^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
- ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
- ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194.
- ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.
- ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.
- ^ Velloso, Eduardo, et al. "Qualitative activity recognition of weight lifting exercises."Proceedings of the 4th Augmented Human International Conference. ACM, 2013.
- ^ Mortazavi, Bobak Jack, et al. "Determining the single best axis for exercise repetition recognition and counting on smartwatches." Wearable and Implantable Body Sensor Networks (BSN), 2014 11th International Conference on. IEEE, 2014.
- ^ Sapsanis, Christos, et al. "Improving EMG based Classification of basic hand movements using EMD." Engineering in Medicine and Biology Society (EMBC), 2013 35th Annual International Conference of the IEEE. IEEE, 2013.
- ^ a b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.
- ^ Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.
- ^ Stisen, Allan, et al. "Smart Devices are Different: Assessing and MitigatingMobile Sensing Heterogeneities for Activity Recognition."Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. ACM, 2015.
- ^ Bhattacharya, Sourav, and Nicholas D. Lane. "From Smart to Deep: Robust Activity Recognition on Smartwatches using Deep Learning."
- ^ Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
- ^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
- ^ Reiss, Attila, and Didier Stricker. "Introducing a new benchmarked dataset for activity monitoring."Wearable Computers (ISWC), 2012 16th International Symposium on. IEEE, 2012.
- ^ Roggen, Daniel, et al. "OPPORTUNITY: Towards opportunistic activity and context recognition systems." World of Wireless, Mobile and Multimedia Networks & Workshops, 2009. WoWMoM 2009. IEEE International Symposium on a. IEEE, 2009.
- ^ Kurz, Marc, et al. "Dynamic quantification of activity recognition capabilities in opportunistic systems." Vehicular Technology Conference (VTC Spring), 2011 IEEE 73rd. IEEE, 2011.
- ^ Sztyler, Timo, and Heiner Stuckenschmidt. "On-body localization of wearable devices: an investigation of position-aware activity recognition." Pervasive Computing and Communications (PerCom), 2016 IEEE International Conference on. IEEE, 2016.
- ^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 2100107. doi:10.1109/JTEHM.2017.2780836. ISSN 2168-2372. PMC 5788403. PMID 29404226.
- ^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (23 May 2017). The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy. ACM. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.
- ^ "Toronto Rehab Stroke Pose Dataset".
- ^ Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (1 March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.
- ^ Jung, M.M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29. Cite journal requires
|journal=
(help) - ^ Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep 92-02 (1992).
- ^ Basu, Sugato. "Semi-supervised clustering with limited background knowledge." AAAI. 2004.
- ^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016/j.ijepes.2014.02.027.
- ^ Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.
- ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
- ^ a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
- ^ a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
- ^ Pierre Baldi, Kyle Cranmer, Taylor Faucett, Peter Sadowski, and Daniel Whiteson. 'Parameterized Machine Learning for High-Energy Physics.' In submission.
- ^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
- ^ Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.
- ^ Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.
- ^ Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.
- ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1.
- ^ Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.
- ^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance‐based prediction of real‐valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
- ^ Palmer, Christopher R., and Christos Faloutsos. "Electricity based external similarity of categorical attributes." Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2003. 486–500.
- ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. doi:10.1016/j.enbuild.2012.03.003.
- ^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
- ^ Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
- ^ Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
- ^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
- ^ Wang, Jun, Bei Yu, and Les Gasser. "Concept tree based clustering visualization with shaded similarity matrices." Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. IEEE, 2002.
- ^ Pettengill, Gordon H., et al. "Magellan: Radar performance and data products." Science252.5003 (1991): 260–265.
- ^ a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
- ^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
- ^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
- ^ Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).
- ^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
- ^ Sikora, Marek, and Beata Sikora. "Rough natural hazards monitoring." Rough Sets: Selected Methods and Applications in Management and Engineering. Springer London, 2012. 163–179.
- ^ Yeh, I–C (1998). "Modeling of strength of high-performance concrete using artificial neural networks". Cement and Concrete Research. 28 (12): 1797–1808. doi:10.1016/s0008-8846(98)00165-3.
- ^ Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomial neural networks for approximation of the compressive strength of concrete". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC...8...79S. doi:10.1016/j.asoc.2007.02.010.
- ^ Yeh, I. "Modeling slump of concrete with fly ash and superplasticizer." Computers and Concrete5.6 (2008): 559–572.
- ^ Gencel, Osman; et al. (2011). "Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete". Construction and Building Materials. 25 (8): 3486–3494. doi:10.1016/j.conbuildmat.2011.03.040.
- ^ Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction." Advances in Neural Information Processing Systems (1994): 216–216.
- ^ Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.
- ^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
- ^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
- ^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179.
- ^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
- ^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. doi:10.1016/s0031-3203(96)00142-2.
- ^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.
- ^ Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).
- ^ Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).
- ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. doi:10.1016/0031-3203(91)90074-f.
- ^ a b Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254-265.
- ^ Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.
- ^ Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.
- ^ Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014
- ^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
- ^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
- ^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
- ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.
- ^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.
- ^ Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.
- ^ Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
- ^ Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.
- ^ a b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.
- ^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
- ^ Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).
- ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
- ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112.
- ^ "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.
- ^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
- ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902.
- ^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
- ^ Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.
- ^ Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
- ^ Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.
- ^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
- ^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
- ^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73.
- ^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
- ^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322.
- ^ Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).
- ^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
- ^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- ^ Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach." Advances in neural information processing systems 6. 1994.
- ^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.
- ^ Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.
- ^ Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.
- ^ Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.
- ^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
- ^ Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0.
- ^ Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146--153. 2001.
- ^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
- ^ Munisami, Trishen; et al. (2015). "Plant Leaf Recognition Using Shape Features and Colour Histogram with K-nearest Neighbour Classifiers". Procedia Computer Science. 58: 740–747. doi:10.1016/j.procs.2015.08.095.
- ^ Li, Bai (2016). "Atomic potential matching: An evolutionary target recognition approach based on edge features". Optik-International Journal for Light and Electron Optics. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016/j.ijleo.2015.11.186.
- ^ Nilsback, Maria-Elena, and Andrew Zisserman. "A visual vocabulary for flower classification."Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
- ^ Giselsson, Thomas M.; et al. (2017). "A Public Image Database for Benchmark of Plant Seedling Classification Algorithms". arXiv:1711.05458 [cs.CV].
- ^ Muresan, Horea; Oltean, Mihai (2018). "Fruit recognition from images using deep learning". Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. doi:10.2478/ausi-2018-0002.
- ^ Oltean, Mihai; Muresan, Horea (2017). "A dataset with fruit images on Kaggle".
- ^ Nakai, Kenta; Kanehisa, Minoru (1991). "Expert system for predicting protein localization sites in gram‐negative bacteria". Proteins: Structure, Function, and Bioinformatics. 11 (2): 95–110. doi:10.1002/prot.340110203. PMID 1946347. S2CID 27606447.
- ^ Ling, Charles X., et al. "Decision trees with minimal costs." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
- ^ Mahé, Pierre, et al. "Automatic identification of mixed bacterial species fingerprints in a MALDI-TOF mass-spectrum." Bioinformatics (2014): btu022.
- ^ Barbano, Duane; et al. (2015). "Rapid characterization of microalgae and microalgae mixtures using matrix-assisted laser desorption ionization time-of-flight mass spectrometry (MALDI-TOF MS)". PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371/journal.pone.0135337. PMC 4536233. PMID 26271045.
- ^ Horton, Paul; Nakai, Kenta (1996). "A probabilistic classification system for predicting the cellular localization sites of proteins" (PDF). ISMB-96 Proceedings. 4: 109–15. PMID 8877510.
- ^ Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). "Reducing multiclass to binary: A unifying approach for margin classifiers" (PDF). The Journal of Machine Learning Research. 1: 113–141.
- ^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). "DeepTox: Toxicity Prediction Using Deep Learning". Frontiers in Environmental Science. 3: 80. doi:10.3389/fenvs.2015.00080.
- ^ Lavin, Alexander; Ahmad, Subutai (12 October 2015). Evaluating Real-time Anomaly Detection Algorithms – the Numenta Anomaly Benchmark. p. 38. arXiv:1510.03336. doi:10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
- ^ Iurii D. Katser; Vyacheslav O. Kozitsin. "SKAB GitHub repository". Retrieved 12 January 2021.
- ^ Iurii D. Katser; Vyacheslav O. Kozitsin (2020). "Skoltech Anomaly Benchmark (SKAB)". Kaggle. doi:10.34740/KAGGLE/DSV/1693952. Retrieved 12 January 2021. Cite journal requires
|journal=
(help) - ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ^ Ann-Kathrin Hartmann, Tommaso Soru, Edgard Marx. Generating a Large Dataset for Neural Question Answering over the DBpedia Knowledge Base. 2018.
- ^ Tommaso Soru, Edgard Marx. Diego Moussallem, Andre Valdestilhas, Diego Esteves, Ciro Baron. SPARQL as a Foreign Language. 2018.
- ^ Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. A Vietnamese Dataset for Evaluating Machine Reading Comprehension. COLING 2020.
- ^ Kiet Van Nguyen, Khiem Vinh Tran, Son T. Luu, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension. IEEE Access. 2020.
- ^ Brown, Michael Scott, Michael J. Pelosi, and Henry Dirska. "Dynamic-radius species-conserving genetic algorithm for the financial forecasting of Dow Jones index stocks." Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, 2013. 27–41.
- ^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.
- ^ Quinlan, J. Ross (1987). "Simplifying decision trees". International Journal of Man-machine Studies. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. doi:10.1016/s0020-7373(87)80053-6.
- ^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.
- ^ Shmueli, Galit, Ralph P. Russo, and Wolfgang Jank. "The BARISTA: a model for bid arrivals in online auctions." The Annals of Applied Statistics(2007): 412–441.
- ^ Peng, Jie, and Hans-Georg Müller. "Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions." The Annals of Applied Statistics (2008): 1056–1077.
- ^ Eggermont, Jeroen, Joost N. Kok, and Walter A. Kosters. "Genetic programming for data classification: Partitioning the search space."Proceedings of the 2004 ACM symposium on Applied computing. ACM, 2004.
- ^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499.
- ^ Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].
- ^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.
- ^ Jabin, Suraiya. "Stock market prediction using feed-forward artificial neural network." Int. J. Comput. Appl. (IJCA) 99.9 (2014).
- ^ Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020.
- ^ Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.
- ^ Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.
- ^ Bay, Stephen D.; et al. (2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. doi:10.1145/380995.381030. S2CID 534881.
- ^ Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.
- ^ Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.
- ^ Sigillito, Vincent G., et al. "Classification of radar returns from the ionosphere using neural networks." Johns Hopkins APL Technical Digest10.3 (1989): 262–266.
- ^ Zhang, Kun, and Wei Fan. "Forecasting skewed biased stochastic ozone days: analyses, solutions and beyond." Knowledge and Information Systems14.3 (2008): 299–326.
- ^ Reich, Brian J., Montserrat Fuentes, and David B. Dunson. "Bayesian spatial quantile regression." Journal of the American Statistical Association (2012).
- ^ Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.
- ^ Oza, Nikunj C., and Stuart Russell. "Experimental comparisons of online and batch versions of bagging and boosting." Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001.
- ^ Bay, Stephen D (2001). "Multivariate discretization for set mining". Knowledge and Information Systems. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. doi:10.1007/pl00011680. S2CID 10945544.
- ^ Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods: A Journal of Quantitative and Interdisciplinary History. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
- ^ Meek, Christopher, Bo Thiesson, and David Heckerman. "The Learning Curve Method Applied to Clustering." AISTATS. 2001.
- ^ Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.
- ^ Giot, Romain, and Raphaël Cherrier. "Predicting bikeshare system usage up to one day ahead." Computational intelligence in vehicles and transportation systems (CIVTS), 2014 IEEE symposium on. IEEE, 2014.
- ^ Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. doi:10.1016/j.trc.2013.04.001.
- ^ Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. doi:10.1109/tits.2013.2262376. S2CID 14764358.
- ^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.
- ^ H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, July 2014.
- ^ http://pems.dot.ca.gov/
- ^ Meusel, Robert, et al. "The Graph Structure in the Web—Analyzed on Different Aggregation Levels."The Journal of Web Science 1.1 (2015).
- ^ Kushmerick, Nicholas. "Learning to remove internet advertisements." Proceedings of the third annual conference on Autonomous Agents. ACM, 1999.
- ^ Fradkin, Dmitriy, and David Madigan. "Experiments with random projections for machine learning."Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003.
- ^ This data was used in the American Statistical Association Statistical Graphics and Computing Sections 1999 Data Exposition.
- ^ Ma, Justin, et al. "Identifying suspicious URLs: an application of large-scale online learning."Proceedings of the 26th annual international conference on machine learning. ACM, 2009.
- ^ Levchenko, Kirill, et al. "Click trajectories: End-to-end analysis of the spam value chain." Security and Privacy (SP), 2011 IEEE Symposium on. IEEE, 2011.
- ^ Mohammad, Rami M., Fadi Thabtah, and Lee McCluskey. "An assessment of features related to phishing websites using an automated technique."Internet Technology And Secured Transactions, 2012 International Conference for. IEEE, 2012.
- ^ Singh, Ashishkumar, et al. "Clustering Experiments on Big Transaction Data for Market Segmentation." Proceedings of the 2014 International Conference on Big Data Science and Computing. ACM, 2014.
- ^ Bollacker, Kurt, et al. "Freebase: a collaboratively created graph database for structuring human knowledge." Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008.
- ^ Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.
- ^ Mesterharm, Chris, and Michael J. Pazzani. "Active learning using on-line algorithms."Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011.
- ^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
- ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization" (PDF). Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415. Archived from the original (PDF) on 6 August 2019.
- ^ Burton, Ariel N.; Kelly, Paul H.J. (2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. Elsevier BV. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003. ISSN 0167-739X.
- ^ Bain, Michael; Muggleton, Stephen (1994). "Learning optimal chess strategies". Machine Intelligence. Oxford University Press, Inc. 13.
- ^ Quilan, J. R. (1983). "Learning efficient classification procedures and their application to chess end games". Machine Learning: An Artificial Intelligence Approach. 1: 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
- ^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
- ^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89.
- ^ Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.
- ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. S2CID 6667472.
- ^ Li, Lihong, et al. "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms." Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011.
- ^ Yeung, Kam Fung, and Yanyan Yang. "A proactive personalized mobile news recommendation system." Developments in E-systems Engineering (DESE), 2010. IEEE, 2010.
- ^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
- ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.
- ^ Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.
- ^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
- ^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.
- ^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
- ^ Lizotte, Daniel J., Omid Madani, and Russell Greiner. "Budgeted learning of nailve-bayes classifiers." Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., 2002.
- ^ Lebowitz, Michael (1986). Concept learning in a rich input domain: Generalization-based memory. Machine Learning: An Artificial Intelligence Approach. 2. pp. 193–214. ISBN 9780934613002.
- ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
- ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
- ^ Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage." Abschlußbericht vom 11 (2009).
- ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
- ^ Candillier, Laurent, and Vincent Lemaire. "Design and Analysis of the Nomao challenge Active Learning in the Real-World." Proceedings of the ALRA: Active Learning in Real-world Applications, Workshop ECML-PKDD. 2012.
- ^ Marquez, Ivan Garrido. "A Domain Adaptation Method for Text Classification based on Self-adjusted Training Approach." (2013).
- ^ Nagesh, Harsha S., Sanjay Goil, and Alok N. Choudhary. "Adaptive Grids for Clustering Massive Data Sets." SDM. 2001.
- ^ Kuzilek, Jakub, et al. "OU Analyse: analysing at-risk students at The Open University." Learning Analytics Review (2015): 1–16.
- ^ Siemens, George, et al. Open Learning Analytics: an integrated & modularized platform. Diss. Open University Press, 2011.
- ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2: 150055. Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. ISSN 2052-4463. PMC 4622222. PMID 26528394.
- ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
- ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). "PMLB: a large benchmark suite for machine learning evaluation and comparison". BioData Mining. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186/s13040-017-0154-4. PMC 5725843. PMID 29238404.
- ^ "Off The Shelf Datasets". appen.com. Appen. Retrieved 30 December 2020.
- ^ "Open Source Datasets". appen.com. Appen. Retrieved 30 December 2020.