Lista de conjuntos de datos para la investigación de aprendizaje automático

Estos conjuntos de datos se aplican para la investigación de aprendizaje automático y se han citado en revistas académicas revisadas por pares. Los conjuntos de datos son una parte integral del campo del aprendizaje automático. Los principales avances en este campo pueden resultar de los avances en los algoritmos de aprendizaje (como el aprendizaje profundo ), el hardware de la computadora y, de manera menos intuitiva, la disponibilidad de conjuntos de datos de capacitación de alta calidad. ^[1] Conjuntos de datos de entrenamiento etiquetados de alta calidad para supervisados y semi-supervisadosLos algoritmos de aprendizaje automático suelen ser difíciles y costosos de producir debido a la gran cantidad de tiempo que se necesita para etiquetar los datos. Aunque no es necesario etiquetarlos, los conjuntos de datos de alta calidad para el aprendizaje no supervisado también pueden ser difíciles y costosos de producir. ^[2]^[3]^[4]^[5]

Datos de imagen

Conjuntos de datos que consisten principalmente en imágenes o videos para tareas como detección de objetos , reconocimiento facial y clasificación de múltiples etiquetas .

Reconocimiento facial

En visión por computadora , las imágenes faciales se han utilizado ampliamente para desarrollar sistemas de reconocimiento facial , detección de rostros y muchos otros proyectos que utilizan imágenes de rostros.

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Aff-Wild	298 videos de 200 individuos, ~ 1,250,000 imágenes anotadas manualmente: anotadas en términos de afecto dimensional (activación de valencia); entorno salvaje; base de datos de colores; varias resoluciones (promedio = 640x360)	los rostros detectados, los puntos de referencia faciales y las anotaciones de activación de valencia	~ 1,250,000 imágenes anotadas manualmente	video (modalidades visual + audio)	reconocimiento de efectos (estimación de la activación de valencia)	2017	CVPR ^[6] IJCV ^[7]	D.Kollias y col.
Aff-Wild2	558 videos de 458 individuos, ~ 2.800.000 imágenes anotadas manualmente: anotadas en términos de i) afecto categórico (7 expresiones básicas: neutral, felicidad, tristeza, sorpresa, miedo, disgusto, ira); ii) afecto dimensional (despertar de valencia); iii) unidades de acción (AUs 1, 2, 4, 6, 12, 15, 20, 25); entorno salvaje; base de datos de colores; varias resoluciones (promedio = 1030x630)	los rostros detectados, los rostros detectados y alineados y las anotaciones	~ 2.800.000 imágenes anotadas manualmente	video (modalidades visual + audio)	reconocimiento de afecto (estimación de activación de valencia, clasificación de expresión básica, detección de unidad de acción)	2019	BMVC ^[8] FG ^[9]	D.Kollias y col.
FERET (tecnología de reconocimiento facial)	11338 imágenes de 1199 individuos en diferentes posiciones y en diferentes momentos.	Ninguno.	11,338	Imagenes	Clasificación, reconocimiento facial	2003	^[10]^[11]	Departamento de Defensa de los Estados Unidos
Base de datos audiovisual de habla y canción emocionales de Ryerson (RAVDESS)	7.356 grabaciones de audio y video de 24 actores profesionales. 8 emociones cada una a dos intensidades.	Archivos etiquetados con expresión. Calificaciones de validación perceptiva proporcionadas por 319 evaluadores.	7.356	Video, archivos de sonido	Clasificación, reconocimiento facial, reconocimiento de voz	2018	^[12]^[13]	SR Livingstone y FA Russo
SCFace	Imágenes en color de rostros en varios ángulos.	Ubicación de los rasgos faciales extraídos. Coordenadas de características dadas.	4.160	Imágenes, texto	Clasificación , reconocimiento facial	2011	^[14]^[15]	M. Grgic y col.
Base de datos de caras de Yale	Rostros de 15 individuos en 11 expresiones diferentes.	Etiquetas de expresiones.	165	Imagenes	Reconocimiento facial	1997	^[16]^[17]	J. Yang y col.
Base de datos de expresiones codificadas en AU de Cohn-Kanade	Gran base de datos de imágenes con etiquetas para expresiones.	Seguimiento de determinados rasgos faciales.	500+ secuencias	Imágenes, texto	Análisis de expresión facial	2000	^[18]^[19]	T. Kanade y col.
Base de datos de expresión facial de JAFFE	213 imágenes de 7 expresiones faciales (6 expresiones faciales básicas + 1 neutra) planteadas por 10 modelos femeninas japonesas.	Las imágenes se recortan en la región facial. Incluye datos de calificaciones semánticas en etiquetas de emociones.	213	Imágenes, texto	Cognición de expresión facial	1998	^[20]^[21]	Lyon, Kamachi, Gyoba
FaceScrub	Imágenes de figuras públicas eliminadas de la búsqueda de imágenes.	Nombre y anotación m / f.	107,818	Imágenes, texto	Reconocimiento facial	2014	^[22]^[23]	H. Ng y col.
Base de datos facial BioID	Imágenes de rostros con posiciones de ojos marcadas.	Configure manualmente las posiciones de los ojos.	1521	Imágenes, texto	Reconocimiento facial	2001	^[24]^[25]	BioID
Conjunto de datos de segmentación de la piel	Valores de color muestreados aleatoriamente a partir de imágenes faciales.	B, G, R, valores extraídos.	245,057	Texto	Segmentación, clasificación	2012	^[26]^[27]	R. Bhatt.
bósforo	Base de datos de imágenes de caras 3D.	34 unidades de acción y 6 expresiones etiquetadas; 24 puntos de referencia faciales etiquetados.	4652	Imágenes, texto	Reconocimiento facial, clasificación	2008	^[28]^[29]	A Savran et al.
UOY 3D-Cara	rostro neutral, 5 expresiones: enfado, alegría, tristeza, ojos cerrados, cejas levantadas.	etiquetado.	5250	Imágenes, texto	Reconocimiento facial, clasificación	2004	^[30]^[31]	Universidad de York
Base de datos de caras 3D de CASIA	Expresiones: Ira, sonrisa, risa, sorpresa, ojos cerrados.	Ninguno.	4624	Imágenes, texto	Reconocimiento facial, clasificación	2007	^[32]^[33]	Instituto de Automatización, Academia de Ciencias de China
CASIA NIR	Expresiones: Ira Disgusto Miedo Felicidad Tristeza Sorpresa	Ninguno.	480	Capturas de vídeo de espectro visible e infrarrojo cercano anotado a 25 fotogramas por segundo	Reconocimiento facial, clasificación	2011	^[34]	Zhao, G. y col.
BU-3DFE	rostro neutral y 6 expresiones: enfado, alegría, tristeza, sorpresa, disgusto, miedo (4 niveles). Imágenes 3D extraídas.	Ninguno.	2500	Imágenes, texto	Reconocimiento de expresiones faciales, clasificación.	2006	^[35]	Universidad de Binghamton
Conjunto de datos del gran desafío de reconocimiento facial	Hasta 22 muestras para cada tema. Expresiones: enfado, alegría, tristeza, sorpresa, disgusto, hinchazón. Datos 3D.	Ninguno.	4007	Imágenes, texto	Reconocimiento facial, clasificación	2004	^[36]^[37]	Instituto Nacional de Estándares y Tecnología
Gavabdb	Hasta 61 muestras para cada tema. Expresiones de rostro neutro, sonrisa, risa frontal acentuada, gesto frontal al azar. Imágenes en 3D.	Ninguno.	549	Imágenes, texto	Reconocimiento facial, clasificación	2008	^[38]^[39]	Universidad Rey Juan Carlos
3D-RMA	Hasta 100 sujetos, expresiones en su mayoría neutrales. Varias poses también.	Ninguno.	9971	Imágenes, texto	Reconocimiento facial, clasificación	2004	^[40]^[41]	Real Academia Militar (Bélgica)
SoF	112 personas (66 hombres y 46 mujeres) usan anteojos en diferentes condiciones de iluminación.	Un conjunto de filtros sintéticos (desenfoque, oclusiones, ruido y posterización) con diferente nivel de dificultad.	42,592 (2,662 imagen original × 16 imagen sintética)	Imágenes, archivo Mat	Clasificación de género, detección de rostros, reconocimiento de rostros, estimación de edad y detección de anteojos	2017	^[42]^[43]	Afifi, M. y col.
IMDB-WIKI	Imágenes de caras de IMDB y Wikipedia con etiquetas de género y edad.	Ninguno	523,051	Imagenes	Clasificación de género, detección de rostros, reconocimiento de rostros, estimación de edad	2015	^[44]	R. Rothe, R. Timofte, LV Gool

Reconocimiento de acciones

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de interacción humana de TV	Vídeos de 20 programas de televisión diferentes para la predicción de acciones sociales: apretón de manos, choca esos cinco, abrazo, beso y ninguno.	Ninguno.	6.766 videoclips	clips de video	Predicción de acción	2013	^[45]	Patron-Perez, A. et al.
Base de datos de acción humana multimodal de Berkeley (MHAD)	Grabaciones de una sola persona realizando 12 acciones	Preprocesamiento de MoCap	660 muestras de acción	Captura de movimiento de 8 PhaseSpace, 2 cámaras estéreo, 4 cámaras cuádruples, 6 acelerómetros, 4 micrófonos	Clasificación de acciones	2013	^[46]	Ofli, F. y col.
Conjunto de datos THUMOS	Gran conjunto de datos de video para clasificación de acciones.	Acciones clasificadas y etiquetadas.	45 millones de fotogramas de video	Video, imágenes, texto	Clasificación, detección de acciones	2013	^[47]^[48]	Y. Jiang y col.
MEXAcción2	Conjunto de datos de video para localización y detección de acciones	Acciones clasificadas y etiquetadas.	1000	Video	Detección de acciones	2014	^[49]	Stoian y col.

Detección y reconocimiento de objetos

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Genoma visual	Imágenes y su descripción		108.000	imágenes, texto	Subtítulos de imagen	2016	^[50]	R. Krishna y col.
Conjunto de datos de objetos 3-D de Berkeley	849 imágenes tomadas en 75 escenas diferentes. Aproximadamente 50 clases de objetos diferentes están etiquetadas.	Cuadros delimitadores de objetos y etiquetado.	849	imágenes etiquetadas, texto	Reconocimiento de objetos	2014	^[51]^[52]	A. Janoch y col.
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500)	500 imágenes naturales, explícitamente separadas en subconjuntos de tren, validación y prueba separados + código de evaluación comparativa. Basado en BSDS300.	Cada imagen segmentada por cinco sujetos diferentes en promedio.	500	Imágenes segmentadas	Detección de contornos y segmentación jerárquica de imágenes	2011	^[53]	Universidad de California, Berkeley
Objetos comunes de Microsoft en contexto (COCO)	escenas cotidianas complejas de objetos comunes en su contexto natural.	Resaltado, etiquetado y clasificación de objetos en 91 tipos de objetos.	2.500.000	Imágenes etiquetadas, texto	Reconocimiento de objetos	2015	^[54]^[55]	T. Lin y col.
Base de datos SUN	Base de datos de reconocimiento de objetos y escenas muy grande.	Los lugares y los objetos están etiquetados. Los objetos están segmentados.	131.067	Imágenes, texto	Reconocimiento de objetos, reconocimiento de escenas	2014	^[56]^[57]	J. Xiao y col.
ImageNet	Base de datos de imágenes de objetos etiquetados, utilizada en el desafío de reconocimiento visual a gran escala de ImageNet	Objetos etiquetados, cuadros delimitadores, palabras descriptivas, funciones SIFT	14.197.122	Imágenes, texto	Reconocimiento de objetos, reconocimiento de escenas	2009 (2014)	^[58]^[59]^[60]	J. Deng y col.
Abrir imágenes	Un gran conjunto de imágenes enumeradas con licencia CC BY 2.0 con etiquetas a nivel de imagen y cuadros delimitadores que abarcan miles de clases.	Etiquetas a nivel de imagen, cuadros delimitadores	9.178.275	Imágenes, texto	Clasificación, reconocimiento de objetos	2017	^[61]
Conjunto de datos de detección comercial de canales de noticias de televisión	Anuncios de televisión y transmisiones de noticias.	Funciones de audio y video extraídas de imágenes fijas.	129.685	Texto	Agrupación, clasificación	2015	^[62]^[63]	P. Guha y col.
Conjunto de datos Statlog (segmentación de imágenes)	Las instancias se extrajeron al azar de una base de datos de 7 imágenes al aire libre y se segmentaron a mano para crear una clasificación para cada píxel.	Muchas características calculadas.	2310	Texto	Clasificación	1990	^[64]	Universidad de massachusetts
Caltech 101	Imágenes de objetos.	Contornos detallados de objetos marcados.	9146	Imagenes	Clasificación, reconocimiento de objetos.	2003	^[65]^[66]	F. Li y col.
Caltech-256	Gran conjunto de datos de imágenes para la clasificación de objetos.	Imágenes categorizadas y ordenadas a mano.	30,607	Imágenes, texto	Clasificación, detección de objetos	2007	^[67]^[68]	G. Griffin y col.
Conjunto de datos SIFT10M	Funciones SIFT del conjunto de datos Caltech-256.	Extracción extensa de funciones SIFT.	11,164,866	Texto	Clasificación, detección de objetos	2016	^[69]	X. Fu y col.
Etiquetame	Imágenes anotadas de escenas.	Objetos descritos.	187,240	Imágenes, texto	Clasificación, detección de objetos	2005	^[70]	Laboratorio de Informática e Inteligencia Artificial del MIT
Conjunto de datos de paisajes urbanos	Secuencias de video estéreo grabadas en escenas callejeras, con anotaciones a nivel de píxel. También se incluyen metadatos.	Segmentación y etiquetado a nivel de píxeles	25 000	Imágenes, texto	Clasificación, detección de objetos	2016	^[71]	Daimler AG y col.
Conjunto de datos PASCAL VOC	Gran cantidad de imágenes para tareas de clasificación.	Etiquetado, cuadro delimitador incluido	500.000	Imágenes, texto	Clasificación, detección de objetos	2010	^[72]^[73]	M. Everingham y col.
Conjunto de datos CIFAR-10	Muchas imágenes pequeñas de baja resolución de 10 clases de objetos.	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas.	60.000	Imagenes	Clasificación	2009	^[59]^[74]	A. Krizhevsky y col.
Conjunto de datos CIFAR-100	Como CIFAR-10, arriba, pero se dan 100 clases de objetos.	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas.	60.000	Imagenes	Clasificación	2009	^[59]^[74]	A. Krizhevsky y col.
Conjunto de datos CINIC-10	Una contribución unificada de CIFAR-10 e Imagenet con 10 clases y 3 divisiones. Más grande que CIFAR-10.	Clases etiquetadas, formación, validación, divisiones de conjuntos de pruebas creadas.	270.000	Imagenes	Clasificación	2018	^[75]	Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey
Moda-MNIST	Una base de datos de productos de moda similar a MNIST	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas.	60.000	Imagenes	Clasificación	2017	^[76]	Zalando SE
notMNIST	Algunas fuentes disponibles públicamente y glifos extraídos de ellas para crear un conjunto de datos similar al MNIST. Hay 10 clases, con letras AJ tomadas de diferentes fuentes.	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas.	500.000	Imagenes	Clasificación	2011	^[77]	Yaroslav Bulatov
Conjunto de datos de referencia de detección de señales de tráfico en Alemania	Imágenes de vehículos de señales de tráfico en las carreteras alemanas. Estos letreros cumplen con los estándares de la ONU y por lo tanto son los mismos que en otros países.	Señales etiquetadas manualmente	900	Imagenes	Clasificación	2013	^[78]^[79]	S Houben y col.
Conjunto de datos de referencia de KITTI Vision	Los vehículos autónomos que atravesaban una ciudad de tamaño medio capturaron imágenes de varias áreas utilizando cámaras y escáneres láser.	Muchos puntos de referencia extraídos de los datos.	> 100 GB de datos	Imágenes, texto	Clasificación, detección de objetos	2012	^[80]^[81]	A Geiger et al.
Conjunto de datos de Linnaeus 5	Imágenes de 5 clases de objetos.	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas.	8000	Imagenes	Clasificación	2017	^[82]	Chaladze y Kalatozishvili
FieldSAFE	Conjunto de datos multimodal para la detección de obstáculos en la agricultura, que incluye cámara estéreo, cámara térmica, cámara web, cámara de 360 grados, lidar, radar y localización precisa.	Clases etiquetadas geográficamente.	> 400 GB de datos	Imágenes y nubes de puntos 3D	Clasificación, detección de objetos, localización de objetos	2017	^[83]	M. Kragh y col.
11K manos	11,076 imágenes de manos (1600 x 1200 píxeles) de 190 sujetos, de diferentes edades entre 18 y 75 años, para el reconocimiento de género y la identificación biométrica.	Ninguno	11,076 imágenes de mano	Imágenes y archivos de etiquetas (.mat, .txt y .csv)	Reconocimiento de género e identificación biométrica	2017	^[84]	M Afifi
CORe50	Diseñado específicamente para el aprendizaje continuo / permanente y el reconocimiento de objetos, es una colección de más de 500 videos (30 fps) de 50 objetos domésticos pertenecientes a 10 categorías diferentes.	Clases etiquetadas, divisiones de conjuntos de entrenamiento creadas en base a un punto de referencia de múltiples ejecuciones de 3 vías.	164,866 imágenes RBG-D	imágenes (.png o .pkl) y archivos de etiquetas (.pkl, .txt, .tsv)	Clasificación, reconocimiento de objetos	2017	^[85]	V. Lomonaco y D. Maltoni
Objeto OpenLORIS	El conjunto de datos de visión robótica permanente / continua (OpenLORIS-Object) recopilado por robots reales montados con múltiples sensores de alta resolución, incluye una colección de 121 instancias de objetos (primera versión del conjunto de datos, 40 categorías de objetos de necesidades diarias en 20 escenas). El conjunto de datos ha considerado rigurosamente 4 factores ambientales en diferentes escenas, incluida la iluminación, la oclusión, el tamaño del píxel del objeto y el desorden, y define los niveles de dificultad de cada factor de forma explícita.	Clases etiquetadas, divisiones de conjuntos de entrenamiento / validación / prueba creadas por scripts de referencia.	1,106,424 imágenes RBG-D	imágenes (.png y .pkl) y archivos de etiquetas (.pkl)	Clasificación, reconocimiento de objetos de por vida, visión robótica	2019	^[86]	P. She et al.
Conjunto de datos de vídeo térmico y THz	Este conjunto de datos multiespectrales incluye videos de terahercios, térmicos, visuales, infrarrojos cercanos y tridimensionales de objetos ocultos debajo de la ropa de las personas.	Se proporcionan tablas de búsqueda 3D que le permiten proyectar imágenes en nubes de puntos 3D.	Más de 20 videos. La duración de cada video es de aproximadamente 85 segundos (aproximadamente 345 fotogramas).	AP2J	Experimentos con detección de objetos ocultos	2019	^[87]^[88]	Alexei A. Morozov y Olga S. Sushkova

Escritura a mano y reconocimiento de caracteres.

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de caracteres artificiales	Datos generados artificialmente que describen la estructura de 10 letras mayúsculas en inglés.	Las coordenadas de las líneas dibujadas se dan como números enteros. Varias otras características.	6000	Texto	Reconocimiento de escritura a mano, clasificación	1992	^[89]	H. Guvenir y col.
Conjunto de datos de letras	Letras impresas en mayúsculas.	Se extraen 17 características de todas las imágenes.	20.000	Texto	OCR, clasificación	1991	^[90]^[91]	D. Slate y col.
CASIA-HWDB	Base de datos de caracteres chinos escritos a mano sin conexión . 3755 clases en el juego de caracteres GB 2312 .	Imágenes en escala de grises con píxeles de fondo etiquetados como 255.	1,172,907	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	2009	^[92]	CASIA
CASIA-OLHWDB	Base de datos de caracteres chinos manuscritos en línea, recopilada con lápiz Anoto sobre papel. 3755 clases en el juego de caracteres GB 2312 .	Proporciona las secuencias de coordenadas de trazos.	1,174,364	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	2009	^[93]^[92]	CASIA
Conjunto de datos de trayectorias de caracteres	Muestras etiquetadas de trayectorias de punta de lápiz para personas que escriben caracteres simples.	Matriz de trayectoria de velocidad de la punta del lápiz tridimensional para cada muestra	2858	Texto	Reconocimiento de escritura a mano, clasificación	2008	^[94]^[95]	B. Williams
Conjunto de datos Chars74K	Reconocimiento de caracteres en imágenes naturales de símbolos utilizados tanto en inglés como en kannada.		74,107		Reconocimiento de caracteres, reconocimiento de escritura a mano, OCR, clasificación	2009	^[96]	T. de Campos
Conjunto de datos de personajes de la pluma UJI	Caracteres escritos a mano aislados	Se dieron las coordenadas de la posición de la pluma a medida que se escribían los caracteres.	11,640	Texto	Reconocimiento de escritura a mano, clasificación	2009	^[97]^[98]	F. Prat y col.
Conjunto de datos de Gisette	Muestras de escritura a mano de los 4 y 9 caracteres que a menudo se confunden.	Funciones extraídas de imágenes, divididas en tren / prueba, imágenes de escritura a mano con tamaño normalizado.	13.500	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	2003	^[99]	Yann LeCun y col.
Conjunto de datos omniglot	1623 caracteres manuscritos diferentes de 50 alfabetos diferentes.	Etiquetado a mano.	38,300	Imágenes, texto, trazos	Clasificación, aprendizaje de una sola vez	2015	^[100]^[101]	Asociación Estadounidense para el Avance de la Ciencia
Base de datos MNIST	Base de datos de dígitos escritos a mano.	Etiquetado a mano.	60.000	Imágenes, texto	Clasificación	1998	^[102]^[103]	Instituto Nacional de Estándares y Tecnología
Conjunto de datos de reconocimiento óptico de dígitos escritos a mano	Mapas de bits normalizados de datos escritos a mano.	Tamaño normalizado y mapeado a mapas de bits.	5620	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	1998	^[104]	E. Alpaydin y col.
Conjunto de datos de reconocimiento basado en lápiz de dígitos escritos a mano	Dígitos escritos a mano en tableta electrónica.	Los vectores de características se extraen para espaciarlos uniformemente.	10.992	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	1998	^[105]^[106]	E. Alpaydin y col.
Conjunto de datos de dígitos manuscritos de Semeion	Dígitos manuscritos de 80 personas.	Todos los dígitos escritos a mano se normalizaron para el tamaño y se asignaron a la misma cuadrícula.	1593	Imágenes, texto	Reconocimiento de escritura a mano, clasificación	2008	^[107]	T. Srl
HASYv2	Símbolos matemáticos escritos a mano	Todos los símbolos están centrados y tienen un tamaño de 32px x 32px.	168233	Imágenes, texto	Clasificación	2017	^[108]	Martín Thoma
Conjunto de datos en bangla manuscrito ruidoso	Incluye un conjunto de datos numérico escrito a mano (10 clases) y un conjunto de datos de caracteres básicos (50 clases), cada conjunto de datos tiene tres tipos de ruido: gaussiano blanco, desenfoque de movimiento y contraste reducido.	Todas las imágenes están centradas y tienen un tamaño de 32x32.	Conjunto de datos numéricos: 23330, Conjunto de datos de caracteres: 76000	Imagenes texto	Reconocimiento de escritura a mano, clasificación	2017	^[109]^[110]	M. Karki y col.

Imágenes aéreas

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de segmentación de imágenes aéreas	80 imágenes aéreas de alta resolución con una resolución espacial que va de 0,3 a 1,0.	Imágenes segmentadas manualmente.	80	Imagenes	Clasificación aérea, detección de objetos	2013	^[111]^[112]	J. Yuan y col.
Conjunto de datos KIT AIS	Múltiples conjuntos de datos de entrenamiento y evaluación etiquetados de imágenes aéreas de multitudes.	Imágenes etiquetadas manualmente para mostrar los caminos de las personas a través de multitudes.	~ 150	Imágenes con caminos	Seguimiento de personas, seguimiento aéreo	2012	^[113]^[114]	M. Butenuth y col.
Conjunto de datos de marchitez	Datos de teledetección de árboles enfermos y otras coberturas terrestres.	Varias características extraídas.	4899	Imagenes	Clasificación, detección de objetos aéreos	2014	^[115]^[116]	B. Johnson
Conjunto de datos MASATI	Escenas marítimas de imágenes aéreas ópticas del espectro visible. Contiene imágenes en color en entornos marinos dinámicos, cada imagen puede contener uno o varios objetivos en diferentes condiciones climáticas y de iluminación.	Cuadros delimitadores de objetos y etiquetado.	7389	Imagenes	Clasificación, detección de objetos aéreos	2018	^[117]^[118]	A.-J. Gallego y col.
Conjunto de datos de mapeo de tipo de bosque	Imágenes satelitales de bosques en Japón.	Bandas de longitud de onda de la imagen extraídas.	326	Texto	Clasificación	2015	^[119]^[120]	B. Johnson
Conjunto de datos de investigación de imágenes aéreas	Imágenes aéreas anotadas. Imágenes con múltiples objetos.	Más de 30 anotaciones y más de 60 estadísticas que describen el objetivo dentro del contexto de la imagen.	1000	Imágenes, texto	Clasificación	2009	^[121]^[122]	F. Tanner y col.
SpaceNet	SpaceNet es un corpus de imágenes de satélite comerciales y datos de entrenamiento etiquetados.	Archivos GeoTiff y GeoJSON que contienen huellas de edificios.	> 17533	Imagenes	Clasificación, identificación de objetos	2017	^[123]^[124]^[125]	DigitalGlobe, Inc.
Conjunto de datos de uso de la tierra de UC Merced	Estas imágenes se extrajeron manualmente de imágenes grandes de la colección de imágenes del área urbana del mapa nacional del USGS para varias áreas urbanas de los EE. UU.	Este es un conjunto de datos de imágenes de uso de la tierra de 21 clases destinado a fines de investigación. Hay 100 imágenes para cada clase.	2,100	Chips de imagen de 256x256, 30 cm (1 pie) GSD	Clasificación de cobertura terrestre	2010	^[126]	Yi Yang y Shawn Newsam
Conjunto de datos aerotransportados SAT-4	Las imágenes se extrajeron del conjunto de datos del Programa Nacional de Imágenes Agrícolas (NAIP).	SAT-4 tiene cuatro clases amplias de cobertura terrestre, incluye tierras estériles, árboles, pastizales y una clase que consta de todas las clases de cobertura terrestre distintas de las tres anteriores.	500.000	Imagenes	Clasificación	2015	^[127]^[128]	S. Basu y col.
Conjunto de datos aerotransportados SAT-6	Las imágenes se extrajeron del conjunto de datos del Programa Nacional de Imágenes Agrícolas (NAIP).	El SAT-6 tiene seis clases amplias de cobertura terrestre, que incluye terrenos baldíos, árboles, pastizales, carreteras, edificios y cuerpos de agua.	405.000	Imagenes	Clasificación	2015	^[127]^[128]	S. Basu y col.

Otras imagenes

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Teoría funcional de la densidad simulaciones cuánticas de grafeno	Imágenes etiquetadas de entrada sin procesar a una simulación de grafeno	Datos brutos (en formato HDF5) y etiquetas de salida de la simulación cuántica de teoría funcional de densidad	60744 archivos de prueba y 501473 y de formación	Imágenes etiquetadas	Regresión	2019	^[129]	K. Mills y I. Tamblyn
Simulaciones cuánticas de un electrón en un pozo de potencial bidimensional	Imágenes etiquetadas de entrada sin procesar a una simulación de mecánica cuántica 2D	Datos brutos (en formato HDF5) y etiquetas de salida de simulación cuántica	1,3 millones de imágenes	Imágenes etiquetadas	Regresión	2017	^[130]	K. Mills, MA Spanner e I. Tamblyn
Conjunto de datos de actividades de cocina MPII	Vídeos e imágenes de diversas actividades culinarias.	Rutas e indicaciones de actividad, etiquetas, etiquetado de movimiento detallado, clase de actividad, extracción y etiquetado de imágenes fijas.	881,755 cuadros	Vídeo, imágenes y texto con etiquetas	Clasificación	2012	^[131]^[132]	M. Rohrbach y col.
Conjunto de datos de FAMOS	5000 microestructuras únicas, todas las muestras se han adquirido 3 veces con dos cámaras diferentes.	Archivos PNG originales, ordenados por cámara y luego por adquisición. Archivos de datos MATLAB con una matriz 16384 veces 5000 por cámara por adquisición.	30.000	Imágenes y archivos .mat	Autenticación	2012	^[133]	S. Voloshynovskiy y col.
Conjunto de datos de PharmaPack	1000 clases únicas con 54 imágenes por clase.	Etiquetado de clases, muchos descriptores locales, como SIFT y aKaZE, y creadores de características locales, como Fisher Vector (FV).	54.000	Imágenes y archivos .mat	Clasificación de grano fino	2017	^[134]	O. Taran y S. Rezaeifar, et al.
Conjunto de datos de Stanford Dogs	Imágenes de 120 razas de perros de todo el mundo.	Se proporcionan divisiones de entrenamiento / prueba y anotaciones de ImageNet.	20.580	Imágenes, texto	Clasificación de grano fino	2011	^[135]^[136]	A. Khosla y col.
StanfordExtra Conjunto de datos	Puntos clave y segmentaciones 2D para el conjunto de datos de Stanford Dogs.	Se proporcionan segmentaciones y puntos clave 2D.	12,035	Imágenes etiquetadas	Reconstrucción 3D / estimación de pose	2020	^[137]	B. Biggs y col.
El conjunto de datos de mascotas Oxford-IIIT	37 categorías de mascotas con aproximadamente 200 imágenes de cada una.	Etiqueta de raza, cuadro delimitador ajustado, segmentación de primer plano y fondo.	~ 7400	Imágenes, texto	Clasificación, detección de objetos	2012	^[136]^[138]	O. Parkhi y col.
Conjunto de datos de características de imagen de Corel	Base de datos de imágenes con características extraídas.	Muchas características, incluido el histograma de color, la textura de co-ocurrencia y los momentos de color,	68,040	Texto	Clasificación, detección de objetos	1999	^[139]^[140]	M. Ortega-Bindenberger y col.
Características de video en línea y conjunto de datos de tiempo de transcodificación.	Tiempos de transcodificación para varios videos y propiedades de video diferentes.	Características de video dadas.	168.286	Texto	Regresión	2015	^[141]	T. Deneke y col.
Conjunto de datos narrativos de imágenes secuenciales de Microsoft (SIND)	Conjunto de datos para visión secuencial al lenguaje	Leyenda descriptiva y narración de cada foto, y las fotos están organizadas en secuencias.	81,743	Imágenes, texto	Narración visual	2016	^[142]	Investigación de Microsoft
Conjunto de datos Caltech-UCSD Birds-200-2011	Gran conjunto de datos de imágenes de aves.	Ubicaciones de piezas para pájaros, cuadros delimitadores, 312 atributos binarios dados	11,788	Imágenes, texto	Clasificación	2011	^[143]^[144]	C. Wah y col.
YouTube-8M	Conjunto de datos de video etiquetado grande y diverso	ID de video de YouTube y etiquetas asociadas de un vocabulario diverso de 4800 entidades visuales	8 millones	Video, texto	Clasificación de video	2016	^[145]^[146]	S. Abu-El-Haija y col.
YFCC100M	Conjunto de datos de imagen y video etiquetado grande y diverso	Vídeos e imágenes de Flickr y descripción, títulos, etiquetas y otros metadatos asociados (como EXIF y geoetiquetas)	100 millones	Video, imagen, texto	Clasificación de imágenes y videos	2016	^[147]^[148]	B. Thomee y col.
Discreto LIRIS-ACCEDE	Vídeos cortos anotados por la valencia y la excitación.	Etiquetas de valencia y excitación.	9800	Video	Detección de provocación de emoción por video	2015	^[149]	Y. Baveye y col.
LIRIS-ACCEDE continuo	Vídeos largos con anotaciones de valencia y excitación, al tiempo que recopilan Galvanic Skin Response.	Etiquetas de valencia y excitación.	30	Video	Detección de provocación de emoción por video	2015	^[150]	Y. Baveye y col.
LIRIS-ACCEDE medieval	Ampliación de Discrete LIRIS-ACCEDE que incluye anotaciones para los niveles de violencia de las películas.	Etiquetas de violencia, valencia y excitación.	10900	Video	Detección de provocación de emoción por video	2015	^[151]	Y. Baveye y col.
Postura deportiva de Leeds	Anotaciones de poses humanas articuladas en 2000 imágenes de deportes naturales de Flickr.	Cultivo basto alrededor de una sola persona de interés con 14 etiquetas conjuntas	2000	Imágenes más etiquetas de archivo .mat	Estimación de la pose humana	2010	^[152]	S. Johnson y M. Everingham
Leeds Sports Pose Extended Training	Anotaciones de poses humanas articuladas en 10,000 imágenes de deportes naturales de Flickr.	14 etiquetas conjuntas a través de crowdsourcing	10000	Imágenes más etiquetas de archivo .mat	Estimación de la pose humana	2011	^[153]	S. Johnson y M. Everingham
Conjunto de datos de MCQ	6 exámenes reales diferentes basados en opciones múltiples (735 hojas de respuestas y 33.540 casillas de respuestas) para evaluar las técnicas y los sistemas de visión por computadora desarrollados para los sistemas de evaluación de pruebas de opción múltiple.	Ninguno	735 hojas de respuestas y 33,540 casillas de respuestas	Imágenes y etiquetas de archivo .mat	Desarrollo de sistemas de evaluación de pruebas de opción múltiple	2017	^[154]^[155]	Afifi, M. y col.
Videos de vigilancia	Los videos de vigilancia reales cubren un gran tiempo de vigilancia (7 días con 24 horas cada uno).	Ninguno	19 videos de vigilancia (7 días con 24 horas cada uno).	Videos	Compresión de datos	2016	^[156]	Taj-Eddin, IATF y col.
LILA BC	Biblioteca de información etiquetada de Alejandría: biología y conservación. Imágenes etiquetadas que respaldan la investigación del aprendizaje automático en torno a la ecología y las ciencias ambientales.	Ninguno	~ 10 millones de imágenes	Imagenes	Clasificación	2019	^[157]	Grupo de trabajo LILA
¿Podemos ver la fotosíntesis?	32 videos de ocho hojas vivas y ocho muertas grabados en condiciones de iluminación de CC y CA.	Ninguno	32 videos	Videos	Detección de vitalidad de plantas	2017	^[158]	Taj-Eddin, IATF y col.

Datos de texto

Conjuntos de datos que consisten principalmente en texto para tareas como procesamiento de lenguaje natural , análisis de sentimientos , traducción y análisis de grupos .

Reseñas

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Reseñas de Amazon	Reseñas de productos de EE. UU . De Amazon.com .	Ninguno.	~ 82M	Texto	Clasificación, análisis de sentimiento	2015	^[159]	McAuley y col.
Conjunto de datos de revisión de OpinRank	Reseñas de automóviles y hoteles de Edmunds.com y TripAdvisor respectivamente.	Ninguno.	42,230 / ~ 259,000 respectivamente	Texto	Análisis de sentimiento, agrupación	2011	^[160]^[161]	K. Ganesan y col.
MovieLens	22.000.000 clasificaciones y 580.000 etiquetas aplicadas a 33.000 películas por 240.000 usuarios.	Ninguno.	~ 22M	Texto	Regresión, agrupamiento, clasificación	2016	^[162]	Investigación de GroupLens
Yahoo! Calificaciones de los usuarios de música de artistas musicales	Más de 10 millones de calificaciones de artistas por usuarios de Yahoo.	Ninguno descrito.	~ 10 M	Texto	Agrupación, regresión	2004	^[163]^[164]	Yahoo!
Conjunto de datos de evaluación de automóviles	Propiedades del automóvil y su aceptabilidad general.	Se dan seis características categóricas.	1728	Texto	Clasificación	1997	^[165]^[166]	M. Bohanec
Conjunto de datos de preferencias de YouTube Comedy Slam	Datos de votos de usuarios para pares de videos que se muestran en YouTube. Los usuarios votaron por videos más divertidos.	Se proporcionaron metadatos de video.	1,138,562	Texto	Clasificación	2012	^[167]^[168]	Google
Conjunto de datos de reseñas de usuarios de Skytrax	Reseñas de usuarios de aerolíneas, aeropuertos, asientos y salones de Skytrax.	Las calificaciones son detalladas e incluyen muchos aspectos de la experiencia en el aeropuerto.	41396	Texto	Clasificación, regresión	2015	^[169]	Q. Nguyen
Conjunto de datos de evaluación del asistente de enseñanza	Revisiones de ayudantes de enseñanza.	Se proporcionan características de cada instancia, como la clase, el tamaño de la clase y el instructor.	151	Texto	Clasificación	1997	^[170]^[171]	W. Loh y col.
Corpus de comentarios de estudiantes vietnamitas (UIT-VSFC)	Comentarios de los estudiantes.	Comentarios	16 000	Texto	Clasificación	1997	^[172]	Nguyen y col.
Corpus vietnamita de emociones en las redes sociales (UIT-VSMEC)	Comentarios de Facebook de los usuarios.	Comentarios	6,927	Texto	Clasificación	1997	^[173]	Nguyen y col.
Conjunto de datos de detección de quejas de dominio abierto vietnamita (ViOCD)	Reseñas de productos de clientes	Comentarios	5.485	Texto	Clasificación	2021	^[174]	Nguyen y col.

Articulos de noticias

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de NYSK	Artículos de noticias en inglés sobre el caso relacionado con las acusaciones de agresión sexual contra el exdirector del FMI , Dominique Strauss-Kahn .	Filtrado y presentado en formato XML.	10,421	XML, texto	Análisis de sentimiento, extracción de temas	2013	^[175]	Dermouche, M. y col.
The Reuters Corpus Volumen 1	Amplio corpus de noticias de Reuters en inglés.	Categorización detallada y códigos de temas.	810 000	Texto	Clasificación, agrupamiento, resumen	2002	^[176]	Reuters
The Reuters Corpus Volumen 2	Amplio corpus de noticias de Reuters en varios idiomas.	Categorización detallada y códigos de temas.	487.000	Texto	Clasificación, agrupamiento, resumen	2005	^[177]	Reuters
Colección de investigación de texto de Thomson Reuters	Gran corpus de noticias.	Detalles no descritos.	1.800.370	Texto	Clasificación, agrupamiento, resumen	2009	^[178]	T. Rose y col.
Corpus de periódicos sauditas	31.030 artículos de periódicos árabes.	Metadatos extraídos.	31.030	JSON	Resumen, agrupación	2015	^[179]	M. Alhagri
RE3D (Conjunto de datos de evaluación de extracción de relaciones y entidades)	Entidad y Relación marcaron datos de varias fuentes de noticias y gubernamentales. Patrocinado por Dstl	Filtrado, categorización usando tipos de Baleen	no conocida	JSON	Reconocimiento de clasificación, entidad y relación	2017	^[180]	Dstl
Examiner Spam Clickbait Catalog	Clickbait, spam, titulares de fuentes colectivas de 2010 a 2015	Publicar fecha y titulares	3,089,781	CSV	Agrupación, eventos, sentimiento	2016	^[181]	R. Kulkarni
ABC Australia News Corpus	Todo el corpus de noticias de ABC Australia de 2003 a 2019	Publicar fecha y titulares	1,186,018	CSV	Agrupación, eventos, sentimiento	2020	^[182]	R. Kulkarni
Noticias mundiales: total de 20.000 feeds	Instantánea de una semana de todos los titulares en línea en más de 20 idiomas	Hora de publicación, URL y titulares	1,398,431	CSV	Agrupación, eventos, detección de idioma	2018	^[183]	R. Kulkarni
Titular de Reuters News Wire	11 años de eventos con marca de tiempo publicados en el cable de noticias	Hora de publicación, texto del título	16,121,310	CSV	PNL, Lingüística Computacional, Eventos	2018	^[184]	R. Kulkarni
The Irish Times Ireland News Corpus	Noticias de 24 años de Irlanda de 1996 a 2019	Hora de publicación, categoría del título y texto	1,484,340	CSV	PNL, Lingüística Computacional, Eventos	2020	^[185]	R. Kulkarni
Titulares de noticias Conjunto de datos para la detección del sarcasmo	Conjunto de datos de alta calidad con titulares de noticias sarcásticos y no sarcásticos.	Texto limpio y normalizado	26,709	JSON	PNL, Clasificación, Lingüística	2018	^[186]	Rishabh Misra

Mensajes

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de correo electrónico de Enron	Los correos electrónicos de los empleados de Enron organizados en carpetas.	Archivos adjuntos eliminados, direcciones de correo electrónico inválidas convertidas a [email protected] o [email protected].	~ 500 000	Texto	Análisis de redes , análisis de sentimientos	2004 (2015)	^[187]^[188]	Klimt, B. y Y. Yang
Conjunto de datos Ling-Spam	Corpus que contiene correos electrónicos tanto legítimos como spam .	Cuatro versiones del corpus que implican si se habilitó o no un lematizador o una lista de exclusión .	2,412 Jamón 481 Spam	Texto	Clasificación	2000	^[189]^[190]	Androutsopoulos, J. et al.
Conjunto de datos de recopilación de spam por SMS	Mensajes de spam recopilados por SMS.	Ninguno.	5.574	Texto	Clasificación	2011	^[191]^[192]	T. Almeida y col.
Conjunto de datos de veinte grupos de noticias	Mensajes de 20 grupos de noticias diferentes.	Ninguno.	20.000	Texto	Procesamiento natural del lenguaje	1999	^[193]	T. Mitchell y col.
Conjunto de datos de Spambase	Correos electrónicos no deseados.	Se extrajeron muchas características de texto.	4.601	Texto	Detección de spam, clasificación	1999	^[194]	M. Hopkins y col.
Conjunto de datos ColBERT	Chistes cortos.	Se eliminaron los valores atípicos.	200.000	Texto	Detección de humor, clasificación	2020	^[195]	I. Annamoradnejad.

Twitter y tweets

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
PelículaPeliculas	Conjunto de datos de clasificación de películas basado en tweets públicos y bien estructurados		~ 710 000	Texto	Clasificación, regresión	2018	^[196]	S. Dooms
Twitter100k	Pares de imágenes y tweets		100.000	Texto e imágenes	Recuperación de medios cruzados	2017	^[197]^[198]	Y. Hu y col.
Sentimiento140	Tweet datos de 2009, incluido el texto original, la marca de tiempo, el usuario y el sentimiento.	Clasificados mediante la supervisión a distancia de la presencia de emoticonos en un tweet.	1,578,627	Tweets, coma, valores separados	Análisis de los sentimientos	2009	^[199]^[200]	A. Go et al.
Conjunto de datos de Twitter de ASU	Datos de la red de Twitter, no tweets reales. Muestra conexiones entre una gran cantidad de usuarios.	Ninguno.	11,316,811 usuarios, 85,331,846 conexiones	Texto	Agrupación, análisis de gráficos	2009	^[201]^[202]	R. Zafarani y col.
Círculos sociales SNAP: base de datos de Twitter	Grandes datos de la red de Twitter.	Funciones de nodo, círculos y redes del ego.	1,768,149	Texto	Agrupación, análisis de gráficos	2012	^[203]^[204]	J. McAuley y col.
Conjunto de datos de Twitter para el análisis del sentimiento árabe	Tweets árabes.	Muestras etiquetadas a mano como positivas o negativas.	2000	Texto	Clasificación	2014	^[205]^[206]	N. Abdulla
Buzz en el conjunto de datos de redes sociales	Datos de Twitter y Tom's Hardware. Este conjunto de datos se centra en temas específicos de boca en boca que se debaten en esos sitios.	Los datos se muestran en una ventana para que el usuario pueda intentar predecir los eventos que conducen a los rumores de las redes sociales.	140.000	Texto	Regresión, clasificación	2013	^[207]^[208]	F. Kawala y col.
Paráfrasis y similitud semántica en Twitter (PIT)	Este conjunto de datos se centra en si los tweets tienen (casi) el mismo significado / información o no. Etiquetado manualmente.	tokenización, parte del discurso y etiquetado de entidad con nombre	18,762	Texto	Regresión, clasificación	2015	^[209]^[210]	Xu y col.
Conjunto de datos de referencia de Twitter de Geoparse	Este conjunto de datos contiene tweets durante diferentes eventos de noticias en diferentes países. Menciones de ubicación etiquetadas manualmente.	anotaciones de ubicación agregadas a metadatos JSON	6.386	Tweets, JSON	Clasificación, extracción de información	2014	^[211]^[212]	SE Middleton y col.
Colección de redes sociales holandesas	Este conjunto de datos contiene tweets COVID-19 hechos por hablantes holandeses o usuarios de Holanda. Los datos han sido anotados por máquina	clasificado por sentimiento, texto del tweet y descripción del usuario traducida al inglés. Se extraen menciones de la industria	271,342	JSONL	Sentimiento, clasificación de etiquetas múltiples, traducción automática	2020	^[213]^[214]^[215]	Aaaksh Gupta, Corona

Diálogos

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Corpus de chat de NPS	Publicaciones de salas de chat en línea específicas para cada edad.	Privacidad de la mano enmascarada, etiquetada como parte del discurso y acto de diálogo.	~ 500 000	XML	PNL, programación, lingüística	2007	^[216]	Forsyth, E., Lin, J. y Martell, C.
Twitter Triple Corpus	ABA se triplica extraído de Twitter.		4.232	Texto	PNL	2016	^[217]	Sordini, A. et al.
UseNet Corpus	Publicaciones en foros de UseNet.	Correos electrónicos y URL anonimizados. Omitió documentos con una extensión <500 palabras o> 500.000 palabras, o que eran <90% en inglés.	7 billones	Texto		2011	^[218]	Shaoul, C. y Westbury C.
NUS SMS Corpus	Mensajes SMS recopilados entre dos usuarios, con análisis de tiempos.		~ 10,000	XML	PNL	2011	^[219]	KAN, M
Reddit Todos los comentarios Corpus	Todos los comentarios de Reddit (a partir de 2015).		~ 1.7 mil millones	JSON	PNL, investigación	2015	^[220]	Stuck_In_the_Matrix
Corpus de diálogo de Ubuntu	Diálogos extraídos del flujo de chat de Ubuntu en IRC.			CSV	Investigación de sistemas de diálogo	2015	^[221]	Lowe, R. y col.
Desafío de seguimiento de estado de diálogo	Los desafíos de seguimiento del estado de diálogo 2 y 3 (DSTC2 y 3) fueron un desafío de investigación centrado en mejorar el estado del arte en el seguimiento del estado de los sistemas de diálogo hablado.	Transcripción de diálogos hablados con etiquetado	DSTC2 contiene ~ 3.2k llamadas - DSTC3 contiene ~ 2.3k llamadas	Json	Seguimiento del estado de diálogo	2014	^[222]	Henderson, Matthew y Thomson, Blaise y Williams, Jason D

Otro texto

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de Web of Science	Conjuntos de datos jerárquicos para la clasificación de texto	Ninguno.	46,985	Texto	Clasificación, Categorización	2017	^[223]^[224]	K. Kowsari y col.
Informes de casos legales	Casos del Tribunal Federal de Australia de 2006 a 2009.	Ninguno.	4000	Texto	Resumen, análisis de citas	2012	^[225]^[226]	F. Galgani y col.
Corpus de autoría de Blogger	Entradas de blog de 19,320 personas de blogger.com.	Blogger autoproporcionado género, edad, industria y signo astrológico.	681,288	Texto	Análisis de sentimiento, resumen, clasificación	2006	^[227]^[228]	J. Schler y col.
Estructura social de las redes de Facebook	Gran conjunto de datos de la estructura social de Facebook.	Ninguno.	100 universidades cubiertas	Texto	Análisis de red, agrupación	2012	^[229]^[230]	A. Traud y col.
Conjunto de datos para la comprensión automática de texto	Historias y preguntas asociadas para probar la comprensión del texto.	Ninguno.	660	Texto	Procesamiento del lenguaje natural, comprensión de la máquina.	2013	^[231]^[232]	M. Richardson y col.
El Proyecto Penn Treebank	Texto de origen natural anotado para estructura lingüística.	El texto se analiza en árboles semánticos.	~ 1 millón de palabras	Texto	Procesamiento de lenguaje natural, resumen	1995	^[233]^[234]	M. Marcus y col.
Conjunto de datos DEXTER	La tarea asignada es determinar, a partir de las características dadas, qué artículos se refieren a adquisiciones corporativas.	Las características extraídas incluyen raíces de palabras. Incluye funciones de distractor.	2600	Texto	Clasificación	2008	^[235]	Reuters
N-gramas de Google Libros	N-gramas de un corpus de libros muy grande	Ninguno.	2,2 TB de texto	Texto	Clasificación, agrupamiento, regresión	2011	^[236]^[237]	Google
Personae Corpus	Recopilado para experimentos de atribución de autoría y predicción de personalidad. Consta de 145 ensayos en holandés.	Además de los textos normales, se proporcionan textos con anotaciones sintácticas.	145	Texto	Clasificación, regresión	2008	^[238]^[239]	K. Luyckx y col.
Conjunto de datos CNAE-9	Tarea de categorización para descripciones de texto libre de empresas brasileñas.	Se ha extraído la frecuencia de palabras.	1080	Texto	Clasificación	2012	^[240]^[241]	P. Ciarelli y col.
Conjunto de datos de oraciones etiquetadas por sentimiento	3000 frases etiquetadas con sentimiento.	El sentimiento de cada oración se ha etiquetado a mano como positivo o negativo.	3000	Texto	Clasificación, análisis de sentimiento	2015	^[242]^[243]	D. Kotzias
BlogFeedback Dataset	Conjunto de datos para predecir la cantidad de comentarios que recibirá una publicación en función de las características de esa publicación.	Se extraen muchas características de cada publicación.	60,021	Texto	Regresión	2014	^[244]^[245]	K. Buza
Corpus de inferencia del lenguaje natural de Stanford (SNLI)	Leyendas de imágenes combinadas con oraciones recién construidas para formar pares neutrales, contradictorios o vinculantes.	Etiquetas de clase de vinculación, análisis sintáctico por el analizador PCFG de Stanford	570.000	Texto	Inferencia del lenguaje natural / reconocimiento de la vinculación textual	2015	^[246]	S. Bowman y col.
Colección DSL Corpus (DSLCC)	Una colección multilingüe de extractos breves de textos periodísticos en idiomas y dialectos similares.	Ninguno	294.000 frases	Texto	Discriminar entre idiomas similares	2017	^[247]	Tan, Liling y col.
Conjunto de datos de diccionario urbano	Corpus de palabras, votos y definiciones	Nombres de usuario anonimizados	2,580,925	CSV	PNL, comprensión de la máquina	2016 mayo	^[248]	Anónimo
Tirano saurio Rex	Resúmenes de Wikipedia alineados con entidades de Wikidata	La alineación de Wikidata se triplica con los resúmenes de Wikipedia	11M triples alineados	JSON y NIF [2]	PNL, extracción de relaciones	2018	^[249]	H. Elsahar y col.
Evaluación de comprensión del lenguaje general (GLUE)	Benchmark de nueve tareas	Varios	~ 1 millón de oraciones y pares de oraciones		NLU	2018	^[250]^[251]	Wang y col.
Contract Understanding Atticus Dataset (CUAD) (anteriormente conocido como Atticus Open Contract Dataset (AOK))	Conjunto de datos de contratos legales con abundantes anotaciones de expertos		~ 13.000 etiquetas	CSV y PDF	Procesamiento de lenguaje natural, QnA	2021		El proyecto Atticus
Conjunto de datos de subtítulos de imágenes vietnamitas (UIT-ViIC)	Conjunto de datos de subtítulos de imágenes vietnamitas		19,250 subtítulos para 3,850 imágenes	CSV y PDF	Procesamiento del lenguaje natural, Visión por computadora	2020	^[252]	Lam y col.
Nombres vietnamitas anotados con géneros (UIT-ViNames)	Nombres vietnamitas anotados con géneros		26,850 nombres completos vietnamitas anotados con géneros	CSV	Procesamiento natural del lenguaje	2020	^[253]	To et al.
Conjunto de datos de detección de habla tóxica y constructiva vietnamita (UIT-ViCTSD)	Conjunto de datos de detección de habla tóxica y constructiva vietnamita		10,000 comentarios de usuarios vietnamitas en periódicos en línea en 10 dominios	CSV	Procesamiento natural del lenguaje	2021	^[254]	Nguyen y col.
Conjunto de datos ColBERT	Chistes cortos.	Se eliminaron los valores atípicos.	200.000	Texto	Detección de humor, clasificación	2020	^[255]	Annamoradnejad y col.

Datos de sonido

Conjuntos de datos de sonidos y características de sonido.

Discurso

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Desafío de discurso de recursos cero 2015	Habla espontánea (inglés), habla de lectura (Xitsonga).	wav crudo	Inglés: 5h, 12 hablantes; Xitsonga: 2h30; 24 ponentes	sonar	Descubrimiento no supervisado de características del habla / unidades de subpalabras / unidades de palabras	2015	^[256]^[257]	Versteegh y col.
Conjunto de datos del habla de Parkinson	Múltiples grabaciones de personas con y sin enfermedad de Parkinson.	Características de voz extraídas, enfermedad calificada por el médico mediante una escala unificada de calificación de la enfermedad de Parkinson	1.040	Texto	Clasificación, regresión	2013	^[258]^[259]	BE Sakar y col.
Dígitos hablados en árabe	Dígitos hablados en árabe de 44 hombres y 44 mujeres.	Serie temporal de coeficientes de cepstrum de frecuencia mel .	8.800	Texto	Clasificación	2010	^[260]^[261]	M. Bedda y col.
Conjunto de datos ISOLET	Nombres de letras habladas.	Características extraídas de los sonidos.	7797	Texto	Clasificación	1994	^[262]^[263]	R. Cole y col.
Conjunto de datos de vocales japonesas	Nueve hablantes masculinos pronunciaron dos vocales japonesas sucesivamente.	Se le aplicó un análisis de predicción lineal de 12 grados para obtener una serie de tiempo discreto con 12 coeficientes cepstrum.	640	Texto	Clasificación	1999	^[264]^[265]	M. Kudo y col.
Conjunto de datos de telemonitorización de Parkinson	Múltiples grabaciones de personas con y sin enfermedad de Parkinson.	Características de sonido extraídas.	5875	Texto	Clasificación	2009	^[266]^[267]	A. Tsanas y col.
TIMIT	Grabaciones de 630 hablantes de ocho dialectos principales del inglés americano, cada uno de los cuales lee diez oraciones fonéticamente ricas.	El habla se transcribe léxica y fonémicamente.	6300	Texto	Reconocimiento de voz, clasificación.	1986	^[268]^[269]	J. Garofolo y col.
Corpus de habla árabe	Un corpus de voz de un solo hablante, árabe estándar moderno (MSA) con transcripciones fonéticas y ortográficas alineadas al nivel del fonema	El habla se transcribe ortográfica y fonéticamente con marcas de acento.	~ 1900	Texto, WAV	Síntesis de voz, reconocimiento de voz, alineación de corpus, logopedia, educación.	2016	^[270]	N. Halabi
Voz común	Una base de datos de dominio público de datos de fuentes colaborativas en una amplia gama de dialectos.	Validación por otros usuarios	Inglés: 1,118 horas	MP3 con los archivos de texto correspondientes	Reconocimiento de voz	Junio de 2017 (diciembre de 2019)	^[271]	Mozilla

Música

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Origen geográfico del conjunto de datos musicales	Funciones de audio de muestras de música de diferentes ubicaciones.	Funciones de audio extraídas mediante el software MARSYAS.	1.059	Texto	Clasificación geográfica, agrupación	2014	^[272]^[273]	F. Zhou y col.
Conjunto de datos de millones de canciones	Funciones de audio de un millón de canciones diferentes.	Funciones de audio extraídas.	1 M	Texto	Clasificación, agrupamiento	2011	^[274]^[275]	T. Bertin-Mahieux y col.
MUSDB18	Grabaciones de música popular multipista	Audio sin procesar	150	MP4, WAV	Separación de fuente	2017	^[276]	Z. Rafii y col.
Archivo de música gratis	Audio bajo Creative Commons de 100k canciones (343 días, 1TiB) con una jerarquía de 161 géneros, metadatos, datos de usuario, texto de forma libre.	Funciones de audio y audio sin procesar.	106,574	Texto, MP3	Clasificación, recomendación	2017	^[277]	M. Defferrard y col.
Conjunto de datos de armonía coral de Bach	Acordes de coral de Bach.	Funciones de audio extraídas.	5665	Texto	Clasificación	2014	^[278]^[279]	D. Radicioni y col.

Otros sonidos

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
UrbanSound	Grabaciones de sonido etiquetadas de sonidos como acondicionadores de aire, bocinas de automóviles y niños jugando.	Ordenado en carpetas por clase de eventos, así como metadatos en un archivo JSON y anotaciones en un archivo CSV.	1.059	Sonar ( WAV )	Clasificación	2014	^[280]^[281]	J. Salamon y col.
AudioSet	Fragmentos de sonido de 10 segundos de videos de YouTube y una ontología de más de 500 etiquetas.	Funciones de 128-d PCA'd VGG-ish cada 1 segundo.	2,084,320	Archivos de texto (CSV) y TensorFlow Record	Clasificación	2017	^[282]	J. Gemmeke y col., Google
Desafío de detección de audio de aves	Audio de estaciones de monitoreo ambiental, además de grabaciones colaborativas		17.000+		Clasificación	2016 (2018)	^[283]^[284]	Queen Mary University y IEEE Signal Processing Society
WSJ0 Hipster Ambient Mezclas	Audio de WSJ0 mezclado con ruido grabado en el Área de la Bahía de San Francisco	Clips de ruido adaptados a los clips WSJ0	28.000	Sonido ( WAV )	Separación de fuente de audio	2019	^[285]	Wichern, G., et al., Whisper y MERL
Cloto	4.981 muestras de audio de 15 a 30 segundos de duración, cada muestra de audio tiene cinco subtítulos diferentes de ocho a 20 palabras de longitud.		24,905	Sonido ( WAV ) y texto ( CSV )	Subtítulos de audio automatizados	2020	^[286]^[287]	K. Drossos, S. Lipping y T. Virtanen

Datos de señal

Conjuntos de datos que contienen información de señales eléctricas que requieren algún tipo de procesamiento de señales para su posterior análisis.

Eléctrico

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de gusanos ingeniosos	Conjunto de datos que detalla la propagación del gusano Witty y las computadoras infectadas.	Dividir en un conjunto disponible públicamente y un conjunto restringido que contiene información más confidencial como encabezados IP y UDP.	55,909 direcciones IP	Texto	Clasificación	2004	^[288]^[289]	Centro de análisis de datos de Internet aplicado
Conjunto de datos de estimación de la presión arterial sin manguito	Señales vitales limpias de pacientes humanos que se pueden usar para estimar la presión arterial.	Se han limpiado los signos vitales de 125 Hz.	12.000	Texto	Clasificación, regresión	2015	^[290]^[291]	M. Kachuee y col.
Conjunto de datos de deriva de matriz de sensor de gas	Mediciones de 16 sensores químicos utilizados en simulaciones para compensación de deriva.	Se proporciona una gran cantidad de funciones.	13,910	Texto	Clasificación	2012	^[292]^[293]	A. Vergara
Conjunto de datos de servo	Datos que cubren las relaciones no lineales observadas en un circuito de servoamplificador.	Se dan los niveles de varios componentes en función de otros componentes.	167	Texto	Regresión	1993	^[294]^[295]	K. Ullrich
Conjunto de datos UJIIndoorLoc-Mag	Base de datos de localización en interiores para probar sistemas de posicionamiento en interiores. Los datos se basan en campos magnéticos.	Entrene y pruebe las divisiones dadas.	40.000	Texto	Clasificación, regresión, agrupación	2015	^[296]^[297]	D. Rambla y col.
Conjunto de datos de diagnóstico de unidades sin sensores	Señales eléctricas de motores con componentes defectuosos.	Características estadísticas extraídas.	58.508	Texto	Clasificación	2015	^[298]^[299]	M. Bator

Rastreo de movimiento

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Computación portátil: Clasificación de posturas y movimientos corporales (PUC-Rio)	Personas que realizan cinco acciones estándar con rastreadores de movimiento.	Ninguno.	165,632	Texto	Clasificación	2013	^[300]^[301]	Pontificia Universidad Católica de Rio de Janeiro
Conjunto de datos de segmentación de fase de gestos	Funciones extraídas de videos de personas que realizan varios gestos.	Las características extraídas tienen como objetivo estudiar la segmentación de la fase del gesto.	9900	Texto	Clasificación, agrupamiento	2014	^[302]^[303]	R. Madeo et a
Conjunto de datos de conjunto de datos de acción física de Vicon	10 acciones físicas normales y 10 agresivas que miden la actividad humana rastreada por un rastreador 3D.	Muchos parámetros registrados por el rastreador 3D.	3000	Texto	Clasificación	2011	^[304]^[305]	T. Theodoridis
Conjunto de datos de actividades diarias y deportivas	Datos del sensor motor para 19 actividades diarias y deportivas.	Se han proporcionado muchos sensores, sin preprocesamiento de señales.	9120	Texto	Clasificación	2013	^[306]^[307]	B. Barshan y col.
Reconocimiento de actividad humana mediante el conjunto de datos de teléfonos inteligentes	Datos de giroscopio y acelerómetro de personas que usan teléfonos inteligentes y realizan acciones normales.	Las acciones realizadas están etiquetadas, todas las señales preprocesadas para ruido.	10,299	Texto	Clasificación	2012	^[308]^[309]	J. Reyes-Ortiz y col.
Signos del lenguaje de señas australiano	Signos de lenguaje de señas australiano capturados por guantes de seguimiento de movimiento.	Ninguno.	2565	Texto	Clasificación	2002	^[310]^[311]	M. Kadous
Ejercicios de levantamiento de pesas monitoreados con unidades de medida inercial	Cinco variaciones del ejercicio de curl de bíceps monitoreados con IMU.	Algunas estadísticas calculadas a partir de datos brutos.	39,242	Texto	Clasificación	2013	^[312]^[313]	W. Ugulino y col.
sEMG para el conjunto de datos básicos de movimientos manuales	Dos bases de datos de señales electromiográficas de superficie de 6 movimientos de la mano.	Ninguno.	3000	Texto	Clasificación	2014	^[314]^[315]	C. Sapsanis y col.
Conjunto de datos de reconocimiento de actividad REALDISP	Evaluar técnicas que se ocupen de los efectos del desplazamiento del sensor en el reconocimiento de actividad portátil.	Ninguno.	1419	Texto	Clasificación	2014	^[315]^[316]	O. Banos y col.
Conjunto de datos de reconocimiento de actividad de heterogeneidad	Datos de múltiples dispositivos inteligentes diferentes para humanos que realizan diversas actividades.	Ninguno.	43,930,257	Texto	Clasificación, agrupamiento	2015	^[317]^[318]	A. Stisen y col.
Predicción del movimiento del usuario en interiores a partir de datos RSS	Datos de red inalámbrica temporal que se pueden utilizar para rastrear el movimiento de personas en una oficina.	Ninguno.	13.197	Texto	Clasificación	2016	^[319]^[320]	D. Bacciu
Conjunto de datos de monitoreo de actividad física PAMAP2	18 tipos diferentes de actividades físicas realizadas por 9 sujetos que llevaban 3 IMU.	Ninguno.	3.850.505	Texto	Clasificación	2012	^[321]	A. Reiss
OPORTUNIDAD Conjunto de datos de reconocimiento de actividad	El reconocimiento de actividad humana a partir de sensores portátiles, de objetos y ambientales es un conjunto de datos diseñado para comparar los algoritmos de reconocimiento de la actividad humana.	Ninguno.	2551	Texto	Clasificación	2012	^[322]^[323]	D. Roggen y col.
Conjunto de datos de reconocimiento de actividades del mundo real	Reconocimiento de actividad humana desde dispositivos portátiles. Distingue entre siete posiciones del dispositivo en el cuerpo y comprende seis tipos diferentes de sensores.	Ninguno.	3,150,000 (por sensor)	Texto	Clasificación	2016	^[324]	T. Sztyler y col.
Conjunto de datos de pose de accidente cerebrovascular de rehabilitación de Toronto	Estimaciones de poses humanas en 3D (Kinect) de pacientes con accidente cerebrovascular y participantes sanos que realizan una serie de tareas utilizando un robot de rehabilitación de accidentes cerebrovasculares	Ninguno.	10 personas sanas y 9 sobrevivientes de derrames cerebrales (3500-6000 cuadros por persona)	CSV	Clasificación	2017	^[325]^[326]^[327]	E. Dolatabadi y col.
Corpus of Social Touch (CoST)	7805 capturas de gestos de 14 gestos táctiles sociales diferentes realizados por 31 sujetos. Los gestos se realizaron en tres variaciones: suave, normal y áspero, en una rejilla de sensor de presión envuelta alrededor de un brazo de maniquí.	Los gestos táctiles realizados están segmentados y etiquetados.	7805 capturas de gestos	CSV	Clasificación	2016	^[328]^[329]	M. Jung y col.

Otras señales

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de vino	Análisis químico de vinos cultivados en la misma región en Italia pero derivados de tres cultivares diferentes.	Se dan 13 propiedades de cada vino	178	Texto	Clasificación, regresión	1991	^[330]^[331]	M. Forina y col.
Conjunto de datos de plantas de energía de ciclo combinado	Datos de varios sensores dentro de una planta de energía funcionando durante 6 años.	Ninguno	9568	Texto	Regresión	2014	^[332]^[333]	P. Tufekci y col.

Datos físicos

Conjuntos de datos de sistemas físicos.

Física de altas energías

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos HIGGS	Simulaciones de Monte Carlo de colisiones de aceleradores de partículas.	Se dan 28 características de cada colisión.	11M	Texto	Clasificación	2014	^[334]^[335]^[336]	D. Whiteson
Conjunto de datos HEPMASS	Simulaciones de Monte Carlo de colisiones de aceleradores de partículas. El objetivo es separar la señal del ruido.	Se dan 28 características de cada colisión.	10,500,000	Texto	Clasificación	2016	^[335]^[336]^[337]	D. Whiteson

Sistemas

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de hidrodinámica de yates	Rendimiento del yate basado en dimensiones.	Se dan seis características para cada yate.	308	Texto	Regresión	2013	^[338]^[339]	R. López
Conjunto de datos de fallos de ejecución de robots	5 conjuntos de datos que se centran en la falla robótica para ejecutar tareas comunes.	Características con valores enteros, como el par y otras medidas del sensor.	463	Texto	Clasificación	1999	^[340]	L. Seabra y col.
Conjunto de datos de puentes de Pittsburgh	La descripción del diseño se da en términos de varias propiedades de varios puentes.	Se dan varias características del puente.	108	Texto	Clasificación	1990	^[341]^[342]	Y. Reich y col.
Conjunto de datos de automóviles	Datos sobre automóviles, su riesgo de seguro y sus pérdidas normalizadas.	Características del coche extraídas.	205	Texto	Regresión	1987	^[343]^[344]	J. Schimmer y col.
Conjunto de datos de MPG automático	Datos de MPG para automóviles.	Ocho características de cada coche dadas.	398	Texto	Regresión	1993	^[345]	Universidad de Carnegie mellon
Conjunto de datos de eficiencia energética	Requisitos de calefacción y refrigeración dados en función de los parámetros del edificio.	Parámetros de construcción dados.	768	Texto	Clasificación, regresión	2012	^[346]^[347]	A. Xifara y col.
Conjunto de datos de ruido propio de la superficie aerodinámica	Una serie de pruebas aerodinámicas y acústicas de secciones de palas aerodinámicas de dos y tres dimensiones.	Se proporcionan datos sobre frecuencia, ángulo de ataque, etc.	1503	Texto	Regresión	2014	^[348]	R. López
Conjunto de datos de juntas tóricas del transbordador espacial Challenger USA	Intente predecir problemas de juntas tóricas dados los datos anteriores del Challenger.	Se dan varias características de cada vuelo, como la temperatura de lanzamiento.	23	Texto	Regresión	1993	^[349]^[350]	D. Draper y col.
Conjunto de datos Statlog (Shuttle)	Conjuntos de datos del transbordador espacial de la NASA.	Nueve características dadas.	58.000	Texto	Clasificación	2002	^[351]	NASA

Astronomía

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Volcanes en Venus - Conjunto de datos del experimento JARtool	Imágenes de Venus devueltas por la nave espacial Magellan.	Las imágenes están etiquetadas por humanos.	no dado	Imagenes	Clasificación	1991	^[352]^[353]	M. Burl
Conjunto de datos del telescopio gamma MAGIC	Monte Carlo generó eventos de partículas gamma de alta energía.	Numerosas características extraídas de las simulaciones.	19,020	Texto	Clasificación	2007	^[353]^[354]	R. Bock
Conjunto de datos de llamaradas solares	Mediciones del número de ciertos tipos de eventos de llamaradas solares que ocurren en un período de 24 horas.	Se dan muchas características específicas de las erupciones solares.	1389	Texto	Regresión, clasificación	1989	^[355]	G. Bradshaw

Ciencia de la Tierra

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Volcanes del mundo	Datos de erupciones volcánicas para todos los eventos volcánicos conocidos en la tierra.	Se dan detalles tales como región, subregión, entorno tectónico, tipo de roca dominante.	1535	Texto	Regresión, clasificación	2013	^[356]	E. Venzke y col.
Conjunto de datos de golpes sísmicos	Actividades sísmicas de una mina de carbón.	La actividad sísmica se clasificó como peligrosa o no.	2584	Texto	Clasificación	2013	^[357]^[358]	M. Sikora y col.

Otro físico

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de resistencia a la compresión del hormigón	Conjunto de datos de propiedades del hormigón y resistencia a la compresión.	Se dan nueve características para cada muestra.	1030	Texto	Regresión	2007	^[359]^[360]	Yo, yeh
Conjunto de datos de prueba de asentamiento de hormigón	Flujo de asentamiento del hormigón expresado en términos de propiedades.	Características del hormigón dadas como cenizas volantes, agua, etc.	103	Texto	Regresión	2009	^[361]^[362]	Yo, yeh
Conjunto de datos de Musk	Predice si una molécula, dadas las características, será almizclada o no almizclada.	168 características dadas para cada molécula.	6598	Texto	Clasificación	1994	^[363]	Arris Pharmaceutical Corp.
Conjunto de datos de fallas de placas de acero	Placas de acero de 7 tipos diferentes.	27 características dadas para cada muestra.	1941	Texto	Clasificación	2010	^[364]	Centro de Investigación Semeion

Datos biologicos

Conjuntos de datos de sistemas biológicos.

Humano

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Base de datos de EEG	Estudio para examinar los correlatos de EEG de predisposición genética al alcoholismo.	Mediciones de 64 electrodos colocados en el cuero cabelludo muestreados a 256 Hz (época de 3,9 ms) durante 1 segundo.	122	Texto	Clasificación	1999	^[365]	H. Begleiter
Conjunto de datos de interfaz P300	Datos de nueve sujetos recopilados mediante la interfaz cerebro-computadora basada en P300 para sujetos discapacitados.	Dividir en cuatro sesiones para cada tema. Se proporciona el código MATLAB .	1.224	Texto	Clasificación	2008	^[366]^[367]	U. Hoffman y col.
Conjunto de datos de enfermedades cardíacas	Atribuido de pacientes con y sin cardiopatía.	75 atributos dados para cada paciente con algunos valores perdidos.	303	Texto	Clasificación	1988	^[368]^[369]	A. Janosi y col.
Conjunto de datos (diagnóstico) de cáncer de mama de Wisconsin	Conjunto de datos de características de masas mamarias. Se dan los diagnósticos por parte del médico.	Se dan 10 características para cada muestra.	569	Texto	Clasificación	1995	^[370]^[371]	W. Wolberg y col.
Encuesta Nacional sobre el Uso de Drogas y la Salud	Encuesta a gran escala sobre salud y consumo de drogas en Estados Unidos.	Ninguno.	55.268	Texto	Clasificación, regresión	2012	^[372]	Departamento de Salud y Servicios Humanos de los Estados Unidos
Conjunto de datos de cáncer de pulmón	Conjunto de datos de cáncer de pulmón sin definiciones de atributos	Se dan 56 características para cada caso	32	Texto	Clasificación	1992	^[373]^[374]	Z. Hong y col.
Conjunto de datos de arritmias	Datos de un grupo de pacientes, algunos de los cuales tienen arritmia cardíaca.	276 funciones para cada instancia.	452	Texto	Clasificación	1998	^[375]^[376]	H. Altay y col.
Diabetes 130 hospitales de EE. UU. Durante los años 1999-2008 Conjunto de datos	9 años de datos de readmisión en 130 hospitales de EE. UU. Para pacientes con diabetes.	Se dan muchas características de cada readmisión.	100.000	Texto	Clasificación, agrupamiento	2014	^[377]^[378]	J. Clore y col.
Retinopatía diabética Conjunto de datos de Debrecen	Características extraídas de imágenes de ojos con y sin retinopatía diabética.	Características extraídas y condiciones diagnosticadas.	1151	Texto	Clasificación	2014	^[379]^[380]	B. Antal y col.
Conjunto de datos Messidor de retinopatía diabética	Métodos para evaluar técnicas de segmentación e indexación en el campo de la oftalmología retiniana (MESSIDOR)	Presenta grado de retinopatía y riesgo de edema macular.	1200	Imágenes, texto	Clasificación, segmentación	2008	^[381]^[382]	Proyecto Messidor
Conjunto de datos de trastornos hepáticos	Datos para personas con trastornos hepáticos.	Siete características biológicas dadas para cada paciente.	345	Texto	Clasificación	1990	^[383]^[384]	Bupa Medical Research Ltd.
Conjunto de datos de enfermedades de la tiroides	10 bases de datos de datos de pacientes con enfermedades de la tiroides.	Ninguno.	7200	Texto	Clasificación	1987	^[385]^[386]	R. Quinlan
Conjunto de datos de mesotelioma	Datos de pacientes con mesotelioma.	Se dan una gran cantidad de características, incluida la exposición al asbesto.	324	Texto	Clasificación	2016	^[387]^[388]	A. Tanrikulu y col.
Conjunto de datos de estimación de pose basada en la visión de Parkinson	Estimaciones de pose humana 2D de los pacientes de Parkinson que realizan una variedad de tareas.	El movimiento de la cámara se ha eliminado de las trayectorias.	134	Texto	Clasificación, regresión	2017	^[389]^[390]^[391]	M. Li y col.
Conjunto de datos de la red de reacción metabólica de KEGG (no dirigida)	Red de vías metabólicas. Se dan una red de reacción y una red de relación .	Se proporcionan características detalladas para cada nodo de red y ruta.	65,554	Texto	Clasificación, agrupamiento, regresión	2011	^[392]	M. Naeem y col.
Conjunto de datos de análisis de morfología de esperma humano modificado (MHSMA)	Imágenes de esperma humano de 235 pacientes con infertilidad por factor masculino, etiquetadas para acrosoma, cabeza, vacuola y cola de espermatozoides normales o anormales.	Recortada alrededor de la cabeza de un solo espermatozoide. Aumento normalizado. Se crearon divisiones de conjuntos de entrenamiento, validación y prueba.	1,540	archivos .npy	Clasificación	2019	^[393]^[394]	S. Javadi y SA Mirroshandel

Animal

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de abulón	Medidas físicas del abulón. También se dan los patrones climáticos y la ubicación.	Ninguno.	4177	Texto	Regresión	1995	^[395]	Laboratorios de investigación marina - Taroona
Conjunto de datos del zoológico	Conjunto de datos artificiales que cubren 7 clases de animales.	Los animales se clasifican en 7 categorías y se dan características para cada una.	101	Texto	Clasificación	1990	^[396]	R. Forsyth
Conjunto de datos de Demospongiae	Datos sobre esponjas marinas.	503 esponjas de la clase Demosponge se describen mediante varias características.	503	Texto	Clasificación	2010	^[397]	E. Armengol y col.
Conjunto de datos de secuencias de genes de empalme-unión	Secuencias de genes de empalme-unión (ADN) de primates con la teoría del dominio imperfecto asociado.	Ninguno.	3190	Texto	Clasificación	1992	^[374]	G. Towell y col.
Conjunto de datos de expresión de proteínas de ratones	Niveles de expresión de 77 proteínas medidos en la corteza cerebral de ratones.	Ninguno.	1080	Texto	Clasificación, agrupación	2015	^[398]^[399]	C. Higuera y col.

Hongos

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de hongos UCI	Atributos y clasificación de los hongos.	Se dan muchas propiedades de cada hongo.	8124	Texto	Clasificación	1987	^[400]	J. Schlimmer
Conjunto de datos de hongos secundarios	Atributos y clasificación de los hongos	Datos simulados de entradas de hongos primarios más grandes y realistas. Totalmente reproducible.	61069	Texto	Clasificación	2020	^[401]^[402]	D. Wagner y col.

Planta

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de incendios forestales	Los incendios forestales y sus propiedades.	Se extraen 13 características de cada fuego.	517	Texto	Regresión	2008	^[403]^[404]	P. Cortez y col.
Conjunto de datos de iris	Tres tipos de plantas de iris se describen mediante 4 atributos diferentes.	Ninguno.	150	Texto	Clasificación	1936	^[405]^[406]	R. Fisher
Conjunto de datos de hojas de especies de plantas	Dieciséis muestras de hojas cada una de cien especies de plantas.	Se proporcionan el descriptor de forma, el margen de escala fina y los histogramas de textura.	1600	Texto	Clasificación	2012	^[407]^[408]	J. Cope y col.
Conjunto de datos de soja	Base de datos de plantas de soja enfermas.	Se dan 35 características para cada planta. Las plantas se clasifican en 19 categorías.	307	Texto	Clasificación	1988	^[409]	R. Michalski y col.
Conjunto de datos de semillas	Mediciones de propiedades geométricas de granos pertenecientes a tres variedades diferentes de trigo.	Ninguno.	210	Texto	Clasificación, agrupamiento	2012	^[410]^[411]	Charytanowicz y col.
Conjunto de datos Covertype	Datos para predecir el tipo de cobertura forestal estrictamente a partir de variables cartográficas.	Se dan muchas características geográficas.	581,012	Texto	Clasificación	1998	^[412]^[413]	J. Blackard y col.
Conjunto de datos de red de señalización de ácido abscísico	Datos para una red de señalización de planta. El objetivo es determinar el conjunto de reglas que gobiernan la red.	Ninguno.	300	Texto	Descubrimiento causal	2008	^[414]	J. Jenkens y col.
Conjunto de datos en folio	20 fotos de hojas para cada una de las 32 especies.	Ninguno.	637	Imágenes, texto	Clasificación, agrupamiento	2015	^[415]^[416]	T. Munisami y col.
Conjunto de datos de flores de Oxford	Conjunto de datos de 17 categorías de flores.	Divisiones de entrenamiento / prueba, imágenes etiquetadas,	1360	Imágenes, texto	Clasificación	2006	^[138]^[417]	ME Nilsback y col.
Conjunto de datos de plántulas de plantas	Conjunto de datos de 12 categorías de plántulas de plantas.	Imágenes etiquetadas, imágenes segmentadas,	5544	Imagenes	Clasificación, detección	2017	^[418]	Giselsson y col.
Conjunto de datos de Fruits 360	Base de datos con imágenes de 120 frutas y verduras.	100x100 píxeles, fondo blanco.	82213	Imágenes (jpg)	Clasificación	2017-2019	^[419]^[420]	Mihai Oltean, Horea Muresan

Microbio

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de Ecoli	Sitios de localización de proteínas.	Se dan varias características de los sitios de localización de proteínas.	336	Texto	Clasificación	1996	^[421]^[422]	K. Nakai y col.
Conjunto de datos de MicroMass	Identificación de microorganismos a partir de datos de espectrometría de masas.	Varias características del espectrómetro de masas.	931	Texto	Clasificación	2013	^[423]^[424]	P. Mahe y col.
Conjunto de datos de levadura	Predicciones de sitios de localización celular de proteínas.	Ocho características dadas por instancia.	1484	Texto	Clasificación	1996	^[425]^[426]	K. Nakai y col.

Descubrimiento de medicamento

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos Tox21	Predicción del resultado de ensayos biológicos.	Se dan descriptores químicos de moléculas.	12707	Texto	Clasificación	2016	^[427]	A. Mayr y col.

Datos de anomalías

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Numenta Anomaly Benchmark (NAB)	Los datos son métricas ordenadas, con sello de tiempo y de un solo valor. Todos los archivos de datos contienen anomalías, a menos que se indique lo contrario.	Ninguno	50+ archivos	Valores Separados por Comas	Detección de anomalías	2016 (actualizado continuamente)	^[428]	Numenta
Benchmark de anomalías de Skoltech (SKAB)	Cada archivo representa un único experimento y contiene una única anomalía. El conjunto de datos representa una serie de tiempo multivariante recopilada de los sensores instalados en el banco de pruebas.	Hay dos marcas para problemas de detección de valores atípicos (anomalías puntuales) y detección de puntos de cambio (anomalías colectivas)	30+ archivos (v0.9)	Valores Separados por Comas	Detección de anomalías	2020 (actualizado continuamente)	^[429]^[430]	Iurii D. Katser y Vyacheslav O. Kozitsin
Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico	La mayoría de los archivos de datos están adaptados de los datos del Repositorio de aprendizaje automático de la UCI, algunos se recopilan de la literatura.	tratado por valores perdidos, atributos numéricos solamente, diferentes porcentajes de anomalías, etiquetas	1000+ archivos	ARFF	Detección de anomalías	2016 (posiblemente actualizado con nuevos conjuntos de datos y / o resultados)	^[431]	Campos y col.

Pregunta Respuesta datos

Esta sección incluye conjuntos de datos que tratan con datos estructurados.

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de respuesta a preguntas neuronales de DBpedia (DBNQA)	Una gran colección de Question to SPARQL especialmente diseñada para Respuesta a preguntas neuronales de dominio abierto sobre la base de conocimiento DBpedia.	Este conjunto de datos contiene una gran colección de plantillas e instancias de Open Neural SPARQL para entrenar máquinas Neural SPARQL; fue procesado previamente por herramientas de anotación semiautomáticas, así como por tres expertos de SPARQL.	894,499	Pares pregunta-consulta	Respuesta a preguntas	2018	^[432]^[433]	Hartmann, Soru y Marx et al.
Conjunto de datos de respuesta a preguntas vietnamitas (UIT-ViQuAD)	Una gran colección de preguntas vietnamitas para evaluar los modelos MRC.	Este conjunto de datos comprende más de 23,000 pares de preguntas y respuestas generados por humanos basados en 5,109 pasajes de 174 artículos vietnamitas de Wikipedia.	23,074	Pares de preguntas y respuestas	Respuesta a preguntas	2020	^[434]	Nguyen y col.
Corpus vietnamita de comprensión de lectura de máquina de opción múltiple (ViMMRC)	Una colección de preguntas vietnamitas de opción múltiple para evaluar los modelos MRC.	Este corpus incluye 2.783 preguntas vietnamitas de opción múltiple.	2,783	Pares de preguntas y respuestas	Respuesta a preguntas / Comprensión de lectura automática	2020	^[435]	Nguyen y col.

Datos multivariados

Conjuntos de datos que consisten en filas de observaciones y columnas de atributos que caracterizan esas observaciones. Normalmente se utiliza para análisis de regresión o clasificación, pero también se pueden utilizar otros tipos de algoritmos. Esta sección incluye conjuntos de datos que no encajan en las categorías anteriores.

Financiero

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Índice Dow Jones	Datos semanales de existencias del primer y segundo trimestre de 2011.	Se incluyen los valores calculados, como el cambio porcentual y los retrasos.	750	Valores Separados por Comas	Clasificación, regresión, series de tiempo	2014	^[436]^[437]	M. Brown y col.
Statlog (Aprobación de crédito australiano)	Solicitudes de tarjetas de crédito aceptadas o rechazadas y atributos sobre la solicitud.	Se eliminan los nombres de los atributos y la información de identificación. Los factores se han vuelto a etiquetar.	690	Valores Separados por Comas	Clasificación	1987	^[438]^[439]	R. Quinlan
Datos de la subasta de eBay	Datos de subasta de varios objetos de eBay.com en subastas de diferentes tamaños	Contiene todas las pujas, bidderID, tiempos de puja y precios de apertura.	~ 550	Texto	Regresión, clasificación	2012	^[440]^[441]	G. Shmueli y col.
Statlog (datos crediticios alemanes)	Clasificación crediticia binaria en "buena" o "mala" con muchas características	Se dan varias características financieras de cada persona.	690	Texto	Clasificación	1994	^[442]	H. Hofmann
Conjunto de datos de marketing bancario	Datos de una gran campaña de marketing realizada por un gran banco.	Se dan muchos atributos de los clientes contactados. Si el cliente suscrito al banco también se da.	45,211	Texto	Clasificación	2012	^[443]^[444]	S. Moro y col.
Conjunto de datos de la Bolsa de Valores de Estambul	Varios índices bursátiles rastreados durante casi dos años.	Ninguno.	536	Texto	Clasificación, regresión	2013	^[445]^[446]	O. Akbilgic
Incumplimiento de clientes de tarjetas de crédito	Datos de incumplimiento crediticio para acreedores taiwaneses.	Se dan varias características sobre cada cuenta.	30.000	Texto	Clasificación	2016	^[447]^[448]	Yo, yeh

Tiempo

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos en la nube	Datos sobre 1024 nubes diferentes.	Características de la imagen extraídas.	1024	Texto	Clasificación, agrupamiento	1989	^[449]	P. Collard
Conjunto de datos de El Niño	Lecturas oceanográficas y meteorológicas de superficie tomadas de una serie de boyas ubicadas a lo largo del Pacífico ecuatorial.	Se miden 12 atributos meteorológicos en cada boya.	178080	Texto	Regresión	1999	^[450]	Laboratorio Ambiental Marino del Pacífico
Conjunto de datos de la red de observación de gases de efecto invernadero	Serie de tiempo de concentraciones de gases de efecto invernadero en 2921 celdas de cuadrícula en California creadas usando simulaciones del clima.	Ninguno.	2921	Texto	Regresión	2015	^[451]	D. Lucas
CO2 atmosférico de muestras de aire continuas en el Observatorio Mauna Loa	Muestras de aire continuas en Hawái, EE. UU. 44 años de récords.	Ninguno.	44 años	Texto	Regresión	2001	^[452]	Observatorio Mauna Loa
Conjunto de datos de ionosfera	Datos de radar de la ionosfera. La tarea consiste en clasificar en buenos y malos resultados de radar.	Se dan muchas características de radar.	351	Texto	Clasificación	1989	^[386]^[453]	Universidad Johns Hopkins
Conjunto de datos de detección de nivel de ozono	Dos conjuntos de datos de nivel de ozono terrestre.	Se proporcionan muchas características, incluidas las condiciones meteorológicas en el momento de la medición.	2536	Texto	Clasificación	2008	^[454]^[455]	K. Zhang y col.

Censo

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos para adultos	Datos del censo de 1994 que contienen características demográficas de los adultos y sus ingresos.	Limpio y anonimizado.	48,842	Valores Separados por Comas	Clasificación	1996	^[456]	Oficina del censo de Estados Unidos
Ingresos del censo (KDD)	Datos censales ponderados de las Encuestas de población actual de 1994 y 1995 .	Dividir en conjuntos de entrenamiento y prueba.	299,285	Valores Separados por Comas	Clasificación	2000	^[457]^[458]	Oficina del censo de Estados Unidos
Base de datos del censo de IPUMS	Datos del censo de las áreas de Los Ángeles y Long Beach.	Ninguno	256,932	Texto	Clasificación, regresión	1999	^[459]	IPUMS
Datos del censo de EE. UU. 1990	Datos parciales del censo estadounidense de 1990.	Resultados aleatorios y atributos útiles seleccionados.	2,458,285	Texto	Clasificación, regresión	1990	^[460]	Oficina del censo de Estados Unidos

Tránsito

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de bicicletas compartidas	Recuento diario y horario de bicicletas de alquiler en una gran ciudad.	Se proporcionan muchas características, incluido el clima, la duración del viaje, etc.	17.389	Texto	Regresión	2013	^[461]^[462]	H. Fanaee-T
Datos de viajes en taxi de la ciudad de Nueva York	Datos de viaje para taxis amarillos y verdes en la ciudad de Nueva York.	Ofrece lugares para recoger y dejar, tarifas y otros detalles de los viajes.	6 años	Texto	Clasificación, agrupamiento	2015	^[463]	Comisión de taxis y limusinas de la ciudad de Nueva York
Trayectoria del servicio de taxi ECML PKDD	Trayectorias de todos los taxis en una gran ciudad.	Se ofrecen muchas funciones, incluidos los puntos de inicio y finalización.	1,710,671	Texto	Agrupación, descubrimiento causal	2015	^[464]^[465]	M. Ferreira y col.
METR-LA	Velocidad de los detectores de bucle en la carretera del condado de Los Ángeles.	Velocidad promedio en pasos de tiempo de 5 minutos.	7.094.304 de 207 sensores y 34.272 pasos de tiempo	Valores Separados por Comas	Regresión, pronóstico	2014	^[466]	Jagadish y col.
PeMS	Velocidad, flujo, ocupación y otras métricas de detectores de bucle y otros sensores en la autopista del estado de California, EE. UU.	La métrica generalmente se agrega a través de Promedio en pasos de tiempo de 5 minutos.	39.000 detectores individuales, cada uno con años de series temporales	Valores Separados por Comas	Regresión, previsión, predicción inmediata, interpolación	(actualizado en tiempo real)	^[467]	Departamento de Transporte de California

Internet

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Páginas web de Common Crawl 2012	Gran colección de páginas web y cómo están conectadas a través de hipervínculos.	Ninguno.	3,5 mil millones	Texto	agrupamiento, clasificación	2013	^[468]	V. Granville
Conjunto de datos de anuncios en Internet	Conjunto de datos para predecir si una imagen dada es un anuncio o no.	Las funciones codifican la geometría de los anuncios y las frases que aparecen en la URL.	3279	Texto	Clasificación	1998	^[469]^[470]	N. Kushmerick
Conjunto de datos de uso de Internet	Demografía general de los usuarios de Internet.	Ninguno.	10,104	Texto	Clasificación, agrupamiento	1999	^[471]	D. Cocinar
Conjunto de datos de URL	120 días de datos de URL de una gran conferencia.	Se proporcionan muchas características de cada URL.	2,396,130	Texto	Clasificación	2009	^[472]^[473]	J. Ma
Conjunto de datos de sitios web de phishing	Conjunto de datos de sitios web de phishing.	Se dan muchas características de cada sitio.	2456	Texto	Clasificación	2015	^[474]	R. Mustafa y col.
Conjunto de datos minoristas en línea	Transacciones en línea para un minorista en línea del Reino Unido.	Detalles de cada transacción dada.	541,909	Texto	Clasificación, agrupamiento	2015	^[475]	D. Chen
Volcado de tema simple de Freebase	Freebase es un esfuerzo en línea para estructurar todo el conocimiento humano.	Se han extraído temas de Freebase.	grande	Texto	Clasificación, agrupamiento	2011	^[476]^[477]	Freebase
Conjunto de datos de anuncios agrícolas	El texto de los anuncios agrícolas de los sitios web. Se otorga aprobación o desaprobación binaria por parte de los propietarios del contenido.	SVMlight vectores dispersos de palabras de texto en anuncios calculados.	4143	Texto	Clasificación	2011	^[478]^[479]	C. Masterharm y col.

Juegos

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de mano de póquer	5 manos de cartas de una baraja estándar de 52 cartas.	Se dan los atributos de cada mano, incluidas las manos de póquer formadas por las cartas que contiene.	1.025.010	Texto	Regresión, clasificación	2007	^[480]	R. Cattral
Conjunto de datos Connect-4	Contiene todas las posiciones legales de 8 capas en el juego de conectar 4 en las que ningún jugador ha ganado todavía y en las que no se fuerza el siguiente movimiento.	Ninguno.	67,557	Texto	Clasificación	1995	^[481]	J. Tromp
Conjunto de datos de ajedrez (King-Rook vs. King)	Base de datos de Endgame para White King y Rook contra Black King.	Ninguno.	28,056	Texto	Clasificación	1994	^[482]^[483]	M. Bain y col.
Conjunto de datos de ajedrez (rey-torre frente a rey-peón)	Rey + Torre contra Rey + Peón en a7.	Ninguno.	3196	Texto	Clasificación	1989	^[484]	R. Holte
Conjunto de datos de finales de Tic-Tac-Toe	Clasificación binaria para condiciones de victoria en tic-tac-toe.	Ninguno.	958	Texto	Clasificación	1991	^[485]	D. Ajá

Otro multivariado

Nombre del conjunto de datos	Breve descripción	Preprocesamiento	Instancias	Formato	Tarea predeterminada	Creado (actualizado)	Referencia	Creador
Conjunto de datos de vivienda	Valores medios de las viviendas de Boston con atributos asociados de viviendas y vecindarios.	Ninguno.	506	Texto	Regresión	1993	^[486]	D. Harrison y col.
Los vocabularios de Getty	terminología estructurada para el arte y otra cultura material, materiales de archivo, sustitutos visuales y materiales bibliográficos.	Ninguno.	grande	Texto	Clasificación	2015	^[487]	Centro Getty
Yahoo! Página principal Registro de clic del usuario del módulo Hoy	Registro de clics del usuario para los artículos de noticias que se muestran en la pestaña Destacados del Módulo Hoy en Yahoo! Página delantera.	Análisis conjunto con un modelo bilineal.	45,811,883 visitas de usuarios	Texto	Regresión, agrupamiento	2009	^[488]^[489]	Chu y col.
Centro Británico de Datos Oceanográficos	Datos biológicos, químicos, físicos y geofísicos de los océanos. 22K variables rastreadas.	Varios.	22K variables, muchas instancias	Texto	Regresión, agrupamiento	2015	^[490]	Centro Británico de Datos Oceanográficos
Conjunto de datos de registros de votación del Congreso	Datos de votación de todos los representantes de EE. UU. En 16 temas.	Más allá de los datos de votación sin procesar, se proporcionan otras características.	435	Texto	Clasificación	1987	^[491]	J. Schlimmer
Entree Conjunto de datos de recomendaciones de Chicago	Registro de interacciones del usuario con el sistema de recomendación de Entree Chicago.	Los detalles del uso de la aplicación por parte de cada usuario se registran en detalle.	50,672	Texto	Regresión, recomendación	2000	^[492]	R. Burke
Benchmark de la compañía de seguros (COIL 2000)	Información sobre clientes de una compañía de seguros.	Muchas características de cada cliente y los servicios que utiliza.	9.000	Texto	Regresión, clasificación	2000	^[493]^[494]	P. van der Putten
Conjunto de datos de vivero	Datos de postulantes a guarderías.	Se incluyen datos sobre la familia del solicitante y varios otros factores.	12,960	Texto	Clasificación	1997	^[495]^[496]	V. Rajkovic y col.
Conjunto de datos universitarios	Datos que describen atribuidos de un gran número de universidades.	Ninguno.	285	Texto	Agrupación, clasificación	1988	^[497]	S. Sounders y col.
Conjunto de datos del centro de servicio de transfusión de sangre	Datos del centro de servicio de transfusión de sangre. Proporciona datos sobre la tasa de retorno de los donantes, la frecuencia, etc.	Ninguno.	748	Texto	Clasificación	2008	^[498]^[499]	Yo, yeh
Conjunto de datos de patrones de comparación de vínculos de registros	Gran conjunto de datos de registros. La tarea consiste en vincular los registros relevantes.	Se aplicó el procedimiento de bloqueo para seleccionar solo ciertos pares de registros.	5.749.132	Texto	Clasificación	2011	^[500]^[501]	Universidad de Mainz
Conjunto de datos de Nomao	Nomao recopila datos sobre lugares de muchas fuentes diferentes. La tarea consiste en detectar elementos que describan el mismo lugar.	Duplicados etiquetados.	34,465	Texto	Clasificación	2012	^[502]^[503]	Laboratorios Nomao
Conjunto de datos de películas	Datos para 10,000 películas.	Se dan varias características para cada película.	10,000	Texto	Agrupación, clasificación	1999	^[504]	G. Wiederhold
Conjunto de datos de análisis de aprendizaje de Open University	Información sobre los estudiantes y sus interacciones con un entorno de aprendizaje virtual.	Ninguno.	~ 30 000	Texto	Clasificación, agrupamiento, regresión	2015	^[505]^[506]	J. Kuzilek y col.
Registros de teléfonos móviles	Actividad e interacciones de telecomunicaciones	Agregación por celdas de la cuadrícula geográfica y cada 15 minutos.	grande	Texto	Clasificación, agrupamiento, regresión	2015	^[507]	G. Barlacchi y col.

Repositorios seleccionados de conjuntos de datos

Dado que los conjuntos de datos vienen en innumerables formatos y, a veces, pueden ser difíciles de usar, se ha realizado un trabajo considerable para seleccionar y estandarizar el formato de los conjuntos de datos para que sean más fáciles de usar para la investigación del aprendizaje automático.

OpenML: ^[508] Plataforma web con Python, R, Java y otras API para descargar cientos de conjuntos de datos de aprendizaje automático, evaluar algoritmos en conjuntos de datos y comparar el rendimiento del algoritmo con docenas de otros algoritmos.
PMLB: ^[509] Un gran repositorio curado de conjuntos de datos de referencia para evaluar algoritmos de aprendizaje automático supervisados. Proporciona conjuntos de datos de clasificación y regresión en un formato estandarizado a los que se puede acceder a través de una API de Python.
Metatext NLP: https://metatext.io/datasets repositorio web mantenido por la comunidad, que contiene casi 1000 conjuntos de datos de referencia y contando. Proporciona muchas tareas, desde clasificación hasta control de calidad, y varios idiomas, desde inglés, portugués hasta árabe.
Appen : Off The Shelf y conjuntos de datos de código abierto alojados y mantenidos por la empresa. Estos recursos biológicos, de imagen, físicos, de respuesta a preguntas, señal, sonido, texto y video suman más de 250 y se pueden aplicar a más de 25 casos de uso diferentes. ^[510]^[511]

Ver también

Comparación de software de aprendizaje profundo
Lista de herramientas manuales de anotación de imágenes
Lista de bases de datos biológicas

Referencias

^ Wissner-Gross, A. "Conjuntos de datos sobre algoritmos" . Edge.com . Consultado el 8 de enero de 2016 .
^ Weiss, GM; Provost, F. (1 de septiembre de 2003). "Aprender cuando los datos de formación son costosos: el efecto de la distribución de clases en la inducción de árboles" . Revista de Investigación en Inteligencia Artificial . Fundación AI Access. 19 : 315–354. doi : 10.1613 / jair.1199 . ISSN 1076-9757 . S2CID 2344521 .
^ Turney, Peter (2000). "Tipos de costo en el aprendizaje de conceptos inductivos". arXiv : cs / 0212034 .
^ Abney, Steven (17 de septiembre de 2007). Aprendizaje semisupervisado para lingüística computacional . Prensa CRC. ISBN 978-1-4200-1080-0.
^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Aprendizaje activo con la evolución de la transmisión de datos". Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Berlín, Heidelberg: Springer Berlin Heidelberg. págs. 597–612. doi : 10.1007 / 978-3-642-23808-6_39 . ISBN 978-3-642-23807-9. ISSN 0302-9743 .
^ Zafeiriou, S .; Kollias, D .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Kotsia, I. (2017). "Aff-Wild: desafío de valencia y excitación en la naturaleza" (PDF) . Talleres de Visión por Computador y Reconocimiento de Patrones (CVPRW), 2017 : 1980–1987. doi : 10.1109 / CVPRW.2017.248 . ISBN 978-1-5386-0733-6. S2CID 3107614 .
^ Kollias, D .; Tzirakis, P .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Zafeiriou, S. (2019). "Predicción de efectos profundos en la naturaleza: desafío y base de datos de Aff-Wild, arquitecturas profundas y más allá" . Revista Internacional de Visión por Computador (IJCV), 2019 . 127 (6–7): 907–929. doi : 10.1007 / s11263-019-01158-4 . S2CID 13679040 .
^ Kollias, D .; Zafeiriou, S. (2019). "Expresión, afecto, reconocimiento de unidad de acción: Aff-wild2, aprendizaje multitarea y arcface" (PDF) . Conferencia británica de visión artificial (BMVC), 2019 . arXiv : 1910.04855 .
^ Kollias, D .; Schulc, A .; Hajiyev, E .; Zafeiriou, S. (2020). "Analizando el comportamiento afectivo en el primer concurso abaw 2020" . Conferencia internacional IEEE sobre reconocimiento automático de rostros y gestos (FG), 2020 : 637–643. arXiv : 2001.11409 . doi : 10.1109 / FG47880.2020.00126 . ISBN 978-1-7281-3079-8. S2CID 210966051 .
^ Phillips, P. Jonathon; et al. (1998). "La base de datos FERET y el procedimiento de evaluación de los algoritmos de reconocimiento facial". Computación de imagen y visión . 16 (5): 295-306. doi : 10.1016 / s0262-8856 (97) 00070-x .
^ Wiskott, Laurenz; et al. (1997). "Reconocimiento facial por coincidencia de gráfico de manojo elástico". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . doi : 10.1109 / 34.598235 .
^ Livingstone, Steven R .; Russo, Frank A. (2018). "La base de datos audiovisual de habla y canción emocional de Ryerson (RAVDESS): un conjunto dinámico y multimodal de expresiones faciales y vocales en inglés norteamericano" . PLOS ONE . 13 (5): e0196391. Código bibliográfico : 2018PLoSO..1396391L . doi : 10.1371 / journal.pone.0196391 . PMC 5955500 . PMID 29768426 .
^ Livingstone, Steven R .; Russo, Frank A. (2018). "Emoción". La base de datos audiovisual de habla y canto emocional de Ryerson (RAVDESS) . doi : 10.5281 / zenodo.1188976 .
^ Grgic, Mislav; Delac, Kresimir; Grgic, Sonja (2011). "Base de datos de caras de cámaras de vigilancia SCface". Herramientas y aplicaciones multimedia . 51 (3): 863–879. doi : 10.1007 / s11042-009-0417-2 . S2CID 207218990 .
^ Wallace, Roy y col. " Modelado de variabilidad entre sesiones y análisis de factores conjuntos para la autenticación facial ". Biometrics (IJCB), Conferencia conjunta internacional de 2011 sobre . IEEE, 2011.
^ Georghiades, A. "Base de datos de rostros de Yale". Centro de visión y control computacional de la Universidad de Yale, http://CVC.yale.edu/Projects/Yalefaces/Yalefa . 2 : 1997. Enlace externo en |journal=( ayuda )
^ Nguyen, Duy; et al. (2006). "Detección de rostros en tiempo real y extracción de características de labios mediante matrices de puertas programables en campo". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . doi : 10.1109 / tsmcb.2005.862728 . PMID 16903373 . S2CID 7334355 .
^ Kanade, Takeo, Jeffrey F. Cohn y Yingli Tian. " Base de datos completa para el análisis de expresiones faciales ". Reconocimiento automático de rostro y gestos, 2000. Actas. Cuarta Conferencia Internacional IEEE sobre . IEEE, 2000.
^ Zeng, Zhihong; et al. (2009). "Un estudio de los métodos de reconocimiento de afectos: expresiones de audio, visuales y espontáneas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . doi : 10.1109 / tpami.2008.52 . PMID 19029545 .
^ Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (1998). "Imágenes de expresión facial". La base de datos de expresión facial femenina japonesa (JAFFE) . doi : 10.5281 / zenodo.3451524 .
^ Lyons, Michael; Akamatsu, Shigeru; Kamachi, Miyuki; Gyoba, Jiro " Codificación de expresiones faciales con ondas de Gabor ". Reconocimiento automático de rostro y gestos, 1998. Actas. Tercera Conferencia Internacional IEEE sobre . IEEE, 1998.
^ Ng, Hong-Wei y Stefan Winkler. " Un enfoque basado en datos para limpiar grandes conjuntos de datos faciales ". Procesamiento de imágenes (ICIP), 2014 IEEE International Conference on . IEEE, 2014.
^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2015). "Reconocimiento facial uno a muchos con CNN bilineales". arXiv : 1506.01342 [ cs.CV ].
^ Jesorsky, Oliver, Klaus J. Kirchberg y Robert W. Frischholz. "Detección de rostros robusta usando la distancia hausdorff". Autenticación biométrica de persona basada en audio y video . Springer Berlín Heidelberg, 2001.
^ Huang, Gary B. y col. Caras etiquetadas en la naturaleza: una base de datos para estudiar el reconocimiento facial en entornos sin restricciones . Vol. 1. No. 2. Informe técnico 07-49, Universidad de Massachusetts, Amherst, 2007.
^ Bhatt, Rajen B., et al. " Segmentación eficiente de la región de la piel utilizando un modelo de árbol de decisión difuso de baja complejidad ". Conferencia de la India (INDICON), IEEE anual 2009 . IEEE, 2009.
^ Lingala, Mounika; et al. (2014). "Detección de color de lógica difusa: áreas azules en imágenes de dermatoscopia de melanoma" . Imágenes y gráficos médicos computarizados . 38 (5): 403–410. doi : 10.1016 / j.compmedimag.2014.03.007 . PMC 4287461 . PMID 24786720 .
^ Maes, Chris y col. " Detección de características en superficies faciales 3D para normalización y reconocimiento de poses ". Biometrics: Theory Applications and Systems (BTAS), 2010 Cuarta Conferencia Internacional IEEE sobre . IEEE, 2010.
^ Savran, Arman, et al. " Base de datos del Bósforo para el análisis facial en 3D ". Biometría y Gestión de Identidad . Springer Berlin Heidelberg, 2008. 47–56.
^ Heseltine, Thomas, Nick Pears y Jim Austin. " Reconocimiento facial tridimensional: un enfoque de superficie propia ". Procesamiento de imágenes, 2004. ICIP'04. 2004 Conferencia Internacional sobre . Vol. 2. IEEE, 2004.
^ Ge, Yun; et al. (2011). "Modelado de muestra de rostro novedoso 3D para reconocimiento facial". Revista de Multimedia . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . doi : 10.4304 / jmm.6.5.467-475 .
^ Wang, Yueming; Liu, Jianzhuang; Tang, Xiaoou (2010). "Robusto reconocimiento facial en 3D mediante aumento de la diferencia de forma local". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . doi : 10.1109 / tpami.2009.200 . PMID 20724762 . S2CID 15263913 .
^ Zhong, Cheng, Zhenan Sun y Tieniu Tan. " Robusto reconocimiento facial en 3D utilizando un libro de códigos visual aprendido ". Visión por computadora y reconocimiento de patrones, 2007. CVPR'07. Conferencia IEEE sobre . IEEE, 2007.
^ Zhao, G .; Huang, X .; Taini, M .; Li, SZ; Pietikäinen, M. (2011). "Reconocimiento de expresiones faciales a partir de videos de infrarrojo cercano" (PDF) . Computación de imagen y visión . 29 (9): 607–619. doi : 10.1016 / j.imavis.2011.07.002 .
^ Soyel, Hamit y Hasan Demirel. " Reconocimiento de expresiones faciales utilizando distancias de rasgos faciales en 3D ". Análisis y reconocimiento de imágenes . Springer Berlin Heidelberg, 2007. 831–838.
^ Bowyer, Kevin W .; Chang, Kyong; Flynn, Patrick (2006). "Una encuesta de enfoques y desafíos en 3D y reconocimiento facial 3D + 2D multimodal". Visión por computadora y comprensión de imágenes . 101 (1): 1-15. CiteSeerX 10.1.1.134.8784 . doi : 10.1016 / j.cviu.2005.05.005 .
^ Tan, Xiaoyang; Triggs, Bill (2010). "Conjuntos de características de textura local mejoradas para el reconocimiento facial en condiciones de iluminación difíciles". Transacciones IEEE sobre procesamiento de imágenes . 19 (6): 1635-1650. Código bibliográfico : 2010ITIP ... 19.1635T . CiteSeerX 10.1.1.105.3355 . doi : 10.1109 / tip.2010.2042645 . PMID 20172829 . S2CID 4943234 .
^ Mousavi, Mir Hashem, Karim Faez y Amin Asghari. " Reconocimiento facial tridimensional mediante clasificador SVM ". Informática e Informática, 2008. ICIS 08. Séptima Conferencia Internacional IEEE / ACIS sobre . IEEE, 2008.
^ Amberg, Brian, Reinhard Knothe y Thomas Vetter. " Expresión invariante de reconocimiento facial 3D con un modelo transformable ". Reconocimiento automático de rostro y gestos, 2008. FG'08. 8ª Conferencia Internacional IEEE sobre . IEEE, 2008.
^ İrfanoğlu, MO, Berk Gökberk y Lale Akarun. " Reconocimiento facial 3D basado en formas utilizando superficies faciales registradas automáticamente ". Pattern Recognition, 2004. ICPR 2004. Actas de la 17ª Conferencia Internacional sobre . Vol. 4. IEEE, 2004.
^ Beumier, Charles; Acheroy, Marc (2001). "Verificación facial a partir de pistas de nivel de gris y 3D". Cartas de reconocimiento de patrones . 22 (12): 1321-1329. doi : 10.1016 / s0167-8655 (01) 00077-0 .
^ Afifi, Mahmoud; Abdelhamed, Abdelrahman (13 de junio de 2017). "AFIF4: clasificación de género profunda basada en la fusión basada en AdaBoost de rasgos faciales aislados y rostros brumosos". arXiv : 1706.04277 [ cs.CV ].
^ "Conjunto de datos de SoF" . sites.google.com . Consultado el 18 de noviembre de 2017 .
^ "IMDB-WIKI" . data.vision.ee.ethz.ch . Consultado el 13 de marzo de 2018 .
^ Patrón-Pérez, A .; Marszalek, M .; Reid, I .; Zisserman, A. (2012). "Aprendizaje estructurado de interacciones humanas en programas de televisión". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 34 (12): 2441–2453. doi : 10.1109 / tpami.2012.24 . PMID 23079467 . S2CID 6060568 .
^ Ofli, F., Chaudhry, R., Kurillo, G., Vidal, R. y Bajcsy, R. (enero de 2013). Berkeley MHAD: Una base de datos de acción humana multimodal integral . En Aplicaciones de la visión por computadora (WACV), 2013 IEEE Workshop on (págs. 53–60). IEEE.
^ Jiang, YG, et al. "Desafío THUMOS: Reconocimiento de acciones con un gran número de clases". Taller de ICCV sobre reconocimiento de acciones con un gran número de clases , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.
^ Simonyan, Karen y Andrew Zisserman. " Redes convolucionales de dos flujos para el reconocimiento de acciones en videos ". Avances en sistemas de procesamiento de información neuronal . 2014.
^ Stoian, Andrei; Ferecatu, Marin; Benois-Pineau, Jenny; Crucianu, Michel (2016). "Localización de acción rápida en archivos de video a gran escala". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 26 (10): 1917-1930. doi : 10.1109 / TCSVT.2015.2475835 . S2CID 31537462 .
^ Krishna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). "Genoma visual: conexión del lenguaje y la visión mediante anotaciones de imágenes densas de fuentes colaborativas". Revista Internacional de Visión por Computador . 123 : 32–73. arXiv : 1602.07332 . doi : 10.1007 / s11263-016-0981-7 . S2CID 4492210 .
^ Karayev, S. y col. " Un conjunto de datos de objetos 3-D a nivel de categoría: poner Kinect en funcionamiento ". Actas de la IEEE International Conference on Computer Vision Workshops . 2011.
^ Tighe, Joseph y Svetlana Lazebnik . " Superparsing: análisis de imágenes no paramétrico escalable con superpíxeles ". Visión por computadora – ECCV 2010 . Springer Berlín Heidelberg, 2010. 352–365.
^ Arbeláez, P .; Maire, M; Fowlkes, C; Malik, J (mayo de 2011). "Detección de contorno y segmentación jerárquica de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 33 (5): 898–916. doi : 10.1109 / tpami.2010.161 . PMID 20733228 . S2CID 206764694 . Consultado el 27 de febrero de 2016 .
^ Lin, Tsung-Yi, et al. " Microsoft coco: objetos comunes en contexto ". Visión por computadora – ECCV 2014 . Springer International Publishing, 2014. 740–755.
^ Russakovsky, Olga; et al. (2015). "Desafío de reconocimiento visual a gran escala de Imagenet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .
^ Xiao, Jianxiong, et al. "Base de datos solar: reconocimiento de escenas a gran escala desde la abadía hasta el zoológico". Visión por computadora y reconocimiento de patrones (CVPR), conferencia IEEE de 2010 . IEEE, 2010.
^ Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). "DeCAF: una función de activación convolucional profunda para el reconocimiento visual genérico". arXiv : 1310,1531 [ cs.CV ].
^ Deng, Jia, et al. " Imagenet: una base de datos de imágenes jerárquicas a gran escala ". Visión por computadora y reconocimiento de patrones, 2009. CVPR 2009. Conferencia IEEE sobre . IEEE, 2009.
↑ a b c Krizhevsky, Alex, Ilya Sutskever y Geoffrey E. Hinton. " Clasificación de Imagenet con redes neuronales convolucionales profundas ". Avances en sistemas de procesamiento de información neuronal . 2012.
^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; et al. (11 de abril de 2015). "Desafío de reconocimiento visual a gran escala de ImageNet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .
^ Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. "OpenImages: un conjunto de datos públicos para la clasificación de imágenes de múltiples etiquetas y múltiples clases a gran escala, 2017. Disponible en https://github.com/openimages ".
^ Vyas, Apoorv, et al. " Detección de bloqueos comerciales en vídeos de noticias de difusión ". Actas de la Conferencia India de 2014 sobre procesamiento de imágenes y gráficos de visión por computadora . ACM, 2014.
^ Hauptmann, Alexander G. y Michael J. Witbrock. " Segmentación de historias y detección de comerciales en video de noticias de transmisión ". Avances en investigación y tecnología en bibliotecas digitales, 1998. ADL 98. Actas. Foro Internacional IEEE en . IEEE, 1998.
^ Tung, Anthony KH, Xin Xu y Beng Chin Ooi. " Curler: encontrar y visualizar agrupaciones de correlaciones no lineales ". Actas de la conferencia internacional ACM SIGMOD 2005 sobre Gestión de datos . ACM, 2005.
^ Jarrett, Kevin y col. " ¿Cuál es la mejor arquitectura de múltiples etapas para el reconocimiento de objetos? ". Computer Vision, 2009 IEEE 12th International Conference on . IEEE, 2009.
^ Lazebnik, Svetlana , Cordelia Schmid y Jean Ponce. " Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales ". Visión por computadora y reconocimiento de patrones, 2006 IEEE Computer Society Conference on . Vol. 2. IEEE, 2006.
^ Griffin, G., A. Holub y P. Perona. Conjunto de datos de categorías de objetos Caltech-256 California Inst . Technol., Tech. Rep. 7694, 2007 [en línea]. Disponible: http://authors.library.caltech.edu/7694 , 2007.
^ Baeza-Yates, Ricardo y Berthier Ribeiro-Neto. Recuperación de información moderna . Vol. 463. Nueva York: ACM press, 1999.
^ Fu, Xiping, et al. " NOKMeans: Hashing de K-significa no ortogonal ". Visión por Computador — ACCV 2014 . Springer International Publishing, 2014. 162-177.
^ Heitz, Geremy; et al. (2009). "Localización de objetos basada en formas para clasificación descriptiva". Revista Internacional de Visión por Computador . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . doi : 10.1007 / s11263-009-0228-y . S2CID 646320 .
^ M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth y B. Schiele, " El conjunto de datos de paisajes urbanos ". En el taller de CVPR sobre el futuro de los conjuntos de datos en la visión, 2015.
^ Everingham, Mark; et al. (2010). "El desafío de las clases de objetos visuales pascal (voc)" . Revista Internacional de Visión por Computador . 88 (2): 303–338. doi : 10.1007 / s11263-009-0275-4 . S2CID 4246903 .
^ Felzenszwalb, Pedro F .; et al. (2010). "Detección de objetos con modelos basados en piezas entrenados discriminativamente". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (9): 1627-1645. CiteSeerX 10.1.1.153.2745 . doi : 10.1109 / tpami.2009.167 . PMID 20634557 . S2CID 3198903 .
^ a b Gong, Yunchao y Svetlana Lazebnik . "Cuantización iterativa: un enfoque procusto para aprender códigos binarios". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2011 en . IEEE, 2011.
^ "Conjunto de datos CINIC-10" . Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 no es ImageNet ni CIFAR-10 . 9 de octubre de 2018 . Consultado el 13 de noviembre de 2018 .
^ fashion-mnist: Una base de datos de productos de moda similar a MNIST. Benchmark: point_right , Zalando Research, 7 de octubre de 2017 , consultado el 7 de octubre de 2017
^ "conjunto de datos notMNIST" . Aprendizaje automático, etc . 8 de septiembre de 2011 . Consultado el 13 de octubre de 2017 .
^ Houben, Sebastian, et al. " Detección de señales de tráfico en imágenes del mundo real: el punto de referencia alemán de detección de señales de tráfico ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.
^ Mathias, Mayeul, et al. " Reconocimiento de señales de tráfico: ¿qué tan lejos estamos de la solución? ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.
^ Geiger, Andreas, Philip Lenz y Raquel Urtasun. " ¿Estamos preparados para la conducción autónoma? La suite de referencia kitti vision ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
^ Sturm, Jürgen y col. " Un punto de referencia para la evaluación de sistemas SLAM RGB-D ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2012 sobre . IEEE, 2012.
↑ Chaladze, G., Kalatozishvili, L. (2017). Conjunto de datos de Linnaeus 5 . Chaladze.com . Consultado el 13 de noviembre de 2017 en http://chaladze.com/l5/
^ Kragh, Mikkel F .; et al. (2017). "FieldSAFE - conjunto de datos para la detección de obstáculos en la agricultura" . Sensores . 17 (11): 2579. arXiv : 1709.03526 . Código Bib : 2017arXiv170903526F . doi : 10.3390 / s17112579 . PMC 5713196 . PMID 29120383 .
^ Afifi, Mahmoud (12 de noviembre de 2017). "Reconocimiento de género e identificación biométrica utilizando un gran conjunto de datos de imágenes de manos". arXiv : 1711.04322 [ cs.CV ].
^ Lomonaco, Vincenzo; Maltoni, Davide (18 de octubre de 2017). "CORe50: un nuevo conjunto de datos y punto de referencia para el reconocimiento continuo de objetos". arXiv : 1705.03550 [ cs.CV ].
^ Ella, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao; Zhang, Yimin; Qiao, Fei; Chan, Rosa HM (15 de noviembre de 2019). "OpenLORIS-Object: un conjunto de datos de visión robótica y un punto de referencia para el aprendizaje profundo de por vida". arXiv : 1911.06487v2 [ cs.CV ].
^ Morozov, Alexei; Sushkova, Olga (13 de junio de 2019). "Conjunto de datos de vídeo térmico y THz" . Desarrollo del enfoque de programación lógica multiagente para un análisis del comportamiento humano en una videovigilancia multicanal . Moscú: IRE RAS . Consultado el 19 de julio de 2019 .
^ Morozov, Alexei; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (9 de julio de 2019). "Desarrollo de un método de videovigilancia inteligente de terahercios basado en la fusión semántica de terahercios e imágenes de video en 3D" (PDF) . CEUR . 2391 : papel19 . Consultado el 19 de julio de 2019 .
^ Botta, M., A. Giordana y L. Saitta. " Aprendiendo definiciones de conceptos difusos ". Fuzzy Systems, 1993., Segunda Conferencia Internacional IEEE sobre . IEEE, 1993.
^ Frey, Peter W .; Slate, David J. (1991). "Reconocimiento de letras utilizando clasificadores adaptativos al estilo de Holanda" . Aprendizaje automático . 6 (2): 161–182. doi : 10.1007 / bf00114162 .
^ Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004). "Aprendizaje mejorado de métricas riemannianas para análisis exploratorio". Redes neuronales . 17 (8): 1087-1100. CiteSeerX 10.1.1.59.4865 . doi : 10.1016 / j.neunet.2004.06.008 . PMID 15555853 .
^ a b Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (enero de 2013). "Reconocimiento de caracteres chinos escritos a mano en línea y fuera de línea: evaluación comparativa en nuevas bases de datos". Reconocimiento de patrones . 46 (1): 155-162. doi : 10.1016 / j.patcog.2012.06.021 .
^ Wang, D .; Liu, C .; Yu, J .; Zhou, X. (2009). "CASIA-OLHWDB1: una base de datos de caracteres chinos manuscritos en línea". 2009 Décima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos : 1206–1210. doi : 10.1109 / ICDAR.2009.163 . ISBN 978-1-4244-4500-4. S2CID 5705532 .
^ Williams, Ben H., Marc Toussaint y Amos J. Storkey. Extracción de primitivas de movimiento a partir de datos de escritura natural . Springer Berlín Heidelberg, 2006.
^ Meier, Franziska, et al. " Segmentación de movimiento utilizando una biblioteca primitiva ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2011 sobre . IEEE, 2011.
^ TE de Campos, BR Babu y M. Varma. Reconocimiento de personajes en imágenes naturales . En Actas de la Conferencia Internacional sobre Teoría y Aplicaciones de la Visión por Computador (VISAPP), Lisboa, Portugal , febrero de 2009
^ Llorens, David y col. " La base de datos UJIpenchars: una base de datos basada en lápiz de caracteres escritos a mano aislados ". LREC . 2008.
^ Calderara, Simone; Prati, Andrea; Cucchiara, Rita (2011). "Mezclas de distribuciones de von mises para análisis de forma de trayectoria de personas". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 21 (4): 457–471. doi : 10.1109 / tcsvt.2011.2125550 . S2CID 1427766 .
^ Guyon, Isabelle y col. " Análisis de resultados del desafío de selección de características de nips 2003 ". Avances en sistemas de procesamiento de información neuronal . 2004.
^ Lake, BM; Salakhutdinov, R .; Tenenbaum, JB (11 de diciembre de 2015). "Aprendizaje de conceptos a nivel humano a través de la inducción probabilística del programa" . Ciencia . 350 (6266): 1332-1338. Código Bibliográfico : 2015Sci ... 350.1332L . doi : 10.1126 / science.aab3050 . ISSN 0036-8075 . PMID 26659050 .
^ Lake, Brenden (9 de noviembre de 2019), conjunto de datos de Omniglot para el aprendizaje de una sola vez , recuperado el 10 de noviembre de 2019
^ LeCun, Yann; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi : 10.1109 / 5.726791 .
^ Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Computación de imagen y visión . 22 (12): 971–981. doi : 10.1016 / j.imavis.2004.03.008 .
^ Xu, Lei; Krzyżak, Adam; Suen, Ching Y. (1992). "Métodos de combinación de múltiples clasificadores y sus aplicaciones al reconocimiento de escritura a mano". Transacciones IEEE sobre sistemas, hombre y cibernética . 22 (3): 418–435. doi : 10.1109 / 21.155943 . hdl : 10338.dmlcz / 135217 .
^ Alimoglu, Fevzi, et al. " Combinación de múltiples clasificadores para el reconocimiento de dígitos escritos a mano con bolígrafo ". (1996).
^ Tang, E. Ke; et al. (2005). "Reducción de dimensionalidad lineal usando LDA ponderado por relevancia". Reconocimiento de patrones . 38 (4): 485–493. doi : 10.1016 / j.patcog.2004.09.005 .
^ Hong, Yi y col. " Aprendiendo una combinación de métricas de distancia dispersa para clasificación y reducción de dimensionalidad ". Computer Vision (ICCV), 2011 IEEE International Conference on . IEEE, 2011.
^ Thoma, Martín (2017). "El conjunto de datos HASYv2". arXiv : 1701.08380 [ cs.CV ].
^ Karki, Manohar; Liu, Qun; DiBiano, Robert; Basu, Saikat; Mukhopadhyay, Supratik (20 de junio de 2018). "Reconstrucción y clasificación a nivel de píxel para caracteres bangladeses manuscritos ruidosos". arXiv : 1806.08037 [ cs.CV ].
^ Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Redes adversas generativas de clasificador progresivamente capacitado para la clasificación de caracteres bangladeses manuscritos ruidosos", Bibliotecas digitales en la encrucijada de la información digital para el futuro , Springer International Publishing, págs. 3 a 15, arXiv : 1908.08987 , doi : 10.1007 / 978-3-030-34058-2_1 , ISBN 978-3-030-34057-5, S2CID 201665955
^ Yuan, Jiangye; Gleason, Shaun S .; Cheriyadat, Anil M. (2013). "Benchmarking sistemático de la segmentación de imágenes aéreas". IEEE Geociencias y cartas de teledetección . 10 (6): 1527-1531. Código bibliográfico : 2013IGRSL..10.1527Y . doi : 10.1109 / lgrs.2013.2261453 . S2CID 629629 .
^ Vatsavai, Ranga Raju. " Clasificación de imágenes basada en objetos: estado del arte y desafíos computacionales ". Actas del 2º Taller Internacional ACM SIGSPATIAL sobre Analítica de Grandes Datos Geoespaciales . ACM, 2013.
^ Butenuth, Matthias, et al. " Integrando simulación de peatones, seguimiento y detección de eventos para el análisis de multitudes ". Talleres de Visión por Computador (Talleres ICCV), Conferencia Internacional IEEE 2011 sobre . IEEE, 2011.
^ Fradi, Hajer y Jean-Luc Dugelay. " Análisis de multitudes de bajo nivel que utiliza la función normalizada por marcos para el conteo de personas ". Información forense y seguridad (WIFS), 2012 IEEE International Workshop on . IEEE, 2012.
^ Johnson, Brian Alan, Ryutaro Tateishi y Nguyen Thanh Hoan. " Un enfoque híbrido de enfoque panorámico y análisis de imágenes basado en objetos multiescala para mapear pinos y robles enfermos ". Revista internacional de teledetección 34.20 (2013): 6969–6982.
^ Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (2015). "Un nuevo modelo de clasificación para un conjunto de datos de clase desequilibrada utilizando programación genética y máquinas de vectores de apoyo: estudio de caso para la clasificación de la enfermedad de marchitez" . Cartas de teledetección . 6 (7): 568–577. doi : 10.1080 / 2150704X.2015.1062159 . S2CID 58788630 .
^ Gallego, A.-J .; Pertusa, A .; Gil, P. " Clasificación automática de barcos a partir de imágenes aéreas ópticas con redes neuronales convolucionales ". Percepción remota . 2018; 10 (4): 511.
^ Gallego, A.-J .; Pertusa, A .; Gil, P. "MAritime SATellite Imagery dataset" [En línea]. Disponible: https://www.iuii.ua.es/datasets/masati/ , 2018.
^ Johnson, Brian; Tateishi, Ryutaro; Xie, Zhixiao (2012). "Uso de variables ponderadas geográficamente para la clasificación de imágenes". Cartas de teledetección . 3 (6): 491–499. doi : 10.1080 / 01431161.2011.629637 . S2CID 122543681 .
^ Chatterjee, Sankhadeep, et al. " Clasificación de tipo de bosque: un enfoque basado en el modelo híbrido NN-GA ". Diseño de Sistemas de Información y Aplicaciones Inteligentes . Springer India, 2016. 227-236.
^ Diegert, Carl. " Un método combinatorio para rastrear objetos utilizando la semántica de su forma ". Taller de reconocimiento de patrones de imágenes aplicadas (AIPR), 2010 IEEE 39th . IEEE, 2010.
^ Razakarivony, Sebastien y Frédéric Jurie. " Detección de objetivos pequeños que combinan múltiples de fondo y de primer plano ". Conferencia internacional IAPR sobre aplicaciones de visión artificial . 2013.
^ "SpaceNet" . explore.digitalglobe.com . Consultado el 13 de marzo de 2018 .
^ Etten, Adam Van (5 de enero de 2017). "Introducción a los datos de SpaceNet" . El DownLinQ . Consultado el 13 de marzo de 2018 .
^ Vakalopoulou, M .; Bus, N .; Karantzalosa, K .; Paragios, N. (julio de 2017). Integración de antecedentes de borde / límite con puntajes de clasificación para la detección de edificios en datos de muy alta resolución . Simposio Internacional de Geociencia y Percepción Remota del IEEE 2017 (IGARSS) . págs. 3309–3312. doi : 10.1109 / IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6. S2CID 8297433 .
^ Yang, Yi; Newsam, Shawn (2010). Bolsa de palabras visuales y extensiones espaciales para la clasificación del uso del suelo . Actas de la XVIII Conferencia Internacional SIGSPATIAL sobre Avances en Sistemas de Información Geográfica - GIS '10 . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 1869790.1869829 . ISBN 9781450304283. S2CID 993769 .
^ a b Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3 de noviembre de 2015). DeepSat: un marco de aprendizaje para imágenes satelitales . ACM. pag. 37. doi : 10.1145 / 2820783.2820816 . ISBN 9781450339674. S2CID 4387134 .
^ a b Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (21 de noviembre de 2019). "DeepSat V2: función de redes neuronales convolucionales aumentadas para la clasificación de imágenes de satélite". Cartas de teledetección . 11 (2): 156-165. arXiv : 1911.07747 . doi : 10.1080 / 2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .
^ Mills, Kyle; Tamblyn, Isaac (16 de mayo de 2018), gran conjunto de datos de grafeno , Consejo Nacional de Investigación de Canadá, doi : 10.4224 / c8sc04578j.data
^ Mills, Kyle; Spanner, Michael; Tamblyn, Isaac (16 de mayo de 2018). "Simulación cuántica". Simulaciones cuánticas de un electrón en un pozo de potencial bidimensional . Consejo Nacional de Investigaciones de Canadá. doi : 10.4224 / PhysRevA.96.042113.data .
^ Rohrbach, M .; Amin, S .; Andriluka, M .; Schiele, B. (2012). Una base de datos para la detección detallada de actividades de cocina . IEEE. doi : 10.1109 / cvpr.2012.6247801 . ISBN 978-1-4673-1228-8.
^ Kuehne, Hilde, Ali Arslan y Thomas Serre. " El lenguaje de las acciones: recuperando la sintaxis y la semántica de las actividades humanas dirigidas a objetivos ". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . 2014.
^ Sviatoslav, Voloshynovskiy, et al. " Hacia resultados reproducibles en la autenticación basada en funciones físicas no clonables: el conjunto óptico de microestructura de autenticación forense (FAMOS) " . Proc. Actas del Taller internacional IEEE sobre seguridad y análisis forense de la información . 2012.
^ Olga, Taran y Shideh, Rezaeifar, et al. " PharmaPack: reconocimiento móvil detallado de paquetes farmacéuticos ". Proc. Conferencia europea de procesamiento de señales (EUSIPCO) . 2017.
^ Khosla, Aditya, et al. " Nuevo conjunto de datos para la categorización de imágenes de grano fino: perros de Stanford ". Proc. Taller CVPR sobre Categorización Visual Detallada (FGVC) . 2011.
^ a b Parkhi, Omkar M., et al. " Gatos y perros ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
^ Biggs, Benjamin y col. " ¿Quién dejó afuera a los perros? Reconstrucción animal 3D con maximización de expectativas en el circuito ." Proc. ECCV . 2020.
^ a b Razavian, Ali, et al. " Características de CNN listas para usar: una base asombrosa para el reconocimiento ". Actas de la Conferencia IEEE sobre Talleres de Reconocimiento de Patrones y Visión por Computador . 2014.
^ Ortega, Michael; et al. (1998). "Soporte de consultas de similitud booleana clasificadas en MARS". Transacciones IEEE sobre conocimiento e ingeniería de datos . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . doi : 10.1109 / 69.738357 .
^ Él, Xuming, Richard S. Zemel y Miguel Á. Carreira-Perpiñán. " Campos aleatorios condicionales multiescala para etiquetado de imágenes ". Visión por computadora y reconocimiento de patrones, 2004. CVPR 2004. Actas de la conferencia de la sociedad de computadoras IEEE 2004 sobre . Vol. 2. IEEE, 2004.
^ Deneke, Tewodros, et al. " Predicción de tiempo de transcodificación de video para balanceo de carga proactivo ". Multimedia y Expo (ICME), 2014 IEEE International Conference on. IEEE, 2014.
^ Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C.Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell (13 de abril de 2016). "Visual Storytelling". arXiv : 1604.03968 [ cs.CL ].CS1 maint: varios nombres: lista de autores ( enlace )
^ Wah, Catherine y col. " El conjunto de datos caltech-ucsd birds-200-2011 ". (2011).
^ Duan, Kun y col. " Descubriendo atributos localizados para un reconocimiento detallado ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.
^ "Conjunto de datos YouTube-8M" . research.google.com . Consultado el 1 de octubre de 2016 .
^ Abu-El-Haija, Sami; Kothari, Nisarg; Lee, Joonseok; Natsev, Paul; Toderici, George; Varadarajan, Balakrishnan; Vijayanarasimhan, Sudheendra (27 de septiembre de 2016). "YouTube-8M: un punto de referencia de clasificación de vídeo a gran escala". arXiv : 1609.08675 [ cs.CV ].
^ "Conjunto de datos YFCC100M" . mmcommons.org . Yahoo-ICSI-LLNL . Consultado el 1 de junio de 2017 .
^ Bart Thomee; David A Shamma; Gerald Friedland; Benjamín Elizalde; Karl Ni; Douglas Polonia; Damian Borth; Li-Jia Li (25 de abril de 2016). "Yfcc100m: Los nuevos datos en la investigación multimedia". Comunicaciones de la ACM . 59 (2): 64–73. arXiv : 1503.01817 . doi : 10.1145 / 2812802 . S2CID 207230134 .
^ Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " LIRIS-ACCEDE: A Video Database for Affective Content Analysis ", en IEEE Transactions on Affective Computing, 2015.
^ Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " Deep Learning vs. Kernel Methods: Performance for Emotion Prediction in Videos ", en la Conferencia de la Asociación Humana de 2015 sobre Computación afectiva e Interacción inteligente (ACII), 2015 .
^ M. Sjöberg, Y. Baveye, H. Wang, VL Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Demarty y L. Chen, " La tarea del impacto afectivo del cine medieval 2015 ", en Taller de MediaEval 2015, 2015.
^ S. Johnson y M. Everingham, " Postura agrupada y modelos de apariencia no lineal para la estimación de la postura humana ", en Actas de la 21ª Conferencia británica sobre visión artificial (BMVC2010)
^ S. Johnson y M. Everingham, " Aprendizaje de la estimación de la postura humana efectiva a partir de anotaciones inexactas ", en las actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR2011)
^ Afifi, Mahmoud; Hussain, Khaled F. (2 de noviembre de 2017). "El logro de una mayor flexibilidad en pruebas basadas en opciones múltiples utilizando técnicas de clasificación de imágenes". arXiv : 1711.00972 [ cs.CV ].
^ "Conjunto de datos de MCQ" . sites.google.com . Consultado el 18 de noviembre de 2017 .
^ Taj-Eddin, IATF; Afifi, M .; Korashy, M .; Hamdy, D .; Nasser, M .; Derbaz, S. (julio de 2016). Una nueva técnica de compresión para videos de vigilancia: Evaluación utilizando un nuevo conjunto de datos . 2016 Sexta Conferencia Internacional sobre Tecnologías de la Información y las Comunicaciones Digitales y sus Aplicaciones (DICTAP) . págs. 159-164. doi : 10.1109 / DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7. S2CID 8698850 .
^ Tabak, Michael A .; Norouzzadeh, Mohammad S .; Wolfson, David W .; Sweeney, Steven J .; Vercauteren, Kurt C .; Snow, Nathan P .; Halseth, Joseph M .; Di Salvo, Paul A .; Lewis, Jesse S .; White, Michael D .; Teton, Ben; Beasley, James C .; Schlichting, Peter E .; Boughton, Raoul K .; Wight, Betania; Newkirk, Eric S .; Ivan, Jacob S .; Odell, Eric A .; Brook, Ryan K .; Lukacs, Paul M .; Moeller, Anna K .; Mandeville, Elizabeth G .; Clune, Jeff; Miller, Ryan S .; Photopoulou, Theoni (2018). "Machine learning para clasificar especies animales en imágenes de cámaras trampa: aplicaciones en ecología" . Métodos en ecología y evolución . 10 (4): 585–590. doi : 10.1111 / 2041-210X.13120 . ISSN 2041-210X .
^ Taj-Eddin, Islam ATF; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H .; Ng, Yoke Cheng; Hernández, Evelyng; Abdel-Latif, Salma M. (noviembre de 2017). "¿Podemos ver la fotosíntesis? Magnificando los pequeños cambios de color de las hojas verdes de las plantas usando un aumento de video euleriano". Revista de imágenes electrónicas . 26 (6): 060501. arXiv : 1706.03867 . Código bibliográfico : 2017JEI .... 26f0501T . doi : 10.1117 / 1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .
^ McAuley, Julian y col. " Recomendaciones basadas en imágenes sobre estilos y sustitutos ". Actas de la 38ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2015
^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Ranking de entidades basado en opiniones". Recuperación de información . 15 (2): 116-150. doi : 10.1007 / s10791-011-9174-8 . hdl : 2142/15252 . S2CID 16258727 .
^ Lv, Yuanhua, Dimitrios Lymberopoulos y Qiang Wu. " Una exploración de la heurística de clasificación en la búsqueda local móvil ". Actas de la 35ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2012.
^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "Los conjuntos de datos de MovieLens: historia y contexto". Transacciones ACM en sistemas inteligentes interactivos . 5 (4): 19. doi : 10.1145 / 2827872 . S2CID 16619709 .
^ Koenigstein, Noam, Gideon Dror y Yehuda Koren. " Recomendaciones de música de Yahoo !: modelado de clasificaciones musicales con dinámica temporal y taxonomía de elementos ". Actas de la quinta conferencia ACM sobre sistemas de recomendación . ACM, 2011.
^ McFee, Brian y col. " El desafío del conjunto de datos de un millón de canciones ". Actas del acompañante de la 21ª conferencia internacional en World Wide Web . ACM, 2012.
^ Bohanec, Marko y Vladislav Rajkovic. " Adquisición y explicación de conocimientos para la toma de decisiones multiatributo ". VIII Workshop Internacional sobre Sistemas Expertos y sus Aplicaciones . 1988.
^ Tan, Peter J. y David L. Dowe. " Inferencia MML de gráficos de decisión con uniones multidireccionales ". Conferencia conjunta australiana sobre inteligencia artificial . 2002.
^ "Cuantificar la comedia en YouTube: por qué importa el número de o en tu LOL" . Base de datos de metatexto PNL . Consultado el 26 de octubre de 2020 .
^ Kim, Byung Joo (2012). "Un clasificador de Big Data" . Tecnología de la información híbrida y de convergencia . Comunicaciones en Informática y Ciencias de la Información. 310 . págs. 505–512. doi : 10.1007 / 978-3-642-32692-9_63 . ISBN 978-3-642-32691-2.
^ Pérezgonzález, Jose D .; Gilbey, Andrew (2011). "Predecir las clasificaciones de los aeropuertos Skytrax a partir de las opiniones de los clientes" . Revista de Gestión Aeroportuaria . 5 (4): 335–339.
^ Loh, Wei-Yin y Yu-Shan Shih. " Métodos de selección dividida para árboles de clasificación ". Statistica sinica (1997): 815–840.
^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "Una comparación de la precisión de la predicción, la complejidad y el tiempo de entrenamiento de treinta y tres algoritmos de clasificación antiguos y nuevos". Aprendizaje automático . 40 (3): 203–228. doi : 10.1023 / a: 1007608224229 . S2CID 17030953 .
^ Kiet Van Nguyen, Vu Duc Nguyen, Phu XV Nguyen, Tham TH Truong, Ngan Luu-Thuy Nguyen. " UIT-VSFC: Corpus de comentarios de estudiantes vietnamitas para el análisis de sentimientos
^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Reconocimiento de emociones para el texto de las redes sociales vietnamitas" . Lingüística computacional . Comunicaciones en Informática y Ciencias de la Información. 1215 . págs. 319–333. arXiv : 1911.09339 . doi : 10.1007 / 978-981-15-6168-9_27 . ISBN 978-981-15-6167-2. S2CID 208202333 .
^ > Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 de abril de 2021). "Detección de quejas de dominio abierto vietnamita en sitios web de comercio electrónico". arXiv : 2104.11969 .CS1 maint: varios nombres: lista de autores ( enlace )
^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). Un modelo conjunto para la evolución tema-sentimiento a lo largo del tiempo . IEEE. doi : 10.1109 / icdm.2014.82 . ISBN 978-1-4799-4302-9.
^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF) . LREC . 2 . S2CID 9239414 . Archivado desde el original (PDF) el 6 de agosto de 2019.
^ Amini, Massih R .; Usunier, Nicolás; Goutte, Cyril (2009). "Aprendiendo de múltiples vistas parcialmente observadas - una aplicación a la categorización de texto multilingüe" . Avances en los sistemas de procesamiento de información neuronal : 28–36.
^ Liu, Ming; et al. (2015). "VRCA: un algoritmo de agrupamiento para una gran cantidad de textos" . Actas de la 24ª Conferencia Internacional sobre Inteligencia Artificial . AAAI Press.
^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, MS; Al-Rajeh, A (2008). "Clasificación automática de texto árabe". Actas de la Novena Conferencia Internacional sobre Análisis Estadístico de Datos Textuales, Lyon, Francia .
^ "Conjunto de datos de evaluación de extracción de relación y entidad: Dstl / re3d" . 17 de diciembre de 2018.
^ "El examinador - Catálogo de SpamClickBait" .
^ "Un millón de titulares de noticias" .
^ "One Week of Global News Feeds" .
^ Kulkarni, Rohit (2018), Reuters News-Wire Archive , Harvard Dataverse, doi : 10.7910 / DVN / XDB74W
^ "IrishTimes - las noticias Waxy-Wany" .
^ "Conjunto de datos de titulares de noticias para la detección del sarcasmo" . kaggle.com . Consultado el 27 de abril de 2019 .
^ Klimt, Bryan y Yiming Yang. " Presentamos el Enron Corpus ". CEAS . 2004.
^ Kossinets, Gueorgi, Jon Kleinberg y Duncan Watts. " La estructura de las vías de información en una red de comunicación social ". Actas de la 14ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . ACM, 2008.
^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V .; Paliouras, George; Spyropoulos, Constantine D. (2000). "Una evaluación del filtrado anti-spam ingenuo bayesiano". En Potamias, G .; Moustakis, V .; van Someren, M. (eds.). Actas del taller sobre aprendizaje automático en la nueva era de la información . XI Congreso Europeo de Aprendizaje Automático, Barcelona, España. 11 . págs. 9-17. arXiv : cs / 0006013 . Código Bibliográfico : 2000cs ........ 6013A .
^ Bratko, Andrej; et al. (2006). "Filtrado de spam mediante modelos estadísticos de compresión de datos" (PDF) . The Journal of Machine Learning Research . 7 : 2673–2698.
^ Almeida, Tiago A., José María G. Hidalgo y Akebo Yamakami. " Contribuciones al estudio del filtrado de spam de SMS: nueva recopilación y resultados ". Actas del XI simposio ACM sobre ingeniería documental . ACM, 2011.
^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "Filtrado de spam por SMS: métodos y datos" . Sistemas expertos con aplicaciones . 39 (10): 9899–9908. doi : 10.1016 / j.eswa.2012.02.053 .
^ Joachims, Thorsten. Un análisis probabilístico del algoritmo de Rocchio con TFIDF para categorización de texto . Nº CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa, departamento de ciencias de la computación, 1996.
^ Dimitrakakis, Christos y Samy Bengio. Adaptación de políticas en línea para algoritmos de conjuntos . No. EPFL-REPORT-82788. IDIAP, 2002.
^ Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.
^ Dooms, S. et al. "Movietweetings: un conjunto de datos de clasificación de películas recopilado de Twitter, 2013. Disponible en https://github.com/sidooms/MovieTweetings ".
^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Aprendido-Miller, Erik (2017). "Twitter100k: un conjunto de datos del mundo real para la recuperación de cross-media débilmente supervisada". arXiv : 1703.06618 [ cs.CV ].
^ "huyt16 / Twitter100k" . GitHub . Consultado el 26 de marzo de 2018 .
^ Ve, Alec; Bhayani, Richa; Huang, Lei (2009). "Clasificación de sentimiento de Twitter mediante supervisión a distancia". Informe del proyecto CS224N, Stanford . 1 : 12.
^ Chikersal, Prerna, Soujanya Poria y Erik Cambria. " SeNTU: análisis de sentimientos de tweets mediante la combinación de un clasificador basado en reglas con aprendizaje supervisado ". Actas del Taller Internacional de Evaluación Semántica, SemEval . 2015.
^ Zafarani, Reza y Huan Liu . "Repositorio de datos de computación social en ASU". Escuela de Ingeniería en Computación, Informática y Sistemas de Decisión, Universidad Estatal de Arizona (2009).
^ Bisgin, Halil, Nitin Agarwal y Xiaowei Xu. " Investigando la homofilia en las redes sociales online ". Inteligencia web y tecnología de agente inteligente (WI-IAT), Conferencia internacional IEEE / WIC / ACM de 2010 sobre . Vol. 1. IEEE, 2010.
^ McAuley, Julian J .; Leskovec, Jure. "Aprender a descubrir círculos sociales en las redes del ego". NIPS . 2012 : 2012.
^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Comparación estadística basada en la red de la topología de citas de bases de datos bibliográficas" . Informes científicos . 4 (6496): 6496. arXiv : 1502.05061 . Código Bibliográfico : 2014NatSR ... 4E6496S . doi : 10.1038 / srep06496 . PMC 4178292 . PMID 25263231 .
^ Abdulla, N., et al. "Análisis de sentimiento árabe: basado en corpus y basado en léxico". Actas de la conferencia IEEE sobre Ingeniería Eléctrica Aplicada y Tecnologías de Computación (AEECT) . 2013.
^ Abooraig, Raddad, et al. " Sobre la categorización automática de los artículos árabes en función de su orientación política ". Tercer Congreso Internacional de Ingeniería Informática y Ciencias de la Información (ICIEIS2014) . 2014.
^ Kawala, François, et al. " Prédictions d'activité dans les réseaux sociaux en ligne ". 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques . 2013.
^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selección de alumnos casi óptimos mediante la asignación de datos incrementales". arXiv : 1601.00024 [ cs.LG ].
^ Xu y col. " SemEval-2015 Tarea 1: Paráfrasis y similitud semántica en Twitter (PIT) " Actas del 9º Taller Internacional sobre Evaluación Semántica . 2015.
^ Xu y col. " Extrayendo paráfrasis léxicamente divergentes de Twitter " Transacciones de la Association for Computational (TACL) . 2014.
^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Mapeo de crisis en tiempo real de desastres naturales mediante redes sociales" (PDF) . Sistemas inteligentes IEEE . 29 (2): 9-17. doi : 10.1109 / MIS.2013.126 . S2CID 15139204 .
^ "geoparsepy" . 2016. Biblioteca Python PyPI
^ Gupta, Aakash (5 de diciembre de 2020). "Colección de redes sociales holandesas" Comprobar |url=valor ( ayuda ) . doi : 10.5072 / FK2 / MTPTL7 . Cite journal requiere |journal=( ayuda )
^ "Streamlit" . huggingface.co . Consultado el 18 de diciembre de 2020 .
^ "Colección de redes sociales holandesas" . kaggle.com . Consultado el 18 de diciembre de 2020 .
^ Forsyth, E., Lin, J. y Martell, C. (2008, 25 de junio). El corpus de chat de NPS. Obtenido de http://faculty.nps.edu/cmartell/NPSChat.htm
^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao y Bill Dolan, Un enfoque de red neuronal para la generación de respuestas conversacionales sensibles al contexto , Conferencia del Capítulo de América del Norte de la Asociación de Lingüística Computacional - Tecnologías del Lenguaje Humano (NAACL-HLT 2015), junio de 2015.
^ Shaoul, C. y Westbury C. (2013) Un corpus de USENET de redundancia reducida (2005-2011) Edmonton, AB: University of Alberta (descargado de http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus .download.html )
^ KAN, M. (2011, enero). Corpus del Servicio de Mensajes Cortos (SMS) de NUS. Obtenido de http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/
^ Atascado_en_la_Matriz. (2015, 3 de julio). Tengo todos los comentarios de Reddit disponibles públicamente para la investigación. ~ 1.7 mil millones de comentarios @ 250 GB comprimidos. ¿Interesado en esto? [Publicación original]. Mensaje publicado en https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
^ Ryan Lowe, Nissan Pow, Iulian V. Serban y Joelle Pineau, " El corpus de diálogo de Ubuntu: un gran conjunto de datos para la investigación en sistemas de diálogo de múltiples turnos sin estructura ", SIGDial 2015.
^ Jason Williams Antoine Raux Matthew Henderson, " [1] ", Diálogo y discurso | Abril de 2016.
^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "HDLTex: Aprendizaje profundo jerárquico para la clasificación de textos", 16ª Conferencia internacional de IEEE sobre aplicaciones y aprendizaje automático (ICMLA) de 2017, págs. 364-371. doi: 10.1109 / ICMLA.2017.0-134
^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "Web of Science Dataset", doi : 10.17632 / 9rw3vkcfy4.6
^ Galgani, Filippo, Paul Compton y Achim Hoffmann. " Combinando diferentes técnicas de resumen para texto legal ". Actas del taller sobre enfoques híbridos innovadores para el procesamiento de datos textuales . Asociación de Lingüística Computacional, 2012.
^ Nagwani, NK (2015). "Resumiendo gran colección de texto usando modelado de temas y agrupamiento basado en el marco MapReduce" . Revista de Big Data . 2 (1): 1–18. doi : 10.1186 / s40537-015-0020-5 .
^ Schler, Jonathan; et al. (2006). "Efectos de la edad y el género en los blogs" (PDF) . Simposio de primavera de AAAI: Enfoques computacionales para analizar weblogs . 6 .
^ Anand, Pranav y col. "¡Créame, podemos hacer esto! Anotar actos persuasivos en el texto del blog". Modelos computacionales de argumento natural . 2011.
^ Traud, Amanda L., Peter J. Mucha y Mason A. Porter. "Estructura social de las redes de Facebook". Physica A: Mecánica estadística y sus aplicaciones 391.16 (2012): 4165–4180.
^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimación de matrices de rango bajo y dispersas simultáneamente". arXiv : 1206,6474 [ cs.DS ].
^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: un conjunto de datos de desafío para la comprensión de texto de máquina de dominio abierto" . EMNLP . 1 .
^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M .; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Hacia la respuesta a preguntas completa de AI: un conjunto de tareas de juguete de requisitos previos". arXiv : 1502.05698 [ cs.AI ].
^ Marcus, Mitchell P .; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Construyendo un gran corpus anotado de inglés: The Penn Treebank" . Lingüística computacional . 19 (2): 313–330.
^ Collins, Michael (2003). "Modelos estadísticos dirigidos por la cabeza para el análisis del lenguaje natural" . Lingüística computacional . 29 (4): 589–637. doi : 10.1162 / 089120103322753356 .
^ Guyon, Isabelle, et al., Eds. Extracción de características: fundaciones y aplicaciones . Vol. 207. Springer, 2008.
^ Lin, Yuri, et al. " Anotaciones sintácticas para el corpus ngram de google books ". Actas de las demostraciones del sistema ACL 2012 . Asociación de Lingüística Computacional, 2012.
^ Krishnamoorthy, Niveda; et al. (2013). "Generación de descripciones de video en lenguaje natural utilizando conocimientos extraídos de texto" . AAAI . 1 .
^ Luyckx, Kim y Walter Daelemans. " Personae: un corpus para la predicción del autor y la personalidad a partir del texto ". LREC . 2008.
^ Solorio, Thamar, Ragib Hasan y Mainul Mizan. " Un estudio de caso de detección de marionetas en wikipedia ". Taller de Análisis del Lenguaje en Redes Sociales (LASM) en NAACL HLT . 2013.
^ Ciarelli, Patrick Marques y Elias Oliveira. " Aglomeración y eliminación de términos para la reducción de dimensionalidad ". Diseño y Aplicaciones de Sistemas Inteligentes, 2009. ISDA'09. Novena Conferencia Internacional sobre . IEEE, 2009.
^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla y James G. Scott. "Priores para matrices de conteo aleatorias derivadas de una familia de procesos binomiales negativos". Revista de la Asociación Estadounidense de Estadística recién aceptada (2015): 00–00.
^ Kotzias, Dimitrios, et al. " Desde etiquetas grupales hasta etiquetas individuales con funciones profundas ". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos. ACM, 2015.
^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Precursores de modelado para la predicción de eventos a través del aprendizaje de instancias múltiples anidadas". arXiv : 1602.08033 [ cs.SI ].
^ Buza, Krisztian. " Predicción de comentarios para blogs ". Análisis de datos, aprendizaje automático y descubrimiento de conocimientos . Springer International Publishing, 2014. 145-152.
^ Soysal, Ömer M (2015). "Minería de reglas de asociación con patrones secuenciales asociados en su mayoría". Sistemas expertos con aplicaciones . 42 (5): 2582-2592. doi : 10.1016 / j.eswa.2014.10.049 .
^ Bowman, Samuel y col. " Un gran corpus anotado para aprender la inferencia del lenguaje natural ". Actas de la Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). ACL, 2015.
^ "Colección DSL Corpus" . ttg.uni-saarland.de . Consultado el 22 de septiembre de 2017 .
^ "Diccionario urbano de palabras y definiciones" .
^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, " T-REx: Una alineación a gran escala del lenguaje natural con triples de la base de conocimientos ", Actas de la XI Congreso Internacional de Evaluación y Recursos Lingüísticos (LREC-2018).
^ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. y Bowman, SR (2018). Glue: una plataforma de análisis y evaluación comparativa multitarea para la comprensión del lenguaje natural. preimpresión de arXiv arXiv: 1804.07461.
^ "Las computadoras están aprendiendo a leer, pero aún no son tan inteligentes" . Cableado . Consultado el 29 de diciembre de 2019 .
^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas" .
^ Para, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. (2020). "Predicción de género basada en nombres vietnamitas con técnicas de aprendizaje automático" (PDF) . Actas de la 4ª Conferencia Internacional sobre Procesamiento del Lenguaje Natural y Recuperación de Información . págs. 55–60. arXiv : 2010.10852 . doi : 10.1145 / 3443279.3443309 . ISBN 9781450377607. S2CID 224814110 .
^ Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (18 de marzo de 2021). "Detección de habla tóxica y constructiva para comentarios de redes sociales de dominio abierto en vietnamita". arXiv : 2103.10069 [ cs.CL ].
^ Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.
^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen y E. Dupoux (2015). "The Zero Resource Speech Challenge 2015", en INTERSPEECH-2015.
^ M. Versteegh, X. Anguera, A. Jansen y E. Dupoux, (2016). " El Desafío de Discurso de Recursos Cero 2015: Enfoques y Resultados Propuestos ", en SLTU-2016.
^ Sakar, Betul Erdogdu; et al. (2013). "Recolección y análisis de un conjunto de datos de voz de Parkinson con múltiples tipos de grabaciones de sonido". IEEE Journal of Biomedical and Health Informatics . 17 (4): 828–834. doi : 10.1109 / jbhi.2013.2245674 . PMID 25055311 . S2CID 15491516 .
^ Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
^ Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.
^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.
^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Pattern Recognition Letters. 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515. doi:10.1016/s0167-8655(99)00077-x.
^ Jaeger, Herbert; et al. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Neural Networks. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.
^ Tsanas, Athanasios; et al. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions on Biomedical Engineering (Submitted manuscript). 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.
^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.
^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Speech Communication. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.
^ Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.
^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (PhD Thesis). University of Southampton, School of Electronics and Computer Science.
^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL].
^ Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.
^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.
^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
^ Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
^ Rafii, Zafar (2017). "Music". MUSDB18 - a corpus for music separation. doi:10.5281/zenodo.1117372.
^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD].
^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.
^ Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropy. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.
^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML].
^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2017.
^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Science | AAAS. 18 July 2018. Retrieved 22 July 2018.
^ "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3 May 2016. Retrieved 22 July 2018.
^ Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160
^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2020.
^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3490684
^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
^ Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.
^ Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.
^ PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Circulation. v101 i23. e215-e220.
^ Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Sensors and Actuators B: Chemical. 166: 320–329. doi:10.1016/j.snb.2012.01.074.
^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Sensors and Actuators B: Chemical. 198: 316–341. doi:10.1016/j.snb.2014.03.069.
^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Machine Learning. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.
^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Proceedings. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
^ Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.
^ Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.
^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194.
^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.
^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.
^ Velloso, Eduardo, et al. "Qualitative activity recognition of weight lifting exercises."Proceedings of the 4th Augmented Human International Conference. ACM, 2013.
^ Mortazavi, Bobak Jack, et al. "Determining the single best axis for exercise repetition recognition and counting on smartwatches." Wearable and Implantable Body Sensor Networks (BSN), 2014 11th International Conference on. IEEE, 2014.
^ Sapsanis, Christos, et al. "Improving EMG based Classification of basic hand movements using EMD." Engineering in Medicine and Biology Society (EMBC), 2013 35th Annual International Conference of the IEEE. IEEE, 2013.
^ a b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.
^ Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.
^ Stisen, Allan, et al. "Smart Devices are Different: Assessing and MitigatingMobile Sensing Heterogeneities for Activity Recognition."Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. ACM, 2015.
^ Bhattacharya, Sourav, and Nicholas D. Lane. "From Smart to Deep: Robust Activity Recognition on Smartwatches using Deep Learning."
^ Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
^ Reiss, Attila, and Didier Stricker. "Introducing a new benchmarked dataset for activity monitoring."Wearable Computers (ISWC), 2012 16th International Symposium on. IEEE, 2012.
^ Roggen, Daniel, et al. "OPPORTUNITY: Towards opportunistic activity and context recognition systems." World of Wireless, Mobile and Multimedia Networks & Workshops, 2009. WoWMoM 2009. IEEE International Symposium on a. IEEE, 2009.
^ Kurz, Marc, et al. "Dynamic quantification of activity recognition capabilities in opportunistic systems." Vehicular Technology Conference (VTC Spring), 2011 IEEE 73rd. IEEE, 2011.
^ Sztyler, Timo, and Heiner Stuckenschmidt. "On-body localization of wearable devices: an investigation of position-aware activity recognition." Pervasive Computing and Communications (PerCom), 2016 IEEE International Conference on. IEEE, 2016.
^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 2100107. doi:10.1109/JTEHM.2017.2780836. ISSN 2168-2372. PMC 5788403. PMID 29404226.
^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (23 May 2017). The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy. ACM. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.
^ "Toronto Rehab Stroke Pose Dataset".
^ Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (1 March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.
^ Jung, M.M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29. Cite journal requires |journal= (help)
^ Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep 92-02 (1992).
^ Basu, Sugato. "Semi-supervised clustering with limited background knowledge." AAAI. 2004.
^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016/j.ijepes.2014.02.027.
^ Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.
^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
^ a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
^ a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
^ Pierre Baldi, Kyle Cranmer, Taylor Faucett, Peter Sadowski, and Daniel Whiteson. 'Parameterized Machine Learning for High-Energy Physics.' In submission.
^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
^ Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.
^ Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.
^ Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.
^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1.
^ Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.
^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance‐based prediction of real‐valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
^ Palmer, Christopher R., and Christos Faloutsos. "Electricity based external similarity of categorical attributes." Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2003. 486–500.
^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. doi:10.1016/j.enbuild.2012.03.003.
^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
^ Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
^ Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
^ Wang, Jun, Bei Yu, and Les Gasser. "Concept tree based clustering visualization with shaded similarity matrices." Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. IEEE, 2002.
^ Pettengill, Gordon H., et al. "Magellan: Radar performance and data products." Science252.5003 (1991): 260–265.
^ a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
^ Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).
^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
^ Sikora, Marek, and Beata Sikora. "Rough natural hazards monitoring." Rough Sets: Selected Methods and Applications in Management and Engineering. Springer London, 2012. 163–179.
^ Yeh, I–C (1998). "Modeling of strength of high-performance concrete using artificial neural networks". Cement and Concrete Research. 28 (12): 1797–1808. doi:10.1016/s0008-8846(98)00165-3.
^ Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomial neural networks for approximation of the compressive strength of concrete". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC...8...79S. doi:10.1016/j.asoc.2007.02.010.
^ Yeh, I. "Modeling slump of concrete with fly ash and superplasticizer." Computers and Concrete5.6 (2008): 559–572.
^ Gencel, Osman; et al. (2011). "Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete". Construction and Building Materials. 25 (8): 3486–3494. doi:10.1016/j.conbuildmat.2011.03.040.
^ Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction." Advances in Neural Information Processing Systems (1994): 216–216.
^ Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.
^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179.
^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. doi:10.1016/s0031-3203(96)00142-2.
^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.
^ Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).
^ Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).
^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. doi:10.1016/0031-3203(91)90074-f.
^ a b Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254-265.
^ Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.
^ Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.
^ Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014
^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.
^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.
^ Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.
^ Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
^ Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.
^ a b Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.
^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
^ Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).
^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112.
^ "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.
^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902.
^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
^ Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.
^ Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
^ Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.
^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73.
^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322.
^ Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).
^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
^ Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach." Advances in neural information processing systems 6. 1994.
^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.
^ Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.
^ Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.
^ Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.
^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
^ Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0.
^ Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146--153. 2001.
^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
^ Munisami, Trishen; et al. (2015). "Plant Leaf Recognition Using Shape Features and Colour Histogram with K-nearest Neighbour Classifiers". Procedia Computer Science. 58: 740–747. doi:10.1016/j.procs.2015.08.095.
^ Li, Bai (2016). "Atomic potential matching: An evolutionary target recognition approach based on edge features". Optik-International Journal for Light and Electron Optics. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016/j.ijleo.2015.11.186.
^ Nilsback, Maria-Elena, and Andrew Zisserman. "A visual vocabulary for flower classification."Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
^ Giselsson, Thomas M.; et al. (2017). "A Public Image Database for Benchmark of Plant Seedling Classification Algorithms". arXiv:1711.05458 [cs.CV].
^ Muresan, Horea; Oltean, Mihai (2018). "Fruit recognition from images using deep learning". Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. doi:10.2478/ausi-2018-0002.
^ Oltean, Mihai; Muresan, Horea (2017). "A dataset with fruit images on Kaggle".
^ Nakai, Kenta; Kanehisa, Minoru (1991). "Expert system for predicting protein localization sites in gram‐negative bacteria". Proteins: Structure, Function, and Bioinformatics. 11 (2): 95–110. doi:10.1002/prot.340110203. PMID 1946347. S2CID 27606447.
^ Ling, Charles X., et al. "Decision trees with minimal costs." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
^ Mahé, Pierre, et al. "Automatic identification of mixed bacterial species fingerprints in a MALDI-TOF mass-spectrum." Bioinformatics (2014): btu022.
^ Barbano, Duane; et al. (2015). "Rapid characterization of microalgae and microalgae mixtures using matrix-assisted laser desorption ionization time-of-flight mass spectrometry (MALDI-TOF MS)". PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371/journal.pone.0135337. PMC 4536233. PMID 26271045.
^ Horton, Paul; Nakai, Kenta (1996). "A probabilistic classification system for predicting the cellular localization sites of proteins" (PDF). ISMB-96 Proceedings. 4: 109–15. PMID 8877510.
^ Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). "Reducing multiclass to binary: A unifying approach for margin classifiers" (PDF). The Journal of Machine Learning Research. 1: 113–141.
^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). "DeepTox: Toxicity Prediction Using Deep Learning". Frontiers in Environmental Science. 3: 80. doi:10.3389/fenvs.2015.00080.
^ Lavin, Alexander; Ahmad, Subutai (12 October 2015). Evaluating Real-time Anomaly Detection Algorithms – the Numenta Anomaly Benchmark. p. 38. arXiv:1510.03336. doi:10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
^ Iurii D. Katser; Vyacheslav O. Kozitsin. "SKAB GitHub repository". Retrieved 12 January 2021.
^ Iurii D. Katser; Vyacheslav O. Kozitsin (2020). "Skoltech Anomaly Benchmark (SKAB)". Kaggle. doi:10.34740/KAGGLE/DSV/1693952. Retrieved 12 January 2021. Cite journal requires |journal= (help)
^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
^ Ann-Kathrin Hartmann, Tommaso Soru, Edgard Marx. Generating a Large Dataset for Neural Question Answering over the DBpedia Knowledge Base. 2018.
^ Tommaso Soru, Edgard Marx. Diego Moussallem, Andre Valdestilhas, Diego Esteves, Ciro Baron. SPARQL as a Foreign Language. 2018.
^ Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. A Vietnamese Dataset for Evaluating Machine Reading Comprehension. COLING 2020.
^ Kiet Van Nguyen, Khiem Vinh Tran, Son T. Luu, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension. IEEE Access. 2020.
^ Brown, Michael Scott, Michael J. Pelosi, and Henry Dirska. "Dynamic-radius species-conserving genetic algorithm for the financial forecasting of Dow Jones index stocks." Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, 2013. 27–41.
^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.
^ Quinlan, J. Ross (1987). "Simplifying decision trees". International Journal of Man-machine Studies. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. doi:10.1016/s0020-7373(87)80053-6.
^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.
^ Shmueli, Galit, Ralph P. Russo, and Wolfgang Jank. "The BARISTA: a model for bid arrivals in online auctions." The Annals of Applied Statistics(2007): 412–441.
^ Peng, Jie, and Hans-Georg Müller. "Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions." The Annals of Applied Statistics (2008): 1056–1077.
^ Eggermont, Jeroen, Joost N. Kok, and Walter A. Kosters. "Genetic programming for data classification: Partitioning the search space."Proceedings of the 2004 ACM symposium on Applied computing. ACM, 2004.
^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499.
^ Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].
^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.
^ Jabin, Suraiya. "Stock market prediction using feed-forward artificial neural network." Int. J. Comput. Appl. (IJCA) 99.9 (2014).
^ Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020.
^ Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.
^ Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.
^ Bay, Stephen D.; et al. (2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. doi:10.1145/380995.381030. S2CID 534881.
^ Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.
^ Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.
^ Sigillito, Vincent G., et al. "Classification of radar returns from the ionosphere using neural networks." Johns Hopkins APL Technical Digest10.3 (1989): 262–266.
^ Zhang, Kun, and Wei Fan. "Forecasting skewed biased stochastic ozone days: analyses, solutions and beyond." Knowledge and Information Systems14.3 (2008): 299–326.
^ Reich, Brian J., Montserrat Fuentes, and David B. Dunson. "Bayesian spatial quantile regression." Journal of the American Statistical Association (2012).
^ Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.
^ Oza, Nikunj C., and Stuart Russell. "Experimental comparisons of online and batch versions of bagging and boosting." Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001.
^ Bay, Stephen D (2001). "Multivariate discretization for set mining". Knowledge and Information Systems. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. doi:10.1007/pl00011680. S2CID 10945544.
^ Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods: A Journal of Quantitative and Interdisciplinary History. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
^ Meek, Christopher, Bo Thiesson, and David Heckerman. "The Learning Curve Method Applied to Clustering." AISTATS. 2001.
^ Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.
^ Giot, Romain, and Raphaël Cherrier. "Predicting bikeshare system usage up to one day ahead." Computational intelligence in vehicles and transportation systems (CIVTS), 2014 IEEE symposium on. IEEE, 2014.
^ Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. doi:10.1016/j.trc.2013.04.001.
^ Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. doi:10.1109/tits.2013.2262376. S2CID 14764358.
^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.
^ H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, July 2014.
^ http://pems.dot.ca.gov/
^ Meusel, Robert, et al. "The Graph Structure in the Web—Analyzed on Different Aggregation Levels."The Journal of Web Science 1.1 (2015).
^ Kushmerick, Nicholas. "Learning to remove internet advertisements." Proceedings of the third annual conference on Autonomous Agents. ACM, 1999.
^ Fradkin, Dmitriy, and David Madigan. "Experiments with random projections for machine learning."Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003.
^ This data was used in the American Statistical Association Statistical Graphics and Computing Sections 1999 Data Exposition.
^ Ma, Justin, et al. "Identifying suspicious URLs: an application of large-scale online learning."Proceedings of the 26th annual international conference on machine learning. ACM, 2009.
^ Levchenko, Kirill, et al. "Click trajectories: End-to-end analysis of the spam value chain." Security and Privacy (SP), 2011 IEEE Symposium on. IEEE, 2011.
^ Mohammad, Rami M., Fadi Thabtah, and Lee McCluskey. "An assessment of features related to phishing websites using an automated technique."Internet Technology And Secured Transactions, 2012 International Conference for. IEEE, 2012.
^ Singh, Ashishkumar, et al. "Clustering Experiments on Big Transaction Data for Market Segmentation." Proceedings of the 2014 International Conference on Big Data Science and Computing. ACM, 2014.
^ Bollacker, Kurt, et al. "Freebase: a collaboratively created graph database for structuring human knowledge." Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008.
^ Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.
^ Mesterharm, Chris, and Michael J. Pazzani. "Active learning using on-line algorithms."Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011.
^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization" (PDF). Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415. Archived from the original (PDF) on 6 August 2019.
^ Burton, Ariel N.; Kelly, Paul H.J. (2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. Elsevier BV. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003. ISSN 0167-739X.
^ Bain, Michael; Muggleton, Stephen (1994). "Learning optimal chess strategies". Machine Intelligence. Oxford University Press, Inc. 13.
^ Quilan, J. R. (1983). "Learning efficient classification procedures and their application to chess end games". Machine Learning: An Artificial Intelligence Approach. 1: 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89.
^ Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.
^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. S2CID 6667472.
^ Li, Lihong, et al. "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms." Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011.
^ Yeung, Kam Fung, and Yanyan Yang. "A proactive personalized mobile news recommendation system." Developments in E-systems Engineering (DESE), 2010. IEEE, 2010.
^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.
^ Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.
^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.
^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
^ Lizotte, Daniel J., Omid Madani, and Russell Greiner. "Budgeted learning of nailve-bayes classifiers." Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., 2002.
^ Lebowitz, Michael (1986). Concept learning in a rich input domain: Generalization-based memory. Machine Learning: An Artificial Intelligence Approach. 2. pp. 193–214. ISBN 9780934613002.
^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
^ Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage." Abschlußbericht vom 11 (2009).
^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
^ Candillier, Laurent, and Vincent Lemaire. "Design and Analysis of the Nomao challenge Active Learning in the Real-World." Proceedings of the ALRA: Active Learning in Real-world Applications, Workshop ECML-PKDD. 2012.
^ Marquez, Ivan Garrido. "A Domain Adaptation Method for Text Classification based on Self-adjusted Training Approach." (2013).
^ Nagesh, Harsha S., Sanjay Goil, and Alok N. Choudhary. "Adaptive Grids for Clustering Massive Data Sets." SDM. 2001.
^ Kuzilek, Jakub, et al. "OU Analyse: analysing at-risk students at The Open University." Learning Analytics Review (2015): 1–16.
^ Siemens, George, et al. Open Learning Analytics: an integrated & modularized platform. Diss. Open University Press, 2011.
^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2: 150055. Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. ISSN 2052-4463. PMC 4622222. PMID 26528394.
^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). "PMLB: a large benchmark suite for machine learning evaluation and comparison". BioData Mining. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186/s13040-017-0154-4. PMC 5725843. PMID 29238404.
^ "Off The Shelf Datasets". appen.com. Appen. Retrieved 30 December 2020.
^ "Open Source Datasets". appen.com. Appen. Retrieved 30 December 2020.

[1] Wissner-Gross, A. "Conjuntos de datos sobre algoritmos" . Edge.com . Consultado el 8 de enero de 2016 .

[2] Weiss, GM; Provost, F. (1 de septiembre de 2003). "Aprender cuando los datos de formación son costosos: el efecto de la distribución de clases en la inducción de árboles" . Revista de Investigación en Inteligencia Artificial . Fundación AI Access. 19 : 315–354. doi : 10.1613 / jair.1199 . ISSN 1076-9757 . S2CID 2344521 .

[3] Turney, Peter (2000). "Tipos de costo en el aprendizaje de conceptos inductivos". arXiv : cs / 0212034 .

[4] Abney, Steven (17 de septiembre de 2007). Aprendizaje semisupervisado para lingüística computacional . Prensa CRC. ISBN 978-1-4200-1080-0.

[5] Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Aprendizaje activo con la evolución de la transmisión de datos". Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Berlín, Heidelberg: Springer Berlin Heidelberg. págs. 597–612. doi : 10.1007 / 978-3-642-23808-6_39 . ISBN 978-3-642-23807-9. ISSN 0302-9743 .

[6] Zafeiriou, S .; Kollias, D .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Kotsia, I. (2017). "Aff-Wild: desafío de valencia y excitación en la naturaleza" (PDF) . Talleres de Visión por Computador y Reconocimiento de Patrones (CVPRW), 2017 : 1980–1987. doi : 10.1109 / CVPRW.2017.248 . ISBN 978-1-5386-0733-6. S2CID 3107614 .

[7] Kollias, D .; Tzirakis, P .; Nicolaou, MA; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Zafeiriou, S. (2019). "Predicción de efectos profundos en la naturaleza: desafío y base de datos de Aff-Wild, arquitecturas profundas y más allá" . Revista Internacional de Visión por Computador (IJCV), 2019 . 127 (6–7): 907–929. doi : 10.1007 / s11263-019-01158-4 . S2CID 13679040 .

[8] Kollias, D .; Zafeiriou, S. (2019). "Expresión, afecto, reconocimiento de unidad de acción: Aff-wild2, aprendizaje multitarea y arcface" (PDF) . Conferencia británica de visión artificial (BMVC), 2019 . arXiv : 1910.04855 .

[9] Kollias, D .; Schulc, A .; Hajiyev, E .; Zafeiriou, S. (2020). "Analizando el comportamiento afectivo en el primer concurso abaw 2020" . Conferencia internacional IEEE sobre reconocimiento automático de rostros y gestos (FG), 2020 : 637–643. arXiv : 2001.11409 . doi : 10.1109 / FG47880.2020.00126 . ISBN 978-1-7281-3079-8. S2CID 210966051 .

[:4-10] Phillips, P. Jonathon; et al. (1998). "La base de datos FERET y el procedimiento de evaluación de los algoritmos de reconocimiento facial". Computación de imagen y visión . 16 (5): 295-306. doi : 10.1016 / s0262-8856 (97) 00070-x .

[11] Wiskott, Laurenz; et al. (1997). "Reconocimiento facial por coincidencia de gráfico de manojo elástico". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . doi : 10.1109 / 34.598235 .

[12] Livingstone, Steven R .; Russo, Frank A. (2018). "La base de datos audiovisual de habla y canción emocional de Ryerson (RAVDESS): un conjunto dinámico y multimodal de expresiones faciales y vocales en inglés norteamericano" . PLOS ONE . 13 (5): e0196391. Código bibliográfico : 2018PLoSO..1396391L . doi : 10.1371 / journal.pone.0196391 . PMC 5955500 . PMID 29768426 .

[13] Livingstone, Steven R .; Russo, Frank A. (2018). "Emoción". La base de datos audiovisual de habla y canto emocional de Ryerson (RAVDESS) . doi : 10.5281 / zenodo.1188976 .

[:0-14] Grgic, Mislav; Delac, Kresimir; Grgic, Sonja (2011). "Base de datos de caras de cámaras de vigilancia SCface". Herramientas y aplicaciones multimedia . 51 (3): 863–879. doi : 10.1007 / s11042-009-0417-2 . S2CID 207218990 .

[15] Wallace, Roy y col. " Modelado de variabilidad entre sesiones y análisis de factores conjuntos para la autenticación facial ". Biometrics (IJCB), Conferencia conjunta internacional de 2011 sobre . IEEE, 2011.

[16] Georghiades, A. "Base de datos de rostros de Yale". Centro de visión y control computacional de la Universidad de Yale, http://CVC.yale.edu/Projects/Yalefaces/Yalefa . 2 : 1997. Enlace externo en |journal=( ayuda )

[17] Nguyen, Duy; et al. (2006). "Detección de rostros en tiempo real y extracción de características de labios mediante matrices de puertas programables en campo". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . doi : 10.1109 / tsmcb.2005.862728 . PMID 16903373 . S2CID 7334355 .

[18] Kanade, Takeo, Jeffrey F. Cohn y Yingli Tian. " Base de datos completa para el análisis de expresiones faciales ". Reconocimiento automático de rostro y gestos, 2000. Actas. Cuarta Conferencia Internacional IEEE sobre . IEEE, 2000.

[19] Zeng, Zhihong; et al. (2009). "Un estudio de los métodos de reconocimiento de afectos: expresiones de audio, visuales y espontáneas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . doi : 10.1109 / tpami.2008.52 . PMID 19029545 .

[20] Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (1998). "Imágenes de expresión facial". La base de datos de expresión facial femenina japonesa (JAFFE) . doi : 10.5281 / zenodo.3451524 .

[21] Lyons, Michael; Akamatsu, Shigeru; Kamachi, Miyuki; Gyoba, Jiro " Codificación de expresiones faciales con ondas de Gabor ". Reconocimiento automático de rostro y gestos, 1998. Actas. Tercera Conferencia Internacional IEEE sobre . IEEE, 1998.

[22] Ng, Hong-Wei y Stefan Winkler. " Un enfoque basado en datos para limpiar grandes conjuntos de datos faciales ". Procesamiento de imágenes (ICIP), 2014 IEEE International Conference on . IEEE, 2014.

[23] RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2015). "Reconocimiento facial uno a muchos con CNN bilineales". arXiv : 1506.01342 [ cs.CV ].

[24] Jesorsky, Oliver, Klaus J. Kirchberg y Robert W. Frischholz. "Detección de rostros robusta usando la distancia hausdorff". Autenticación biométrica de persona basada en audio y video . Springer Berlín Heidelberg, 2001.

[25] Huang, Gary B. y col. Caras etiquetadas en la naturaleza: una base de datos para estudiar el reconocimiento facial en entornos sin restricciones . Vol. 1. No. 2. Informe técnico 07-49, Universidad de Massachusetts, Amherst, 2007.

[26] Bhatt, Rajen B., et al. " Segmentación eficiente de la región de la piel utilizando un modelo de árbol de decisión difuso de baja complejidad ". Conferencia de la India (INDICON), IEEE anual 2009 . IEEE, 2009.

[27] Lingala, Mounika; et al. (2014). "Detección de color de lógica difusa: áreas azules en imágenes de dermatoscopia de melanoma" . Imágenes y gráficos médicos computarizados . 38 (5): 403–410. doi : 10.1016 / j.compmedimag.2014.03.007 . PMC 4287461 . PMID 24786720 .

[28] Maes, Chris y col. " Detección de características en superficies faciales 3D para normalización y reconocimiento de poses ". Biometrics: Theory Applications and Systems (BTAS), 2010 Cuarta Conferencia Internacional IEEE sobre . IEEE, 2010.

[29] Savran, Arman, et al. " Base de datos del Bósforo para el análisis facial en 3D ". Biometría y Gestión de Identidad . Springer Berlin Heidelberg, 2008. 47–56.

[30] Heseltine, Thomas, Nick Pears y Jim Austin. " Reconocimiento facial tridimensional: un enfoque de superficie propia ". Procesamiento de imágenes, 2004. ICIP'04. 2004 Conferencia Internacional sobre . Vol. 2. IEEE, 2004.

[31] Ge, Yun; et al. (2011). "Modelado de muestra de rostro novedoso 3D para reconocimiento facial". Revista de Multimedia . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . doi : 10.4304 / jmm.6.5.467-475 .

[32] Wang, Yueming; Liu, Jianzhuang; Tang, Xiaoou (2010). "Robusto reconocimiento facial en 3D mediante aumento de la diferencia de forma local". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . doi : 10.1109 / tpami.2009.200 . PMID 20724762 . S2CID 15263913 .

[33] Zhong, Cheng, Zhenan Sun y Tieniu Tan. " Robusto reconocimiento facial en 3D utilizando un libro de códigos visual aprendido ". Visión por computadora y reconocimiento de patrones, 2007. CVPR'07. Conferencia IEEE sobre . IEEE, 2007.

[34] Zhao, G .; Huang, X .; Taini, M .; Li, SZ; Pietikäinen, M. (2011). "Reconocimiento de expresiones faciales a partir de videos de infrarrojo cercano" (PDF) . Computación de imagen y visión . 29 (9): 607–619. doi : 10.1016 / j.imavis.2011.07.002 .

[35] Soyel, Hamit y Hasan Demirel. " Reconocimiento de expresiones faciales utilizando distancias de rasgos faciales en 3D ". Análisis y reconocimiento de imágenes . Springer Berlin Heidelberg, 2007. 831–838.

[36] Bowyer, Kevin W .; Chang, Kyong; Flynn, Patrick (2006). "Una encuesta de enfoques y desafíos en 3D y reconocimiento facial 3D + 2D multimodal". Visión por computadora y comprensión de imágenes . 101 (1): 1-15. CiteSeerX 10.1.1.134.8784 . doi : 10.1016 / j.cviu.2005.05.005 .

[37] Tan, Xiaoyang; Triggs, Bill (2010). "Conjuntos de características de textura local mejoradas para el reconocimiento facial en condiciones de iluminación difíciles". Transacciones IEEE sobre procesamiento de imágenes . 19 (6): 1635-1650. Código bibliográfico : 2010ITIP ... 19.1635T . CiteSeerX 10.1.1.105.3355 . doi : 10.1109 / tip.2010.2042645 . PMID 20172829 . S2CID 4943234 .

[38] Mousavi, Mir Hashem, Karim Faez y Amin Asghari. " Reconocimiento facial tridimensional mediante clasificador SVM ". Informática e Informática, 2008. ICIS 08. Séptima Conferencia Internacional IEEE / ACIS sobre . IEEE, 2008.

[39] Amberg, Brian, Reinhard Knothe y Thomas Vetter. " Expresión invariante de reconocimiento facial 3D con un modelo transformable ". Reconocimiento automático de rostro y gestos, 2008. FG'08. 8ª Conferencia Internacional IEEE sobre . IEEE, 2008.

[40] İrfanoğlu, MO, Berk Gökberk y Lale Akarun. " Reconocimiento facial 3D basado en formas utilizando superficies faciales registradas automáticamente ". Pattern Recognition, 2004. ICPR 2004. Actas de la 17ª Conferencia Internacional sobre . Vol. 4. IEEE, 2004.

[41] Beumier, Charles; Acheroy, Marc (2001). "Verificación facial a partir de pistas de nivel de gris y 3D". Cartas de reconocimiento de patrones . 22 (12): 1321-1329. doi : 10.1016 / s0167-8655 (01) 00077-0 .

[42] Afifi, Mahmoud; Abdelhamed, Abdelrahman (13 de junio de 2017). "AFIF4: clasificación de género profunda basada en la fusión basada en AdaBoost de rasgos faciales aislados y rostros brumosos". arXiv : 1706.04277 [ cs.CV ].

[43] "Conjunto de datos de SoF" . sites.google.com . Consultado el 18 de noviembre de 2017 .

[44] "IMDB-WIKI" . data.vision.ee.ethz.ch . Consultado el 13 de marzo de 2018 .

[45] Patrón-Pérez, A .; Marszalek, M .; Reid, I .; Zisserman, A. (2012). "Aprendizaje estructurado de interacciones humanas en programas de televisión". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 34 (12): 2441–2453. doi : 10.1109 / tpami.2012.24 . PMID 23079467 . S2CID 6060568 .

[46] Ofli, F., Chaudhry, R., Kurillo, G., Vidal, R. y Bajcsy, R. (enero de 2013). Berkeley MHAD: Una base de datos de acción humana multimodal integral . En Aplicaciones de la visión por computadora (WACV), 2013 IEEE Workshop on (págs. 53–60). IEEE.

[47] Jiang, YG, et al. "Desafío THUMOS: Reconocimiento de acciones con un gran número de clases". Taller de ICCV sobre reconocimiento de acciones con un gran número de clases , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.

[48] Simonyan, Karen y Andrew Zisserman. " Redes convolucionales de dos flujos para el reconocimiento de acciones en videos ". Avances en sistemas de procesamiento de información neuronal . 2014.

[49] Stoian, Andrei; Ferecatu, Marin; Benois-Pineau, Jenny; Crucianu, Michel (2016). "Localización de acción rápida en archivos de video a gran escala". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 26 (10): 1917-1930. doi : 10.1109 / TCSVT.2015.2475835 . S2CID 31537462 .

[50] Krishna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). "Genoma visual: conexión del lenguaje y la visión mediante anotaciones de imágenes densas de fuentes colaborativas". Revista Internacional de Visión por Computador . 123 : 32–73. arXiv : 1602.07332 . doi : 10.1007 / s11263-016-0981-7 . S2CID 4492210 .

[:6-51] Karayev, S. y col. " Un conjunto de datos de objetos 3-D a nivel de categoría: poner Kinect en funcionamiento ". Actas de la IEEE International Conference on Computer Vision Workshops . 2011.

[52] Tighe, Joseph y Svetlana Lazebnik . " Superparsing: análisis de imágenes no paramétrico escalable con superpíxeles ". Visión por computadora – ECCV 2010 . Springer Berlín Heidelberg, 2010. 352–365.

[53] Arbeláez, P .; Maire, M; Fowlkes, C; Malik, J (mayo de 2011). "Detección de contorno y segmentación jerárquica de imágenes" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 33 (5): 898–916. doi : 10.1109 / tpami.2010.161 . PMID 20733228 . S2CID 206764694 . Consultado el 27 de febrero de 2016 .

[54] Lin, Tsung-Yi, et al. " Microsoft coco: objetos comunes en contexto ". Visión por computadora – ECCV 2014 . Springer International Publishing, 2014. 740–755.

[55] Russakovsky, Olga; et al. (2015). "Desafío de reconocimiento visual a gran escala de Imagenet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .

[56] Xiao, Jianxiong, et al. "Base de datos solar: reconocimiento de escenas a gran escala desde la abadía hasta el zoológico". Visión por computadora y reconocimiento de patrones (CVPR), conferencia IEEE de 2010 . IEEE, 2010.

[57] Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). "DeCAF: una función de activación convolucional profunda para el reconocimiento visual genérico". arXiv : 1310,1531 [ cs.CV ].

[58] Deng, Jia, et al. " Imagenet: una base de datos de imágenes jerárquicas a gran escala ". Visión por computadora y reconocimiento de patrones, 2009. CVPR 2009. Conferencia IEEE sobre . IEEE, 2009.

[:02-59] Krizhevsky, Alex, Ilya Sutskever y Geoffrey E. Hinton. " Clasificación de Imagenet con redes neuronales convolucionales profundas ". Avances en sistemas de procesamiento de información neuronal . 2012.

[60] Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; et al. (11 de abril de 2015). "Desafío de reconocimiento visual a gran escala de ImageNet". Revista Internacional de Visión por Computador . 115 (3): 211–252. arXiv : 1409.0575 . doi : 10.1007 / s11263-015-0816-y . hdl : 1721,1 / 104944 . S2CID 2930547 .

[61] Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. "OpenImages: un conjunto de datos públicos para la clasificación de imágenes de múltiples etiquetas y múltiples clases a gran escala, 2017. Disponible en https://github.com/openimages ".

[62] Vyas, Apoorv, et al. " Detección de bloqueos comerciales en vídeos de noticias de difusión ". Actas de la Conferencia India de 2014 sobre procesamiento de imágenes y gráficos de visión por computadora . ACM, 2014.

[63] Hauptmann, Alexander G. y Michael J. Witbrock. " Segmentación de historias y detección de comerciales en video de noticias de transmisión ". Avances en investigación y tecnología en bibliotecas digitales, 1998. ADL 98. Actas. Foro Internacional IEEE en . IEEE, 1998.

[64] Tung, Anthony KH, Xin Xu y Beng Chin Ooi. " Curler: encontrar y visualizar agrupaciones de correlaciones no lineales ". Actas de la conferencia internacional ACM SIGMOD 2005 sobre Gestión de datos . ACM, 2005.

[65] Jarrett, Kevin y col. " ¿Cuál es la mejor arquitectura de múltiples etapas para el reconocimiento de objetos? ". Computer Vision, 2009 IEEE 12th International Conference on . IEEE, 2009.

[66] Lazebnik, Svetlana , Cordelia Schmid y Jean Ponce. " Más allá de las bolsas de características: Coincidencia de pirámides espaciales para reconocer categorías de escenas naturales ". Visión por computadora y reconocimiento de patrones, 2006 IEEE Computer Society Conference on . Vol. 2. IEEE, 2006.

[67] Griffin, G., A. Holub y P. Perona. Conjunto de datos de categorías de objetos Caltech-256 California Inst . Technol., Tech. Rep. 7694, 2007 [en línea]. Disponible: http://authors.library.caltech.edu/7694 , 2007.

[68] Baeza-Yates, Ricardo y Berthier Ribeiro-Neto. Recuperación de información moderna . Vol. 463. Nueva York: ACM press, 1999.

[69] Fu, Xiping, et al. " NOKMeans: Hashing de K-significa no ortogonal ". Visión por Computador — ACCV 2014 . Springer International Publishing, 2014. 162-177.

[70] Heitz, Geremy; et al. (2009). "Localización de objetos basada en formas para clasificación descriptiva". Revista Internacional de Visión por Computador . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . doi : 10.1007 / s11263-009-0228-y . S2CID 646320 .

[71] M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth y B. Schiele, " El conjunto de datos de paisajes urbanos ". En el taller de CVPR sobre el futuro de los conjuntos de datos en la visión, 2015.

[72] Everingham, Mark; et al. (2010). "El desafío de las clases de objetos visuales pascal (voc)" . Revista Internacional de Visión por Computador . 88 (2): 303–338. doi : 10.1007 / s11263-009-0275-4 . S2CID 4246903 .

[73] Felzenszwalb, Pedro F .; et al. (2010). "Detección de objetos con modelos basados en piezas entrenados discriminativamente". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 32 (9): 1627-1645. CiteSeerX 10.1.1.153.2745 . doi : 10.1109 / tpami.2009.167 . PMID 20634557 . S2CID 3198903 .

[:12-74] Gong, Yunchao y Svetlana Lazebnik . "Cuantización iterativa: un enfoque procusto para aprender códigos binarios". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2011 en . IEEE, 2011.

[75] "Conjunto de datos CINIC-10" . Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 no es ImageNet ni CIFAR-10 . 9 de octubre de 2018 . Consultado el 13 de noviembre de 2018 .

[76] shion-mnist: Una base de datos de productos de moda similar a MNIST. Benchmark: point_right , Zalando Research, 7 de octubre de 2017 , consultado el 7 de octubre de 2017

[77] "conjunto de datos notMNIST" . Aprendizaje automático, etc . 8 de septiembre de 2011 . Consultado el 13 de octubre de 2017 .

[78] Houben, Sebastian, et al. " Detección de señales de tráfico en imágenes del mundo real: el punto de referencia alemán de detección de señales de tráfico ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.

[79] Mathias, Mayeul, et al. " Reconocimiento de señales de tráfico: ¿qué tan lejos estamos de la solución? ". Redes neuronales (IJCNN), Conferencia conjunta internacional de 2013 sobre . IEEE, 2013.

[80] Geiger, Andreas, Philip Lenz y Raquel Urtasun. " ¿Estamos preparados para la conducción autónoma? La suite de referencia kitti vision ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.

[81] Sturm, Jürgen y col. " Un punto de referencia para la evaluación de sistemas SLAM RGB-D ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2012 sobre . IEEE, 2012.

[82] Chaladze, G., Kalatozishvili, L. (2017). Conjunto de datos de Linnaeus 5 . Chaladze.com . Consultado el 13 de noviembre de 2017 en http://chaladze.com/l5/

[83] Kragh, Mikkel F .; et al. (2017). "FieldSAFE - conjunto de datos para la detección de obstáculos en la agricultura" . Sensores . 17 (11): 2579. arXiv : 1709.03526 . Código Bib : 2017arXiv170903526F . doi : 10.3390 / s17112579 . PMC 5713196 . PMID 29120383 .

[84] Afifi, Mahmoud (12 de noviembre de 2017). "Reconocimiento de género e identificación biométrica utilizando un gran conjunto de datos de imágenes de manos". arXiv : 1711.04322 [ cs.CV ].

[85] Lomonaco, Vincenzo; Maltoni, Davide (18 de octubre de 2017). "CORe50: un nuevo conjunto de datos y punto de referencia para el reconocimiento continuo de objetos". arXiv : 1705.03550 [ cs.CV ].

[86] Ella, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao; Zhang, Yimin; Qiao, Fei; Chan, Rosa HM (15 de noviembre de 2019). "OpenLORIS-Object: un conjunto de datos de visión robótica y un punto de referencia para el aprendizaje profundo de por vida". arXiv : 1911.06487v2 [ cs.CV ].

[87] Morozov, Alexei; Sushkova, Olga (13 de junio de 2019). "Conjunto de datos de vídeo térmico y THz" . Desarrollo del enfoque de programación lógica multiagente para un análisis del comportamiento humano en una videovigilancia multicanal . Moscú: IRE RAS . Consultado el 19 de julio de 2019 .

[88] Morozov, Alexei; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (9 de julio de 2019). "Desarrollo de un método de videovigilancia inteligente de terahercios basado en la fusión semántica de terahercios e imágenes de video en 3D" (PDF) . CEUR . 2391 : papel19 . Consultado el 19 de julio de 2019 .

[89] Botta, M., A. Giordana y L. Saitta. " Aprendiendo definiciones de conceptos difusos ". Fuzzy Systems, 1993., Segunda Conferencia Internacional IEEE sobre . IEEE, 1993.

[90] Frey, Peter W .; Slate, David J. (1991). "Reconocimiento de letras utilizando clasificadores adaptativos al estilo de Holanda" . Aprendizaje automático . 6 (2): 161–182. doi : 10.1007 / bf00114162 .

[91] Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004). "Aprendizaje mejorado de métricas riemannianas para análisis exploratorio". Redes neuronales . 17 (8): 1087-1100. CiteSeerX 10.1.1.59.4865 . doi : 10.1016 / j.neunet.2004.06.008 . PMID 15555853 .

[casia13-92] Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (enero de 2013). "Reconocimiento de caracteres chinos escritos a mano en línea y fuera de línea: evaluación comparativa en nuevas bases de datos". Reconocimiento de patrones . 46 (1): 155-162. doi : 10.1016 / j.patcog.2012.06.021 .

[OLHWDB1-93] Wang, D .; Liu, C .; Yu, J .; Zhou, X. (2009). "CASIA-OLHWDB1: una base de datos de caracteres chinos manuscritos en línea". 2009 Décima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos : 1206–1210. doi : 10.1109 / ICDAR.2009.163 . ISBN 978-1-4244-4500-4. S2CID 5705532 .

[94] Williams, Ben H., Marc Toussaint y Amos J. Storkey. Extracción de primitivas de movimiento a partir de datos de escritura natural . Springer Berlín Heidelberg, 2006.

[95] Meier, Franziska, et al. " Segmentación de movimiento utilizando una biblioteca primitiva ". Robots y sistemas inteligentes (IROS), Conferencia internacional IEEE / RSJ de 2011 sobre . IEEE, 2011.

[96] TE de Campos, BR Babu y M. Varma. Reconocimiento de personajes en imágenes naturales . En Actas de la Conferencia Internacional sobre Teoría y Aplicaciones de la Visión por Computador (VISAPP), Lisboa, Portugal , febrero de 2009

[97] Llorens, David y col. " La base de datos UJIpenchars: una base de datos basada en lápiz de caracteres escritos a mano aislados ". LREC . 2008.

[98] Calderara, Simone; Prati, Andrea; Cucchiara, Rita (2011). "Mezclas de distribuciones de von mises para análisis de forma de trayectoria de personas". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 21 (4): 457–471. doi : 10.1109 / tcsvt.2011.2125550 . S2CID 1427766 .

[99] Guyon, Isabelle y col. " Análisis de resultados del desafío de selección de características de nips 2003 ". Avances en sistemas de procesamiento de información neuronal . 2004.

[100] Lake, BM; Salakhutdinov, R .; Tenenbaum, JB (11 de diciembre de 2015). "Aprendizaje de conceptos a nivel humano a través de la inducción probabilística del programa" . Ciencia . 350 (6266): 1332-1338. Código Bibliográfico : 2015Sci ... 350.1332L . doi : 10.1126 / science.aab3050 . ISSN 0036-8075 . PMID 26659050 .

[101] Lake, Brenden (9 de noviembre de 2019), conjunto de datos de Omniglot para el aprendizaje de una sola vez , recuperado el 10 de noviembre de 2019

[102] LeCun, Yann; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi : 10.1109 / 5.726791 .

[103] Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Computación de imagen y visión . 22 (12): 971–981. doi : 10.1016 / j.imavis.2004.03.008 .

[104] Xu, Lei; Krzyżak, Adam; Suen, Ching Y. (1992). "Métodos de combinación de múltiples clasificadores y sus aplicaciones al reconocimiento de escritura a mano". Transacciones IEEE sobre sistemas, hombre y cibernética . 22 (3): 418–435. doi : 10.1109 / 21.155943 . hdl : 10338.dmlcz / 135217 .

[105] Alimoglu, Fevzi, et al. " Combinación de múltiples clasificadores para el reconocimiento de dígitos escritos a mano con bolígrafo ". (1996).

[106] Tang, E. Ke; et al. (2005). "Reducción de dimensionalidad lineal usando LDA ponderado por relevancia". Reconocimiento de patrones . 38 (4): 485–493. doi : 10.1016 / j.patcog.2004.09.005 .

[107] Hong, Yi y col. " Aprendiendo una combinación de métricas de distancia dispersa para clasificación y reducción de dimensionalidad ". Computer Vision (ICCV), 2011 IEEE International Conference on . IEEE, 2011.

[108] Thoma, Martín (2017). "El conjunto de datos HASYv2". arXiv : 1701.08380 [ cs.CV ].

[109] Karki, Manohar; Liu, Qun; DiBiano, Robert; Basu, Saikat; Mukhopadhyay, Supratik (20 de junio de 2018). "Reconstrucción y clasificación a nivel de píxel para caracteres bangladeses manuscritos ruidosos". arXiv : 1806.08037 [ cs.CV ].

[110] Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Redes adversas generativas de clasificador progresivamente capacitado para la clasificación de caracteres bangladeses manuscritos ruidosos", Bibliotecas digitales en la encrucijada de la información digital para el futuro , Springer International Publishing, págs. 3 a 15, arXiv : 1908.08987 , doi : 10.1007 / 978-3-030-34058-2_1 , ISBN 978-3-030-34057-5, S2CID 201665955

[111] Yuan, Jiangye; Gleason, Shaun S .; Cheriyadat, Anil M. (2013). "Benchmarking sistemático de la segmentación de imágenes aéreas". IEEE Geociencias y cartas de teledetección . 10 (6): 1527-1531. Código bibliográfico : 2013IGRSL..10.1527Y . doi : 10.1109 / lgrs.2013.2261453 . S2CID 629629 .

[112] Vatsavai, Ranga Raju. " Clasificación de imágenes basada en objetos: estado del arte y desafíos computacionales ". Actas del 2º Taller Internacional ACM SIGSPATIAL sobre Analítica de Grandes Datos Geoespaciales . ACM, 2013.

[113] Butenuth, Matthias, et al. " Integrando simulación de peatones, seguimiento y detección de eventos para el análisis de multitudes ". Talleres de Visión por Computador (Talleres ICCV), Conferencia Internacional IEEE 2011 sobre . IEEE, 2011.

[114] Fradi, Hajer y Jean-Luc Dugelay. " Análisis de multitudes de bajo nivel que utiliza la función normalizada por marcos para el conteo de personas ". Información forense y seguridad (WIFS), 2012 IEEE International Workshop on . IEEE, 2012.

[115] Johnson, Brian Alan, Ryutaro Tateishi y Nguyen Thanh Hoan. " Un enfoque híbrido de enfoque panorámico y análisis de imágenes basado en objetos multiescala para mapear pinos y robles enfermos ". Revista internacional de teledetección 34.20 (2013): 6969–6982.

[116] Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (2015). "Un nuevo modelo de clasificación para un conjunto de datos de clase desequilibrada utilizando programación genética y máquinas de vectores de apoyo: estudio de caso para la clasificación de la enfermedad de marchitez" . Cartas de teledetección . 6 (7): 568–577. doi : 10.1080 / 2150704X.2015.1062159 . S2CID 58788630 .

[117] Gallego, A.-J .; Pertusa, A .; Gil, P. " Clasificación automática de barcos a partir de imágenes aéreas ópticas con redes neuronales convolucionales ". Percepción remota . 2018; 10 (4): 511.

[118] Gallego, A.-J .; Pertusa, A .; Gil, P. "MAritime SATellite Imagery dataset" [En línea]. Disponible: https://www.iuii.ua.es/datasets/masati/ , 2018.

[119] Johnson, Brian; Tateishi, Ryutaro; Xie, Zhixiao (2012). "Uso de variables ponderadas geográficamente para la clasificación de imágenes". Cartas de teledetección . 3 (6): 491–499. doi : 10.1080 / 01431161.2011.629637 . S2CID 122543681 .

[120] Chatterjee, Sankhadeep, et al. " Clasificación de tipo de bosque: un enfoque basado en el modelo híbrido NN-GA ". Diseño de Sistemas de Información y Aplicaciones Inteligentes . Springer India, 2016. 227-236.

[121] Diegert, Carl. " Un método combinatorio para rastrear objetos utilizando la semántica de su forma ". Taller de reconocimiento de patrones de imágenes aplicadas (AIPR), 2010 IEEE 39th . IEEE, 2010.

[122] Razakarivony, Sebastien y Frédéric Jurie. " Detección de objetivos pequeños que combinan múltiples de fondo y de primer plano ". Conferencia internacional IAPR sobre aplicaciones de visión artificial . 2013.

[123] "SpaceNet" . explore.digitalglobe.com . Consultado el 13 de marzo de 2018 .

[124] Etten, Adam Van (5 de enero de 2017). "Introducción a los datos de SpaceNet" . El DownLinQ . Consultado el 13 de marzo de 2018 .

[125] Vakalopoulou, M .; Bus, N .; Karantzalosa, K .; Paragios, N. (julio de 2017). Integración de antecedentes de borde / límite con puntajes de clasificación para la detección de edificios en datos de muy alta resolución . Simposio Internacional de Geociencia y Percepción Remota del IEEE 2017 (IGARSS) . págs. 3309–3312. doi : 10.1109 / IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6. S2CID 8297433 .

[126] Yang, Yi; Newsam, Shawn (2010). Bolsa de palabras visuales y extensiones espaciales para la clasificación del uso del suelo . Actas de la XVIII Conferencia Internacional SIGSPATIAL sobre Avances en Sistemas de Información Geográfica - GIS '10 . Nueva York, Nueva York, Estados Unidos: ACM Press. doi : 10.1145 / 1869790.1869829 . ISBN 9781450304283. S2CID 993769 .

[:1-127] Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3 de noviembre de 2015). DeepSat: un marco de aprendizaje para imágenes satelitales . ACM. pag. 37. doi : 10.1145 / 2820783.2820816 . ISBN 9781450339674. S2CID 4387134 .

[:11-128] Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (21 de noviembre de 2019). "DeepSat V2: función de redes neuronales convolucionales aumentadas para la clasificación de imágenes de satélite". Cartas de teledetección . 11 (2): 156-165. arXiv : 1911.07747 . doi : 10.1080 / 2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .

[129] Mills, Kyle; Tamblyn, Isaac (16 de mayo de 2018), gran conjunto de datos de grafeno , Consejo Nacional de Investigación de Canadá, doi : 10.4224 / c8sc04578j.data

[130] Mills, Kyle; Spanner, Michael; Tamblyn, Isaac (16 de mayo de 2018). "Simulación cuántica". Simulaciones cuánticas de un electrón en un pozo de potencial bidimensional . Consejo Nacional de Investigaciones de Canadá. doi : 10.4224 / PhysRevA.96.042113.data .

[131] Rohrbach, M .; Amin, S .; Andriluka, M .; Schiele, B. (2012). Una base de datos para la detección detallada de actividades de cocina . IEEE. doi : 10.1109 / cvpr.2012.6247801 . ISBN 978-1-4673-1228-8.

[132] Kuehne, Hilde, Ali Arslan y Thomas Serre. " El lenguaje de las acciones: recuperando la sintaxis y la semántica de las actividades humanas dirigidas a objetivos ". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . 2014.

[133] Sviatoslav, Voloshynovskiy, et al. " Hacia resultados reproducibles en la autenticación basada en funciones físicas no clonables: el conjunto óptico de microestructura de autenticación forense (FAMOS) " . Proc. Actas del Taller internacional IEEE sobre seguridad y análisis forense de la información . 2012.

[134] Olga, Taran y Shideh, Rezaeifar, et al. " PharmaPack: reconocimiento móvil detallado de paquetes farmacéuticos ". Proc. Conferencia europea de procesamiento de señales (EUSIPCO) . 2017.

[135] Khosla, Aditya, et al. " Nuevo conjunto de datos para la categorización de imágenes de grano fino: perros de Stanford ". Proc. Taller CVPR sobre Categorización Visual Detallada (FGVC) . 2011.

[:7-136] Parkhi, Omkar M., et al. " Gatos y perros ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.

[137] Biggs, Benjamin y col. " ¿Quién dejó afuera a los perros? Reconstrucción animal 3D con maximización de expectativas en el circuito ." Proc. ECCV . 2020.

[Razavian,_Ali_2014-138] Razavian, Ali, et al. " Características de CNN listas para usar: una base asombrosa para el reconocimiento ". Actas de la Conferencia IEEE sobre Talleres de Reconocimiento de Patrones y Visión por Computador . 2014.

[139] Ortega, Michael; et al. (1998). "Soporte de consultas de similitud booleana clasificadas en MARS". Transacciones IEEE sobre conocimiento e ingeniería de datos . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . doi : 10.1109 / 69.738357 .

[140] Él, Xuming, Richard S. Zemel y Miguel Á. Carreira-Perpiñán. " Campos aleatorios condicionales multiescala para etiquetado de imágenes ". Visión por computadora y reconocimiento de patrones, 2004. CVPR 2004. Actas de la conferencia de la sociedad de computadoras IEEE 2004 sobre . Vol. 2. IEEE, 2004.

[141] Deneke, Tewodros, et al. " Predicción de tiempo de transcodificación de video para balanceo de carga proactivo ". Multimedia y Expo (ICME), 2014 IEEE International Conference on. IEEE, 2014.

[142] Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C.Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell (13 de abril de 2016). "Visual Storytelling". arXiv : 1604.03968 [ cs.CL ].CS1 maint: varios nombres: lista de autores ( enlace )

[143] Wah, Catherine y col. " El conjunto de datos caltech-ucsd birds-200-2011 ". (2011).

[144] Duan, Kun y col. " Descubriendo atributos localizados para un reconocimiento detallado ". Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2012 . IEEE, 2012.

[145] "Conjunto de datos YouTube-8M" . research.google.com . Consultado el 1 de octubre de 2016 .

[146] Abu-El-Haija, Sami; Kothari, Nisarg; Lee, Joonseok; Natsev, Paul; Toderici, George; Varadarajan, Balakrishnan; Vijayanarasimhan, Sudheendra (27 de septiembre de 2016). "YouTube-8M: un punto de referencia de clasificación de vídeo a gran escala". arXiv : 1609.08675 [ cs.CV ].

[147] "Conjunto de datos YFCC100M" . mmcommons.org . Yahoo-ICSI-LLNL . Consultado el 1 de junio de 2017 .

[148] Bart Thomee; David A Shamma; Gerald Friedland; Benjamín Elizalde; Karl Ni; Douglas Polonia; Damian Borth; Li-Jia Li (25 de abril de 2016). "Yfcc100m: Los nuevos datos en la investigación multimedia". Comunicaciones de la ACM . 59 (2): 64–73. arXiv : 1503.01817 . doi : 10.1145 / 2812802 . S2CID 207230134 .

[149] Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " LIRIS-ACCEDE: A Video Database for Affective Content Analysis ", en IEEE Transactions on Affective Computing, 2015.

[150] Y. Baveye, E. Dellandrea, C. Chamaret y L. Chen, " Deep Learning vs. Kernel Methods: Performance for Emotion Prediction in Videos ", en la Conferencia de la Asociación Humana de 2015 sobre Computación afectiva e Interacción inteligente (ACII), 2015 .

[151] M. Sjöberg, Y. Baveye, H. Wang, VL Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Demarty y L. Chen, " La tarea del impacto afectivo del cine medieval 2015 ", en Taller de MediaEval 2015, 2015.

[152] S. Johnson y M. Everingham, " Postura agrupada y modelos de apariencia no lineal para la estimación de la postura humana ", en Actas de la 21ª Conferencia británica sobre visión artificial (BMVC2010)

[153] S. Johnson y M. Everingham, " Aprendizaje de la estimación de la postura humana efectiva a partir de anotaciones inexactas ", en las actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR2011)

[154] Afifi, Mahmoud; Hussain, Khaled F. (2 de noviembre de 2017). "El logro de una mayor flexibilidad en pruebas basadas en opciones múltiples utilizando técnicas de clasificación de imágenes". arXiv : 1711.00972 [ cs.CV ].

[155] "Conjunto de datos de MCQ" . sites.google.com . Consultado el 18 de noviembre de 2017 .

[156] Taj-Eddin, IATF; Afifi, M .; Korashy, M .; Hamdy, D .; Nasser, M .; Derbaz, S. (julio de 2016). Una nueva técnica de compresión para videos de vigilancia: Evaluación utilizando un nuevo conjunto de datos . 2016 Sexta Conferencia Internacional sobre Tecnologías de la Información y las Comunicaciones Digitales y sus Aplicaciones (DICTAP) . págs. 159-164. doi : 10.1109 / DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7. S2CID 8698850 .

[TabakNorouzzadeh2018-157] Tabak, Michael A .; Norouzzadeh, Mohammad S .; Wolfson, David W .; Sweeney, Steven J .; Vercauteren, Kurt C .; Snow, Nathan P .; Halseth, Joseph M .; Di Salvo, Paul A .; Lewis, Jesse S .; White, Michael D .; Teton, Ben; Beasley, James C .; Schlichting, Peter E .; Boughton, Raoul K .; Wight, Betania; Newkirk, Eric S .; Ivan, Jacob S .; Odell, Eric A .; Brook, Ryan K .; Lukacs, Paul M .; Moeller, Anna K .; Mandeville, Elizabeth G .; Clune, Jeff; Miller, Ryan S .; Photopoulou, Theoni (2018). "Machine learning para clasificar especies animales en imágenes de cámaras trampa: aplicaciones en ecología" . Métodos en ecología y evolución . 10 (4): 585–590. doi : 10.1111 / 2041-210X.13120 . ISSN 2041-210X .

[158] Taj-Eddin, Islam ATF; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H .; Ng, Yoke Cheng; Hernández, Evelyng; Abdel-Latif, Salma M. (noviembre de 2017). "¿Podemos ver la fotosíntesis? Magnificando los pequeños cambios de color de las hojas verdes de las plantas usando un aumento de video euleriano". Revista de imágenes electrónicas . 26 (6): 060501. arXiv : 1706.03867 . Código bibliográfico : 2017JEI .... 26f0501T . doi : 10.1117 / 1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .

[159] McAuley, Julian y col. " Recomendaciones basadas en imágenes sobre estilos y sustitutos ". Actas de la 38ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2015

[160] Ganesan, Kavita; Zhai, Chengxiang (2012). "Ranking de entidades basado en opiniones". Recuperación de información . 15 (2): 116-150. doi : 10.1007 / s10791-011-9174-8 . hdl : 2142/15252 . S2CID 16258727 .

[161] Lv, Yuanhua, Dimitrios Lymberopoulos y Qiang Wu. " Una exploración de la heurística de clasificación en la búsqueda local móvil ". Actas de la 35ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información . ACM, 2012.

[162] Harper, F. Maxwell; Konstan, Joseph A. (2015). "Los conjuntos de datos de MovieLens: historia y contexto". Transacciones ACM en sistemas inteligentes interactivos . 5 (4): 19. doi : 10.1145 / 2827872 . S2CID 16619709 .

[163] Koenigstein, Noam, Gideon Dror y Yehuda Koren. " Recomendaciones de música de Yahoo !: modelado de clasificaciones musicales con dinámica temporal y taxonomía de elementos ". Actas de la quinta conferencia ACM sobre sistemas de recomendación . ACM, 2011.

[164] McFee, Brian y col. " El desafío del conjunto de datos de un millón de canciones ". Actas del acompañante de la 21ª conferencia internacional en World Wide Web . ACM, 2012.

[165] Bohanec, Marko y Vladislav Rajkovic. " Adquisición y explicación de conocimientos para la toma de decisiones multiatributo ". VIII Workshop Internacional sobre Sistemas Expertos y sus Aplicaciones . 1988.

[166] Tan, Peter J. y David L. Dowe. " Inferencia MML de gráficos de decisión con uniones multidireccionales ". Conferencia conjunta australiana sobre inteligencia artificial . 2002.

[167] "Cuantificar la comedia en YouTube: por qué importa el número de o en tu LOL" . Base de datos de metatexto PNL . Consultado el 26 de octubre de 2020 .

[168] Kim, Byung Joo (2012). "Un clasificador de Big Data" . Tecnología de la información híbrida y de convergencia . Comunicaciones en Informática y Ciencias de la Información. 310 . págs. 505–512. doi : 10.1007 / 978-3-642-32692-9_63 . ISBN 978-3-642-32691-2.

[169] Pérezgonzález, Jose D .; Gilbey, Andrew (2011). "Predecir las clasificaciones de los aeropuertos Skytrax a partir de las opiniones de los clientes" . Revista de Gestión Aeroportuaria . 5 (4): 335–339.

[170] Loh, Wei-Yin y Yu-Shan Shih. " Métodos de selección dividida para árboles de clasificación ". Statistica sinica (1997): 815–840.

[171] Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "Una comparación de la precisión de la predicción, la complejidad y el tiempo de entrenamiento de treinta y tres algoritmos de clasificación antiguos y nuevos". Aprendizaje automático . 40 (3): 203–228. doi : 10.1023 / a: 1007608224229 . S2CID 17030953 .

[172] Kiet Van Nguyen, Vu Duc Nguyen, Phu XV Nguyen, Tham TH Truong, Ngan Luu-Thuy Nguyen. " UIT-VSFC: Corpus de comentarios de estudiantes vietnamitas para el análisis de sentimientos

[173] Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Reconocimiento de emociones para el texto de las redes sociales vietnamitas" . Lingüística computacional . Comunicaciones en Informática y Ciencias de la Información. 1215 . págs. 319–333. arXiv : 1911.09339 . doi : 10.1007 / 978-981-15-6168-9_27 . ISBN 978-981-15-6167-2. S2CID 208202333 .

[174] > Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 de abril de 2021). "Detección de quejas de dominio abierto vietnamita en sitios web de comercio electrónico". arXiv : 2104.11969 .CS1 maint: varios nombres: lista de autores ( enlace )

[175] Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). Un modelo conjunto para la evolución tema-sentimiento a lo largo del tiempo . IEEE. doi : 10.1109 / icdm.2014.82 . ISBN 978-1-4799-4302-9.

[176] Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF) . LREC . 2 . S2CID 9239414 . Archivado desde el original (PDF) el 6 de agosto de 2019.

[177] Amini, Massih R .; Usunier, Nicolás; Goutte, Cyril (2009). "Aprendiendo de múltiples vistas parcialmente observadas - una aplicación a la categorización de texto multilingüe" . Avances en los sistemas de procesamiento de información neuronal : 28–36.

[178] Liu, Ming; et al. (2015). "VRCA: un algoritmo de agrupamiento para una gran cantidad de textos" . Actas de la 24ª Conferencia Internacional sobre Inteligencia Artificial . AAAI Press.

[179] Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, MS; Al-Rajeh, A (2008). "Clasificación automática de texto árabe". Actas de la Novena Conferencia Internacional sobre Análisis Estadístico de Datos Textuales, Lyon, Francia .

[180] "Conjunto de datos de evaluación de extracción de relación y entidad: Dstl / re3d" . 17 de diciembre de 2018.

[181] "El examinador - Catálogo de SpamClickBait" .

[182] "Un millón de titulares de noticias" .

[183] "One Week of Global News Feeds" .

[184] Kulkarni, Rohit (2018), Reuters News-Wire Archive , Harvard Dataverse, doi : 10.7910 / DVN / XDB74W

[185] "IrishTimes - las noticias Waxy-Wany" .

[186] "Conjunto de datos de titulares de noticias para la detección del sarcasmo" . kaggle.com . Consultado el 27 de abril de 2019 .

[187] Klimt, Bryan y Yiming Yang. " Presentamos el Enron Corpus ". CEAS . 2004.

[188] Kossinets, Gueorgi, Jon Kleinberg y Duncan Watts. " La estructura de las vías de información en una red de comunicación social ". Actas de la 14ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . ACM, 2008.

[189] Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V .; Paliouras, George; Spyropoulos, Constantine D. (2000). "Una evaluación del filtrado anti-spam ingenuo bayesiano". En Potamias, G .; Moustakis, V .; van Someren, M. (eds.). Actas del taller sobre aprendizaje automático en la nueva era de la información . XI Congreso Europeo de Aprendizaje Automático, Barcelona, España. 11 . págs. 9-17. arXiv : cs / 0006013 . Código Bibliográfico : 2000cs ........ 6013A .

[190] Bratko, Andrej; et al. (2006). "Filtrado de spam mediante modelos estadísticos de compresión de datos" (PDF) . The Journal of Machine Learning Research . 7 : 2673–2698.

[191] Almeida, Tiago A., José María G. Hidalgo y Akebo Yamakami. " Contribuciones al estudio del filtrado de spam de SMS: nueva recopilación y resultados ". Actas del XI simposio ACM sobre ingeniería documental . ACM, 2011.

[192] Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "Filtrado de spam por SMS: métodos y datos" . Sistemas expertos con aplicaciones . 39 (10): 9899–9908. doi : 10.1016 / j.eswa.2012.02.053 .

[193] Joachims, Thorsten. Un análisis probabilístico del algoritmo de Rocchio con TFIDF para categorización de texto . Nº CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa, departamento de ciencias de la computación, 1996.

[194] Dimitrakakis, Christos y Samy Bengio. Adaptación de políticas en línea para algoritmos de conjuntos . No. EPFL-REPORT-82788. IDIAP, 2002.

[195] Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.

[196] Dooms, S. et al. "Movietweetings: un conjunto de datos de clasificación de películas recopilado de Twitter, 2013. Disponible en https://github.com/sidooms/MovieTweetings ".

[197] RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Aprendido-Miller, Erik (2017). "Twitter100k: un conjunto de datos del mundo real para la recuperación de cross-media débilmente supervisada". arXiv : 1703.06618 [ cs.CV ].

[198] "huyt16 / Twitter100k" . GitHub . Consultado el 26 de marzo de 2018 .

[199] Ve, Alec; Bhayani, Richa; Huang, Lei (2009). "Clasificación de sentimiento de Twitter mediante supervisión a distancia". Informe del proyecto CS224N, Stanford . 1 : 12.

[200] Chikersal, Prerna, Soujanya Poria y Erik Cambria. " SeNTU: análisis de sentimientos de tweets mediante la combinación de un clasificador basado en reglas con aprendizaje supervisado ". Actas del Taller Internacional de Evaluación Semántica, SemEval . 2015.

[201] Zafarani, Reza y Huan Liu . "Repositorio de datos de computación social en ASU". Escuela de Ingeniería en Computación, Informática y Sistemas de Decisión, Universidad Estatal de Arizona (2009).

[202] Bisgin, Halil, Nitin Agarwal y Xiaowei Xu. " Investigando la homofilia en las redes sociales online ". Inteligencia web y tecnología de agente inteligente (WI-IAT), Conferencia internacional IEEE / WIC / ACM de 2010 sobre . Vol. 1. IEEE, 2010.

[203] McAuley, Julian J .; Leskovec, Jure. "Aprender a descubrir círculos sociales en las redes del ego". NIPS . 2012 : 2012.

[204] Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Comparación estadística basada en la red de la topología de citas de bases de datos bibliográficas" . Informes científicos . 4 (6496): 6496. arXiv : 1502.05061 . Código Bibliográfico : 2014NatSR ... 4E6496S . doi : 10.1038 / srep06496 . PMC 4178292 . PMID 25263231 .

[205] Abdulla, N., et al. "Análisis de sentimiento árabe: basado en corpus y basado en léxico". Actas de la conferencia IEEE sobre Ingeniería Eléctrica Aplicada y Tecnologías de Computación (AEECT) . 2013.

[206] Abooraig, Raddad, et al. " Sobre la categorización automática de los artículos árabes en función de su orientación política ". Tercer Congreso Internacional de Ingeniería Informática y Ciencias de la Información (ICIEIS2014) . 2014.

[207] Kawala, François, et al. " Prédictions d'activité dans les réseaux sociaux en ligne ". 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques . 2013.

[208] Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selección de alumnos casi óptimos mediante la asignación de datos incrementales". arXiv : 1601.00024 [ cs.LG ].

[209] Xu y col. " SemEval-2015 Tarea 1: Paráfrasis y similitud semántica en Twitter (PIT) " Actas del 9º Taller Internacional sobre Evaluación Semántica . 2015.

[210] Xu y col. " Extrayendo paráfrasis léxicamente divergentes de Twitter " Transacciones de la Association for Computational (TACL) . 2014.

[211] Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Mapeo de crisis en tiempo real de desastres naturales mediante redes sociales" (PDF) . Sistemas inteligentes IEEE . 29 (2): 9-17. doi : 10.1109 / MIS.2013.126 . S2CID 15139204 .

[212] "geoparsepy" . 2016. Biblioteca Python PyPI

[213] Gupta, Aakash (5 de diciembre de 2020). "Colección de redes sociales holandesas" Comprobar |url=valor ( ayuda ) . doi : 10.5072 / FK2 / MTPTL7 . Cite journal requiere |journal=( ayuda )

[214] "Streamlit" . huggingface.co . Consultado el 18 de diciembre de 2020 .

[215] "Colección de redes sociales holandesas" . kaggle.com . Consultado el 18 de diciembre de 2020 .

[216] Forsyth, E., Lin, J. y Martell, C. (2008, 25 de junio). El corpus de chat de NPS. Obtenido de http://faculty.nps.edu/cmartell/NPSChat.htm

[217] Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao y Bill Dolan, Un enfoque de red neuronal para la generación de respuestas conversacionales sensibles al contexto , Conferencia del Capítulo de América del Norte de la Asociación de Lingüística Computacional - Tecnologías del Lenguaje Humano (NAACL-HLT 2015), junio de 2015.

[218] Shaoul, C. y Westbury C. (2013) Un corpus de USENET de redundancia reducida (2005-2011) Edmonton, AB: University of Alberta (descargado de http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus .download.html )

[219] KAN, M. (2011, enero). Corpus del Servicio de Mensajes Cortos (SMS) de NUS. Obtenido de http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/

[220] Atascado_en_la_Matriz. (2015, 3 de julio). Tengo todos los comentarios de Reddit disponibles públicamente para la investigación. ~ 1.7 mil millones de comentarios @ 250 GB comprimidos. ¿Interesado en esto? [Publicación original]. Mensaje publicado en https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

[221] Ryan Lowe, Nissan Pow, Iulian V. Serban y Joelle Pineau, " El corpus de diálogo de Ubuntu: un gran conjunto de datos para la investigación en sistemas de diálogo de múltiples turnos sin estructura ", SIGDial 2015.

[222] Jason Williams Antoine Raux Matthew Henderson, " [1] ", Diálogo y discurso | Abril de 2016.

[KOW2017-223] K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "HDLTex: Aprendizaje profundo jerárquico para la clasificación de textos", 16ª Conferencia internacional de IEEE sobre aplicaciones y aprendizaje automático (ICMLA) de 2017, págs. 364-371. doi: 10.1109 / ICMLA.2017.0-134

[KOW2017WOS-224] K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber y LE Barnes, "Web of Science Dataset", doi : 10.17632 / 9rw3vkcfy4.6

[225] Galgani, Filippo, Paul Compton y Achim Hoffmann. " Combinando diferentes técnicas de resumen para texto legal ". Actas del taller sobre enfoques híbridos innovadores para el procesamiento de datos textuales . Asociación de Lingüística Computacional, 2012.

[226] Nagwani, NK (2015). "Resumiendo gran colección de texto usando modelado de temas y agrupamiento basado en el marco MapReduce" . Revista de Big Data . 2 (1): 1–18. doi : 10.1186 / s40537-015-0020-5 .

[227] Schler, Jonathan; et al. (2006). "Efectos de la edad y el género en los blogs" (PDF) . Simposio de primavera de AAAI: Enfoques computacionales para analizar weblogs . 6 .

[228] Anand, Pranav y col. "¡Créame, podemos hacer esto! Anotar actos persuasivos en el texto del blog". Modelos computacionales de argumento natural . 2011.

[229] Traud, Amanda L., Peter J. Mucha y Mason A. Porter. "Estructura social de las redes de Facebook". Physica A: Mecánica estadística y sus aplicaciones 391.16 (2012): 4165–4180.

[230] Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimación de matrices de rango bajo y dispersas simultáneamente". arXiv : 1206,6474 [ cs.DS ].

[231] Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: un conjunto de datos de desafío para la comprensión de texto de máquina de dominio abierto" . EMNLP . 1 .

[232] Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M .; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Hacia la respuesta a preguntas completa de AI: un conjunto de tareas de juguete de requisitos previos". arXiv : 1502.05698 [ cs.AI ].

[233] Marcus, Mitchell P .; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Construyendo un gran corpus anotado de inglés: The Penn Treebank" . Lingüística computacional . 19 (2): 313–330.

[234] Collins, Michael (2003). "Modelos estadísticos dirigidos por la cabeza para el análisis del lenguaje natural" . Lingüística computacional . 29 (4): 589–637. doi : 10.1162 / 089120103322753356 .

[235] Guyon, Isabelle, et al., Eds. Extracción de características: fundaciones y aplicaciones . Vol. 207. Springer, 2008.

[236] Lin, Yuri, et al. " Anotaciones sintácticas para el corpus ngram de google books ". Actas de las demostraciones del sistema ACL 2012 . Asociación de Lingüística Computacional, 2012.

[237] Krishnamoorthy, Niveda; et al. (2013). "Generación de descripciones de video en lenguaje natural utilizando conocimientos extraídos de texto" . AAAI . 1 .

[238] Luyckx, Kim y Walter Daelemans. " Personae: un corpus para la predicción del autor y la personalidad a partir del texto ". LREC . 2008.

[239] Solorio, Thamar, Ragib Hasan y Mainul Mizan. " Un estudio de caso de detección de marionetas en wikipedia ". Taller de Análisis del Lenguaje en Redes Sociales (LASM) en NAACL HLT . 2013.

[240] Ciarelli, Patrick Marques y Elias Oliveira. " Aglomeración y eliminación de términos para la reducción de dimensionalidad ". Diseño y Aplicaciones de Sistemas Inteligentes, 2009. ISDA'09. Novena Conferencia Internacional sobre . IEEE, 2009.

[241] Zhou, Mingyuan, Oscar Hernan Madrid Padilla y James G. Scott. "Priores para matrices de conteo aleatorias derivadas de una familia de procesos binomiales negativos". Revista de la Asociación Estadounidense de Estadística recién aceptada (2015): 00–00.

[242] Kotzias, Dimitrios, et al. " Desde etiquetas grupales hasta etiquetas individuales con funciones profundas ". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos. ACM, 2015.

[243] Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Precursores de modelado para la predicción de eventos a través del aprendizaje de instancias múltiples anidadas". arXiv : 1602.08033 [ cs.SI ].

[244] Buza, Krisztian. " Predicción de comentarios para blogs ". Análisis de datos, aprendizaje automático y descubrimiento de conocimientos . Springer International Publishing, 2014. 145-152.

[245] Soysal, Ömer M (2015). "Minería de reglas de asociación con patrones secuenciales asociados en su mayoría". Sistemas expertos con aplicaciones . 42 (5): 2582-2592. doi : 10.1016 / j.eswa.2014.10.049 .

[246] Bowman, Samuel y col. " Un gran corpus anotado para aprender la inferencia del lenguaje natural ". Actas de la Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). ACL, 2015.

[247] "Colección DSL Corpus" . ttg.uni-saarland.de . Consultado el 22 de septiembre de 2017 .

[248] "Diccionario urbano de palabras y definiciones" .

[249] H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, " T-REx: Una alineación a gran escala del lenguaje natural con triples de la base de conocimientos ", Actas de la XI Congreso Internacional de Evaluación y Recursos Lingüísticos (LREC-2018).

[250] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. y Bowman, SR (2018). Glue: una plataforma de análisis y evaluación comparativa multitarea para la comprensión del lenguaje natural. preimpresión de arXiv arXiv: 1804.07461.

[251] "Las computadoras están aprendiendo a leer, pero aún no son tan inteligentes" . Cableado . Consultado el 29 de diciembre de 2019 .

[252] Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: un conjunto de datos para la primera evaluación sobre subtítulos de imágenes vietnamitas" .

[253] Para, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. (2020). "Predicción de género basada en nombres vietnamitas con técnicas de aprendizaje automático" (PDF) . Actas de la 4ª Conferencia Internacional sobre Procesamiento del Lenguaje Natural y Recuperación de Información . págs. 55–60. arXiv : 2010.10852 . doi : 10.1145 / 3443279.3443309 . ISBN 9781450377607. S2CID 224814110 .

[254] Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (18 de marzo de 2021). "Detección de habla tóxica y constructiva para comentarios de redes sociales de dominio abierto en vietnamita". arXiv : 2103.10069 [ cs.CL ].

[255] Annamoradnejad, Issa y Zoghi, Gohar. Colbert: Usar la inserción de frases de bert para detectar el humor . arXiv: 2004.12765, 2020.

[256] M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen y E. Dupoux (2015). "The Zero Resource Speech Challenge 2015", en INTERSPEECH-2015.

[257] M. Versteegh, X. Anguera, A. Jansen y E. Dupoux, (2016). " El Desafío de Discurso de Recursos Cero 2015: Enfoques y Resultados Propuestos ", en SLTU-2016.

[258] Sakar, Betul Erdogdu; et al. (2013). "Recolección y análisis de un conjunto de datos de voz de Parkinson con múltiples tipos de grabaciones de sonido". IEEE Journal of Biomedical and Health Informatics . 17 (4): 828–834. doi : 10.1109 / jbhi.2013.2245674 . PMID 25055311 . S2CID 15491516 .

[259] Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.

[:2-260] Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.

[261] Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.

[262] Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.

[263] Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.

[264] Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Pattern Recognition Letters. 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515. doi:10.1016/s0167-8655(99)00077-x.

[265] Jaeger, Herbert; et al. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Neural Networks. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.

[266] Tsanas, Athanasios; et al. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". IEEE Transactions on Biomedical Engineering (Submitted manuscript). 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.

[267] Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.

[268] Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Speech Communication. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.

[269] Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.

[HALABI2016-270] Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (PhD Thesis). University of Southampton, School of Electronics and Computer Science.

[271] Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL].

[272] Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.

[273] Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.

[274] Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.

[275] Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.

[276] Rafii, Zafar (2017). "Music". MUSDB18 - a corpus for music separation. doi:10.5281/zenodo.1117372.

[277] Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD].

[278] Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.

[279] Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropy. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.

[280] Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.

[281] Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML].

[282] Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2017.

[283] "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Science | AAAS. 18 July 2018. Retrieved 22 July 2018.

[284] "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3 May 2016. Retrieved 22 July 2018.

[285] Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160

[286] Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2020.

[287] Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3490684

[288] The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml

[289] Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.

[290] Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.

[291] PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Circulation. v101 i23. e215-e220.

[292] Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Sensors and Actuators B: Chemical. 166: 320–329. doi:10.1016/j.snb.2012.01.074.

[293] Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Sensors and Actuators B: Chemical. 198: 316–341. doi:10.1016/j.snb.2014.03.069.

[294] Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.

[295] Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Machine Learning. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.

[296] Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.

[297] Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.

[298] Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Proceedings. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.

[299] Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."

[300] Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.

[301] Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.

[302] Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.

[303] Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.

[304] Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.

[305] Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Vol. 4. IEEE, 2009.

[306] Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.

[307] Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.

[308] Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.

[309] Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194.

[310] Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.

[311] Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.

[312] Velloso, Eduardo, et al. "Qualitative activity recognition of weight lifting exercises."Proceedings of the 4th Augmented Human International Conference. ACM, 2013.

[313] Mortazavi, Bobak Jack, et al. "Determining the single best axis for exercise repetition recognition and counting on smartwatches." Wearable and Implantable Body Sensor Networks (BSN), 2014 11th International Conference on. IEEE, 2014.

[314] Sapsanis, Christos, et al. "Improving EMG based Classification of basic hand movements using EMD." Engineering in Medicine and Biology Society (EMBC), 2013 35th Annual International Conference of the IEEE. IEEE, 2013.

[Andrianesis,_Konstantinos_2015-315] Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.

[316] Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.

[317] Stisen, Allan, et al. "Smart Devices are Different: Assessing and MitigatingMobile Sensing Heterogeneities for Activity Recognition."Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. ACM, 2015.

[318] Bhattacharya, Sourav, and Nicholas D. Lane. "From Smart to Deep: Robust Activity Recognition on Smartwatches using Deep Learning."

[319] Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.

[320] Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.

[321] Reiss, Attila, and Didier Stricker. "Introducing a new benchmarked dataset for activity monitoring."Wearable Computers (ISWC), 2012 16th International Symposium on. IEEE, 2012.

[322] Roggen, Daniel, et al. "OPPORTUNITY: Towards opportunistic activity and context recognition systems." World of Wireless, Mobile and Multimedia Networks & Workshops, 2009. WoWMoM 2009. IEEE International Symposium on a. IEEE, 2009.

[323] Kurz, Marc, et al. "Dynamic quantification of activity recognition capabilities in opportunistic systems." Vehicular Technology Conference (VTC Spring), 2011 IEEE 73rd. IEEE, 2011.

[324] Sztyler, Timo, and Heiner Stuckenschmidt. "On-body localization of wearable devices: an investigation of position-aware activity recognition." Pervasive Computing and Communications (PerCom), 2016 IEEE International Conference on. IEEE, 2016.

[325] Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 2100107. doi:10.1109/JTEHM.2017.2780836. ISSN 2168-2372. PMC 5788403. PMID 29404226.

[326] Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (23 May 2017). The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy. ACM. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.

[327] "Toronto Rehab Stroke Pose Dataset".

[328] Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (1 March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.

[329] Jung, M.M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29. Cite journal requires |journal= (help)

[330] Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep 92-02 (1992).

[331] Basu, Sugato. "Semi-supervised clustering with limited background knowledge." AAAI. 2004.

[332] Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016/j.ijepes.2014.02.027.

[333] Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.

[334] Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.

[:8-335] Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.

[:9-336] Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.

[337] Pierre Baldi, Kyle Cranmer, Taylor Faucett, Peter Sadowski, and Daniel Whiteson. 'Parameterized Machine Learning for High-Energy Physics.' In submission.

[338] Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.

[339] Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.

[340] Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.

[341] Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.

[342] Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1.

[343] Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.

[344] Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance‐based prediction of real‐valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.

[345] Palmer, Christopher R., and Christos Faloutsos. "Electricity based external similarity of categorical attributes." Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2003. 486–500.

[346] Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. doi:10.1016/j.enbuild.2012.03.003.

[347] De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.

[348] Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.

[349] Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.

[350] Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.

[351] Wang, Jun, Bei Yu, and Les Gasser. "Concept tree based clustering visualization with shaded similarity matrices." Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. IEEE, 2002.

[352] Pettengill, Gordon H., et al. "Magellan: Radar performance and data products." Science252.5003 (1991): 260–265.

[:10-353] Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.

[354] Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.

[355] Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.

[356] Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).

[357] Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.

[358] Sikora, Marek, and Beata Sikora. "Rough natural hazards monitoring." Rough Sets: Selected Methods and Applications in Management and Engineering. Springer London, 2012. 163–179.

[359] Yeh, I–C (1998). "Modeling of strength of high-performance concrete using artificial neural networks". Cement and Concrete Research. 28 (12): 1797–1808. doi:10.1016/s0008-8846(98)00165-3.

[360] Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomial neural networks for approximation of the compressive strength of concrete". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC...8...79S. doi:10.1016/j.asoc.2007.02.010.

[361] Yeh, I. "Modeling slump of concrete with fly ash and superplasticizer." Computers and Concrete5.6 (2008): 559–572.

[362] Gencel, Osman; et al. (2011). "Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete". Construction and Building Materials. 25 (8): 3486–3494. doi:10.1016/j.conbuildmat.2011.03.040.

[363] Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction." Advances in Neural Information Processing Systems (1994): 216–216.

[364] Buscema, Massimo, William J. Tastle, and Stefano Terzi. "Meta net: A new meta-classifier family."Data Mining Applications Using Artificial Adaptive Systems. Springer New York, 2013. 141–182.

[:3-365] Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.

[366] Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.

[367] Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179.

[368] Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.

[369] Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. doi:10.1016/s0031-3203(96)00142-2.

[370] Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S; Goldgof, Dmitry B (eds.). Biomedical Image Processing and Biomedical Visualization. 1905. pp. 861–870. doi:10.1117/12.148698. S2CID 14922543.

[371] Demir, Cigdem, and Bülent Yener. "Automated cancer diagnosis based on histopathological images: a systematic survey." Rensselaer Polytechnic Institute, Tech. Rep (2005).

[372] Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).

[373] Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. doi:10.1016/0031-3203(91)90074-f.

[Jinyan_2003-374] Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2003. 254-265.

[375] Güvenir, H. Altay, et al. "A supervised machine learning algorithm for arrhythmia analysis."Computers in Cardiology 1997. IEEE, 1997.

[376] Lagus, Krista, et al. "Independent variable group analysis in learning compact representations for data." Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), T. Honkela, V. Könönen, M. Pöllä, and O. Simula, Eds., Espoo, Finland. 2005.

[377] Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014

[378] Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.

[379] Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.

[380] Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].

[381] ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.

[382] Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231–234. doi:10.5566/ias.1155. ISSN 1854-5165.

[383] Bagirov, A. M.; et al. (2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007/bf02578945. S2CID 14165678.

[384] Fung, Glenn, et al. "A fast iterative algorithm for fisher discriminant using heterogeneous kernels."Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.

[385] Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." Proceedings of the Second Australian Conference on Applications of expert systems. Addison-Wesley Longman Publishing Co., Inc., 1987.

[Zhou,_Zhi-Hua_2004-386] Zhou, Zhi-Hua; Jiang, Yuan (2004). "NeC4. 5: neural ensemble based C4. 5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109/tkde.2004.11. S2CID 1024861.

[387] Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.

[388] Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay. "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma."Dicle Tıp Dergisi 42.1 (2015).

[389] Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.

[390] Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (May 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112.

[391] "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.

[392] Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.

[393] Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902.

[394] "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.

[395] Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.

[396] Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.

[397] Ontañón, Santiago, and Enric Plaza. "On similarity measures based on a refinement lattice." Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 2009. 240–255.

[398] Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.

[399] Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.

[400] Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73.

[401] "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.

[402] Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. doi:10.1038/s41598-021-87602-3. ISSN 2045-2322.

[403] Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).

[404] Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.

[405] Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.

[406] Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach." Advances in neural information processing systems 6. 1994.

[407] Mallah, Charles; Cope, James; Orwell, James (2013). "Plant leaf classification using probabilistic integration of shape, texture and margin features". Signal Processing, Pattern Recognition and Applications. 5: 1.

[408] Yahiaoui, Itheri, Olfa Mzoughi, and Nozha Boujemaa. "Leaf shape descriptor for tree species identification." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.

[409] Tan, Ming, and Larry Eshelman. "Using weighted networks to represent classification knowledge in noisy domains." Proceedings of the Fifth International Conference on Machine Learning. 2014.

[410] Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.

[411] Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.

[412] Blackard, Jock A.; Dean, Denis J. (1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. doi:10.1016/s0168-1699(99)00046-0.

[413] Fürnkranz, Johannes. "Round robin rule learning."Proceedings of the 18th International Conference on Machine Learning (ICML-01): 146--153. 2001.

[414] Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.

[415] Munisami, Trishen; et al. (2015). "Plant Leaf Recognition Using Shape Features and Colour Histogram with K-nearest Neighbour Classifiers". Procedia Computer Science. 58: 740–747. doi:10.1016/j.procs.2015.08.095.

[416] Li, Bai (2016). "Atomic potential matching: An evolutionary target recognition approach based on edge features". Optik-International Journal for Light and Electron Optics. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016/j.ijleo.2015.11.186.

[417] Nilsback, Maria-Elena, and Andrew Zisserman. "A visual vocabulary for flower classification."Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

[418] Giselsson, Thomas M.; et al. (2017). "A Public Image Database for Benchmark of Plant Seedling Classification Algorithms". arXiv:1711.05458 [cs.CV].

[419] Muresan, Horea; Oltean, Mihai (2018). "Fruit recognition from images using deep learning". Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. doi:10.2478/ausi-2018-0002.

[420] Oltean, Mihai; Muresan, Horea (2017). "A dataset with fruit images on Kaggle".

[421] Nakai, Kenta; Kanehisa, Minoru (1991). "Expert system for predicting protein localization sites in gram‐negative bacteria". Proteins: Structure, Function, and Bioinformatics. 11 (2): 95–110. doi:10.1002/prot.340110203. PMID 1946347. S2CID 27606447.

[422] Ling, Charles X., et al. "Decision trees with minimal costs." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.

[423] Mahé, Pierre, et al. "Automatic identification of mixed bacterial species fingerprints in a MALDI-TOF mass-spectrum." Bioinformatics (2014): btu022.

[424] Barbano, Duane; et al. (2015). "Rapid characterization of microalgae and microalgae mixtures using matrix-assisted laser desorption ionization time-of-flight mass spectrometry (MALDI-TOF MS)". PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371/journal.pone.0135337. PMC 4536233. PMID 26271045.

[425] Horton, Paul; Nakai, Kenta (1996). "A probabilistic classification system for predicting the cellular localization sites of proteins" (PDF). ISMB-96 Proceedings. 4: 109–15. PMID 8877510.

[426] Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). "Reducing multiclass to binary: A unifying approach for margin classifiers" (PDF). The Journal of Machine Learning Research. 1: 113–141.

[427] Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). "DeepTox: Toxicity Prediction Using Deep Learning". Frontiers in Environmental Science. 3: 80. doi:10.3389/fenvs.2015.00080.

[428] Lavin, Alexander; Ahmad, Subutai (12 October 2015). Evaluating Real-time Anomaly Detection Algorithms – the Numenta Anomaly Benchmark. p. 38. arXiv:1510.03336. doi:10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.

[429] Iurii D. Katser; Vyacheslav O. Kozitsin. "SKAB GitHub repository". Retrieved 12 January 2021.

[430] Iurii D. Katser; Vyacheslav O. Kozitsin (2020). "Skoltech Anomaly Benchmark (SKAB)". Kaggle. doi:10.34740/KAGGLE/DSV/1693952. Retrieved 12 January 2021. Cite journal requires |journal= (help)

[CamposZimek2016-431] Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

[432] Ann-Kathrin Hartmann, Tommaso Soru, Edgard Marx. Generating a Large Dataset for Neural Question Answering over the DBpedia Knowledge Base. 2018.

[433] Tommaso Soru, Edgard Marx. Diego Moussallem, Andre Valdestilhas, Diego Esteves, Ciro Baron. SPARQL as a Foreign Language. 2018.

[434] Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. A Vietnamese Dataset for Evaluating Machine Reading Comprehension. COLING 2020.

[435] Kiet Van Nguyen, Khiem Vinh Tran, Son T. Luu, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension. IEEE Access. 2020.

[436] Brown, Michael Scott, Michael J. Pelosi, and Henry Dirska. "Dynamic-radius species-conserving genetic algorithm for the financial forecasting of Dow Jones index stocks." Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, 2013. 27–41.

[437] Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.

[438] Quinlan, J. Ross (1987). "Simplifying decision trees". International Journal of Man-machine Studies. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. doi:10.1016/s0020-7373(87)80053-6.

[439] Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.

[440] Shmueli, Galit, Ralph P. Russo, and Wolfgang Jank. "The BARISTA: a model for bid arrivals in online auctions." The Annals of Applied Statistics(2007): 412–441.

[441] Peng, Jie, and Hans-Georg Müller. "Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions." The Annals of Applied Statistics (2008): 1056–1077.

[442] Eggermont, Jeroen, Joost N. Kok, and Walter A. Kosters. "Genetic programming for data classification: Partitioning the search space."Proceedings of the 2004 ACM symposium on Applied computing. ACM, 2004.

[443] Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499.

[444] Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].

[445] Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.

[446] Jabin, Suraiya. "Stock market prediction using feed-forward artificial neural network." Int. J. Comput. Appl. (IJCA) 99.9 (2014).

[447] Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020.

[448] Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.

[449] Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.

[450] Bay, Stephen D.; et al. (2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. doi:10.1145/380995.381030. S2CID 534881.

[451] Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.

[452] Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.

[453] Sigillito, Vincent G., et al. "Classification of radar returns from the ionosphere using neural networks." Johns Hopkins APL Technical Digest10.3 (1989): 262–266.

[454] Zhang, Kun, and Wei Fan. "Forecasting skewed biased stochastic ozone days: analyses, solutions and beyond." Knowledge and Information Systems14.3 (2008): 299–326.

[455] Reich, Brian J., Montserrat Fuentes, and David B. Dunson. "Bayesian spatial quantile regression." Journal of the American Statistical Association (2012).

[456] Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.

[457] Oza, Nikunj C., and Stuart Russell. "Experimental comparisons of online and batch versions of bagging and boosting." Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001.

[458] Bay, Stephen D (2001). "Multivariate discretization for set mining". Knowledge and Information Systems. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. doi:10.1007/pl00011680. S2CID 10945544.

[459] Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods: A Journal of Quantitative and Interdisciplinary History. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.

[460] Meek, Christopher, Bo Thiesson, and David Heckerman. "The Learning Curve Method Applied to Clustering." AISTATS. 2001.

[461] Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.

[462] Giot, Romain, and Raphaël Cherrier. "Predicting bikeshare system usage up to one day ahead." Computational intelligence in vehicles and transportation systems (CIVTS), 2014 IEEE symposium on. IEEE, 2014.

[463] Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. doi:10.1016/j.trc.2013.04.001.

[464] Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. doi:10.1109/tits.2013.2262376. S2CID 14764358.

[465] Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.

[466] H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, July 2014.

[467] ttp://pems.dot.ca.gov/

[468] Meusel, Robert, et al. "The Graph Structure in the Web—Analyzed on Different Aggregation Levels."The Journal of Web Science 1.1 (2015).

[469] Kushmerick, Nicholas. "Learning to remove internet advertisements." Proceedings of the third annual conference on Autonomous Agents. ACM, 1999.

[470] Fradkin, Dmitriy, and David Madigan. "Experiments with random projections for machine learning."Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003.

[471] This data was used in the American Statistical Association Statistical Graphics and Computing Sections 1999 Data Exposition.

[472] Ma, Justin, et al. "Identifying suspicious URLs: an application of large-scale online learning."Proceedings of the 26th annual international conference on machine learning. ACM, 2009.

[473] Levchenko, Kirill, et al. "Click trajectories: End-to-end analysis of the spam value chain." Security and Privacy (SP), 2011 IEEE Symposium on. IEEE, 2011.

[474] Mohammad, Rami M., Fadi Thabtah, and Lee McCluskey. "An assessment of features related to phishing websites using an automated technique."Internet Technology And Secured Transactions, 2012 International Conference for. IEEE, 2012.

[475] Singh, Ashishkumar, et al. "Clustering Experiments on Big Transaction Data for Market Segmentation." Proceedings of the 2014 International Conference on Big Data Science and Computing. ACM, 2014.

[476] Bollacker, Kurt, et al. "Freebase: a collaboratively created graph database for structuring human knowledge." Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008.

[477] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.

[478] Mesterharm, Chris, and Michael J. Pazzani. "Active learning using on-line algorithms."Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011.

[479] Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.

[480] Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization" (PDF). Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415. Archived from the original (PDF) on 6 August 2019.

[481] Burton, Ariel N.; Kelly, Paul H.J. (2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. Elsevier BV. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003. ISSN 0167-739X.

[482] Bain, Michael; Muggleton, Stephen (1994). "Learning optimal chess strategies". Machine Intelligence. Oxford University Press, Inc. 13.

[483] Quilan, J. R. (1983). "Learning efficient classification procedures and their application to chess end games". Machine Learning: An Artificial Intelligence Approach. 1: 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.

[484] Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.

[485] Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89.

[:5-486] Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.

[487] Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. S2CID 6667472.

[488] Li, Lihong, et al. "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms." Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011.

[489] Yeung, Kam Fung, and Yanyan Yang. "A proactive personalized mobile news recommendation system." Developments in E-systems Engineering (DESE), 2010. IEEE, 2010.

[490] Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.

[491] Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.

[492] Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.

[493] Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.

[494] Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.

[495] Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.

[496] Lizotte, Daniel J., Omid Madani, and Russell Greiner. "Budgeted learning of nailve-bayes classifiers." Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., 2002.

[497] Lebowitz, Michael (1986). Concept learning in a rich input domain: Generalization-based memory. Machine Learning: An Artificial Intelligence Approach. 2. pp. 193–214. ISBN 9780934613002.

[498] Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.

[499] Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.

[500] Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage." Abschlußbericht vom 11 (2009).

[1]