Aprendizaje de múltiples instancias

En el aprendizaje automático , el aprendizaje de instancias múltiples (MIL) es un tipo de aprendizaje supervisado . En lugar de recibir un conjunto de instancias que se etiquetan individualmente, el alumno recibe un conjunto de bolsas etiquetadas , cada una de las cuales contiene muchas instancias. En el caso simple de la clasificación binaria de instancias múltiples , una bolsa puede etiquetarse como negativa si todas las instancias en ella son negativas. Por otro lado, una bolsa se etiqueta como positiva si hay al menos una instancia en ella que es positiva. A partir de una colección de bolsas etiquetadas, el alumno intenta (i) inducir un concepto que etiquetará instancias individuales correctamente o (ii) aprender a etiquetar bolsas sin inducir el concepto.

Babenko (2008) ^[1] ofrece un ejemplo sencillo de MIL. Imagine varias personas, y cada una de ellas tiene un llavero que contiene pocas llaves. Algunas de estas personas pueden entrar en una habitación determinada y otras no. Entonces, la tarea es predecir si una determinada llave o un determinado llavero pueden llevarlo a esa habitación. Para resolver este problema, necesitamos encontrar la clave exacta que sea común para todos los llaveros "positivos". Si podemos identificar correctamente esta clave, también podemos clasificar correctamente un llavero completo: positivo si contiene la clave requerida, o negativo si no la contiene.

Aprendizaje automático

Según el tipo y la variación de los datos de entrenamiento, el aprendizaje automático se puede clasificar aproximadamente en tres marcos: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje reforzado. El aprendizaje de instancias múltiples (MIL) se enmarca en el marco de aprendizaje supervisado, donde cada instancia de capacitación tiene una etiqueta, ya sea discreta o de valor real. MIL trata problemas con un conocimiento incompleto de las etiquetas en los conjuntos de entrenamiento. Más precisamente, en el aprendizaje de instancias múltiples, el conjunto de capacitación consta de "bolsas" etiquetadas, cada una de las cuales es una colección de instancias sin etiqueta. Una bolsa se etiqueta positivamente si al menos una instancia es positiva y se etiqueta negativamente si todas las instancias son negativas. El objetivo de la MIL es predecir las etiquetas de bolsas nuevas que no se ven.

Historia

Keeler et al., ^[2] en su trabajo a principios de la década de 1990 fue el primero en explorar el área de MIL. El término actual aprendizaje en múltiples instancias fue introducido a mediados de la década de 1990 por Dietterich et al. mientras investigaban el problema de la predicción de la actividad de las drogas. ^[3] Intentaron crear un sistema de aprendizaje que pudiera predecir si una nueva molécula estaba calificada para producir algún fármaco, o no, mediante el análisis de una colección de moléculas conocidas. Las moléculas pueden tener muchos estados alternativos de baja energía, pero solo uno, o algunos de ellos, están calificados para producir un fármaco. El problema surgió porque los científicos solo pudieron determinar si la molécula está calificada o no, pero no pudieron decir exactamente cuál de sus formas de baja energía es responsable de eso.

Una de las formas propuestas para resolver este problema fue utilizar el aprendizaje supervisado y considerar todas las formas de baja energía de la molécula calificada como instancias de entrenamiento positivo, mientras que todas las formas de baja energía de las moléculas no calificadas como instancias negativas. Dietterich y col. mostró que dicho método tendría un alto ruido falso positivo, de todas las formas de baja energía que están mal etiquetadas como positivas y, por lo tanto, no era realmente útil. ^[3] Su enfoque fue considerar cada molécula como una bolsa etiquetada, y todas las formas alternativas de baja energía de esa molécula como instancias en la bolsa, sin etiquetas individuales. Formulando así el aprendizaje de instancias múltiples.

Solución al problema de aprendizaje de instancias múltiples que Dietterich et al. propuesto es el algoritmo de eje-rectángulo paralelo (APR). ^[3] Intenta buscar rectángulos paralelos al eje apropiados construidos por la conjunción de las características. Probaron el algoritmo en el conjunto de datos Musk, ^[4] que es un dato de prueba concreto de la predicción de la actividad de las drogas y el punto de referencia más utilizado en el aprendizaje de instancias múltiples. El algoritmo APR logró el mejor resultado, pero APR se diseñó teniendo en cuenta los datos de Musk.

El problema del aprendizaje de instancias múltiples no es exclusivo de la búsqueda de drogas. En 1998, Maron y Ratan encontraron otra aplicación del aprendizaje de instancias múltiples para la clasificación de escenas en la visión artificial y diseñaron el marco de Densidad Diversas. ^[5] Dada una imagen, una instancia se toma como una o más subimágenes de tamaño fijo, y la bolsa de instancias se toma como la imagen completa. Una imagen se etiqueta como positiva si contiene la escena de destino (una cascada, por ejemplo) y negativa en caso contrario. El aprendizaje de instancias múltiples se puede utilizar para conocer las propiedades de las subimágenes que caracterizan la escena de destino. A partir de ahí, estos marcos se han aplicado a un amplio espectro de aplicaciones, que van desde el aprendizaje de conceptos de imágenes y la categorización de textos, hasta la predicción del mercado de valores.

Ejemplos de

Tome la clasificación de imágenes, por ejemplo. Amores (2013) Dada una imagen, queremos conocer su clase objetivo en función de su contenido visual. Por ejemplo, la clase de destino podría ser "playa", donde la imagen contiene tanto "arena" como "agua". En términos MIL , la imagen se describe como una bolsa. ${\ Displaystyle X = \ {X_ {1}, .., X_ {N} \}}$ , donde cada ${\ Displaystyle X_ {i}}$ es el vector de características (llamado instancia ) extraído del correspondiente ${\ Displaystyle i}$ -a región en la imagen y ${\ Displaystyle N}$ es el total de regiones (instancias) que particionan la imagen. La bolsa se etiqueta como positiva ("playa") si contiene instancias de la región "arena" e instancias de la región "agua".

Ejemplos de dónde se aplica MIL son:

Actividad de la molécula
Predicción de los sitios de unión de las proteínas de unión a Calmodulina ^[6]
Función de predicción para isoformas empalmadas alternativamente Li, Menon & et al. (2014), Eksi y col. (2013)
Clasificación de imágenes Maron y Ratan (1998)
Categorización de textos o documentos Kotzias et al. (2015)
Predicción de los sitios de unión funcionales de los objetivos de microARN Bandyopadhyay, Ghosh & et al. (2015)
Clasificación de imágenes médicas Zhu et al. (2016), PJSudharshan y col. (2019)

Numerosos investigadores han trabajado en la adaptación de técnicas de clasificación clásicas, como máquinas de vectores de soporte o impulso , para trabajar dentro del contexto del aprendizaje de instancias múltiples.

Definiciones

Si el espacio de instancias es ${\ Displaystyle {\ mathcal {X}}}$ , entonces el conjunto de bolsas es el conjunto de funciones ${\ Displaystyle \ mathbb {N} ^ {\ mathcal {X}} = \ {B: {\ mathcal {X}} \ rightarrow \ mathbb {N} \}}$ , que es isomorfo al conjunto de subconjuntos múltiples de ${\ Displaystyle {\ mathcal {X}}}$ . Por cada bolsa ${\ Displaystyle B \ in \ mathbb {N} ^ {\ mathcal {X}}}$ y cada instancia ${\ Displaystyle x \ in {\ mathcal {X}}}$ , ${\ Displaystyle B (x)}$ se ve como el número de veces ${\ Displaystyle x}$ ocurre en ${\ Displaystyle B}$ . ^[7] Deja ${\ Displaystyle {\ mathcal {Y}}}$ ser el espacio de las etiquetas, entonces un "concepto de instancia múltiple" es un mapa ${\ Displaystyle c: \ mathbb {N} ^ {\ mathcal {X}} \ rightarrow {\ mathcal {Y}}}$ . El objetivo de MIL es aprender tal concepto. El resto del artículo se centrará en la clasificación binaria , donde ${\ Displaystyle {\ mathcal {Y}} = \ {0,1 \}}$ .

Supuestos

La mayor parte del trabajo sobre aprendizaje de instancias múltiples, incluido Dietterich et al. (1997) y los primeros trabajos de Maron & Lozano-Pérez (1997), ^[3]^[8] hacen la suposición sobre la relación entre las instancias dentro de una bolsa y la etiqueta de clase de la bolsa. Debido a su importancia, esa suposición a menudo se denomina suposición estándar de MI.

Supuesto estándar

La suposición estándar toma cada instancia ${\ Displaystyle x \ in {\ mathcal {X}}}$ tener una etiqueta asociada ${\ Displaystyle y \ in \ {0,1 \}}$ que está oculto para el alumno. El par ${\ Displaystyle (x, y)}$ se denomina "concepto a nivel de instancia". Una bolsa ahora se ve como un conjunto múltiple de conceptos a nivel de instancia y se etiqueta como positiva si al menos una de sus instancias tiene una etiqueta positiva y negativa si todas sus instancias tienen etiquetas negativas. Formalmente, deja ${\ Displaystyle B = \ {(x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n}) \}}$ ser una bolsa. La etiqueta de ${\ Displaystyle B}$ es entonces ${\ Displaystyle c (B) = 1- \ prod _ {i = 1} ^ {n} (1-y_ {i})}$ . La suposición de MI estándar es asimétrica, lo que significa que si se invierten las etiquetas positivas y negativas, la suposición tiene un significado diferente. Por eso, cuando utilizamos esta suposición, debemos tener claro qué etiqueta debe ser la positiva.

La suposición estándar podría considerarse demasiado estricta y, por lo tanto, en los últimos años, los investigadores intentaron relajar esa posición, lo que dio lugar a otras suposiciones más flexibles. ^{[9] La} razón de esto es la creencia de que la suposición estándar de MI es apropiada para el conjunto de datos de Musk, pero dado que la MIL puede aplicarse a muchos otros problemas, algunas suposiciones diferentes probablemente podrían ser más apropiadas. Guiado por esa idea, Weidmann ^[10] formuló una jerarquía de supuestos generalizados basados en instancias para MIL. Consiste en la suposición de MI estándar y tres tipos de suposiciones de MI generalizada, cada una más general que la última, estándar ${\ Displaystyle \ subconjunto}$ basado en presencia ${\ Displaystyle \ subconjunto}$ basado en umbrales ${\ Displaystyle \ subconjunto}$ basado en recuento, siendo el supuesto basado en recuento el más general y el supuesto estándar el menos general. Uno esperaría que un algoritmo que funciona bien bajo uno de estos supuestos funcione al menos igual de bien bajo los supuestos menos generales.

Supuestos basados en presencia, umbral y recuento

La suposición basada en presencia es una generalización de la suposición estándar, en la que una bolsa debe contener una o más instancias que pertenezcan a un conjunto de conceptos requeridos a nivel de instancia para ser etiquetada como positiva. Formalmente, deja ${\ Displaystyle C_ {R} \ subseteq {\ mathcal {X}} \ times {\ mathcal {Y}}}$ ser el conjunto de conceptos requeridos a nivel de instancia, y dejar ${\ Displaystyle \ # (B, c_ {i})}$ denotar el número de veces que el concepto a nivel de instancia ${\ Displaystyle c_ {i}}$ ocurre en la bolsa ${\ Displaystyle B}$ . Luego ${\ Displaystyle c (B) = 1 \ Leftrightarrow \ # (B, c_ {i}) \ geq 1}$ para todos ${\ Displaystyle c_ {i} \ in C_ {R}}$ . Tenga en cuenta que, al tomar ${\ Displaystyle C_ {R}}$ para contener solo un concepto a nivel de instancia, el supuesto basado en presencia se reduce al supuesto estándar.

Una generalización adicional viene con la suposición basada en el umbral, donde cada concepto de nivel de instancia requerido debe ocurrir no solo una vez en una bolsa, sino un número mínimo (umbral) de veces para que la bolsa se etiquete como positiva. Con la notación anterior, para cada concepto de nivel de instancia requerido ${\ Displaystyle c_ {i} \ in C_ {R}}$ está asociado un umbral ${\ Displaystyle l_ {i} \ in \ mathbb {N}}$ . Por una bolsa ${\ Displaystyle B}$ , ${\ Displaystyle c (B) = 1 \ Leftrightarrow \ # (B, c_ {i}) \ geq l_ {i}}$ para todos ${\ Displaystyle c_ {i} \ in C_ {R}}$ .

La suposición basada en conteo es una generalización final que impone límites tanto inferiores como superiores para el número de veces que un concepto requerido puede ocurrir en una bolsa etiquetada positivamente. Cada concepto requerido a nivel de instancia ${\ Displaystyle c_ {i} \ in C_ {R}}$ tiene un umbral más bajo ${\ Displaystyle l_ {i} \ in \ mathbb {N}}$ y umbral superior ${\ Displaystyle u_ {i} \ in \ mathbb {N}}$ con ${\ Displaystyle l_ {i} \ leq u_ {i}}$ . Una bolsa ${\ Displaystyle B}$ está etiquetado de acuerdo con ${\ Displaystyle c (B) = 1 \ Leftrightarrow l_ {i} \ leq \ # (B, c_ {i}) \ leq u_ {i}}$ para todos ${\ Displaystyle c_ {i} \ in C_ {R}}$ .

Supuesto de GMIL

Scott, Zhang y Brown (2005) ^[11] describen otra generalización del modelo estándar, al que denominan "aprendizaje generalizado de instancias múltiples" (GMIL). La suposición de GMIL especifica un conjunto de instancias requeridas ${\ Displaystyle Q \ subseteq {\ mathcal {X}}}$ . Una bolsa ${\ Displaystyle X}$ se etiqueta como positivo si contiene instancias que están lo suficientemente cerca de al menos ${\ Displaystyle r}$ de las instancias requeridas ${\ displaystyle Q}$ . ^[11] Solo con esta condición, el supuesto de GMIL es equivalente al supuesto basado en la presencia. ^[7] Sin embargo, Scott et al. describir una generalización adicional en la que hay un conjunto de puntos de atracción ${\ Displaystyle Q \ subseteq {\ mathcal {X}}}$ y un conjunto de puntos de repulsión ${\ Displaystyle {\ overline {Q}} \ subseteq {\ mathcal {X}}}$ . Una bolsa se etiqueta como positiva si y solo si contiene instancias que están lo suficientemente cerca de al menos ${\ Displaystyle r}$ de los puntos de atracción y están lo suficientemente cerca como máximo ${\ Displaystyle s}$ de los puntos de repulsión. ^[11] Esta condición es estrictamente más general que la basada en presencia, aunque no cae dentro de la jerarquía anterior.

Asunción colectiva

En contraste con las suposiciones anteriores donde las bolsas se consideraban fijas, la suposición colectiva considera una bolsa ${\ Displaystyle B}$ como distribución ${\ Displaystyle p (x | B)}$ sobre instancias ${\ Displaystyle {\ mathcal {X}}}$ y, de forma similar, ver las etiquetas como una distribución ${\ Displaystyle p (y | x)}$ sobre instancias. El objetivo de un algoritmo que opera bajo el supuesto colectivo es entonces modelar la distribución ${\ Displaystyle p (y | B) = \ int _ {\ mathcal {X}} p (y | x) p (x | B) dx}$ .

Desde ${\ Displaystyle p (x | B)}$ generalmente se considera fijo pero desconocido, los algoritmos en cambio se enfocan en calcular la versión empírica: ${\ Displaystyle {\ widehat {p}} (y | B) = {\ frac {1} {n_ {B}}} \ sum _ {i = 1} ^ {n_ {B}} p (y | x_ { I})}$ , dónde ${\ Displaystyle n_ {B}}$ es el número de instancias en la bolsa ${\ Displaystyle B}$ . Desde ${\ Displaystyle p (y | x)}$ También se suele considerar fijo pero desconocido, la mayoría de los métodos basados en supuestos colectivos se centran en aprender esta distribución, como en la versión de instancia única. ^[7]^[9]

Si bien el supuesto colectivo pondera cada instancia con la misma importancia, Foulds amplió el supuesto colectivo para incorporar ponderaciones de instancia. El supuesto colectivo ponderado es entonces que ${\ Displaystyle {\ widehat {p}} (y | B) = {\ frac {1} {w_ {B}}} \ sum _ {i = 1} ^ {n_ {B}} w (x_ {i} ) p (y | x_ {i})}$ , dónde ${\ Displaystyle w: {\ mathcal {X}} \ rightarrow \ mathbb {R} ^ {+}}$ es una función de ponderación sobre instancias y ${\ Displaystyle w_ {B} = \ sum _ {x \ in B} w (x)}$ . ^[7]

Algoritmos

Marco MIL

Hay dos tipos principales de algoritmos para el aprendizaje de instancias múltiples: algoritmos basados en instancias y basados en metadatos, o basados en incrustaciones. El término "basado en instancias" denota que el algoritmo intenta encontrar un conjunto de instancias representativas basándose en una suposición de MI y clasificar bolsas futuras de estos representantes. Por el contrario, los algoritmos basados en metadatos no hacen suposiciones sobre la relación entre las instancias y las etiquetas de las bolsas y, en su lugar, intentan extraer información (o metadatos) independiente de la instancia sobre las bolsas para aprender el concepto. ^[9] Para una revisión de algunos de los algoritmos modernos de MI, vea Foulds y Frank. ^[7]

Algoritmos basados en instancias

Los primeros algoritmos de MI propuestos fueron un conjunto de algoritmos de "discriminación iterada" desarrollados por Dietterich et al., Y Diverse Density desarrollado por Maron y Lozano-Pérez. ^[3]^[8] Ambos algoritmos operaron bajo el supuesto estándar.

Discriminación iterada

En términos generales, todos los algoritmos de discriminación iterada constan de dos fases. La primera fase es hacer crecer un rectángulo de eje paralelo (APR) que contiene al menos una instancia de cada bolsa positiva y ninguna instancia de ninguna bolsa negativa. Esto se hace de forma iterativa: a partir de una instancia aleatoria ${\ Displaystyle x_ {1} \ in B_ {1}}$ en una bolsa positiva, el APR se amplía al APR más pequeño que cubre cualquier instancia ${\ Displaystyle x_ {2}}$ en una nueva bolsa positiva ${\ Displaystyle B_ {2}}$ . Este proceso se repite hasta que el APR cubre al menos una instancia de cada bolsa positiva. Entonces, cada instancia ${\ Displaystyle x_ {i}}$ contenido en el APR recibe una "relevancia", que corresponde a la cantidad de puntos negativos que excluye del APR si se elimina. A continuación, el algoritmo selecciona las instancias representativas candidatas en orden de relevancia decreciente, hasta que ninguna instancia contenida en una bolsa negativa también esté contenida en el APR. El algoritmo repite estos pasos de crecimiento y selección representativa hasta la convergencia, donde se considera que el tamaño de APR en cada iteración es solo a lo largo de los representantes candidatos.

Después de la primera fase, se cree que el APR contiene estrictamente solo los atributos representativos. La segunda fase expande esta APR ajustada de la siguiente manera: se centra una distribución gaussiana en cada atributo y se dibuja una APR más flexible de modo que las instancias positivas caen fuera de la APR ajustada con probabilidad fija. ^[4] Aunque las técnicas de discriminación iterada funcionan bien con el supuesto estándar, no se generalizan bien a otros supuestos de MI. ^[7]

Densidad diversa

En su forma más simple, Diverse Density (DD) asume una única instancia representativa ${\ Displaystyle t ^ {*}}$ como el concepto. Esta instancia representativa debe ser "densa" en el sentido de que está mucho más cerca de las instancias de las bolsas positivas que de las negativas, así como "diversa" en el sentido de que está cerca de al menos una instancia de cada bolsa positiva.

Dejar ${\ Displaystyle {\ mathcal {B}} ^ {+} = \ {B_ {i} ^ {+} \} _ {1} ^ {m}}$ ser el conjunto de bolsas etiquetadas positivamente y dejar ${\ Displaystyle {\ mathcal {B}} ^ {-} = \ {B_ {i} ^ {-} \} _ {1} ^ {n}}$ ser el conjunto de bolsas etiquetadas negativamente, entonces el mejor candidato para la instancia representativa viene dado por ${\ Displaystyle {\ hat {t}} = \ arg \ max _ {t} DD (t)}$ , donde la diversa densidad ${\ Displaystyle DD (t) = Pr \ left (t | {\ mathcal {B}} ^ {+}, {\ mathcal {B}} ^ {-} \ right) = \ arg \ max _ {t} \ prod _ {i = 1} ^ {m} Pr \ left (t | B_ {i} ^ {+} \ right) \ prod _ {i = 1} ^ {n} Pr \ left (t | B_ {i} ^ {-} \ right)}$ bajo el supuesto de que las bolsas se distribuyen de forma independiente dado el concepto ${\ Displaystyle t ^ {*}}$ . Dejando ${\ Displaystyle B_ {ij}}$ denota la j-ésima instancia de la bolsa i, el modelo ruidoso-or da:

{\ Displaystyle Pr (t | B_ {i} ^ {+}) = 1- \ prod _ {j} \ left (1-Pr \ left (t | B_ {ij} ^ {+} \ right) \ right) }

{\ Displaystyle Pr (t | B_ {i} ^ {-}) = \ prod _ {j} \ left (1-Pr \ left (t | B_ {ij} ^ {-} \ right) \ right)}

${\ Displaystyle P (t | B_ {ij})}$ se toma como la distancia escalada ${\ Displaystyle P (t | B_ {ij}) \ propto \ exp \ left (- \ sum _ {k} s_ {k} ^ {2} \ left (x_ {k} - (B_ {ij}) _ { k} \ right) ^ {2} \ right)}$ dónde ${\ Displaystyle s = (s_ {k})}$ es el vector de escala. De esta forma, si cada bolsa positiva tiene una instancia cercana a ${\ Displaystyle t}$ , luego ${\ Displaystyle Pr (t | B_ {i} ^ {+})}$ será alto para cada uno ${\ Displaystyle i}$ , pero si alguna bolsa negativa ${\ Displaystyle B_ {i} ^ {-}}$ tiene una instancia cercana a ${\ Displaystyle t}$ , ${\ Displaystyle Pr (t | B_ {i} ^ {-})}$ será bajo. Por eso, ${\ Displaystyle DD (t)}$ es alto solo si cada bolsa positiva tiene una instancia cercana a ${\ Displaystyle t}$ y ninguna bolsa negativa tiene una instancia cercana a ${\ Displaystyle t}$ . El concepto de candidato ${\ Displaystyle {\ hat {t}}}$ se puede obtener mediante métodos de gradiente. La clasificación de bolsas nuevas se puede realizar evaluando la proximidad a ${\ Displaystyle {\ hat {t}}}$ . ^[8] Aunque Diverse Density fue propuesto originalmente por Maron et al. en 1998, los algoritmos MIL más recientes utilizan el marco DD, como EM-DD en 2001 ^[12] y DD-SVM en 2004, ^[13] y MILES en 2006 ^[7]

También se han adaptado varios algoritmos de instancia única a un contexto de instancias múltiples bajo el supuesto estándar, que incluyen

Máquinas de vectores de apoyo ^[14]
Redes neuronales artificiales ^[15]
Árboles de decisión ^[16]
Impulso ^[17]

Después de 2000, hubo un movimiento alejándose del supuesto estándar y el desarrollo de algoritmos diseñados para abordar los supuestos más generales enumerados anteriormente. ^[9]

Weidmann ^[10] propone un algoritmo de clasificación de dos niveles (TLC) para aprender conceptos bajo la suposición basada en conteo. El primer paso trata de aprender conceptos a nivel de instancia mediante la construcción de un árbol de decisión de cada instancia en cada paquete del conjunto de capacitación. Luego, cada bolsa se asigna a un vector de características basado en los recuentos en el árbol de decisiones. En el segundo paso, se ejecuta un algoritmo de instancia única en los vectores de características para aprender el concepto
Scott y col. ^[11] propuso un algoritmo, GMIL-1, para aprender conceptos bajo el supuesto de GMIL en 2005. GMIL-1 enumera todos los rectángulos paralelos a los ejes. ${\ Displaystyle \ {R_ {i} \} _ {i \ in I}}$ en el espacio original de instancias, y define un nuevo espacio de características de vectores booleanos. Una bolsa ${\ Displaystyle B}$ se asigna a un vector ${\ Displaystyle \ mathbf {b} = (b_ {i}) _ {i \ in I}}$ en este nuevo espacio de funciones, donde ${\ Displaystyle b_ {i} = 1}$ si APR ${\ Displaystyle R_ {i}}$ cubre ${\ Displaystyle B}$ , y ${\ Displaystyle b_ {i} = 0}$ de lo contrario. Luego, se puede aplicar un algoritmo de instancia única para aprender el concepto en este nuevo espacio de características.

Debido a la alta dimensionalidad del nuevo espacio de características y el costo de enumerar explícitamente todas las APR del espacio de instancia original, GMIL-1 es ineficiente tanto en términos de cálculo como de memoria. GMIL-2 fue desarrollado como un refinamiento de GMIL-1 en un esfuerzo por mejorar la eficiencia. GMIL-2 procesa previamente las instancias para encontrar un conjunto de instancias representativas candidatas. GMIL-2 luego asigna cada bolsa a un vector booleano, como en GMIL-1, pero solo considera las APR correspondientes a subconjuntos únicos de las instancias representativas candidatas. Esto reduce significativamente los requisitos de memoria y computacionales. ^[7]

Xu (2003) ^[9] propuso varios algoritmos basados en regresión logística y métodos de impulso para aprender conceptos bajo el supuesto colectivo.

Algoritmos basados en metadatos (o basados en incrustaciones)

Al asignar cada bolsa a un vector de características de metadatos, los algoritmos basados en metadatos permiten la flexibilidad de usar un algoritmo arbitrario de instancia única para realizar la tarea de clasificación real. Las bolsas futuras simplemente se mapean (incrustan) en el espacio de características de los metadatos y se etiquetan mediante el clasificador elegido. Por lo tanto, gran parte del enfoque de los algoritmos basados en metadatos está en qué características o qué tipo de incrustación conduce a una clasificación efectiva. Tenga en cuenta que algunos de los algoritmos mencionados anteriormente, como TLC y GMIL, podrían considerarse basados en metadatos.

Un enfoque es dejar que los metadatos de cada bolsa sean un conjunto de estadísticas sobre las instancias de la bolsa. El algoritmo SimpleMI adopta este enfoque, donde los metadatos de una bolsa se toman como una estadística de resumen simple, como el promedio o mínimo y máximo de cada variable de instancia tomada sobre todas las instancias de la bolsa. Hay otros algoritmos que utilizan estadísticas más complejas, pero SimpleMI demostró ser sorprendentemente competitivo para varios conjuntos de datos, a pesar de su aparente falta de complejidad. ^[7]
Otro enfoque común es considerar la geometría de las bolsas como metadatos. Este es el enfoque adoptado por los algoritmos MIGraph y miGraph, que representan cada bolsa como un gráfico cuyos nodos son las instancias en la bolsa. Hay un borde entre dos nodos si la distancia (hasta alguna métrica en el espacio de la instancia) entre las instancias correspondientes es menor que algún umbral. La clasificación se realiza a través de una SVM con un kernel gráfico (MIGraph y miGraph solo difieren en la elección del kernel). ^[7] MILES ^[18] y MInD adoptan enfoques similares . ^[19] MILES representa una bolsa por sus similitudes con las instancias del conjunto de entrenamiento, mientras que MInD representa una bolsa por sus distancias a otras bolsas.
Una modificación de los k vecinos más cercanos (kNN) también se puede considerar un algoritmo basado en metadatos con metadatos geométricos, aunque el mapeo entre bolsas y características de metadatos no es explícito. Sin embargo, es necesario especificar la métrica utilizada para calcular la distancia entre bolsas. Wang y Zucker (2000) ^[20] sugieren las métricas de Hausdorff (máximo y mínimo, respectivamente) para bolsas. ${\ Displaystyle A}$ y ${\ Displaystyle B}$ :

{\ Displaystyle H (A, B) = \ max \ left \ {\ max _ {A} \ min _ {B} \ | ab \ |, \ max _ {B} \ min _ {A} \ | ab \ | \ right \}}

{\ Displaystyle h_ {1} (A, B) = \ min _ {A} \ min _ {B} \ | ab \ |}

Definen dos variaciones de kNN, Bayesian-kNN y citation-kNN, como adaptaciones del problema tradicional del vecino más cercano a la configuración de instancias múltiples.

Generalizaciones

Hasta ahora, este artículo ha considerado el aprendizaje de instancias múltiples exclusivamente en el contexto de clasificadores binarios. Sin embargo, las generalizaciones de los clasificadores binarios de instancia única pueden trasladarse al caso de instancias múltiples.

Una de esas generalizaciones es el problema de múltiples etiquetas de instancia múltiple (MIML), donde cada bolsa ahora puede asociarse con cualquier subconjunto del espacio de etiquetas. Formalmente, si ${\ Displaystyle {\ mathcal {X}}}$ es el espacio de características y ${\ Displaystyle {\ mathcal {Y}}}$ es el espacio de las etiquetas, un concepto MIML es un mapa ${\ Displaystyle c: \ mathbb {N} ^ {\ mathcal {X}} \ rightarrow 2 ^ {\ mathcal {Y}}}$ . Zhou y Zhang (2006) ^[21] proponen una solución al problema MIML mediante una reducción a un problema de múltiples instancias o de conceptos múltiples.
Otra generalización obvia es la regresión de instancias múltiples. Aquí, cada bolsa está asociada con un solo número real como en la regresión estándar. Al igual que la suposición estándar, la regresión MI supone que hay una instancia en cada bolsa, llamada "instancia principal", que determina la etiqueta de la bolsa (hasta el ruido). El objetivo ideal de la regresión MI sería encontrar un hiperplano que minimice la pérdida al cuadrado de las instancias principales en cada bolsa, pero las instancias principales están ocultas. De hecho, Ray y Page (2001) ^[22] muestran que encontrar el hiperplano que mejor se ajuste a una instancia de cada bolsa es intratable si hay menos de tres instancias por bolsa, y en su lugar desarrollan un algoritmo de aproximación. Muchos de los algoritmos desarrollados para la clasificación de MI también pueden proporcionar buenas aproximaciones al problema de regresión de MI. ^[7]

Ver también

Aprendizaje supervisado
Clasificación de etiquetas múltiples

Referencias

^ Babenko, Boris. "Aprendizaje de instancias múltiples: algoritmos y aplicaciones". Ver artículo PubMed / NCBI Google Scholar (2008).
^ Keeler, James D., David E. Rumelhart y Wee-Kheng Leow. Segmentación y reconocimiento integrados de números impresos a mano. Corporación de Microelectrónica y Tecnología Informática, 1991.
↑ a b c d e Dietterich, Thomas G., Richard H. Lathrop y Tomás Lozano-Pérez. "Resolviendo el problema de instancias múltiples con rectángulos paralelos a los ejes". Inteligencia artificial 89.1 (1997): 31-71.
^ a b C. Blake, E. Keogh y CJ Merz. Repositorio UCI de bases de datos de aprendizaje automático [1] ^{[ enlace muerto permanente ]} , Departamento de Información y Ciencias de la Computación, Universidad de California, Irvine, CA, 1998.
^ O. Maron y AL Ratan. Aprendizaje de instancias múltiples para la clasificación de escenas naturales. En Actas de la 15ª Conferencia Internacional sobre Aprendizaje Automático, Madison, WI, págs. 341–349, 1998.
^ Minhas, F. u. A. A; Ben-Hur, A (2012). "Aprendizaje de instancias múltiples de sitios de unión a calcodulina" . Bioinformática . 28 (18): i416 – i422. doi : 10.1093 / bioinformatics / bts416 . PMC 3436843 . PMID 22962461 .
^ a b c d e f g h i j k Foulds, James y Eibe Frank. "Una revisión de los supuestos de aprendizaje de varias instancias". The Knowledge Engineering Review 25.01 (2010): 1-25.
^ a b c Maron, Oded y Tomás Lozano-Pérez. "Un marco para el aprendizaje de instancias múltiples". Avances en los sistemas de procesamiento de información neuronal (1998): 570-576
^ a b c d e Xu, X. Aprendizaje estadístico en problemas de instancias múltiples. Tesis de maestría, Universidad de Waikato (2003).
^ a b Weidmann, Nils B. "Clasificación de dos niveles para datos de instancias múltiples generalizados". Diss. Albert-Ludwigs-Universität, 2003.
^ a b c d Scott, Stephen, Jun Zhang y Joshua Brown. "Sobre el aprendizaje generalizado de instancias múltiples". Revista Internacional de Inteligencia Computacional y Aplicaciones 5.01 (2005): 21-35.
^ Zhang, Qi y Sally A. Goldman. "EM-DD: una técnica mejorada de aprendizaje de instancias múltiples". Avances en sistemas de procesamiento de información neuronal. (2001): 1073 - 80
^ Chen, Yixin y James Z. Wang. "Categorización de imágenes por aprendizaje y razonamiento con regiones". The Journal of Machine Learning Research 5 (2004): 913-939
^ Andrews, Stuart, Ioannis Tsochantaridis y Thomas Hofmann. "Admite máquinas vectoriales para el aprendizaje de instancias múltiples". Avances en los sistemas de procesamiento de información neuronal (2003). págs. 561 - 658
^ Zhou, Zhi-Hua y Min-Ling Zhang. "Redes neuronales para el aprendizaje de instancias múltiples". Actas de la Conferencia Internacional sobre Tecnología de la Información Inteligente, Beijing, China. (2002). págs. 455 - 459
^ Blockeel, Hendrik, David Page y Ashwin Srinivasan. "Aprendizaje de árboles de instancias múltiples". Actas de la 22a conferencia internacional sobre aprendizaje automático. ACM, 2005, págs. 57-64
^ Auer, Peter y Ronald Ortner. "Un enfoque de impulso para el aprendizaje de instancias múltiples". Aprendizaje automático: ECML 2004. Springer Berlin Heidelberg, 2004. 63-74.
^ Chen, Yixin; Bi, Jinbo; Wang, JZ (1 de diciembre de 2006). "MILLAS: aprendizaje de instancias múltiples a través de la selección de instancias integradas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 28 (12): 1931-1947. doi : 10.1109 / TPAMI.2006.248 . ISSN 0162-8828 . PMID 17108368 .
^ Cheplygina, Veronika; Impuestos, David MJ; Loog, Marco (1 de enero de 2015). "Aprendizaje de instancias múltiples con diferencias de bolsa". Reconocimiento de patrones . 48 (1): 264-275. arXiv : 1309.5643 . doi : 10.1016 / j.patcog.2014.07.022 .
^ Wang, Jun y Jean-Daniel Zucker. "Resolver problemas de instancias múltiples: un enfoque de aprendizaje perezoso". ICML (2000): 1119-25
^ Zhou, Zhi-Hua y Min-Ling Zhang. "Aprendizaje de múltiples instancias y etiquetas múltiples con aplicación a la clasificación de escenas". Avances en sistemas de procesamiento de información neuronal. 2006. págs. 1609 - 16
^ Ray, Soumya y David Page. "Regresión de instancias múltiples". ICML. Vol. 1. 2001. págs. 425 - 32

Otras lecturas

Las revisiones recientes de la literatura MIL incluyen:

Amores (2013) , que ofrece una amplia revisión y estudio comparativo de los diferentes paradigmas,
Foulds & Frank (2010) , que proporciona una revisión exhaustiva de los diferentes supuestos utilizados por diferentes paradigmas en la literatura.
Dietterich, Thomas G; Lathrop, Richard H; Lozano-Pérez, Tomás (1997). "Resolviendo el problema de instancias múltiples con rectángulos paralelos a los ejes". Inteligencia artificial . 89 (1–2): 31–71. doi : 10.1016 / S0004-3702 (96) 00034-3 .
Herrera, Francisco; Ventura, Sebastián; Bello, Rafael; Cornelis, Chris; Zafra, Amelia; Sánchez-Tarragó, Dánel; Vluymans, Sarah (2016). Aprendizaje de instancias múltiples . doi : 10.1007 / 978-3-319-47759-6 . ISBN 978-3-319-47758-9.
Amores, Jaume (2013). "Clasificación de instancias múltiples: revisión, taxonomía y estudio comparativo" . Inteligencia artificial . 201 : 81-105. doi : 10.1016 / j.artint.2013.06.003 .
Foulds, James; Frank, Eibe (2010). "Una revisión de los supuestos de aprendizaje de instancias múltiples". La revisión de la ingeniería del conocimiento . 25 : 1–25. CiteSeerX 10.1.1.148.2333 . doi : 10.1017 / S026988890999035X .
Keeler, James D .; Rumelhart, David E .; Leow, Wee-Kheng (1990). "Segmentación y reconocimiento integrados de números impresos a mano". Actas de la Conferencia de 1990 sobre avances en sistemas de procesamiento de información neuronal (NIPS 3) . págs. 557–563. ISBN 978-1-55860-184-0.
Li, Hong-Dong; Menon, Rajasree; Omenn, Gilbert S; Guan, Yuanfang (2014). "La era emergente de la integración de datos genómicos para analizar la función de isoformas de empalme" . Tendencias en Genética . 30 (8): 340–7. doi : 10.1016 / j.tig.2014.05.005 . PMC 4112133 . PMID 24951248 .
Eksi, Ridvan; Li, Hong-Dong; Menon, Rajasree; Wen, Yuchen; Omenn, Gilbert S; Kretzler, Matthias; Guan, Yuanfang (2013). "Funciones de diferenciación sistemática para isoformas empalmadas alternativamente mediante la integración de datos de RNA-seq" . PLOS Biología Computacional . 9 (11): e1003314. Código Bibliográfico : 2013PLSCB ... 9E3314E . doi : 10.1371 / journal.pcbi.1003314 . PMC 3820534 . PMID 24244129 .
Maron, O .; Ratan, AL (1998). "Aprendizaje de instancias múltiples para la clasificación de escenarios naturales". Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático . págs. 341–349. ISBN 978-1-55860-556-5.
Kotzias, Dimitrios; Denil, Misha; De Freitas, Nando; Smyth, Padhraic (2015). "De etiquetas grupales a individuales usando características profundas". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos - KDD '15 . págs. 597–606. doi : 10.1145 / 2783258.2783380 . ISBN 9781450336642.
Ray, Soumya; Page, David (2001). Regresión de instancias múltiples (PDF) . ICML.
Bandyopadhyay, Sanghamitra; Ghosh, Dip; Mitra, Ramkrishna; Zhao, Zhongming (2015). "MBSTAR: aprendizaje de instancias múltiples para predecir sitios de unión funcionales específicos en objetivos de microARN" . Informes científicos . 5 : 8004. Bibcode : 2015NatSR ... 5E8004B . doi : 10.1038 / srep08004 . PMC 4648438 . PMID 25614300 .
Zhu, Wentao; Lou, Qi; Vang, Yeeleng Scott; Xie, Xiaohui (2017). "Redes profundas de múltiples instancias con asignación de etiquetas dispersas para la clasificación de mamografías completas". Computación de Imagen Médica e Intervención Asistida por Computadora - MICCAI 2017 . Apuntes de conferencias en Ciencias de la Computación. 10435 . págs. 603-11. arXiv : 1612.05968 . doi : 10.1007 / 978-3-319-66179-7_69 . ISBN 978-3-319-66178-0.

[Babenko-1] Babenko, Boris. "Aprendizaje de instancias múltiples: algoritmos y aplicaciones". Ver artículo PubMed / NCBI Google Scholar (2008).

[Keeler-2] Keeler, James D., David E. Rumelhart y Wee-Kheng Leow. Segmentación y reconocimiento integrados de números impresos a mano. Corporación de Microelectrónica y Tecnología Informática, 1991.

[Dietterich-3] Dietterich, Thomas G., Richard H. Lathrop y Tomás Lozano-Pérez. "Resolviendo el problema de instancias múltiples con rectángulos paralelos a los ejes". Inteligencia artificial 89.1 (1997): 31-71.

[Musk-4] C. Blake, E. Keogh y CJ Merz. Repositorio UCI de bases de datos de aprendizaje automático [1] ^{[ enlace muerto permanente ]} , Departamento de Información y Ciencias de la Computación, Universidad de California, Irvine, CA, 1998.

[Maron-5] O. Maron y AL Ratan. Aprendizaje de instancias múltiples para la clasificación de escenas naturales. En Actas de la 15ª Conferencia Internacional sobre Aprendizaje Automático, Madison, WI, págs. 341–349, 1998.

[pmid22962461-6] Minhas, F. u. A. A; Ben-Hur, A (2012). "Aprendizaje de instancias múltiples de sitios de unión a calcodulina" . Bioinformática . 28 (18): i416 – i422. doi : 10.1093 / bioinformatics / bts416 . PMC 3436843 . PMID 22962461 .

[Review-7] ^ a b c d e f g h i j k Foulds, James y Eibe Frank. "Una revisión de los supuestos de aprendizaje de varias instancias". The Knowledge Engineering Review 25.01 (2010): 1-25.

[Perez-8] Maron, Oded y Tomás Lozano-Pérez. "Un marco para el aprendizaje de instancias múltiples". Avances en los sistemas de procesamiento de información neuronal (1998): 570-576

[Xu-9] Xu, X. Aprendizaje estadístico en problemas de instancias múltiples. Tesis de maestría, Universidad de Waikato (2003).

[Weidmann-10] Weidmann, Nils B. "Clasificación de dos niveles para datos de instancias múltiples generalizados". Diss. Albert-Ludwigs-Universität, 2003.

[GMIL-11] Scott, Stephen, Jun Zhang y Joshua Brown. "Sobre el aprendizaje generalizado de instancias múltiples". Revista Internacional de Inteligencia Computacional y Aplicaciones 5.01 (2005): 21-35.

[12] Zhang, Qi y Sally A. Goldman. "EM-DD: una técnica mejorada de aprendizaje de instancias múltiples". Avances en sistemas de procesamiento de información neuronal. (2001): 1073 - 80

[13] Chen, Yixin y James Z. Wang. "Categorización de imágenes por aprendizaje y razonamiento con regiones". The Journal of Machine Learning Research 5 (2004): 913-939

[14] Andrews, Stuart, Ioannis Tsochantaridis y Thomas Hofmann. "Admite máquinas vectoriales para el aprendizaje de instancias múltiples". Avances en los sistemas de procesamiento de información neuronal (2003). págs. 561 - 658

[15] Zhou, Zhi-Hua y Min-Ling Zhang. "Redes neuronales para el aprendizaje de instancias múltiples". Actas de la Conferencia Internacional sobre Tecnología de la Información Inteligente, Beijing, China. (2002). págs. 455 - 459

[16] Blockeel, Hendrik, David Page y Ashwin Srinivasan. "Aprendizaje de árboles de instancias múltiples". Actas de la 22a conferencia internacional sobre aprendizaje automático. ACM, 2005, págs. 57-64

[17] Auer, Peter y Ronald Ortner. "Un enfoque de impulso para el aprendizaje de instancias múltiples". Aprendizaje automático: ECML 2004. Springer Berlin Heidelberg, 2004. 63-74.

[18] Chen, Yixin; Bi, Jinbo; Wang, JZ (1 de diciembre de 2006). "MILLAS: aprendizaje de instancias múltiples a través de la selección de instancias integradas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 28 (12): 1931-1947. doi : 10.1109 / TPAMI.2006.248 . ISSN 0162-8828 . PMID 17108368 .

[19] Cheplygina, Veronika; Impuestos, David MJ; Loog, Marco (1 de enero de 2015). "Aprendizaje de instancias múltiples con diferencias de bolsa". Reconocimiento de patrones . 48 (1): 264-275. arXiv : 1309.5643 . doi : 10.1016 / j.patcog.2014.07.022 .

[20] Wang, Jun y Jean-Daniel Zucker. "Resolver problemas de instancias múltiples: un enfoque de aprendizaje perezoso". ICML (2000): 1119-25

[21] Zhou, Zhi-Hua y Min-Ling Zhang. "Aprendizaje de múltiples instancias y etiquetas múltiples con aplicación a la clasificación de escenas". Avances en sistemas de procesamiento de información neuronal. 2006. págs. 1609 - 16

[22] Ray, Soumya y David Page. "Regresión de instancias múltiples". ICML. Vol. 1. 2001. págs. 425 - 32

[1]