Aprendizaje multitarea

El aprendizaje multitarea (MTL) es un subcampo del aprendizaje automático en el que se resuelven varias tareas de aprendizaje al mismo tiempo, mientras se explotan los puntos en común y las diferencias entre las tareas. Esto puede resultar en una mejor eficiencia de aprendizaje y precisión de predicción para los modelos específicos de la tarea, en comparación con el entrenamiento de los modelos por separado. ^[1]^[2]^[3] Las primeras versiones de MTL se llamaban "sugerencias". ^[4]^[5]

En un artículo de 1997 ampliamente citado, Rich Caruana dio la siguiente caracterización:

El aprendizaje multitarea es un enfoque de la transferencia inductiva que mejora la generalización mediante el uso de la información de dominio contenida en las señales de entrenamiento de las tareas relacionadas como un sesgo inductivo . Lo hace aprendiendo tareas en paralelo mientras usa una representación compartida ; lo que se aprende para cada tarea puede ayudar a que otras tareas se aprendan mejor. ^[3]

En el contexto de la clasificación, MTL tiene como objetivo mejorar el desempeño de múltiples tareas de clasificación aprendiéndolas de manera conjunta. Un ejemplo es un filtro de spam, que puede tratarse como tareas de clasificación distintas pero relacionadas entre diferentes usuarios. Para hacer esto más concreto, tenga en cuenta que diferentes personas tienen diferentes distribuciones de características que distinguen los correos electrónicos no deseados de los legítimos, por ejemplo, un hablante de inglés puede encontrar que todos los correos electrónicos en ruso son spam, no así para los hablantes de ruso. Sin embargo, existe una similitud definida en esta tarea de clasificación entre los usuarios, por ejemplo, una característica común podría ser el texto relacionado con la transferencia de dinero. Resolver el problema de clasificación de spam de cada usuario de forma conjunta a través de MTL puede permitir que las soluciones se informen entre sí y mejoren el rendimiento. ^[6] Otros ejemplos de configuraciones para MTL incluyen la clasificación multiclase y la clasificación de múltiples etiquetas . ^[7]

El aprendizaje multitarea funciona porque la regularización inducida al requerir que un algoritmo funcione bien en una tarea relacionada puede ser superior a la regularización que evita el sobreajuste al penalizar toda la complejidad de manera uniforme. Una situación en la que MTL puede ser particularmente útil es si las tareas comparten puntos en común importantes y, por lo general, están ligeramente submuestreadas. ^[8]^[6] Sin embargo, como se analiza a continuación, MTL también ha demostrado ser beneficioso para el aprendizaje de tareas no relacionadas. ^[8]^[9]

Métodos

Agrupación y superposición de tareas

Dentro del paradigma MTL, la información se puede compartir entre algunas o todas las tareas. Dependiendo de la estructura de la relación de tareas, es posible que desee compartir información de forma selectiva entre las tareas. Por ejemplo, las tareas pueden estar agrupadas o existir en una jerarquía, o estar relacionadas de acuerdo con alguna métrica general. Suponga, como se desarrolla más formalmente a continuación, que el vector de parámetros que modela cada tarea es una combinación lineal de alguna base subyacente. La similitud en términos de esta base puede indicar la relación de las tareas. Por ejemplo, con escasez , la superposición de coeficientes distintos de cero en las tareas indica similitudes. Una agrupación de tareas corresponde entonces a aquellas tareas que se encuentran en un subespacio generado por algún subconjunto de elementos básicos, donde las tareas en diferentes grupos pueden estar disjuntas o superponerse arbitrariamente en términos de sus bases. ^[10] La relación de tareas se puede imponer a priori o aprender de los datos. ^[7]^[11] La relación jerárquica de tareas también puede explotarse implícitamente sin asumir conocimientos a priori o relaciones de aprendizaje explícitamente. ^[8]^[12] Por ejemplo, el aprendizaje explícito de la relevancia de la muestra en todas las tareas se puede realizar para garantizar la eficacia del aprendizaje conjunto en múltiples dominios. ^[8]

Explotación de tareas no relacionadas

Se puede intentar aprender un grupo de tareas principales utilizando un grupo de tareas auxiliares, no relacionadas con las principales. En muchas aplicaciones, el aprendizaje conjunto de tareas no relacionadas que utilizan los mismos datos de entrada puede resultar beneficioso. La razón es que el conocimiento previo sobre la relación de tareas puede conducir a representaciones más dispersas y más informativas para cada grupo de tareas, esencialmente al descartar idiosincrasias de la distribución de datos. Se han propuesto métodos novedosos que se basan en una metodología multitarea previa al favorecer una representación compartida de baja dimensión dentro de cada grupo de tareas. El programador puede imponer una penalización a las tareas de diferentes grupos que fomenta que las dos representaciones sean ortogonales . Los experimentos con datos sintéticos y reales han indicado que la incorporación de tareas no relacionadas puede resultar en mejoras significativas sobre los métodos estándar de aprendizaje multitarea. ^[9]

Transferencia de conocimiento

Relacionado con el aprendizaje multitarea está el concepto de transferencia de conocimientos. Mientras que el aprendizaje tradicional de múltiples tareas implica que una representación compartida se desarrolla simultáneamente entre las tareas, la transferencia de conocimiento implica una representación compartida secuencialmente. Los proyectos de aprendizaje automático a gran escala, como la red neuronal convolucional profunda GoogLeNet , ^[13] un clasificador de objetos basado en imágenes, pueden desarrollar representaciones sólidas que pueden ser útiles para desarrollar más algoritmos en tareas relacionadas con el aprendizaje. Por ejemplo, el modelo previamente entrenado se puede utilizar como un extractor de características para realizar el preprocesamiento de otro algoritmo de aprendizaje. O el modelo previamente entrenado se puede utilizar para inicializar un modelo con una arquitectura similar que luego se ajusta para aprender una tarea de clasificación diferente. ^[14]

Aprendizaje adaptativo en línea grupal

Tradicionalmente, el aprendizaje multitarea y la transferencia de conocimientos se aplican a entornos de aprendizaje estacionarios. Su extensión a entornos no estacionarios se denomina aprendizaje adaptativo en línea grupal (GOAL). ^[15] Compartir información podría ser particularmente útil si los alumnos operan en entornos que cambian continuamente, porque un alumno podría beneficiarse de la experiencia previa de otro alumno para adaptarse rápidamente a su nuevo entorno. Este aprendizaje adaptativo en grupo tiene numerosas aplicaciones, desde la predicción de series de tiempo financieras, pasando por sistemas de recomendación de contenido, hasta la comprensión visual para agentes autónomos adaptativos.

Matemáticas

Reproducir el espacio de Hilbert de funciones con valores vectoriales (RKHSvv)

El problema de MTL puede plantearse dentro del contexto de RKHSvv (un espacio de producto interno completo de funciones con valores vectoriales equipado con un núcleo de reproducción ). En particular, la atención se ha centrado recientemente en casos en los que la estructura de la tarea se puede identificar mediante un núcleo separable, que se describe a continuación. La presentación aquí se deriva de Ciliberto et al., 2015. ^[7]

Conceptos de RKHSvv

Suponga que el conjunto de datos de entrenamiento es ${\ Displaystyle {\ mathcal {S}} _ {t} = \ {(x_ {i} ^ {t}, y_ {i} ^ {t}) \} _ {i = 1} ^ {n_ {t} }}$ , con ${\ Displaystyle x_ {i} ^ {t} \ in {\ mathcal {X}}}$ , ${\ Displaystyle y_ {i} ^ {t} \ in {\ mathcal {Y}}}$ , donde $t$ indexa la tarea, y ${\ Displaystyle t \ en 1, ..., T}$ . Dejar ${\ Displaystyle n = \ sum _ {t = 1} ^ {T} n_ {t}}$ . En esta configuración hay un espacio de entrada y salida consistente y la misma función de pérdida ${\ Displaystyle {\ mathcal {L}}: \ mathbb {R} \ times \ mathbb {R} \ rightarrow \ mathbb {R} _ {+}}$ para cada tarea:. Esto da como resultado el problema de aprendizaje automático regularizado:

{\ Displaystyle \ min _ {f \ in {\ mathcal {H}}} \ sum _ {t = 1} ^ {T} {\ frac {1} {n_ {t}}} \ sum _ {i = 1 } ^ {n_ {t}} {\ mathcal {L}} (y_ {i} ^ {t}, f_ {t} (x_ {i} ^ {t})) + \ lambda || f || _ { \ mathcal {H}} ^ {2}}

( 1 )

dónde ${\ Displaystyle {\ mathcal {H}}}$ es un vector valorado que reproduce el espacio de Hilbert del núcleo con funciones ${\ Displaystyle f: {\ mathcal {X}} \ rightarrow {\ mathcal {Y}} ^ {T}}$ tener componentes ${\ Displaystyle f_ {t}: {\ mathcal {X}} \ rightarrow {\ mathcal {Y}}}$ .

El núcleo de reproducción para el espacio ${\ Displaystyle {\ mathcal {H}}}$ de funciones ${\ Displaystyle f: {\ mathcal {X}} \ rightarrow \ mathbb {R} ^ {T}}$ es una función simétrica con valores de matriz ${\ Displaystyle \ Gamma: {\ mathcal {X}} \ times {\ mathcal {X}} \ rightarrow \ mathbb {R} ^ {T \ times T}}$ , tal que ${\ Displaystyle \ Gamma (\ cdot, x) c \ in {\ mathcal {H}}}$ y se mantiene la siguiente propiedad de reproducción:

{\ Displaystyle \ langle f (x), c \ rangle _ {\ mathbb {R} ^ {T}} = \ langle f, \ Gamma (x, \ cdot) c \ rangle _ {\ mathcal {H}}}

( 2 )

El núcleo que se reproduce da lugar a un teorema del representador que muestra que cualquier solución a la ecuación 1 tiene la forma:

{\ Displaystyle f (x) = \ sum _ {t = 1} ^ {T} \ sum _ {i = 1} ^ {n_ {t}} \ Gamma (x, x_ {i} ^ {t}) c_ {i} ^ {t}}

( 3 )

Granos separables

La forma del kernel $Γ$ induce tanto la representación del espacio de características como estructura la salida a través de las tareas. Una simplificación natural es elegir un kernel separable, que se factoriza en kernels separados en el espacio de entrada X y en las tareas. ${\ Displaystyle \ {1, ..., T \}}$ . En este caso, el kernel relaciona los componentes escalares. ${\ Displaystyle f_ {t}}$ y ${\ Displaystyle f_ {s}}$ es dado por ${\ textstyle \ gamma ((x_ {i}, t), (x_ {j}, s)) = k (x_ {i}, x_ {j}) k_ {T} (s, t) = k (x_ {i}, x_ {j}) A_ {s, t}}$ . Para funciones con valores vectoriales ${\ Displaystyle f \ in {\ mathcal {H}}}$ podemos escribir ${\ Displaystyle \ Gamma (x_ {i}, x_ {j}) = k (x_ {i}, x_ {j}) A}$ , donde $k$ es un núcleo de reproducción escalar, y $A$ es un semidefinido positivo simétrico ${\ Displaystyle T \ times T}$ matriz. De ahora en adelante denotar ${\ Displaystyle S _ {+} ^ {T} = \ {{\ text {matrices PSD}} \} \ subset \ mathbb {R} ^ {T \ times T}}$ .

Esta propiedad de factorización, la separabilidad, implica que la representación del espacio de características de entrada no varía según la tarea. Es decir, no hay interacción entre el kernel de entrada y el kernel de tareas. La estructura de las tareas está representado únicamente por $una$ . Métodos para granos no separables $Γ$ es un campo de investigación actual.

Para el caso separable, el teorema de representación se reduce a ${\ textstyle f (x) = \ sum _ {i = 1} ^ {N} k (x, x_ {i}) Ac_ {i}}$ . La salida del modelo en los datos de entrenamiento es entonces $KCA$ , donde $K$ es el ${\ Displaystyle n \ times n}$ matriz de kernel empírica con entradas ${\ textstyle K_ {i, j} = k (x_ {i}, x_ {j})}$ , y $C$ es el ${\ Displaystyle n \ times T}$ matriz de filas ${\ Displaystyle c_ {i}}$ .

Con el núcleo separable, la ecuación 1 se puede reescribir como

{\ Displaystyle \ min _ {C \ in \ mathbb {R} ^ {n \ times T}} V (Y, KCA) + \ lambda tr (KCAC ^ {\ top})}

( P )

donde $V$ es un promedio (ponderado) de L aplicado a la entrada a $Y$ y $KCA$ . (El peso es cero si ${\ Displaystyle Y_ {i} ^ {t}}$ es una observación faltante).

Tenga en cuenta que el segundo término en P se puede derivar de la siguiente manera:

{\ Displaystyle {\ begin {alineado} \ | f \ | _ {\ mathcal {H}} ^ {2} & = \ left \ langle \ sum _ {i = 1} ^ {n} k (\ cdot, x_ {i}) Ac_ {i}, \ sum _ {j = 1} ^ {n} k (\ cdot, x_ {j}) Ac_ {j} \ right \ rangle _ {\ mathcal {H}} \\ & = \ sum _ {i, j = 1} ^ {n} \ langle k (\ cdot, x_ {i}) Ac_ {i}, k (\ cdot, x_ {j}) Ac_ {j} \ rangle _ { \ mathcal {H}} & {\ text {(bilinealidad)}} \\ & = \ sum _ {i, j = 1} ^ {n} \ langle k (x_ {i}, x_ {j}) Ac_ { i}, c_ {j} \ rangle _ {\ mathbb {R} ^ {T}} & {\ text {(propiedad de reproducción)}} \\ & = \ sum _ {i, j = 1} ^ {n} k (x_ {i}, x_ {j}) c_ {i} ^ {\ top} Ac_ {j} = tr (KCAC ^ {\ top}) \ end {alineado}}}

Estructura de tareas conocida

Representaciones de estructura de tareas

Hay tres formas en gran parte equivalentes de representar la estructura de la tarea: mediante un regularizador; mediante una métrica de salida y mediante una asignación de salida.

Regularizador : con el núcleo separable, se puede mostrar (abajo) que ${\ textstyle || f || _ {\ mathcal {H}} ^ {2} = \ sum _ {s, t = 1} ^ {T} A_ {t, s} ^ {\ dagger} \ langle f_ { s}, f_ {t} \ rangle _ {{\ mathcal {H}} _ {k}}}$ , dónde ${\ Displaystyle A_ {t, s} ^ {\ dagger}}$ es el ${\ Displaystyle t, s}$ elemento del pseudoinverso de ${\ Displaystyle A}$ , y ${\ Displaystyle {\ mathcal {H}} _ {k}}$ es el RKHS basado en el kernel escalar ${\ Displaystyle k}$ , y ${\ textstyle f_ {t} (x) = \ sum _ {i = 1} ^ {n} k (x, x_ {i}) A_ {t} ^ {\ top} c_ {i}}$ . Esta formulación muestra que ${\ Displaystyle A_ {t, s} ^ {\ dagger}}$ controla el peso de la penalización asociada con ${\ textstyle \ langle f_ {s}, f_ {t} \ rangle _ {{\ mathcal {H}} _ {k}}}$ . (Tenga en cuenta que ${\ textstyle \ langle f_ {s}, f_ {t} \ rangle _ {{\ mathcal {H}} _ {k}}}$ surge de ${\ textstyle || f_ {t} || _ {{\ mathcal {H}} _ {k}} = \ langle f_ {t}, f_ {t} \ rangle _ {{\ mathcal {H}} _ { k}}}$ .)

Prueba -

${\ Displaystyle {\ begin {alineado} \ | f \ | _ {\ mathcal {H}} ^ {2} & = \ left \ langle \ sum _ {i = 1} ^ {n} \ gamma ((x_ { i}, t_ {i}), \ cdot) c_ {i} ^ {t_ {i}}, \ sum _ {j = 1} ^ {n} \ gamma ((x_ {j}, t_ {j}) , \ cdot) c_ {j} ^ {t_ {j}} \ right \ rangle _ {\ mathcal {H}} \\ & = \ sum _ {i, j = 1} ^ {n} c_ {i} ^ {t_ {i}} c_ {j} ^ {t_ {j}} \ gamma ((x_ {i}, t_ {i}), (x_ {j}, t_ {j})) \\ & = \ sum _ {i, j = 1} ^ {n} \ sum _ {s, t = 1} ^ {T} c_ {i} ^ {t} c_ {j} ^ {s} k (x_ {i}, x_ {j}) A_ {s, t} \\ & = \ sum _ {i, j = 1} ^ {n} k (x_ {i}, x_ {j}) \ langle c_ {i}, Ac_ {j } \ rangle _ {\ mathbb {R} ^ {T}} \\ & = \ sum _ {i, j = 1} ^ {n} k (x_ {i}, x_ {j}) \ langle c_ {i }, AA ^ {\ dagger} Ac_ {j} \ rangle _ {\ mathbb {R} ^ {T}} \\ & = \ sum _ {i, j = 1} ^ {n} k (x_ {i} , x_ {j}) \ langle Ac_ {i}, A ^ {\ dagger} Ac_ {j} \ rangle _ {\ mathbb {R} ^ {T}} \\ & = \ sum _ {i, j = 1 } ^ {n} \ sum _ {s, t = 1} ^ {T} (Ac_ {i}) ^ {t} (Ac_ {j}) ^ {s} k (x_ {i}, x_ {j} ) A_ {s, t} ^ {\ dagger} \\ & = \ sum _ {s, t = 1} ^ {T} A_ {s, t} ^ {\ dagger} \ langle \ sum _ {i = 1 } ^ {n} k (x_ {i}, \ cdot) (Ac_ {i}) ^ {t}, \ sum _ {j = 1} ^ {n} k (x_ {j}, \ cdot) (Ac_ {j}) ^ {s} \ rangle _ {{\ mathcal {H}} _ {k}} \\ & = \ sum _ {s, t = 1} ^ {T} A_ {s, t} ^ { \ dagger} \ langle f_ {t}, f_ {s} \ rangle _ {{\ mathcal {H}} _ {k}} \ end {alineado }}}$

Métrica de salida : una métrica de salida alternativa en ${\ Displaystyle {\ mathcal {Y}} ^ {T}}$ puede ser inducido por el producto interno ${\ Displaystyle \ langle y_ {1}, y_ {2} \ rangle _ {\ Theta} = \ langle y_ {1}, \ Theta y_ {2} \ rangle _ {\ mathbb {R} ^ {T}}}$ . Con la pérdida al cuadrado hay una equivalencia entre los granos separables ${\ Displaystyle k (\ cdot, \ cdot) I_ {T}}$ bajo la métrica alternativa, y ${\ Displaystyle k (\ cdot, \ cdot) \ Theta}$ , bajo la métrica canónica.

Mapeo de salida : las salidas se pueden mapear como ${\ displaystyle L: {\ mathcal {Y}} ^ {T} \ rightarrow {\ mathcal {\ tilde {Y}}}}$ a un espacio dimensional superior para codificar estructuras complejas como árboles, gráficos y cadenas. Para mapas lineales $L$ , con la elección adecuada de kernel separable, se puede demostrar que ${\ Displaystyle A = L ^ {\ top} L}$ .

Ejemplos de estructura de tareas

A través de la formulación del regularizador, se pueden representar fácilmente una variedad de estructuras de tareas.

Dejando ${\ textstyle A ^ {\ dagger} = \ gamma I_ {T} + (\ gamma - \ lambda) {\ frac {1} {T}} \ mathbf {1} \ mathbf {1} ^ {\ top}}$ (dónde ${\ Displaystyle I_ {T}}$ es la matriz identidad T x T , y ${\ textstyle \ mathbf {1} \ mathbf {1} ^ {\ top}}$ es la matriz T x T de unos) es equivalente a dejar que $Γ$ controle la varianza ${\ textstyle \ sum _ {t} || f_ {t} - {\ bar {f}} || _ {{\ mathcal {H}} _ {k}}}$ de tareas de su media ${\ textstyle {\ frac {1} {T}} \ sum _ {t} f_ {t}}$ . Por ejemplo, los niveles sanguíneos de algún biomarcador se pueden tomar en pacientes $T$ en ${\ Displaystyle n_ {t}}$ puntos de tiempo durante el transcurso de un día y el interés puede radicar en regularizar la variación de las predicciones entre pacientes.
Dejando ${\ Displaystyle A ^ {\ dagger} = \ alpha I_ {T} + (\ alpha - \ lambda) M}$ , dónde ${\ Displaystyle M_ {t, s} = {\ frac {1} {| G_ {r} |}} \ mathbb {I} (t, s \ in G_ {r})}$ es equivalente a dejar ${\ Displaystyle \ alpha}$ controlar la varianza medida con respecto a la media de un grupo: ${\ Displaystyle \ sum _ {r} \ sum _ {t \ in G_ {r}} || f_ {t} - {\ frac {1} {| G_ {r} |}} \ sum _ {s \ in G_ {r})} f_ {s} ||}$ . (Aquí ${\ Displaystyle | G_ {r} |}$ la cardinalidad del grupo r, y ${\ Displaystyle \ mathbb {I}}$ es la función del indicador). Por ejemplo, las personas de diferentes partidos políticos (grupos) podrían regularizarse juntas con respecto a la predicción de la calificación de favorabilidad de un político. Tenga en cuenta que esta penalización se reduce a la primera cuando todas las tareas están en el mismo grupo.
Dejando ${\ Displaystyle A ^ {\ dagger} = \ delta I_ {T} + (\ delta - \ lambda) L}$ , dónde ${\ Displaystyle L = DM}$ es el laplaciano para el gráfico con matriz de adyacencia M que proporciona similitudes de tareas por pares. Esto equivale a dar una penalización mayor a la distancia que separa las tareas t y s cuando son más similares (según el peso ${\ Displaystyle M_ {t, s}}$ ,) es decir ${\ Displaystyle \ delta}$ regulariza ${\ Displaystyle \ sum _ {t, s} || f_ {t} -f_ {s} || _ {{\ mathcal {H}} _ {k}} ^ {2} M_ {t, s}}$ .
Todas las opciones anteriores de A también inducen el término de regularización adicional ${\ estilo de texto \ lambda \ sum _ {t} || f || _ {{\ mathcal {H}} _ {k}} ^ {2}}$ que penaliza la complejidad en f de manera más amplia.

Tareas de aprendizaje junto con su estructura

El problema de aprendizaje P puede generalizarse para admitir la matriz de tareas de aprendizaje A de la siguiente manera:

{\ Displaystyle \ min _ {C \ in \ mathbb {R} ^ {n \ times T}, A \ in S _ {+} ^ {T}} V (Y, KCA) + \ lambda tr (KCAC ^ {\ arriba}) + F (A)}

( Q )

Elección de ${\ Displaystyle F: S _ {+} ^ {T} \ flecha derecha \ mathbb {R} _ {+}}$ debe diseñarse para aprender matrices A de un tipo determinado. Consulte "Casos especiales" a continuación.

Optimización de Q

Restringiendo al caso de pérdidas convexas y sanciones coercitivas Ciliberto et al. han demostrado que aunque Q no es convexo conjuntamente en C y A, un problema relacionado es convexo conjuntamente.

Específicamente en el conjunto convexo. ${\ Displaystyle {\ mathcal {C}} = \ {(C, A) \ in \ mathbb {R} ^ {n \ times T} \ times S _ {+} ^ {T} | Rango (C ^ {\ top } KC) \ subseteq Rango (A) \}}$ , el problema equivalente

{\ Displaystyle \ min _ {C, A \ in {\ mathcal {C}}} V (Y, KC) + \ lambda tr (A ^ {\ dagger} C ^ {\ top} KC) + F (A) }

( R )

es convexo con el mismo valor mínimo. Y si ${\ Displaystyle (C_ {R}, A_ {R})}$ es un minimizador para R entonces ${\ Displaystyle (C_ {R} A_ {R} ^ {\ dagger}, A_ {R})}$ es un minimizador de Q .

R puede resolverse mediante un método de barrera en un conjunto cerrado introduciendo la siguiente perturbación:

{\ Displaystyle \ min _ {C \ in \ mathbb {R} ^ {n \ times T}, A \ in S _ {+} ^ {T}} V (Y, KC) + \ lambda tr (A ^ {\ daga} (C ^ {\ top} KC + \ delta ^ {2} I_ {T})) + F (A)}

( S )

La perturbación a través de la barrera ${\ Displaystyle \ delta ^ {2} tr (A ^ {\ dagger})}$ obliga a las funciones objetivo a ser iguales a ${\ Displaystyle + \ infty}$ en el límite de ${\ Displaystyle R ^ {n \ times T} \ times S _ {+} ^ {T}}$ .

S se puede resolver con un método de descenso de coordenadas de bloque, alternando en C y A. Esto da como resultado una secuencia de minimizadores ${\ Displaystyle (C_ {m}, A_ {m})}$ en S que converge a la solución en R como ${\ Displaystyle \ delta _ {m} \ rightarrow 0}$ , Y por lo tanto da la solución a Q .

Casos especiales

Penalizaciones espectrales : Dinnuzo et al ^[16] sugirieron establecer F como la norma de Frobenius ${\ Displaystyle {\ sqrt {tr (A ^ {\ top} A)}}}$ . Optimizaron Q directamente usando el descenso de coordenadas de bloque, sin tener en cuenta las dificultades en el límite de ${\ Displaystyle \ mathbb {R} ^ {n \ times T} \ times S _ {+} ^ {T}}$ .

Aprendizaje de tareas agrupadas - Jacob et al ^[17] sugirieron aprender A en el contexto en el que las tareas T están organizadas en R agrupaciones disjuntas. En este caso deje ${\ Displaystyle E \ in \ {0,1 \} ^ {T \ times R}}$ ser la matriz con ${\ Displaystyle E_ {t, r} = \ mathbb {I} ({\ text {tarea}} t \ in {\ text {grupo}} r)}$ . Configuración ${\ Displaystyle M = IE ^ {\ dagger} E ^ {T}}$ , y ${\ Displaystyle U = {\ frac {1} {T}} \ mathbf {11} ^ {\ top}}$ , la matriz de tareas ${\ Displaystyle A ^ {\ dagger}}$ se puede parametrizar en función de ${\ Displaystyle M}$ : ${\ Displaystyle A ^ {\ dagger} (M) = \ epsilon _ {M} U + \ epsilon _ {B} (MU) + \ epsilon (IM)}$ , con términos que penalizan el promedio, la varianza entre grupos y la varianza dentro de los grupos, respectivamente, de las predicciones de la tarea. M no es convexo, pero hay una relajación convexa ${\ Displaystyle {\ mathcal {S}} _ {c} = \ {M \ in S _ {+} ^ {T}: IM \ in S _ {+} ^ {T} \ land tr (M) = r \} }$ . En esta formulación, ${\ Displaystyle F (A) = \ mathbb {I} (A (M) \ in \ {A: M \ in {\ mathcal {S}} _ {C} \})}$ .

Generalizaciones

Penalizaciones no convexas : las penalizaciones se pueden construir de manera que A esté restringido a ser un gráfico laplaciano, o que A tenga factorización de rango bajo. Sin embargo, estas penalizaciones no son convexas y el análisis del método de barrera propuesto por Ciliberto et al. no pasa en estos casos.

Núcleos no separables: los núcleos separables son limitados, en particular, no tienen en cuenta las estructuras en el espacio de interacción entre los dominios de entrada y salida de forma conjunta. Se necesita trabajo futuro para desarrollar modelos para estos núcleos.

Aplicaciones

Filtrado de spam

Utilizando los principios de MTL, se han propuesto técnicas de filtrado colaborativo de spam que facilitan la personalización. En los sistemas de correo electrónico de membresía abierta a gran escala, la mayoría de los usuarios no etiquetan suficientes mensajes para que un clasificador local individual sea efectivo, mientras que los datos son demasiado ruidosos para ser utilizados para un filtro global en todos los usuarios. Un clasificador híbrido global / individual puede ser eficaz para absorber la influencia de los usuarios que etiquetan con mucha diligencia los correos electrónicos del público en general. Esto se puede lograr sin dejar de ofrecer suficiente calidad a los usuarios con pocas instancias etiquetadas. ^[18]

búsqueda Web

Al utilizar árboles de decisión mejorados , se puede permitir el intercambio y la regularización de datos implícitos. Este método de aprendizaje se puede utilizar en conjuntos de datos de clasificación de búsqueda web. Un ejemplo es utilizar conjuntos de datos de clasificación de varios países. Aquí, el aprendizaje multitarea es particularmente útil ya que los conjuntos de datos de diferentes países varían en gran medida en tamaño debido al costo de los juicios editoriales. Se ha demostrado que el aprendizaje conjunto de varias tareas puede conducir a mejoras significativas en el rendimiento con una fiabilidad sorprendente. ^[19]

Paquete de software

El paquete Matlab de aprendizaje multitarea mediante regularización estructural (MALSAR) ^[20] implementa los siguientes algoritmos de aprendizaje multitarea:

Aprendizaje multitarea con regularización media ^[21]^[22]
Aprendizaje multitarea con selección de funciones conjuntas ^[23]
Aprendizaje sólido de funciones multitarea ^[24]
Aprendizaje multitarea regularizado de Trace-Norm ^[25]
Optimización estructural alternante ^[26]^[27]
Aprendizaje escaso y de bajo rango incoherente ^[28]
Aprendizaje robusto de múltiples tareas de bajo rango
Aprendizaje multitarea agrupado ^[29]^[30]
Aprendizaje multitarea con estructuras gráficas

Ver también

Inteligencia artificial
Red neuronal artificial
Aprendizaje automático automatizado (AutoML)
Computación evolutiva
Juego general
Algoritmo genético basado en humanos
Métodos de kernel para salida vectorial
Optimización multitarea
Aprendizaje de robots
Transferir aprendizaje

Referencias

^ Baxter, J. (2000). Un modelo de aprendizaje de sesgos inductivos " Journal of Artificial Intelligence Research 12: 149-198, artículo en línea
^ Thrun, S. (1996). ¿Es más fácil aprender lo n-ésimo que aprender lo primero? En Advances in Neural Information Processing Systems 8, págs.640--646. MIT Press. Papel en Citeseer
↑ a b Caruana, R. (1997). "Aprendizaje multitarea" (PDF) . Aprendizaje automático . 28 : 41–75. doi : 10.1023 / A: 1007379606734 .
^ Suddarth, S., Kergosien, Y. (1990). Sugerencias de inyección de reglas como un medio para mejorar el rendimiento de la red y el tiempo de aprendizaje. Taller EURASIP. Redes neuronales págs. 120-129. Apuntes de conferencias en Ciencias de la Computación. Saltador.
^ Abu-Mostafa, YS (1990). "Aprendiendo de pistas en redes neuronales". Revista de complejidad . 6 (2): 192-198. doi : 10.1016 / 0885-064x (90) 90006-y .
^ a b Weinberger, Kilian. "Aprendizaje multitarea" .
^ a b c Ciliberto, C. (2015). "Aprendizaje convexo de múltiples tareas y su estructura". arXiv : 1504.03101 [ cs.LG ].
^ a b c d Hajiramezanali, E. & Dadaneh, SZ & Karbalayghareh, A. & Zhou, Z. & Qian, X. Aprendizaje bayesiano multidominio para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación 32a Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá. arXiv : 1810.09433
^ a b Romera-Paredes, B., Argyriou, A., Bianchi-Berthouze, N. y Pontil, M., (2012) Explotación de tareas no relacionadas en el aprendizaje multitarea. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
^ Kumar, A. y Daume III, H., (2012) Agrupación y superposición de tareas de aprendizaje en el aprendizaje multitarea. http://icml.cc/2012/papers/690.pdf
^ Jawanpuria, P. y Saketha Nath, J., (2012) Una formulación de aprendizaje de características convexas para el descubrimiento de la estructura de tareas latentes. http://icml.cc/2012/papers/90.pdf
^ Zweig, A. y Weinshall, D. Cascada de regularización jerárquica para el aprendizaje conjunto. Actas: 30th International Conference on Machine Learning (ICML), Atlanta GA, junio de 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
^ Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Profundizando con las circunvoluciones". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) . págs. 1–9. arXiv : 1409,4842 . doi : 10.1109 / CVPR.2015.7298594 . ISBN 978-1-4673-6964-0.
^ Roig, Gemma. "Descripción general del aprendizaje profundo" (PDF) .
^ Zweig, A. & Chechik, G. Group aprendizaje adaptativo en línea. Aprendizaje automático, DOI 10.1007 / s10994-017-5661-5, agosto de 2017. http://rdcu.be/uFSv
^ Dinuzzo, Francesco (2011). "Aprendizaje de núcleos de salida con descenso de coordenadas de bloque" (PDF) . Actas de la 28a Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . Archivado desde el original (PDF) el 8 de agosto de 2017.
^ Jacob, Laurent (2009). "Aprendizaje multitarea agrupado: una formulación convexa". Avances en sistemas de procesamiento de información neuronal . arXiv : 0809.2085 . Código Bibliográfico : 2008arXiv0809.2085J .
^ Attenberg, J., Weinberger, K. y Dasgupta, A. Filtrado colaborativo de correo electrónico no deseado con el truco de hash. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf
^ Chappelle, O., Shivaswamy, P. y Vadrevu, S. Aprendizaje multitarea para impulsar con la aplicación al ranking de búsqueda web. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf
^ Zhou, J., Chen, J. y Ye, J. MALSAR: Aprendizaje de múltiples tareas a través de la regularización estructural. Universidad Estatal de Arizona, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR . Manual en Linea
^ Evgeniou, T. y Pontil, M. (2004). Aprendizaje multitarea regularizado . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (págs. 109-117).
^ Evgeniou, T .; Micchelli, C .; Pontil, M. (2005). "Aprendizaje de múltiples tareas con métodos de kernel" (PDF) . Revista de investigación sobre aprendizaje automático . 6 : 615.
^ Argyriou, A .; Evgeniou, T .; Pontil, M. (2008a). "Aprendizaje convexo de funciones multitarea" . Aprendizaje automático . 73 (3): 243–272. doi : 10.1007 / s10994-007-5040-8 .
^ Chen, J., Zhou, J. y Ye, J. (2011). Integrar estructuras de bajo rango y grupos dispersos para un aprendizaje sólido de múltiples tareas . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.
^ Ji, S. y Ye, J. (2009). Un método de gradiente acelerado para minimizar las normas de trazas . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 457–464).
^ Ando, R .; Zhang, T. (2005). "Un marco para el aprendizaje de estructuras predictivas a partir de múltiples tareas y datos sin etiquetar" (PDF) . The Journal of Machine Learning Research . 6 : 1817–1853.
^ Chen, J., Tang, L., Liu, J. y Ye, J. (2009). Una formulación convexa para aprender estructuras compartidas a partir de múltiples tareas . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 137-144).
^ Chen, J., Liu, J. y Ye, J. (2010). Aprender patrones incoherentes escasos y de bajo rango de múltiples tareas . Actas de la 16ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos (págs. 1179-1188).
^ Jacob, L., Bach, F. y Vert, J. (2008). Aprendizaje multitarea agrupado: una formulación convexa . Avances en los sistemas de procesamiento de información neuronal, 2008
^ Zhou, J., Chen, J. y Ye, J. (2011). Aprendizaje multitarea agrupado mediante optimización de estructura alterna . Avances en sistemas de procesamiento de información neuronal.

enlaces externos

El Grupo de Inteligencia de Bioseñales en UIUC
Salida de la Universidad de Washington en St. Louis. de Ciencias de la Computación

Software

El aprendizaje multitarea mediante el paquete de regularización estructural
Kit de herramientas de aprendizaje multitarea en línea (OMT) Un kit de herramientas de aprendizaje multitarea en línea de uso general basado en modelos de campo aleatorio condicional y entrenamiento de descenso de gradiente estocástico ( C # , .NET )

[1] Baxter, J. (2000). Un modelo de aprendizaje de sesgos inductivos " Journal of Artificial Intelligence Research 12: 149-198, artículo en línea

[2] Thrun, S. (1996). ¿Es más fácil aprender lo n-ésimo que aprender lo primero? En Advances in Neural Information Processing Systems 8, págs.640--646. MIT Press. Papel en Citeseer

[:2-3] Caruana, R. (1997). "Aprendizaje multitarea" (PDF) . Aprendizaje automático . 28 : 41–75. doi : 10.1023 / A: 1007379606734 .

[4] Suddarth, S., Kergosien, Y. (1990). Sugerencias de inyección de reglas como un medio para mejorar el rendimiento de la red y el tiempo de aprendizaje. Taller EURASIP. Redes neuronales págs. 120-129. Apuntes de conferencias en Ciencias de la Computación. Saltador.

[5] Abu-Mostafa, YS (1990). "Aprendiendo de pistas en redes neuronales". Revista de complejidad . 6 (2): 192-198. doi : 10.1016 / 0885-064x (90) 90006-y .

[:0-6] Weinberger, Kilian. "Aprendizaje multitarea" .

[:1-7] Ciliberto, C. (2015). "Aprendizaje convexo de múltiples tareas y su estructura". arXiv : 1504.03101 [ cs.LG ].

[:bmdl-8] Hajiramezanali, E. & Dadaneh, SZ & Karbalayghareh, A. & Zhou, Z. & Qian, X. Aprendizaje bayesiano multidominio para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación 32a Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá. arXiv : 1810.09433

[:3-9] Romera-Paredes, B., Argyriou, A., Bianchi-Berthouze, N. y Pontil, M., (2012) Explotación de tareas no relacionadas en el aprendizaje multitarea. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf

[10] Kumar, A. y Daume III, H., (2012) Agrupación y superposición de tareas de aprendizaje en el aprendizaje multitarea. http://icml.cc/2012/papers/690.pdf

[11] Jawanpuria, P. y Saketha Nath, J., (2012) Una formulación de aprendizaje de características convexas para el descubrimiento de la estructura de tareas latentes. http://icml.cc/2012/papers/90.pdf

[12] Zweig, A. y Weinshall, D. Cascada de regularización jerárquica para el aprendizaje conjunto. Actas: 30th International Conference on Machine Learning (ICML), Atlanta GA, junio de 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf

[13] Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Profundizando con las circunvoluciones". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) . págs. 1–9. arXiv : 1409,4842 . doi : 10.1109 / CVPR.2015.7298594 . ISBN 978-1-4673-6964-0.

[14] Roig, Gemma. "Descripción general del aprendizaje profundo" (PDF) .

[15] Zweig, A. & Chechik, G. Group aprendizaje adaptativo en línea. Aprendizaje automático, DOI 10.1007 / s10994-017-5661-5, agosto de 2017. http://rdcu.be/uFSv

[16] Dinuzzo, Francesco (2011). "Aprendizaje de núcleos de salida con descenso de coordenadas de bloque" (PDF) . Actas de la 28a Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . Archivado desde el original (PDF) el 8 de agosto de 2017.

[17] Jacob, Laurent (2009). "Aprendizaje multitarea agrupado: una formulación convexa". Avances en sistemas de procesamiento de información neuronal . arXiv : 0809.2085 . Código Bibliográfico : 2008arXiv0809.2085J .

[18] Attenberg, J., Weinberger, K. y Dasgupta, A. Filtrado colaborativo de correo electrónico no deseado con el truco de hash. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf

[19] Chappelle, O., Shivaswamy, P. y Vadrevu, S. Aprendizaje multitarea para impulsar con la aplicación al ranking de búsqueda web. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf

[20] Zhou, J., Chen, J. y Ye, J. MALSAR: Aprendizaje de múltiples tareas a través de la regularización estructural. Universidad Estatal de Arizona, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR . Manual en Linea

[21] Evgeniou, T. y Pontil, M. (2004). Aprendizaje multitarea regularizado . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (págs. 109-117).

[22] Evgeniou, T .; Micchelli, C .; Pontil, M. (2005). "Aprendizaje de múltiples tareas con métodos de kernel" (PDF) . Revista de investigación sobre aprendizaje automático . 6 : 615.

[23] Argyriou, A .; Evgeniou, T .; Pontil, M. (2008a). "Aprendizaje convexo de funciones multitarea" . Aprendizaje automático . 73 (3): 243–272. doi : 10.1007 / s10994-007-5040-8 .

[24] Chen, J., Zhou, J. y Ye, J. (2011). Integrar estructuras de bajo rango y grupos dispersos para un aprendizaje sólido de múltiples tareas . Actas de la décima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.

[25] Ji, S. y Ye, J. (2009). Un método de gradiente acelerado para minimizar las normas de trazas . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 457–464).

[26] Ando, R .; Zhang, T. (2005). "Un marco para el aprendizaje de estructuras predictivas a partir de múltiples tareas y datos sin etiquetar" (PDF) . The Journal of Machine Learning Research . 6 : 1817–1853.

[27] Chen, J., Tang, L., Liu, J. y Ye, J. (2009). Una formulación convexa para aprender estructuras compartidas a partir de múltiples tareas . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático (págs. 137-144).

[28] Chen, J., Liu, J. y Ye, J. (2010). Aprender patrones incoherentes escasos y de bajo rango de múltiples tareas . Actas de la 16ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos (págs. 1179-1188).

[29] Jacob, L., Bach, F. y Vert, J. (2008). Aprendizaje multitarea agrupado: una formulación convexa . Avances en los sistemas de procesamiento de información neuronal, 2008

[30] Zhou, J., Chen, J. y Ye, J. (2011). Aprendizaje multitarea agrupado mediante optimización de estructura alterna . Avances en sistemas de procesamiento de información neuronal.

[1]