Los métodos de kernel son una herramienta bien establecida para analizar la relación entre los datos de entrada y la salida correspondiente de una función. Los núcleos encapsulan las propiedades de las funciones de una manera computacionalmente eficiente y permiten que los algoritmos intercambien fácilmente funciones de diversa complejidad.
En los algoritmos típicos de aprendizaje automático , estas funciones producen una salida escalar. El desarrollo reciente de métodos de kernel para funciones con salida con valores vectoriales se debe, al menos en parte, al interés en resolver simultáneamente problemas relacionados. Los núcleos que capturan la relación entre los problemas les permiten tomar prestada fuerza unos de otros. Los algoritmos de este tipo incluyen el aprendizaje de múltiples tareas (también llamado aprendizaje de múltiples resultados o aprendizaje valuado por vectores), aprendizaje de transferencia y co- kriging . La clasificación de etiquetas múltiples se puede interpretar como una asignación de entradas a vectores de codificación (binarios) con una longitud igual al número de clases.
En los procesos gaussianos , los núcleos se denominan funciones de covarianza . Las funciones de múltiples salidas corresponden a considerar múltiples procesos. Consulte la interpretación bayesiana de la regularización para conocer la conexión entre las dos perspectivas.
Historia
La historia del aprendizaje de funciones valoradas por vectores está estrechamente relacionada con el aprendizaje por transferencia : almacenar el conocimiento adquirido al resolver un problema y aplicarlo a un problema diferente pero relacionado. La motivación fundamental para transferir el aprendizaje en el campo del aprendizaje automático se discutió en un taller NIPS-95 sobre "Aprender a aprender", que se centró en la necesidad de métodos de aprendizaje automático para toda la vida que retengan y reutilicen el conocimiento aprendido previamente. La investigación sobre el aprendizaje por transferencia ha atraído mucha atención desde 1995 en diferentes nombres: aprender a aprender, aprendizaje permanente, transferencia de conocimientos, transferencia inductiva, aprendizaje multitarea, consolidación de conocimientos, aprendizaje sensible al contexto, sesgo inductivo basado en el conocimiento, metaaprendizaje y aprendizaje incremental / acumulativo. aprendizaje . [1] El interés en el aprendizaje de funciones valoradas por vectores fue particularmente provocado por el aprendizaje multitarea, un marco que intenta aprender múltiples, posiblemente diferentes tareas simultáneamente.
Mucha de la investigación inicial en el aprendizaje de tareas múltiples en la comunidad de aprendizaje de la máquina era de naturaleza algorítmica, y se aplica a métodos tales como redes neuronales, árboles de decisión y k vecinos -nearest en la década de 1990. [2] El uso de modelos probabilísticos y procesos gaussianos fue pionero y desarrollado en gran medida en el contexto de la geoestadística, donde la predicción sobre datos de salida con valores vectoriales se conoce como cokriging. [3] [4] [5] Los enfoques geoestadísticos para el modelado multivariante se formulan principalmente en torno al modelo lineal de corregionalización (LMC), un enfoque generativo para desarrollar funciones de covarianza válidas que se ha utilizado para la regresión multivariante y en estadísticas para la emulación por computadora de costosos códigos informáticos multivariados. La literatura sobre regularización y teoría del kernel para funciones con valores vectoriales siguió en la década de 2000. [6] [7] Si bien las perspectivas bayesiana y de regularización se desarrollaron de forma independiente, de hecho están estrechamente relacionadas. [8]
Notación
En este contexto, el problema del aprendizaje supervisado es aprender la función que predice mejor las salidas con valores vectoriales entradas dadas (datos) .
- por
- , un espacio de entrada (p. ej. )
En general, cada componente de (), podría tener diferentes datos de entrada () con diferente cardinalidad () e incluso diferentes espacios de entrada (). [8] La literatura geoestadística llama a este caso heterotópico y usa isotópico para indicar que cada componente del vector de salida tiene el mismo conjunto de entradas. [9]
Aquí, para simplificar la notación, asumimos que el número y el espacio muestral de los datos para cada salida son los mismos.
Perspectiva de regularización [8] [10] [11]
Desde la perspectiva de la regularización, el problema es aprender perteneciente a un espacio de Hilbert del núcleo de reproducción de funciones con valores vectoriales (). Esto es similar al caso escalar de la regularización de Tikhonov , con algo de cuidado adicional en la notación.
Caso valuado por vectores | Caso escalar | |
---|---|---|
Reproduciendo kernel | ||
Problema de aprendizaje | ||
Solución (derivada mediante el teorema del representante) | con , |
Resolver tomando la derivada del problema de aprendizaje, poniéndola igual a cero y sustituyendo en la expresión anterior por : dónde |
Es posible, aunque no trivial, mostrar que un teorema del representador también es válido para la regularización de Tikhonov en la configuración de valores vectoriales. [8]
Tenga en cuenta que el kernel con valores matriciales también puede ser definido por un kernel escalar en el espacio . Existe una isometría entre los espacios de Hilbert asociados con estos dos núcleos:
Perspectiva del proceso gaussiano
El estimador del marco de regularización con valores vectoriales también puede derivarse de un punto de vista bayesiano utilizando métodos de proceso gaussianos en el caso de un espacio de Hilbert del núcleo de reproducción de dimensión finita . La derivación es similar a la interpretación bayesiana de regularización en caso de valores escalares . La función con valores vectoriales, que consiste en salidas , se supone que sigue un proceso gaussiano:
dónde ahora es un vector de las funciones medias para las salidas y es una función con valores de matriz definida positiva con entrada correspondiente a la covarianza entre las salidas y .
Para un conjunto de entradas , la distribución previa sobre el vector es dado por , dónde es un vector que concatena los vectores medios asociados a las salidas y es una matriz dividida en bloques. La distribución de las salidas se considera gaussiana:
dónde es una matriz diagonal con elementos especificando el ruido para cada salida. Usando esta forma para la probabilidad, la distribución predictiva para un nuevo vector es:
dónde son los datos de entrenamiento, y es un conjunto de hiperparámetros para y .
Ecuaciones para y luego se puede obtener:
dónde tiene entradas por y . Tenga en cuenta que el predictores idéntico al predictor derivado del marco de regularización. Para las verosimilitudes no gaussianas, se necesitan diferentes métodos, como la aproximación de Laplace y los métodos variacionales, para aproximar los estimadores.
Núcleos de ejemplo
Separable
Una clase simple, pero de amplia aplicación, de kernels de múltiples salidas se puede separar en el producto de un kernel en el espacio de entrada y un kernel que representa las correlaciones entre las salidas: [8]
- : kernel escalar en
- : kernel escalar en
En forma de matriz: dónde es un matriz semidefinida simétrica y positiva. Nota, ajuste a la matriz de identidad trata las salidas como no relacionadas y es equivalente a resolver los problemas de salida escalar por separado.
Para una forma un poco más general, la adición de varios de estos núcleos produce la suma de los núcleos separables (núcleos SoS).
De la literatura de regularización [8] [10] [12] [13] [14]
Derivado de regularizador
Una forma de obtener es especificar un regularizador que limite la complejidad dede una manera deseable, y luego derivar el kernel correspondiente. Para ciertos regularizadores, este núcleo resultará separable.
Regularizador de efectos mixtos
dónde:
dónde matriz con todas las entradas iguales a 1.
Este regularizador es una combinación de limitar la complejidad de cada componente del estimador () y obligando a cada componente del estimador a estar cerca de la media de todos los componentes. Configuracióntrata todos los componentes como independientes y es lo mismo que resolver los problemas escalares por separado. Configuración asume que todos los componentes son explicados por la misma función.
Regularizador basado en clústeres
dónde:
- es el conjunto de índices de componentes que pertenecen al clúster
- es la cardinalidad del racimo
- Si y ambos pertenecen al clúster ( de lo contrario
dónde
Este regularizador divide los componentes en agrupa y obliga a que los componentes de cada grupo sean similares.
Regularizador de gráficos
dónde Matriz de pesos que codifica las similitudes entre los componentes.
dónde ,
Nota, es el grafo laplaciano . Ver también: kernel de gráfico .
Aprendido de los datos
Varios enfoques de aprendizaje a partir de los datos se han propuesto. [8] Estos incluyen: realizar un paso de inferencia preliminar para estimara partir de los datos de entrenamiento, [9] una propuesta para aprender y juntos, basados en el regularizador de conglomerados, [15] y enfoques basados en la dispersión que asumen que solo se necesitan algunas de las características. [16] [17]
De la literatura bayesiana
Modelo lineal de corregionalización (LMC)
En LMC, las salidas se expresan como combinaciones lineales de funciones aleatorias independientes de modo que la función de covarianza resultante (sobre todas las entradas y salidas) es una función semidefinida positiva válida. Asumiendo salidas con , cada se expresa como:
dónde son coeficientes escalares y las funciones independientes tienen media cero y covarianza cov Si y 0 en caso contrario. La covarianza cruzada entre dos funciones cualesquiera y luego se puede escribir como:
donde las funciones , con y tienen media cero y covarianza cov Si y . Pero es dado por . Por lo tanto, el kernel ahora se puede expresar como
donde cada se conoce como matriz de corregionalización. Por lo tanto, el kernel derivado de LMC es una suma de los productos de dos funciones de covarianza, una que modela la dependencia entre las salidas, independientemente del vector de entrada. (la matriz de corregionalización ), y uno que modela la dependencia de entrada, independientemente de (la función de covarianza ).
Modelo de corregionalización intrínseca (ICM)
El ICM es una versión simplificada del LMC, con . ICM asume que los elementos de la matriz de corregionalización Se puede escribir como , para algunos coeficientes adecuados . Con este formulario para:
dónde
En este caso, los coeficientes
y la matriz del núcleo para múltiples salidas se convierte en . ICM es mucho más restrictivo que el LMC ya que asume que cada covarianza básicacontribuye igualmente a la construcción de las autocovarianzas y covarianzas cruzadas para las salidas. Sin embargo, los cálculos necesarios para la inferencia se simplifican enormemente.
Modelo de factor latente semiparamétrico (SLFM)
Otra versión simplificada del LMC es el modelo de factor latente semiparamétrico (SLFM), que corresponde a la configuración (en vez de como en ICM). Así, cada función latente tiene su propia covarianza.
No separable
Si bien es simple, la estructura de los granos separables puede ser demasiado limitante para algunos problemas.
Ejemplos notables de granos no separables en la literatura de regularización incluyen:
- Núcleos cuadráticos exponenciados (EQ) con valores matriciales diseñados para estimar campos vectoriales sin divergencia o sin rizos (o una combinación convexa de los dos) [8] [18]
- Núcleos definidos por transformaciones [8] [19]
En la perspectiva bayesiana , LMC produce un kernel separable porque las funciones de salida evaluadas en un punto sólo dependen de los valores de las funciones latentes en . Una forma no trivial de mezclar las funciones latentes es convolucionar un proceso base con un kernel suavizante. Si el proceso base es un proceso gaussiano, el proceso convolucionado también es gaussiano. Por tanto, podemos aprovechar las convoluciones para construir funciones de covarianza. [20] Este método de producción de granos no separables se conoce como convolución de proceso. Las convoluciones de procesos se introdujeron para múltiples salidas en la comunidad de aprendizaje automático como "procesos gaussianos dependientes". [21]
Implementación
Al implementar un algoritmo utilizando cualquiera de los núcleos anteriores, se deben considerar consideraciones prácticas para ajustar los parámetros y asegurar un tiempo de cálculo razonable.
Perspectiva de regularización
Enfocado desde la perspectiva de la regularización, el ajuste de parámetros es similar al caso con valores escalares y generalmente se puede lograr con validación cruzada . Resolver el sistema lineal requerido suele ser costoso en memoria y tiempo. Si el kernel es separable, una transformación de coordenadas puede convertira una matriz de bloque-diagonal , reduciendo en gran medida la carga computacional al resolver D subproblemas independientes (más la descomposición propia de). En particular, para una función de pérdida por mínimos cuadrados (regularización de Tikhonov), existe una solución de forma cerrada para: [8] [14]
Perspectiva bayesiana
Hay muchos trabajos relacionados con la estimación de parámetros para procesos gaussianos. Algunos métodos, como la maximización de la probabilidad marginal (también conocida como aproximación de evidencia, máxima verosimilitud de tipo II, Bayes empírico) y los mínimos cuadrados dan estimaciones puntuales del vector de parámetros. También hay trabajos que emplean una inferencia bayesiana completa asignando antecedentes ay calcular la distribución posterior mediante un procedimiento de muestreo. Para las probabilidades no gaussianas, no existe una solución de forma cerrada para la distribución posterior o para la probabilidad marginal. Sin embargo, la probabilidad marginal se puede aproximar bajo un marco de aproximación de Laplace, Bayes variacional o propagación de expectativas (EP) para la clasificación de salida múltiple y se puede utilizar para encontrar estimaciones para los hiperparámetros.
El principal problema computacional en el punto de vista bayesiano es el mismo que aparece en la teoría de regularización de la inversión de la matriz.
Este paso es necesario para calcular la probabilidad marginal y la distribución predictiva. Para la mayoría de los métodos de aproximación propuestos para reducir el cálculo, la eficiencia computacional ganada es independiente del método particular empleado (por ejemplo, LMC, convolución del proceso) utilizado para calcular la matriz de covarianza de múltiples salidas. En. [8] se presenta un resumen de diferentes métodos para reducir la complejidad computacional en procesos gaussianos de múltiples salidas. [8]
Referencias
- ^ SJ Pan y Q. Yang, "Una encuesta sobre el aprendizaje por transferencia", IEEE Transactions on Knowledge and Data Engineering, 22, 2010
- ^ Rich Caruana, "Aprendizaje multitarea", Aprendizaje automático, 41–76, 1997
- ^ J. Ver Hoef y R. Barry, " Construcción y ajuste de modelos para cokriging y predicción espacial multivariable ", Journal of Statistical Planning and Inference, 69: 275-294, 1998
- ^ P. Goovaerts, "Geoestadística para la evaluación de recursos naturales", Oxford University Press, Estados Unidos, 1997
- ^ N. Cressie "Estadísticas para datos espaciales", John Wiley & Sons Inc. (edición revisada), Estados Unidos, 1993
- ^ CA Micchelli y M. Pontil, " Sobre el aprendizaje de funciones con valores vectoriales ", Computación neuronal, 17: 177-204, 2005
- ^ C. Carmeli et al., " Vector valorado que reproduce los espacios de hilbert del núcleo de funciones integrables y el teorema de Mercer ", Anal. Apl. (Singapur), 4
- ^ a b c d e f g h i j k Mauricio A. Álvarez, Lorenzo Rosasco y Neil D. Lawrence, "Kernels for Vector-Valued Functions: A Review," Fundamentos y tendencias en el aprendizaje automático 4, no. 3 (2012): 195–266. doi: 10.1561 / 2200000036 arXiv: 1106.6251
- ^ a b Hans Wackernagel. Geoestadística multivariante. Springer-Verlag Heidelberg Nueva York, 2003.
- ^ a b C.A. Micchelli y M. Pontil. Sobre el aprendizaje de funciones valoradas por vectores. Computación neuronal, 17: 177-204, 2005.
- ^ C.Carmeli, E.DeVito y A.Toigo. Valor vectorial que reproduce los espacios de Hilbert del núcleo de funciones integrables y el teorema de Mercer. Anal. Apl. (Singapur), 4 (4): 377–408, 2006.
- ^ CA Micchelli y M. Pontil. Núcleos para el aprendizaje multitarea. Avances en sistemas de procesamiento de información neuronal (NIPS). Prensa del MIT, 2004.
- ^ T.Evgeniou, CAMicchelli y M.Pontil. Aprendizaje de múltiples tareas con métodos de kernel . Journal of Machine Learning Research, 6: 615–637, 2005.
- ^ a b L. Baldassarre, L. Rosasco, A. Barla y A. Verri. Aprendizaje de múltiples salidas mediante filtrado espectral . Informe técnico, Instituto de Tecnología de Massachusetts, 2011. MIT-CSAIL-TR-2011-004, CBCL-296.
- ^ Laurent Jacob, Francis Bach y Jean-Philippe Vert. Aprendizaje multitarea agrupado: una formulación convexa . En NIPS 21, páginas 745–752, 2008.
- ^ Andreas Argyriou, Theodoros Evgeniou y Massimiliano Pontil. Aprendizaje convexo de funciones multitarea. Aprendizaje automático, 73 (3): 243–272, 2008.
- ^ Andreas Argyriou, Andreas Maurer y Massimiliano Pontil. Un algoritmo de transferencia de aprendizaje en un entorno heterogéneo. En ECML / PKDD (1), páginas 71–85, 2008.
- ^ I. Maceˆdo y R. Castro. Aprendizaje de campos vectoriales sin divergencias y sin curvaturas con núcleos con valores matriciales. Informe técnico, Instituto Nacional de Matematica Pura e Aplicada, 2008.
- ^ A. Caponnetto, CA Micchelli, M. Pontil e Y. Ying. Núcleos universales para el aprendizaje multitarea. Journal of Machine Learning Research, 9: 1615–1646, 2008.
- ^ D. Higdon, "Modelado de espacio y espacio-tiempo utilizando convoluciones de proceso, métodos cuantitativos para problemas ambientales actuales, 37-56, 2002
- ^ P. Boyle y M. Frean, " Procesos gaussianos dependientes , Avances en los sistemas de procesamiento de información neuronal, 17: 217-224, MIT Press, 2005