La regularización estructurada de la escasez es una clase de métodos, y un área de investigación en la teoría del aprendizaje estadístico , que amplían y generalizan los métodos de aprendizaje de la regularización de la escasez. [1] Tanto los métodos de regularización de dispersión como los de dispersión estructurada buscan explotar el supuesto de que la variable de salida(es decir, respuesta o variable dependiente ) a aprender se puede describir mediante un número reducido de variables en el espacio de entrada(es decir, el dominio , espacio de características o variables explicativas ). Los métodos de regularización de la dispersión se centran en seleccionar las variables de entrada que mejor describen la salida. Los métodos estructurados de regularización de escasez generalizan y extienden los métodos de regularización de escasez, al permitir una selección óptima sobre estructuras como grupos o redes de variables de entrada en. [2] [3]
La motivación común para el uso de métodos estructurados de dispersión son la interpretabilidad del modelo, el aprendizaje de alta dimensión (donde la dimensionalidad de puede ser mayor que el número de observaciones ) y reducción de la complejidad computacional . [4] Además, los métodos estructurados de dispersión permiten incorporar supuestos previos sobre la estructura de las variables de entrada, como grupos superpuestos, [2] grupos no superpuestos y gráficos acíclicos. [3] Ejemplos de usos de métodos estructurados de escasez incluyen reconocimiento facial, [5] procesamiento de imágenes por resonancia magnética (MRI) , [6] análisis sociolingüístico en el procesamiento del lenguaje natural, [7] y análisis de la expresión genética en el cáncer de mama. [8]
Regularización de escasez
Considere el problema de minimización del riesgo empírico regularizado del núcleo lineal con una función de pérdida y el "norma" como penalización por regularización:
dónde , y denota el "norma", definida como el número de entradas distintas de cero del vector . se dice que es escaso si . Lo que significa que la salida se puede describir mediante un pequeño subconjunto de variables de entrada.
De manera más general, suponga un diccionario con se da, de modo que la función de destino de un problema de aprendizaje se puede escribir como:
- ,
La norma como el número de componentes distintos de cero de Se define como
- , dónde es la cardinalidad del conjunto .
se dice que es escaso si .
Sin embargo, mientras usa el La norma para regularización favorece soluciones más dispersas, es computacionalmente difícil de usar y además no es convexa. Una norma computacionalmente más factible que favorece soluciones más dispersas es lanorma; se ha demostrado que esto favorece aún las soluciones más dispersas y, además, es convexo. [4]
Regularización estructurada de escasez
La regularización de escasez estructurada extiende y generaliza el problema de selección de variables que caracteriza a la regularización de escasez. [2] [3] Considere el problema de minimización de riesgo empírico regularizado anterior con un kernel general y un mapa de características asociado con .
El plazo de regularización penaliza a cada uno componente de forma independiente, lo que significa que el algoritmo suprimirá las variables de entrada de forma independiente entre sí.
En varias situaciones, es posible que deseemos imponer más estructura en el proceso de regularización, de modo que, por ejemplo, las variables de entrada se supriman según grupos predefinidos. Los métodos estructurados de regularización de escasez permiten imponer dicha estructura agregando estructura a las normas que definen el plazo de regularización.
Estructuras y normas
Grupos no superpuestos: grupo Lasso
El caso de grupo no superpuesto es el ejemplo más básico de escasez estructurada. En él, una partición a priori del vector de coeficientes en Se supone que los grupos no se superponen. Dejar ser el vector de coeficientes en grupo , podemos definir un término de regularización y su norma de grupo como
- ,
dónde es el grupo norma , es grupo , y es el j-ésimo componente del grupo.
La norma anterior también se conoce como lazo de grupo . [2] Este regularizador forzará grupos completos de coeficientes hacia cero, en lugar de coeficientes individuales. Como los grupos no se superponen, el conjunto de coeficientes distintos de cero se puede obtener como la unión de los grupos que no se establecieron en cero y, a la inversa, para el conjunto de coeficientes cero.
Grupos superpuestos
La superposición de grupos es el caso de escasez de estructura en el que una variable puede pertenecer a más de un grupo. . Este caso es a menudo de interés, ya que puede representar una clase más general de relaciones entre variables que los grupos que no se superponen, como estructuras de árbol u otro tipo de gráficos. [3] [8]
Hay dos tipos de enfoques de regularización de dispersión de grupos superpuestos, que se utilizan para modelar diferentes tipos de relaciones de variables de entrada:
Intersección de complementos: grupo Lasso
El enfoque de intersección de complementos se utiliza en los casos en que queremos seleccionar solo aquellas variables de entrada que tienen coeficientes positivos en todos los grupos a los que pertenecen. Considere nuevamente el grupo Lasso para un problema de minimización de riesgo empírico regularizado :
- ,
dónde es el grupo norma, es grupo , y es el j-ésimo componente del grupo.
Como en el caso de los grupos no superpuestos, el regularizador Lasso de grupo potencialmente establecerá grupos enteros de coeficientes en cero. Las variables seleccionadas son aquellas con coeficientes. Sin embargo, como en este caso los grupos pueden superponerse, tomamos la intersección de los complementos de aquellos grupos que no se establecen en cero.
Esta intersección de criterios de selección de complementos implica la elección del modelo de permitir algunos coeficientes dentro de un grupo en particular. a cero, mientras que otros dentro del mismo grupo puede seguir siendo positivo. En otras palabras, los coeficientes dentro de un grupo pueden diferir dependiendo de las diversas pertenencias a grupos que pueda tener cada variable dentro del grupo.
Unión de grupos: grupo latente Lasso
Un enfoque diferente es considerar la unión de grupos para la selección de variables. Este enfoque captura la situación de modelado en la que se pueden seleccionar variables siempre que pertenezcan al menos a un grupo con coeficientes positivos. Esta perspectiva de modelado implica que queremos preservar la estructura del grupo.
La formulación del enfoque de unión de grupos también se conoce como Lazo de grupo latente , y requiere modificar el gruponorma considerada anteriormente e introduzca el siguiente regularizador [3]
dónde , es el vector de coeficientes del grupo g, y es un vector con coeficientes para todas las variables en grupo , y en todos los demás, es decir, Si en grupo y de lo contrario.
Este regularizador puede interpretarse como una replicación efectiva de variables que pertenecen a más de un grupo, conservando así la estructura del grupo. Según lo previsto por el enfoque de unión de grupos, requiriendo produce un vector de ponderaciones w que suma efectivamente las ponderaciones de todas las variables en todos los grupos a los que pertenecen.
Problemas con la regularización de Group Lasso y enfoques alternativos
La función objetivo que usa el lazo de grupo consiste en una función de error, que generalmente se requiere que sea convexa pero no necesariamente muy convexa, y un grupo plazo de regularización. Un problema con esta función objetivo es que es convexa pero no necesariamente muy convexa y, por lo tanto, generalmente no conduce a soluciones únicas. [9]
Un ejemplo de una forma de solucionar este problema es introducir el cuadrado norma del vector de peso como un término de regularización adicional manteniendo el término de regularización del enfoque de lazo grupal. [9] Si el coeficiente del cuadrado el término de la norma es mayor que , entonces porque el cuadrado El término norma es fuertemente convexo, la función objetivo resultante también será fuertemente convexa. [9] Siempre que el El coeficiente es adecuadamente pequeño pero aún positivo, el vector de peso que minimiza la función objetivo resultante generalmente está muy cerca de un vector de peso que minimiza la función objetivo que resultaría de eliminar el grupo. término de regularización en conjunto de la función objetivo original; el último escenario corresponde al enfoque grupal de Lasso. [9] Por lo tanto, este enfoque permite una optimización más simple mientras se mantiene la escasez. [9]
Normas basadas en la estructura sobre variables de entrada
Ver: función de conjunto submodular
Además de las normas discutidas anteriormente, otras normas utilizadas en métodos estructurados de dispersión incluyen normas jerárquicas y normas definidas en cuadrículas. Estas normas surgen de funciones submodulares y permiten incorporar supuestos previos sobre la estructura de las variables de entrada. En el contexto de las normas jerárquicas, esta estructura se puede representar como un gráfico acíclico dirigido sobre las variables, mientras que en el contexto de las normas basadas en cuadrículas, la estructura se puede representar mediante una cuadrícula. [10] [11] [12] [13] [14] [15]
Normas jerárquicas
Ver: aprendizaje no supervisado
Los métodos de aprendizaje no supervisados se utilizan a menudo para aprender los parámetros de los modelos de variables latentes . Los modelos de variables latentes son modelos estadísticos donde además de las variables observadas, también existe un conjunto de variables latentes que no se observan. A menudo, en tales modelos, se asumen "jerarquías" entre las variables del sistema; este sistema de jerarquías se puede representar mediante gráficos acíclicos dirigidos.
Las jerarquías de variables latentes han surgido como una estructura natural en varias aplicaciones, en particular para modelar documentos de texto. [11] Se han utilizado modelos jerárquicos que utilizan métodos bayesianos no paramétricos para aprender modelos de temas , [10] que son modelos estadísticos para descubrir los "temas" abstractos que ocurren en una colección de documentos. Las jerarquías también se han considerado en el contexto de los métodos del kernel. [13] Se han aplicado normas jerárquicas a la bioinformática, [12] la visión por computadora y los modelos de temas. [14]
Normas definidas en cuadrículas
Si la estructura asumida sobre las variables tiene la forma de una cuadrícula 1D, 2D o 3D, entonces las funciones submodulares basadas en grupos superpuestos pueden considerarse como normas, dando lugar a conjuntos estables iguales a formas rectangulares o convexas. [13] Estos métodos tienen aplicaciones en la visión por computadora [15]
Algoritmos de cálculo
Mejor problema de selección de subconjuntos
El problema de elegir el mejor subconjunto de variables de entrada puede formularse naturalmente bajo un marco de penalización como: [4]
Dónde denota el "norma", definida como el número de entradas distintas de cero del vector .
Aunque esta formulación tiene sentido desde una perspectiva de modelado, es computacionalmente inviable, ya que equivale a una búsqueda exhaustiva que evalúa todos los posibles subconjuntos de variables. [4]
Dos enfoques principales para resolver el problema de optimización son: 1) métodos codiciosos, como la regresión escalonada en las estadísticas o la búsqueda de coincidencias en el procesamiento de señales ; y 2) enfoques de formulación de relajación convexa y métodos de optimización de gradiente proximal .
Relajación convexa
Una aproximación natural para el mejor problema de selección de subconjuntos es la regularización de normas: [4]
Tal esquema se llama seguimiento de base o el Lazo , que sustituye al "norma" para lo convexo, no diferenciable norma.
Métodos de gradiente proximal
Los métodos de gradiente proximal , también llamados división hacia adelante-hacia atrás, son métodos de optimización útiles para minimizar funciones con un componente convexo y diferenciable , y un componente convexo potencialmente no diferenciable.
Como tal, los métodos de gradiente proximal son útiles para resolver problemas de regularización de escasez y escasez estructurada [9] de la siguiente forma:
Dónde es una función de pérdida convexa y diferenciable como la pérdida cuadrática , y es un regularizador convexo potencialmente no diferenciable como el norma.
Conexiones con otras áreas del aprendizaje automático
Conexión al aprendizaje de múltiples núcleos
La regularización estructurada de dispersión se puede aplicar en el contexto del aprendizaje de múltiples núcleos . [16] El aprendizaje de múltiples núcleos se refiere a un conjunto de métodos de aprendizaje automático que utilizan un conjunto predefinido de núcleos y aprenden una combinación óptima lineal o no lineal de núcleos como parte del algoritmo.
En los algoritmos mencionados anteriormente, se tuvo en cuenta todo un espacio a la vez y se dividió en grupos, es decir, subespacios. Un punto de vista complementario es considerar el caso en el que distintos espacios se combinan para obtener uno nuevo. Es útil discutir esta idea considerando diccionarios finitos. Los diccionarios finitos con elementos linealmente independientes (estos elementos también se conocen como átomos) se refieren a conjuntos finitos de funciones de base linealmente independientes, cuyas combinaciones lineales definen espacios de hipótesis. Se pueden usar diccionarios finitos para definir núcleos específicos, como se mostrará. [16] Suponga para este ejemplo que en lugar de un solo diccionario, se consideran varios diccionarios finitos.
Para simplificar, el caso en el que solo hay dos diccionarios y dónde y son números enteros, se considerarán. Los átomos en así como los átomos en se supone que son linealmente independientes. Dejarserá la unión de los dos diccionarios. Considere el espacio lineal de funciones dado por combinaciones lineales de la forma
para algunos vectores de coeficiente , dónde . Suponga que los átomos en para seguir siendo linealmente independiente, o de manera equivalente, que el mapa es uno a uno. Las funciones en el espacio puede verse como las sumas de dos componentes, uno en el espacio , las combinaciones lineales de átomos en y uno en , las combinaciones lineales de los átomos en .
Una elección de norma en este espacio es . Tenga en cuenta que ahora podemos ver como un espacio funcional en el que , son subespacios. En vista del supuesto de independencia lineal, se puede identificar con y con respectivamente. La norma mencionada anteriormente puede verse como la norma de grupo enasociado a los subespacios , , proporcionando una conexión con la regularización estructurada de escasez.
Aquí, , y puede verse como la reproducción de los espacios de Hilbert del núcleo con los correspondientes mapas de características , dada por , , dada por , y , dado por la concatenación de , respectivamente.
En el enfoque de regularización estructurada de la dispersión para este escenario, los grupos relevantes de variables que las normas de grupo consideran corresponden a los subespacios y . Este enfoque promueve establecer los grupos de coeficientes correspondientes a estos subespacios en cero en lugar de solo coeficientes individuales, lo que promueve el aprendizaje disperso de múltiples núcleos.
El razonamiento anterior se generaliza directamente a cualquier número finito de diccionarios o mapas de características. Se puede extender a mapas de características que inducen hipótesis de dimensión infinita.
espacios. [dieciséis]
Cuando el aprendizaje disperso de varios núcleos es útil
Considerar el aprendizaje escaso de múltiples núcleos es útil en varias situaciones, incluidas las siguientes:
- Fusión de datos: cuando cada kernel corresponde a un tipo diferente de modalidad / característica.
- Selección de variables no lineales: considere los núcleos dependiendo solo de una dimensión de la entrada.
Generalmente, el aprendizaje disperso de múltiples núcleos es particularmente útil cuando hay muchos núcleos y la selección e interpretación del modelo son importantes. [dieciséis]
Usos y aplicaciones adicionales
Los métodos de regularización estructurada de escasez se han utilizado en una serie de entornos en los que se desea imponer una estructura de variable de entrada a priori al proceso de regularización. Algunas de estas aplicaciones son:
- Detección de compresión en imágenes por resonancia magnética (IRM), que reconstruye imágenes de resonancia magnética a partir de un pequeño número de mediciones, lo que puede producir reducciones significativas en el tiempo de exploración por resonancia magnética [6].
- Reconocimiento facial robusto en presencia de desalineación, oclusión y variación de iluminación [5]
- Descubrir asociaciones sociolingüísticas entre las frecuencias léxicas utilizadas por los autores de Twitter y las variables sociodemográficas de sus comunidades geográficas [7]
- Análisis de selección de genes de datos de cáncer de mama utilizando antecedentes de grupos superpuestos, p. Ej., Conjuntos de genes biológicamente significativos [8]
Ver también
- Teoría del aprendizaje estadístico
- Regularización
- Aproximación escasa
- Métodos de gradiente proximal
- Análisis convexo
- Selección de características
Referencias
- ↑ Rosasco, Lorenzo; Poggio, Tomasso (diciembre de 2014). "Un Tour de Regularización del Aprendizaje Automático". Notas de conferencias MIT-9.520 .
- ^ a b c d Yuan, M .; Lin, Y. (2006). "Selección y estimación de modelos en regresión con variables agrupadas". JR Stat. Soc. B . 68 (1): 49–67. CiteSeerX 10.1.1.79.2062 . doi : 10.1111 / j.1467-9868.2005.00532.x .
- ^ a b c d e Obozinski, G .; Laurent, J .; Vert, J.-P. (2011). "Lazo de grupo con superposiciones: el enfoque de lazo de grupo latente". arXiv : 1110.0413 [ stat.ML ].
- ^ a b c d e L. Rosasco. Clase 10 de las notas de la conferencia para 9.520: Teoría y aplicaciones del aprendizaje estadístico. Massachusetts Institute of Technology, otoño de 2014. Disponible en https://www.mit.edu/~9.520/fall14/slides/class18/class18_sparsity.pdf
- ^ a b Jia, Kui; et al. (2012). "Reconocimiento facial robusto y práctico a través de la escasez estructurada". Cite journal requiere
|journal=
( ayuda ) - ^ a b Chen, Chen; et al. (2012). "Resonancia magnética de detección compresiva con escasez de árboles de ondas" . Actas de la 26ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural . Asociados Curran. págs. 1115–1123.
- ^ a b Eisenstein, Jacob; et al. (2011). "Descubriendo asociaciones sociolingüísticas con escasez estructurada". Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional .
- ^ a b c Jacob, Laurent; et al. (2009). "Lazo de grupo con superposición y lazo de gráfico". Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático .
- ^ a b c d e f Villa, S .; Rosasco, L .; Mosci, S .; Verri, A. (2012). "Métodos proximales para la pena de lazo de grupo latente". arXiv : 1209.0368 [ math.OC ].
- ^ a b Blei, D., Ng, A. y Jordan, M. Asignación de dirichlet latente. J. Mach. Aprender. Res., 3: 993–1022, 2003.
- ^ a b Bengio, Y. "Aprendizaje de arquitecturas profundas para IA". Fundamentos y tendencias en el aprendizaje automático, 2 (1), 2009.
- ^ a b S. Kim y E. Xing. Lasso grupal guiado por árboles para regresión multitarea con escasez estructurada. En Proc. ICML, 2010.
- ^ a b c Jenatton, Rodolphe; Audibert, Jean-Yves; Bach, Francis (2011). "Selección de variable estructurada con normas inductoras de escasez". Revista de investigación sobre aprendizaje automático . 12 (2011): 2777–2824. arXiv : 0904.3523 . Código bibliográfico : 2009arXiv0904.3523J .
- ^ a b R. Jenatton, J. Mairal, G. Obozinski y F. Bach. Métodos proximales para el aprendizaje escaso de diccionarios jerárquicos. En Proc. ICML, 2010.
- ^ a b R. Jenatton, G. Obozinski y F. Bach. Análisis estructurado de componentes principales dispersos. En Proc. AISTATS , 2009.
- ^ a b c d Rosasco, Lorenzo; Poggio, Tomaso (otoño de 2015). "Notas del curso MIT 9.520 Otoño de 2015, capítulo 6". Cite journal requiere
|journal=
( ayuda )