Regularización estructurada de escasez

La regularización estructurada de la escasez es una clase de métodos, y un área de investigación en la teoría del aprendizaje estadístico , que amplían y generalizan los métodos de aprendizaje de la regularización de la escasez. ^[1] Tanto los métodos de regularización de dispersión como los de dispersión estructurada buscan explotar el supuesto de que la variable de salida ${\ Displaystyle Y}$ (es decir, respuesta o variable dependiente ) a aprender se puede describir mediante un número reducido de variables en el espacio de entrada ${\ Displaystyle X}$ (es decir, el dominio , espacio de características o variables explicativas ). Los métodos de regularización de la dispersión se centran en seleccionar las variables de entrada que mejor describen la salida. Los métodos estructurados de regularización de escasez generalizan y extienden los métodos de regularización de escasez, al permitir una selección óptima sobre estructuras como grupos o redes de variables de entrada en ${\ Displaystyle X}$ . ^[2]^[3]

La motivación común para el uso de métodos estructurados de dispersión son la interpretabilidad del modelo, el aprendizaje de alta dimensión (donde la dimensionalidad de ${\ Displaystyle X}$ puede ser mayor que el número de observaciones ${\ Displaystyle n}$ ) y reducción de la complejidad computacional . ^[4] Además, los métodos estructurados de dispersión permiten incorporar supuestos previos sobre la estructura de las variables de entrada, como grupos superpuestos, ^[2] grupos no superpuestos y gráficos acíclicos. ^[3] Ejemplos de usos de métodos estructurados de escasez incluyen reconocimiento facial, ^[5] procesamiento de imágenes por resonancia magnética (MRI) , ^[6] análisis sociolingüístico en el procesamiento del lenguaje natural, ^[7] y análisis de la expresión genética en el cáncer de mama. ^[8]

Definición y conceptos relacionados

Regularización de escasez

Considere el problema de minimización del riesgo empírico regularizado del núcleo lineal con una función de pérdida ${\ Displaystyle V (y_ {i}, f (x))}$ y el ${\ Displaystyle \ ell _ {0}}$ "norma" como penalización por regularización:

{\ Displaystyle \ min _ {w \ in \ mathbb {R} ^ {d}} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, \ langle w, x_ {i} \ rangle) + \ lambda \ | w \ | _ {0},}

dónde ${\ Displaystyle x, w \ in \ mathbb {R ^ {d}}}$ , y ${\ Displaystyle \ | w \ | _ {0}}$ denota el ${\ Displaystyle \ ell _ {0}}$ "norma", definida como el número de entradas distintas de cero del vector ${\ Displaystyle w}$ . ${\ Displaystyle f (x) = \ langle w, x_ {i} \ rangle}$ se dice que es escaso si ${\ Displaystyle \ | w \ | _ {0} = s }>$ . Lo que significa que la salida ${\ Displaystyle Y}$ se puede describir mediante un pequeño subconjunto de variables de entrada.

De manera más general, suponga un diccionario ${\ Displaystyle \ phi _ {j}: X \ flecha derecha \ mathbb {R}}$ con ${\ Displaystyle j = 1, ..., p}$ se da, de modo que la función de destino ${\ Displaystyle f (x)}$ de un problema de aprendizaje se puede escribir como:

{\ Displaystyle f (x) = \ sum _ {j = 1} ^ {p} \ phi _ {j} (x) w_ {j}}

,

{\ Displaystyle \ forall x \ in X}

La ${\ Displaystyle \ ell _ {0}}$ norma ${\ Displaystyle \ | f \ | _ {0} = \ | w \ | _ {0}}$ como el número de componentes distintos de cero de ${\ Displaystyle w}$ Se define como

{\ Displaystyle \ | w \ | _ {0} = | \ {j | w_ {j} \ neq 0, j \ in \ {1, ..., p \} \} |}

, dónde

{\ Displaystyle | A |}

es la cardinalidad del conjunto

{\ Displaystyle A}

.

${\ Displaystyle f}$ se dice que es escaso si ${\ Displaystyle \ | f \ | _ {0} = \ | w \ | _ {0} = s }>$ .

Sin embargo, mientras usa el ${\ Displaystyle \ ell _ {0}}$ La norma para regularización favorece soluciones más dispersas, es computacionalmente difícil de usar y además no es convexa. Una norma computacionalmente más factible que favorece soluciones más dispersas es la ${\ Displaystyle \ ell _ {1}}$ norma; se ha demostrado que esto favorece aún las soluciones más dispersas y, además, es convexo. ^[4]

Regularización estructurada de escasez

La regularización de escasez estructurada extiende y generaliza el problema de selección de variables que caracteriza a la regularización de escasez. ^[2]^[3] Considere el problema de minimización de riesgo empírico regularizado anterior con un kernel general y un mapa de características asociado ${\ Displaystyle \ phi _ {j}: X \ flecha derecha \ mathbb {R}}$ con ${\ Displaystyle j = 1, ..., p}$ .

{\ Displaystyle \ min _ {w \ in \ mathbb {R} ^ {d}} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, \ langle w, \ Phi (x_ {i}) \ rangle) + \ lambda \ | w \ | _ {0},}

El plazo de regularización ${\ Displaystyle \ lambda \ | w \ | _ {0}}$ penaliza a cada uno ${\ Displaystyle w_ {j}}$ componente de forma independiente, lo que significa que el algoritmo suprimirá las variables de entrada de forma independiente entre sí.

En varias situaciones, es posible que deseemos imponer más estructura en el proceso de regularización, de modo que, por ejemplo, las variables de entrada se supriman según grupos predefinidos. Los métodos estructurados de regularización de escasez permiten imponer dicha estructura agregando estructura a las normas que definen el plazo de regularización.

Estructuras y normas

Grupos no superpuestos: grupo Lasso

El caso de grupo no superpuesto es el ejemplo más básico de escasez estructurada. En él, una partición a priori del vector de coeficientes ${\ Displaystyle w}$ en ${\ Displaystyle G}$ Se supone que los grupos no se superponen. Dejar ${\ Displaystyle w_ {g}}$ ser el vector de coeficientes en grupo ${\ Displaystyle g}$ , podemos definir un término de regularización y su norma de grupo como

{\ Displaystyle \ lambda R (w) = \ lambda \ sum _ {g = 1} ^ {G} \ | w_ {g} \ | _ {g}}

,

dónde ${\ Displaystyle \ | w_ {g} \ | _ {g}}$ es el grupo ${\ Displaystyle \ ell _ {2}}$ norma ${\ Displaystyle \ | w_ {g} \ | _ {g} = {\ sqrt {\ sum _ {j = 1} ^ {| G_ {g} |} (w_ {g} ^ {j}) ^ {2 }}}}$ , ${\ Displaystyle G_ {g}}$ es grupo ${\ Displaystyle g}$ , y ${\ Displaystyle w_ {g} ^ {j}}$ es el j-ésimo componente del grupo ${\ Displaystyle G_ {g}}$ .

La norma anterior también se conoce como lazo de grupo . ^[2] Este regularizador forzará grupos completos de coeficientes hacia cero, en lugar de coeficientes individuales. Como los grupos no se superponen, el conjunto de coeficientes distintos de cero se puede obtener como la unión de los grupos que no se establecieron en cero y, a la inversa, para el conjunto de coeficientes cero.

Grupos superpuestos

La superposición de grupos es el caso de escasez de estructura en el que una variable puede pertenecer a más de un grupo. ${\ Displaystyle g}$ . Este caso es a menudo de interés, ya que puede representar una clase más general de relaciones entre variables que los grupos que no se superponen, como estructuras de árbol u otro tipo de gráficos. ^[3]^[8]

Hay dos tipos de enfoques de regularización de dispersión de grupos superpuestos, que se utilizan para modelar diferentes tipos de relaciones de variables de entrada:

Intersección de complementos: grupo Lasso

El enfoque de intersección de complementos se utiliza en los casos en que queremos seleccionar solo aquellas variables de entrada que tienen coeficientes positivos en todos los grupos a los que pertenecen. Considere nuevamente el grupo Lasso para un problema de minimización de riesgo empírico regularizado :

{\ Displaystyle \ lambda R (w) = \ lambda \ sum _ {g = 1} ^ {G} \ | w_ {g} \ | _ {g}}

,

dónde ${\ Displaystyle \ | w_ {g} \ | _ {g}}$ es el grupo ${\ Displaystyle \ ell _ {2}}$ norma, ${\ Displaystyle G_ {g}}$ es grupo ${\ Displaystyle g}$ , y ${\ Displaystyle w_ {g} ^ {j}}$ es el j-ésimo componente del grupo ${\ Displaystyle G_ {g}}$ .

Como en el caso de los grupos no superpuestos, el regularizador Lasso de grupo potencialmente establecerá grupos enteros de coeficientes en cero. Las variables seleccionadas son aquellas con coeficientes ${\ Displaystyle w_ {j}> 0}$ . Sin embargo, como en este caso los grupos pueden superponerse, tomamos la intersección de los complementos de aquellos grupos que no se establecen en cero.

Esta intersección de criterios de selección de complementos implica la elección del modelo de permitir algunos coeficientes dentro de un grupo en particular. ${\ Displaystyle g}$ a cero, mientras que otros dentro del mismo grupo ${\ Displaystyle g}$ puede seguir siendo positivo. En otras palabras, los coeficientes dentro de un grupo pueden diferir dependiendo de las diversas pertenencias a grupos que pueda tener cada variable dentro del grupo.

Unión de grupos: grupo latente Lasso

Un enfoque diferente es considerar la unión de grupos para la selección de variables. Este enfoque captura la situación de modelado en la que se pueden seleccionar variables siempre que pertenezcan al menos a un grupo con coeficientes positivos. Esta perspectiva de modelado implica que queremos preservar la estructura del grupo.

La formulación del enfoque de unión de grupos también se conoce como Lazo de grupo latente , y requiere modificar el grupo ${\ Displaystyle \ ell _ {2}}$ norma considerada anteriormente e introduzca el siguiente regularizador ^[3]

{\ Displaystyle R (w) = inf \ left \ {\ sum _ {g} \ | w_ {g} \ | _ {g}: w = \ sum _ {g = 1} ^ {G} {\ bar { w}} _ {g} \ right \}}

dónde ${\ Displaystyle w \ in {\ mathbb {R ^ {d}}}}$ , ${\ Displaystyle w_ {g} \ in G_ {g}}$ es el vector de coeficientes del grupo g, y ${\ Displaystyle {\ bar {w}} _ {g} \ in {\ mathbb {R ^ {d}}}}$ es un vector con coeficientes ${\ Displaystyle w_ {g} ^ {j}}$ para todas las variables ${\ Displaystyle j}$ en grupo ${\ Displaystyle g}$ , y ${\ Displaystyle 0}$ en todos los demás, es decir, ${\ Displaystyle {\ bar {w}} _ {g} ^ {j} = w_ {g} ^ {j}}$ Si ${\ Displaystyle j}$ en grupo ${\ Displaystyle g}$ y ${\ displaystyle {\ bar {w}} _ {g} ^ {j} = 0}$ de lo contrario.

Este regularizador puede interpretarse como una replicación efectiva de variables que pertenecen a más de un grupo, conservando así la estructura del grupo. Según lo previsto por el enfoque de unión de grupos, requiriendo ${\ Displaystyle w = \ sum _ {g = 1} ^ {G} {\ bar {w}} _ {g}}$ produce un vector de ponderaciones w que suma efectivamente las ponderaciones de todas las variables en todos los grupos a los que pertenecen.

Problemas con la regularización de Group Lasso y enfoques alternativos

La función objetivo que usa el lazo de grupo consiste en una función de error, que generalmente se requiere que sea convexa pero no necesariamente muy convexa, y un grupo ${\ Displaystyle \ ell _ {1}}$ plazo de regularización. Un problema con esta función objetivo es que es convexa pero no necesariamente muy convexa y, por lo tanto, generalmente no conduce a soluciones únicas. ^[9]

Un ejemplo de una forma de solucionar este problema es introducir el cuadrado ${\ Displaystyle \ ell _ {2}}$ norma del vector de peso como un término de regularización adicional manteniendo el ${\ Displaystyle \ ell _ {1}}$ término de regularización del enfoque de lazo grupal. ^[9] Si el coeficiente del cuadrado ${\ Displaystyle \ ell _ {2}}$ el término de la norma es mayor que ${\ Displaystyle 0}$ , entonces porque el cuadrado ${\ Displaystyle \ ell _ {2}}$ El término norma es fuertemente convexo, la función objetivo resultante también será fuertemente convexa. ^[9] Siempre que el ${\ Displaystyle \ ell _ {2}}$ El coeficiente es adecuadamente pequeño pero aún positivo, el vector de peso que minimiza la función objetivo resultante generalmente está muy cerca de un vector de peso que minimiza la función objetivo que resultaría de eliminar el grupo. ${\ Displaystyle \ ell _ {2}}$ término de regularización en conjunto de la función objetivo original; el último escenario corresponde al enfoque grupal de Lasso. ^[9] Por lo tanto, este enfoque permite una optimización más simple mientras se mantiene la escasez. ^[9]

Normas basadas en la estructura sobre variables de entrada

Ver: función de conjunto submodular

Además de las normas discutidas anteriormente, otras normas utilizadas en métodos estructurados de dispersión incluyen normas jerárquicas y normas definidas en cuadrículas. Estas normas surgen de funciones submodulares y permiten incorporar supuestos previos sobre la estructura de las variables de entrada. En el contexto de las normas jerárquicas, esta estructura se puede representar como un gráfico acíclico dirigido sobre las variables, mientras que en el contexto de las normas basadas en cuadrículas, la estructura se puede representar mediante una cuadrícula. ^[10]^[11]^[12]^[13]^[14]^[15]

Normas jerárquicas

Ver: aprendizaje no supervisado

Los métodos de aprendizaje no supervisados se utilizan a menudo para aprender los parámetros de los modelos de variables latentes . Los modelos de variables latentes son modelos estadísticos donde además de las variables observadas, también existe un conjunto de variables latentes que no se observan. A menudo, en tales modelos, se asumen "jerarquías" entre las variables del sistema; este sistema de jerarquías se puede representar mediante gráficos acíclicos dirigidos.

Las jerarquías de variables latentes han surgido como una estructura natural en varias aplicaciones, en particular para modelar documentos de texto. ^[11] Se han utilizado modelos jerárquicos que utilizan métodos bayesianos no paramétricos para aprender modelos de temas , ^[10] que son modelos estadísticos para descubrir los "temas" abstractos que ocurren en una colección de documentos. Las jerarquías también se han considerado en el contexto de los métodos del kernel. ^[13] Se han aplicado normas jerárquicas a la bioinformática, ^[12] la visión por computadora y los modelos de temas. ^[14]

Normas definidas en cuadrículas

Si la estructura asumida sobre las variables tiene la forma de una cuadrícula 1D, 2D o 3D, entonces las funciones submodulares basadas en grupos superpuestos pueden considerarse como normas, dando lugar a conjuntos estables iguales a formas rectangulares o convexas. ^[13] Estos métodos tienen aplicaciones en la visión por computadora ^[15]

Algoritmos de cálculo

Mejor problema de selección de subconjuntos

El problema de elegir el mejor subconjunto de variables de entrada puede formularse naturalmente bajo un marco de penalización como: ^[4]

{\ Displaystyle \ min _ {w \ in \ mathbb {R} ^ {d}} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, w , x_ {i}) + \ lambda \ | w \ | _ {0},}

Dónde ${\ Displaystyle \ | w \ | _ {0}}$ denota el ${\ Displaystyle \ ell _ {0}}$ "norma", definida como el número de entradas distintas de cero del vector ${\ Displaystyle w}$ .

Aunque esta formulación tiene sentido desde una perspectiva de modelado, es computacionalmente inviable, ya que equivale a una búsqueda exhaustiva que evalúa todos los posibles subconjuntos de variables. ^[4]

Dos enfoques principales para resolver el problema de optimización son: 1) métodos codiciosos, como la regresión escalonada en las estadísticas o la búsqueda de coincidencias en el procesamiento de señales ; y 2) enfoques de formulación de relajación convexa y métodos de optimización de gradiente proximal .

Relajación convexa

Una aproximación natural para el mejor problema de selección de subconjuntos es la ${\ Displaystyle \ ell _ {1}}$ regularización de normas: ^[4]

{\ Displaystyle \ min _ {w \ in \ mathbb {R} ^ {d}} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, w , x_ {i}) + \ lambda \ | w \ | _ {1}}

Tal esquema se llama seguimiento de base o el Lazo , que sustituye al ${\ Displaystyle \ ell _ {0}}$ "norma" para lo convexo, no diferenciable ${\ Displaystyle \ ell _ {1}}$ norma.

Métodos de gradiente proximal

Los métodos de gradiente proximal , también llamados división hacia adelante-hacia atrás, son métodos de optimización útiles para minimizar funciones con un componente convexo y diferenciable , y un componente convexo potencialmente no diferenciable.

Como tal, los métodos de gradiente proximal son útiles para resolver problemas de regularización de escasez y escasez estructurada ^[9] de la siguiente forma:

{\ Displaystyle \ min _ {w \ in \ mathbb {R} ^ {d}} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, w , x_ {i}) + R (w)}

Dónde ${\ Displaystyle V (y_ {i}, w, x_ {i})}$ es una función de pérdida convexa y diferenciable como la pérdida cuadrática , y ${\ Displaystyle R (w)}$ es un regularizador convexo potencialmente no diferenciable como el ${\ Displaystyle \ ell _ {1}}$ norma.

Conexiones con otras áreas del aprendizaje automático

Conexión al aprendizaje de múltiples núcleos

La regularización estructurada de dispersión se puede aplicar en el contexto del aprendizaje de múltiples núcleos . ^[16] El aprendizaje de múltiples núcleos se refiere a un conjunto de métodos de aprendizaje automático que utilizan un conjunto predefinido de núcleos y aprenden una combinación óptima lineal o no lineal de núcleos como parte del algoritmo.

En los algoritmos mencionados anteriormente, se tuvo en cuenta todo un espacio a la vez y se dividió en grupos, es decir, subespacios. Un punto de vista complementario es considerar el caso en el que distintos espacios se combinan para obtener uno nuevo. Es útil discutir esta idea considerando diccionarios finitos. Los diccionarios finitos con elementos linealmente independientes (estos elementos también se conocen como átomos) se refieren a conjuntos finitos de funciones de base linealmente independientes, cuyas combinaciones lineales definen espacios de hipótesis. Se pueden usar diccionarios finitos para definir núcleos específicos, como se mostrará. ^[16] Suponga para este ejemplo que en lugar de un solo diccionario, se consideran varios diccionarios finitos.

Para simplificar, el caso en el que solo hay dos diccionarios ${\ Displaystyle A = \ {a_ {j}: X \ rightarrow \ mathbb {R}, j = 1, ..., p \}}$ y ${\ Displaystyle B = \ {b_ {t}: X \ rightarrow \ mathbb {R}, t = 1, ..., q \}}$ dónde ${\ Displaystyle q}$ y ${\ Displaystyle p}$ son números enteros, se considerarán. Los átomos en ${\ Displaystyle A}$ así como los átomos en ${\ Displaystyle B}$ se supone que son linealmente independientes. Dejar ${\ Displaystyle D = \ {d_ {k}: X \ rightarrow \ mathbb {R}, k = 1, ..., p + q \} = A \ cup B}$ será la unión de los dos diccionarios. Considere el espacio lineal de funciones ${\ Displaystyle H}$ dado por combinaciones lineales de la forma

${\ Displaystyle f (x) = \ sum _ {i = 1} ^ {p + q} {w ^ {j} d_ {j} (x)} = \ sum _ {j = 1} ^ {p} { w_ {A} ^ {j} a_ {j} (x)} + \ sum _ {t = 1} ^ {q} {w_ {B} ^ {t} b_ {t} (x)}, x \ in X}$

para algunos vectores de coeficiente ${\ Displaystyle w_ {A} \ in \ mathbb {R} ^ {p}, w_ {B} \ in \ mathbb {R} ^ {q}}$ , dónde ${\ Displaystyle w = (w_ {A}, w_ {B})}$ . Suponga que los átomos en ${\ Displaystyle D}$ para seguir siendo linealmente independiente, o de manera equivalente, que el mapa ${\ Displaystyle w = (w_ {A}, w_ {B}) \ mapsto f}$ es uno a uno. Las funciones en el espacio ${\ Displaystyle H}$ puede verse como las sumas de dos componentes, uno en el espacio ${\ Displaystyle H_ {A}}$ , las combinaciones lineales de átomos en ${\ Displaystyle A}$ y uno en ${\ Displaystyle H_ {B}}$ , las combinaciones lineales de los átomos en ${\ Displaystyle B}$ .

Una elección de norma en este espacio es ${\ Displaystyle || f || = || w_ {A} || + || w_ {B} ||}$ . Tenga en cuenta que ahora podemos ver ${\ Displaystyle H}$ como un espacio funcional en el que ${\ Displaystyle H_ {A}}$ , ${\ Displaystyle H_ {B}}$ son subespacios. En vista del supuesto de independencia lineal, ${\ Displaystyle H}$ se puede identificar con ${\ Displaystyle \ mathbb {R} ^ {p + q}}$ y ${\ Displaystyle H_ {A}, H_ {B}}$ con ${\ Displaystyle \ mathbb {R} ^ {p}, \ mathbb {R} ^ {q}}$ respectivamente. La norma mencionada anteriormente puede verse como la norma de grupo en ${\ Displaystyle H}$ asociado a los subespacios ${\ Displaystyle H_ {A}}$ , ${\ Displaystyle H_ {B}}$ , proporcionando una conexión con la regularización estructurada de escasez.

Aquí, ${\ Displaystyle H_ {A}}$ , ${\ Displaystyle H_ {B}}$ y ${\ Displaystyle H}$ puede verse como la reproducción de los espacios de Hilbert del núcleo con los correspondientes mapas de características ${\ Displaystyle \ Phi _ {A}: X \ rightarrow \ mathbb {R} ^ {p}}$ , dada por ${\ Displaystyle \ Phi _ {A} (x) = (a_ {1} (x), ..., a_ {p} (x))}$ , ${\ Displaystyle \ Phi _ {B}: X \ rightarrow \ mathbb {R} ^ {q}}$ , dada por ${\ Displaystyle \ Phi _ {B} (x) = (b_ {1} (x), ..., b_ {q} (x))}$ , y ${\ Displaystyle \ Phi: X \ rightarrow \ mathbb {R} ^ {p + q}}$ , dado por la concatenación de ${\ Displaystyle \ Phi _ {A}, \ Phi _ {B}}$ , respectivamente.

En el enfoque de regularización estructurada de la dispersión para este escenario, los grupos relevantes de variables que las normas de grupo consideran corresponden a los subespacios ${\ Displaystyle H_ {A}}$ y ${\ Displaystyle H_ {B}}$ . Este enfoque promueve establecer los grupos de coeficientes correspondientes a estos subespacios en cero en lugar de solo coeficientes individuales, lo que promueve el aprendizaje disperso de múltiples núcleos.

El razonamiento anterior se generaliza directamente a cualquier número finito de diccionarios o mapas de características. Se puede extender a mapas de características que inducen hipótesis de dimensión infinita.

espacios. ^[dieciséis]

Cuando el aprendizaje disperso de varios núcleos es útil

Considerar el aprendizaje escaso de múltiples núcleos es útil en varias situaciones, incluidas las siguientes:

Fusión de datos: cuando cada kernel corresponde a un tipo diferente de modalidad / característica.
Selección de variables no lineales: considere los núcleos ${\ Displaystyle K_ {g}}$ dependiendo solo de una dimensión de la entrada.

Generalmente, el aprendizaje disperso de múltiples núcleos es particularmente útil cuando hay muchos núcleos y la selección e interpretación del modelo son importantes. ^[dieciséis]

Usos y aplicaciones adicionales

Los métodos de regularización estructurada de escasez se han utilizado en una serie de entornos en los que se desea imponer una estructura de variable de entrada a priori al proceso de regularización. Algunas de estas aplicaciones son:

Detección de compresión en imágenes por resonancia magnética (IRM), que reconstruye imágenes de resonancia magnética a partir de un pequeño número de mediciones, lo que puede producir reducciones significativas en el tiempo de exploración por resonancia magnética ^[6].
Reconocimiento facial robusto en presencia de desalineación, oclusión y variación de iluminación ^[5]
Descubrir asociaciones sociolingüísticas entre las frecuencias léxicas utilizadas por los autores de Twitter y las variables sociodemográficas de sus comunidades geográficas ^[7]
Análisis de selección de genes de datos de cáncer de mama utilizando antecedentes de grupos superpuestos, p. Ej., Conjuntos de genes biológicamente significativos ^[8]

Ver también

Teoría del aprendizaje estadístico
Regularización
Aproximación escasa
Métodos de gradiente proximal
Análisis convexo
Selección de características

Referencias

↑ Rosasco, Lorenzo; Poggio, Tomasso (diciembre de 2014). "Un Tour de Regularización del Aprendizaje Automático". Notas de conferencias MIT-9.520 .
^ a b c d Yuan, M .; Lin, Y. (2006). "Selección y estimación de modelos en regresión con variables agrupadas". JR Stat. Soc. B . 68 (1): 49–67. CiteSeerX 10.1.1.79.2062 . doi : 10.1111 / j.1467-9868.2005.00532.x .
^ a b c d e Obozinski, G .; Laurent, J .; Vert, J.-P. (2011). "Lazo de grupo con superposiciones: el enfoque de lazo de grupo latente". arXiv : 1110.0413 [ stat.ML ].
^ a b c d e L. Rosasco. Clase 10 de las notas de la conferencia para 9.520: Teoría y aplicaciones del aprendizaje estadístico. Massachusetts Institute of Technology, otoño de 2014. Disponible en https://www.mit.edu/~9.520/fall14/slides/class18/class18_sparsity.pdf
^ a b Jia, Kui; et al. (2012). "Reconocimiento facial robusto y práctico a través de la escasez estructurada". Cite journal requiere |journal=( ayuda )
^ a b Chen, Chen; et al. (2012). "Resonancia magnética de detección compresiva con escasez de árboles de ondas" . Actas de la 26ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural . Asociados Curran. págs. 1115–1123.
^ a b Eisenstein, Jacob; et al. (2011). "Descubriendo asociaciones sociolingüísticas con escasez estructurada". Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional .
^ a b c Jacob, Laurent; et al. (2009). "Lazo de grupo con superposición y lazo de gráfico". Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático .
^ a b c d e f Villa, S .; Rosasco, L .; Mosci, S .; Verri, A. (2012). "Métodos proximales para la pena de lazo de grupo latente". arXiv : 1209.0368 [ math.OC ].
^ a b Blei, D., Ng, A. y Jordan, M. Asignación de dirichlet latente. J. Mach. Aprender. Res., 3: 993–1022, 2003.
^ a b Bengio, Y. "Aprendizaje de arquitecturas profundas para IA". Fundamentos y tendencias en el aprendizaje automático, 2 (1), 2009.
^ a b S. Kim y E. Xing. Lasso grupal guiado por árboles para regresión multitarea con escasez estructurada. En Proc. ICML, 2010.
^ a b c Jenatton, Rodolphe; Audibert, Jean-Yves; Bach, Francis (2011). "Selección de variable estructurada con normas inductoras de escasez". Revista de investigación sobre aprendizaje automático . 12 (2011): 2777–2824. arXiv : 0904.3523 . Código bibliográfico : 2009arXiv0904.3523J .
^ a b R. Jenatton, J. Mairal, G. Obozinski y F. Bach. Métodos proximales para el aprendizaje escaso de diccionarios jerárquicos. En Proc. ICML, 2010.
^ a b R. Jenatton, G. Obozinski y F. Bach. Análisis estructurado de componentes principales dispersos. En Proc. AISTATS , 2009.
^ a b c d Rosasco, Lorenzo; Poggio, Tomaso (otoño de 2015). "Notas del curso MIT 9.520 Otoño de 2015, capítulo 6". Cite journal requiere |journal=( ayuda )

[rosPoggio-1] Rosasco, Lorenzo; Poggio, Tomasso (diciembre de 2014). "Un Tour de Regularización del Aprendizaje Automático". Notas de conferencias MIT-9.520 .

[groupLasso-2] Yuan, M .; Lin, Y. (2006). "Selección y estimación de modelos en regresión con variables agrupadas". JR Stat. Soc. B . 68 (1): 49–67. CiteSeerX 10.1.1.79.2062 . doi : 10.1111 / j.1467-9868.2005.00532.x .

[latentLasso-3] Obozinski, G .; Laurent, J .; Vert, J.-P. (2011). "Lazo de grupo con superposiciones: el enfoque de lazo de grupo latente". arXiv : 1110.0413 [ stat.ML ].

[LR18-4] L. Rosasco. Clase 10 de las notas de la conferencia para 9.520: Teoría y aplicaciones del aprendizaje estadístico. Massachusetts Institute of Technology, otoño de 2014. Disponible en https://www.mit.edu/~9.520/fall14/slides/class18/class18_sparsity.pdf

[face_recognition-5] Jia, Kui; et al. (2012). "Reconocimiento facial robusto y práctico a través de la escasez estructurada". Cite journal requiere |journal=( ayuda )

[MRI-6] Chen, Chen; et al. (2012). "Resonancia magnética de detección compresiva con escasez de árboles de ondas" . Actas de la 26ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural . Asociados Curran. págs. 1115–1123.

[sociolinguistic-7] Eisenstein, Jacob; et al. (2011). "Descubriendo asociaciones sociolingüísticas con escasez estructurada". Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional .

[genetic-8] Jacob, Laurent; et al. (2009). "Lazo de grupo con superposición y lazo de gráfico". Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático .

[:0-9] Villa, S .; Rosasco, L .; Mosci, S .; Verri, A. (2012). "Métodos proximales para la pena de lazo de grupo latente". arXiv : 1209.0368 [ math.OC ].

[:2-10] Blei, D., Ng, A. y Jordan, M. Asignación de dirichlet latente. J. Mach. Aprender. Res., 3: 993–1022, 2003.

[:3-11] Bengio, Y. "Aprendizaje de arquitecturas profundas para IA". Fundamentos y tendencias en el aprendizaje automático, 2 (1), 2009.

[:4-12] S. Kim y E. Xing. Lasso grupal guiado por árboles para regresión multitarea con escasez estructurada. En Proc. ICML, 2010.

[:1-13] Jenatton, Rodolphe; Audibert, Jean-Yves; Bach, Francis (2011). "Selección de variable estructurada con normas inductoras de escasez". Revista de investigación sobre aprendizaje automático . 12 (2011): 2777–2824. arXiv : 0904.3523 . Código bibliográfico : 2009arXiv0904.3523J .

[:5-14] R. Jenatton, J. Mairal, G. Obozinski y F. Bach. Métodos proximales para el aprendizaje escaso de diccionarios jerárquicos. En Proc. ICML, 2010.

[:6-15] R. Jenatton, G. Obozinski y F. Bach. Análisis estructurado de componentes principales dispersos. En Proc. AISTATS , 2009.

[:7-16] Rosasco, Lorenzo; Poggio, Tomaso (otoño de 2015). "Notas del curso MIT 9.520 Otoño de 2015, capítulo 6". Cite journal requiere |journal=( ayuda )

[1]