Modelo condicional restringido

Un modelo condicional restringido (CCM) es un marco de aprendizaje automático e inferencia que aumenta el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas. La restricción se puede utilizar como una forma de incorporar conocimiento previo expresivo ^{[ aclaración necesaria ]} en el modelo y sesgar las asignaciones realizadas por el modelo aprendido para satisfacer estas restricciones. El marco se puede utilizar para respaldar decisiones en un espacio de salida expresivo mientras se mantiene la modularidad y la manejabilidad del entrenamiento y la inferencia.

Modelos de este tipo han recientemente ^{[ ¿cuándo? ]} atrajo mucha atención ^{[ cita requerida ]} dentro de la comunidad de procesamiento del lenguaje natural ( PNL ). La formulación de problemas como problemas de optimización restringidos sobre la salida de modelos aprendidos tiene varias ventajas. Le permite a uno enfocarse en el modelado de problemas al brindar la oportunidad de incorporar conocimientos específicos de dominio como restricciones globales utilizando un lenguaje de primer orden. El uso de este marco declarativo libera al desarrollador de la ingeniería de funciones de bajo nivelmientras captura las propiedades específicas del dominio del problema y garantiza una inferencia exacta. Desde la perspectiva del aprendizaje automático, permite desvincular la etapa de generación del modelo (aprendizaje) de la etapa de inferencia restringida, lo que ayuda a simplificar la etapa de aprendizaje y, al mismo tiempo, mejora la calidad de las soluciones. Por ejemplo, en el caso de generar oraciones comprimidas, en lugar de depender simplemente de un modelo de lenguaje para retener los n-gramas más comúnmente usados en la oración, se pueden usar restricciones para asegurar que si un modificador se mantiene en la oración comprimida, su El tema también se mantendrá.

Motivación

Tomar decisiones en muchos dominios (como el procesamiento del lenguaje natural y los problemas de visión por computadora) a menudo implica asignar valores a conjuntos de variables interdependientes donde la estructura de dependencia expresiva puede influir, o incluso dictar, qué asignaciones son posibles. Estos ajustes son aplicables no solo a problemas de aprendizaje estructurado, como el etiquetado de roles semánticos, sino también a los casos que requieren el uso de múltiples componentes preaprendidos, como el resumen, la vinculación textual y la respuesta a preguntas. En todos estos casos, es natural formular el problema de decisión como un problema de optimización restringido, con una función objetivo que se compone de modelos aprendidos, sujeto a restricciones específicas de dominio o problema.

Los modelos condicionales restringidos forman un marco de aprendizaje e inferencia que aumenta el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas (escritas, por ejemplo, usando una representación de primer orden) como una forma de apoyar decisiones en un espacio de salida expresivo mientras se mantiene modularidad y manejabilidad del entrenamiento y la inferencia. Estas restricciones pueden expresar restricciones estrictas, que prohíben por completo algunas asignaciones, o restricciones suaves, que penalizan asignaciones poco probables. En la mayoría de las aplicaciones de este marco en PNL, a continuación, se utilizó ^[1] Programación lineal entera (ILP) como marco de inferencia, aunque se pueden usar otros algoritmos para ese propósito.

Definicion formal

Dado un conjunto de funciones de características ${\ Displaystyle \ {\ phi _ {i} (x, y) \}}$ y un conjunto de restricciones ${\ Displaystyle \ {C_ {i} (x, y) \}}$ , definido sobre una estructura de entrada ${\ Displaystyle x \ in X}$ y una estructura de salida ${\ Displaystyle y \ in Y}$ , un modelo condicional de restricción se caracteriza por dos vectores de peso, w y ${\ Displaystyle \ rho}$ , y se define como la solución al siguiente problema de optimización:

{\ Displaystyle argmax_ {y} \ sum _ {i} w_ {i} \ phi _ {i} (x, y) - \ sum \ rho _ {i} C_ {i} (x, y)}

.

Cada restricción ${\ Displaystyle C_ {i} \ in C}$ es un mapeo booleano que indica si la asignación conjunta ${\ Displaystyle (x, y)}$ viola una restricción, y ${\ Displaystyle \ rho}$ es la penalización incurrida por violar las restricciones. Las restricciones a las que se les asigna una penalización infinita se conocen como restricciones estrictas y representan asignaciones inviables al problema de optimización.

Paradigmas de formación

Aprendiendo modelos locales versus globales

La función objetivo utilizada por los MCP se puede descomponer y aprender de varias maneras, que van desde un entrenamiento conjunto completo del modelo junto con las restricciones hasta desacoplar completamente la etapa de aprendizaje y la de inferencia. En el último caso, varios modelos locales se aprenden de forma independiente y la dependencia entre estos modelos se considera solo en el momento de la decisión a través de un proceso de decisión global. Las ventajas de cada enfoque se discuten en ^[2] que estudia los dos paradigmas de entrenamiento: (1) modelos locales: L + I (aprendizaje + inferencia) y (2) modelo global: IBT (entrenamiento basado en inferencias), y muestra ambos teóricamente y experimentalmente que si bien IBT (entrenamiento conjunto) es mejor en el límite, bajo algunas condiciones (básicamente, componentes "buenos") L + I puedo generalizar mejor.

La capacidad de CCM para combinar modelos locales es especialmente beneficiosa en los casos en que el aprendizaje conjunto es intratable desde el punto de vista computacional o cuando los datos de capacitación no están disponibles para el aprendizaje conjunto. Esta flexibilidad distingue a CCM de otros marcos de aprendizaje que también combinan información estadística con restricciones declarativas, como la red lógica de Markov , que enfatiza el entrenamiento conjunto.

CCM mínimamente supervisado

CCM puede ayudar a reducir la supervisión mediante el uso de conocimientos de dominio (expresados como limitaciones) para impulsar el aprendizaje. Estos entornos se estudiaron en ^[3] y. ^[4] Estos trabajos introducen el Aprendizaje impulsado por restricciones (CODL) semi-supervisado y muestran que al incorporar el conocimiento del dominio, el rendimiento del modelo aprendido mejora significativamente.

Aprendiendo sobre representaciones latentes

Los MCP también se han aplicado a marcos de aprendizaje latente, donde el problema de aprendizaje se define sobre una capa de representación latente. Dado que la noción de una representación correcta está intrínsecamente mal definida, el alumno no dispone de datos etiquetados como estándar de oro con respecto a la decisión de representación. La identificación de la representación de aprendizaje correcta (u óptima) se considera un proceso de predicción estructurado y, por lo tanto, se modela como un CCM. Este problema se trató en varios artículos, tanto en entornos supervisados ^[5] como no supervisados ^[6] . En todos los casos, la investigación mostró que modelar explícitamente las interdependencias entre las decisiones de representación a través de restricciones da como resultado un rendimiento mejorado.

Programación lineal entera para aplicaciones de procesamiento de lenguaje natural

Las ventajas de la formulación declarativa CCM y la disponibilidad de solucionadores estándar han llevado a que se formule una gran variedad de tareas de procesamiento del lenguaje natural dentro del marco, incluido el etiquetado de roles semánticos , ^[7] análisis sintáctico, ^[8] resolución de correferencia , ^[9] resumen, ^[10]^[11]^[12] transliteración , ^[13] generación de lenguaje natural ^[14] y extracción conjunta de información . ^[15]^[16]

La mayoría de estos trabajos utilizan un solucionador de programación lineal entera (ILP) para resolver el problema de decisión. Aunque teóricamente resolver un programa lineal de enteros es exponencial en el tamaño del problema de decisión, en la práctica utilizando solucionadores de última generación y técnicas de inferencia aproximada ^[17] los problemas a gran escala pueden resolverse eficientemente.

La ventaja clave de utilizar un solucionador de ILP para resolver el problema de optimización definido por un modelo condicional restringido es la formulación declarativa utilizada como entrada para el solucionador de ILP, que consta de una función objetivo lineal y un conjunto de restricciones lineales.

Recursos

Tutorial CCM Predicción de estructuras en PNL: modelos condicionales restringidos y programación lineal entera en PNL

enlaces externos

Grupo de Computación Cognitiva de la Universidad de Illinois
Taller sobre programación lineal entera para el procesamiento del lenguaje natural, NAACL-2009

Referencias

^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". CoNLL , (2004).
^ Vasin Punyakanok y Dan Roth y Wen-Tau Yih y Dav Zimak, "Aprendizaje e inferencia sobre resultados restringidos ". IJCAI , (2005).
^ Ming-Wei Chang y Lev Ratinov y Dan Roth, "Guía de semi-supervisión con aprendizaje basado en restricciones". ACL , (2007).
^ Ming-Wei Chang y Lev Ratinov y Dan Roth, "Restricciones como conocimiento previo". Taller ICML sobre conocimientos previos para el procesamiento de textos y lenguajes, (2008).
^ Ming-Wei Chang y Dan Goldwasser y Dan Roth y Vivek Srikumar, "Aprendizaje discriminativo sobre representaciones latentes restringidas ". NAACL, (2010).
^ Ming-Wei Chang Dan Goldwasser Dan Roth y Yuancheng Tu, "Aprendizaje impulsado por restricciones no supervisadas para el descubrimiento de la transliteración". ^{[ enlace muerto permanente ]} NAACL, (2009).
^ Vasin Punyakanok, Dan Roth, Wen-tau Yih y Dav Zimak, "Etiquetado de roles semánticos a través de inferencia de programación lineal de enteros". COLING, (2004).
^ Kenji Sagae y Yusuke Miyao y Jun'ichi Tsujii, "Análisis de HPSG con restricciones de dependencia superficial". ACL, (2007).
^ Pascal Denis y Jason Baldridge, "Determinación conjunta de anaforicidad y resolución de correferencia mediante programación de enteros". Archivado el21 de junio de 2010en la Wayback Machine NAACL-HLT, (2007).
^ James Clarke y Mirella Lapata, "Inferencia global para la compresión de oraciones: un enfoque de programación lineal de enteros". Revista de Investigación en Inteligencia Artificial (JAIR), (2008).
^ Katja Filippova y Michael Strube, "Compresión de oraciones basada en árboles de dependencia". ^{[ enlace muerto permanente ]} INLG , (2008).
^ Katja Filippova y Michael Strube, "Fusión de frases a través de la compresión del gráfico de dependencia". EMNLP , (2008).
^ Dan Goldwasser y Dan Roth, "Transliteración como optimización restringida". EMNLP, (2008).
^ Regina Barzilay y Mirrela Lapata, "Agregación a través de partición de conjuntos para la generación de lenguaje natural". NAACL , (2006).
^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". CoNLL , (2004).
^ Yejin Choi y Eric Breck y Claire Cardie, "Extracción conjunta de entidades y relaciones para el reconocimiento de opiniones". EMNLP , (2006).
^ André FT Martins, Noah A. Smith y Eric P. Xing, "Formulaciones de programación lineal de enteros concisos para el análisis de dependencias". ACL, (2009).

[1] Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". CoNLL , (2004).

[2] Vasin Punyakanok y Dan Roth y Wen-Tau Yih y Dav Zimak, "Aprendizaje e inferencia sobre resultados restringidos ". IJCAI , (2005).

[3] Ming-Wei Chang y Lev Ratinov y Dan Roth, "Guía de semi-supervisión con aprendizaje basado en restricciones". ACL , (2007).

[4] Ming-Wei Chang y Lev Ratinov y Dan Roth, "Restricciones como conocimiento previo". Taller ICML sobre conocimientos previos para el procesamiento de textos y lenguajes, (2008).

[5] Ming-Wei Chang y Dan Goldwasser y Dan Roth y Vivek Srikumar, "Aprendizaje discriminativo sobre representaciones latentes restringidas ". NAACL, (2010).

[6] Ming-Wei Chang Dan Goldwasser Dan Roth y Yuancheng Tu, "Aprendizaje impulsado por restricciones no supervisadas para el descubrimiento de la transliteración". ^{[ enlace muerto permanente ]} NAACL, (2009).

[7] Vasin Punyakanok, Dan Roth, Wen-tau Yih y Dav Zimak, "Etiquetado de roles semánticos a través de inferencia de programación lineal de enteros". COLING, (2004).

[8] Kenji Sagae y Yusuke Miyao y Jun'ichi Tsujii, "Análisis de HPSG con restricciones de dependencia superficial". ACL, (2007).

[9] Pascal Denis y Jason Baldridge, "Determinación conjunta de anaforicidad y resolución de correferencia mediante programación de enteros". Archivado el21 de junio de 2010en la Wayback Machine NAACL-HLT, (2007).

[10] James Clarke y Mirella Lapata, "Inferencia global para la compresión de oraciones: un enfoque de programación lineal de enteros". Revista de Investigación en Inteligencia Artificial (JAIR), (2008).

[11] Katja Filippova y Michael Strube, "Compresión de oraciones basada en árboles de dependencia". ^{[ enlace muerto permanente ]} INLG , (2008).

[12] Katja Filippova y Michael Strube, "Fusión de frases a través de la compresión del gráfico de dependencia". EMNLP , (2008).

[13] Dan Goldwasser y Dan Roth, "Transliteración como optimización restringida". EMNLP, (2008).

[14] Regina Barzilay y Mirrela Lapata, "Agregación a través de partición de conjuntos para la generación de lenguaje natural". NAACL , (2006).

[15] Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". CoNLL , (2004).

[16] Yejin Choi y Eric Breck y Claire Cardie, "Extracción conjunta de entidades y relaciones para el reconocimiento de opiniones". EMNLP , (2006).

[17] André FT Martins, Noah A. Smith y Eric P. Xing, "Formulaciones de programación lineal de enteros concisos para el análisis de dependencias". ACL, (2009).

[1]