Parafraseo (lingüística computacional)

Parafrasear o parafrasear en lingüística computacional es la tarea de procesamiento del lenguaje natural de detectar y generar paráfrasis . Las aplicaciones de la paráfrasis son variadas, incluida la recuperación de información, la respuesta a preguntas , el resumen de texto y la detección de plagio . ^{[1] La} paráfrasis también es útil en la evaluación de la traducción automática , ^[2] así como en el análisis sintáctico semántico ^[3] y la generación de nuevas muestras para expandir los corpus existentes . ^[4]

Generación de paráfrasis

Alineación de múltiples secuencias

Barzilay y Lee ^[4] propusieron un método para generar paráfrasis mediante el uso de corpus paralelos monolingües , es decir, artículos de noticias que cubren el mismo evento el mismo día. El entrenamiento consiste en usar la alineación de múltiples secuencias para generar paráfrasis a nivel de oración a partir de un corpus sin anotaciones. Esto es hecho por

encontrar patrones recurrentes en cada corpus individual, es decir, " $X$ (heridos / heridos) $Y$ personas, $Z$ gravemente" donde $X, Y, Z$ son variables
encontrar emparejamientos entre tales patrones representan paráfrasis, es decir, " $X$ (heridos / heridos) $Y$ personas, $Z$ gravemente" e " $Y$ fueron (heridos / heridos) por $X$ , entre ellos $Z$ estaban en estado grave"

Esto se logra agrupando primero oraciones similares mediante la superposición de n-gramas . Los patrones recurrentes se encuentran dentro de los clústeres mediante el uso de alineación de múltiples secuencias. Luego, la posición de las palabras argumentales se determina al encontrar áreas de alta variabilidad dentro de cada grupo, es decir, entre palabras compartidas por más del 50% de las oraciones de un grupo. Los emparejamientos entre patrones se encuentran luego comparando palabras variables similares entre diferentes corpus. Finalmente, se pueden generar nuevas paráfrasis eligiendo un grupo coincidente para una oración fuente y luego sustituyendo el argumento de la oración fuente en cualquier número de patrones en el grupo.

Traducción automática basada en frases

La paráfrasis también se puede generar mediante el uso de la traducción basada en frases según lo propuesto por Bannard y Callison-Burch. ^[5] El concepto principal consiste en alinear frases en un idioma pivote para producir paráfrasis potenciales en el idioma original. Por ejemplo, la frase "bajo control" en una oración en inglés está alineada con la frase "unter kontrolle" en su contraparte alemana. La frase "unter kontrolle" se encuentra luego en otra oración alemana con la frase alineada en inglés es "en jaque", una paráfrasis de "bajo control".

La distribución de probabilidad se puede modelar como ${\ Displaystyle \ Pr (e_ {2} | e_ {1})}$ , la frase de probabilidad ${\ Displaystyle e_ {2}}$ es una paráfrasis de ${\ Displaystyle e_ {1}}$ , que es equivalente a ${\ Displaystyle \ Pr (e_ {2} | f) \ Pr (f | e_ {1})}$ resumido sobre todo ${\ Displaystyle f}$ , una posible traducción de frases en el idioma pivote. Además, la oración ${\ Displaystyle e_ {1}}$ se agrega como anterior para agregar contexto a la paráfrasis. Por lo tanto, la paráfrasis óptima, ${\ Displaystyle {\ hat {e_ {2}}}}$ se puede modelar como:

{\ Displaystyle {\ hat {e_ {2}}} = {\ text {arg}} \ max _ {e_ {2} \ neq e_ {1}} \ Pr (e_ {2} | e_ {1}, S ) = {\ text {arg}} \ max _ {e_ {2} \ neq e_ {1}} \ sum _ {f} \ Pr (e_ {2} | f, S) \ Pr (f | e_ {1 },S)}

${\ Displaystyle \ Pr (e_ {2} | f)}$ y ${\ Displaystyle \ Pr (f | e_ {1})}$ pueden aproximarse simplemente tomando sus frecuencias. Añadiendo ${\ Displaystyle S}$ como a priori se modela calculando la probabilidad de formar el ${\ Displaystyle S}$ Cuándo ${\ Displaystyle e_ {1}}$ se sustituye con ${\ Displaystyle e_ {2}}$ .

Memoria larga a corto plazo

Ha habido éxito en el uso de modelos de memoria a corto plazo a largo plazo (LSTM) para generar paráfrasis. ^[6] En resumen, el modelo consta de un componente codificador y decodificador, ambos implementados utilizando variaciones de un LSTM residual apilado . Primero, la codificación LSTM toma una codificación one-hot de todas las palabras en una oración como entrada y produce un vector oculto final, que puede verse como una representación de la oración de entrada. La decodificación LSTM luego toma el vector oculto como entrada y genera una nueva oración, terminando en un token de fin de oración. El codificador y el decodificador están entrenados para tomar una frase y reproducir la distribución one-hot de una paráfrasis correspondiente minimizando la perplejidad usando un descenso de gradiente estocástico simple . Las nuevas paráfrasis se generan ingresando una nueva frase al codificador y pasando la salida al decodificador.

Reconocimiento de paráfrasis

Autoencoders recursivos

Socher et al ^[1] han intentado el reconocimiento de paráfrasis mediante el uso de autocodificadores recursivos . El concepto principal es producir una representación vectorial de una oración junto con sus componentes mediante el uso recursivo de un codificador automático. Las representaciones vectoriales de paráfrasis deben tener representaciones vectoriales similares; se procesan y luego se alimentan como entrada a una red neuronal para su clasificación.

Dada una sentencia ${\ Displaystyle W}$ con ${\ Displaystyle m}$ palabras, el codificador automático está diseñado para tomar 2 ${\ Displaystyle n}$ -incrustaciones de palabras dimensionales como entrada y producen una ${\ Displaystyle n}$ -Vector dimensional como salida. El mismo codificador automático se aplica a cada par de palabras en ${\ Displaystyle S}$ para producir ${\ Displaystyle \ lfloor m / 2 \ rfloor}$ vectores. A continuación, el codificador automático se aplica de forma recursiva con los nuevos vectores como entradas hasta que se produce un solo vector. Dado un número impar de entradas, el primer vector se reenvía tal cual al siguiente nivel de recursividad. A continuación, se entrena al codificador automático para que reproduzca todos los vectores del árbol de recursividad completo, incluidas las incrustaciones de palabras iniciales.

Dadas dos oraciones ${\ Displaystyle W_ {1}}$ y ${\ Displaystyle W_ {2}}$ de longitud 4 y 3 respectivamente, los codificadores automáticos producirían 7 y 5 representaciones vectoriales, incluidas las incrustaciones de palabras iniciales. La distancia euclidiana se toma entonces entre todas las combinaciones de vectores en ${\ Displaystyle W_ {1}}$ y ${\ Displaystyle W_ {2}}$ para producir una matriz de similitud ${\ Displaystyle S \ in \ mathbb {R} ^ {7 \ times 5}}$ . ${\ Displaystyle S}$ Luego se somete a una capa de minicompo dinámico para producir un tamaño fijo ${\ Displaystyle n_ {p} \ times n_ {p}}$ matriz. Desde ${\ Displaystyle S}$ no son uniformes en tamaño entre todas las posibles sentencias, ${\ Displaystyle S}$ se divide en ${\ Displaystyle n_ {p}}$ secciones aproximadamente uniformes. Luego, la salida se normaliza para que tenga una media de 0 y una desviación estándar de 1 y se alimenta a una capa completamente conectada con una salida softmax . El modelo de agrupación dinámica a softmax se entrena utilizando pares de paráfrasis conocidas.

Vectores de skip-thinking

Los vectores de omisión de pensamiento son un intento de crear una representación vectorial del significado semántico de una oración de manera similar al modelo de omisión de gramo . ^[7] Los vectores de pensamiento de salto se producen mediante el uso de un modelo de pensamiento de salto que consta de tres componentes clave, un codificador y dos decodificadores. Dado un corpus de documentos, el modelo de pensamiento de omisión está entrenado para tomar una oración como entrada y codificarla en un vector de pensamiento de omisión. El vector de pensamiento de salto se utiliza como entrada para ambos decodificadores, uno de los cuales intenta reproducir la oración anterior y el otro la oración siguiente en su totalidad. El codificador y el descodificador se pueden implementar mediante el uso de una red neuronal recursiva (RNN) o un LSTM .

Dado que las paráfrasis tienen el mismo significado semántico entre sí, deberían tener vectores de salto de pensamiento similares. Por lo tanto, se puede entrenar una regresión logística simple para obtener un buen desempeño con la diferencia absoluta y el producto por componentes de dos vectores de pensamiento de omisión como entrada.

Evaluación

Hay varios métodos que se pueden utilizar para evaluar paráfrasis. Dado que el reconocimiento de paráfrasis puede plantearse como un problema de clasificación, la mayoría de las métricas de evaluación estándar, como la precisión , la puntuación f1 o una curva ROC , funcionan relativamente bien. Sin embargo, existe dificultad para calcular las puntuaciones f1 debido a problemas para producir una lista completa de paráfrasis para una frase determinada junto con el hecho de que las buenas paráfrasis dependen del contexto. Una métrica diseñada para contrarrestar estos problemas es ParaMetric. ^[8] ParaMetric tiene como objetivo calcular la precisión y la recuperación de un sistema de paráfrasis automático comparando la alineación automática de paráfrasis con una alineación manual de frases similares. Dado que ParaMetric simplemente está calificando la calidad de la alineación de frases, se puede usar para calificar los sistemas de generación de paráfrasis y asumiendo que usa la alineación de frases como parte de su proceso de generación. Un inconveniente notable de ParaMetric es el conjunto grande y exhaustivo de alineaciones manuales que deben crearse inicialmente antes de que se pueda producir una clasificación.

La evaluación de la generación de paráfrasis tiene dificultades similares a la evaluación de la traducción automática . A menudo, la calidad de una paráfrasis depende de su contexto, si se utiliza como resumen y cómo se genera, entre otros factores. Además, una buena paráfrasis suele ser léxicamente diferente de su frase original. El método más simple utilizado para evaluar la generación de paráfrasis sería mediante el uso de jueces humanos. Desafortunadamente, la evaluación a través de jueces humanos tiende a llevar mucho tiempo. Los enfoques automatizados de evaluación demuestran ser un desafío, ya que es esencialmente un problema tan difícil como el reconocimiento de paráfrasis. Aunque originalmente se usó para evaluar las traducciones automáticas, el suplente de evaluación bilingüe ( BLEU ) también se ha utilizado con éxito para evaluar los modelos de generación de paráfrasis. Sin embargo, las paráfrasis a menudo tienen varias soluciones léxicamente diferentes pero igualmente válidas, lo que perjudica a BLEU y otras métricas de evaluación similares. ^[9]

Las métricas diseñadas específicamente para evaluar la generación de paráfrasis incluyen la paráfrasis en el cambio de n-gramas (PINC) ^[9] y la métrica de evaluación de paráfrasis (PEM) ^[10] junto con el parámetro ParaMetric antes mencionado. PINC está diseñado para usarse junto con BLEU y ayudar a cubrir sus deficiencias. Dado que BLEU tiene dificultades para medir la disimilitud léxica, PINC es una medida de la falta de superposición de n-gramas entre una oración fuente y una paráfrasis candidata. Es esencialmente la distancia de Jaccard entre la oración que excluye los n-gramas que aparecen en la oración fuente para mantener alguna equivalencia semántica. PEM, por otro lado, intenta evaluar la "adecuación, fluidez y disimilitud léxica" de las paráfrasis al devolver una heurística de valor único calculada usando N-gramos superpuestos en un lenguaje pivote. Sin embargo, un gran inconveniente de PEM es que debe capacitarse utilizando un gran corpus paralelo en el dominio, así como jueces humanos. ^[9] En otras palabras, equivale a entrenar un sistema de reconocimiento de paráfrasis para evaluar un sistema de generación de paráfrasis.

Ver también

Traducción de ida y vuelta
Simplificación de texto
Normalización de texto

Referencias

^ a b Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), agrupación dinámica y desdoblamiento de codificadores automáticos recursivos para la detección de paráfrasis Parámetro desconocido |book-title=ignorado ( ayuda )
^ Callison-Burch, Chris (25 al 27 de octubre de 2008). "Restricciones sintácticas en paráfrasis extraídas de cuerpos paralelos" . EMNLP '08 Actas de la conferencia sobre métodos empíricos en el procesamiento del lenguaje natural . Honolulu, Hawaii. págs. 196–205.
^ Berant, Jonathan y Percy Liang. " Análisis semántico mediante paráfrasis ". Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos). Vol. 1. 2014.
^ a b Barzilay, Regina; Lee, Lillian (mayo-junio de 2003). "Aprender a parafrasear: un enfoque sin supervisión mediante alineación de secuencia múltiple" . Actas de HLT-NAACL 2003 .
^ Bannard, Colin; Callison-Burch, Chris (2005). "Parafraseando los cuerpos paralelos bilingües" . Actas de la 43ª Reunión Anual de la ACL . Ann Arbor, Michigan. págs. 597–604.
^ Prakash, Aaditya; Hasan, Sadid A .; Lee, Kathy; Datla, Vivek; Qadir, Ashequl; Liu, Joey; Farri, Oladimeji (2016), Generación de paráfrasis neuronales con redes LSTM residuales estacadas , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015), Skip-Pensamiento Vectores , arXiv : 1506.06726 , bibcode : 2015arXiv150606726K
^ Callison-Burch, Chris; Cohn, Trevor; Lapata, Mirella (2008). "Parametric: una métrica de evaluación automática para parafrasear" (PDF) . Actas de la 22ª Conferencia Internacional de Lingüística Computacional . Manchester. págs. 97-104. doi : 10.3115 / 1599081.1599094 . S2CID 837398 .
^ a b c Chen, David; Dolan, William (2008). "Recopilación de datos muy paralelos para la evaluación de paráfrasis" . Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano . Portland, Oregon. págs. 190-200.
^ Liu, Chang; Dahlmeier, Daniel; Ng, Hwee Tou (2010). "PEM: una métrica de evaluación de paráfrasis explotando textos paralelos" . Actas de la Conferencia de 2010 sobre métodos empriciales en el procesamiento del lenguaje natural . MIT, Massachusetts. págs. 923–932.

enlaces externos

Microsoft Research Paraphrase Corpus : un conjunto de datos que consta de 5800 pares de oraciones extraídas de artículos de noticias anotados para observar si un par captura la equivalencia semántica
Base de datos de paráfrasis (PPDB) : una base de datos con capacidad de búsqueda que contiene millones de paráfrasis en 16 idiomas diferentes

[Socher-1] Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), agrupación dinámica y desdoblamiento de codificadores automáticos recursivos para la detección de paráfrasis Parámetro desconocido |book-title=ignorado ( ayuda )

[Callison-2] Callison-Burch, Chris (25 al 27 de octubre de 2008). "Restricciones sintácticas en paráfrasis extraídas de cuerpos paralelos" . EMNLP '08 Actas de la conferencia sobre métodos empíricos en el procesamiento del lenguaje natural . Honolulu, Hawaii. págs. 196–205.

[3] Berant, Jonathan y Percy Liang. " Análisis semántico mediante paráfrasis ". Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos). Vol. 1. 2014.

[Barzilay-4] Barzilay, Regina; Lee, Lillian (mayo-junio de 2003). "Aprender a parafrasear: un enfoque sin supervisión mediante alineación de secuencia múltiple" . Actas de HLT-NAACL 2003 .

[Bannard-5] Bannard, Colin; Callison-Burch, Chris (2005). "Parafraseando los cuerpos paralelos bilingües" . Actas de la 43ª Reunión Anual de la ACL . Ann Arbor, Michigan. págs. 597–604.

[Prakash-6] Prakash, Aaditya; Hasan, Sadid A .; Lee, Kathy; Datla, Vivek; Qadir, Ashequl; Liu, Joey; Farri, Oladimeji (2016), Generación de paráfrasis neuronales con redes LSTM residuales estacadas , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P

[Kiros-7] Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015), Skip-Pensamiento Vectores , arXiv : 1506.06726 , bibcode : 2015arXiv150606726K

[Burch2-8] Callison-Burch, Chris; Cohn, Trevor; Lapata, Mirella (2008). "Parametric: una métrica de evaluación automática para parafrasear" (PDF) . Actas de la 22ª Conferencia Internacional de Lingüística Computacional . Manchester. págs. 97-104. doi : 10.3115 / 1599081.1599094 . S2CID 837398 .

[Chen-9] Chen, David; Dolan, William (2008). "Recopilación de datos muy paralelos para la evaluación de paráfrasis" . Actas de la 49ª Reunión Anual de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano . Portland, Oregon. págs. 190-200.

[Liu-10] Liu, Chang; Dahlmeier, Daniel; Ng, Hwee Tou (2010). "PEM: una métrica de evaluación de paráfrasis explotando textos paralelos" . Actas de la Conferencia de 2010 sobre métodos empriciales en el procesamiento del lenguaje natural . MIT, Massachusetts. págs. 923–932.

[1] La