Identificación de lengua materna

La identificación del idioma nativo ( NLI ) es la tarea de determinar el idioma nativo de un autor (L1) basándose únicamente en sus escritos en un segundo idioma (L2). ^[1] NLI trabaja identificando patrones de uso del lenguaje que son comunes a grupos específicos de L1 y luego aplica este conocimiento para predecir el idioma nativo de textos nunca antes vistos. Esto está motivado en parte por aplicaciones en la adquisición de un segundo idioma , la enseñanza de idiomas y la lingüística forense , entre otros.

Visión general

NLI trabaja bajo el supuesto de que la L1 de un autor los predispondrá hacia patrones particulares de producción de lenguaje en su L2, influenciados por su lengua materna. Esto se relaciona con la influencia translingüística (CLI), un tema clave en el campo de la adquisición de una segunda lengua (SLA) que analiza los efectos de transferencia de la L1 en las lenguas aprendidas posteriormente.

Utilizando datos en inglés a gran escala, los métodos NLI logran más del 80% de precisión en la predicción del idioma nativo de los textos escritos por autores de 11 orígenes diferentes de L1 ^{[ cita requerida ]} . Esto se puede comparar con una línea de base del 9% para elegir al azar.

Aplicaciones

Pedagogía y transferencia de idiomas

Esta identificación de características específicas de L1 se ha utilizado para estudiar los efectos de la transferencia del idioma en la adquisición de un segundo idioma. ^[2] Esto es útil para desarrollar material pedagógico, métodos de enseñanza, instrucciones específicas de L1 y generar comentarios de los alumnos que se adapten a su lengua materna.

Lingüística forense

Los métodos NLI también se pueden aplicar en lingüística forense como un método para realizar perfiles de autoría con el fin de inferir los atributos de un autor, incluida su formación lingüística. Esto es particularmente útil en situaciones donde un texto, por ejemplo, una carta anónima, es la pieza clave de evidencia en una investigación y las pistas sobre el idioma nativo de un escritor pueden ayudar a los investigadores a identificar la fuente. Esto ya ha atraído el interés y la financiación de las agencias de inteligencia. ^[3]

Metodología

Los métodos de procesamiento del lenguaje natural se utilizan para extraer e identificar patrones de uso del lenguaje comunes a los hablantes de un grupo L1. Esto se hace utilizando datos de estudiantes de idiomas, generalmente de un corpus de estudiantes . A continuación, el aprendizaje automático se aplica para entrenar clasificadores, como máquinas de vectores de soporte , para predecir la L1 de textos invisibles. ^[4] También se ha aplicado una gama de sistemas basados en conjuntos a la tarea y se ha demostrado que mejoran el rendimiento sobre los sistemas de un solo clasificador. ^[5]^[6]

Se han aplicado varios tipos de características lingüísticas para esta tarea. Estos incluyen características sintácticas como análisis de constituyentes, dependencias gramaticales y etiquetas de parte del discurso. También se ha encontrado que las características léxicas de nivel superficial, como los n-gramas de caracteres, palabras y lemas, son bastante útiles para esta tarea. Sin embargo, parece que los n-gramas de caracteres ^[7]^[8] son la mejor característica para la tarea.

2013 tarea compartida

El taller Construyendo Aplicaciones Educativas (BEA) en NAACL 2013 fue el anfitrión de la tarea compartida inaugural de NLI. ^[9] La competencia resultó en 29 entradas de equipos de todo el mundo, 24 de los cuales también publicaron un artículo que describe sus sistemas y enfoques.

Ver también

Referencias

^ Wong, Sze-Meng Jojo y Mark Dras. "Explotación de estructuras de análisis sintáctico para la identificación de lenguas nativas" . Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Asociación de Lingüística Computacional, 2011.
^ Malmasi, Shervin y Mark Dras. "Hipótesis de transferencia de idiomas con pesos lineales de SVM". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). 2014.
^ Ria Perkins. 2014. "Identificadores lingüísticos de hablantes de persa L1 que escriben en inglés: NLID para análisis de autoría". Doctor. tesis, Universidad de Aston.
^ Tetreault et al, "Lenguas nativas, objetos perdidos: recursos y evaluaciones empíricas en la identificación de lenguas nativas" , en proc. Conf. Internacional de Lingüística Computacional (COLING), 2012
^ Malmasi, Shervin, Sze-Meng Jojo Wong y Mark Dras. "Tarea compartida NLI 2013: presentación de MQ" . Actas del octavo taller sobre el uso innovador de la PNL para la creación de aplicaciones educativas. 2013.
^ Habic, Vuk, Semenov, Alexander y Pasiliao, Eduardo. "Aprendizaje profundo multitarea para la identificación del idioma nativo" en Sistemas basados en el conocimiento, 2020
^ Radu Tudor Ionescu, Marius Popescu y Aoife Cahill. "Núcleos de cadena para la identificación de lenguas nativas: perspectivas detrás de las cortinas" , Lingüística Computacional, 2016
^ Radu Tudor Ionescu y Marius Popescu. "¿Pueden los núcleos de cadena pasar la prueba del tiempo en la identificación del idioma nativo?" , En Actas de BEA12, 2017.
^ Tetreault et al, "Un informe sobre la primera tarea compartida de identificación del idioma nativo" , 2013

[1] Wong, Sze-Meng Jojo y Mark Dras. "Explotación de estructuras de análisis sintáctico para la identificación de lenguas nativas" . Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Asociación de Lingüística Computacional, 2011.

[2] Malmasi, Shervin y Mark Dras. "Hipótesis de transferencia de idiomas con pesos lineales de SVM". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). 2014.

[3] Ria Perkins. 2014. "Identificadores lingüísticos de hablantes de persa L1 que escriben en inglés: NLID para análisis de autoría". Doctor. tesis, Universidad de Aston.

[4] Tetreault et al, "Lenguas nativas, objetos perdidos: recursos y evaluaciones empíricas en la identificación de lenguas nativas" , en proc. Conf. Internacional de Lingüística Computacional (COLING), 2012

[5] Malmasi, Shervin, Sze-Meng Jojo Wong y Mark Dras. "Tarea compartida NLI 2013: presentación de MQ" . Actas del octavo taller sobre el uso innovador de la PNL para la creación de aplicaciones educativas. 2013.

[6] Habic, Vuk, Semenov, Alexander y Pasiliao, Eduardo. "Aprendizaje profundo multitarea para la identificación del idioma nativo" en Sistemas basados en el conocimiento, 2020

[7] Radu Tudor Ionescu, Marius Popescu y Aoife Cahill. "Núcleos de cadena para la identificación de lenguas nativas: perspectivas detrás de las cortinas" , Lingüística Computacional, 2016

[8] Radu Tudor Ionescu y Marius Popescu. "¿Pueden los núcleos de cadena pasar la prueba del tiempo en la identificación del idioma nativo?" , En Actas de BEA12, 2017.

[9] Tetreault et al, "Un informe sobre la primera tarea compartida de identificación del idioma nativo" , 2013

[1]