La identificación del idioma nativo ( NLI ) es la tarea de determinar el idioma nativo de un autor (L1) basándose únicamente en sus escritos en un segundo idioma (L2). [1] NLI trabaja identificando patrones de uso del lenguaje que son comunes a grupos específicos de L1 y luego aplica este conocimiento para predecir el idioma nativo de textos nunca antes vistos. Esto está motivado en parte por aplicaciones en la adquisición de un segundo idioma , la enseñanza de idiomas y la lingüística forense , entre otros.
NLI trabaja bajo el supuesto de que la L1 de un autor los predispondrá hacia patrones particulares de producción de lenguaje en su L2, influenciados por su lengua materna. Esto se relaciona con la influencia translingüística (CLI), un tema clave en el campo de la adquisición de una segunda lengua (SLA) que analiza los efectos de transferencia de la L1 en las lenguas aprendidas posteriormente.
Utilizando datos en inglés a gran escala, los métodos NLI logran más del 80% de precisión en la predicción del idioma nativo de los textos escritos por autores de 11 orígenes diferentes de L1 [ cita requerida ] . Esto se puede comparar con una línea de base del 9% para elegir al azar.
Esta identificación de características específicas de L1 se ha utilizado para estudiar los efectos de la transferencia del idioma en la adquisición de un segundo idioma. [2] Esto es útil para desarrollar material pedagógico, métodos de enseñanza, instrucciones específicas de L1 y generar comentarios de los alumnos que se adapten a su lengua materna.
Los métodos NLI también se pueden aplicar en lingüística forense como un método para realizar perfiles de autoría con el fin de inferir los atributos de un autor, incluida su formación lingüística. Esto es particularmente útil en situaciones donde un texto, por ejemplo, una carta anónima, es la pieza clave de evidencia en una investigación y las pistas sobre el idioma nativo de un escritor pueden ayudar a los investigadores a identificar la fuente. Esto ya ha atraído el interés y la financiación de las agencias de inteligencia. [3]
Los métodos de procesamiento del lenguaje natural se utilizan para extraer e identificar patrones de uso del lenguaje comunes a los hablantes de un grupo L1. Esto se hace utilizando datos de estudiantes de idiomas, generalmente de un corpus de estudiantes . A continuación, el aprendizaje automático se aplica para entrenar clasificadores, como máquinas de vectores de soporte , para predecir la L1 de textos invisibles. [4] También se ha aplicado una gama de sistemas basados en conjuntos a la tarea y se ha demostrado que mejoran el rendimiento sobre los sistemas de un solo clasificador. [5] [6]
Se han aplicado varios tipos de características lingüísticas para esta tarea. Estos incluyen características sintácticas como análisis de constituyentes, dependencias gramaticales y etiquetas de parte del discurso. También se ha encontrado que las características léxicas de nivel superficial, como los n-gramas de caracteres, palabras y lemas, son bastante útiles para esta tarea. Sin embargo, parece que los n-gramas de caracteres [7] [8] son la mejor característica para la tarea.
El taller Construyendo Aplicaciones Educativas (BEA) en NAACL 2013 fue el anfitrión de la tarea compartida inaugural de NLI. [9] La competencia resultó en 29 entradas de equipos de todo el mundo, 24 de los cuales también publicaron un artículo que describe sus sistemas y enfoques.