Lista de palabras


Una lista de palabras (o léxico ) es una lista del léxico de un idioma (generalmente ordenada por frecuencia de ocurrencia, ya sea por niveles o como una lista clasificada) dentro de un corpus de texto dado , que sirve para la adquisición de vocabulario . Un léxico ordenado por frecuencia "proporciona una base racional para asegurarse de que los alumnos obtengan el mejor rendimiento por su esfuerzo de aprendizaje de vocabulario" ( Nation 1997 ), pero está destinado principalmente a los redactores de cursos, no directamente a los alumnos. Las listas de frecuencias también se elaboran con fines lexicográficos, y sirven como una especie de lista de verificación para garantizar que no se omitan palabras comunes. Algunas de las principales dificultades son el contenido del corpus, el registro del corpusy la definición de " palabra ". Si bien el conteo de palabras tiene mil años, con un análisis aún gigantesco hecho a mano a mediados del siglo XX, el procesamiento electrónico en lenguaje natural de grandes corpora como subtítulos de películas (SUBTLEX megastudy) ha acelerado el campo de investigación.

En lingüística computacional , una lista de frecuencia es una lista ordenada de palabras (tipos de palabras) junto con su frecuencia , donde frecuencia aquí generalmente significa el número de ocurrencias en un corpus dado , de la cual se puede derivar el rango como la posición en la lista.

Nation ( Nation 1997 ) destacó la increíble ayuda que brindan las capacidades informáticas, lo que hace que el análisis de corpus sea mucho más fácil. Citó varias cuestiones clave que influyen en la construcción de listas de frecuencias:

La mayoría de los estudios disponibles actualmente se basan en un corpus de texto escrito , más fácilmente disponible y fácil de procesar.

Sin embargo, New et al. 2007 propuso aprovechar la gran cantidad de subtítulos disponibles en línea para analizar un gran número de discursos. Brysbaert & New 2009 realizó una larga evaluación crítica de este enfoque de análisis textual tradicional y respalda un movimiento hacia el análisis del habla y el análisis de subtítulos de películas disponibles en línea. Esto ha sido seguido recientemente por un puñado de estudios de seguimiento, [1] que proporcionan un valioso análisis de recuento de frecuencias para varios idiomas. De hecho, el movimiento SUBTLEX completó en cinco años estudios completos para francés ( New et al.2007 ), inglés americano ( Brysbaert & New 2009 ; Brysbaert, New & Keuleers 2012 ), holandés ( Keuleers & New 2010), Chino ( Cai & Brysbaert 2010 ), español ( Cuetos et al.2011 ), griego ( Dimitropoulou et al.2010 ), vietnamita ( Pham, Bolger & Baayen 2011 ), portugués de Brasil ( Tang 2012 ) y portugués de Portugal ( Soares et al.2010 ) . al., 2015 ), Albania ( Avdyli y Cuetos 2013 ) y polaco ( Mandera et al. 2014 ). SUBTLEX-IT (2015) proporciona solo datos sin procesar. [1]

En cualquier caso, debe definirse la unidad básica de "palabra". Para los alfabetos latinos, las palabras suelen tener uno o varios caracteres separados por espacios o puntuación. Pero pueden surgir excepciones, como "no puedo" en inglés, "aujourd'hui" en francés o modismos. También puede ser preferible agrupar palabras de una familia de palabras bajo la representación de su palabra base . Así, posible, imposible, posibilidad son palabras de la misma familia de palabras, representadas por la palabra base * possib *. Para fines estadísticos, todas estas palabras se resumen bajo la forma de palabra base * possib *, lo que permite la clasificación de un concepto y la ocurrencia de la forma. Además, otros idiomas pueden presentar dificultades específicas. Tal es el caso del chino, que no utiliza espacios entre palabras y donde una cadena especificada de varios caracteres se puede interpretar como una frase de palabras de caracteres únicos o como una palabra de varios caracteres.