El Corpus Nacional de Polaco (en polaco: Narodowy Korpus Języka Polskiego NKJP) es el corpus más grande e importante de la lengua polaca . Un corpus lingüístico es una colección de textos donde se puede encontrar el uso típico de una sola palabra o frase, así como su significado y función gramatical.
Descripción
El National Corpus of Polish es una iniciativa compartida de cuatro instituciones: el Instituto de Ciencias de la Computación y el Instituto de la Lengua Polaca de la Academia de Ciencias de Polonia , la editorial científica polaca PWN y el Departamento de Lingüística Computacional y de Corpus de la Universidad de Łódź . Ha sido registrado como proyecto de investigación-desarrollo del Ministerio de Ciencia y Educación Superior .
El tamaño previsto de todo el Corpus Nacional de Polaco es de más de mil millones de palabras, de las cuales se ha equilibrado cuidadosamente un subcorpus de 300 millones de palabras, y se ha publicado un corpus de 1 millón anotado manualmente bajo una licencia abierta. Se puede acceder al corpus en línea en http://nkjp.pl/poliqarp/
El corpus contiene literatura clásica, diarios, revistas especializadas y revistas, transcripciones de conversaciones y una variedad de textos breves y de Internet. [1]
Los motores de búsqueda
- PELCRA - 1200 millones de palabras de tres corpus: IPIPAN, PELCRA, PWN. Es fácil de usar y los resultados se pueden descargar en forma de hojas de cálculo. Una sintaxis de consulta especial también permite el uso de expansión morfológica y ortografía, las opciones de búsqueda en una consulta y compuestos fraseológicos léxicos flexibles. PELCRA ofrece también una visualización de la función de registro y la generación de series de tiempo para palabras, frases y modismos.
- POLIQARP : Poliqarp brinda la capacidad de buscar palabras o frases específicas. También permite encontrar la secuencia determinada mediante expresiones regulares, por ejemplo, todas las que ocurren en el cuerpo de frases formadas por un sustantivo y un adjetivo o todas las formas gramaticales de la palabra seleccionada (especialmente útil para estudios sobre el idioma polaco). Estas operaciones, tanto en línea como fuera de línea, se pueden ejecutar con bastante rapidez; por ejemplo, las consultas de búsqueda simples no toman más de unos segundos.
Historia
El primer corpus que surgió fue desarrollado por el Instituto de Lengua Polaca, Academia de Ciencias de Polonia (no disponible públicamente), seguido por el corpus de los editores de PWN, luego el corpus del grupo PELCRA en la Universidad de Łódź, y finalmente el corpus del Instituto de Ciencias de la Computación, Academia Polaca de Ciencias. Los cuatro equipos decidieron unir fuerzas en 2006, formando el Consorcio para el Corpus Nacional de Polonia. [2]