El Corpus Nacional Ruso ( Ruso : Национальный корпус русского языка , lit. 'Corpus Nacional del idioma Ruso') es un corpus del idioma ruso que ha sido parcialmente accesible a través de una interfaz de consulta en línea desde el 29 de abril de 2004. Se está creando por el Instituto de lengua rusa , Academia de Ciencias de Rusia .
Actualmente contiene más de 600 millones de formas de palabras [1] que se lematizan automáticamente y se etiquetan con POS - / gramograma , es decir, se le atribuyen todos los análisis morfológicos posibles para cada forma ortográfica. Se pueden buscar lemas, puntos de venta, elementos gramaticales y sus combinaciones. Además, 6 millones de formas de palabras están en el subcorpus con homonimia resuelta manualmente .
El subcorpus con homonimia morfológica resuelta también se acentúa automáticamente . Todo el corpus tiene un etiquetado de búsqueda sobre semántica léxica (LS), [2] que incluye subclases morfosemánticas POS (nombre propio, pronombre reflexivo, etc.), características LS propiamente dichas (clase temática, causatividad, evaluación), derivación (diminutivo, adverbio formado por adjetivo, etc.).
El RNC incluye también las siguientes subcorpora:
- un Treebank de sintácticos dependencias (en gran parte basado en el Igor Mel'čuk 's Teoría Significado-Texto )
- Inglés⇔Ruso, Alemán⇒Ruso, Ucraniano⇔Ruso y Bielorruso⇔Ruso corpus paralelos ;
- un gran corpus separado (más de 100 millones de palabras) de periódicos modernos (2001–2011);
- un corpus de poesía rusa , donde además se etiquetan las palabras que riman y la prosodia poética (incluida la métrica, estrofas, etc.);
- un corpus de dialectos rusos con etiquetado de gramática dialectal específico;
- un corpus multimedia con fragmentos etiquetados de búsqueda de películas en ruso;
- un corpus que muestra la historia del estrés ruso
- un subcorpus educativo que refleja los estándares escolares.
Todos los textos tienen etiquetas con información metatextual: el autor, su fecha de nacimiento, fecha de creación, tamaño del texto, géneros del texto (ficción general, novela policíaca, artículo de periódico, etc.); todas estas categorías se pueden explorar y buscar por separado. Es posible definir el subcorpus de un usuario para buscar combinaciones de lemata / POS-gramame / etiquetas semánticas solo dentro de este subconjunto.
Ver también
Referencias
- ^ http://ruscorpora.ru/
- ↑ Apresjan, Ju .; Boguslavsky, I .; Iomdin, B .; Iomdin, L .; Sannikov, A .; Sizov, V. (2006). Un corpus de ruso etiquetado sintácticamente y semánticamente: estado del arte y perspectivas . Actas de LREC. Génova, Italia. págs. 1378-1381. CiteSeerX 10.1.1.111.8165 .