Corpus Lancaster-Oslo-Bergen


El Corpus de Lancaster-Oslo / Bergen (a menudo abreviado como LOB Corpus ) es una colección de un millón de palabras de textos en inglés británico que se compiló en la década de 1970 en colaboración entre la Universidad de Lancaster , la Universidad de Oslo y el Centro Noruego de Computación para la Humanities , Bergen , para proporcionar una contraparte británica al Brown Corpus compilado por Henry Kučera y W. Nelson Francis para el inglés estadounidense en la década de 1960.

Su composición fue diseñada para coincidir con el corpus original de Brown en términos de tamaño y géneros lo más fielmente posible utilizando documentos publicados en el Reino Unido por autores británicos. Ambos corpus constan de 500 muestras, cada una de las cuales comprende unas 2000 palabras de los siguientes géneros:

El corpus también se ha etiquetado , es decir, se han asignado categorías de parte del discurso a cada palabra. [ cita requerida ]