Corpus de inglés americano contemporáneo

El Corpus of Contemporary American English ( COCA ) es un corpus de mil millones de palabras ^[1] de inglés americano contemporáneo . Fue creado por Mark Davies , profesor retirado de Corpus Linguistics en la Universidad Brigham Young (BYU) ^[2] . ^[3]

El Corpus of Contemporary American English (COCA) está compuesto por mil millones de palabras a noviembre de 2021. ^[1]^[2]^[4] El corpus está en constante crecimiento: en 2009 contenía más de 385 millones de palabras; ^[5] En 2010, el corpus creció hasta los 400 millones de palabras; ^[6] Para marzo de 2019, ^[7] el corpus había crecido a 560 millones de palabras; ^[8] Y para diciembre de 2019, el corpus había alcanzado los mil millones de palabras. ^[2]

A noviembre de 2021, el Corpus of Contemporary American English está compuesto por 485.202 textos. ^[9] Según el sitio web del corpus, ^[4] el corpus actual (noviembre de 2021) está compuesto por textos que incluyen 24-25 millones de palabras para cada año 1990-2019.

Para cada año contenido en el corpus (1990-2019), el corpus se divide equitativamente entre seis registros/géneros: tv/cine, hablado, ficción, revista, periódico y académico (ver página de Textos y Registros del sitio web de la COCA). Además de los seis registros que se enumeraron anteriormente, COCA (a noviembre de 2021) también contiene 125 496 215 palabras de blogs y 129 899 426 de sitios web, lo que lo convierte en un corpus verdaderamente compuesto de inglés contemporáneo (consulte la página Textos y registros de COCA) . ^[9]

El Corpus of Contemporary American English es gratuito para buscar utilizando su interfaz web, los usuarios solo deben registrar una cuenta gratuita que permite ejecutar un número limitado de consultas por día.

El corpus de Glo bal Web - based English ( GloWbE ; pronunciado "globe") contiene alrededor de 1.900 millones de palabras de texto de veinte países diferentes. Esto lo hace unas 100 veces más grande que otros corpus como el International Corpus of English, y permite muchos tipos de búsquedas que de otro modo no serían posibles. Además de esta interfaz en línea, también puede descargar datos de texto completo del corpus.