Corpus de inglés de Cambridge


El Cambridge English Corpus (CEC) (anteriormente Cambridge International Corpus , CIC ), es un corpus de miles de millones de palabras del idioma inglés (que contiene tanto corpus de texto como datos de corpus hablados). El Cambridge English Corpus contiene datos de varias fuentes, incluido el inglés escrito y hablado , británico y americano . El CEC también contiene el Cambridge Learner Corpus, un corpus de 40 millones de palabras formado por respuestas de exámenes de inglés escritas por estudiantes de inglés.

El Cambridge English Corpus se utiliza para informar las publicaciones sobre enseñanza del idioma inglés de Cambridge University Press , así como para la investigación en lingüística de corpus . Actualmente, el acceso está restringido a los autores e investigadores que trabajan en proyectos y publicaciones para Cambridge University Press , ya los investigadores de Cambridge English Language Assessment . [1]

El Cambridge English Corpus contiene ejemplos de inglés escrito moderno, tomados de periódicos, revistas, novelas, cartas, correos electrónicos, libros de texto, sitios web y muchas otras fuentes.

El Cambridge English Corpus contiene una amplia variedad del idioma inglés hablado, tomado de muchas fuentes, incluidas conversaciones cotidianas, llamadas telefónicas, transmisiones de radio, presentaciones, discursos, reuniones, programas de televisión y conferencias.

El Cambridge Learner Corpus (CLC) es una colección de guiones de exámenes escritos por estudiantes que aprenden inglés, creado en colaboración con Cambridge English Language Assessment. El CLC contiene guiones de más de 180.000 estudiantes, de alrededor de 200 países, que hablan 138 lenguas maternas diferentes y está creciendo todo el tiempo. [2] Los exámenes incluidos actualmente son:

Una característica única del Cambridge Learner Corpus es su sistema de codificación de errores. Los especialistas en idiomas identifican y anotan los errores en los guiones de los exámenes. Esto significa que el Corpus se puede utilizar para conocer la frecuencia de los diferentes tipos de errores, los contextos en los que se cometen los errores y los grupos de estudiantes que encuentran dificultades en determinadas áreas del idioma. [3]