El Oxford Inglés Corpus (OEC) es un corpus de texto del siglo 21 Inglés , utilizado por los fabricantes del Diccionario Oxford de Inglés y por Oxford University Press programa de investigación del lenguaje 's. Es el corpus más grande de su tipo, que contiene casi 2.100 millones de palabras. [1] Incluye idiomas del Reino Unido, Estados Unidos, Irlanda, Australia, Nueva Zelanda, el Caribe, Canadá, India, Singapur y Sudáfrica. [2] El texto se recopila principalmente de páginas web ; algunos textos impresos, como revistas académicas, se han recopilado para complementar áreas temáticas particulares. [2]Las fuentes son escritos de todo tipo, desde "novelas literarias y revistas especializadas hasta periódicos y revistas cotidianos y desde Hansard hasta el lenguaje de blogs, correos electrónicos y redes sociales". [2] Esto puede contrastarse con bases de datos similares que muestrean solo un tipo específico de escritura. El corpus generalmente está disponible solo para los investigadores de Oxford University Press, pero otros investigadores que puedan demostrar una gran necesidad pueden solicitar el acceso. [2] [3]
La versión digital del Oxford English Corpus está formateada en XML y generalmente se analiza con el software Sketch Engine . [4] Para el 27 de abril de 2006, la base de datos del diccionario tenía mil millones de palabras. [5]
Cada documento del OE Corpus va acompañado de una denominación de metadatos :
- título
- autor (si se conoce; muchos sitios web hacen que esto sea difícil de determinar de manera confiable)
- género del autor (si se conoce)
- tipo de idioma (por ejemplo, inglés británico, inglés americano)
- sitio web de origen
- año (+ fecha, si se conoce)
- fecha de recogida
- dominio + subdominio
- estadísticas del documento (número de tokens, oraciones, etc.) [4]
Ver también
Referencias
- ^ "El Corpus Inglés de Oxford" . Sketch Engine . Computación Léxica CZ sro . Consultado el 27 de octubre de 2016 .
- ^ a b c d "El Corpus Inglés de Oxford" . Diccionarios de Oxford en línea . Prensa de la Universidad de Oxford . Consultado el 8 de noviembre de 2014 .
- ^ "Comparar COCA" . Corpus de inglés americano contemporáneo . Archivado desde el original el 7 de noviembre de 2014 . Consultado el 8 de noviembre de 2014 .
- ^ a b El Corpus en inglés de Oxford . Consultado el 4 de febrero de 2014.
- ^ "La base de datos del diccionario tiene mil millones de palabras" . Northwest Herald . 27 de abril de 2006. p. 2 . Consultado el 15 de marzo de 2020 , a través de Newspapers.com.