El Corpus estándar de Brown University of Present-Day American English (o simplemente Brown Corpus ) es una colección electrónica de muestras de texto del inglés estadounidense, el primer corpus estructurado importante de géneros variados. Este corpus estableció por primera vez el listón para el estudio científico de la frecuencia y distribución de las categorías de palabras en el uso cotidiano del lenguaje. Compilado por Henry Kučera y W. Nelson Francis en la Universidad de Brown , en Rhode Island , es un corpus de lenguaje general que contiene 500 muestras de inglés, con un total de aproximadamente un millón de palabras, compilado a partir de trabajos publicados en los Estados Unidos en 1961.
Historia
En 1967, Kučera y Francis publicaron su obra clásica Computational Analysis of Present-Day American English , que proporcionaba estadísticas básicas sobre lo que hoy se conoce simplemente como Brown Corpus . [1]
El Brown Corpus fue una selección cuidadosamente recopilada del inglés estadounidense actual, con un total de aproximadamente un millón de palabras extraídas de una amplia variedad de fuentes. Kučera y Francis lo sometieron a una variedad de análisis computacionales, a partir de los cuales compilaron una obra rica y variada, combinando elementos de lingüística, psicología, estadística y sociología. Ha sido muy utilizado en lingüística computacional y estuvo durante muchos años entre los recursos más citados en el campo. [2]
Poco después de la publicación del primer análisis lexicoestadístico , la editorial de Boston Houghton-Mifflin se acercó a Kučera para proporcionar una base de citas de un millón de palabras y tres líneas para su nuevo American Heritage Dictionary . Este nuevo diccionario innovador, que apareció por primera vez en 1969, fue el primer diccionario que se compiló utilizando la lingüística de corpus para la frecuencia de palabras y otra información.
El Brown Corpus inicial solo tenía las palabras en sí, más un identificador de ubicación para cada una. Durante los siguientes años, se aplicaron etiquetas de parte del discurso. El programa de etiquetado de Greene y Rubin (ver bajo la parte de etiquetado de voz ) ayudó considerablemente en esto, pero la alta tasa de error significó que se requirió una extensa revisión manual.
El Brown Corpus etiquetado utilizó una selección de aproximadamente 80 partes del discurso, así como indicadores especiales para formas compuestas, contracciones, palabras extranjeras y algunos otros fenómenos, y formó el modelo para muchos corpus posteriores, como el Corpus de Lancaster-Oslo-Bergen. (Inglés británico de principios de la década de 1990) y el Corpus de Freiburg-Brown of American English (FROWN) (inglés estadounidense de principios de la década de 1990). [3] [4] Etiquetar el corpus permitió un análisis estadístico mucho más sofisticado, como el trabajo programado por Andrew Mackie, y documentado en libros sobre gramática inglesa. [5]
Un resultado interesante es que incluso para muestras bastante grandes, graficar palabras en orden de frecuencia decreciente de ocurrencia muestra una hipérbola : la frecuencia de la n -ésima palabra más frecuente es aproximadamente proporcional a 1 / n . Así, "el" constituye casi el 7% del Brown Corpus, "a" y "de" más de otro 3% cada uno; mientras que aproximadamente la mitad del vocabulario total de unas 50.000 palabras son hapax legomena : palabras que aparecen una sola vez en el corpus. [6] Esta simple relación de rango versus frecuencia fue notada por George Kingsley Zipf para una extraordinaria variedad de fenómenos (por ejemplo, vea su Psicobiología del lenguaje ), y se conoce como la ley de Zipf .
Aunque el Brown Corpus fue pionero en el campo de la lingüística de corpus, los corpus típicos (como el Corpus of Contemporary American English , el British National Corpus o el International Corpus of English ) tienden a ser mucho más grandes, del orden de 100 millones de palabras.
Distribución de la muestra
El Corpus consta de 500 muestras, distribuidas en 15 géneros en proporción aproximada a la cantidad publicada en 1961 en cada uno de esos géneros. Todas las obras incluidas en la muestra se publicaron en 1961; en la medida en que se pudo determinar, se publicaron por primera vez y fueron escritos por hablantes nativos de inglés americano.
Cada muestra comenzaba en un límite de oración aleatorio en el artículo u otra unidad elegida, y continuaba hasta el límite de la primera oración después de 2000 palabras. En muy pocos casos, los errores de conteo llevaron a que las muestras tuvieran un poco menos de 2000 palabras.
La entrada de datos original se realizó en máquinas perforadoras de teclas solo en mayúsculas ; las mayúsculas se indicaban con un asterisco anterior y varios elementos especiales, como fórmulas, también tenían códigos especiales.
El corpus originalmente (1961) contenía 1.014.312 palabras muestreadas de 15 categorías de texto:
- A. PRENSA: Reportaje ( 44 textos )
- Político
- Deportes
- Sociedad
- Noticias puntuales
- Financiero
- Cultural
- B. PRENSA: Editorial ( 27 textos )
- Diario institucional
- Personal
- Cartas al editor
- C. PRENSA: Reseñas ( 17 textos )
- teatro
- libros
- música
- baile
- D. RELIGIÓN ( 17 textos )
- Libros
- Publicaciones periódicas
- Tratados
- E. HABILIDADES Y AFICIONES ( 36 textos )
- Libros
- Publicaciones periódicas
- F. LORE POPULAR ( 48 textos )
- Libros
- Publicaciones periódicas
- G. BELLES-LETTRES - Biografía, Memorias, etc. ( 75 textos )
- Libros
- Publicaciones periódicas
- H. VARIOS: Gobierno de EE. UU. Y órganos internos ( 30 textos )
- Documentos gubernamentales
- Informes de la fundación
- Informes de la industria
- Catálogo universitario
- Órgano de la casa de la industria
- J. APRENDIDO ( 80 textos )
- Ciencias Naturales
- Medicamento
- Matemáticas
- Ciencias sociales y del comportamiento
- Ciencias Políticas, Derecho, Educación
- Humanidades
- Tecnología e Ingeniería
- K. FICCIÓN: General ( 29 textos )
- Novelas
- Cuentos cortos
- L. FICCIÓN: Misterio y ficción detectivesca ( 24 textos )
- Novelas
- Cuentos cortos
- M. FICCIÓN: Ciencia ( 6 textos )
- Novelas
- Cuentos cortos
- N. FICCIÓN: Aventura y Western ( 29 textos )
- Novelas
- Cuentos cortos
- P. FICCIÓN: Romance e historia de amor ( 29 textos )
- Novelas
- Cuentos cortos
- R. HUMOR ( 9 textos )
- Novelas
- Ensayos, etc.
Etiquetas de parte del discurso utilizadas
Etiqueta | Definición |
---|---|
. | oración (. ; ? *) |
( | pariente izquierdo |
) | par derecho |
* | no, no |
- | pizca |
, | coma |
: | colon |
ABL | precalificador (bastante, más bien) |
ABN | pre-cuantificador (la mitad, todo) |
ABX | pre-cuantificador (ambos) |
AP | post-determinante (muchos, varios, siguiente) |
A | artículo (a, el, no) |
SER | ser |
CAMA | fueron |
BEDZ | estaba |
MENDIGAR | ser |
BEM | soy |
BEN | estado |
BER | son, arte |
BBB | es |
CC | coordinar conjunción (y, o) |
CD | número cardinal (uno, dos, 2, etc.) |
CS | conjunción subordinante (si, aunque) |
HACER | hacer |
DOD | hizo |
DOZ | lo hace |
DT | determinante / cuantificador singular (esto, aquello) |
DTI | determinante / cuantificador singular o plural (algunos, cualquiera) |
DTS | determinante plural (estos, esos) |
DTX | determinante / doble conjunción (cualquiera) |
EX | existencial allí |
FW | palabra extranjera (con guión antes de la etiqueta regular) |
HL | palabra que aparece en el título (con guión después de la etiqueta regular) |
HV | tengo |
HVD | had (tiempo pasado) |
HVG | teniendo |
HVN | had (participio pasado) |
HVZ | posee |
EN | preposición |
JJ | adjetivo |
JJR | adjetivo comparativo |
JJS | adjetivo semánticamente superlativo (jefe, arriba) |
J, J; T | adjetivo morfológicamente superlativo (más grande) |
Maryland | auxiliar modal (puede, debería, será) |
CAROLINA DEL NORTE | palabra citada (con guión después de la etiqueta regular) |
NN | sustantivo singular o masivo |
NN $ | sustantivo posesivo singular |
NNS | sustantivo plural |
NNS $ | sustantivo plural posesivo |
notario público | nombre propio o parte de la frase del nombre |
NP $ | sustantivo propio posesivo |
NPS | sustantivo propio plural |
NPS $ | posesivo plural nombre propio |
NR | sustantivo adverbial (hogar, hoy, oeste) |
NRS | sustantivo adverbial plural |
sobredosis | numeral ordinal (primero, segundo) |
PN | pronombre nominal (todos, nada) |
PN $ | pronombre nominal posesivo |
PP $ | pronombre personal posesivo (mi, nuestro) |
PP $$ | segundo pronombre posesivo (nominal) (mío, nuestro) |
PPL | pronombre personal singular reflexivo / intensivo (yo mismo) |
PPLS | pronombre personal plural reflexivo / intensivo (nosotros mismos) |
PPO | pronombre personal objetivo (yo, él, él, ellos) |
PPS | 3er. pronombre nominativo singular |
PPSS | otro pronombre personal nominativo (yo, nosotros, ellos, tú) |
QL | calificador (muy, bastante) |
QLP | post-calificador (suficiente, de hecho) |
RB | adverbio |
RBR | adverbio comparativo |
RBT | adverbio superlativo |
RN | adverbio nominal (aquí, entonces, adentro) |
RP | adverbio / partícula (aproximadamente, apagado, arriba) |
TL | palabra que aparece en el título (con guión después de la etiqueta regular) |
A | marcador de infinitivo a |
OH | interjección, exclamación |
VB | verbo, forma base |
VBD | verbo, tiempo pasado |
VBG | verbo, participio presente / gerundio |
VBN | verbo, participio pasado |
VBP | verbo, no tercera persona, singular, presente |
VBZ | verbo, 3er. presente singular |
WDT | wh- determinante (qué, cuál) |
WP $ | posesivo wh- pronombre (cuyo) |
WPO | objetivo wh- pronombre (quién, cuál, ese) |
WPS | nominativo wh- pronombre (quién, cuál, ese) |
WQL | wh- calificador (cómo) |
WRB | wh- adverbio (cómo, dónde, cuándo) |
Tenga en cuenta que algunas versiones del corpus Brown etiquetado contienen etiquetas combinadas. Por ejemplo, la palabra "wanna" está etiquetada como VB + TO, ya que es una forma contraída de las dos palabras, want / VB y to / TO. Además, algunas etiquetas pueden ser negadas, por ejemplo, "no" se etiquetaría como "BER *", donde * significa la negación. Además, las etiquetas pueden tener guiones: la etiqueta -HL está dividida en guiones a las etiquetas regulares de palabras en los titulares. La etiqueta -TL se divide con guiones a las etiquetas regulares de palabras en los títulos. La partición -NC significa una palabra enfatizada . A veces, la etiqueta tiene un prefijo FW- que significa palabra extranjera. [ cita requerida ]
Ver también
- LOB Corpus , un corpus de inglés británico basado en los mismos parámetros que Brown Corpus
- Corpus Nacional Británico
Referencias
- ^ Francis, W. Nelson y Henry Kucera. 1967. Análisis computacional del inglés americano actual. Providence, RI: Brown University Press.
- ^ Francis, W. Nelson y Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual de información para acompañar un corpus estándar de inglés estadounidense editado actual para su uso con computadoras digitales. http://icame.uib.no/brown/bcm.html .
- ^ Hundt, Marianne, Andrea Sand y Rainer Siemund. 1998. Manual de información para acompañar el Corpus Freiburg-Brown de inglés americano (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
- ^ Sanguijuela, Geoffrey y Nicholas Smith. 2005. Ampliando las posibilidades de la investigación basada en corpus sobre el inglés en el siglo XX: una precuela de LOB y FLOB. Revista ICAME 29. 83–98.
- ^ Winthrop Nelson Francis y Henry Kučera. 1983. Análisis de frecuencia del uso del inglés: léxico y gramática, Houghton Mifflin.
- ^ Kirsten Malmkjær, The Linguistics Encyclopedia , 2da ed, Routledge, 2002, ISBN 0-415-22210-9 , p. 87.