De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La lingüística de corpus es el estudio del lenguaje como un lenguaje se expresa en su corpus de texto ( corpora plural ), su cuerpo de texto del "mundo real". La lingüística de corpus propone que el análisis del lenguaje confiable es más factible con corpora recolectados en el campo en su contexto natural ("realia"), y con mínima interferencia experimental.

El método text-corpus es un enfoque digestivo que deriva un conjunto de reglas abstractas que gobiernan un lenguaje natural a partir de textos en ese idioma, y ​​explora cómo ese lenguaje se relaciona con otros idiomas. La derivación de corpus a partir de textos fuente se realizó primero manualmente, pero ahora está automatizada.

Los corpus no solo se han utilizado para la investigación lingüística, sino que también se han utilizado para compilar diccionarios (comenzando con The American Heritage Dictionary of the English Language en 1969) y guías gramaticales, como A Comprehensive Grammar of the English Language , publicado en 1985.

Los expertos en el campo tienen diferentes puntos de vista sobre la anotación de un corpus. Estos puntos de vista van desde John McHardy Sinclair , que defiende la anotación mínima para que los textos hablen por sí mismos, [1] hasta el equipo de Survey of English Usage ( University College, Londres ), que defiende que la anotación permite una mayor comprensión lingüística a través de una grabación rigurosa. [2]

Historia [ editar ]

Algunos de los primeros esfuerzos de descripción gramatical se basaron, al menos en parte, en corpus de particular importancia religiosa o cultural. Por ejemplo, la literatura Prātiśākhya describió los patrones de sonido del sánscrito que se encuentran en los Vedas , y la gramática del sánscrito clásico de Pāṇini se basó, al menos en parte, en el análisis de ese mismo corpus. Del mismo modo, los primeros gramáticos árabes prestaron especial atención al idioma del Corán . En la tradición de Europa occidental, los eruditos prepararon concordancias para permitir un estudio detallado del idioma de la Biblia y otros textos canónicos.

Corpus en inglés [ editar ]

Un hito en la lingüística moderna de corpus fue la publicación de Computational Analysis of Present-Day American English en 1967. Escrito por Henry Kučera y W. Nelson Francis , el trabajo se basó en un análisis del Brown Corpus , que era una compilación contemporánea de aproximadamente un millón de palabras en inglés estadounidense, cuidadosamente seleccionadas de una amplia variedad de fuentes. [3] Kučera y Francis sometieron el Brown Corpus a una variedad de análisis computacionales y luego combinaron elementos de lingüística, enseñanza de idiomas, psicología , estadística y sociología para crear una obra rica y variada. Otra publicación clave fue Randolph Quirk"Hacia una descripción del uso del inglés" en 1960 [4] en la que presentó la Encuesta sobre el uso del inglés .

Poco después, el editor de Boston Houghton-Mifflin se acercó a Kučera para proporcionar una base de citas de un millón de palabras y tres líneas para su nuevo American Heritage Dictionary , el primer diccionario compilado utilizando lingüística de corpus. El AHD dio el paso innovador de la combinación de elementos prescriptivos (cómo el lenguaje debe ser usado) con información descriptiva (forma en que realmente se utiliza).

Otros editores siguieron su ejemplo. El diccionario monolingüe COBUILD de la editorial británica Collins , diseñado para usuarios que aprenden inglés como lengua extranjera , se compiló utilizando el Bank of English . El Survey of English Usage Corpus se utilizó en el desarrollo de una de las gramáticas basadas en Corpus más importantes, que fue escrito por Quirk et al. y publicado en 1985 como A Comprehensive Grammar of the English Language . [5]

El Brown Corpus también ha generado una serie de corpus estructurados de manera similar: el LOB Corpus ( inglés británico de la década de 1960 ), Kolhapur ( inglés indio ), Wellington (inglés de Nueva Zelanda ), Australian Corpus of English ( Australian English ), Frown Corpus ( principios de la década de 1990). Inglés americano ) y el FLOB Corpus (inglés británico de la década de 1990). Otros corpus representan muchos idiomas, variedades y modos, e incluyen el International Corpus of English y el British National Corpus , una colección de 100 millones de palabras de una variedad de textos hablados y escritos, creada en la década de 1990 por un consorcio de editores, universidades (Oxford y Lancaster ) y la Biblioteca Británica . Para el inglés estadounidense contemporáneo, el trabajo se ha estancado en el American National Corpus , pero el Corpus of Contemporary American English de más de 400 millones de palabras (1990-presente) está ahora disponible a través de una interfaz web.

El primer corpus computarizado de lenguaje hablado transcrito fue construido en 1971 por el Proyecto Francés de Montreal, [6] conteniendo un millón de palabras, que inspiró el corpus mucho más grande de francés hablado de Shana Poplack en el área de Ottawa-Hull. [7]

Corpora multilingüe [ editar ]

En la década de 1990, muchos de los primeros éxitos notables en los métodos estadísticos en la programación en lenguaje natural (PNL) se produjeron en el campo de la traducción automática , debido especialmente al trabajo en IBM Research. Estos sistemas pudieron aprovechar los corpus textuales multilingües existentes que habían sido elaborados por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes.

También hay corpus en idiomas no europeos. Por ejemplo, el Instituto Nacional de Lengua y Lingüística Japonesa de Japón ha creado varios corpus de japonés hablado y escrito .

Corpus de lenguas antiguas [ editar ]

Además de estos corpus de lenguas vivas, también se han elaborado corpus computarizados de colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos Andersen- Forbes de la Biblia hebrea, desarrollada desde la década de 1970, en la que cada cláusula se analiza mediante gráficos que representan hasta siete niveles de sintaxis y cada segmento está etiquetado con siete campos de información. [8] [9] El Corpus Árabe Coránico es un corpus anotado para el idioma árabe clásico del Corán . Este es un proyecto reciente con múltiples capas de anotación que incluyen segmentación morfológica, etiquetado de parte del discurso y análisis sintáctico utilizando gramática de dependencia. [10]

Corpora de campos específicos [ editar ]

Además de la investigación lingüística pura, los investigadores habían comenzado a aplicar la lingüística de corpus a otros campos académicos y profesionales, como la subdisciplina emergente del derecho y la lingüística de corpus , que busca comprender los textos legales utilizando datos y herramientas de corpus.

Métodos [ editar ]

La lingüística de corpus ha generado una serie de métodos de investigación que intentan trazar un camino desde los datos hasta la teoría. Wallis y Nelson (2001) [11] introdujeron por primera vez lo que llamaron la perspectiva 3A: anotación, abstracción y análisis.

  • La anotación consiste en la aplicación de un esquema a los textos. Las anotaciones pueden incluir marcado estructural, etiquetado de parte del discurso , análisis y muchas otras representaciones.
  • La abstracción consiste en la traducción (mapeo) de términos en el esquema a términos en un modelo o conjunto de datos motivados teóricamente. La abstracción generalmente incluye la búsqueda dirigida por lingüistas, pero puede incluir, por ejemplo, aprendizaje de reglas para analizadores sintácticos.
  • El análisis consiste en sondear, manipular y generalizar estadísticamente a partir del conjunto de datos. El análisis puede incluir evaluaciones estadísticas, optimización de bases de reglas o métodos de descubrimiento de conocimientos.

La mayoría de los corpus léxicos actuales están etiquetados como parte del discurso (etiqueta POS). Sin embargo, incluso los lingüistas de corpus que trabajan con "texto plano sin anotaciones" inevitablemente aplican algún método para aislar términos destacados. En tales situaciones, la anotación y la abstracción se combinan en una búsqueda léxica.

La ventaja de publicar un corpus anotado es que otros usuarios pueden realizar experimentos en el corpus (a través de administradores de corpus ). Los lingüistas con otros intereses y perspectivas diferentes a las de los creadores pueden aprovechar este trabajo. Al compartir datos, los lingüistas de corpus pueden tratar el corpus como un lugar de debate lingüístico y estudio adicional. [12]

Ver también [ editar ]

  • Atlas lingüístico del inglés medio temprano
  • Colocación
  • Análisis colostruccional
  • Concordancia ( KWIC )
  • Asociación Europea de Recursos Lingüísticos
  • Palabra clave (lingüística)
  • Consorcio de datos lingüísticos
  • Lista de corpus de texto
  • Máquina traductora
  • Kit de herramientas de lenguaje natural
  • Gramática de patrones
  • Motores de búsqueda : acceden al "corpus web"
  • Prosodia semántica
  • Corpus de habla
  • Corpus de texto
  • Memoria de traducción
  • Treebank

Notas y referencias [ editar ]

  1. ^ Sinclair, J. 'El análisis automático de corpora', en Svartvik, J. (ed.) Direcciones en Corpus Linguistics (Actas del Simposio Nobel 82) . Berlín: Mouton de Gruyter. 1992.
  2. ^ Wallis, S. 'Anotación, recuperación y experimentación', en Meurman-Solin, A. & Nurmi, AA (ed.) Anotando variación y cambio. Helsinki: Varieng, [Universidad de Helsinki]. 2007. e-Published
  3. ^ Francis, W. Nelson; Kučera, Henry (1 de junio de 1967). Análisis computacional del inglés americano actual . Providencia: Brown University Press. ISBN 978-0870571053.
  4. ^ Quirk, Randolph (noviembre de 1960). "Hacia una descripción del uso en inglés". Transacciones de la Sociedad Filológica . 59 (1): 40–61.
  5. ^ Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). Una gramática integral del idioma inglés . Londres: Longman. ISBN 978-0582517349.
  6. ^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Muestra de métodos de encuesta y análisis asistido por computadora en el estudio de la variación gramatical". Idiomas canadienses en su contexto social . Edmonton: Investigación lingüística incorporada: 7-63.
  7. ^ Poplack, Shana (1989). Fasold, R .; Schiffrin, D. (eds.). "El cuidado y manejo de un mega-corpus". Cambio y variación del idioma . Amsterdam: Benjamins: 411–451.
  8. ^ Andersen, Francis I .; Forbes, A. Dean (2003), "Gramática hebrea visualizada: I. Sintaxis", Estudios del Antiguo Cercano Oriente , 40 , págs. 43-61 [45]
  9. ^ Eyland, E. Ann (1987), "Revelaciones de Word Counts", en Newing, Edward G .; Conrad, Edgar W. (eds.), Perspectivas sobre el lenguaje y el texto: Ensayos y poemas en honor al sexagésimo cumpleaños de Francis I. Andersen, 28 de julio de 1985 , Winona Lake, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
  10. ^ Dukes, K., Atwell, E. y Habash, N. 'Colaboración supervisada para la anotación sintáctica del árabe coránico'. Revista de Recursos Lingüísticos y Evaluación . 2011.
  11. ^ Wallis, S. y Nelson G. Descubrimiento del conocimiento en corpus analizados gramaticalmente . Minería de datos y descubrimiento de conocimientos , 5 : 307–340. 2001.
  12. ^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulación de enfoques metodológicos en la investigación corpus-lingüística . Nueva York: Routledge.

Lectura adicional [ editar ]

Libros [ editar ]

  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7 
  • McCarthy, D. y Sampson G. Corpus Linguistics: Readings in a Widening Discipline , Continuum, 2005. ISBN 0-8264-8803-X 
  • Facchinetti, R. Descripción teórica y aplicaciones prácticas de los corpus lingüísticos . Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3 
  • Facchinetti, R. (ed.) Corpus Linguistics 25 años después . Nueva York / Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2 
  • Facchinetti, R. y Rissanen M. (eds.) Estudios basados ​​en corpus del inglés diacrónico . Berna: Peter Lang, 2006 ISBN 3-03910-851-4 
  • Prestamistas, W. Lexicografía computacional y lingüística de corpus hasta ca. 1970/1980 , en: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds.) Dictionaries - An International Encyclopedia of Lexicography. Volumen complementario: Desarrollos recientes con enfoque en lexicografía electrónica y computacional . Berlín: De Gruyter Mouton, 2013 ISBN 978-3112146651 
  • Fuß, Eric y col. (Eds.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 ( acceso abierto digital ).
  • Stefanowitsch A. 2020. Lingüística de corpus: una guía para la metodología. Berlín: Language Science Press. ISBN 978-3-96110-225-9 , doi : 10.5281 / zenodo.3735822 Acceso abierto https://langsci-press.org/catalog/book/148 . 

Serie de libros [ editar ]

Las series de libros en este campo incluyen:

  • Lenguaje y Computadoras (Brill)
  • Estudios en Lingüística de Corpus (John Benjamins)
  • Lingüística de corpus en inglés (Peter Lang)
  • Corpus y discurso (Bloomsbury)

Revistas [ editar ]

Hay varias revistas internacionales revisadas por pares dedicadas a la lingüística de corpus, por ejemplo:

  • Corpora
  • Lingüística de corpus y teoría lingüística
  • Revista ICAME
  • Revista Internacional de Lingüística de Corpus
  • Revista de evaluación y recursos lingüísticos , con el apoyo de la Asociación europea de recursos lingüísticos
  • Investigación en Lingüística de Corpus , apoyada por la Asociación Española de Lingüística de Corpus (AELINCO)

Enlaces externos [ editar ]

  • Marcadores para lingüistas basados ​​en corpus: sitio muy completo con enlaces categorizados y anotados a corpus de idiomas, software, referencias, etc.
  • Lista de discusión de corpora
  • Corpus de Internet disponibles de forma gratuita (100 millones - 400 millones de palabras cada uno): estadounidense (COCA, COHA), británico (BNC), TIME, español, portugués
  • Sitio de resumen de Manuel Barbera
  • Lista de referencias de Przemek Kaszubski
  • AskOxford.com la composición y uso del Oxford Corpus
  • DMCBC.com
  • Datum Multilenguage Corpora Basado en descarga de muestra gratuita en chino
  • Corpus4u Community, un foro chino en línea para la lingüística de corpus
  • Página de Lingüística de Corpus de McEnery y Wilson
  • Corpus Linguistics con lista de correo R
  • Unidad de Investigación y Desarrollo de Estudios Ingleses
  • Encuesta sobre el uso del inglés
  • El Centro de Lingüística de Corpus de la Universidad de Birmingham
  • Herramientas para la lingüística de corpus (lista anotada)
  • Gateway to Corpus Linguistics en Internet : una guía comentada de los recursos del corpus en la web
  • Corpus biomédicos
  • Consorcio de datos lingüísticos , un importante distribuidor de corpora
  • Penn Parsed Corpora of Historical English
  • Corsis : (anteriormente Tenka Text) una herramienta de análisis de corpus de código abierto ( GPL ) escrita en C #
  • ICECUP y fragmentos de árboles difusos
  • Minería de texto en grupos de discusión
  • Comunidad de debate de Google+ sobre lingüística de corpus para el aprendizaje y la enseñanza de idiomas
  • Una conferencia relacionada con la lingüística del corpus MAG 2017: Puede encontrar información y eventos relacionados con Metadiscourse Across Genres visitando el sitio web de MAG 2017 .
  • Corpus de discursos políticos , acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
  • LightTag -Text Annotation Tool , una herramienta de anotación de texto para corpus de aprendizaje automático centrada en la gestión de equipos
  • Corpus síncrono LIVAC