Bosquejo de la palabra


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Bosquejo de la palabra del verbo "leer" en el British National Corpus en Sketch Engine

Un bosquejo de palabras es un resumen de una página, automático, derivado del corpus del comportamiento gramatical y de colocación de una palabra. Los bocetos de palabras fueron introducidos por primera vez por el lingüista de corpus británico Adam Kilgarriff [1] y explotados dentro del sistema de gestión de corpus Sketch Engine [2] . Son una extensión del concepto de colocación general utilizado en la lingüística de corpus, ya que agrupan las colocaciones de acuerdo con relaciones gramaticales particulares (por ejemplo, sujeto, objeto, modificador, etc.). Los candidatos a la colocación en un bosquejo de palabras se ordenan por su frecuencia o usando una puntuación de asociación lexicográfica como Dice , T-score o MI-score .

Desde la introducción, los lexicógrafos han utilizado bocetos de palabras para desarrollar diccionarios modernos basados ​​en corpus por las principales editoriales, como el Oxford English Dictionary, [3] Macmillan English Dictionary [1] y que comprende docenas de idiomas, incluidos inglés, [1] chino, [ 4] esloveno, [5] japonés, [6] holandés, [7] rumano, [8] ruso, [9] checo, [10] polaco, [11] vietnamita, [12] turco, [13] portugués, [ 14] hindi, [15] español [16]y otros. [17]

Cuenta formal

Un boceto de palabra triple es un triple que consta de un encabezado, relación gramatical, colocación (por ejemplo , hombre, modificador, joven ). Considerando un corpus de texto subyacente , un quintuple de bocetos de palabras es un quíntuplo que consta de un encabezado, una relación gramatical, una colocación, la posición del encabezamiento en el corpus, la posición de la colocación en el corpus (por ejemplo , hombre, modificador, joven, 104, 103 ). Una base de datos de bocetos de palabras es un conjunto de triples o quintuplos, que se pueden generar consultando un corpus usando el lenguaje de consulta de corpus [18] o analizando el corpus usando un analizador de lenguaje natural. [19]

Referencias

  1. ^ a b c Kilgarriff, Adam; Rychlý, Pavel; Smrž, Pavel; Tugwell, David (2004) El motor de bocetos. Tecnología de la información, 2004
  2. ^ Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít (2004) The Sketch Engine: Diez años después. En Lexicography, página 7-36, Springer Berlin Heidelberg
  3. ^ Jonathan Culpeper (2009) El metalenguaje de la descortesía: uso de Sketch Engine para explorar el Oxford English Corpus. En la lingüística de corpus contemporánea
  4. ^ Chu-Ren Huang, Adam Kilgarriff, Yiching Wu, Chih-Ming Chiu, Simon Smith, Pavel Rychlý, Ming-Hong Bai y Keh-Jiann Chen (2005). Motor de dibujo chino y extracción de colocaciones gramaticales. En el cuarto taller de SIGHAN sobre procesamiento del idioma chino, Corea, págs. 48-–55
  5. ^ Simon Krek y Adam Kilgarriff (2006). Bocetos de palabras en esloveno. In Proceedings 5th Slovenian Languages ​​Technology Conference, Eslovenia
  6. ^ Irena Srdanović, Tomaž Erjavec y Adam Kilgarriff (2008) Un corpus web y bocetos de palabras para japonés. En 『自然 言語 処理』 (Journal of Natural Language Processing) 15/2, 137-159.
  7. ^ Carole Tiberius y Adam Kilgarriff (2009). Sketch Engine para holandés con el corpus ANW. En Fons Verbhorum, Festschrift para Fons Moerdijk. Instituut voor Nederlandse Lexicologie, Países Bajos, págs.273--255
  8. ^ Monica Macoveiciuc y Adam Kilgarriff (2010) El corpus RoWaC y bocetos de palabras en rumano. En multilingüismo e interoperabilidad en el procesamiento del lenguaje con énfasis en rumano, Academia de Ciencias de Rumania.
  9. ^ Maria Khokhlova y Victor Zakharov (2010) Estudiar bocetos de palabras para ruso. En Actas de la Séptima Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'12)
  10. ^ Karel Pala y Pavel Rychlý (2010) Un estudio de caso en bocetos de palabras - Verbo checo vidět. In A Way with Words: Recent Advances in Lexical Theory and Analysis. Un Festschrift para Patrick Hanks.
  11. ^ Adam Radziszewski, Adam Kilgarriff y Robert Lew (2011) Bocetos de palabras polacas. En las actas de la 5a Conferencia de Lenguaje y Tecnología (LTC)
  12. ^ Adam Kilgarriff y Phuong Le-Hong (2012) Bocetos de palabras vietnamitas. En el taller sobre procesamiento del habla y el lenguaje vietnamita (IEEE-RIVF 9)
  13. ^ Bharat Ram Ambati, Siva Reddy y Adam Kilgarriff (2012) Bocetos de palabras para turco. En Actas de la Octava Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'12)
  14. ^ Adam Kilgarriff, Miloš Jakubíček, Jan Pomikálek, Tony Berber Sardinha y Pete Whitelock (2014) PtTenTen: Un corpus para la lexicografía portuguesa. Trabajando con corpora portuguesa, Bloomsbury Publishing
  15. ^ Anil Krishna Eragani, Varun Kuchibhotla, Dipti Sharma, Siva Reddy y Adam Kilgarriff (2014) Bocetos de palabras en hindi. En Actas de la Conferencia sobre Procesamiento del Lenguaje Natural (ICON-11)
  16. ^ Adam Kilgarriff e Irene Renau (2013) esTenTen, un vasto corpus web del español peninsular y americano. In Procedia - Ciencias sociales y del comportamiento
  17. ^ https://www.sketchengine.co.uk/documentation/wiki/SkE/Biblio
  18. ^ Miloš Jakubíček, Adam Kilgarriff, Diana McCarthy y Pavel Rychlý (2010) Búsqueda sintáctica rápida en corpus muy grandes para muchos idiomas. En Actas del Taller sobre Soluciones Avanzadas de Corpus, PACLIC 24, Japón.
  19. ^ Aleš Horák, Pavel Rychlý, Adam Kilgarriff (2009) Relaciones de boceto de palabras checas con analizador sintáctico completo. En Después de medio siglo de procesamiento del lenguaje natural eslavo.

enlaces externos

  • Word Sketch: colocaciones de palabras en el manual del usuario de Sketch Engine
Obtenido de " https://en.wikipedia.org/w/index.php?title=Word_sketch&oldid=887232229 "