Sketch Engine es un software de análisis de texto y administrador de corpus desarrollado por Lexical Computing Limited desde 2003. Su propósito es permitir a las personas que estudian el comportamiento del lenguaje ( lexicógrafos , investigadores en lingüística de corpus , traductores o estudiantes de idiomas) para buscar grandes colecciones de textos de acuerdo a términos complejos y lingüísticos. consultas motivadas. Sketch Engine obtuvo su nombre por una de las características clave, los bocetos de palabras : resúmenes de una página, automáticos, derivados del corpus del comportamiento gramatical y de colocación de una palabra. [2] Actualmente, admite y proporciona corpus en más de 90 idiomas. [3]
Autor (es) original (es) | Adam Kilgarriff , Pavel Rychlý |
---|---|
Desarrollador (es) | Lexical Computing Ltd. |
Versión inicial | 23 de julio de 2003 [1] |
Escrito en | C ++ , Python , JavaScript , jQuery |
Sistema operativo | Linux , Mac OS X |
Plataforma | IA-32 , x64 o IA-64 |
Estándar (s) | Unicode |
Disponible en | 12 idiomas |
Lista de idiomas Inglés, checo, chino (tradicional, simplificado), gaeilge, esloveno, croata, árabe, español, francés, ucraniano, polaco | |
Escribe | Administrador de corpus para más de 90 idiomas, sistema de gestión de bases de datos |
Licencia | Software propietario ; tanto comerciales y de software gratuito ediciones están disponibles |
Sitio web | www |
Historia del desarrollo
Sketch Engine es un producto de Lexical Computing Limited, una empresa fundada en 2003 por el lexicógrafo y científico investigador Adam Kilgarriff . [4] Comenzó a colaborar con Pavel Rychlý, un científico informático que trabaja en el Centro de procesamiento del lenguaje natural en la Universidad de Masaryk [5] y el desarrollador de Manatee y Bonito (dos partes principales del paquete de software), e introdujo el concepto de bocetos de palabras. .
Desde entonces, Sketch Engine ha sido un software comercial, sin embargo, todas las características principales de Manatee y Bonito que fueron desarrolladas en 2003 (y extendidas desde entonces) están disponibles gratuitamente bajo la licencia GPL dentro de la suite NoSketch Engine. [6]
Características
- Bocetos de palabras : un resumen derivado automático de una página del comportamiento gramatical y de colocación de una palabra.
- Diferencia entre bocetos de palabras: compara y contrasta dos palabras analizando su ubicación.
- Tesauro de distribución : tesauro automatizado que busca palabras con un significado similar o que aparecen en el mismo contexto o en un contexto similar.
- Búsqueda de concordancia : encuentra ejemplos de una forma de palabra, lema, frase, etiqueta o estructura compleja
- Colocación de la búsqueda - análisis de palabras co-ocurrencia mostrando las palabras más frecuentes (a una palabra de búsqueda), que puede considerarse como candidatos de colocación
- Listas de palabras: genera listas de frecuencia que se pueden filtrar con criterios complejos
- n-gramos : genera listas de frecuencia de expresiones de varias palabras
- Extracción de terminología / palabras clave (tanto monolingüe como bilingüe): extracción automática de palabras clave y términos de varias palabras de los textos (según el recuento de frecuencia y los criterios lingüísticos)
- Análisis diacrónico ( tendencias ) [7] : detección de palabras que experimentan cambios en la frecuencia de uso en el tiempo (mostrar palabras de tendencia)
- Creación y gestión de corpus: cree corpus desde la Web o textos cargados, incluido el etiquetado y lematización de parte del discurso, que se pueden utilizar como software de minería de datos .
- Instalaciones de corpus paralelo (bilingües): búsqueda de ejemplos de traducción (corpus EUR-Lex, corpus Europarl , corpus OPUS, etc.) o creación de corpus paralelos a partir de textos alineados propios
Arquitectura
Sketch Engine consta de tres componentes principales: un sistema de administración de base de datos subyacente llamado Manatee, un front-end de búsqueda de interfaz web llamado Bonito y una interfaz web para la construcción y administración de corpus llamada Corpus Architect. [8]
Manatí
Manatee es un sistema de gestión de bases de datos diseñado específicamente para la indexación eficaz de grandes corpus de texto. Se basa en la idea de indexación invertida (manteniendo un índice de todas las posiciones de una palabra dada en el texto). Se ha utilizado para indexar corpus de texto que comprenden decenas de miles de millones de palabras. [9]
La búsqueda de corpus indexados por Manatee se realiza mediante la formulación de consultas en Corpus Query Language (CQL). [10]
Manatee está escrito en C ++ y ofrece una API para varios otros lenguajes de programación, incluidos Python , Java , Perl y Ruby . Recientemente, se reescribió en Go para un procesamiento más rápido de las consultas de corpus. [11]
Bonito
Bonito es una interfaz web para Manatee que brinda acceso a la búsqueda de corpus. En el modelo cliente-servidor , Manatee es el servidor y Bonito juega el papel del cliente. Está escrito en Python . [8]
Arquitecto de Corpus
Corpus Architect es una interfaz web que proporciona funciones de gestión y creación de corpus. También está escrito en Python .
Aplicaciones
Sketch Engine ha sido utilizado por las principales editoriales británicas u otras para producir diccionarios como Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press o Shogakukan y cuatro de los cinco mayores editores de diccionarios del Reino Unido utilizan Sketch Engine. [12]
Ver también
- SkELL : un servicio web gratuito para estudiantes y profesores de inglés basado en Sketch Engine
- Familia TenTen Corpus : un conjunto multilingüe de corpus web comparables disponibles a través de Sketch Engine
Referencias
- ^ Companies House buscada enel registro de empresas del Reino Unido (nombre de la empresa: LEXICAL COMPUTING LIMITED o número de empresa: 04841901)
- ^ Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít (10 de julio de 2014). "The Sketch Engine: diez años después" . Lexicografía . 1 (1): 7–36. doi : 10.1007 / s40607-014-0009-9 . ISSN 2197-4292 .
- ^ "Idiomas en Sketch Engine" . Sketch Engine . Lexical Computing sro . Consultado el 22 de enero de 2018 .
- ^ Página de inicio de Adam Kilgarriff
- ^ Centro de procesamiento del lenguaje natural, Universidad Masaryk
- ^ Motor NoSketch
- ^ Kilgarriff, Adam; Herman, Ondřej; Bušta, Jan; Rychlý, Pavel; Jakubíček, Miloš (2015). "DIACRAN: un marco para el análisis diacrónico" (PDF) . Corpus Linguistics 2015 : 65–70.
- ^ a b Rychlý, Pavel (2007). "Manatí / bonito: un gestor de corpus modular" (PDF) . Primer taller sobre avances recientes en el procesamiento del lenguaje natural eslavo : 65–70.
- ^ Pomikálek, Jan; Jakubíček, Miloš; Rychlý, Pavel (2012). "Construyendo un corpus de 70 mil millones de palabras en inglés a partir de ClueWeb" (PDF) . Actas de la Octava Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'12) .
- ^ "CQL - Lenguaje de consulta de Corpus" . Sketch Engine . Lexical Computing sro . Consultado el 22 de enero de 2018 .
- ^ Rychlý, Pavel; Rábara, Radoslav (2015). "Procesamiento Concurrente de Consultas de Corpus de Texto" (PDF) . Taller sobre avances recientes en el procesamiento del lenguaje natural eslavo : 49–58.
- ^ "Uso de lexicografía computacional para la producción de diccionarios con Sketch Engine" . Estudios de caso de impacto de REF . Universidad de Brighton . Consultado el 18 de abril de 2015 .
Otras lecturas
- Thomas, James (marzo de 2016). Descubriendo el inglés con Sketch Engine: un enfoque basado en corpus para la exploración del lenguaje. Libro de trabajo y glosario . Brno: versátil. ISBN 9788026095798.
enlaces externos
- Sitio web de Sketch Engine
- Lista de corpus disponibles en Sketch Engine