Arquitectura general para ingeniería de texto o GATE es un conjunto de herramientas Java desarrollado originalmente en la Universidad de Sheffield a partir de 1995 y ahora utilizado en todo el mundo por una amplia comunidad de científicos, empresas, profesores y estudiantes para muchas tareas de procesamiento del lenguaje natural , incluida la extracción de información en muchos lenguajes. [1]
Desarrollador (es) | Equipo de investigación GATE , Departamento de Ciencias de la Computación, Universidad de Sheffield |
---|---|
Versión inicial | 1995 |
Lanzamiento estable | 8.6.1 (17 de enero de 2020 [±] | )
Versión de vista previa | 9.0-SNAPSHOT (5 de junio de 2021 (versiones nocturnas publicadas todos los días)) [±] |
Repositorio | |
Escrito en | Java |
Sistema operativo | Multiplataforma |
Disponible en | inglés |
Tipo | Extracción de información de minería de texto |
Licencia | LGPL |
Sitio web | puerta |
GATE se ha comparado con NLTK , R y RapidMiner . [2] Además de ser ampliamente utilizado por derecho propio, constituye la base de la plataforma semántica KIM. [3]
La comunidad e investigación de GATE ha participado en varios proyectos de investigación europeos, incluidos TAO , SEKT , NeOn, Media-Campaign, Musing, Service-Finder , LIRICS y KnowledgeWeb , así como en muchos otros proyectos.
Al 28 de mayo de 2011, 881 personas están en la lista de correo de usuarios de puerta en SourceForge.net, y se registran 111,932 descargas de SourceForge desde que el proyecto se trasladó a SourceForge en 2005. [4] El documento "GATE: un marco y gráficos entorno de desarrollo para herramientas y aplicaciones robustas de PNL " [5] ha recibido más de 2000 citas desde su publicación (según Google Scholar). Los libros que cubren el uso de GATE, además de la Guía del usuario de GATE, [6] incluyen "Creación de aplicaciones de búsqueda: Lucene, LingPipe y Gate", de Manu Konchady, [7] e "Introducción a la anotación lingüística y análisis de texto", por Graham Wilcock. [8]
Características
GATE incluye una extracción de información de sistema llamado ANNIE ( A-Casi Nueva Información del Sistema de Extracción ), que es un conjunto de módulos que comprende una tokenizer , un diccionario geográfico , un divisor de condena , una parte del etiquetador de voz , un nombre entidades transductor y una correferencia etiquetador. ANNIE se puede utilizar tal cual para proporcionar una funcionalidad básica de extracción de información o proporcionar un punto de partida para tareas más específicas.
Los idiomas que se manejan actualmente en GATE incluyen inglés , chino , árabe , búlgaro , francés , alemán , hindi , italiano , cebuano , rumano , ruso y danés .
Se incluyen complementos para aprendizaje automático con Weka , RASP, MAXENT, SVM Light, así como una integración LIBSVM y una implementación de perceptrón interno , para administrar ontologías como WordNet , para consultar motores de búsqueda como Google o Yahoo , para parte del etiquetado de voz. con Brill o TreeTagger, y muchos más. También están disponibles muchos complementos externos, para manejar, por ejemplo, tweets . [9]
GATE acepta entrada en varios formatos, como TXT , HTML , XML , Doc , documentos PDF y Java Serial , PostgreSQL , Lucene , bases de datos Oracle con la ayuda del almacenamiento RDBMS sobre JDBC .
Los transductores JAPE se utilizan dentro de GATE para manipular anotaciones en el texto. La documentación se proporciona en la Guía del usuario de GATE. [10] Press Association Images también ha escrito un tutorial. [11]
Desarrollador GATE
La captura de pantalla muestra el visor de documentos utilizado para mostrar un documento y sus anotaciones. En rosa están las anotaciones de hipervínculo de un archivo HTML . La lista de la derecha es la lista de conjuntos de anotaciones y la tabla inferior es la lista de anotaciones. En el centro está la ventana del editor de anotaciones.
PUERTA Mímir
GATE genera grandes cantidades de información que incluyen; texto en lenguaje natural, anotaciones semánticas e información ontológica. A veces, los datos en sí son el producto final de una aplicación, pero a menudo la información sería más útil si se pudiera buscar de manera eficiente. GATE Mimir proporciona soporte para indexar y buscar la información lingüística y semántica generada por tales aplicaciones y permite consultar la información usando combinaciones arbitrarias de texto, información estructural y SPARQL .
Ver también
- Arquitectura de gestión de información no estructurada (UIMA)
- OpenNLP
- Pheme , un importante proyecto de la UE gestionado por el grupo GATE sobre la detección temprana de información falsa en las redes sociales
Referencias
- ^ Los idiomas mencionados en http://gate.ac.uk/gate/plugins/ incluyen árabe, búlgaro, cebuano, chino, francés, alemán, hindi, italiano, rumano y ruso.
- ^ "Análisis de texto de código abierto por Seth Grimes - BeyeNETWORK" . Consultado el 17 de diciembre de 2016 .
- ^ Popov, Borislav; Kiryakov, Atanas; Ognyanoff, Damyan; Manov, Dimitar; Kirilov, Angel (1 de septiembre de 2004). "KIM - una plataforma semántica para la extracción y recuperación de información" . Ingeniería del lenguaje natural . 10 (3–4): 375–392. doi : 10.1017 / S135132490400347X . S2CID 5236747 . Consultado el 17 de diciembre de 2016 , a través de Cambridge Core.
- ^ "PUERTA" . Consultado el 17 de diciembre de 2016 .
- ^ "GATE: un marco y entorno de desarrollo gráfico para herramientas y aplicaciones robustas de PNL" , por Cunningham H., Maynard D. , Bontcheva K. y Tablan V. (En proceso de la reunión del 40 aniversario de la Asociación de Lingüística Computacional, 2002)
- ^ "GATE.ac.uk - sale / tao / split.html" . Consultado el 17 de diciembre de 2016 .
- ^ Konchady, Manu. Creación de aplicaciones de búsqueda: Lucene, LingPipe y Gate . Publicación Mustru. 2008.
- ^ Wilcock, Graham (1 de enero de 2009). Introducción a la anotación lingüística y el análisis de texto . Editores Morgan & Claypool. ISBN 9781598297386. Consultado el 17 de diciembre de 2016 , a través de Google Books.
- ^ "GATE.ac.uk - wiki / twitie.html" . Consultado el 17 de diciembre de 2016 .
- ^ "GATE.ac.uk - sale / tao / splitch8.html" . Consultado el 17 de diciembre de 2016 .
- ^ Thakker, Dhavalkumar (17 de julio de 2009). "Realización de la Web Semántica: tutorial de gramática JAPE" . Consultado el 17 de diciembre de 2016 .
enlaces externos
- Página web oficial