La extracción de terminología (también conocida como extracción de términos , extracción de glosarios , reconocimiento de términos o minería de terminología ) es una subtarea de la extracción de información . El objetivo de la extracción de terminología es extraer automáticamente términos relevantes de un corpus dado . [1]
En la era de la web semántica , un número creciente de comunidades y empresas en red comenzaron a acceder e interoperar a través de Internet . Modelar estas comunidades y sus necesidades de información es importante para varias aplicaciones web , como rastreadores web basados en temas , [2] servicios web , [3] sistemas de recomendación , [4] etc. El desarrollo de la extracción de terminología también es esencial para la industria del lenguaje. .
Uno de los primeros pasos para modelar un dominio de conocimiento es recopilar un vocabulario de términos relevantes para el dominio, que constituyen la manifestación lingüística superficial de los conceptos del dominio . En la literatura se han descrito varios métodos para extraer automáticamente términos técnicos de almacenes de documentos específicos de dominio. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]
Normalmente, los enfoques para la extracción automática de términos utilizan procesadores lingüísticos ( parte del etiquetado del habla , fragmentación de frases ) para extraer candidatos terminológicos, es decir, frases nominales terminológicas sintácticamente plausibles . Las frases sustantivas incluyen compuestos (por ejemplo, "tarjeta de crédito"), frases sustantivas adjetivas (por ejemplo, "oficina de información turística local") y frases sustantivas preposicionales (por ejemplo, "junta directiva"). En inglés, los dos primeros (compuestos y sintagmas nominales adjetivos) son los más frecuentes. [18] A continuación, las entradas terminológicas se filtran de la lista de candidatos utilizando métodos estadísticos y de aprendizaje automático . Una vez filtrados, debido a su baja ambigüedad y alta especificidad, estos términos son particularmente útiles para conceptualizar un dominio de conocimiento o para apoyar la creación de una ontología de dominio o una base terminológica. Además, la extracción de terminología es un punto de partida muy útil para la similitud semántica , la gestión del conocimiento , la traducción humana y la traducción automática , etc.
Extracción de terminología bilingüe
Los métodos de extracción de terminología se pueden aplicar a corpus paralelos . Combinado con, por ejemplo , estadísticas de co-ocurrencia , se pueden obtener candidatos para traducciones de términos. [19] La terminología bilingüe también se puede extraer de corpus comparables [20] (corpus que contienen textos dentro del mismo tipo de texto, dominio pero no traducciones de documentos entre sí).
Ver también
- Ligüística computacional
- Glosario
- Procesamiento natural del lenguaje
- Ontología de dominio
- Indexación de materias
- Taxonomía (general)
- Terminología
- Extracción de textos
- Simplificación de texto
Referencias
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: extracción automática de frases clave sin supervisión mediante la propagación de afinidad". Avances en Sistemas de Inteligencia Computacional . Avances en Computación y Sistemas Inteligentes. 650 . págs. 222-235. doi : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- ^ Menczer F., Pant G. y Srinivasan P. Rastreadores basados en temas: problemas de aprendizaje automático .
- ^ Fan J. y Kambhampati S. Una instantánea de los servicios web públicos , en el archivo de registro SIGMOD de ACM Volumen 34, número 1 (marzo de 2005).
- ^ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. Un enfoque basado en el mercado para los sistemas de recomendación , en ACM Transactions on Information Systems (TOIS), 23 (3), 2005.
- ^ Bourigault D. y Jacquemin C. Term Extraction + Term Clustering: una plataforma integrada para terminología asistida por computadora Archivado 2006-06-19 en Wayback Machine , en Proc. de EACL, 1999.
- ^ Collier, N .; Nobata, C .; Tsujii, J. (2002). "Adquisición y clasificación automática de terminología utilizando un corpus etiquetado en el dominio de la biología molecular". Terminología . 7 (2): 239-257. doi : 10.1075 / term.7.2.07col .
- ^ K. Frantzi, S. Ananiadou y H. Mima. (2000). Reconocimiento automático de términos de varias palabras: el método de valor C / valor NC. En: C. Nikolau y C. Stephanidis (Eds.) Revista internacional de bibliotecas digitales, vol. 3, núm. 2., págs. 115-130.
- ^ K. Frantzi, S. Ananiadou y J. Tsujii. (1998) El método de valor C / valor NC de reconocimiento automático de términos de varias palabras , en: Actas de ECDL '98 de la Segunda Conferencia Europea sobre Investigación y Tecnología Avanzada para Bibliotecas Digitales, págs. 585-604. ISBN 3-540-65101-2
- ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata y T. Cofino. (2004). "Extracción y utilización del glosario en el sistema de búsqueda y entrega de información para el Soporte Técnico de IBM" (PDF) . Revista de sistemas de IBM . 43 (3): 546–563. doi : 10.1147 / sj.433.0546 .
- ^ Navigli R. y Velardi, P. Ontologías de dominio de aprendizaje de almacenes de documentos y sitios web dedicados . Ligüística computacional. 30 (2), MIT Press, 2004, págs. 151-179
- ^ Oliver, A. y Vàzquez, M. TBXTools: una herramienta gratuita, rápida y flexible para la extracción automática de terminología . Actas de avances recientes en el procesamiento del lenguaje natural (RANLP 2015), 2015, págs. 473–479
- ^ Y. Park, RJ Byrd, B. Boguraev. "Extracción automática de glosarios: más allá de la identificación de terminología" , Conferencia Internacional sobre Lingüística Computacional, Actas de la 19a conferencia internacional sobre Lingüística Computacional - Taipei, Taiwán, 2002.
- ^ Sclano, F. y Velardi, P .. TermExtractor : una aplicación web para aprender la terminología compartida de comunidades web emergentes. Para aparecer en Proc. de la 3ª Conferencia Internacional sobre Interoperabilidad de Software y Aplicaciones Empresariales (I-ESA 2007). Funchal (isla de Madeira), Portugal, 28 al 30 de marzo de 2007.
- ^ P. Velardi, R. Navigli, P. D'Amadio. Exploración de la Web para crear glosarios especializados , IEEE Intelligent Systems, 23 (5), IEEE Press, 2008, págs. 18-25.
- ^ Wermter J. y Hahn U. Encontrar nueva terminología en cuerpos muy grandes , en Proc. de K-CAP'05, del 2 al 5 de octubre de 2005, Banff, Alberta, Canadá
- ^ Wong, W., Liu, W. y Bennamoun, M. (2007) Determinación de la duración del aprendizaje de las ontologías de dominio mediante la prevalencia y la tendencia del dominio . En: 6ª Conferencia Australasia sobre Minería de Datos (AusDM); Costa Dorada. ISBN 978-1-920682-51-4
- ^ Wong, W., Liu, W. y Bennamoun, M. (2007) Determinación de la duración de las ontologías de dominio de aprendizaje en un marco probabilístico . En: 6ª Conferencia Australasia sobre Minería de Datos (AusDM); Costa Dorada. ISBN 978-1-920682-51-4
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: extracción automática de frases clave sin supervisión mediante la propagación de afinidad". Avances en Sistemas de Inteligencia Computacional . Avances en Computación y Sistemas Inteligentes. 650 . págs. 222-235. doi : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: extracción de terminología bilingüe de corpus paralelos utilizando alineación basada en fragmentos" . Terminología . 19 (1): 1–30. doi : 10.1075 / term.19.1.01mac . hdl : 1854 / LU-2128573 .
- ^ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF) , Berlín: Springer-Verlag