La extracción de palabras clave tiene la tarea de identificar automáticamente los términos que mejor describen el tema de un documento. [1] [2]
Frases clave , términos clave , segmentos clave o simplemente palabras clave son la terminología que se utiliza para definir los términos que representan la información más relevante contenida en el documento. Aunque la terminología es diferente, la función es la misma: caracterización del tema tratado en un documento. La tarea de extracción de palabras clave es un problema importante en la minería de textos , la recuperación de información y el procesamiento del lenguaje natural . [3]
Asignación de palabras clave frente a extracción
Los métodos de asignación de palabras clave se pueden dividir a grandes rasgos en:
- asignación de palabras clave (las palabras clave se eligen de vocabulario controlado o taxonomía) y
- extracción de palabras clave (las palabras clave se eligen entre palabras que se mencionan explícitamente en el texto original).
Los métodos para la extracción automática de palabras clave pueden ser supervisados, semi-supervisados o no supervisados. [4] [5] Los métodos no supervisados se pueden dividir en estadísticos simples, lingüísticos o basados en gráficos, o métodos conjuntos que combinan algunos o la mayoría de estos métodos. [6]
Referencias
- ^ Beliga, Slobodan; Ana, Meštrović; Martinčić-Ipšić, Sanda. (2015). "Una descripción general de los métodos y enfoques de extracción de palabras clave basados en gráficos" . Revista de Ciencias de la Información y las Organizaciones . 39 (1): 1–20.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Rada Mihalcea y Paul Tarau (julio de 2004). TextRank: Poner orden en los textos (PDF) . Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP 2004). Barcelona, España.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Beliga, Slobodan; Meštrović, Ana; Martinčić- Ipšić, Sanda. (2014). Hacia la extracción de palabras clave basada en selectividad para noticias croatas (PDF) . Surfacing the Deep and the Social Web (SDSW 2014). 1310 . Italia: CEUR Proc. págs. 1-14.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Alrehamy, H .; Walker, C. (2017). SemCluster: Extracción automática no supervisada de frases clave mediante la propagación por afinidad . 17º Taller del Reino Unido sobre Inteligencia Computacional.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ "Extracción de palabras clave: de TF-IDF a BERT" .
- ^ Tayfun Pay; Stephen Lucci (2017). Extracción automática de palabras clave: un método de conjunto . 2017 IEEE International Conference on Big Data (Big Data). doi : 10.1109 / BigData.2017.8258552 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
Otras lecturas
Artículo de revista: N. Firoozeh, A. Nazarenko, F. Alizon, B. Daille. 2019. Extracción de palabras clave: problemas y métodos . Ingeniería del lenguaje natural, 1-33, doi: 10.1017 / S1351324919000457, Cambridge University Press