Extracción de textos


La minería de texto , también conocida como minería de datos de texto , similar al análisis de texto , es el proceso de derivar información de alta calidad a partir del texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, mediante la extracción automática de información de diferentes recursos escritos". [1] Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad se obtiene típicamente ideando patrones y tendencias por medios como el aprendizaje de patrones estadísticos.. Según Hotho et al. (2005) podemos diferenciar tres perspectivas diferentes de la minería de textos: extracción de información , minería de datos y un proceso KDD (Knowledge Discovery in Databases). [2] La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente análisis, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivando patrones dentro de los datos estructurados y finalmente evaluación e interpretación del resultado. La 'alta calidad' en la minería de texto generalmente se refiere a alguna combinación de relevancia , novedade interés. Las tareas típicas de minería de texto incluyen categorización de texto , agrupación de texto , extracción de concepto / entidad, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relaciones de entidades ( es decir , relaciones de aprendizaje entre entidades nombradas ).

El análisis de texto implica la recuperación de información , análisis léxico para estudiar distribuciones de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de minería de datos que incluyen análisis de vínculos y asociaciones, visualización y análisis predictivo . El objetivo general es, esencialmente, convertir el texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural (NLP), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos con fines de clasificación predictiva o completar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico al comenzar con la minería de texto. Aquí, definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones. [3]

El término análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis de datos exploratorios , investigación o investigación. [4] El término es aproximadamente sinónimo de minería de texto; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de texto" [5] en 2004 para describir "análisis de texto". [6]El último término se utiliza ahora con más frecuencia en entornos empresariales, mientras que la "minería de textos" se utiliza en algunas de las áreas de aplicación más antiguas, que datan de la década de 1980, [7] en particular, la investigación en ciencias de la vida y la inteligencia gubernamental.

El término análisis de texto también describe la aplicación de análisis de texto para responder a problemas comerciales, ya sea de forma independiente o junto con consultas y análisis de datos numéricos en campo. Es una obviedad que el 80 por ciento de la información relevante para el negocio se origina en forma no estructurada , principalmente texto. [8] Estas técnicas y procesos descubren y presentan conocimientos (hechos, reglas comerciales y relaciones) que, de otro modo, están bloqueados en forma textual, impenetrables para el procesamiento automatizado.


Un ejemplo de un protocolo de minería de texto utilizado en un estudio de complejos proteína-proteína o acoplamiento de proteínas . [18]
Red narrativa de las elecciones estadounidenses de 2012 [43]
Reproducir medios
Video de la campaña Fix Copyright que explica TDM y sus problemas de derechos de autor en la UE, 2016 [3:52