Extracción de textos


La minería de texto , también conocida como minería de datos de texto , similar al análisis de texto , es el proceso de derivar información de alta calidad a partir del texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, mediante la extracción automática de información de diferentes recursos escritos". [1] Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad se obtiene típicamente ideando patrones y tendencias por medios como el aprendizaje de patrones estadísticos.. Según Hotho et al. (2005) podemos diferenciar tres perspectivas diferentes de la minería de textos: extracción de información , minería de datos y un proceso KDD (Knowledge Discovery in Databases). [2] La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente análisis, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivando patrones dentro de los datos estructurados y finalmente evaluación e interpretación del resultado. La 'alta calidad' en la minería de textos generalmente se refiere a una combinación de relevancia , novedad e interés. Las tareas típicas de minería de texto incluyen categorización de texto , agrupación de texto , extracción de concepto / entidad, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relación de entidad ( es decir , relaciones de aprendizaje entre entidades nombradas ).

El análisis de texto implica la recuperación de información , análisis léxico para estudiar distribuciones de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de minería de datos que incluyen análisis de vínculos y asociaciones, visualización y análisis predictivo . El objetivo general es, esencialmente, convertir el texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural (NLP), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos con fines de clasificación predictiva o completar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico al comenzar con la minería de texto. Aquí, definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones. [3]

El término análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis de datos exploratorios , investigación o investigación. [4] El término es aproximadamente sinónimo de minería de texto; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de texto" [5] en 2004 para describir "análisis de texto". [6] El último término se usa ahora con más frecuencia en entornos comerciales, mientras que "minería de texto" se usa en algunas de las áreas de aplicación más antiguas, que datan de la década de 1980, [7] en particular, investigación en ciencias de la vida e inteligencia gubernamental.

El término análisis de texto también describe la aplicación de análisis de texto para responder a problemas comerciales, ya sea de forma independiente o junto con consultas y análisis de datos numéricos en campo. Es una obviedad que el 80 por ciento de la información relevante para el negocio se origina en forma no estructurada , principalmente texto. [8] Estas técnicas y procesos descubren y presentan conocimientos (hechos, reglas de negocio y relaciones) que, de otro modo, están bloqueados en forma textual, impenetrables para el procesamiento automatizado.

Las subtareas, componentes de un esfuerzo mayor de análisis de texto, generalmente incluyen:

  • La reducción de la dimensionalidad es una técnica importante para el preprocesamiento de datos. La técnica se utiliza para identificar la palabra raíz de palabras reales y reducir el tamaño de los datos de texto. [ cita requerida ]
  • La recuperación de información o identificación de un corpus es un paso preparatorio: recopilar o identificar un conjunto de materiales textuales, en la Web o guardados en un sistema de archivos, base de datos o administrador de corpus de contenido , para su análisis.
  • Aunque algunos sistemas de análisis de texto aplican exclusivamente métodos estadísticos avanzados, muchos otros aplican un procesamiento de lenguaje natural más extenso , como parte del etiquetado de voz , análisis sintáctico y otros tipos de análisis lingüístico. [9]
  • El reconocimiento de entidades nombradas es el uso de nomenclátores o técnicas estadísticas para identificar características de texto nombradas: personas, organizaciones, nombres de lugares, símbolos de cotizaciones bursátiles, ciertas abreviaturas, etc.
  • La desambiguación (el uso de pistas contextuales) puede ser necesaria para decidir dónde, por ejemplo, "Ford" puede referirse a un ex presidente de EE. UU., Un fabricante de vehículos, una estrella de cine, un cruce de río o alguna otra entidad. [10]
  • Reconocimiento de entidades identificadas por patrones: características como números de teléfono, direcciones de correo electrónico, cantidades (con unidades) se pueden discernir mediante expresiones regulares u otras coincidencias de patrones.
  • Agrupación de documentos: identificación de conjuntos de documentos de texto similares. [11]
  • Correferencia : identificación de sintagmas nominales y otros términos que se refieren al mismo objeto.
  • Relación, hecho y extracción de eventos: identificación de asociaciones entre entidades y otra información en el texto
  • El análisis de sentimientos implica discernir material subjetivo (en oposición a fáctico) y extraer varias formas de información actitudinal: sentimiento, opinión, estado de ánimo y emoción. Las técnicas de análisis de texto son útiles para analizar el sentimiento a nivel de entidad, concepto o tema y para distinguir el titular de la opinión y el objeto de la opinión. [12]
  • El análisis cuantitativo de textos es un conjunto de técnicas derivadas de las ciencias sociales en las que un juez humano o una computadora extrae relaciones semánticas o gramaticales entre palabras para descubrir el significado o patrones estilísticos de, generalmente, un texto personal casual con el propósito de perfiles psicológicos, etc. [13]

La tecnología de minería de texto ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden utilizar la minería de texto para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales legales pueden utilizar la minería de texto para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares utilizan la minería de texto con fines de inteligencia y seguridad nacional . Los investigadores científicos incorporan enfoques de minería de texto en los esfuerzos para organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar las ideas comunicadas a través del texto (p. Ej., Análisis de sentimientos en las redes sociales [14] [15] [16] ) y apoyar el descubrimiento científico en campos como las ciencias de la vida y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automatizada de anuncios , entre muchas otras actividades.

Aplicaciones de seguridad

Muchos paquetes de software de minería de texto se comercializan para aplicaciones de seguridad , especialmente el monitoreo y análisis de fuentes de texto sin formato en línea, como noticias de Internet , blogs , etc., con fines de seguridad nacional . [17] También participa en el estudio del cifrado / descifrado de texto .

Aplicaciones biomédicas

A flowchart of a text mining protocol.
Un ejemplo de un protocolo de minería de texto utilizado en un estudio de complejos proteína-proteína o acoplamiento de proteínas . [18]

Se ha descrito una variedad de aplicaciones de minería de textos en la literatura biomédica, [19] que incluyen enfoques computacionales para ayudar con estudios en el acoplamiento de proteínas , [20] interacciones de proteínas , [21] [22] y asociaciones entre proteínas y enfermedades. [23] Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de textos puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación y la indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes de síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas de diagnóstico específicas. [24] Una aplicación de minería de texto en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de texto biomédica con visualización en red. [25] [26] GoPubMed es un motor de búsqueda de textos biomédicos basado en el conocimiento. Las técnicas de minería de textos también nos permiten extraer conocimientos desconocidos de documentos no estructurados en el ámbito clínico [27].

Aplicaciones de software

Los métodos y software de minería de texto también están siendo investigados y desarrollados por importantes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. . Dentro del sector público, se han concentrado muchos esfuerzos en la creación de software para rastrear y monitorear actividades terroristas . [28] Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico y actúa como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente juego de herramientas llamado NLTK para propósitos más generales. Para los programadores más avanzados, también existe la biblioteca Gensim , que se centra en representaciones de texto basadas en incrustaciones de palabras.

Aplicaciones de medios online

La minería de texto está siendo utilizada por grandes empresas de medios, como Tribune Company , para aclarar información y proporcionar a los lectores una mayor experiencia de búsqueda, lo que a su vez aumenta la "adherencia" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias en todas las propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.

Aplicaciones comerciales y de marketing

La analítica de texto se está utilizando en los negocios, particularmente, en marketing, como en la gestión de relaciones con los clientes . [29] Coussement y Van den Poel (2008) [30] [31] lo aplican para mejorar los modelos de análisis predictivo para la rotación de clientes ( deserción de clientes ). [30] La minería de textos también se está aplicando en la predicción de la rentabilidad de las acciones. [32]

Análisis de los sentimientos

El análisis de sentimientos puede implicar el análisis de reseñas de películas para estimar qué tan favorable es una reseña para una película. [33] Tal análisis puede necesitar un conjunto de datos etiquetado o un etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de palabras y conceptos para WordNet [34] y ConceptNet , [35] respectivamente.

El texto se ha utilizado para detectar emociones en el área relacionada de la computación afectiva. [36] Los enfoques basados ​​en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.

Minería de literatura científica y aplicaciones académicas

El tema de la minería de texto es importante para los editores que tienen grandes bases de datos de información que necesitan indexarse para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que a menudo el texto escrito contiene información muy específica. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una Interfaz de Minería de Texto Abierto (OTMI) y la Definición de Tipo de Documento de Publicación de Revistas (DTD) de los Institutos Nacionales de Salud que proporcionarían pistas semánticas a las máquinas para responder consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.

Las instituciones académicas también se han involucrado en la iniciativa de minería de textos:

  • El Centro Nacional de Minería de Textos (NaCTeM) es el primer centro de minería de textos financiado con fondos públicos en el mundo. NaCTeM es operado por la Universidad de Manchester [37] en estrecha colaboración con el Laboratorio Tsujii, [38] Universidad de Tokio . [39] NaCTeM proporciona herramientas personalizadas, instalaciones de investigación y ofrece asesoramiento a la comunidad académica. Están financiados por el Comité Conjunto de Sistemas de Información (JISC) y dos de los consejos de investigación del Reino Unido ( EPSRC y BBSRC ). Con un enfoque inicial en la minería de textos en las ciencias biológicas y biomédicas , la investigación se ha expandido desde entonces a las áreas de las ciencias sociales .
  • En los Estados Unidos, la Escuela de Información de la Universidad de California en Berkeley está desarrollando un programa llamado BioText para ayudar a los investigadores de biología en la minería y el análisis de textos.
  • El Portal de análisis de texto para la investigación (TAPoR), que actualmente se encuentra en la Universidad de Alberta , es un proyecto académico para catalogar aplicaciones de análisis de texto y crear una puerta de entrada para investigadores nuevos en la práctica.

Métodos para la minería de literatura científica

Se han desarrollado métodos computacionales para ayudar con la recuperación de información de la literatura científica. Los enfoques publicados incluyen métodos para buscar, [40] determinar la novedad, [41] y aclarar homónimos [42] entre los informes técnicos.

Humanidades digitales y sociología computacional

El análisis automático de amplios corpus textuales ha creado la posibilidad de que los académicos analicen millones de documentos en varios idiomas con una intervención manual muy limitada. Las tecnologías habilitadoras clave han sido el análisis, la traducción automática , la categorización de temas y el aprendizaje automático.

Red narrativa de las elecciones estadounidenses de 2012 [43]

El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego mediante el uso de herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave, y propiedades generales como la robustez o estabilidad estructural de la red en general, o la centralidad de ciertos nodos. [44] Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, [45] mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto. [43]

El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenido ha permitido que se produzca una revolución del " big data " en ese campo, con estudios en redes sociales y contenidos de periódicos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias de los lectores e incluso el estado de ánimo se han analizado basándose en métodos de extracción de texto en millones de documentos. [46] [47] [48] [49] [50] El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. [51] que muestra cómo diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; También se demostró la posibilidad de detectar patrones de humor en una gran población mediante el análisis del contenido de Twitter. [52] [53]

Los programas informáticos de minería de texto están disponibles en muchas empresas y fuentes comerciales y de código abierto . Consulte Lista de software de minería de texto .

Situación en Europa

"> Reproducir medios
Video de la campaña Fix Copyright que explica TDM y sus problemas de derechos de autor en la UE, 2016 [3:52

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras protegidas por derechos de autor (por ejemplo, mediante la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido en 2014, por recomendación de la revisión de Hargreaves , el gobierno modificó la ley de derechos de autor [54] para permitir la minería de texto como limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica de minería en 2009. Sin embargo, debido a la restricción de la Directiva sobre la sociedad de la información (2001), la excepción del Reino Unido solo permite la minería de contenido para los propósitos comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por los términos y condiciones contractuales.

La Comisión Europea facilitó el debate de las partes interesadas sobre la minería de datos y textos en 2013, bajo el título de Licencias para Europa. [55] El hecho de que el enfoque en la solución de este problema legal fueran las licencias, y no las limitaciones y excepciones a la ley de derechos de autor, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo. 2013. [56]

Situación en los Estados Unidos

La ley de derechos de autor de EE. UU. , Y en particular sus disposiciones de uso justo , significa que la minería de texto en Estados Unidos, así como en otros países de uso justo como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de texto es transformadora, lo que significa que no reemplaza el trabajo original, se considera que es legal bajo el uso legítimo. Por ejemplo, como parte del acuerdo de Google Book, el juez que presidía el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de esos usos es la minería de datos y texto. . [57]

Hasta hace poco, los sitios web utilizaban con mayor frecuencia búsquedas basadas en texto, que solo encontraban documentos que contenían palabras o frases específicas definidas por el usuario. Ahora, mediante el uso de una web semántica , la minería de texto puede encontrar contenido según el significado y el contexto (en lugar de solo por una palabra específica). Además, el software de minería de texto se puede utilizar para crear grandes expedientes de información sobre personas y eventos específicos. Por ejemplo, se pueden construir grandes conjuntos de datos basados ​​en datos extraídos de informes de noticias para facilitar el análisis de redes sociales o la contrainteligencia . En efecto, el software de minería de texto puede actuar en una capacidad similar a la de un analista de inteligencia o un bibliotecario de investigación, aunque con un alcance de análisis más limitado. La minería de texto también se utiliza en algunos filtros de correo no deseado como una forma de determinar las características de los mensajes que probablemente sean anuncios u otro material no deseado. La minería de texto juega un papel importante en la determinación del sentimiento del mercado financiero .

Se está prestando cada vez más interés a la minería de datos multilingüe: la capacidad de obtener información en varios idiomas y agrupar elementos similares de diferentes fuentes lingüísticas de acuerdo con su significado.

El desafío de explotar la gran proporción de información empresarial que se origina en forma "no estructurada" ha sido reconocido durante décadas. [58] Se reconoce en la definición más antigua de inteligencia empresarial (BI), en un artículo del IBM Journal de octubre de 1958 de HP Luhn, A Business Intelligence System, que describe un sistema que:

"... utilizar máquinas de procesamiento de datos para resumir y codificar automáticamente documentos y para crear perfiles de interés para cada uno de los 'puntos de acción' en una organización. Tanto los documentos entrantes como los generados internamente se abstraen automáticamente, caracterizados por una palabra patrón, y se envía automáticamente a los puntos de acción apropiados ".

Sin embargo, a medida que los sistemas de información gerencial se desarrollaron a partir de la década de 1960, y cuando BI surgió en las décadas de 1980 y 1990 como una categoría de software y un campo de práctica, se hizo hincapié en los datos numéricos almacenados en bases de datos relacionales. Esto no es sorprendente: el texto de los documentos "no estructurados" es difícil de procesar. El surgimiento de la analítica de texto en su forma actual se debe a una reorientación de la investigación a fines de la década de 1990 del desarrollo de algoritmos a la aplicación, como lo describe el profesor Marti A. Hearst en el artículo Untangling Text Data Mining: [59]

Durante casi una década, la comunidad lingüística computacional ha visto las grandes colecciones de texto como un recurso que debe aprovecharse para producir mejores algoritmos de análisis de texto. En este artículo, he intentado sugerir un nuevo énfasis: el uso de grandes colecciones de texto en línea para descubrir nuevos hechos y tendencias sobre el mundo mismo. Sugiero que para progresar no necesitamos un análisis de texto completamente inteligente y artificial; más bien, una combinación de análisis guiado por el usuario y guiado por computadores puede abrir la puerta a nuevos y emocionantes resultados.

La declaración de necesidad de Hearst de 1999 describe bastante bien el estado de la tecnología y la práctica de análisis de texto una década después.

  • Minería de conceptos
  • Procesamiento de documentos
  • Búsqueda de texto completo
  • Lista de software de minería de texto
  • El sentimiento del mercado
  • Resolución de nombres (semántica y extracción de texto)
  • Reconocimiento de entidad nombrada
  • Análisis de noticias
  • Aprendizaje de ontología
  • Vinculación de registros
  • Minería de patrones secuenciales ( minería de cadenas y secuencias)
  • w-tejas
  • Minería web , una tarea que puede implicar la minería de texto (por ejemplo, primero encuentre las páginas web adecuadas clasificando las páginas web rastreadas y luego extraiga la información deseada del contenido de texto de estas páginas que se consideren relevantes)

Citas

  1. ^ "Marti Hearst: ¿Qué es la minería de textos?" .
  2. ^ Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, Vol. 20 (1), pág. 19-62
  3. ^ Feldman, R. y Sanger, J. (2007). El manual de minería de textos. Prensa de la Universidad de Cambridge. Nueva York
  4. ^ [1] Archivado el 29 de noviembre de 2009 en la Wayback Machine.
  5. ^ "Taller KDD-2000 sobre minería de textos - Convocatoria de artículos" . Cs.cmu.edu . Consultado el 23 de febrero de 2015 .
  6. ^ [2] Archivado el 3 de marzo de 2012 en la Wayback Machine.
  7. ^ Hobbs, Jerry R .; Walker, Donald E .; Amsler, Robert A. (1982). "Acceso en lenguaje natural al texto estructurado" . Actas de la IX Jornada de Lingüística Computacional . 1 . págs. 127–32. doi : 10.3115 / 991813.991833 . S2CID  6433117 .
  8. ^ "Datos no estructurados y la regla del 80 por ciento" . Análisis revolucionario. Agosto de 2008 . Consultado el 23 de febrero de 2015 .
  9. ^ Antunes, João (14 de noviembre de 2018). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional tesis) (en portugués). São Carlos: Universidad de São Paulo. doi : 10.11606 / d.55.2019.tde-03012019-103253 .
  10. ^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (diciembre de 2014). "Entidad de vinculación se encuentra con la desambiguación del sentido de la palabra: un enfoque unificado" . Transacciones de la Asociación de Lingüística Computacional . 2 : 231–244. doi : 10.1162 / tacl_a_00179 . ISSN  2307-387X .
  11. ^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 de febrero de 2017). "Un nuevo modelo basado en árboles en evolución con reaprendizaje local para la agrupación y visualización de documentos" . Letras de procesamiento neuronal . 46 (2): 379–409. doi : 10.1007 / s11063-017-9597-3 . ISSN  1370-4621 . S2CID  9100902 .
  12. ^ "Análisis de sentimiento de círculo completo" . Análisis revolucionario. 2010-06-14 . Consultado el 23 de febrero de 2015 .
  13. ^ Mehl, Matthias R. (2006). "Análisis cuantitativo de textos". Manual de medición multimétodo en psicología . pag. 141. doi : 10.1037 / 11383-011 . ISBN 978-1-59147-318-3.
  14. ^ Pang, Bo; Lee, Lillian (2008). "Minería de opinión y análisis de sentimiento". Fundamentos y tendencias en la recuperación de información . 2 (1–2): 1–135. CiteSeerX  10.1.1.147.2755 . doi : 10.1561 / 1500000011 . ISSN  1554-0669 .
  15. ^ Paltoglou, Georgios; Thelwall, Mike (1 de septiembre de 2012). "Twitter, MySpace, Digg: análisis de sentimiento sin supervisión en las redes sociales" . Transacciones ACM sobre tecnología y sistemas inteligentes . 3 (4): 66. doi : 10.1145 / 2337542.2337551 . ISSN  2157-6904 . S2CID  16600444 .
  16. ^ "Análisis de sentimiento en Twitter . alt.qcri.org . Consultado el 2 de octubre de 2018 .
  17. ^ Zanasi, Alessandro (2009). "Armas virtuales para guerras reales: minería de textos para la seguridad nacional". Actas del Taller Internacional sobre Inteligencia Computacional en Seguridad para Sistemas de Información CISIS'08 . Avances en Soft Computing. 53 . pag. 53. doi : 10.1007 / 978-3-540-88181-0_7 . ISBN 978-3-540-88180-3.
  18. ^ Badal, Varsha D .; Kundrotas, Petras J .; Vakser, Ilya A. (9 de diciembre de 2015). "Minería de texto para el acoplamiento de proteínas" . PLOS Biología Computacional . 11 (12): e1004630. Código bibliográfico : 2015PLSCB..11E4630B . doi : 10.1371 / journal.pcbi.1004630 . ISSN  1553-7358 . PMC  4674139 . PMID  26650466 .
  19. ^ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "Introducción a la minería de textos" . PLOS Biología Computacional . 4 (1): e20. Código bibliográfico : 2008PLSCB ... 4 ... 20C . doi : 10.1371 / journal.pcbi.0040020 . PMC  2217579 . PMID  18225946 .
  20. ^ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "Minería de texto para el acoplamiento de proteínas" . PLOS Biología Computacional . 11 (12): e1004630. Código bibliográfico : 2015PLSCB..11E4630B . doi : 10.1371 / journal.pcbi.1004630 . PMC  4674139 . PMID  26650466 .
  21. ^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A .; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Predicciones de interacción proteína-proteína utilizando métodos de minería de texto". Métodos . 74 : 47–53. doi : 10.1016 / j.ymeth.2014.10.026 . ISSN  1046-2023 . PMID  25448298 .
  22. ^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milán; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 de octubre de 2016). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesible" . Investigación de ácidos nucleicos . 45 (D1): D362 – D368. doi : 10.1093 / nar / gkw937 . ISSN  0305-1048 . PMC  5210637 . PMID  27924014 .
  23. ^ Liem, David A .; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H .; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Frase de minería de datos textuales para analizar patrones de proteínas de matriz extracelular a través de enfermedades cardiovasculares" . Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910 – H924. doi : 10.1152 / ajpheart.00175.2018 . ISSN  1522-1539 . PMC  6230912 . PMID  29775406 .
  24. ^ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 de agosto de 2018). "Predicción de riesgo mediante procesamiento de lenguaje natural de registros electrónicos de salud mental en un entorno de psiquiatría forense para pacientes hospitalizados" . Revista de Informática Biomédica . 86 : 49–58. doi : 10.1016 / j.jbi.2018.08.007 . PMID  30118855 .
  25. ^ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "Una red de literatura de genes humanos para el análisis de alto rendimiento de la expresión génica" . Genética de la naturaleza . 28 (1): 21–8. doi : 10.1038 / ng0501-21 . PMID  11326270 . S2CID  8889284 .
  26. ^ Masys, Daniel R. (2001). "Vinculación de datos de microarrays a la literatura" . Genética de la naturaleza . 28 (1): 9-10. doi : 10.1038 / ng0501-9 . PMID  11326264 . S2CID  52848745 .
  27. ^ Renganathan, Vinaitheerthan (2017). "Minería de textos en el dominio biomédico con énfasis en la agrupación de documentos" . Investigación en informática sanitaria . 23 (3): 141-146. doi : 10.4258 / hir.2017.23.3.141 . ISSN  2093-3681 . PMC  5572517 . PMID  28875048 .
  28. ^ [3] Archivado el 4 de octubre de 2013 en la Wayback Machine.
  29. ^ "Análisis de texto" . Medallia . Consultado el 23 de febrero de 2015 .
  30. ^ a b Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrar la voz de los clientes a través de correos electrónicos del centro de llamadas en un sistema de soporte de decisiones para la predicción de abandonos" . Información y gestión . 45 (3): 164–74. CiteSeerX  10.1.1.113.3238 . doi : 10.1016 / j.im.2008.01.005 .
  31. ^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Mejora de la gestión de quejas de los clientes mediante la clasificación automática de correo electrónico utilizando características de estilo lingüístico como predictores" . Sistemas de apoyo a la toma de decisiones . 44 (4): 870–82. doi : 10.1016 / j.dss.2007.10.010 .
  32. ^ Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de tableros de mensajes en línea en sistemas automáticos de predicción de stock". Revista de Ciencias Computacionales . 19 : 1877–7503. doi : 10.1016 / j.jocs.2017.01.001 .
  33. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "¿Pulgares hacia arriba?". Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural . 10 . págs. 79–86. doi : 10.3115 / 1118693.1118704 . S2CID  7105713 .
  34. ^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Desarrollo de recursos léxicos afectivos" (PDF) . Revista de psicología . 2 (1): 61–83.
  35. ^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: un recurso semántico disponible públicamente para la minería de opiniones" (PDF) . Procedimientos de AAAI CSK . págs. 14-18.
  36. ^ Calvo, Rafael A; d'Mello, Sidney (2010). "Detección de afecto: una revisión interdisciplinaria de modelos, métodos y sus aplicaciones" . Transacciones IEEE sobre computación afectiva . 1 (1): 18–37. doi : 10.1109 / T-AFFC.2010.1 . S2CID  753606 .
  37. ^ "La Universidad de Manchester" . Manchester.ac.uk . Consultado el 23 de febrero de 2015 .
  38. ^ "Laboratorio Tsujii" . Tsujii.is.su-tokyo.ac.jp . Consultado el 23 de febrero de 2015 .
  39. ^ "La Universidad de Tokio" . UTokyo . Consultado el 23 de febrero de 2015 .
  40. ^ Shen, Jiaming; Xiao, Jinfeng; Él, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 de junio de 2018). Búsqueda de conjuntos de entidades de literatura científica: un enfoque de clasificación no supervisado . ACM. págs. 565–574. doi : 10.1145 / 3209978.3210055 . ISBN 978-1-4503-5657-2. S2CID  13748283 .
  41. ^ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (6 de febrero de 2017). "La belleza de la mariposa de azufre: novedad de patentes identificadas por análisis de entorno cercano basado en minería de texto" . Cienciometría . 111 (1): 103-115. doi : 10.1007 / s11192-017-2267-4 . ISSN  0138-9130 . S2CID  11174676 .
  42. ^ Roll, Uri; Correia, Ricardo A .; Berger-Tal, Oded (10 de marzo de 2018). "Uso del aprendizaje automático para desenredar homónimos en grandes corpus de texto" . Biología de la conservación . 32 (3): 716–724. doi : 10.1111 / cobi.13044 . ISSN  0888-8892 . PMID  29086438 . S2CID  3783779 .
  43. ^ a b Análisis automatizado de las elecciones presidenciales de Estados Unidos utilizando Big Data y análisis de redes; S Sudhahar, GA Veltri, N. Cristianini; Big Data y sociedad 2 (1), 1-28, 2015
  44. ^ Análisis de redes de contenido narrativo en grandes corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Ingeniería del lenguaje natural, 1-32, 2013
  45. ^ Análisis narrativo cuantitativo; Roberto Franzosi; Universidad de Emory © 2010
  46. ^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Equipo, periódico FindMyPast; Cristianini, Nello (9 de enero de 2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas" . Actas de la Academia Nacional de Ciencias . 114 (4): E457 – E465. doi : 10.1073 / pnas.1606380114 . ISSN  0027-8424 . PMC  5278459 . PMID  28069962 .
  47. ^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, La estructura de la Mediasfera de la UE, PLoS ONE, Vol. 5 (12), págs. E14243, 2010.
  48. ^ Eventos Nowcasting desde la Web Social con Aprendizaje Estadístico V Lampos, N Cristianini; Transacciones ACM sobre tecnología y sistemas inteligentes (TIST) 3 (4), 72
  49. ^ NOAM: sistema de análisis y seguimiento de medios de comunicación; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. de la conferencia internacional ACM SIGMOD 2011 sobre Gestión de datos
  50. ^ Descubrimiento automático de patrones en el contenido de los medios, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
  51. ^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, MÉTODOS DE INVESTIGACIÓN EN LA ERA DEL PERIODISMO DIGITAL, Periodismo digital, Routledge, 2012
  52. ^ Variaciones del estado de ánimo circadiano en el contenido de Twitter; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Avances en el cerebro y la neurociencia, 1, 2398212817744501.
  53. ^ Efectos de la recesión en el estado de ánimo público en el Reino Unido; T Lansdall-Welfare, V Lampos, N Cristianini; Sesión de Mining Social Network Dynamics (MSND) sobre aplicaciones de redes sociales
  54. ^ Investigadores con derecho de minería de datos bajo las nuevas leyes de derechos de autor del Reino Unido. Archivado el 9 de junio de 2014 en Wayback Machine.
  55. ^ "Licencias para Europa - Diálogo estructurado de partes interesadas 2013" . Comisión Europea . Consultado el 14 de noviembre de 2014 .
  56. ^ "Text and Data Mining: su importancia y la necesidad de cambio en Europa" . Asociación de Bibliotecas de Investigación Europeas . 2013-04-25 . Consultado el 14 de noviembre de 2014 .
  57. ^ "El juez concede un juicio sumario a favor de Google Books - una victoria de uso justo" . Lexology.com . Antonelli Ley Ltd . Consultado el 14 de noviembre de 2014 .
  58. ^ "Una breve historia de análisis de texto por Seth Grimes" . Beyenetwork. 2007-10-30 . Consultado el 23 de febrero de 2015 .
  59. ^ Hearst, Marti A. (1999). "Desenredar la minería de datos de texto" . Actas de la 37ª reunión anual de la Asociación de Lingüística Computacional en Lingüística Computacional . págs. 3–10. doi : 10.3115 / 1034678.1034679 . ISBN 978-1-55860-609-8. S2CID  2340683 .

Fuentes

  • Ananiadou, S. y McNaught, J. (Editores) (2006). Minería de textos para biología y biomedicina . Libros de Artech House. ISBN  978-1-58053-984-5
  • Bilisoly, R. (2008). Minería de textos práctica con Perl . Nueva York: John Wiley & Sons. ISBN  978-0-470-17643-6
  • Feldman, R. y Sanger, J. (2006). El manual de minería de textos . Nueva York: Cambridge University Press. ISBN  978-0-521-83657-9
  • Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, Vol. 20 (1), pág. 19-62
  • Indurkhya, N. y Damerau, F. (2010). Manual de procesamiento del lenguaje natural , segunda edición. Boca Raton, FL: CRC Press. ISBN  978-1-4200-8592-1
  • Kao, A. y Poteet, S. (Editores). Procesamiento de lenguaje natural y minería de textos . Saltador. ISBN  1-84628-175-X
  • Konchady, M. Programación de aplicaciones de minería de textos (serie de programación) . Charles River Media. ISBN  1-58450-460-9
  • Manning, C. y Schutze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN  978-0-262-13360-9
  • Miner, G., élder, J., Hill. T, Nisbet, R., Delen, D. y Fast, A. (2012). Minería de textos práctica y análisis estadístico para aplicaciones de datos de texto no estructurados . Prensa académica de Elsevier. ISBN  978-0-12-386979-1
  • McKnight, W. (2005). "Construcción de inteligencia empresarial: minería de datos de texto en inteligencia empresarial". DM Review , 21-22.
  • Srivastava, A. y Sahami. M. (2009). Minería de texto: clasificación, agrupación y aplicaciones . Boca Raton, FL: CRC Press. ISBN  978-1-4200-5940-3
  • Zanasi, A. (Editor) (2007). Text Mining y sus aplicaciones a la inteligencia, CRM y gestión del conocimiento . WIT Press. ISBN  978-1-84564-131-3

  • Marti Hearst: ¿Qué es la minería de textos? (Octubre de 2003)
  • Extracción automática de contenido, Consorcio de datos lingüísticos
  • Extracción automática de contenido, NIST