Modelo de tema

En el aprendizaje automático y el procesamiento del lenguaje natural , un modelo de tema es un tipo de modelo estadísticopara descubrir los "temas" abstractos que se dan en una colección de documentos. El modelado de temas es una herramienta de extracción de texto de uso frecuente para el descubrimiento de estructuras semánticas ocultas en un cuerpo de texto. De manera intuitiva, dado que un documento trata sobre un tema en particular, uno esperaría que aparecieran palabras específicas en el documento con más o menos frecuencia: "perro" y "hueso" aparecerán con más frecuencia en documentos sobre perros, "gato" y "miau". aparecerá en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Por lo general, un documento se refiere a varios temas en diferentes proporciones; por lo tanto, en un documento que trata sobre gatos en un 10% y sobre perros en un 90%, probablemente habría alrededor de 9 veces más palabras de perros que de gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de tema captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, con base en las estadísticas de las palabras en cada uno, cuáles podrían ser los temas y cuál es el balance de temas de cada documento.

Los modelos temáticos también se conocen como modelos temáticos probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un cuerpo de texto extenso. En la era de la información, la cantidad de material escrito que encontramos cada día está simplemente más allá de nuestra capacidad de procesamiento. Los modelos de tema pueden ayudar a organizar y ofrecer información para que comprendamos grandes colecciones de cuerpos de texto no estructurados. Desarrollado originalmente como una herramienta de minería de texto, los modelos de temas se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática ^[1] y la visión por computadora . ^[2]

Historia

Un modelo temático temprano fue descrito por Papadimitriou, Raghavan, Tamaki y Vempala en 1998. ^[3] Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. ^[4] Asignación Dirichlet latente (LDA), quizás el modelo de tema más común actualmente en uso, es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA presenta distribuciones previas de Dirichlet escasas sobre distribuciones de documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña número de palabras. ^[5] Otros modelos de temas son generalmente extensiones de LDA, como la asignación de Pachinko , que mejora la LDA al modelar correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. El análisis jerárquico de árbol latente ( HLTA ) es una alternativa al LDA, que modela la co-ocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos suaves de documentos, se interpretan como temas.

Animación del proceso de detección de temas en una matriz documento-palabra. Cada columna corresponde a un documento, cada fila a una palabra. Una celda almacena la frecuencia de una palabra en un documento, las celdas oscuras indican frecuencias de palabras altas. Los modelos de tema agrupan ambos documentos, que utilizan palabras similares, así como palabras que aparecen en un conjunto similar de documentos. Los patrones resultantes se denominan "temas". ^[6]

Modelos de temas para información de contexto

Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en la Gaceta de Pensilvania durante 1728-1800. Griffiths y Steyvers utilizaron modelos de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o bajaron en popularidad entre 1991 y 2001, mientras que Lamba y Madhusushan ^[7] utilizaron modelos de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de las bibliotecas y las ciencias de la información, Lamba & Madhusudhan ^[8] ^[9] ^[10] ^[11] aplicaron modelos de temas en diferentes recursos indios como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson ^[12] ha estado analizando cambios en temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios sociales y políticos y las continuidades en Richmond durante la Guerra Civil Americana . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a los periódicos de 1829 a 2008. Mimno utilizó modelos de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas de las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares con el tiempo.

Yin y col. ^[13] introdujo un modelo de temas para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican por regiones latentes que se detectan durante la inferencia.

Chang y Blei ^[14] incluyeron información de red entre documentos vinculados en el modelo de tema relacional, para modelar los vínculos entre sitios web.

El modelo autor-tema de Rosen-Zvi et al. ^[15] modela los temas asociados con los autores de documentos para mejorar la detección de temas para documentos con información de autoría.

HLTA se aplicó a una colección de artículos de investigación recientes publicados en los principales lugares de inteligencia artificial y aprendizaje automático. El modelo resultante se llama The AI Tree . Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar los artículos para leer , y ayudar a los organizadores de conferencias y editores de revistas a identificar a los revisores para los envíos .

Algoritmos

En la práctica, los investigadores intentan ajustar los parámetros del modelo apropiados al corpus de datos utilizando una de varias heurísticas para lograr un ajuste de máxima verosimilitud. Una encuesta reciente de Blei describe este conjunto de algoritmos. ^[16] Varios grupos de investigadores comenzando con Papadimitriou et al. ^[3] han intentado diseñar algoritmos con probables garantías. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición de valores singulares (SVD) y el método de momentos . En 2012 se introdujo un algoritmo basado en la factorización matricial no negativa (NMF) que también se generaliza a modelos de temas con correlaciones entre temas. ^[17]

En 2018 surgió un nuevo enfoque de los modelos temáticos basado en el modelo de bloques estocásticos ^[18]

Modelos temáticos de biomedicina cuantitativa

Los modelos temáticos también se utilizan en otros contextos. Por ejemplo, surgieron usos de modelos temáticos en la investigación biológica y bioinformática. ^[19] Recientemente, se han utilizado modelos de temas para extraer información de un conjunto de datos de muestras genómicas de cánceres. ^[20] En este caso los tópicos son variables biológicas latentes a inferir.

Ver también

Referencias

^ Blei, David (abril de 2012). "Modelos temáticos probabilísticos" . Comunicaciones de la ACM . 55 (4): 77–84. doi : 10.1145 / 2133806.2133826 . S2CID 753304 .
^ Cao, Liangliang y Li Fei-Fei. " Modelo de tema latente espacialmente coherente para la segmentación y clasificación concurrente de objetos y escenas ". 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.
^ a b Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Indexación semántica latente: un análisis probabilístico" (Posdata) . Actas de ACM PODS: 159–168. doi : 10.1145 / 275487.275505 . ISBN 978-0897919968. S2CID 1479546 .
^ Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : 993-1022. doi : 10.1162 / jmlr.2003.3.4-5.993 .
^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
^ Lamba, Manika jun (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . ISSN 0138-9130 . S2CID 174802673 .
^ Lamba, Manika jun (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . ISSN 0138-9130 . S2CID 174802673 .
^ Lamba, Manika jun (2019). "Modelado de predicción y etiquetado de metadatos: estudio de caso de la revista DESIDOC de bibliotecas y tecnologías de la información (2008-2017)" . Bibliotecas digitales mundiales . 12 : 33–89. doi : 10.18329 / 09757597/2019/12103 (inactivo 2021-01-15). ISSN 0975-7597 .Mantenimiento de CS1: DOI inactivo a partir de enero de 2021 ( enlace )
^ Lamba, Manika mayo (2019). "Modelado de autor-tema de la revista DESIDOC de bibliotecas y tecnologías de la información (2008-2017), India" . Filosofía y Práctica Bibliotecaria .
^ Lamba, Manika sep (2018). Etiquetado de metadatos de tesis sobre bibliotecología y ciencias de la información: Shodhganga (2013-2017) (PDF) . ETD2018: Más allá de los límites de Rims and Oceans. Taiwán, Taipei.
^ Nelson, Rob. Minería del despacho . Laboratorio de becas digitales, Universidad de Richmond https://dsl.richmond.edu/dispatch/ . Consultado el 26 de marzo de 2021 . Falta o vacío |title=( ayuda )
^ Yin, Zhijun (2011). "Descubrimiento y comparación de temas geográficos" . Actas de la 20ª Conferencia Internacional sobre la World Wide Web : 247–256. doi : 10.1145 / 1963405.1963443 . ISBN 9781450306324. S2CID 17883132 .
^ Chang, Jonathan (2009). "Modelos de temas relacionales para redes de documentos" (PDF) . Aistats . 9 : 81–88.
^ Rosen-Zvi, Michal (2004). "El modelo autor-tema para autores y documentos". Actas de la 20ª Conferencia sobre Incertidumbre en Inteligencia Artificial : 487–494. arXiv : 1207.4169 .
^ Blei, David M. (abril de 2012). "Introducción a los modelos temáticos probabilísticos" (PDF) . Comm. ACM . 55 (4): 77–84. doi : 10.1145 / 2133806.2133826 . S2CID 753304 .
^ Sanjeev Arora; Rong Ge; Ankur Moitra (abril de 2012). "Modelos de temas de aprendizaje: más allá de la SVD". arXiv : 1204,1956 [ cs.LG ].
^ Martin Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Un enfoque de red para los modelos de temas" . Avances científicos . 4 (7): eaaq1360. arXiv : 1708.01677 . Código bibliográfico : 2018SciA .... 4.1360G . doi : 10.1126 / sciadv.aaq1360 . PMC 6051742 . PMID 30035215 .
^ Liu, L .; Tang, L .; et al. (2016). "Una descripción general del modelado de temas y sus aplicaciones actuales en bioinformática" . SpringerPlus . 5 (1): 1608. doi : 10.1186 / s40064-016-3252-8 . PMC 5028368 . PMID 27652181 . S2CID 16712827 .
^ Valle, F .; Osella, M .; Caselle, M. (2020). "Un análisis de modelado de temas de datos transcriptómicos de cáncer de mama y pulmón TCGA" . Cánceres . 12 (12): 3799. doi : 10.3390 / cancers12123799 . PMC 7766023 . PMID 33339347 . S2CID 229325007 .

Otras lecturas

Steyvers, Mark; Griffiths, Tom (2007). "Modelos temáticos probabilísticos" . En Landauer, T .; McNamara, D; Dennis, S .; et al. (eds.). Manual de análisis semántico latente (PDF) . Prensa de psicología. ISBN 978-0-8058-5418-3. Archivado desde el original (PDF) el 24 de junio de 2013.
Blei, DM; Lafferty, JD (2009). "Modelos de temas" (PDF) .
Blei, D .; Lafferty, J. (2007). "Un modelo de temas correlacionados de la ciencia ". Annals of Applied Statistics . 1 (1): 17–35. arXiv : 0708.3601 . doi : 10.1214 / 07-AOAS114 . S2CID 8872108 .
Mimno, D. (abril de 2012). "Historiografía computacional: minería de datos en un siglo de revistas clásicas" (PDF) . Revista de Informática y Patrimonio Cultural . 5 (1): 1–19. doi : 10.1145 / 2160165.2160168 . S2CID 12153151 .
Marwick, Ben (2013). "Descubrimiento de cuestiones emergentes y controversias en antropología mediante minería de textos, modelado de temas y análisis de redes sociales de contenido de microblogs" . En Yanchang, Zhao; Yonghua, Cen (eds.). Las aplicaciones de minería de datos con R . Elsevier. págs. 63–93.
Jockers, M. 2010 Who's your DH Blog Mate: Matching the Day of DH Bloggers with Topic Modeling Matthew L. Jockers, publicado el 19 de marzo de 2010
Drouin, J. 2011 Incursión en el modelado de temas ^{[ enlace muerto permanente ]} Ecclesiastical Proust Archive. publicado el 17 de marzo de 2011
Templeton, C. 2011 Modelado de temas en humanidades: una descripción general Blog del Instituto de Tecnología en Humanidades de Maryland. publicado el 1 de agosto de 2011
Griffiths, T .; Steyvers, M. (2004). "Encontrar temas científicos" . Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–35. Código bibliográfico : 2004PNAS..101.5228G . doi : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .
Yang, T., A Torget y R. Mihalcea (2011) Modelado de temas en periódicos históricos. Actas del 5º Taller de ACL-HLT sobre tecnología del lenguaje para el patrimonio cultural, las ciencias sociales y las humanidades . La Asociación de Lingüística Computacional, Madison, WI. páginas 96-104.
Block, S. (enero de 2006). "Hacer más con la digitalización: una introducción al modelado de temas de las primeras fuentes estadounidenses" . Common-place the Interactive Journal of Early American Life . 6 (2).
Newman, D .; Block, S. (marzo de 2006). "Descomposición temática probabilística de un periódico del siglo XVIII" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 57 (5): 753–767. doi : 10.1002 / asi.20342 .

enlaces externos

Mimno, David. "Bibliografía de modelado de temas" .
Brett, Megan R. "Modelado de temas: una introducción básica" . Revista de Humanidades Digitales.
Modelos de temas aplicados a noticias y reseñas en línea Video de una presentación de Google Tech Talk de Alice Oh sobre el modelado de temas con LDA
Modelización de la ciencia: modelos de temas dinámicos de investigación académica Vídeo de una presentación de Google Tech Talk de David M. Blei
Modelos de temas automatizados en ciencias políticas Video de una presentación de Brandon Stewart en el taller Tools for Text , 14 de junio de 2010
Shawn Graham, Ian Milligan y Scott Weingart "Introducción al modelado de temas y MALLET" . El historiador de la programación. Archivado desde el original el 28 de agosto de 2014 . Consultado el 29 de mayo de 2014 .
Blei, David M. "Material y software de introducción"
código , demostración : ejemplo de uso de LDA para el modelado de temas

[1] Blei, David (abril de 2012). "Modelos temáticos probabilísticos" . Comunicaciones de la ACM . 55 (4): 77–84. doi : 10.1145 / 2133806.2133826 . S2CID 753304 .

[2] Cao, Liangliang y Li Fei-Fei. " Modelo de tema latente espacialmente coherente para la segmentación y clasificación concurrente de objetos y escenas ". 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.

[PRTV1998-3] Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Indexación semántica latente: un análisis probabilístico" (Posdata) . Actas de ACM PODS: 159–168. doi : 10.1145 / 275487.275505 . ISBN 978-0897919968. S2CID 1479546 .

[hofmann1999-4] Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.

[blei2003-5] Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : 993-1022. doi : 10.1162 / jmlr.2003.3.4-5.993 .

[6] ttp://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html

[7] Lamba, Manika jun (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . ISSN 0138-9130 . S2CID 174802673 .

[8] Lamba, Manika jun (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . ISSN 0138-9130 . S2CID 174802673 .

[9] Lamba, Manika jun (2019). "Modelado de predicción y etiquetado de metadatos: estudio de caso de la revista DESIDOC de bibliotecas y tecnologías de la información (2008-2017)" . Bibliotecas digitales mundiales . 12 : 33–89. doi : 10.18329 / 09757597/2019/12103 (inactivo 2021-01-15). ISSN 0975-7597 .Mantenimiento de CS1: DOI inactivo a partir de enero de 2021 ( enlace )

[10] Lamba, Manika mayo (2019). "Modelado de autor-tema de la revista DESIDOC de bibliotecas y tecnologías de la información (2008-2017), India" . Filosofía y Práctica Bibliotecaria .

[11] Lamba, Manika sep (2018). Etiquetado de metadatos de tesis sobre bibliotecología y ciencias de la información: Shodhganga (2013-2017) (PDF) . ETD2018: Más allá de los límites de Rims and Oceans. Taiwán, Taipei.

[12] Nelson, Rob. Minería del despacho . Laboratorio de becas digitales, Universidad de Richmond https://dsl.richmond.edu/dispatch/ . Consultado el 26 de marzo de 2021 . Falta o vacío |title=( ayuda )

[13] Yin, Zhijun (2011). "Descubrimiento y comparación de temas geográficos" . Actas de la 20ª Conferencia Internacional sobre la World Wide Web : 247–256. doi : 10.1145 / 1963405.1963443 . ISBN 9781450306324. S2CID 17883132 .

[14] Chang, Jonathan (2009). "Modelos de temas relacionales para redes de documentos" (PDF) . Aistats . 9 : 81–88.

[15] Rosen-Zvi, Michal (2004). "El modelo autor-tema para autores y documentos". Actas de la 20ª Conferencia sobre Incertidumbre en Inteligencia Artificial : 487–494. arXiv : 1207.4169 .

[blei2011-16] Blei, David M. (abril de 2012). "Introducción a los modelos temáticos probabilísticos" (PDF) . Comm. ACM . 55 (4): 77–84. doi : 10.1145 / 2133806.2133826 . S2CID 753304 .

[17] Sanjeev Arora; Rong Ge; Ankur Moitra (abril de 2012). "Modelos de temas de aprendizaje: más allá de la SVD". arXiv : 1204,1956 [ cs.LG ].

[gerlach2018-18] Martin Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Un enfoque de red para los modelos de temas" . Avances científicos . 4 (7): eaaq1360. arXiv : 1708.01677 . Código bibliográfico : 2018SciA .... 4.1360G . doi : 10.1126 / sciadv.aaq1360 . PMC 6051742 . PMID 30035215 .

[19] Liu, L .; Tang, L .; et al. (2016). "Una descripción general del modelado de temas y sus aplicaciones actuales en bioinformática" . SpringerPlus . 5 (1): 1608. doi : 10.1186 / s40064-016-3252-8 . PMC 5028368 . PMID 27652181 . S2CID 16712827 .

[20] Valle, F .; Osella, M .; Caselle, M. (2020). "Un análisis de modelado de temas de datos transcriptómicos de cáncer de mama y pulmón TCGA" . Cánceres . 12 (12): 3799. doi : 10.3390 / cancers12123799 . PMC 7766023 . PMID 33339347 . S2CID 229325007 .

[1]