Red de co-ocurrencia

Las redes de co-ocurrencia se utilizan generalmente para proporcionar una visualización gráfica de las relaciones potenciales entre personas , organizaciones, conceptos, organismos biológicos como bacterias ^[1] u otras entidades representadas en el material escrito. La generación y visualización de redes de co-ocurrencia se ha vuelto práctica con el advenimiento del texto almacenado electrónicamente compatible con la minería de texto .

Una red de co-ocurrencia creada con KH Coder

A modo de definición, las redes de co-ocurrencia son la interconexión colectiva de términos basados en su presencia pareada dentro de una unidad de texto específica. Las redes se generan conectando pares de términos utilizando un conjunto de criterios que definen la co-ocurrencia. Por ejemplo, se puede decir que los términos A y B "coexisten" si ambos aparecen en un artículo en particular. Otro artículo puede contener términos B y C. La vinculación de A con B y B con C crea una red de co-ocurrencia de estos tres términos. Las reglas para definir la co-ocurrencia dentro de un corpus de texto se pueden establecer de acuerdo con los criterios deseados. Por ejemplo, un criterio más estricto de co-ocurrencia puede requerir que aparezcan un par de términos en la misma oración .

Métodos y desarrollo

Red de co-ocurrencia de palabras (rango de 3 palabras) para la siguiente oración: "El amanecer es la aparición de la luz, generalmente dorada, rosada o violeta, antes del amanecer"

Red de co-ocurrencia de una comunidad bacteriana
en un arroyo ^[2]

Se pueden crear redes de co-ocurrencia para cualquier lista dada de términos (cualquier diccionario ) en relación con cualquier colección de textos (cualquier corpus de texto ). Los pares de términos coexistentes pueden denominarse "vecinos" y estos a menudo se agrupan en "vecindarios" en función de sus interconexiones. Los términos individuales pueden tener varios vecinos. Los vecindarios pueden conectarse entre sí a través de al menos un término individual o pueden permanecer desconectados.

Los términos individuales, dentro del contexto de la minería de texto, se representan simbólicamente como cadenas de texto . En el mundo real, la entidad identificada por un término normalmente tiene varias representaciones simbólicas. Por lo tanto, es útil considerar que los términos están representados por un símbolo principal y hasta varios símbolos alternativos sinónimos . La aparición de un término individual se establece mediante la búsqueda de cada representación simbólica conocida del término. El proceso se puede aumentar a través de algoritmos NLP ( procesamiento de lenguaje natural ) que interrogan segmentos de texto en busca de posibles alternativas, como el orden de las palabras , el espaciado y la separación de sílabas . La PNL también se puede utilizar para identificar la estructura de la oración y categorizar cadenas de texto de acuerdo con la gramática (por ejemplo, categorizar una cadena de texto como un sustantivo basado en una cadena de texto anterior que se sabe que es un artículo ).

La representación gráfica de las redes de co-ocurrencia permite visualizarlas y hacer inferencias sobre las relaciones entre entidades en el dominio representado por el diccionario de términos aplicado al corpus textual. La visualización significativa normalmente requiere simplificaciones de la red. Por ejemplo, las redes se pueden dibujar de manera que el número de vecinos que se conectan a cada término sea limitado. Los criterios para limitar a los vecinos pueden basarse en el número absoluto de co-ocurrencias o criterios más sutiles como la "probabilidad" de co-ocurrencia o la presencia de un término descriptivo intermedio.

Los aspectos cuantitativos de la estructura subyacente de una red de co-ocurrencia también pueden ser informativos, como el número total de conexiones entre entidades, agrupamiento de entidades que representan subdominios, detección de sinónimos, ^[3] etc.

Aplicaciones y uso

Algunas aplicaciones de trabajo del enfoque de co-ocurrencia están disponibles para el público a través de Internet . PubGene es un ejemplo de una aplicación que aborda los intereses de la comunidad biomédica al presentar redes basadas en la co-ocurrencia de términos relacionados con la genética tal como aparecen en los registros de MEDLINE . ^[4]^[5] El sitio web NameBase es un ejemplo de cómo se pueden inferir las relaciones humanas examinando redes construidas a partir de la co-ocurrencia de nombres personales en periódicos y otros textos (como en Ozgur et al. ^[6] ).

Las redes de información también se utilizan para facilitar los esfuerzos para organizar y enfocar la información disponible públicamente para propósitos de inteligencia y aplicación de la ley (la llamada " inteligencia de fuente abierta " u OSINT). Las técnicas relacionadas incluyen redes de co-citas, así como el análisis de hipervínculos y estructura de contenido en Internet (como en el análisis de sitios web relacionados con el terrorismo ^[7] ).

Ver también

Referencias

^ Freilich, Shiri; Kreimer, Anat; Meilijson, Isacc; Gophna, Uri; Sharan, Roded; Ruppin, Eytan (27 de febrero de 2010). "La organización a gran escala de la red bacteriana de interacciones de co-ocurrencia ecológica" . Investigación de ácidos nucleicos . 38 (12): 3857–3868. doi : 10.1093 / nar / gkq118 . ISSN 1362-4962 . PMC 2896517 . PMID 20194113 .
^ Liu, Yang; Qu, Xiaodong; Elser, James J .; Peng, Wenqi; Zhang, Min; Ren, Ze; Zhang, Haiping; Zhang, Yuhang; Yang, Hua (2019). "Impacto de los gradientes de nutrientes y estequiometría en conjuntos microbianos en el lago Erhai y sus corrientes de entrada" . Agua . 11 (8): 1711. doi : 10.3390 / w11081711 .
^ Cohen, AM; Hersh, WR; Dubay, C; Spackman, K (2005). "Utilizando la estructura de red de co-ocurrencia para extraer nombres sinónimos de genes y proteínas de los resúmenes de MEDLINE" . BMC Bioinformática . 6 (1): 103. doi : 10.1186 / 1471-2105-6-103 . ISSN 1471-2105 . PMC 1090552 . PMID 15847682 .
^ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (1 de mayo de 2001). "Una red de literatura de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la naturaleza . 28 (1): 21-28. doi : 10.1038 / ng0501-21 . ISSN 1061-4036 . PMID 11326270 . S2CID 8889284 .
^ Grivell, L. (1 de marzo de 2002). "Explotando el bibliome: ¿buscando una aguja en un pajar?: Se necesitan nuevas herramientas informáticas para escanear de forma eficaz la creciente cantidad de literatura científica en busca de información útil" . Informes EMBO . 3 (3): 200–203. doi : 10.1093 / embo-reports / kvf059 . ISSN 1469-221X . PMC 1084023 . PMID 11882534 .
^ Ozgur A, Cetin B, Bingol H: "Red de co-ocurrencia de Reuters News" (15 de diciembre de 2007) https://arxiv.org/abs/0712.2491
^ Yilu Zhou; Reid, E .; Jialun Qin; Hsinchun Chen; Guanpi Lai (22 de mayo de 2018). "Grupos extremistas nacionales de EE. UU. En la Web: análisis de enlaces y contenido". Sistemas inteligentes IEEE . 20 (5): 44–51. doi : 10.1109 / MIS.2005.96 . S2CID 15687907 .

Liu, Chua TS (2001). "Construcción de una red de perceptrón semántico para la detección de temas" . Actas de la 39ª Reunión Anual de la Asociación de Lingüística Computacional : 378–385. doi : 10.3115 / 1073012.1073061 .

[Freilich_Kreimer_Meilijson_Gophna_pp._3857–3868-1] Freilich, Shiri; Kreimer, Anat; Meilijson, Isacc; Gophna, Uri; Sharan, Roded; Ruppin, Eytan (27 de febrero de 2010). "La organización a gran escala de la red bacteriana de interacciones de co-ocurrencia ecológica" . Investigación de ácidos nucleicos . 38 (12): 3857–3868. doi : 10.1093 / nar / gkq118 . ISSN 1362-4962 . PMC 2896517 . PMID 20194113 .

[2] Liu, Yang; Qu, Xiaodong; Elser, James J .; Peng, Wenqi; Zhang, Min; Ren, Ze; Zhang, Haiping; Zhang, Yuhang; Yang, Hua (2019). "Impacto de los gradientes de nutrientes y estequiometría en conjuntos microbianos en el lago Erhai y sus corrientes de entrada" . Agua . 11 (8): 1711. doi : 10.3390 / w11081711 .

[3] Cohen, AM; Hersh, WR; Dubay, C; Spackman, K (2005). "Utilizando la estructura de red de co-ocurrencia para extraer nombres sinónimos de genes y proteínas de los resúmenes de MEDLINE" . BMC Bioinformática . 6 (1): 103. doi : 10.1186 / 1471-2105-6-103 . ISSN 1471-2105 . PMC 1090552 . PMID 15847682 .

[4] Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (1 de mayo de 2001). "Una red de literatura de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la naturaleza . 28 (1): 21-28. doi : 10.1038 / ng0501-21 . ISSN 1061-4036 . PMID 11326270 . S2CID 8889284 .

[5] Grivell, L. (1 de marzo de 2002). "Explotando el bibliome: ¿buscando una aguja en un pajar?: Se necesitan nuevas herramientas informáticas para escanear de forma eficaz la creciente cantidad de literatura científica en busca de información útil" . Informes EMBO . 3 (3): 200–203. doi : 10.1093 / embo-reports / kvf059 . ISSN 1469-221X . PMC 1084023 . PMID 11882534 .

[6] Ozgur A, Cetin B, Bingol H: "Red de co-ocurrencia de Reuters News" (15 de diciembre de 2007) https://arxiv.org/abs/0712.2491

[7] Yilu Zhou; Reid, E .; Jialun Qin; Hsinchun Chen; Guanpi Lai (22 de mayo de 2018). "Grupos extremistas nacionales de EE. UU. En la Web: análisis de enlaces y contenido". Sistemas inteligentes IEEE . 20 (5): 44–51. doi : 10.1109 / MIS.2005.96 . S2CID 15687907 .

[1]