El análisis de red de correlación ponderada , también conocido como análisis de red de coexpresión de genes ponderados (WGCNA), es un método de extracción de datos ampliamente utilizado , especialmente para estudiar redes biológicas basadas en correlaciones por pares entre variables. Si bien se puede aplicar a la mayoría de los conjuntos de datos de alta dimensión , se ha utilizado más ampliamente en aplicaciones genómicas . Permite definir módulos (clústeres), concentradores intramodulares y nodos de red con respecto a la pertenencia del módulo, estudiar las relaciones entre módulos de coexpresión y comparar la topología de red de diferentes redes (análisis de red diferencial). WGCNA se puede utilizar como técnica de reducción de datos(relacionado con el análisis factorial oblicuo ), como método de agrupación (agrupación difusa), como método de selección de características (por ejemplo, como método de detección de genes), como marco para integrar datos complementarios (genómicos) (basados en correlaciones ponderadas entre variables cuantitativas), y como técnica de exploración de datos . [1] Aunque WGCNA incorpora técnicas tradicionales de exploración de datos, su lenguaje de red intuitivo y su marco de análisis trascienden cualquier técnica de análisis estándar. Dado que utiliza metodología de red y es muy adecuado para integrar conjuntos de datos genómicos complementarios, se puede interpretar como un método de análisis de datos genéticos o biológicos de sistemas. Al seleccionar hubs intramodulares en módulos de consenso, WGCNA también da lugar a técnicas de metanálisis basadas en redes . [2]
Historia
El método WGCNA fue desarrollado por Steve Horvath , profesor de genética humana en la Facultad de Medicina David Geffen de UCLA y de bioestadística en la Facultad de Salud Pública Fielding de UCLA y sus colegas de UCLA, y (ex) miembros del laboratorio (en particular Peter Langfelder, Bin Zhang, Jun Dong). Gran parte del trabajo surgió de colaboraciones con investigadores aplicados. En particular, se desarrollaron redes de correlación ponderada en discusiones conjuntas con los investigadores del cáncer Paul Mischel , Stanley F. Nelson y los neurocientíficos Daniel H. Geschwind , Michael C. Oldham (según la sección de reconocimiento en [1] ). Existe una vasta literatura sobre redes de dependencia, redes libres de escala y redes de coexpresión. [ cita requerida ]
Comparación entre redes de correlación ponderadas y no ponderadas
Una red de correlación ponderada se puede interpretar como un caso especial de una red ponderada , una red de dependencia o una red de correlación. El análisis de red de correlación ponderada puede resultar atractivo por las siguientes razones:
- La construcción de la red (basada en un umbral suave del coeficiente de correlación ) preserva la naturaleza continua de la información de correlación subyacente. Por ejemplo, las redes de correlación ponderadas que se construyen sobre la base de correlaciones entre variables numéricas no requieren la elección de un umbral estricto. Dicotomizar la información y establecer umbrales (estrictos) puede conducir a la pérdida de información. [3]
- La construcción de la red tiene resultados muy robustos con respecto a las diferentes opciones del umbral suave. [3] Por el contrario, los resultados basados en redes no ponderadas, construidas mediante el umbral de una medida de asociación por pares, a menudo dependen en gran medida del umbral.
- Las redes de correlación ponderada facilitan una interpretación geométrica basada en la interpretación angular de la correlación, capítulo 6 en. [4]
- Las estadísticas de red resultantes se pueden utilizar para mejorar los métodos estándar de extracción de datos, como el análisis de conglomerados, ya que las medidas de (dis) similitud a menudo se pueden transformar en redes ponderadas; [5] ver capítulo 6 en [4]
- WGCNA proporciona potentes estadísticas de conservación de módulos que se pueden utilizar para cuantificar si se pueden encontrar en otra condición. Además, las estadísticas de preservación de módulos permiten estudiar las diferencias entre la estructura modular de las redes. [6]
- Las redes ponderadas y las redes de correlación a menudo pueden aproximarse mediante redes "factorizables". [4] [7] Estas aproximaciones a menudo son difíciles de lograr para redes dispersas y no ponderadas. Por lo tanto, las redes ponderadas (de correlación) permiten una parametrización parsimoniosa (en términos de módulos y pertenencia al módulo) (capítulos 2, 6 en [1] ) y. [8]
Método
En primer lugar, se define una medida de similitud de coexpresión genética que se utiliza para definir la red. Denotamos la medida de similitud de coexpresión génica de un par de genes i y j por. Muchos estudios de coexpresión utilizan el valor absoluto de la correlación como una medida de similitud de coexpresión sin signo,
donde los perfiles de expresión génica y consisten en la expresión de los genes i y j en múltiples muestras. Sin embargo, el uso del valor absoluto de la correlación puede confundir la información biológicamente relevante, ya que no se hace ninguna distinción entre la represión y la activación de genes. Por el contrario, en las redes firmadas la similitud entre genes refleja el signo de la correlación de sus perfiles de expresión. Para definir una medida de coexpresión firmada entre perfiles de expresión génica y , se puede utilizar una transformación simple de la correlación:
Como la medida sin firmar , la similitud firmada toma un valor entre 0 y 1. Tenga en cuenta que la similitud sin signo entre dos genes expresados de manera opuesta () es igual a 1 mientras que es igual a 0 para la similitud con signo. Del mismo modo, mientras que la medida de coexpresión sin signo de dos genes con correlación cero sigue siendo cero, la similitud con signo es igual a 0,5.
A continuación, una matriz de adyacencia (red),, se utiliza para cuantificar la fuerza con la que los genes están conectados entre sí. se define mediante el umbral de la matriz de similitud de coexpresión . Umbral 'duro' (dicotomización) de la medida de similitudda como resultado una red de coexpresión génica no ponderada. Específicamente, una adyacencia de red no ponderada se define como 1 siy 0 en caso contrario. Debido a que el umbral estricto codifica las conexiones génicas de forma binaria, puede ser sensible a la elección del umbral y provocar la pérdida de información de coexpresión. [3] La naturaleza continua de la información de coexpresión se puede preservar empleando un umbral suave, lo que da como resultado una red ponderada. Específicamente, WGCNA utiliza la siguiente función de potencia para evaluar la fuerza de su conexión:
,
donde el poder es el parámetro de umbral suave. Los valores predeterminados y se utilizan para redes firmadas y sin firmar, respectivamente. Alternativamente,se puede elegir utilizando el criterio de topología libre de escala que equivale a elegir el valor más pequeño dede modo que se alcance una topología libre de escala aproximada. [3]
Desde , la adyacencia de la red ponderada está relacionada linealmente con la similitud de coexpresión en una escala logarítmica. Tenga en cuenta que un alto poder transforma las similitudes altas en adyacencias altas, mientras empuja las similitudes bajas hacia 0. Dado que este procedimiento de umbral suave aplicado a una matriz de correlación por pares conduce a una matriz de adyacencia ponderada, el análisis resultante se denomina análisis de red de coexpresión génica ponderada.
Un paso importante en el análisis centrado en módulos es agrupar genes en módulos de red utilizando una medida de proximidad de red. En términos generales, un par de genes tiene una gran proximidad si están estrechamente interconectados. Por convención, la proximidad máxima entre dos genes es 1 y la proximidad mínima es 0. Normalmente, WGCNA utiliza la medida de superposición topológica (TOM) como proximidad. [9] [10] que también se puede definir para redes ponderadas. [3] El TOM combina la adyacencia de dos genes y las fortalezas de conexión que estos dos genes comparten con otros genes de "terceros". El TOM es una medida muy robusta de interconexión de redes (proximidad). Esta proximidad se utiliza como entrada del agrupamiento jerárquico de vinculación promedio. Los módulos se definen como ramas del árbol de clúster resultante utilizando el enfoque de corte dinámico de ramas. [11] A continuación, los genes dentro de un módulo determinado se resumen con el gen propio del módulo , que puede considerarse como el mejor resumen de los datos de expresión del módulo estandarizado. [4] El gen propio del módulo de un módulo dado se define como el primer componente principal de los perfiles de expresión estandarizados. Eigengenes define biomarcadores robustos, [12] y se pueden utilizar como características en modelos complejos de aprendizaje automático como las redes bayesianas . [13] Para encontrar módulos que se relacionen con un rasgo clínico de interés, los genes propios del módulo se correlacionan con el rasgo clínico de interés, lo que da lugar a una medida de importancia del gen propio. Eigengenes se pueden utilizar como características en modelos predictivos más complejos, incluidos árboles de decisión y redes bayesianas. [12] También se pueden construir redes de coexpresión entre eigengenes de módulos (redes de genes propios), es decir, redes cuyos nodos son módulos. [14] Para identificar genes concentradores intramodulares dentro de un módulo dado, se pueden usar dos tipos de medidas de conectividad. El primero, denominado, se define en función de la correlación de cada gen con el gen propio del módulo respectivo. El segundo, denominado kIN, se define como una suma de adyacencias con respecto a los genes del módulo. En la práctica, estas dos medidas son equivalentes. [4] Para probar si un módulo se conserva en otro conjunto de datos, se pueden utilizar varias estadísticas de red, p. Ej.. [6]
Aplicaciones
WGCNA se ha utilizado ampliamente para analizar datos de expresión génica (es decir, datos transcripcionales), por ejemplo, para encontrar genes concentradores intramodulares. [2] [15] Por ejemplo, el estudio de WGCNA revela que nuevos factores de transcripción están asociados con la respuesta a la dosis de bisfenol A (BPA) . [dieciséis]
A menudo se utiliza como paso de reducción de datos en aplicaciones genéticas de sistemas donde los módulos están representados por "módulos eigengenes", por ejemplo, [17] [18] Los módulos eigengenes se pueden utilizar para correlacionar módulos con rasgos clínicos. Las redes de genes propios son redes de coexpresión entre genes propios de módulos (es decir, redes cuyos nodos son módulos). WGCNA es ampliamente utilizado en aplicaciones de neurociencia, por ejemplo [19] [20] y para el análisis de datos genómicos incluyendo microarrays de datos, [21] sola célula RNA-Seq de datos [22] [23] de metilación del ADN de datos, [24] miARN datos, péptido recuentos [25] y datos de microbiota (secuenciación del gen del ARNr 16S). [26] Otras aplicaciones incluyen datos de imágenes cerebrales, por ejemplo, datos de resonancia magnética funcional . [27]
Paquete de software R
El paquete de software WGCNA R [28] proporciona funciones para llevar a cabo todos los aspectos del análisis de redes ponderadas (construcción de módulos, selección de genes concentradores, estadísticas de preservación de módulos, análisis de redes diferenciales, estadísticas de redes). El paquete WGCNA está disponible en Comprehensive R Archive Network (CRAN), el repositorio estándar para paquetes complementarios R.
Referencias
- ↑ a b c Horvath S (2011). Análisis ponderado de redes: aplicación en genómica y biología de sistemas . Nueva York, NY: Springer. ISBN 978-1-4419-8818-8.
- ^ a b Langfelder P, Mischel PS, Horvath S, Ravasi T (17 de abril de 2013). "¿Cuándo es mejor la selección del gen Hub que el metaanálisis estándar?" . PLOS ONE . 8 (4): e61505. Código Bibliográfico : 2013PLoSO ... 861505L . doi : 10.1371 / journal.pone.0061505 . PMC 3629234 . PMID 23613865 .
- ^ a b c d e Zhang B, Horvath S (2005). "Un marco general para el análisis de redes de coexpresión de genes ponderados" (PDF) . Aplicaciones estadísticas en genética y biología molecular . 4 : 17. CiteSeerX 10.1.1.471.9599 . doi : 10.2202 / 1544-6115.1128 . PMID 16646834 . S2CID 7756201 .
- ^ a b c d e Horvath S, Dong J (2008). "Interpretación geométrica del análisis de red de coexpresión de genes" . PLOS Biología Computacional . 4 (8): e1000117. Código Bib : 2008PLSCB ... 4E0117H . doi : 10.1371 / journal.pcbi.1000117 . PMC 2446438 . PMID 18704157 .
- ^ Oldham MC, Langfelder P, Horvath S (12 de junio de 2012). "Métodos de red para describir relaciones de muestra en conjuntos de datos genómicos: aplicación a la enfermedad de Huntington" . Biología de sistemas BMC . 6 : 63. doi : 10.1186 / 1752-0509-6-63 . PMC 3441531 . PMID 22691535 .
- ^ a b Langfelder P, Luo R, Oldham MC, Horvath S (20 de enero de 2011). "¿Mi módulo de red se conserva y es reproducible?" . PLOS Biología Computacional . 7 (1): e1001057. Código Bibliográfico : 2011PLSCB ... 7E1057L . doi : 10.1371 / journal.pcbi.1001057 . PMC 3024255 . PMID 21283776 .
- ^ Dong J, Horvath S (4 de junio de 2007). "Comprensión de conceptos de red en módulos" . Biología de sistemas BMC . 1 : 24. doi : 10.1186 / 1752-0509-1-24 . PMC 3238286 . PMID 17547772 .
- ^ Ranola JM, Langfelder P, Lange K, Horvath S (14 de marzo de 2013). "Aproximación basada en clústeres y propensiones de una red" . Biología de sistemas BMC . 7 : 21. doi : 10.1186 / 1752-0509-7-21 . PMC 3663730 . PMID 23497424 .
- ^ Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). "Organización jerárquica de la modularidad en redes metabólicas". Ciencia . 297 (5586): 1551-1555. arXiv : cond-mat / 0209244 . Código Bibliográfico : 2002Sci ... 297.1551R . doi : 10.1126 / science.1073374 . PMID 12202830 . S2CID 14452443 .
- ^ Yip AM, Horvath S (24 de enero de 2007). "Interconexión de la red de genes y la medida de superposición topológica generalizada" . BMC Bioinformática . 8 : 22. doi : 10.1186 / 1471-2105-8-22 . PMC 1797055 . PMID 17250769 .
- ^ Langfelder P, Zhang B, Horvath S (2007). "Definición de clústeres de un árbol de clúster jerárquico: la biblioteca Dynamic Tree Cut para R" . Bioinformática . 24 (5): 719-20. doi : 10.1093 / bioinformatics / btm563 . PMID 18024473 . S2CID 1095190 .
- ^ a b Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 de marzo de 2017). "El análisis de la red de genes a gran escala revela la importancia de la vía de la matriz extracelular y los genes homeobox en la leucemia mieloide aguda: una introducción al paquete Pigengene y sus aplicaciones" . BMC Medical Genomics . 10 (1): 16. doi : 10.1186 / s12920-017-0253-6 . PMC 5353782 . PMID 28298217 .
- ^ Agrahari, Rupesh; Foroushani, Amir; Docking, T. Roderick; Chang, Linda; Duns, Gerben; Hudoba, Monika; Karsan, Aly; Zare, Habil (3 de mayo de 2018). "Aplicaciones de los modelos de redes bayesianas en la predicción de tipos de neoplasias hematológicas" . Informes científicos . 8 (1): 6951. Bibcode : 2018NatSR ... 8.6951A . doi : 10.1038 / s41598-018-24758-5 . ISSN 2045-2322 . PMC 5934387 . PMID 29725024 .
- ^ Langfelder P, Horvath S (2007). "Redes de genes propios para el estudio de las relaciones entre módulos de coexpresión" . Biología de sistemas BMC . 2007 (1): 54. doi : 10.1186 / 1752-0509-1-54 . PMC 2267703 . PMID 18031580 .
- ^ Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF , Nelson SF, Mischel PS (2006). "Análisis de redes de señalización oncogénica en glioblastoma identifica ASPM como un nuevo objetivo molecular" . PNAS . 103 (46): 17402-17407. Código bibliográfico : 2006PNAS..10317402H . doi : 10.1073 / pnas.0608396103 . PMC 1635024 . PMID 17090670 .
- ^ Hartung, Thomas; Kleensang, Andre; Tran, Vy; Maertens, Alexandra (2018). "Análisis de red de correlación de genes ponderados (WGCNA) revela nuevos factores de transcripción asociados con bisfenol A dosis-respuesta" . Fronteras en genética . 9 : 508. doi : 10.3389 / fgene.2018.00508 . ISSN 1664-8021 . PMC 6240694 . PMID 30483308 .
- ^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S , Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE (27 de marzo de 2008). "Las variaciones en el ADN dilucidan las redes moleculares que causan enfermedades" . Naturaleza . 452 (7186): 429–35. Código Bibliográfico : 2008Natur.452..429C . doi : 10.1038 / nature06757 . PMC 2841398 . PMID 18344982 .
- ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 de septiembre de 2009). "Un enfoque de genética de sistemas implica USF1, FADS3 y otros genes candidatos causales para la hiperlipidemia combinada familiar" . PLOS Genetics . 5 (9): e1000642. doi : 10.1371 / journal.pgen.1000642 . PMC 2730565 . PMID 19750004 .
- ^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 de mayo de 2011). "El análisis transcriptómico del cerebro autista revela patología molecular convergente" . Naturaleza . 474 (7351): 380–4. doi : 10.1038 / nature10110 . PMC 3607626 . PMID 21614001 .
- ^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, David Daly B, Dang C, Datta S, Dee N, Dolbeare TA, Faber V, Feng D, Fowler DR, Goldy J, Gregor BW, Haradon Z, Haynor DR , Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR, Smith SM, Koch C, Grant S, Jones AR (20 de septiembre de 2012). "Un atlas anatómicamente completo del transcriptoma del cerebro humano adulto" . Naturaleza . 489 (7416): 391–399. Código bibliográfico : 2012Natur.489..391H . doi : 10.1038 / nature11405 . PMC 4243026 . PMID 22996553 .
- ^ Kadarmideen HN, Watson-Haigh NS, Andronicos NM (2011). "Biología de sistemas de resistencia al parásito intestinal ovino: módulos de genes de enfermedades y biomarcadores". Biosistemas moleculares . 7 (1): 235–246. doi : 10.1039 / C0MB00190B . PMID 21072409 .
- ^ Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 de septiembre de 2014). "Identificación de redes de genes de coexpresión, genes reguladores y vías de obesidad basadas en la secuenciación de ARN de tejido adiposo en un modelo porcino" . BMC Medical Genomics . 7 (1): 57. doi : 10.1186 / 1755-8794-7-57 . PMC 4183073 . PMID 25270054 .
- ^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 de agosto de 2013). "Programas genéticos en embriones tempranos humanos y de ratón revelados por secuenciación de ARN unicelular" . Naturaleza . 500 (7464): 593–7. Código bibliográfico : 2013Natur.500..593X . doi : 10.1038 / nature12364 . PMC 4950944 . PMID 23892778 .
- ^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 de octubre de 2012). "Efectos del envejecimiento en los módulos de metilación del ADN en el tejido sanguíneo y el cerebro humano" . Biología del genoma . 13 (10): R97. doi : 10.1186 / gb-2012-13-10-r97 . PMC 4053733 . PMID 23034122 .
- ^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 de julio de 2012). "Organización en red del interactoma proteómico de la huntingtina en el cerebro de los mamíferos" . Neurona . 75 (1): 41–57. doi : 10.1016 / j.neuron.2012.05.024 . PMC 3432264 . PMID 22794259 .
- ^ Maomeng Tong; Xiaoxiao Li; Laura Wegener Parfrey ; et al. (2013). "Una organización modular de la microbiota de la mucosa intestinal humana y su asociación con la enfermedad inflamatoria intestinal" . PLOS ONE . 8 (11): e80702. doi : 10.1371 / JOURNAL.PONE.0080702 . ISSN 1932-6203 . PMC 3834335 . PMID 24260458 . Wikidata Q21559533 .
- ^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 de octubre de 2010). "Detección de módulos de red en series de tiempo de fMRI: un enfoque de análisis de red ponderado" . NeuroImage . 52 (4): 1465–76. doi : 10.1016 / j.neuroimage.2010.05.047 . PMC 3632300 . PMID 20553896 .
- ^ Langfelder P, Horvath S (29 de diciembre de 2008). "WGCNA: un paquete R para análisis de red de correlación ponderada" . BMC Bioinformática . 9 : 559. doi : 10.1186 / 1471-2105-9-559 . PMC 2631488 . PMID 19114008 .