En el campo de la biología molecular , el perfil de expresión génica es la medición de la actividad (la expresión ) de miles de genes a la vez, para crear una imagen global de la función celular. Estos perfiles pueden, por ejemplo, distinguir entre células que se están dividiendo activamente o mostrar cómo reaccionan las células a un tratamiento en particular. Muchos experimentos de este tipo miden un genoma completo simultáneamente, es decir, cada gen presente en una célula en particular.
Se pueden utilizar varias tecnologías de transcriptómica para generar los datos necesarios para analizar. Los microarrays de ADN [1] miden la actividad relativa de genes diana previamente identificados. Las técnicas basadas en secuencias, como RNA-Seq , proporcionan información sobre las secuencias de genes además de su nivel de expresión.
Fondo
El perfil de expresión es el siguiente paso lógico después de secuenciar un genoma : la secuencia nos dice qué podría hacer la célula, mientras que el perfil de expresión nos dice qué está haciendo realmente en un momento determinado. Los genes contienen las instrucciones para producir ARN mensajero ( ARNm ), pero en cualquier momento cada célula produce ARNm a partir de solo una fracción de los genes que porta. Si se utiliza un gen para producir ARNm, se considera "activado", de lo contrario "desactivado". Muchos factores determinan si un gen está activado o desactivado, como la hora del día, si la célula se está dividiendo activamente o no, su entorno local y las señales químicas de otras células. Por ejemplo, las células de la piel , las células del hígado y las células nerviosas activan (expresan) genes algo diferentes y eso es en gran parte lo que las hace diferentes. Por lo tanto, un perfil de expresión permite deducir el tipo, el estado, el entorno, etc. de una célula.
Los experimentos de perfiles de expresión a menudo implican medir la cantidad relativa de ARNm expresado en dos o más condiciones experimentales. Esto se debe a que los niveles alterados de una secuencia específica de ARNm sugieren una necesidad modificada de la proteína codificada por el ARNm, lo que quizás indique una respuesta homeostática o una condición patológica. Por ejemplo, los niveles más altos de ARNm que codifica la alcohol deshidrogenasa sugieren que las células o los tejidos en estudio están respondiendo al aumento de los niveles de etanol en su entorno. De manera similar, si las células de cáncer de mama expresan niveles más altos de ARNm asociado con un receptor transmembrana particular que las células normales, es posible que este receptor desempeñe un papel en el cáncer de mama. Un medicamento que interfiere con este receptor puede prevenir o tratar el cáncer de mama. Al desarrollar un fármaco, se pueden realizar experimentos de perfiles de expresión génica para ayudar a evaluar la toxicidad del fármaco, quizás buscando niveles cambiantes en la expresión de los genes del citocromo P450 , que pueden ser un biomarcador del metabolismo del fármaco. [2] El perfil de expresión genética puede convertirse en una prueba de diagnóstico importante. [3] [4]
Comparación con la proteómica
El genoma humano contiene del orden de 25.000 genes que trabajan en conjunto para producir del orden de 1.000.000 de proteínas distintas. Esto se debe al empalme alternativo y también a que las células realizan cambios importantes en las proteínas mediante la modificación postraduccional después de que las construyen por primera vez, por lo que un gen determinado sirve como base para muchas versiones posibles de una proteína en particular. En cualquier caso, un único experimento de espectrometría de masas puede identificar unas 2.000 proteínas [5] o el 0,2% del total. Si bien el conocimiento de las proteínas precisas que produce una célula ( proteómica ) es más relevante que saber cuánto ARN mensajero se produce a partir de cada gen, el perfil de expresión génica proporciona la imagen más global posible en un solo experimento. Sin embargo, la metodología de la proteómica está mejorando. En otras especies, como la levadura, es posible identificar más de 4.000 proteínas en poco más de una hora. [6]
Uso en generación y prueba de hipótesis
A veces, un científico ya tiene una idea de lo que está sucediendo, una hipótesis , y realiza un experimento de perfil de expresión con la idea de refutar potencialmente esta hipótesis. En otras palabras, el científico está haciendo una predicción específica sobre niveles de expresión que podrían resultar falsos.
Más comúnmente, el perfil de expresión tiene lugar antes de que se sepa lo suficiente sobre cómo los genes interactúan con las condiciones experimentales para que exista una hipótesis comprobable. Sin hipótesis, no hay nada que refutar, pero el perfil de expresión puede ayudar a identificar una hipótesis candidata para experimentos futuros. La mayoría de los primeros experimentos de creación de perfiles de expresión, y muchos de los actuales, tienen esta forma [7] que se conoce como descubrimiento de clases. Un enfoque popular para el descubrimiento de clases implica agrupar genes o muestras similares utilizando uno de los muchos métodos de agrupamiento existentes, como el k-means tradicional o agrupamiento jerárquico , o el MCL más reciente . [8] Además de seleccionar un algoritmo de agrupamiento, el usuario generalmente tiene que elegir una medida de proximidad apropiada (distancia o similitud) entre los objetos de datos. [9] La figura anterior representa el resultado de un grupo bidimensional, en el que se organizaron muestras similares (filas, arriba) y sondas genéticas similares (columnas) de modo que se encontraran juntas. La forma más simple de descubrimiento de clases sería enumerar todos los genes que cambiaron en más de una cierta cantidad entre dos condiciones experimentales.
La predicción de clases es más difícil que el descubrimiento de clases, pero permite responder preguntas de importancia clínica directa como, dado este perfil, ¿cuál es la probabilidad de que este paciente responda a este fármaco? Esto requiere muchos ejemplos de perfiles que respondieron y no respondieron, así como técnicas de validación cruzada para discriminar entre ellos.
Limitaciones
En general, los estudios de perfiles de expresión informan aquellos genes que mostraron diferencias estadísticamente significativas en condiciones experimentales cambiadas. Normalmente, se trata de una pequeña fracción del genoma por varias razones. Primero, diferentes células y tejidos expresan un subconjunto de genes como consecuencia directa de la diferenciación celular, por lo que muchos genes están desactivados. En segundo lugar, muchos de los genes codifican proteínas necesarias para la supervivencia en cantidades muy específicas, por lo que muchos genes no cambian. En tercer lugar, las células utilizan muchos otros mecanismos para regular las proteínas además de alterar la cantidad de ARNm , por lo que estos genes pueden permanecer expresados de manera constante incluso cuando las concentraciones de proteínas aumentan y disminuyen. En cuarto lugar, las restricciones financieras limitan los experimentos de perfiles de expresión a un pequeño número de observaciones del mismo gen en condiciones idénticas, lo que reduce el poder estadístico del experimento, lo que hace imposible que el experimento identifique cambios importantes pero sutiles. Finalmente, se necesita un gran esfuerzo para discutir el significado biológico de cada gen regulado, por lo que los científicos a menudo limitan su discusión a un subconjunto. Las nuevas técnicas de análisis de microarrays automatizan ciertos aspectos de la atribución de importancia biológica a los resultados de la elaboración de perfiles de expresión, pero esto sigue siendo un problema muy difícil.
La longitud relativamente corta de las listas de genes publicadas a partir de experimentos de perfiles de expresión limita la medida en que los experimentos realizados en diferentes laboratorios parecen coincidir. Colocar los resultados del perfil de expresión en una base de datos de microarrays de acceso público hace posible que los investigadores evalúen los patrones de expresión más allá del alcance de los resultados publicados, quizás identificando similitudes con su propio trabajo.
Validación de medidas de alto rendimiento
Tanto los microarrays de ADN como la PCR cuantitativa explotan la unión preferencial o el " emparejamiento de bases " de las secuencias complementarias de ácido nucleico, y ambos se utilizan en la elaboración de perfiles de expresión génica, a menudo de forma serial. Si bien los microarrays de ADN de alto rendimiento carecen de la precisión cuantitativa de qPCR, se necesita aproximadamente el mismo tiempo para medir la expresión génica de unas pocas docenas de genes a través de qPCR que para medir un genoma completo utilizando microarrays de ADN. Por lo tanto, a menudo tiene sentido realizar experimentos de análisis de microarrays de ADN semicuantitativos para identificar genes candidatos y luego realizar qPCR en algunos de los genes candidatos más interesantes para validar los resultados de microarrays. Otros experimentos, como una transferencia Western de algunos de los productos proteicos de genes expresados diferencialmente, hacen que las conclusiones basadas en el perfil de expresión sean más persuasivas, ya que los niveles de ARNm no se correlacionan necesariamente con la cantidad de proteína expresada.
análisis estadístico
El análisis de datos de microarrays se ha convertido en un área de intensa investigación. [10] Afirmar simplemente que un grupo de genes estaba regulado por al menos dos veces, una vez que era una práctica común, carece de una base estadística sólida. Con cinco o menos réplicas en cada grupo, típico de los microarrays, una única observación de valores atípicos puede crear una diferencia aparente mayor que el doble. Además, establecer arbitrariamente el listón en dos partes no es biológicamente correcto, ya que elimina de la consideración muchos genes con un significado biológico obvio.
En lugar de identificar genes expresados diferencialmente usando un punto de corte de cambio de pliegue, se puede usar una variedad de pruebas estadísticas o pruebas ómnibus como ANOVA , las cuales consideran tanto el cambio de pliegue como la variabilidad para crear un valor p , una estimación de la frecuencia con la que lo haríamos. observar los datos solo por casualidad. La aplicación de valores p a microarrays es complicada por la gran cantidad de comparaciones múltiples (genes) involucradas. Por ejemplo, normalmente se piensa que un valor p de 0.05 indica significancia, ya que estima una probabilidad del 5% de observar los datos por casualidad. Pero con 10,000 genes en una micromatriz, 500 genes se identificarían como significativos en p <0.05 incluso si no hubiera diferencia entre los grupos experimentales. Una solución obvia es considerar significativos solo aquellos genes que cumplen con un criterio de valor de p mucho más estricto, por ejemplo, se podría realizar una corrección de Bonferroni en los valores de p, o usar un cálculo de tasa de descubrimiento falso para ajustar los valores de p en proporción al número de pruebas paralelas involucradas. Desafortunadamente, estos enfoques pueden reducir el número de genes significativos a cero, incluso cuando los genes se expresan de hecho de manera diferencial. Las estadísticas actuales, como los productos de Rank, tienen como objetivo lograr un equilibrio entre el falso descubrimiento de genes debido a la variación aleatoria y el no descubrimiento de genes expresados diferencialmente. Los métodos comúnmente citados incluyen el Análisis de Significación de Microarrays (SAM) [11] y una amplia variedad de métodos están disponibles en Bioconductor y una variedad de paquetes de análisis de compañías bioinformáticas .
La selección de una prueba diferente generalmente identifica una lista diferente de genes significativos [12], ya que cada prueba opera bajo un conjunto específico de supuestos y pone un énfasis diferente en ciertas características de los datos. Muchas pruebas comienzan con la suposición de una distribución normal en los datos, porque parece un punto de partida sensato y, a menudo, produce resultados que parecen más significativos. Algunas pruebas consideran la distribución conjunta de todas las observaciones de genes para estimar la variabilidad general en las mediciones, [13] mientras que otras analizan cada gen de forma aislada. Muchas técnicas modernas de análisis de microarrays implican bootstrapping (estadísticas) , aprendizaje automático o métodos de Monte Carlo . [14]
A medida que aumenta el número de mediciones repetidas en un experimento de micromatrices, varios enfoques estadísticos producen resultados cada vez más similares, pero la falta de concordancia entre los diferentes métodos estadísticos hace que los resultados de las matrices parezcan menos confiables. El Proyecto MAQC [15] hace recomendaciones para guiar a los investigadores en la selección de métodos más estándar (por ejemplo, utilizando el valor p y el cambio de pliegues juntos para seleccionar los genes expresados diferencialmente) para que los experimentos realizados en diferentes laboratorios concuerden mejor.
A diferencia del análisis de genes individuales expresados diferencialmente, otro tipo de análisis se centra en la expresión diferencial o perturbación de conjuntos de genes predefinidos y se denomina análisis de conjuntos de genes. [16] [17] El análisis de conjuntos de genes demostró varias ventajas importantes sobre el análisis de expresión diferencial de genes individuales. [16] [17] Los conjuntos de genes son grupos de genes que están relacionados funcionalmente de acuerdo con los conocimientos actuales. Por lo tanto, el análisis de conjuntos de genes se considera un enfoque de análisis basado en el conocimiento. [16] Los conjuntos de genes comúnmente utilizados incluyen los derivados de las vías de KEGG , términos de Ontología de genes, grupos de genes que comparten algunas otras anotaciones funcionales, como reguladores transcripcionales comunes, etc. Los métodos de análisis de conjuntos de genes representativos incluyen el Análisis de enriquecimiento de conjuntos de genes (GSEA), [16] ] que estima la importancia de los conjuntos de genes en función de la permutación de las etiquetas de muestra, y el enriquecimiento de conjuntos de genes de aplicación general (GAGE), [17] que prueba la importancia de los conjuntos de genes en función de la permutación de las etiquetas de genes o una distribución paramétrica.
Anotación genética
Si bien las estadísticas pueden identificar qué productos génicos cambian en condiciones experimentales, dar sentido biológico al perfil de expresión se basa en saber qué proteína produce cada producto génico y qué función realiza esta proteína. La anotación genética proporciona información funcional y de otro tipo, por ejemplo, la ubicación de cada gen dentro de un cromosoma particular. Algunas anotaciones funcionales son más fiables que otras; algunos están ausentes. Las bases de datos de anotaciones genéticas cambian con regularidad y varias bases de datos se refieren a la misma proteína con nombres diferentes, lo que refleja una comprensión cambiante de la función de la proteína. El uso de la nomenclatura genética estandarizada ayuda a abordar el aspecto del problema de la denominación, pero la coincidencia exacta de las transcripciones con los genes [18] [19] sigue siendo una consideración importante.
Categorización de genes regulados
Habiendo identificado algún conjunto de genes regulados, el siguiente paso en el perfil de expresión implica buscar patrones dentro del conjunto regulado. ¿Las proteínas elaboradas a partir de estos genes realizan funciones similares? ¿Son químicamente similares? ¿Residen en partes similares de la celda? El análisis de ontología genética proporciona una forma estándar de definir estas relaciones. Las ontologías genéticas comienzan con categorías muy amplias, por ejemplo, "proceso metabólico" y las dividen en categorías más pequeñas, por ejemplo, "proceso metabólico de carbohidratos" y finalmente en categorías bastante restrictivas como "inositol y fosforilación de derivados".
Los genes tienen otros atributos además de la función biológica, las propiedades químicas y la ubicación celular. Se pueden componer conjuntos de genes basados en la proximidad a otros genes, la asociación con una enfermedad y las relaciones con fármacos o toxinas. La base de datos de firmas moleculares [20] y la base de datos comparativa de toxicogenómica [21] son ejemplos de recursos para clasificar los genes de diversas formas.
Encontrar patrones entre genes regulados
Los genes regulados se clasifican en términos de lo que son y lo que hacen, pueden surgir relaciones importantes entre genes. [23] Por ejemplo, podríamos ver evidencia de que cierto gen crea una proteína para producir una enzima que activa una proteína para activar un segundo gen en nuestra lista. Este segundo gen puede ser un factor de transcripción que regula otro gen más de nuestra lista. Al observar estos vínculos, podemos comenzar a sospechar que representan mucho más que asociaciones fortuitas en los resultados, y que todos están en nuestra lista debido a un proceso biológico subyacente. Por otro lado, podría ser que si uno seleccionara genes al azar, podría encontrar muchos que parecen tener algo en común. En este sentido, necesitamos procedimientos estadísticos rigurosos para probar si los temas biológicos emergentes son significativos o no. Ahí es donde entra en juego el análisis de conjuntos de genes [16] [17] .
Relaciones de causa y efecto
Las estadísticas bastante sencillas proporcionan estimaciones de si las asociaciones entre genes en las listas son mayores de lo que cabría esperar por casualidad. Estas estadísticas son interesantes, incluso si representan una simplificación excesiva sustancial de lo que realmente está sucediendo. Aquí hay un ejemplo. Suponga que hay 10,000 genes en un experimento, de los cuales solo 50 (0.5%) juegan un papel conocido en la producción de colesterol . El experimento identifica 200 genes regulados. De ellos, 40 (20%) resultan estar también en una lista de genes de colesterol. Según la prevalencia general de los genes del colesterol (0,5%), se espera un promedio de 1 gen del colesterol por cada 200 genes regulados, es decir, 0,005 veces 200. Esta expectativa es un promedio, por lo que se espera ver más de uno. el tiempo. La pregunta es con qué frecuencia veríamos 40 en lugar de 1 debido a la pura casualidad.
De acuerdo con la distribución hipergeométrica , uno esperaría probar unas 10 ^ 57 veces (10 seguidas de 56 ceros) antes de seleccionar 39 o más de los genes de colesterol de un grupo de 10,000 extrayendo 200 genes al azar. Ya sea que se preste mucha atención a cuán infinitesimalmente pequeña es la probabilidad de observar esto por casualidad, se podría concluir que la lista de genes regulados está enriquecida [24] en genes con una asociación conocida de colesterol.
También se podría plantear la hipótesis de que el tratamiento experimental regula el colesterol, porque el tratamiento parece regular selectivamente los genes asociados con el colesterol. Si bien esto puede ser cierto, hay varias razones por las que hacer de esto una conclusión firme basada únicamente en el enriquecimiento representa un acto de fe injustificado. Un tema mencionado anteriormente tiene que ver con la observación de que la regulación de genes puede no tener un impacto directo en la regulación de proteínas: incluso si las proteínas codificadas por estos genes no hacen otra cosa que producir colesterol, mostrar que su ARNm está alterado no nos dice directamente qué está sucediendo a nivel de proteínas. Es muy posible que la cantidad de estas proteínas relacionadas con el colesterol permanezca constante en las condiciones experimentales. En segundo lugar, incluso si los niveles de proteínas cambian, tal vez siempre haya suficientes para producir colesterol lo más rápido posible, es decir, otra proteína, que no está en nuestra lista, es el paso que determina la velocidad en el proceso de elaboración. colesterol. Por último, las proteínas suelen desempeñar muchas funciones, por lo que estos genes pueden estar regulados no por su asociación compartida con la producción de colesterol, sino por una función compartida en un proceso completamente independiente.
Teniendo en cuenta las advertencias anteriores, aunque los perfiles genéticos no prueban por sí mismos las relaciones causales entre los tratamientos y los efectos biológicos, sí ofrecen conocimientos biológicos únicos a los que a menudo sería muy difícil llegar de otras formas.
Usar patrones para encontrar genes regulados
Como se describió anteriormente, primero se pueden identificar genes regulados significativamente y luego encontrar patrones comparando la lista de genes significativos con conjuntos de genes que se sabe que comparten ciertas asociaciones. También se puede resolver el problema en orden inverso. He aquí un ejemplo muy sencillo. Suponga que hay 40 genes asociados con un proceso conocido, por ejemplo, una predisposición a la diabetes. Al observar dos grupos de perfiles de expresión, uno para ratones alimentados con una dieta alta en carbohidratos y otro para ratones alimentados con una dieta baja en carbohidratos, se observa que los 40 genes de la diabetes se expresan a un nivel más alto en el grupo alto en carbohidratos que en el grupo bajo en carbohidratos. Independientemente de si alguno de estos genes habría llegado a una lista de genes alterados significativamente, la observación de los 40 hacia arriba y ninguno hacia abajo parece poco probable que sea el resultado de pura casualidad: se predice que se mueven 40 cabezas seguidas aproximadamente una vez en un billón de intentos usando una moneda justa.
Para un tipo de célula, el grupo de genes cuyo patrón de expresión combinado es característico de una condición determinada constituye la firma genética de esta condición. Idealmente, la firma genética se puede utilizar para seleccionar un grupo de pacientes en un estado específico de una enfermedad con precisión que facilite la selección de tratamientos. [25] [26] El análisis de enriquecimiento del conjunto de genes (GSEA) [16] y métodos similares [17] aprovechan este tipo de lógica, pero utilizan estadísticas más sofisticadas, porque los genes componentes en procesos reales muestran un comportamiento más complejo que simplemente moverse hacia arriba o hacia arriba. hacia abajo como grupo, y la cantidad de genes que se mueven hacia arriba y hacia abajo es significativa, no solo la dirección. En cualquier caso, estas estadísticas miden qué tan diferente es el comportamiento de un pequeño conjunto de genes en comparación con los genes que no están en ese pequeño conjunto.
GSEA utiliza una estadística de estilo Kolmogorov Smirnov para ver si algún conjunto de genes previamente definido exhibió un comportamiento inusual en el perfil de expresión actual. Esto conduce a un desafío de prueba de hipótesis múltiples, pero existen métodos razonables para abordarlo. [27]
Conclusiones
El perfil de expresión proporciona nueva información sobre lo que hacen los genes en diversas condiciones. En general, la tecnología de microarrays produce perfiles de expresión fiables. [28] A partir de esta información, se pueden generar nuevas hipótesis sobre biología o probar las existentes. Sin embargo, el tamaño y la complejidad de estos experimentos a menudo dan como resultado una amplia variedad de posibles interpretaciones. En muchos casos, analizar los resultados del perfil de expresión requiere mucho más esfuerzo que realizar los experimentos iniciales.
La mayoría de los investigadores utilizan múltiples métodos estadísticos y análisis de datos exploratorios antes de publicar sus resultados de perfiles de expresión, coordinando sus esfuerzos con un bioinformático u otro experto en microarrays de ADN . El buen diseño experimental, la replicación biológica adecuada y los experimentos de seguimiento juegan un papel clave en los experimentos de perfiles de expresión exitosos.
Ver también
- Perfiles de expresión génica en el cáncer
- Expresión de genes espaciotemporales
- Transcriptómica
- Análisis de variantes de empalme
Referencias
- ^ "Ficha técnica de microarrays" . Consultado el 28 de diciembre de 2007 .
- ^ Suter L, Babiss LE, Wheeldon EB (2004). "Toxicogenómica en toxicología predictiva en el desarrollo de fármacos" . Chem. Biol . 11 (2): 161–71. doi : 10.1016 / j.chembiol.2004.02.003 . PMID 15123278 .
- ^ Magic Z, Radulovic S, Brankovic-Magic M (2007). "Microarrays de ADNc: identificación de firmas de genes y su aplicación en la práctica clínica". J BUON . 12 Supl. 1: S39–44. PMID 17935276 .
- ^ Cheung AN (2007). "Dianas moleculares en cánceres ginecológicos". Patología . 39 (1): 26–45. doi : 10.1080 / 00313020601153273 . PMID 17365821 . S2CID 40896577 .
- ^ Mirza SP, Olivier M (2007). "Métodos y enfoques para la caracterización y cuantificación integral de proteomas celulares mediante espectrometría de masas" . Physiol Genomics . 33 (1): 3-11. doi : 10.1152 / fisiolgenómica.00292.2007 . PMC 2771641 . PMID 18162499 .
- ^ Hebert AS, Richards AL y col. (2014). "El proteoma de levadura de una hora" . Proteómica de células mol . 13 (1): 339–347. doi : 10.1074 / mcp.M113.034769 . PMC 3879625 . PMID 24143002 .
- ^ Chen JJ (2007). "Aspectos clave del análisis de datos de expresión génica de microarrays" . Farmacogenómica . 8 (5): 473–82. doi : 10.2217 / 14622416.8.5.473 . PMID 17465711 .
- ^ van Dongen, Stijn (2000). Agrupación de gráficos por simulación de flujo . Universidad de Utrecht.
- ^ Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Ivan G (24 de enero de 2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica" . BMC Bioinformática . 15 (Supl. 2): S2. doi : 10.1186 / 1471-2105-15-S2-S2 . PMC 4072854 . PMID 24564555 .
- ^ Vardhanabhuti S, Blakemore SJ, Clark SM, Ghosh S, Stephens RJ, Rajagopalan D (2006). "Una comparación de pruebas estadísticas para detectar la expresión diferencial utilizando microarrays de oligonucleótidos Affymetrix". OMICS . 10 (4): 555–66. doi : 10.1089 / omi.2006.10.555 . PMID 17233564 .
- ^ "Análisis de significación de microarrays" . Consultado el 27 de diciembre de 2007 .
- ^ Yauk CL, Berndt ML (2007). "Revisión de la literatura que examina la correlación entre las tecnologías de microarrays de ADN" . Reinar. Mol. Mutágeno . 48 (5): 380–94. doi : 10.1002 / em.20290 . PMC 2682332 . PMID 17370338 .
- ^ Breitling R (2006). "Interpretación de microarrays biológicos: las reglas de compromiso" (PDF) . Biochim. Biophys. Acta . 1759 (7): 319–27. doi : 10.1016 / j.bbaexp.2006.06.003 . PMID 16904203 .
- ^ Draminski M, Rada-Iglesias A, Enroth S, Wadelius C, Koronacki J, Komorowski J (2008). "Selección de características de Monte Carlo para clasificación supervisada" . Bioinformática . 24 (1): 110–7. doi : 10.1093 / bioinformatics / btm486 . PMID 18048398 .
- ^ Dr. Leming Shi, Centro Nacional de Investigaciones Toxicológicas. "Proyecto de Control de Calidad MicroArray (MAQC)" . Administración de Drogas y Alimentos de EE. UU . Consultado el 26 de diciembre de 2007 .
- ^ a b c d e f Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP (2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar perfiles de expresión de todo el genoma" . Proc. Natl. Acad. Sci. USA . 102 (43): 15545–50. doi : 10.1073 / pnas.0506580102 . PMC 1239896 . PMID 16199517 .
- ^ a b c d e Luo W, Friedman M, Shedden K, Hankenson KD, Woolf JP (2009). "GAGE: enriquecimiento de conjunto de genes de aplicación general para el análisis de la vía" . BMC Bioinformática . 10 : 161. doi : 10.1186 / 1471-2105-10-161 . PMC 2696452 . PMID 19473525 .
- ^ Dai M, Wang P, Boyd AD y col. (2005). "La evolución de las definiciones de genes / transcripciones alteran significativamente la interpretación de los datos de GeneChip" . Ácidos nucleicos Res . 33 (20): e175. doi : 10.1093 / nar / gni179 . PMC 1283542 . PMID 16284200 .
- ^ Alberts R, Terpstra P, Hardonk M y col. (2007). "Un protocolo de verificación para las secuencias de la sonda de las matrices del genoma de Affymetrix revela una alta precisión de la sonda para estudios en ratones, humanos y ratas" . BMC Bioinformática . 8 : 132. doi : 10.1186 / 1471-2105-8-132 . PMC 1865557 . PMID 17448222 .
- ^ "GSEA - MSigDB" . Consultado el 3 de enero de 2008 .
- ^ "CTD: la base de datos comparativa de toxicogenómica" . Consultado el 3 de enero de 2008 .
- ^ "Ingenuity Systems" . Consultado el 27 de diciembre de 2007 .
- ^ Alekseev OM, Richardson RT, Alekseev O, O'Rand MG (2009). "Análisis de perfiles de expresión génica en células HeLa en respuesta a sobreexpresión o agotamiento de NASP mediado por ARNip" . Reprod. Biol. Endocrinol . 7 : 45. doi : 10.1186 / 1477-7827-7-45 . PMC 2686705 . PMID 19439102 .
- ^ Curtis RK, Oresic M, Vidal-Puig A (2005). "Vías para el análisis de datos de microarrays". Trends Biotechnol . 23 (8): 429–35. doi : 10.1016 / j.tibtech.2005.05.011 . PMID 15950303 .
- ^ Mook S, Van't Veer LJ, Rutgers EJ, Piccart-Gebhart MJ, Cardoso F (2007). "Individualización de la terapia con Mammaprint: desde el desarrollo hasta el ensayo MINDACT". Proteómica de la genómica del cáncer . 4 (3): 147–55. PMID 17878518 .
- ^ Corsello SM, Roti G, Ross KN, Chow KT, Galinsky I, DeAngelo DJ, Stone RM, Kung AL, Golub TR, Stegmaier K (junio de 2009). "Identificación de moduladores AML1-ETO por genómica química" . Sangre . 113 (24): 6193–205. doi : 10.1182 / sangre-2008-07-166090 . PMC 2699238 . PMID 19377049 .
- ^ "GSEA" . Consultado el 9 de enero de 2008 .
- ^ Couzin J (2006). "Genómica. Se reproducen datos de microarrays, pero quedan algunas preocupaciones". Ciencia . 313 (5793): 1559. doi : 10.1126 / science.313.5793.1559a . PMID 16973852 . S2CID 58528299 .
enlaces externos
- Análisis comparativo de la transcriptómica en el módulo de referencia en ciencias biológicas