Técnicas de análisis de microarrays

Ejemplo de una sonda de aproximadamente 40.000 micromatrices de oligonucleótidos con incrustaciones agrandadas para mostrar detalles.

Las técnicas de análisis de microarrays se utilizan para interpretar los datos generados a partir de experimentos sobre ADN ( análisis de chip de genes ), ARN y microarrays de proteínas , que permiten a los investigadores investigar el estado de expresión de una gran cantidad de genes, en muchos casos, el genoma completo de un organismo . en un solo experimento. ^{[ cita requerida ]} Estos experimentos pueden generar grandes cantidades de datos, lo que permite a los investigadores evaluar el estado general de una célula u organismo. Los datos en cantidades tan grandes son difíciles, si no imposibles, de analizar sin la ayuda de programas de computadora.

Introducción [ editar ]

El análisis de datos de microarrays es el paso final en la lectura y procesamiento de datos producidos por un chip de microarrays. Las muestras se someten a varios procesos que incluyen la purificación y el escaneo mediante el microchip, que luego produce una gran cantidad de datos que requieren procesamiento a través de un software de computadora. Implica varios pasos distintos, como se describe en la imagen a continuación. Cambiar cualquiera de los pasos cambiará el resultado del análisis, por lo que el Proyecto MAQC ^[1] fue creado para identificar un conjunto de estrategias estándar. Existen empresas que utilizan los protocolos MAQC para realizar un análisis completo. ^[2]

Los pasos necesarios en un experimento de microarrays

Técnicas [ editar ]

Científico del Centro Nacional de Investigación Toxicológica revisa datos de microarrays

La mayoría de los fabricantes de microarrays, como Affymetrix y Agilent , ^[3] proporcionan software de análisis de datos comerciales junto con sus productos de microarrays. También hay opciones de código abierto que utilizan una variedad de métodos para analizar datos de microarrays.

Agregación y normalización [ editar ]

La comparación de dos matrices diferentes o dos muestras diferentes hibridadas con la misma matriz generalmente implica realizar ajustes para los errores sistemáticos introducidos por las diferencias en los procedimientos y los efectos de la intensidad del tinte. La normalización del tinte para matrices de dos colores a menudo se logra mediante regresión local . LIMMA proporciona un conjunto de herramientas para corregir y escalar el fondo, así como una opción para promediar los puntos duplicados en la diapositiva. ^[4] Un método común para evaluar qué tan bien normalizada está una matriz es trazar una gráfica MA de los datos. Los gráficos MA se pueden producir utilizando programas y lenguajes como R, MATLAB y Excel.

Los datos sin procesar de Affy contienen unas veinte sondas para el mismo objetivo de ARN. La mitad de estos son "puntos de desajuste", que no coinciden con precisión con la secuencia objetivo. En teoría, estos pueden medir la cantidad de unión no específica para un objetivo determinado. Promedio robusto de matriz múltiple (RMA) ^[5] es un enfoque de normalización que no aprovecha estos puntos de desajuste, pero aún debe resumir las coincidencias perfectas mediante un pulido medio . ^[6] El algoritmo de pulido medio, aunque robusto, se comporta de manera diferente dependiendo del número de muestras analizadas. ^{[7] La} normalización de cuantiles, también parte de RMA, es un enfoque sensato para normalizar un lote de matrices con el fin de hacer más significativas las comparaciones.

El algoritmo actual Affymetrix MAS5, que utiliza sondas tanto de coincidencia perfecta como de discrepancia, sigue gozando de popularidad y le va bien en las pruebas cara a cara. ^[8]

Diagrama de flujo que muestra cómo funciona el algoritmo MAS5 de Agilent.

El análisis factorial para el resumen robusto de microarrays (FARMS) ^[9] es una técnica basada en modelos para resumir datos de arreglos a nivel de sonda de coincidencia perfecta. Se basa en un modelo de análisis factorial para el cual un método bayesiano máximo a posteriori optimiza los parámetros del modelo bajo el supuesto de ruido de medición gaussiano. Según el índice de referencia de Affycomp ^[10], FARMS superó a todos los demás métodos de resumen en cuanto a sensibilidad y especificidad.

Identificación de expresión diferencial significativa [ editar ]

Existen muchas estrategias para identificar sondas de matriz que muestran un nivel inusual de sobreexpresión o subexpresión. La más simple es llamar "significativa" a cualquier sonda que difiera en un promedio de al menos dos veces entre los grupos de tratamiento. Los enfoques más sofisticados suelen estar relacionados con pruebas t u otros mecanismos que tienen en cuenta tanto el tamaño del efecto como la variabilidad. Curiosamente, los valores p asociados con genes particulares no se reproducen bien entre experimentos repetidos, y las listas generadas por cambio de pliegue directo funcionan mucho mejor. ^[11]^[12]Esto representa una observación sumamente importante, ya que el objetivo de realizar experimentos tiene que ver con predecir el comportamiento general. El grupo MAQC recomienda usar una evaluación de cambio de pliegues más un límite de valor p no estricto, señalando además que los cambios en la corrección de fondo y el proceso de escalado tienen solo un impacto mínimo en el orden de rango de las diferencias de cambio de pliegue, pero un impacto sustancial en valores p.

Agrupación [ editar ]

El agrupamiento es una técnica de minería de datos que se utiliza para agrupar genes que tienen patrones de expresión similares. La agrupación jerárquica , y k-medias de agrupación son técnicas en el análisis de microarrays ampliamente utilizados.

Agrupación jerárquica [ editar ]

La agrupación jerárquica es un método estadístico para encontrar agrupaciones relativamente homogéneas . La agrupación jerárquica consta de dos fases independientes. Inicialmente, se calcula una matriz de distancias que contiene todas las distancias por pares entre los genes. De correlación de Pearson y de correlación de Spearman se utilizan a menudo como estimaciones de disimilitud, pero otros métodos, como la distancia Manhattan o la distancia euclídea, también se puede aplicar. Dado el número de medidas de distancia disponibles y su influencia en los resultados del algoritmo de agrupamiento, varios estudios han comparado y evaluado diferentes medidas de distancia para el agrupamiento de datos de microarrays, considerando sus propiedades intrínsecas y robustez al ruido. ^[13]^[14]^[15]Después del cálculo de la matriz de distancia inicial, el algoritmo de agrupamiento jerárquico (A) une iterativamente los dos grupos más cercanos a partir de puntos de datos únicos (enfoque aglomerativo, de abajo hacia arriba, que se usa con bastante más frecuencia), o (B) divide los grupos de forma iterativa a partir del conjunto completo (enfoque divisivo, de arriba hacia abajo). Después de cada paso, se vuelve a calcular una nueva matriz de distancia entre los conglomerados recién formados y los otros conglomerados. Los métodos de análisis de conglomerados jerárquicos incluyen:

Enlace único (método mínimo, vecino más cercano)
Vinculación promedio ( UPGMA ).
Vinculación completa (método máximo, vecino más lejano)

Diferentes estudios ya han demostrado empíricamente que el algoritmo de agrupación de enlace único produce malos resultados cuando se emplea para datos de microarrays de expresión génica y, por lo tanto, debe evitarse. ^[15]^[16]

Agrupación de K-medias [ editar ]

La agrupación de K-medias es un algoritmo para agrupar genes o muestras según el patrón en grupos K. La agrupación se realiza minimizando la suma de los cuadrados de las distancias entre los datos y el centroide del grupo correspondiente . Por lo tanto, el propósito de la agrupación de K-medias es clasificar los datos en función de una expresión similar. ^[17] Se ha demostrado que el algoritmo de agrupación de K-medias y algunas de sus variantes (incluidos los k-medoides ) producen buenos resultados para los datos de expresión génica (al menos mejores que los métodos de agrupación jerárquica). En la literatura se pueden encontrar comparaciones empíricas de k-medias , k-medoides , métodos jerárquicos y diferentes medidas de distancia. ^[15]^[16]

Reconocimiento de patrones [ editar ]

Los sistemas comerciales para el análisis de redes de genes como Ingenuity ^[18] y Pathway studio ^[19] crean representaciones visuales de genes expresados diferencialmente basados en la literatura científica actual. Las herramientas no comerciales como FunRich, ^[20] GenMAPP y Moksiskaan también ayudan a organizar y visualizar los datos de la red de genes obtenidos de uno o varios experimentos de microarrays. Una amplia variedad de herramientas de análisis de microarrays están disponibles a través Bioconductor escrito en el lenguaje de programación R . El módulo SAM frecuentemente citado y otras herramientas de microarrays ^[21] están disponibles a través de la Universidad de Stanford. Otro conjunto está disponible en Harvard y MIT.^[22]

Ejemplo de salida de la herramienta FunRich. La imagen muestra el resultado de comparar 4 genes diferentes.

También se han desarrollado herramientas de software especializadas para el análisis estadístico a fin de determinar el grado de sobreexpresión o subexpresión de un gen en un experimento de microarrays en relación con un estado de referencia para ayudar a identificar genes o conjuntos de genes asociados con fenotipos particulares . Uno de esos métodos de análisis, conocido como Análisis de enriquecimiento del conjunto de genes (GSEA), utiliza una estadística de estilo Kolmogorov-Smirnov para identificar grupos de genes que están regulados juntos. ^[23] Este paquete de estadísticas de terceros ofrece al usuario información sobre los genes o conjuntos de genes de interés, incluidos enlaces a entradas en bases de datos como GenBank de NCBI y bases de datos seleccionadas como Biocarta ^[24] yOntología genética . La herramienta de análisis de enriquecimiento de complejos de proteínas (COMPLEAT) proporciona un análisis de enriquecimiento similar a nivel de complejos de proteínas. ^[25] La herramienta puede identificar la regulación dinámica del complejo de proteínas en diferentes condiciones o puntos de tiempo. El sistema relacionado, PAINT ^[26] y SCOPE ^[27] realiza un análisis estadístico de las regiones promotoras de genes, identificando una representación superior e inferior de los elementos de respuesta del factor de transcripción previamente identificados . Otra herramienta de análisis estadístico es la Estadística de suma de rangos para colecciones de conjuntos de genes (RssGsc), que utiliza funciones de distribución de probabilidad de suma de rangos para encontrar conjuntos de genes que expliquen los datos experimentales. ^[28]Otro enfoque es el metanálisis contextual, es decir, descubrir cómo responde un grupo de genes a una variedad de contextos experimentales. Genevestigator es una herramienta pública para realizar metanálisis contextuales en contextos como partes anatómicas, etapas de desarrollo y respuesta a enfermedades, sustancias químicas, tensiones y neoplasias .

Análisis de significación de microarrays (SAM) [ editar ]

El análisis de significancia de microarrays (SAM) es una técnica estadística , establecida en 2001 por Virginia Tusher, Robert Tibshirani y Gilbert Chu , para determinar si los cambios en la expresión génica son estadísticamente significativos. Con la llegada de los microarrays de ADN , ahora es posible medir la expresión de miles de genes en un solo experimento de hibridación. Los datos generados son considerables y un método para clasificar lo que es significativo y lo que no es esencial. SAM es distribuido por la Universidad de Stanford en un paquete R .

SAM identifica genes estadísticamente significativos mediante la realización de pruebas t específicas de genes y calcula una estadística d _j para cada gen j , que mide la fuerza de la relación entre la expresión génica y una variable de respuesta. ^[29]^[30]^[31] Este análisis utiliza estadísticas no paramétricas , ya que los datos pueden no seguir una distribución normal . La variable de respuesta describe y agrupa los datos según las condiciones experimentales. En este método, permutaciones repetidasde los datos se utilizan para determinar si la expresión de algún gen está relacionada de manera significativa con la respuesta. El uso de análisis basado en permutación tiene en cuenta las correlaciones en los genes y evita suposiciones paramétricas sobre la distribución de genes individuales. Esta es una ventaja sobre otras técnicas (p. Ej., ANOVA y Bonferroni ), que asumen igual varianza y / o independencia de genes. ^[32]

Protocolo básico [ editar ]

Realice experimentos de microarrays : microarrays de ADN con cebadores de oligo y ADNc, arreglos de SNP, arreglos de proteínas, etc.
Análisis de expresión de entrada en Microsoft Excel - ver más abajo
Ejecute SAM como complementos de Microsoft Excel
Ajuste el parámetro de ajuste delta para obtener un número significativo de genes junto con una tasa de descubrimiento falso aceptable (FDR) y evalúe el tamaño de la muestra calculando la diferencia media en la expresión en el controlador de trazado SAM
Enumere los genes expresados diferencialmente (genes expresados positiva y negativamente)

Ejecutando SAM [ editar ]

SAM está disponible para descargar en línea en http://www-stat.stanford.edu/~tibs/SAM/ para usuarios académicos y no académicos después de completar un paso de registro.
SAM se ejecuta como un complemento de Excel, y SAM Plot Controller permite la personalización de la tasa de detección falsa y delta, mientras que la funcionalidad SAM Plot y SAM Output genera una lista de genes significativos, una tabla Delta y una evaluación de tamaños de muestra.
Las permutaciones se calculan en función del número de muestras
Permutaciones de bloque
- Los bloques son lotes de microarrays; por ejemplo, para ocho muestras divididas en dos grupos (control y afectados) hay 4! = 24 permutaciones para cada bloque y el número total de permutaciones es (24) (24) = 576. Se recomienda un mínimo de 1000 permutaciones; ^[29]^[33]^[34]

el número de permutaciones lo establece el usuario al imputar valores correctos para el conjunto de datos para ejecutar SAM

Formatos de respuesta [ editar ]

Tipos: ^[29]

Cuantitativo : valor real (como frecuencia cardíaca)
Una clase : prueba si la expresión génica media difiere de cero
Dos clases : dos conjuntos de medidas
- No emparejado : las unidades de medida son diferentes en los dos grupos; por ejemplo, grupos de control y tratamiento con muestras de diferentes pacientes
- Emparejado : se miden las mismas unidades experimentales en los dos grupos; por ejemplo, muestras antes y después del tratamiento de los mismos pacientes
Multiclase : más de dos grupos, cada uno de los cuales contiene diferentes unidades experimentales; generalización del tipo no apareado de dos clases
Supervivencia : datos de un tiempo hasta un evento (por ejemplo, muerte o recaída)
Curso temporal : cada unidad experimental se mide en más de un punto temporal; Las unidades experimentales se clasifican en un diseño de una o dos clases.
Descubrimiento de patrones : no se especifica ningún parámetro de respuesta explícito; el usuario especifica el gen propio (componente principal) de los datos de expresión y lo trata como una respuesta cuantitativa

Algoritmo [ editar ]

SAM calcula una estadística de prueba para la diferencia relativa en la expresión génica basada en el análisis de permutación de los datos de expresión y calcula una tasa de descubrimiento falso. Los principales cálculos del programa se ilustran a continuación. ^[29]^[30]^[31]

La constante s _o se elige para minimizar el coeficiente de variación de d _i . r _i es igual a los niveles de expresión (x) del gen i en y condiciones experimentales.

${\ Displaystyle \ mathrm {Falso \ descubrimiento \ tasa \ (FDR) = {\ frac {Mediana \ (o \ 90 ^ {th} \ percentil) \ de \ \ # \ de \ falsamente \ llamado \ genes} {Número \ de \ genes \ llamados \ significativos}}}}$

Los cambios de pliegue (t) se especifican para garantizar que los genes denominados cambio significativo al menos una cantidad preespecificada. Esto significa que el valor absoluto de los niveles de expresión promedio de un gen en cada una de las dos condiciones debe ser mayor que el cambio de veces (t) para ser llamado positivo y menor que el inverso del cambio de veces (t) para ser llamado negativo.

El algoritmo SAM se puede establecer como:

Ordene las estadísticas de prueba según la magnitud ^[30]^[31]
Para cada permutación, calcule las puntuaciones nulas (no afectadas) ordenadas ^[30]^[31]
Grafique la estadística de prueba ordenada contra las puntuaciones nulas esperadas ^[30]^[31]
Llame a cada gen significativo si el valor absoluto de la estadística de prueba para ese gen menos la estadística de prueba media para ese gen es mayor que un umbral establecido ^[31]
Estimar la tasa de falsos descubrimientos en función de los valores esperados frente a los observados ^[30]^[31]

Salida [ editar ]

Conjuntos de genes significativos
- Conjunto de genes positivo: una mayor expresión de la mayoría de los genes en el conjunto de genes se correlaciona con valores más altos del fenotipo y
- Conjunto de genes negativo: la menor expresión de la mayoría de los genes en el conjunto de genes se correlaciona con valores más altos del fenotipo y

Funciones de SAM [ editar ]

Datos de matrices de oligo o cDNA, matriz de SNP, matrices de proteínas, etc. se puede utilizar en SAM ^[30]^[31]
Correlaciona los datos de expresión con los parámetros clínicos ^[32]
Correlaciona los datos de expresión con el tiempo ^[29]
Utiliza la permutación de datos para estimar la tasa de descubrimiento falso para múltiples pruebas ^[30]^[31]^[32]^[35]
Informa la tasa de descubrimiento falso local (el FDR para los genes que tienen un d _i similar a ese gen) ^[29] y las tasas de fallas ^[29]^[30]
Puede funcionar con diseño bloqueado para cuando los tratamientos se aplican dentro de diferentes lotes de matrices ^[29]
Puede ajustar el umbral determinando el número de gen llamado significativo ^[29]

Corrección de errores y control de calidad [ editar ]

Control de calidad [ editar ]

Las matrices completas pueden tener defectos obvios detectables mediante inspección visual, comparaciones por pares con matrices en el mismo grupo experimental o mediante el análisis de la degradación del ARN. ^{[36] Los} resultados pueden mejorar si se eliminan estas matrices del análisis por completo.

Corrección de fondo [ editar ]

Dependiendo del tipo de matriz, la señal relacionada con la unión inespecífica del fluoróforo se puede restar para lograr mejores resultados. Un enfoque implica restar la intensidad de señal promedio del área entre puntos. TIGR, ^[37] Agilent ( GeneSpring ), ^[38] y Ocimum Bio Solutions (Genowiz) ofrecen una variedad de herramientas para la corrección de fondo y análisis adicionales . ^[39]

Filtrado puntual [ editar ]

La identificación visual de artefactos locales, como defectos de impresión o lavado, también puede sugerir la eliminación de manchas individuales. Esto puede llevar una cantidad considerable de tiempo dependiendo de la calidad de fabricación de la matriz. Además, algunos procedimientos requieren la eliminación de todos los puntos con un valor de expresión por debajo de un cierto umbral de intensidad.

Ver también [ editar ]

Bases de datos de microarrays
Análisis de significancia de microarrays
Transcriptómica
Proteómica

Referencias [ editar ]

^ Dr. Leming Shi, Centro Nacional de Investigaciones Toxicológicas. "Proyecto de Control de Calidad MicroArray (MAQC)" . Administración de Drogas y Alimentos de los Estados Unidos . Consultado el 26 de diciembre de 2007 .
^ "GenUs BioSystems - Servicios - Análisis de datos" . Consultado el 2 de enero de 2008 .
^ "Agilent | Microarrays de ADN" . Archivado desde el original el 22 de diciembre de 2007 . Consultado el 2 de enero de 2008 .
^ "Biblioteca LIMMA: modelos lineales para datos de microarrays" . Consultado el 1 de enero de 2008 .
^ Irizarry, RA; Hobbs, B; Collin, F; Beazer-Barclay, YD; Antonellis, KJ; Scherf, U; Velocidad, TP (2003). "Exploración, normalización y resúmenes de datos de nivel de sonda de matriz de oligonucleótidos de alta densidad" . Bioestadística . 4 (2): 249–64. doi : 10.1093 / bioestadística / 4.2.249 . PMID 12925520 .
^ Bolstad BM, Irizarry RA, Astrand M, Speed TP (2003). "Una comparación de los métodos de normalización de datos de matriz de oligonucleótidos de alta densidad basados en la varianza y el sesgo" . Bioinformática . 19 (2): 185–93. doi : 10.1093 / bioinformatics / 19.2.185 . PMID 12538238 .
^ Giorgi FM, Bolger AM, Lohse M, Usadel B (2010). "Artefactos impulsados por algoritmos en el resumen de pulido medio de datos de microarrays" . BMC Bioinformática . 11 : 553. doi : 10.1186 / 1471-2105-11-553 . PMC 2998528 . PMID 21070630 .
^ Lim WK, Wang K, Lefebvre C, Califano A (2007). "Análisis comparativo de procedimientos de normalización de microarrays: efectos en redes de genes de ingeniería inversa" . Bioinformática . 23 (13): i282–8. doi : 10.1093 / bioinformatics / btm201 . PMID 17646307 .
^ Hochreiter S, Clevert DA, Obermayer K (2006). "Un nuevo método de resumen para datos de nivel de sonda affymetrix" . Bioinformática . 22 (8): 943–949. doi : 10.1093 / bioinformatics / btl033 . PMID 16473874 .
^ "Affycomp III: un punto de referencia para las medidas de expresión de Affymetrix GeneChip" .
^ Shi L, Reid LH, Jones WD, et al. (2006). "El proyecto MicroArray Quality Control (MAQC) muestra la reproducibilidad inter e intraplataforma de las medidas de expresión génica" . Nat. Biotechnol . 24 (9): 1151–61. doi : 10.1038 / nbt1239 . PMC 3272078 . PMID 16964229 .
^ Guo L, Lobenhofer EK, Wang C, et al. (2006). "El estudio toxicogenómico de ratas revela consistencia analítica a través de plataformas de microarrays". Nat. Biotechnol . 24 (9): 1162–9. doi : 10.1038 / nbt1238 . PMID 17061323 . S2CID 8192240 .
^ Caballero, Robert; et al. (2005). Soluciones de bioinformática y biología computacional utilizando R y Bioconductor . Nueva York: Springer Science + Business Media. ISBN 978-0-387-29362-2.
^ Jaskowiak, Pablo A .; Campello, Ricardo JGB; Costa, Ivan G. (2013). "Medidas de proximidad para agrupar datos de microarrays de expresión génica: una metodología de validación y un análisis comparativo". Transacciones IEEE / ACM sobre biología computacional y bioinformática . 10 (4): 845–857. doi : 10.1109 / TCBB.2013.9 . PMID 24334380 . S2CID 760277 .
^ a b c Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Iván G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica" . BMC Bioinformática . 15 (Supl. 2): S2. doi : 10.1186 / 1471-2105-15-S2-S2 . PMC 4072854 . PMID 24564555 .
↑ a b de Souto, Marcilio CP; Costa, Ivan G .; de Araujo, Daniel SA; Ludermir, Teresa B .; Schliep, Alexander (2008). "Agrupación de datos de expresión génica del cáncer: un estudio comparativo" . BMC Bioinformática . 9 (1): 497. doi : 10.1186 / 1471-2105-9-497 . PMC 2632677 . PMID 19038021 .
^ http://www.biostat.ucsf.edu
^ "Sistemas de ingenio" . Consultado el 31 de diciembre de 2007 .
^ "Ariadne Genomics: Pathway Studio" . Archivado desde el original el 30 de diciembre de 2007 . Consultado el 31 de diciembre de 2007 .
^ "FunRich: análisis de enriquecimiento funcional" . Consultado el 9 de septiembre de 2014 .
^ [ "Análisis de significación de microarrays" . Consultado el 31 de diciembre de 2007 .]
^ "Software - amplio" . Consultado el 31 de diciembre de 2007 .
^ Subramanian A, Tamayo P, Mootha VK, et al. (2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma" . Proc. Natl. Acad. Sci. USA . 102 (43): 15545–50. doi : 10.1073 / pnas.0506580102 . PMC 1239896 . PMID 16199517 .
^ "BioCarta - trazando caminos de la vida" . Consultado el 31 de diciembre de 2007 .
^ Vinayagam A, Hu Y, Kulkarni M, Roesel C, et al. (2013). "Marco de análisis basado en complejos de proteínas para conjuntos de datos de alto rendimiento. 6, rs5 (2013)" . Sci. Señal . 6 (r5): rs5. doi : 10.1126 / scisignal.2003629 . PMC 3756668 . PMID 23443684 .
^ "DBI Web" . Archivado desde el original el 5 de julio de 2007 . Consultado el 31 de diciembre de 2007 .
^ "ALCANCE" . Consultado el 31 de diciembre de 2007 .
^ "RssGsc" . Consultado el 15 de octubre de 2008 .
^ a b c d e f g h i Chu, G., Narasimhan, B, Tibshirani, R, Tusher, V. "SAM" Análisis de significación de microarrays "Guía del usuario y documento técnico". [1]
^ a b c d e f g h i Zang, S .; Guo, R .; et al. (2007). "Integración de métodos de inferencia estadística y una nueva medida de control para mejorar la sensibilidad y especificidad del análisis de datos en estudios de perfiles de expresión". Revista de Informática Biomédica . 40 (5): 552–560. doi : 10.1016 / j.jbi.2007.01.002 . PMID 17317331 .
↑ a b c d e f g h i <Zhang, S. (2007). "Una evaluación integral de SAM, el SAM R-package y una simple modificación para mejorar su desempeño". BMC Bioinformatics 8: 230.
^ a b c Tusher, VG; Tibshirani, R .; et al. (2001). "Análisis de significación de microarrays aplicados a la respuesta a las radiaciones ionizantes" (PDF) . Actas de la Academia Nacional de Ciencias . 98 (9): 5116–5121. Código Bibliográfico : 2001PNAS ... 98.5116G . doi : 10.1073 / pnas.091062498 . PMC 33173 . PMID 11309499 .
^ Dinu, IP; JD; Mueller, T; Liu, Q; Adewale, AJ; Jhangri, GS; Einecke, G; Famulski, KS; Halloran, P; Yasui, Y. (2007). "Mejora del análisis de conjuntos de genes de datos de microarrays por SAM-GS" . BMC Bioinformática . 8 : 242. doi : 10.1186 / 1471-2105-8-242 . PMC 1931607 . PMID 17612399 .
^ Jeffery, IH; DG; Culhane, AC. (2006). "Comparación y evaluación de métodos para generar listas de genes expresados diferencialmente a partir de datos de microarrays" . BMC Bioinformática . 7 : 359. doi : 10.1186 / 1471-2105-7-359 . PMC 1544358 . PMID 16872483 .
^ Larsson, OW C; Timmons, JA. (2005). "Consideraciones al utilizar el algoritmo de análisis de significancia de microarrays (SAM)" . BMC Bioinformática . 6 : 129. doi : 10.1186 / 1471-2105-6-129 . PMC 1173086 . PMID 15921534 .
^ Wilson CL, Miller CJ (2005). "Simpleaffy: un paquete BioConductor para el análisis de datos y control de calidad de Affymetrix" . Bioinformática . 21 (18): 3683–5. doi : 10.1093 / bioinformatics / bti605 . PMID 16076888 .
^ "Instituto J. Craig Venter - Software" . Consultado el 1 de enero de 2008 .
^ "Agilent | GeneSpring GX" . Consultado el 2 de enero de 2008 .
^ "Ocimum Biosolutions | Genowiz" . Archivado desde el original el 24 de noviembre de 2009 . Consultado el 2 de abril de 2009 .

Enlaces externos [ editar ]

ArrayExplorer: compare los microarrays uno al lado del otro para encontrar el que mejor se adapte a sus necesidades de investigación
FARMS: análisis factorial para un resumen robusto de microarrays, un paquete R: software
StatsArray: servicios de análisis de microarrays en línea, software
ArrayMining.net: aplicación web para el análisis en línea de datos de microarrays: software
FunRich: realiza análisis de enriquecimiento de conjuntos de genes: software
Análisis comparativo de la transcriptómica en el módulo de referencia en ciencias biológicas
Instrucciones de descarga de SAM
Fundamentos del análisis de datos y análisis de expresión de GeneChip® (por Affymetrix)
Duke data_analysis_fundamentals_manual

[1] Dr. Leming Shi, Centro Nacional de Investigaciones Toxicológicas. "Proyecto de Control de Calidad MicroArray (MAQC)" . Administración de Drogas y Alimentos de los Estados Unidos . Consultado el 26 de diciembre de 2007 .

[2] "GenUs BioSystems - Servicios - Análisis de datos" . Consultado el 2 de enero de 2008 .

[3] "Agilent | Microarrays de ADN" . Archivado desde el original el 22 de diciembre de 2007 . Consultado el 2 de enero de 2008 .

[4] "Biblioteca LIMMA: modelos lineales para datos de microarrays" . Consultado el 1 de enero de 2008 .

[5] Irizarry, RA; Hobbs, B; Collin, F; Beazer-Barclay, YD; Antonellis, KJ; Scherf, U; Velocidad, TP (2003). "Exploración, normalización y resúmenes de datos de nivel de sonda de matriz de oligonucleótidos de alta densidad" . Bioestadística . 4 (2): 249–64. doi : 10.1093 / bioestadística / 4.2.249 . PMID 12925520 .

[6] Bolstad BM, Irizarry RA, Astrand M, Speed TP (2003). "Una comparación de los métodos de normalización de datos de matriz de oligonucleótidos de alta densidad basados en la varianza y el sesgo" . Bioinformática . 19 (2): 185–93. doi : 10.1093 / bioinformatics / 19.2.185 . PMID 12538238 .

[7] Giorgi FM, Bolger AM, Lohse M, Usadel B (2010). "Artefactos impulsados por algoritmos en el resumen de pulido medio de datos de microarrays" . BMC Bioinformática . 11 : 553. doi : 10.1186 / 1471-2105-11-553 . PMC 2998528 . PMID 21070630 .

[8] Lim WK, Wang K, Lefebvre C, Califano A (2007). "Análisis comparativo de procedimientos de normalización de microarrays: efectos en redes de genes de ingeniería inversa" . Bioinformática . 23 (13): i282–8. doi : 10.1093 / bioinformatics / btm201 . PMID 17646307 .

[9] Hochreiter S, Clevert DA, Obermayer K (2006). "Un nuevo método de resumen para datos de nivel de sonda affymetrix" . Bioinformática . 22 (8): 943–949. doi : 10.1093 / bioinformatics / btl033 . PMID 16473874 .

[10] "Affycomp III: un punto de referencia para las medidas de expresión de Affymetrix GeneChip" .

[11] Shi L, Reid LH, Jones WD, et al. (2006). "El proyecto MicroArray Quality Control (MAQC) muestra la reproducibilidad inter e intraplataforma de las medidas de expresión génica" . Nat. Biotechnol . 24 (9): 1151–61. doi : 10.1038 / nbt1239 . PMC 3272078 . PMID 16964229 .

[12] Guo L, Lobenhofer EK, Wang C, et al. (2006). "El estudio toxicogenómico de ratas revela consistencia analítica a través de plataformas de microarrays". Nat. Biotechnol . 24 (9): 1162–9. doi : 10.1038 / nbt1238 . PMID 17061323 . S2CID 8192240 .

[Gentleman-13] Caballero, Robert; et al. (2005). Soluciones de bioinformática y biología computacional utilizando R y Bioconductor . Nueva York: Springer Science + Business Media. ISBN 978-0-387-29362-2.

[Jaskowiak2013-14] Jaskowiak, Pablo A .; Campello, Ricardo JGB; Costa, Ivan G. (2013). "Medidas de proximidad para agrupar datos de microarrays de expresión génica: una metodología de validación y un análisis comparativo". Transacciones IEEE / ACM sobre biología computacional y bioinformática . 10 (4): 845–857. doi : 10.1109 / TCBB.2013.9 . PMID 24334380 . S2CID 760277 .

[Jaskowiak2014-15] Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Iván G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica" . BMC Bioinformática . 15 (Supl. 2): S2. doi : 10.1186 / 1471-2105-15-S2-S2 . PMC 4072854 . PMID 24564555 .

[Souto2011-16] Souto, Marcilio CP; Costa, Ivan G .; de Araujo, Daniel SA; Ludermir, Teresa B .; Schliep, Alexander (2008). "Agrupación de datos de expresión génica del cáncer: un estudio comparativo" . BMC Bioinformática . 9 (1): 497. doi : 10.1186 / 1471-2105-9-497 . PMC 2632677 . PMID 19038021 .

[17] ttp://www.biostat.ucsf.edu

[18] "Sistemas de ingenio" . Consultado el 31 de diciembre de 2007 .

[19] "Ariadne Genomics: Pathway Studio" . Archivado desde el original el 30 de diciembre de 2007 . Consultado el 31 de diciembre de 2007 .

[20] "FunRich: análisis de enriquecimiento funcional" . Consultado el 9 de septiembre de 2014 .

[21] [ "Análisis de significación de microarrays" . Consultado el 31 de diciembre de 2007 .]

[22] "Software - amplio" . Consultado el 31 de diciembre de 2007 .

[23] Subramanian A, Tamayo P, Mootha VK, et al. (2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma" . Proc. Natl. Acad. Sci. USA . 102 (43): 15545–50. doi : 10.1073 / pnas.0506580102 . PMC 1239896 . PMID 16199517 .

[24] "BioCarta - trazando caminos de la vida" . Consultado el 31 de diciembre de 2007 .

[25] Vinayagam A, Hu Y, Kulkarni M, Roesel C, et al. (2013). "Marco de análisis basado en complejos de proteínas para conjuntos de datos de alto rendimiento. 6, rs5 (2013)" . Sci. Señal . 6 (r5): rs5. doi : 10.1126 / scisignal.2003629 . PMC 3756668 . PMID 23443684 .

[26] "DBI Web" . Archivado desde el original el 5 de julio de 2007 . Consultado el 31 de diciembre de 2007 .

[27] "ALCANCE" . Consultado el 31 de diciembre de 2007 .

[28] "RssGsc" . Consultado el 15 de octubre de 2008 .

[R1-29] ^ a b c d e f g h i Chu, G., Narasimhan, B, Tibshirani, R, Tusher, V. "SAM" Análisis de significación de microarrays "Guía del usuario y documento técnico". [1]

[R7-30] ^ a b c d e f g h i Zang, S .; Guo, R .; et al. (2007). "Integración de métodos de inferencia estadística y una nueva medida de control para mejorar la sensibilidad y especificidad del análisis de datos en estudios de perfiles de expresión". Revista de Informática Biomédica . 40 (5): 552–560. doi : 10.1016 / j.jbi.2007.01.002 . PMID 17317331 .

[R8-31] ↑ a b c d e f g h i <Zhang, S. (2007). "Una evaluación integral de SAM, el SAM R-package y una simple modificación para mejorar su desempeño". BMC Bioinformatics 8: 230.

[R6-32] Tusher, VG; Tibshirani, R .; et al. (2001). "Análisis de significación de microarrays aplicados a la respuesta a las radiaciones ionizantes" (PDF) . Actas de la Academia Nacional de Ciencias . 98 (9): 5116–5121. Código Bibliográfico : 2001PNAS ... 98.5116G . doi : 10.1073 / pnas.091062498 . PMC 33173 . PMID 11309499 .

[R2-33] Dinu, IP; JD; Mueller, T; Liu, Q; Adewale, AJ; Jhangri, GS; Einecke, G; Famulski, KS; Halloran, P; Yasui, Y. (2007). "Mejora del análisis de conjuntos de genes de datos de microarrays por SAM-GS" . BMC Bioinformática . 8 : 242. doi : 10.1186 / 1471-2105-8-242 . PMC 1931607 . PMID 17612399 .

[R3-34] Jeffery, IH; DG; Culhane, AC. (2006). "Comparación y evaluación de métodos para generar listas de genes expresados diferencialmente a partir de datos de microarrays" . BMC Bioinformática . 7 : 359. doi : 10.1186 / 1471-2105-7-359 . PMC 1544358 . PMID 16872483 .

[R5-35] Larsson, OW C; Timmons, JA. (2005). "Consideraciones al utilizar el algoritmo de análisis de significancia de microarrays (SAM)" . BMC Bioinformática . 6 : 129. doi : 10.1186 / 1471-2105-6-129 . PMC 1173086 . PMID 15921534 .

[36] Wilson CL, Miller CJ (2005). "Simpleaffy: un paquete BioConductor para el análisis de datos y control de calidad de Affymetrix" . Bioinformática . 21 (18): 3683–5. doi : 10.1093 / bioinformatics / bti605 . PMID 16076888 .

[37] "Instituto J. Craig Venter - Software" . Consultado el 1 de enero de 2008 .

[38] "Agilent | GeneSpring GX" . Consultado el 2 de enero de 2008 .

[39] "Ocimum Biosolutions | Genowiz" . Archivado desde el original el 24 de noviembre de 2009 . Consultado el 2 de abril de 2009 .

[1]