Un diagrama MA es una aplicación de un diagrama de Bland-Altman para la representación visual de datos genómicos . El gráfico visualiza las diferencias entre las mediciones tomadas en dos muestras, transformando los datos en escalas M (relación logarítmica) y A ( promedio medio ), y luego graficando estos valores. Aunque originalmente se aplicaron en el contexto de datos de expresión génica de microarrays de ADN de dos canales , los gráficos MA también se utilizan para visualizar análisis de secuenciación de alto rendimiento . [1] [2]
Explicación
Los datos de microarrays a menudo se normalizan dentro de las matrices para controlar los sesgos sistemáticos en las eficiencias de hibridación y acoplamiento de tintes, así como otros sesgos técnicos en las sondas de ADN y la punta de impresión utilizada para detectar la matriz. [3] Al minimizar estas variaciones sistemáticas, se pueden encontrar verdaderas diferencias biológicas. Para determinar si es necesaria la normalización, se pueden graficar las intensidades de Cy5 (R) contra las intensidades de Cy3 (G) y ver si la pendiente de la línea es alrededor de 1. Un método mejorado, que es básicamente una rotación a escala de 45 grados de R vs .G plot es un diagrama MA. [4] El gráfico MA es un gráfico de la distribución de la relación de intensidad rojo / verde ('M') trazada por la intensidad media ('A'). M y A se definen mediante las siguientes ecuaciones.
M es, por lo tanto, el logaritmo binario de la relación de intensidad (o diferencia entre las intensidades logarítmicas) y A es la intensidad logarítmica promedio de un punto en la gráfica. Las gráficas MA se utilizan para visualizar la relación dependiente de la intensidad de los datos de microarrays sin procesar (los microarrays suelen mostrar un sesgo aquí, con un A más alto que da como resultado un | M | más alto, es decir, cuanto más brillante es el punto, más probable es una diferencia observada entre la muestra y el control). Los pone la trama MA la variable M sobre la y eje x y A en la x eje x y da una rápida visión general de la distribución de los datos.
En muchos experimentos de expresión de genes de microarrays, una suposición subyacente es que la mayoría de los genes no verían ningún cambio en su expresión; por lo tanto, la mayoría de los puntos en el eje y ( M ) se ubicarían en 0, ya que log (1) es 0. Si este no es el caso, entonces se debe aplicar un método de normalización como LOESS a los datos antes de análisis estadístico. (En el diagrama a continuación, vea la línea roja debajo de la marca cero antes de la normalización, debe ser recta. Dado que no es recta, los datos deben normalizarse. Después de normalizarse, la línea roja es recta en la línea cero y se muestra como rosa / negro.)
Paquetes
Varios paquetes de bioconductores , para el software R , brindan la posibilidad de crear gráficos MA. Estos incluyen affy (ma.plot, mva.pairs), limma (plotMA), marray (maPlot) y edgeR (maPlot)
Se pueden generar gráficos "RA" similares usando la función raPlot en el paquete caroline CRAN R.
Un diagrama MA interactivo para filtrar genes por valores M, A y p, buscar por nombres o con un lazo y guardar genes seleccionados, está disponible como un diagrama MA mejorado de código R-Shiny .
Ejemplo en el lenguaje de programación R
biblioteca ( affy )if ( require ( affydata )) { data ( Dilución ) }y <- ( exprs ( Dilución ) [, c ( "20B" , "10A" )])x11 ()ma.plot ( rowMeans ( log2 ( y )), log2 ( y [, 1 ]) - log2 ( y [, 2 ]), cex = 1 )title ( "Conjunto de datos de diluciones (matriz 20B v 10A)" )biblioteca ( preprocessCore )#hacer una normalización de cuantiles x <- normalize.quantiles ( y )x11 ()ma.plot ( rowMeans ( log2 ( x )), log2 ( x [, 1 ]) - log2 ( x [, 2 ]), cex = 1 ) title ( "Norma posterior: Conjunto de datos de diluciones (matriz 20B v 10A)" )
Ver también
Referencias
- ^ Robinson, MD; McCarthy, DJ; Smyth, GK (11 de noviembre de 2009). "edgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital" . Bioinformática . 26 (1): 139–140. doi : 10.1093 / bioinformatics / btp616 . PMC 2796818 . PMID 19910308 .
- ^ Con amor, Michael I; Huber, Wolfgang; Anders, Simon (5 de diciembre de 2014). "Estimación moderada del cambio de veces y la dispersión de datos de RNA-seq con DESeq2" . Biología del genoma . 15 (12): 550. doi : 10.1186 / s13059-014-0550-8 . PMC 4302049 . PMID 25516281 .
- ^ YH Yang , S Dudoit , P Luu, DM Lin, V Peng, J Ngai, TP Speed . (2002). Normalización para datos de microarrays de ADNc: un método compuesto robusto que aborda la variación sistemática de portaobjetos únicos y múltiples. Investigación de ácidos nucleicos vol. 30 (4) págs. E15.
- ^ Dudoit, S , Yang, YH , Callow, MJ, Speed, TP . (2002). Métodos estadísticos para identificar genes expresados diferencialmente en experimentos de microarrays de ADNc replicados. Stat. Pecado. 12: 1111-139