La herramienta bayesiana para el análisis de metilación , también conocida como BATMAN , es una herramienta estadística para analizar perfiles de inmunoprecipitación de ADN metilado (MeDIP). Se puede aplicar a grandes conjuntos de datos generados utilizando matrices de oligonucleótidos (chip MeDIP) o secuenciación de próxima generación (MeDIP-seq), lo que proporciona una estimación cuantitativa del estado de metilación absoluto en una región de interés. [1]
Teoría
MeDIP (inmunoprecipitación de ADN metilado) es una técnica experimental utilizada para evaluar los niveles de metilación del ADN mediante el uso de un anticuerpo para aislar secuencias de ADN metilado. Los fragmentos aislados de ADN se hibridan con un chip de microarrays (chip MeDIP) o se secuencian mediante secuenciación de próxima generación (MeDIP-seq). Si bien esto le dice qué áreas del genoma están metiladas, no proporciona niveles absolutos de metilación. Imaginemos dos regiones genómicas diferentes, A y B . La región A tiene seis CpG (la metilación del ADN en células somáticas de mamíferos generalmente ocurre en los dinucleótidos CpG [2] ), tres de los cuales están metilados. La región B tiene tres CpG, todos ellos metilados. Como el anticuerpo simplemente reconoce el ADN metilado , se unirá a ambas regiones por igual y, por lo tanto, los pasos posteriores mostrarán señales iguales para estas dos regiones. Esto no da una imagen completa de la metilación en estas dos regiones (en la región A solo la mitad de los CpG están metilados, mientras que en la región B todos los CpG están metilados). Por lo tanto, para obtener la imagen completa de la metilación para una región determinada, debe normalizar la señal que obtiene del experimento MeDIP al número de CpG en la región, y esto es lo que hace el algoritmo de Batman . El análisis de la señal MeDIP del ejemplo anterior daría puntuaciones de Batman de 0,5 para la región A (es decir, la región está metilada al 50%) y 1 para la región B (es decir, la región está metilada al 100%). De esta forma, Batman convierte las señales de los experimentos MeDIP en niveles absolutos de metilación.
Desarrollo de Batman
El principio central del algoritmo de Batman es modelar los efectos de la densidad variable de los dinucleótidos CpG y el efecto que esto tiene en el enriquecimiento de fragmentos de ADN con MeDIP. Las suposiciones básicas de Batman:
- Casi toda la metilación del ADN en los mamíferos ocurre en los dinucleótidos CpG.
- La mayoría de las regiones pobres en CpG están constitutivamente metiladas, mientras que la mayoría de las regiones ricas en CpG (islas CpG) están constitutivamente sin metilar. [3]
- No hay sesgos de fragmentos en el experimento MeDIP (el rango aproximado de tamaños de fragmentos de ADN es de 400 a 700 pb).
- Los errores en el microarray normalmente se distribuyen con precisión.
- Solo los CpG metilados contribuyen a la señal observada.
- El estado de metilación de CpG generalmente está altamente correlacionado con cientos de bases, [4] por lo que los CpG agrupados en ventanas de 50 o 100 pb tendrían el mismo estado de metilación.
Parámetros básicos en Batman:
- C cp : factor de acoplamiento entre la sonda py el dinucleótido CpG c , se define como la fracción de moléculas de ADN que hibridan con la sonda p que contienen el CpG c .
- C tot : parámetro de influencia de CpG total, se define como la suma de factores de acoplamiento para cualquier sonda dada, que proporciona una medida de la densidad de CpG local
- m c : el estado de metilación en la posición c , que representa la fracción de cromosomas en la muestra en la que está metilado. m c se considera una variable continua ya que la mayoría de las muestras utilizadas en los estudios de MeDIP contienen múltiples tipos de células.
Con base en estas suposiciones, la señal del canal MeDIP del experimento MeDIP-chip o MeDIP-seq depende del grado de enriquecimiento de los fragmentos de ADN que se superponen a esa sonda, que a su vez depende de la cantidad de unión del anticuerpo y, por lo tanto, del número de CpG metilados en esos fragmentos. En el modelo de Batman, el conjunto de datos completo de un experimento MeDIP / chip, A, se puede representar mediante un modelo estadístico en la forma de la siguiente distribución de probabilidad :
dónde ( x | μ , σ 2 ) es una función de densidad de probabilidad gaussiana . Se pueden utilizar técnicas bayesianas estándar para inferir f ( m | A ), es decir, la distribución de los estados de metilación probables dados uno o más conjuntos de salidas MeDIP-chip / MeDIP-seq. Para resolver este problema de inferencia, Batman utiliza muestreo anidado ( http://www.inference.phy.cam.ac.uk/bayesys/ ) para generar 100 muestras independientes de f ( m | A ) para cada región en mosaico del genoma, luego resume el estado de metilación más probable en ventanas de 100 pb ajustando distribuciones beta a estas muestras. Los modos de las distribuciones beta más probables se utilizaron como llamadas de metilación finales.
Limitaciones
Puede ser útil tener en cuenta los siguientes puntos al considerar el uso de Batman:
- Batman no es una pieza de software ; es un algoritmo que se realiza mediante el símbolo del sistema . Como tal, no es especialmente fácil de usar y es un proceso bastante técnico computacionalmente.
- Debido a que no es comercial, hay muy poco soporte al usar Batman más allá de lo que está en el manual.
- Lleva bastante tiempo (puede llevar varios días analizar un cromosoma). (Nota: En un laboratorio del gobierno, ejecutar Batman en un conjunto de 100 matrices de metilación de ADN humano Agilent (aproximadamente 250.000 sondas por matriz) tardó menos de una hora en completarse en el software Genomic Workbench de Agilent. Nuestra computadora tenía un procesador de 2 GHz, 24 GB de RAM , Windows de 64 bits 7.)
- Debe tenerse en cuenta la variación del número de copias (CNV). Por ejemplo, la puntuación para una región con un valor de CNV de 1,6 en un cáncer (una pérdida de 0,4 en comparación con lo normal) tendría que multiplicarse por 1,25 (= 2 / 1,6) para compensar la pérdida.
- Una de las suposiciones básicas de Batman es que toda la metilación del ADN ocurre en los dinucleótidos CpG. Si bien este es generalmente el caso de las células somáticas de vertebrados , existen situaciones en las que existe una metilación no CpG generalizada, como en las células vegetales y las células madre embrionarias . [5] [6]
Referencias
- ^ Abajo, TA et al. Una estrategia de desconvolución bayesiana para el análisis de metiloma de ADN basado en inmunoprecipitación. Nature Biotechnology 26 , 779–85 (2008).
- ^ Lister, R. et al . Los metilomas del ADN humanoen la resolución de la base muestrandiferencias epigenómicas generalizadas. Nature 462 , 315-22 (2009).
- ^ Bird, A. Patrones de metilación del ADN y memoria epigenética. Genes & Development 16 , 6-21 (2002).
- ^ Eckhardt, F. et al . Perfiles de metilación del ADN de los cromosomas humanos 6, 20 y 22. Nature Genetics 38 , 1378–85 (2006).
- ^ Dodge, JE, Ramsahoye, BH, Wo, ZG, Okano, M. & Li, E. Metilación de novo de provirus MMLV en células madre embrionarias: metilación de CpG frente a no CpG. Gene 289 , 41–8 (2002)
- ^ Vanyushin, metilación del ADN de BF en plantas. Temas actuales de microbiología e inmunología 301 , 67–122 (2006)