La llamada SNV a partir de datos NGS es cualquiera de una variedad de métodos para identificar la existencia de variantes de un solo nucleótido (SNV) a partir de los resultados de experimentos de secuenciación de próxima generación (NGS). Estas son técnicas computacionales y contrastan con los métodos experimentales especiales basados en polimorfismos de un solo nucleótido conocidos en toda la población (ver Genotipado de SNP ). Debido a la creciente abundancia de datos NGS, estas técnicas se están volviendo cada vez más populares para realizar el genotipado de SNP, con una amplia variedad de algoritmos diseñados para aplicaciones y diseños experimentales específicos. [1]Además del dominio de aplicación habitual de la genotipificación de SNP, estas técnicas se han adaptado con éxito para identificar SNP raros dentro de una población, [2] así como para detectar SNV somáticos dentro de un individuo utilizando múltiples muestras de tejido. [3]
Métodos para detectar variantes de la línea germinal
La mayoría de los métodos basados en NGS para la detección de SNV están diseñados para detectar variaciones de la línea germinal en el genoma del individuo. Estas son las mutaciones que un individuo hereda biológicamente de sus padres, y son el tipo habitual de variantes que se buscan al realizar dicho análisis (salvo determinadas aplicaciones específicas donde se buscan mutaciones somáticas ). Muy a menudo, las variantes buscadas ocurren con cierta frecuencia (posiblemente rara) en toda la población, en cuyo caso pueden denominarse polimorfismos de un solo nucleótido (SNP). Técnicamente, el término SNP solo se refiere a este tipo de variaciones, sin embargo, en la práctica, a menudo se usan como sinónimo de SNV en la literatura sobre llamadas de variantes. Además, dado que la detección de SNV de la línea germinal requiere determinar el genotipo del individuo en cada locus, la frase "genotipado de SNP" también puede usarse para referirse a este proceso. Sin embargo, esta frase también puede referirse a procedimientos experimentales de laboratorio húmedo para clasificar genotipos en un conjunto de ubicaciones SNP conocidas.
El proceso habitual de estas técnicas se basa en: [1]
- Filtrar el conjunto de lecturas NGS para eliminar fuentes de error / sesgo
- Alinear las lecturas con un genoma de referencia
- Usar un algoritmo, ya sea basado en un modelo estadístico o en algunas heurísticas, para predecir la probabilidad de variación en cada locus, en función de los puntajes de calidad y los conteos de alelos de las lecturas alineadas en ese locus
- Filtrar los resultados previstos, a menudo basados en métricas relevantes para la aplicación.
- Anotación SNP para predecir el efecto funcional de cada variación.
La salida habitual de estos procedimientos es un archivo VCF .
Métodos probabilísticos
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/8/85/Heterozygous_SNV_call%2C_from_aligned_NGS_reads.png/220px-Heterozygous_SNV_call%2C_from_aligned_NGS_reads.png)
En un mundo ideal libre de errores con una alta cobertura de lectura , la tarea de llamar a variantes a partir de los resultados de una alineación de datos NGS sería simple; en cada locus (posición en el genoma) se puede contar el número de apariciones de cada nucleótido distinto entre las lecturas alineadas en esa posición, y el verdadero genotipo sería obvio; ya sea AA si todos los nucleótidos coinciden alelo A , BB Si coinciden alelo B , o AB si hay una mezcla. Sin embargo, cuando se trabaja con datos NGS reales, no se utiliza este tipo de enfoque ingenuo, ya que no puede explicar el ruido en los datos de entrada. [4] Los recuentos de nucleótidos utilizados para la llamada de bases contienen errores y sesgos, tanto debido a las lecturas secuenciadas como al proceso de alineación. Este problema se puede mitigar hasta cierto punto mediante la secuenciación a una mayor profundidad de cobertura de lectura, sin embargo, esto suele ser caro y muchos estudios prácticos requieren hacer inferencias sobre datos de baja cobertura. [1]
Los métodos probabilísticos tienen como objetivo superar el problema anterior, mediante la producción de estimaciones robustas de las probabilidades de cada uno de los posibles genotipos, teniendo en cuenta el ruido, así como otra información previa disponible que se puede utilizar para mejorar las estimaciones. Luego, se puede predecir un genotipo en función de estas probabilidades, a menudo de acuerdo con la estimación de MAP .
Los métodos probabilísticos para la llamada de variantes se basan en el teorema de Bayes . En el contexto de la llamada de variantes, el Teorema de Bayes define la probabilidad de que cada genotipo sea el verdadero genotipo dados los datos observados, en términos de las probabilidades previas de cada posible genotipo, y la distribución de probabilidad de los datos dados cada posible genotipo. La formula es:
En la ecuación anterior:
- se refiere a los datos observados; es decir, el alineado lee
- es el genotipo cuya probabilidad se está calculando
- se refiere al i- ésimo genotipo posible, de n posibilidades
Dado el marco anterior, las diferentes soluciones de software para detectar SNV varían en función de cómo calculan las probabilidades previas , el modelo de error utilizado para modelar las probabilidades y la división de los genotipos generales en subgenotipos separados, cuyas probabilidades se pueden estimar individualmente en este marco. [5]
Estimación previa de la probabilidad del genotipo
El cálculo de las probabilidades previas depende de los datos disponibles del genoma que se está estudiando y del tipo de análisis que se realiza. En el caso de estudios en los que se disponga de buenos datos de referencia que contengan frecuencias de mutaciones conocidas (por ejemplo, al estudiar datos del genoma humano), estas frecuencias conocidas de genotipos en la población se pueden utilizar para estimar a priori. Dadas las frecuencias alélicas amplias de la población, las probabilidades de genotipo previas se pueden calcular en cada locus de acuerdo con el equilibrio de Hardy-Weinberg . [6] En ausencia de tales datos, se pueden usar a priori constantes, independientemente del locus. Estos se pueden establecer utilizando valores elegidos heurísticamente, posiblemente informados por el tipo de variaciones que busca el estudio. Alternativamente, se han investigado procedimientos de aprendizaje automático supervisados que buscan aprender valores previos óptimos para los individuos en una muestra, utilizando datos NGS proporcionados por estos individuos. [4]
Modelos de error para observaciones de datos
El modelo de error utilizado en la creación de un método probabilístico para la llamada de variantes es la base para calcular el término utilizado en el teorema de Bayes. Si se suponía que los datos estaban libres de errores, entonces la distribución de los recuentos de nucleótidos observados en cada locus seguiría una distribución binomial , con un 100% de nucleótidos que coincidían con el alelo A o B respectivamente en los casos AA y BB , y un 50% de probabilidad. de cada nucleótido que coincide con A o B en el caso AB . Sin embargo, en presencia de ruido en los datos leídos, esta suposición se viola, y la los valores deben tener en cuenta la posibilidad de que estén presentes nucleótidos erróneos en las lecturas alineadas en cada locus.
Un modelo de error simple es introducir un pequeño error en el término de probabilidad de datos en los casos homocigotos, lo que permite una pequeña probabilidad constante de que los nucleótidos que no coincidan con el alelo A se observen en el caso AA , y respectivamente una pequeña probabilidad constante de que los nucleótidos no coinciden con el alelo B se observan en el caso BB . Sin embargo, se encuentran disponibles procedimientos más sofisticados que intentan replicar de manera más realista los patrones de error reales observados en datos reales al calcular las probabilidades de datos condicionales. Por ejemplo, se han incorporado estimaciones de la calidad de lectura (medidas como puntuaciones de calidad Phred ) en estos cálculos, teniendo en cuenta la tasa de error esperada en cada lectura individual en un locus. [7] Otra técnica que se ha incorporado con éxito a los modelos de error es la recalibración de la calidad de base, en la que se calculan tasas de error separadas, basadas en información previa conocida sobre patrones de error, para cada posible sustitución de nucleótidos. La investigación muestra que cada posible sustitución de nucleótidos no tiene la misma probabilidad de aparecer como un error en la secuenciación de datos, por lo que se ha aplicado la recalibración de la calidad base para mejorar las estimaciones de probabilidad de error. [6]
Partición del genotipo
En la discusión anterior, se ha asumido que las probabilidades de genotipo en cada locus se calculan de forma independiente; es decir, todo el genotipo se divide en genotipos independientes en cada locus, cuyas probabilidades se calculan de forma independiente. Sin embargo, debido al desequilibrio de ligamiento, los genotipos de los loci cercanos en general no son independientes. Como resultado, dividir el genotipo general en una secuencia de haplotipos superpuestos permite modelar estas correlaciones, lo que da como resultado estimaciones de probabilidad más precisas mediante la incorporación de frecuencias de haplotipos de toda la población en el anterior. El uso de haplotipos para mejorar la precisión de la detección de variantes se ha aplicado con éxito, por ejemplo, en el Proyecto 1000 Genomas . [8]
Algoritmos basados en heurística
Como alternativa a los métodos probabilísticos, existen métodos heurísticos para realizar llamadas de variantes en datos NGS. En lugar de modelar la distribución de los datos observados y utilizar estadísticas bayesianas para calcular las probabilidades de genotipo, las llamadas de variantes se realizan en función de una variedad de factores heurísticos, como el recuento mínimo de alelos, los límites de calidad de lectura, los límites de la profundidad de lectura, etc. han sido relativamente impopulares en la práctica en comparación con los métodos probabilísticos; en la práctica, debido a su uso de límites y cortes, pueden ser robustos a datos periféricos que violan los supuestos de los modelos probabilísticos. [9]
Genoma de referencia utilizado para la alineación
Una parte importante del diseño de métodos de llamada de variantes que utilizan datos de NGS es la secuencia de ADN utilizada como referencia a la que se alinean las lecturas de NGS. En los estudios de genética humana, se encuentran disponibles referencias de alta calidad, de fuentes como el proyecto HapMap , [10] que pueden mejorar sustancialmente la precisión de las llamadas variantes realizadas por algoritmos de llamadas variantes. Como beneficio adicional, estas referencias pueden ser una fuente de probabilidades genotípicas previas para el análisis basado en bayesianas. Sin embargo, en ausencia de una referencia de tan alta calidad, las lecturas obtenidas experimentalmente se pueden ensamblar primero para crear una secuencia de referencia para la alineación. [1]
Preprocesamiento y filtrado de resultados
Existen varios métodos para filtrar datos en experimentos de llamada de variantes, con el fin de eliminar las fuentes de error / sesgo. Esto puede implicar la eliminación de lecturas sospechosas antes de realizar la alineación y / o el filtrado de la lista de variantes devueltas por el algoritmo de llamada de variantes.
Dependiendo de la plataforma de secuenciación utilizada, pueden existir varios sesgos dentro del conjunto de lecturas secuenciadas. Por ejemplo, puede producirse un sesgo de hebra, donde hay una distribución muy desigual de las direcciones hacia adelante y hacia atrás en las lecturas alineadas en algún vecindario. Además, puede producirse una duplicación inusualmente alta de algunas lecturas (por ejemplo, debido a un sesgo en la PCR ). Tales sesgos pueden dar lugar a llamadas variantes dudosas, por ejemplo, si un fragmento que contiene un error de PCR en algún locus se amplifica en exceso debido a un sesgo de PCR, ese locus tendrá un recuento alto de alelos falsos y puede llamarse SNV, y por lo que las canalizaciones de análisis filtran con frecuencia las llamadas basadas en estos sesgos. [1]
Métodos para detectar variantes somáticas.
Además de los métodos que alinean las lecturas de muestras individuales con un genoma de referencia para detectar variantes genéticas de la línea germinal , las lecturas de múltiples muestras de tejido dentro de un solo individuo pueden alinearse y compararse para detectar variantes somáticas. Estas variantes corresponden a mutaciones que han ocurrido de novo dentro de grupos de células somáticas dentro de un individuo (es decir, no están presentes dentro de las células de la línea germinal del individuo). Esta forma de análisis se ha aplicado con frecuencia al estudio del cáncer , donde muchos estudios se diseñan en torno a la investigación del perfil de mutaciones somáticas dentro de los tejidos cancerosos. Tales investigaciones han dado como resultado herramientas de diagnóstico que han tenido aplicación clínica y se utilizan para mejorar la comprensión científica de la enfermedad, por ejemplo, mediante el descubrimiento de nuevos genes relacionados con el cáncer, la identificación de redes reguladoras de genes y vías metabólicas involucradas , y modelos informativos. de cómo crecen y evolucionan los tumores. [11]
Desarrollos recientes
Hasta hace poco, las herramientas de software para llevar a cabo esta forma de análisis estaban muy poco desarrolladas y se basaban en los mismos algoritmos utilizados para detectar variaciones de la línea germinal. Dichos procedimientos no están optimizados para esta tarea, porque no modelan adecuadamente la correlación estadística entre los genotipos presentes en múltiples muestras de tejido del mismo individuo. [3]
Investigaciones más recientes han dado como resultado el desarrollo de herramientas de software especialmente optimizadas para la detección de mutaciones somáticas de múltiples muestras de tejido. Se han desarrollado técnicas probabilísticas que agrupan los recuentos de alelos de todas las muestras de tejido en cada locus y, utilizando modelos estadísticos para las probabilidades de genotipos conjuntos para todos los tejidos, y la distribución de los recuentos de alelos dado el genotipo, se pueden calcular probabilidades relativamente sólidas. de mutaciones somáticas en cada locus utilizando todos los datos disponibles. [3] [12] Además, recientemente se han realizado algunas investigaciones en técnicas basadas en el aprendizaje automático para realizar este análisis. [13]
Lista de software disponible
- Freebayes
- SOAPsnp
- realSFS
- SAMtools
- GATK
- Beagle
- IMPUTE2
- MaCH
- SNVmix
- VarScan
- DeepVariant
- Francotirador somático
- JointSNVMix
- Big Data Genomics: aguacate
- NGSEP
- VarDict
- Reveel
- Ornitorrinco
- Piscis
Referencias
- ↑ a b c d e Nielsen, Rasmus y Paul, Joshua S y Albrechtsen, Anders y Song, Yun S (2011). "Genotipo y SNP llamando a partir de datos de secuenciación de próxima generación" . Nature Reviews Genética . 12 (6): 443–451. doi : 10.1038 / nrg2986 . PMC 3593722 . PMID 21587300 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Bansal, Vikas (2010). "Un método estadístico para la detección de variantes de la resecuenciación de próxima generación de grupos de ADN" . Bioinformática . 26 (12): i318 – i324. doi : 10.1093 / bioinformatics / btq214 . PMC 2881398 . PMID 20529923 .
- ^ a b c Roth, Andrew y Ding, Jiarui y Morin, Ryan y Crisan, Anamaria y Ha, Gavin y Giuliany, Ryan y Bashashati, Ali y Hirst, Martin y Turashvili, Gulisa y Oloumi, Arusha; et al. (2012). "JointSNVMix: un modelo probabilístico para la detección precisa de [mutaciones somáticas en datos de secuenciación de próxima generación emparejados normales / tumorales" . Bioinformática . 28 (7): 907–913. doi : 10.1093 / bioinformática / bts053 . PMC 3315723 . PMID 22285562 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b Martin, Eden R y Kinnamon, DD y Schmidt, Michael A y Powell, EH y Zuchner, S y Morris, RW (2010). "SeqEM: un enfoque de llamada de genotipo adaptativo para estudios de secuenciación de próxima generación" . Bioinformática . 26 (22): 2803-2810. doi : 10.1093 / bioinformatics / btq526 . PMC 2971572 . PMID 20861027 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Tú, Na y Murillo, Gabriel y Su, Xiaoquan y Zeng, Xiaowei y Xu, Jian y Ning, Kang y Zhang, Shoudong y Zhu, Jiankang y Cui, Xinping (2012). "Llamada SNP utilizando la selección del modelo de genotipo en datos de secuenciación de alto rendimiento" . Bioinformática . 28 (5): 643–650. doi : 10.1093 / bioinformatics / bts001 . PMC 3338331 . PMID 22253293 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b Li, Ruiqiang y Li, Yingrui y Fang, Xiaodong y Yang, Huanming y Wang, Jian y Kristiansen, Karsten y Wang, Jun (2009). "Detección de SNP para resecuenciación masiva del genoma completo en paralelo" . Investigación del genoma . 19 (6): 1124-1132. doi : 10.1101 / gr.088013.108 . PMC 2694485 . PMID 19420381 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Li, Heng y Ruan, Jue y Durbin, Richard (2008). "Mapeo de lecturas de secuenciación de ADN cortas y variantes de llamada utilizando puntuaciones de calidad de mapeo" . Investigación del genoma . 18 (11): 1851–1858. doi : 10.1101 / gr.078212.108 . PMC 2577856 . PMID 18714091 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Abecasis, GR y Altshuler, David y Auton, A y Brooks, LD y Durbin, RM y Gibbs, Richard A y Hurles, Matt E y McVean, Gil A y Bentley, DR y Chakravarti, A; et al. (2010). "Un mapa de la variación del genoma humano de la secuenciación a escala de población" . Naturaleza . 467 (7319): 1061–1073. Código Bib : 2010Natur.467.1061T . doi : 10.1038 / nature09534 . PMC 3042601 . PMID 20981092 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Koboldt, Daniel C y Zhang, Qunyuan y Larson, David E y Shen, Dong y McLellan, Michael D y Lin, Ling y Miller, Christopher A y Mardis, Elaine R y Ding, Li y Wilson, Richard K (2012). "VarScan 2: mutación somática y descubrimiento de alteración del número de copias en cáncer por secuenciación del exoma" . Investigación del genoma . 22 (3): 568–576. doi : 10.1101 / gr.129684.111 . PMC 3290792 . PMID 22300766 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Gibbs, Richard A y Belmont, John W y Hardenbol, Paul y Willis, Thomas D y Yu, Fuli y Yang, Huanming y Ch'ang, Lan-Yang y Huang, Wei y Liu, Bin y Shen, Yan; et al. (2003). "El proyecto internacional HapMap" (PDF) . Naturaleza . 426 (6968): 789–796. Código Bibliográfico : 2003Natur.426..789G . doi : 10.1038 / nature02168 . hdl : 2027,42 / 62838 . PMID 14685227 . S2CID 4387110 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Shyr, Derek; Liu, Qi; et al. (2013). "Secuenciación de próxima generación en la investigación del cáncer y la aplicación clínica" . Procedimientos biológicos en línea . 15 (4): 4. doi : 10.1186 / 1480-9222-15-4 . PMC 3599179 . PMID 23406336 .
- ^ Larson, David E y Harris, Christopher C y Chen, Ken y Koboldt, Daniel C y Abbott, Travis E y Dooling, David J y Ley, Timothy J y Mardis, Elaine R y Wilson, Richard K y Ding, Li (2012) . "SomaticSniper: identificación de mutaciones puntuales somáticas en datos de secuenciación del genoma completo" . Bioinformática . 28 (3): 311–317. doi : 10.1093 / bioinformatics / btr665 . PMC 3268238 . PMID 22155872 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Ding, Jiarui y Bashashati, Ali y Roth, Andrew y Oloumi, Arusha y Tse, Kane y Zeng, Thomas y Haffari, Gholamreza y Hirst, Martin y Marra, Marco A y Condon, Anne; et al. (2012). "Clasificadores basados en características para la detección de mutaciones somáticas en tumores: datos de secuenciación emparejados normales" . Bioinformática . 28 (2): 167-175. doi : 10.1093 / bioinformatics / btr629 . PMC 3259434 . PMID 22084253 .CS1 maint: varios nombres: lista de autores ( enlace )