Un SNP de etiqueta es un polimorfismo de nucleótido único (SNP) representativo en una región del genoma con un alto desequilibrio de ligamiento que representa un grupo de SNP llamado haplotipo . Es posible identificar la variación genética y la asociación a fenotipos sin genotipar cada SNP en una región cromosómica. Esto reduce el gasto y el tiempo de mapear las áreas del genoma asociadas con la enfermedad, ya que elimina la necesidad de estudiar cada SNP individual. Los SNP de etiqueta son útiles en estudios de asociación de SNP de genoma completo en los que se genotipifican cientos de miles de SNP de todo el genoma.
Introducción
Desequilibrio de ligamiento
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/c/c8/Linkage_and_Linkage_Disequilibrium.png/400px-Linkage_and_Linkage_Disequilibrium.png)
Se dice que dos loci están en equilibrio de ligamiento (LE) si su herencia es un evento independiente. Si los alelos en esos loci se heredan de forma no aleatoria, entonces decimos que están en desequilibrio de ligamiento (LD) . La LD es causada más comúnmente por el enlace físico de los genes. Cuando se heredan dos genes en el mismo cromosoma, dependiendo de su distancia y la probabilidad de recombinación entre los loci, pueden estar en LD alta. Sin embargo, la LD también se puede observar debido a interacciones funcionales en las que incluso genes de diferentes cromosomas pueden conferir conjuntamente un fenotipo seleccionado evolutivamente o pueden afectar la viabilidad de la descendencia potencial.
En las familias, la LD es más alta debido a la menor cantidad de eventos de recombinación (la menor cantidad de eventos de meiosis). Esto es especialmente cierto entre líneas endogámicas. En las poblaciones, la LD existe debido a la selección, la cercanía física de los genes que causa bajas tasas de recombinación o debido a cruces o migraciones recientes. A nivel poblacional, los procesos que influyen en el desequilibrio de ligamiento incluyen ligamiento genético , selección natural epistática , tasa de recombinación , mutación , deriva genética , apareamiento aleatorio , autostop genético y flujo de genes . [2]
Cuando un grupo de SNP se hereda en conjunto debido a un LD alto, tiende a haber información redundante. La selección de una etiqueta SNP como representante de estos grupos reduce la cantidad de redundancia al analizar partes del genoma asociadas con rasgos / enfermedades. [3] Las regiones del genoma en LD alta que albergan un conjunto específico de SNP que se heredan juntos también se conocen como haplotipos . Por lo tanto, los SNP de etiqueta son representativos de todos los SNP dentro de un haplotipo.
Haplotipos
La selección de los SNP etiquetados depende de los haplotipos presentes en el genoma. La mayoría de las tecnologías de secuenciación proporcionan la información genotípica y no los haplotipos, es decir, proporcionan información sobre las bases específicas que están presentes pero no proporcionan información fásica (en qué cromosoma específico aparece cada una de las bases). [4] La determinación de haplotipos se puede realizar mediante métodos moleculares ( PCR de alelos específicos , híbridos de células somáticas ). Estos métodos distinguen qué alelo está presente en qué cromosoma separando los cromosomas antes de la genotipificación. Pueden consumir mucho tiempo y ser costosos, por lo que los métodos de inferencia estadística se han desarrollado como una opción menos costosa y automatizada. Estos paquetes de software de inferencia estadística utilizan parsimonia, máxima verosimilitud y algoritmos bayesianos para determinar los haplotipos. La desventaja de la inferencia estadística es que una proporción de los haplotipos inferidos podría estar equivocada. [5]
Diferencias de población
Cuando se utilizan haplotipos para estudios de asociación de todo el genoma, es importante tener en cuenta la población que se está estudiando. A menudo, diferentes poblaciones tendrán diferentes patrones de LD. Un ejemplo de patrones de diferenciación son las poblaciones de ascendencia africana frente a las poblaciones de descendencia europea y asiática. Dado que los humanos se originaron en África y se extendieron a Europa y luego a los continentes asiático y americano, las poblaciones africanas son las más diversas genéticamente y tienen regiones más pequeñas de LD, mientras que las poblaciones de descendencia europea y asiática tienen regiones más grandes de LD debido al efecto fundador . Cuando los patrones de LD difieren en las poblaciones, los SNP pueden disociarse entre sí debido a los cambios en los bloques de haplotipos . Esto significa que los SNP de etiquetas, como representantes de los bloques de haplotipos, son únicos en las poblaciones y las diferencias de población deben tenerse en cuenta al realizar estudios de asociación. [6]
Solicitud
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/2/23/LD_plot_of_SNPs_with_top-ranked_BFs_in_CHB_of_1000_Genome_Phase_I..png/400px-LD_plot_of_SNPs_with_top-ranked_BFs_in_CHB_of_1000_Genome_Phase_I..png)
GWAS
Casi todos los rasgos tienen influencia tanto genética como ambiental. La heredabilidad es la proporción de variación fenotípica que se hereda de nuestros antepasados. Los estudios de asociación se utilizan para determinar la influencia genética en la presentación fenotípica . Aunque se utilizan principalmente para mapear enfermedades en áreas genómicas, pueden usarse para mapear la heredabilidad de cualquier fenotipo como altura, color de ojos, etc.
Los estudios de asociación de todo el genoma (GWAS) utilizan polimorfismos de un solo nucleótido (SNP) para identificar asociaciones genéticas con afecciones clínicas y rasgos fenotípicos. [8] No tienen hipótesis y utilizan un enfoque de genoma completo para investigar rasgos comparando un gran grupo de individuos que expresan un fenotipo con un gran grupo de personas que no lo hacen. El objetivo final de GWAS es determinar los factores de riesgo genéticos que se pueden utilizar para hacer predicciones sobre quién está en riesgo de contraer una enfermedad, cuáles son los fundamentos biológicos de la susceptibilidad a la enfermedad y crear nuevas estrategias de prevención y tratamiento. [1] El Instituto Nacional de Investigación del Genoma Humano y el Instituto Europeo de Bioinformática publica el Catálogo GWAS , un catálogo de estudios publicados de asociación de todo el genoma que destaca asociaciones estadísticamente significativas entre cientos de SNP con una amplia gama de fenotipos. [9]
Debido al gran número de posibles variantes de SNP (más de 149 millones a junio de 2015 [10] [11] ), sigue siendo muy caro secuenciar todos los SNP. Es por eso que GWAS usa matrices personalizables (chips SNP) para genotipar solo un subconjunto de las variantes identificadas como fragmentos de etiquetas. La mayoría de los GWAS utilizan productos de las dos plataformas de genotipado principales. La plataforma Affymetrix imprime sondas de ADN en un chip de vidrio o silicona que se hibridan con alelos específicos en el ADN de la muestra. La plataforma Illumina utiliza tecnología basada en perlas, con secuencias de ADN más largas y produce una mejor especificidad. [1] Ambas plataformas pueden genotipar más de un millón de SNP de etiquetas utilizando oligos de ADN prefabricados o personalizados .
Los estudios de todo el genoma se basan en la hipótesis de la variante común de enfermedad común (CD / CV) que establece que los trastornos comunes están influenciados por una variación genética común. El tamaño del efecto ( penetrancia ) de las variantes comunes debe ser menor en relación con los que se encuentran en los trastornos raros. Eso significa que el SNP común puede explicar solo una pequeña parte de la varianza debido a factores genéticos y que las enfermedades comunes están influenciadas por múltiples alelos comunes de tamaño de efecto pequeño. Otra hipótesis es que las enfermedades comunes son causadas por variantes raras que están vinculadas sintéticamente a variantes comunes. En ese caso, la señal producida por GWAS es una asociación indirecta (sintética) entre una o más variantes causales raras en el desequilibrio de ligamiento. Es importante reconocer que este fenómeno es posible cuando se selecciona un grupo para etiquetas SNP. Cuando se encuentra que una enfermedad está asociada con un haplotipo, algunos SNP en ese haplotipo tendrán una asociación sintética con la enfermedad. Para identificar los SNP causales, necesitamos una mayor resolución en la selección de bloques de haplotipos. Dado que las tecnologías de secuenciación del genoma completo están cambiando rápidamente y son cada vez menos costosas, es probable que sustituyan a las tecnologías de genotipado actuales proporcionando la resolución necesaria para identificar las variantes causales.
HapMap
Debido a que la secuenciación del genoma completo de los individuos sigue siendo prohibitiva, el proyecto internacional HapMap se construyó con el objetivo de mapear el genoma humano en agrupaciones de haplotipos (bloques de haplotipos) que pueden describir patrones comunes de variación genética humana. Al mapear todo el genoma a los haplotipos, se pueden identificar los SNP de etiquetas para representar los bloques de haplotipos examinados mediante estudios genéticos. Un factor importante a considerar al planificar un estudio genético es la frecuencia y el riesgo en que incurren los alelos específicos. Estos factores pueden variar en diferentes poblaciones, por lo que el proyecto HapMap utilizó una variedad de técnicas de secuenciación para descubrir y catalogar SNP de diferentes conjuntos de poblaciones. Inicialmente, el proyecto secuenciaba individuos de la población Yoruba de origen africano (YRI), residentes de Utah con ascendencia europea occidental (CEU), individuos no emparentados de Tokio, Japón (JPT) e individuos chinos Han no emparentados de Beijing, China (CHB). Recientemente, sus conjuntos de datos se han ampliado para incluir otras poblaciones (11 grupos) [1]
Selección y evaluación
Pasos para la selección de etiquetas SNP
La selección de SNP de etiquetas informativas máximas es un problema NP completo . Sin embargo, se pueden diseñar algoritmos para proporcionar una solución aproximada dentro de un margen de error. [12] Los criterios necesarios para definir cada algoritmo de selección de SNP de etiqueta son los siguientes:
- Definir el área de búsqueda : el algoritmo intentará ubicar los SNP de etiquetas en la vecindad N (t) de un SNP t objetivo
- Definir una métrica para evaluar la calidad del etiquetado : la métrica debe medir qué tan bien se puede predecir un SNP t objetivo utilizando un conjunto de sus vecinos N (t), es decir, qué tan bien un SNP de etiqueta como representante de los SNP en un vecindario N (t) puede predecir un SNP t objetivo. Puede definirse como una probabilidad de que el SNP t objetivo tenga valores diferentes para cualquier par de haplotipos iyj donde el valor de los SNP s también es diferente para los mismos haplotipos. El carácter informativo de la métrica se puede representar en términos de una teoría de grafos, donde cada SNP s se representa como un gráfico Gs cuyos nodos son haplotipos. Gs tiene un borde entre los nodos (i, j) si y solo si los valores de s son diferentes para los haplotipos Hi, Hj. [12]
- Derivar el algoritmo para encontrar SNP representativos : el objetivo del algoritmo es encontrar el subconjunto mínimo de SNP de etiqueta seleccionados con la máxima informatividad entre cada SNP de etiqueta con todos los demás SNP de destino
- Validar el algoritmo
Selección de características
Los métodos para seleccionar características se dividen en dos categorías: métodos de filtro y métodos de envoltura. Los algoritmos de filtrado son algoritmos generales de preprocesamiento que no presuponen el uso de un método de clasificación específico. Los algoritmos de envoltura, por el contrario, "envuelven" la selección de características alrededor de un clasificador específico y seleccionan un subconjunto de características en función de la precisión del clasificador mediante la validación cruzada. [13]
El método de selección de características adecuado para seleccionar SNP de etiquetas debe tener las siguientes características:
- escale bien para una gran cantidad de SNP;
- no requiere un etiquetado de clase explícito y no debe suponer el uso de un clasificador específico porque la clasificación no es el objetivo de etiquetar la selección de SNP;
- permitir al usuario seleccionar diferentes números de etiquetas SNP para diferentes cantidades de pérdida de información tolerada;
- tienen un rendimiento comparable con otros métodos que satisfacen las tres primeras condiciones.
Algoritmos de selección
Se han propuesto varios algoritmos para seleccionar SNP de etiquetas. El primer enfoque se basó en la medida de bondad de los conjuntos de SNP y buscó subconjuntos de SNP que son pequeños pero alcanzan un valor alto de la medida definida. Examinar cada subconjunto de SNP para encontrar los buenos es computacionalmente factible solo para pequeños conjuntos de datos.
Otro enfoque utiliza el análisis de componentes principales (PCA) para encontrar subconjuntos de SNP que capturan la mayoría de la varianza de los datos. Se emplea un método de ventanas deslizantes para aplicar repetidamente PCA a regiones cromosómicas cortas. Esto reduce los datos producidos y tampoco requiere un tiempo de búsqueda exponencial. Sin embargo, no es factible aplicar el método PCA a grandes conjuntos de datos cromosómicos ya que es computacionalmente complejo. [13]
El enfoque más comúnmente utilizado, el método basado en bloques, explota el principio de desequilibrio de ligamiento observado dentro de los bloques de haplotipos. [12] Se han diseñado varios algoritmos para dividir las regiones cromosómicas en bloques de haplotipos que se basan en la diversidad de haplotipos , LD , prueba de cuatro gametos y complejidad de la información, y los SNP de etiquetas se seleccionan de todos los SNP que pertenecen a ese bloque. La presunción principal en este algoritmo es que los SNP son bialélicos . [14] El principal inconveniente es que la definición de bloques no siempre es sencilla. Aunque existe una lista de criterios para formar los bloques de haplotipos, no hay consenso sobre los mismos. Además, la selección basada en correlaciones locales de etiquetas SNP ignora las correlaciones entre bloques. [12]
A diferencia del enfoque basado en bloques, un enfoque sin bloques no se basa en la estructura de bloques. Se sabe que la frecuencia de SNP y las tasas de recombinación varían a lo largo del genoma y algunos estudios han informado distancias LD mucho más largas que los tamaños de bloque máximos informados. No se desea establecer un límite estricto para el vecindario y el enfoque sin bloques busca etiquetas SNP a nivel mundial. Existen varios algoritmos para realizar esto. En un algoritmo, los SNP sin etiquetado se representan como funciones booleanas de los SNP de etiqueta y se utilizan técnicas de teoría de conjuntos para reducir el espacio de búsqueda. Otro algoritmo busca subconjuntos de marcadores que pueden provenir de bloques no consecutivos. Debido a la vecindad del marcador, el espacio de búsqueda se reduce. [13]
Optimizaciones
Con el número de individuos genotipados y el número de SNP en las bases de datos en aumento, la selección de SNP de etiquetas lleva demasiado tiempo para calcular. Para mejorar la eficiencia del método de selección de SNP de etiqueta, el algoritmo primero ignora que los SNP son bialélicos y luego comprime la longitud (número SNP) de la matriz de haplotipos agrupando los sitios SNP con la misma información. Los sitios SNP que dividen los haplotipos en el mismo grupo se denominan sitios redundantes. Los sitios SNP que contienen información distinta dentro de un bloque se denominan sitios no redundantes (NRS). Para comprimir aún más la matriz de haplotipos, el algoritmo necesita encontrar los SNP de la etiqueta de modo que se puedan distinguir todos los haplotipos de la matriz. Al utilizar la idea de la partición conjunta, se proporciona un algoritmo de selección de SNP de etiquetas eficiente. [14]
Validación de la precisión del algoritmo.
Dependiendo de cómo se seleccionen los SNP de la etiqueta, se han utilizado diferentes métodos de predicción durante el proceso de validación cruzada. Se empleó el método de aprendizaje automático para predecir el haplotipo omitido. Otro enfoque predijo los alelos de un SNP n no marcado a partir de los SNP etiquetados que tenían el coeficiente de correlación más alto con n. Si se encuentra una sola etiqueta SNP t altamente correlacionada, los alelos se asignan para que sus frecuencias coincidan con las frecuencias alélicas de t. Cuando múltiples SNP de marcado tienen el mismo (alto) coeficiente de correlación con n, el alelo común de n tiene ventaja. Es fácil ver que en este caso el método de predicción concuerda bien con el método de selección, que usa PCA en la matriz de coeficientes de correlación entre SNP. [13]
Hay otras formas de evaluar la precisión de un método de selección de SNP de etiqueta. La precisión puede evaluarse mediante la medida de calidad R2, que es la medida de asociación entre el número real de copias de haplotipos definidas sobre el conjunto completo de SNP y el número predicho de copias de haplotipos donde la predicción se basa en el subconjunto de SNP de marcado. Esta medida asume datos diploides e inferencia explícita de haplotipos a partir de genotipos. [13]
Otro método de evaluación de Clayton se basa en una medida de la diversidad de haplotipos. La diversidad se define como el número total de diferencias en todas las comparaciones por pares entre haplotipos. La diferencia entre un par de haplotipos es la suma de las diferencias entre todos los SNP. La medida de diversidad de Clayton se puede utilizar para definir qué tan bien un conjunto de etiquetas SNP diferencian diferentes haplotipos. Esta medida es adecuada solo para bloques de haplotipos con diversidad de haplotipos limitada y no está claro cómo usarla para grandes conjuntos de datos que constan de múltiples bloques de haplotipos. [13]
Algunos trabajos recientes evalúan los algoritmos de selección de los SNP de etiquetas basándose en qué tan bien se pueden usar los SNP de etiquetado para predecir los SNP sin etiquetado. La precisión de la predicción se determina mediante validación cruzada, como dejar uno fuera o esperar. En la validación cruzada de dejar uno fuera, para cada secuencia en el conjunto de datos, el algoritmo se ejecuta en el resto del conjunto de datos para seleccionar un conjunto mínimo de SNP de etiquetado. [13]
Herramientas
Tagger
Tagger es una herramienta web disponible para evaluar y seleccionar etiquetas SNP a partir de datos genotípicos como el Proyecto Internacional HapMap. Utiliza métodos por pares y enfoques de haplotipos multimarcadores. Los usuarios pueden cargar datos de genotipo HapMap o formato de pedigrí y se calcularán los patrones de desequilibrio de ligamiento. Las opciones de etiquetado permiten al usuario especificar puntos de referencia cromosómicos, que indican regiones de interés en el genoma para seleccionar SNP de etiquetas. A continuación, el programa genera una lista de etiquetas SNP y sus valores de prueba estadísticos, así como un informe de cobertura. Está desarrollado por Paul de Bakker en los laboratorios de David Altshuler y Mark Daly en el Centro de Investigación Genética Humana del Hospital General de Massachusetts y la Escuela de Medicina de Harvard , en el Instituto Broad . [15]
CLUSTAG y WCLUSTAG
En el software gratuito CLUSTAG y WCLUSTAG, contienen algoritmos de clúster y conjunto de cobertura para obtener un conjunto de SNP de etiquetas que pueden representar todos los SNP conocidos en una región cromosómica. Los programas se implementan con Java y pueden ejecutarse tanto en la plataforma Windows como en el entorno Unix. Están desarrollados por SIO-IONG AO et al. en la Universidad de Hong Kong. [16] [17]
Ver también
- Proyecto Internacional HapMap
- Estudio de asociación de genoma completo
- Polimorfismo de nucleótido simple
- Desequilibrio de ligamiento
Referencias
- ↑ a b c d Bush, William S .; Moore, Jason H .; Lewitter, Fran; Kann, Maricel (27 de diciembre de 2012). "Capítulo 11: estudios de asociación de todo el genoma" . PLOS Biología Computacional . 8 (12): e1002822. doi : 10.1371 / journal.pcbi.1002822 . PMC 3531285 . PMID 23300413 .
- ^ van der Werf, Julius. "Conceptos básicos de vinculación y mapeo de genes" (PDF) . Consultado el 30 de abril de 2014 .
- ^ Lewontin, RC (1988). "Sobre medidas de desequilibrio gamético" . Genética . 120 (3): 849–852. PMC 1203562 . PMID 3224810 .
- ^ Halperin, E .; Kimmel, G .; Shamir, R. (16 de junio de 2005). "Marque la selección de SNP en los datos del genotipo para maximizar la precisión de la predicción de SNP" . Bioinformática . 21 (Supl. 1): i195 – i203. doi : 10.1093 / bioinformatics / bti1021 . PMID 15961458 .
- ^ Crawford, Dana C .; Nickerson, Deborah A. (2005). "Definición e importancia clínica de los haplotipos". Revisión anual de medicina . 56 (1): 303–320. doi : 10.1146 / annurev.med.56.082103.104540 . PMID 15660514 .
- ^ Teo, YY; Sim, X (abril de 2010). "Patrones de desequilibrio de ligamiento en diferentes poblaciones: implicaciones y oportunidades para los loci asociados a lípidos identificados a partir de estudios de asociación de todo el genoma". Opinión actual en lipidología . 21 (2): 104-15. doi : 10.1097 / MOL.0b013e3283369e5b . PMID 20125009 .
- ^ Shou, Weihua; Wang, Dazhi; Zhang, Kaiyue; Wang, Beilan; Wang, Zhimin; Shi, Jinxiu; Huang, Wei; Huang, Qingyang (26 de septiembre de 2012). "Caracterización de todo el gen de loci de rasgos cuantitativos comunes para la expresión de ARNm de ABCB1 en tejidos hepáticos normales en la población china" . PLOS ONE . 7 (9): e46295. doi : 10.1371 / journal.pone.0046295 . PMC 3458811 . PMID 23050008 .
- ^ Welter, D .; MacArthur, J .; Morales, J .; Burdett, T .; Hall, P .; Junkins, H .; Klemm, A .; Flicek, P .; Manolio, T .; Hindorff, L .; Parkinson, H. (6 de diciembre de 2013). "El Catálogo NHGRI GWAS, un recurso curado de asociaciones SNP-rasgo" . Investigación de ácidos nucleicos . 42 (D1): D1001 – D1006. doi : 10.1093 / nar / gkt1229 . PMC 3965119 . PMID 24316577 .
- ^ Witte, John S .; Hoffmann, Thomas J. (2011). "Modelado poligénico de estudios de asociación de todo el genoma: una aplicación al cáncer de próstata y mama" . OMICS: una revista de biología integrativa . 15 (6): 393–398. doi : 10.1089 / omi.2010.0090 . PMC 3125548 . PMID 21348634 .
- ^ Estadísticas de datos dbSNP . Centro Nacional de Información Biotecnológica (EE. UU.). 2005.
- ^ "Resumen de dbSNP" .
- ^ a b c d Tarvo, Alex. "Tutorial sobre etiquetado de haplotipos" (PDF) . Consultado el 1 de mayo de 2014 .
- ^ a b c d e f g Phuong, TM; Lin, Z; Altman, RB (abril de 2006). "Elección de SNP mediante la selección de funciones". Revista de Bioinformática y Biología Computacional . 4 (2): 241–57. CiteSeerX 10.1.1.128.1909 . doi : 10.1109 / csb.2005.22 . PMID 16819782 .
- ^ a b Chen, WP; Hung, CL; Tsai, SJ; Lin, YL (2014). "Algoritmos de selección de etiquetas SNPs novedosos y eficientes". Materiales e ingeniería biomédicos . 24 (1): 1383–9. doi : 10.3233 / BME-130942 . PMID 24212035 .
- ^ "Tagger" . Consultado el 1 de mayo de 2014 .
- ^ "CLUSTAG" . Consultado el 16 de mayo de 2014 .
- ^ "WCLUSTAG" . Consultado el 16 de mayo de 2014 .