El Proyecto 1000 Genomas (abreviado como 1KGP ), lanzado en enero de 2008, fue un esfuerzo de investigación internacional para establecer, con mucho, el catálogo más detallado de la variación genética humana . Los científicos planearon secuenciar los genomas de al menos mil participantes anónimos de varios grupos étnicos diferentes dentro de los siguientes tres años, utilizando tecnologías recientemente desarrolladas que eran más rápidas y menos costosas. En 2010, el proyecto finalizó su fase piloto, que se describió en detalle en una publicación de la revista Nature . [1] En 2012, se anunció la secuenciación de 1092 genomas en un Naturepublicación. [2] En 2015, dos artículos en Nature informaron los resultados y la finalización del proyecto y oportunidades para futuras investigaciones. [3] [4]
Se identificaron muchas variaciones raras, restringidas a grupos estrechamente relacionados, y se analizaron ocho clases de variación estructural. [5]
El proyecto une equipos de investigación multidisciplinarios de institutos de todo el mundo, incluidos China , Italia , Japón , Kenia , Nigeria , Perú , Reino Unido y Estados Unidos . Cada uno contribuirá al enorme conjunto de datos de secuencias y a un mapa refinado del genoma humano , que será de libre acceso a través de bases de datos públicas para la comunidad científica y el público en general. [2]
Al proporcionar una descripción general de toda la variación genética humana, el consorcio generará una herramienta valiosa para todos los campos de la ciencia biológica, especialmente en las disciplinas de genética , medicina , farmacología , bioquímica y bioinformática . [6]
Fondo
Desde la finalización del Proyecto del Genoma Humano, los avances en la genética de poblaciones humanas y la genómica comparada han hecho posible obtener una mayor comprensión de la naturaleza de la diversidad genética. [7] Sin embargo, estamos empezando a entender cómo los procesos como el muestreo aleatorio de gametos , variaciones estructurales (inserciones / supresiones ( indeles ), copia variaciones en el número (CNV), retroelements ), polimorfismos de un solo nucleótido (SNP), y naturales La selección ha dado forma al nivel y patrón de variación dentro de las especies y también entre especies. [8] [9] [10] [11]
Variación genética humana
El muestreo aleatorio de gametos durante la reproducción sexual conduce a una deriva genética (una fluctuación aleatoria en la frecuencia poblacional de un rasgo) en las generaciones posteriores y daría como resultado la pérdida de toda variación en ausencia de influencia externa. Se postula que la tasa de deriva genética es inversamente proporcional al tamaño de la población y que puede acelerarse en situaciones específicas como cuellos de botella , donde el tamaño de la población se reduce durante un cierto período de tiempo, y por el efecto fundador (individuos en una población que se remonta a un pequeño número de individuos fundadores). [8]
Anzai y col. demostraron que los indeles representan el 90,4% de todas las variaciones observadas en la secuencia del locus principal de histocompatibilidad (MHC) entre humanos y chimpancés . Después de tomar en consideración múltiples indeles, el alto grado de similitud genómica entre las dos especies ( identidad de secuencia de nucleótidos del 98,6% ) se reduce a solo el 86,7%. Por ejemplo, una gran deleción de 95 kilobases (kb) entre los loci de los genes humanos MICA y MICB , da como resultado un solo gen híbrido MIC de chimpancé , que vincula esta región con un manejo específico de la especie de varias infecciones retrovirales y la susceptibilidad resultante a diversas enfermedades autoinmunes . Los autores concluyen que en lugar de SNP más sutiles, los indeles fueron el mecanismo impulsor de la especiación de primates. [9]
Además de las mutaciones , los SNP y otras variantes estructurales como las variantes de número de copias (CNV) están contribuyendo a la diversidad genética en las poblaciones humanas. Utilizando microarrays , se han identificado en la colección de muestras de HapMap casi 1.500 regiones variables de número de copias, que cubren alrededor del 12% del genoma y contienen cientos de genes, loci de enfermedades, elementos funcionales y duplicaciones segmentarias . Aunque la función específica de las CNV sigue siendo difícil de alcanzar, el hecho de que las CNV abarquen más contenido de nucleótidos por genoma que los SNP enfatiza la importancia de las CNV en la diversidad genética y la evolución. [10]
La investigación de las variaciones genómicas humanas tiene un gran potencial para identificar genes que podrían ser la base de las diferencias en la resistencia a las enfermedades (por ejemplo, la región del MHC ) o el metabolismo de los fármacos . [12]
Seleccion natural
La selección natural en la evolución de un rasgo se puede dividir en tres clases. La selección direccional o positiva se refiere a una situación en la que un determinado alelo tiene una mayor aptitud que otros alelos , lo que aumenta la frecuencia de su población (por ejemplo, la resistencia a los antibióticos de las bacterias). Por el contrario, la selección estabilizadora o negativa (también conocida como selección purificadora) reduce la frecuencia o incluso elimina los alelos de una población debido a las desventajas asociadas con ella con respecto a otros alelos. Finalmente, existen varias formas de selección equilibrada ; los que aumentan la variación genética dentro de una especie al ser sobredominantes ( los individuos heterocigotos son más aptos que los homocigotos , por ejemplo, G6PD , un gen que está involucrado tanto en la anemia hemolítica como en la resistencia a la malaria ) o pueden variar espacialmente dentro de una especie que habita diferentes nichos, favoreciendo así alelos. [13] Algunas diferencias genómicas pueden no afectar la aptitud. La variación neutra, que antes se pensaba que era ADN "basura", no se ve afectada por la selección natural, lo que da como resultado una mayor variación genética en dichos sitios en comparación con los sitios donde la variación influye en la aptitud. [14]
No está del todo claro cómo la selección natural ha moldeado las diferencias de población; sin embargo, recientemente se han identificado regiones candidatas genéticas bajo selección. [11] Los patrones de polimorfismos de ADN pueden usarse para detectar de manera confiable firmas de selección y pueden ayudar a identificar genes que podrían ser la base de la variación en la resistencia a enfermedades o el metabolismo de fármacos. [13] [14] Barreiro y col. encontró evidencia de que la selección negativa ha reducido la diferenciación poblacional al nivel de alteración de aminoácidos (particularmente en genes relacionados con enfermedades), mientras que la selección positiva ha asegurado la adaptación regional de poblaciones humanas al aumentar la diferenciación poblacional en regiones genéticas (principalmente no sinónimas y 5'- variantes de regiones no traducidas ). [11]
Se cree que la mayoría de las enfermedades complejas y mendelianas (excepto las enfermedades de inicio tardío, asumiendo que los individuos mayores ya no contribuyen a la aptitud de su descendencia) tendrán un efecto sobre la supervivencia y / o reproducción, por lo tanto, los factores genéticos subyacentes a esas enfermedades deben ser influenciado por la selección natural. Sin embargo, las enfermedades que hoy tienen un inicio tardío podrían haber sido enfermedades infantiles en el pasado, ya que los genes que retrasan la progresión de la enfermedad podrían haber sido seleccionados. La enfermedad de Gaucher (mutaciones en el gen GBA ), la enfermedad de Crohn (mutación de NOD2 ) y la miocardiopatía hipertrófica familiar (mutaciones en MYH7 , TNNT2 , TPM1 y MYBPC3 ) son todos ejemplos de selección negativa. Estas mutaciones de la enfermedad son principalmente recesivas y se segregan como se esperaba con una frecuencia baja, lo que respalda la selección negativa hipotética. Existe evidencia de que la base genética de la diabetes tipo 1 puede haber sido objeto de una selección positiva. [15] Se han informado pocos casos en los que aparecen mutaciones que causan enfermedades en las frecuencias altas respaldadas por una selección equilibrada. El ejemplo más destacado son las mutaciones del locus G6PD donde, si se produce una deficiencia de la enzima G6PD homocigótica y, en consecuencia , se produce anemia hemolítica , pero en el estado heterocigoto son parcialmente protectores contra la malaria . Otras posibles explicaciones para la segregación de los alelos de la enfermedad en frecuencias moderadas o altas incluyen la deriva genética y las alteraciones recientes hacia la selección positiva debido a cambios ambientales como la dieta o el autostop genético . [12]
Los análisis comparativos de todo el genoma de diferentes poblaciones humanas, así como entre especies (por ejemplo, humanos versus chimpancés) nos ayudan a comprender la relación entre las enfermedades y la selección y proporcionan evidencia de mutaciones en genes restringidos que se asocian desproporcionadamente con fenotipos de enfermedades hereditarias . Los genes implicados en trastornos complejos tienden a estar sometidos a una selección menos negativa que los genes de la enfermedad mendeliana o los genes no patológicos. [12]
Descripción del Proyecto
Metas
Hay dos tipos de variantes genéticas relacionadas con la enfermedad. Las primeras son variantes genéticas raras que tienen un efecto severo predominantemente sobre rasgos simples (por ejemplo, fibrosis quística , enfermedad de Huntington ). Las segundas variantes genéticas, más comunes, tienen un efecto leve y se cree que están implicadas en rasgos complejos (por ejemplo , cognición , diabetes , enfermedades cardíacas ). Entre estos dos tipos de variantes genéticas se encuentra una brecha significativa de conocimiento, que el Proyecto 1000 Genomas está diseñado para abordar. [6]
El objetivo principal de este proyecto es crear un catálogo completo y detallado de variaciones genéticas humanas , que a su vez se puede utilizar para estudios de asociación que relacionan la variación genética con la enfermedad. Al hacerlo, el consorcio tiene como objetivo descubrir> 95% de las variantes (por ejemplo, SNP, CNV, indels) con frecuencias de alelos menores tan bajas como 1% en todo el genoma y 0,1-0,5% en regiones genéticas, así como estimar la población frecuencias, antecedentes de haplotipos y patrones de desequilibrio de ligamiento de alelos variantes. [dieciséis]
Los objetivos secundarios incluirán el apoyo de una mejor selección de SNP y sondas para plataformas de genotipado en estudios futuros y la mejora de la secuencia de referencia humana . Además, la base de datos completa será una herramienta útil para estudiar las regiones bajo selección, la variación en múltiples poblaciones y comprender los procesos subyacentes de mutación y recombinación . [dieciséis]
Esquema
El genoma humano consiste en aproximadamente 3 mil millones de pares de bases de ADN y se estima que llevar a alrededor de 20.000 de proteínas de codificación de genes . Al diseñar el estudio, el consorcio necesitaba abordar varios problemas críticos con respecto a las métricas del proyecto, como los desafíos tecnológicos, los estándares de calidad de los datos y la cobertura de la secuencia. [dieciséis]
En el transcurso de los próximos tres años, [se necesita aclaración ] científicos del Instituto Sanger , BGI Shenzhen y la Red de Secuenciación a Gran Escala del Instituto Nacional de Investigación del Genoma Humano planean secuenciar un mínimo de 1,000 genomas humanos. Debido a la gran cantidad de datos de secuencia que deben generarse y analizarse, es posible que con el tiempo se recluten otros participantes. [6]
Se secuenciarán casi 10 mil millones de bases por día durante un período de la fase de producción de dos años. Esto equivale a más de dos genomas humanos cada 24 horas; una capacidad revolucionaria. Desafiando a los principales expertos en bioinformática y genética estadística, el conjunto de datos de secuencia comprenderá 6 billones de bases de ADN, 60 veces más datos de secuencia que lo que se ha publicado en las bases de datos de ADN durante los últimos 25 años. [6]
Para determinar el diseño final del proyecto completo se diseñaron tres estudios piloto que se llevarán a cabo durante el primer año del proyecto. El primer piloto pretende genotipar 180 personas de 3 grupos geográficos principales con una cobertura baja (2x). Para el segundo estudio piloto, los genomas de dos familias nucleares (ambos padres y un hijo adulto) se secuenciarán con una cobertura profunda (20x por genoma). El tercer estudio piloto implica la secuenciación de las regiones de codificación (exones) de 1.000 genes en 1.000 personas con cobertura profunda (20x). [6] [16]
Se ha estimado que el proyecto probablemente costaría más de $ 500 millones si se usaran tecnologías estándar de secuenciación de ADN. Por lo tanto, se aplicarán varias tecnologías nuevas (por ejemplo , Solexa , 454 , SOLiD ), reduciendo los costos esperados a entre $ 30 millones y $ 50 millones. El mayor apoyo será proporcionado por el Wellcome Trust Sanger Institute en Hinxton, Inglaterra; el Instituto de Genómica de Beijing , Shenzhen (BGI Shenzhen), China; y el NHGRI , parte de los Institutos Nacionales de Salud (NIH). [6]
De acuerdo con los principios de Fort Lauderdale Archivado el 28 de diciembre de 2013 en Wayback Machine , todos los datos de la secuencia del genoma (incluidas las llamadas de variantes) están disponibles gratuitamente a medida que avanza el proyecto y se pueden descargar a través de ftp desde la página web del proyecto 1000 genomas .
Muestras de genoma humano
Sobre la base de los objetivos generales del proyecto, las muestras se elegirán para proporcionar energía en las poblaciones donde se están llevando a cabo estudios de asociación para enfermedades comunes. Además, las muestras no necesitan tener información médica o fenotípica ya que el catálogo propuesto será un recurso básico sobre la variación humana. [dieciséis]
Para los estudios piloto, se secuenciarán muestras de genoma humano de la colección HapMap . Será útil centrarse en muestras que tengan datos adicionales disponibles (como la secuencia ENCODE , genotipos de todo el genoma, secuencia del extremo fosmídico , ensayos de variación estructural y expresión génica ) para poder comparar los resultados con los de otros proyectos. [dieciséis]
Cumpliendo con amplios procedimientos éticos, el Proyecto 1000 Genomas utilizará muestras de donantes voluntarios. Las siguientes poblaciones se incluirán en el estudio: Yoruba en Ibadan (YRI), Nigeria ; Japonés en Tokio (JPT); Chino en Beijing (CHB); Residentes de Utah con ascendencia del norte y oeste de Europa (CEU); Luhya en Webuye , Kenia (LWK); Masai en Kinyawa , Kenia (MKK); Toscani en Italia (TSI); Peruanos en Lima , Perú (PEL); Indios gujarati en Houston (GIH); Chino en el área metropolitana de Denver (CHD); personas de ascendencia mexicana en Los Ángeles (MXL); y personas de ascendencia africana en el suroeste de los Estados Unidos (ASW). [6]
IDENTIFICACIÓN | Lugar | Población | Detalle |
---|---|---|---|
ASW | * | Ascendencia africana en el suroeste de EE. UU. | Detalle |
ACB | * | Caribe africano en Barbados | Detalle |
BEB | Bengalí en Bangladesh | Detalle | |
GBR | Británicos de Inglaterra y Escocia | Detalle | |
CDX | Dai chino en Xishuangbanna , China | Detalle | |
CLM | Colombiano en Medellín , Colombia | Detalle | |
ESN | Esan en Nigeria | Detalle | |
ALETA | Finlandés en Finlandia | Detalle | |
GWD | Gambiano en Western Division - Mandinka | Detalle | |
GIH | * | Indios gujarati en Houston , Texas , Estados Unidos | Detalle |
CHB | Chino Han en Beijing , China | Detalle | |
CHS | Han del sur de China , China | Detalle | |
SII | Poblaciones ibéricas en España | Detalle | |
ITU | * | Telugu indio en el Reino Unido | Detalle |
JPT | Japonés en Tokio , Japón | Detalle | |
KHV | Kinh en Ciudad Ho Chi Minh , Vietnam | Detalle | |
LWK | Luhya en Webuye , Kenia | Detalle | |
MSL | Mende en Sierra Leona | Detalle | |
MXL | * | Ascendencia mexicana en Los Ángeles CA Estados Unidos | Detalle |
PEL | Peruano en Lima , Perú | Detalle | |
PUR | Puertorriqueño en Puerto Rico | Detalle | |
PJL | Punjabi en Lahore , Pakistán | Detalle | |
STU | * | Tamil de Sri Lanka en el Reino Unido | Detalle |
TSI | Toscani en Italia | Detalle | |
YRI | Yoruba en Ibadan , Nigeria | Detalle | |
CEU | * | Residentes de Utah con ascendencia de Europa del Norte y Occidental de la colección CEPH | Detalle |
* Población recolectada en diáspora
Reunión de la comunidad
Los datos generados por el Proyecto 1000 Genomas son ampliamente utilizados por la comunidad genética, por lo que el primer Proyecto 1000 Genomas es uno de los artículos más citados en biología. [18] Para apoyar a esta comunidad de usuarios, el proyecto celebró una reunión de análisis de la comunidad en julio de 2012 que incluyó charlas destacando los descubrimientos clave del proyecto, su impacto en la genética de poblaciones y estudios de enfermedades humanas, y resúmenes de otros estudios de secuenciación a gran escala. [19]
Hallazgos del proyecto
Fase piloto
La fase piloto consistió en tres proyectos:
- Secuenciación del genoma completo de baja cobertura de 179 individuos de 4 poblaciones.
- secuenciación de alta cobertura de 2 tríos (madre-padre-hijo)
- secuenciación dirigida al exón de 697 individuos de 7 poblaciones
Se encontró que, en promedio, cada persona porta alrededor de 250 a 300 variantes de pérdida de función en genes anotados y 50 a 100 variantes previamente implicadas en trastornos hereditarios. Con base en los dos tríos, se estima que la tasa de mutación de la línea germinal de novo es de aproximadamente 10 −8 por base por generación. [1]
Ver también
- Proyecto Genoma Humano
- Proyecto HapMap
- Genómica personal
- Grupos de población en biomedicina
- Proyecto 1000 Plant Genomes
- Lista de bases de datos biológicas
Referencias
- ^ a b Abecasis GR , Altshuler D , Auton A, Brooks LD, Durbin RM, Gibbs RA, et al. (Octubre de 2010). "Un mapa de la variación del genoma humano de la secuenciación a escala de población" . Naturaleza . 467 (7319): 1061–73. Código bibliográfico : 2010Natur.467.1061T . doi : 10.1038 / nature09534 . PMC 3042601 . PMID 20981092 .
- ^ a b Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (Noviembre 2012). "Un mapa integrado de variación genética de 1.092 genomas humanos" . Naturaleza . 491 (7422): 56–65. Código Bib : 2012Natur.491 ... 56T . doi : 10.1038 / nature11632 . PMC 3498066 . PMID 23128226 .
- ^ Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, et al. (Octubre de 2015). "Una referencia mundial para la variación genética humana" . Naturaleza . 526 (7571): 68–74. Código Bib : 2015Natur.526 ... 68T . doi : 10.1038 / nature15393 . PMC 4750478 . PMID 26432245 .
- ^ Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, et al. (Octubre de 2015). "Un mapa integrado de variación estructural en 2.504 genomas humanos" . Naturaleza . 526 (7571): 75–81. Código bibliográfico : 2015Natur.526 ... 75. . doi : 10.1038 / nature15394 . PMC 4617611 . PMID 26432246 .
- ^ "Variedad de vida" . Nature News & Comment . 2015-09-30 . Consultado el 15 de octubre de 2015 .
- ^ a b c d e f g G Spencer, International Consortium Announces the 1000 Genomes Project, EMBARGOED (2008) http://www.nih.gov/news/health/jan2008/nhgri-22.htm
- ^ Nielsen R (octubre de 2010). "Genómica: en busca de variantes humanas raras" . Naturaleza . 467 (7319): 1050–1. Código Bibliográfico : 2010Natur.467.1050N . doi : 10.1038 / 4671050a . PMID 20981085 .
- ^ a b JC Long, Variación genética humana: los mecanismos y resultados de la microevolución, Asociación Antropológica Americana (2004)
- ^ a b Anzai T, Shiina T, Kimura N, Yanagiya K, Kohara S, Shigenari A, et al. (Junio de 2003). "La secuenciación comparativa de las regiones de clase I del MHC de humanos y chimpancés revela inserciones / deleciones como el camino principal hacia la divergencia genómica" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (13): 7708-13. Código bibliográfico : 2003PNAS..100.7708A . doi : 10.1073 / pnas.1230533100 . PMC 164652 . PMID 12799463 .
- ^ a b Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD y col. (Noviembre de 2006). "Variación global en el número de copias en el genoma humano" . Naturaleza . 444 (7118): 444–54. Código Bibliográfico : 2006Natur.444..444R . doi : 10.1038 / nature05329 . PMC 2669898 . PMID 17122850 .
- ^ a b c Barreiro LB, Laval G, Quach H, Patin E, Quintana-Murci L (marzo de 2008). "La selección natural ha impulsado la diferenciación de la población en los humanos modernos". Genética de la naturaleza . 40 (3): 340–5. doi : 10.1038 / ng.78 . PMID 18246066 . S2CID 205357396 .
- ^ a b c Nielsen R, Hellmann I, Hubisz M, Bustamante C, Clark AG (noviembre de 2007). "Selección reciente y en curso en el genoma humano" . Reseñas de la naturaleza. Genética . 8 (11): 857–68. doi : 10.1038 / nrg2187 . PMC 2933187 . PMID 17943193 .
- ^ a b EE Harris et al., La firma molecular de la selección subyacente a las adaptaciones humanas, Anuario de antropología física 49: 89-130 (2006)
- ^ a b Bamshad M, Wooding SP (febrero de 2003). "Firmas de selección natural en el genoma humano". Reseñas de la naturaleza. Genética . 4 (2): 99-111. doi : 10.1038 / nrg999 . PMID 12560807 . S2CID 13722452 .
- ^ Corona E, Dudley JT, Butte AJ (agosto de 2010). Hawks J (ed.). "Se observan disparidades evolutivas extremas en la selección positiva entre siete enfermedades complejas" . PLOS ONE . 5 (8): e12236. Código Bibliográfico : 2010PLoSO ... 512236C . doi : 10.1371 / journal.pone.0012236 . PMC 2923198 . PMID 20808933 .
- ^ a b c d e f Informe de la reunión: un taller para planificar un catálogo profundo de la variación genética humana, (2007) http://www.1000genomes.org/sites/1000genomes.org/files/docs/1000Genomes-MeetingReport.pdf
- ^ Oleksyk TK, Brukhin V, O'Brien SJ (2015). "El proyecto Genoma de Rusia: cerrar la mayor omisión restante en el mapa mundial del genoma" . GigaScience . 4 : 53. doi : 10.1186 / s13742-015-0095-0 . PMC 4644275 . PMID 26568821 .
- ^ C. King (2012) La investigación más reciente de 2011. Science Watch http://archive.sciencewatch.com/newsletter/2012/201203/hottest_research_2012/
- ^ Reunión de análisis comunitario del proyecto 1000 genomas http://1000gconference.sph.umich.edu/
enlaces externos
- 1000 genomas : un catálogo profundo de la variación genética humana - página web oficial
- Proyecto Internacional HapMap - página web oficial
- Información del proyecto del genoma humano