En biología molecular y genética , el contenido de GC (o contenido de guanina-citosina ) es el porcentaje de bases nitrogenadas en una molécula de ADN o ARN que son guanina (G) o citosina (C). [1] Esta medida indica la proporción de bases G y C de un total de cuatro bases implícitas, que también incluyen adenina y timina en el ADN y adenina y uracilo en el ARN.
El contenido de GC puede darse para un determinado fragmento de ADN o ARN o para un genoma completo . Cuando se refiere a un fragmento, puede indicar el contenido de GC de un gen individual o sección de un gen (dominio), un grupo de genes o agrupaciones de genes, una región no codificante o un oligonucleótido sintético como un cebador .
Estructura
Cualitativamente, la guanina (G) y la citosina (C) experimentan un enlace de hidrógeno específico entre sí, mientras que la adenina (A) se enlaza específicamente con la timina (T) en el ADN y con el uracilo (U) en el ARN. Cuantitativamente, cada par de bases GC se mantiene unido por tres enlaces de hidrógeno, mientras que los pares de bases AT y AU se mantienen unidos por dos enlaces de hidrógeno. Para enfatizar esta diferencia, los emparejamientos de bases a menudo se representan como "G≡C" versus "A = T" o "A = U".
El ADN con bajo contenido de GC es menos estable que el ADN con alto contenido de GC; sin embargo, los enlaces de hidrógeno en sí mismos no tienen un impacto particularmente significativo en la estabilidad molecular, que en cambio es causada principalmente por interacciones moleculares de apilamiento de bases. [2] A pesar de la mayor termoestabilidad conferida a un ácido nucleico con alto contenido de GC, se ha observado que al menos algunas especies de bacterias con ADN de alto contenido de GC se someten a autólisis más fácilmente, reduciendo así la longevidad de la célula. per se . [3] Debido a la termoestabilidad de los pares de GC, una vez se presumió que un alto contenido de GC era una adaptación necesaria a las altas temperaturas, pero esta hipótesis fue refutada en 2001. [4] Aun así, se ha demostrado que existe un fuerte correlación entre el crecimiento óptimo de procariotas a temperaturas más altas y el contenido de GC de ARN estructurales como ARN ribosómico , ARN de transferencia y muchos otros ARN no codificantes . [4] [5] Los pares de bases AU son menos estables que los pares de bases GC, lo que hace que las estructuras de ARN con alto contenido de GC sean más resistentes a los efectos de las altas temperaturas.
Más recientemente, se ha demostrado que el factor más importante que contribuye a la estabilidad térmica de los ácidos nucleicos bicatenarios se debe realmente al apilamiento de bases de las bases adyacentes más que al número de enlaces de hidrógeno entre las bases. Existe una energía de apilamiento más favorable para los pares GC que para los pares AT o AU debido a las posiciones relativas de los grupos exocíclicos. Además, existe una correlación entre el orden en el que se apilan las bases y la estabilidad térmica de la molécula en su conjunto. [6]
Determinación
El contenido de GC generalmente se expresa como un valor porcentual, pero a veces como una proporción (denominada proporción G + C o proporción GC ). El porcentaje de contenido de GC se calcula como [7]
mientras que la relación AT / GC se calcula como [8]
- .
Los porcentajes de contenido de GC y la relación de GC se pueden medir por varios medios, pero uno de los métodos más simples es medir la temperatura de fusión de la doble hélice de ADN mediante espectrofotometría . La absorbancia del ADN a una longitud de onda de 260 nm aumenta considerablemente cuando la molécula de ADN de doble hebra se separa en dos hebras simples cuando se calienta lo suficiente. [9] El protocolo más utilizado para determinar las proporciones de GC utiliza la citometría de flujo para un gran número de muestras. [10]
De manera alternativa, si la molécula de ADN o ARN bajo investigación se ha secuenciado de manera confiable , entonces el contenido de GC se puede calcular con precisión mediante aritmética simple o utilizando una variedad de herramientas de software disponibles públicamente, como la calculadora GC gratuita en línea .
Contenido genómico
Variación dentro del genoma
Se encuentra que la proporción de GC dentro de un genoma es marcadamente variable. Estas variaciones en la proporción de GC dentro de los genomas de organismos más complejos dan como resultado una formación similar a un mosaico con regiones de islotes llamadas isocoros . [11] Esto da como resultado variaciones en la intensidad de la tinción en los cromosomas . [12] Los isocoros ricos en GC suelen incluir muchos genes que codifican proteínas dentro de ellos y, por lo tanto, la determinación de las proporciones de GC de estas regiones específicas contribuye al mapeo de las regiones ricas en genes del genoma. [13] [14]
Secuencias de codificación
Dentro de una región larga de secuencia genómica, los genes a menudo se caracterizan por tener un contenido de GC más alto en contraste con el contenido de GC de fondo para todo el genoma. La evidencia de la proporción de GC con la de la longitud de la región codificante de un gen ha demostrado que la longitud de la secuencia codificante es directamente proporcional al mayor contenido de G + C. [15] Esto se ha señalado al hecho de que el codón de terminación tiene un sesgo hacia los nucleótidos A y T y, por lo tanto, cuanto más corta es la secuencia, mayor es el sesgo de AT. [dieciséis]
La comparación de más de 1.000 genes ortólogos en mamíferos mostró variaciones marcadas dentro del genoma del contenido de GC de la posición del tercer codón , con un rango de menos del 30% a más del 80%. [17]
Variación entre genomas
Se encuentra que el contenido de GC es variable con diferentes organismos, a cuyo proceso se prevé que contribuya la variación en la selección , el sesgo mutacional y la reparación del ADN asociada a la recombinación sesgada . [18]
El contenido medio de GC en los genomas humanos oscila entre el 35% y el 60% en fragmentos de 100 Kb, con una media del 41%. [19] El contenido de GC de la levadura ( Saccharomyces cerevisiae ) es del 38%, [20] y el de otro organismo modelo común , el berro thale ( Arabidopsis thaliana ), es del 36%. [21] Debido a la naturaleza del código genético , es virtualmente imposible que un organismo tenga un genoma con un contenido de GC cercano al 0% o al 100%. Sin embargo, una especie con un contenido de GC extremadamente bajo es Plasmodium falciparum (GC% = ~ 20%), [22] y suele ser común referirse a tales ejemplos como ricos en AT en lugar de pobres en GC. [23]
Varias especies de mamíferos (por ejemplo, musaraña , microbat , tenrec , conejo ) han experimentado de forma independiente un aumento marcado en el contenido de GC de sus genes. Estos cambios en el contenido de GC están correlacionados con los rasgos del ciclo de vida de las especies (por ejemplo, la masa corporal o la longevidad) y el tamaño del genoma , [17] y podrían estar vinculados a un fenómeno molecular llamado conversión génica sesgada por GC . [24]
Aplicaciones
Biología Molecular
En los experimentos de reacción en cadena de la polimerasa (PCR), el contenido de GC de oligonucleótidos cortos conocidos como cebadores se usa a menudo para predecir su temperatura de hibridación con el ADN molde. Un nivel de contenido de GC más alto indica una temperatura de fusión relativamente más alta.
Sistemática
El problema de las especies en la taxonomía no eucariota ha llevado a varias sugerencias en la clasificación de bacterias, y el comité ad hoc sobre la reconciliación de enfoques a la sistemática bacteriana ha recomendado el uso de proporciones de GC en la clasificación jerárquica de nivel superior. [25] Por ejemplo, las Actinobacteria se caracterizan como " bacterias con alto contenido de GC ". [26] En Streptomyces coelicolor A3 (2), el contenido de GC es del 72%. [27]
Herramientas de software
GCSpeciesSorter [28] y TopSort [29] son herramientas de software para clasificar especies en función de su contenido de GC.
Ver también
- Sesgo de uso de codones
Referencias
- ^ Definición de GC - contenido en CancerWeb de la Universidad de Newcastle , Reino Unido
- ^ Yakovchuk P, Protozanova E, Frank-Kamenetskii MD (2006). "Contribuciones de apilamiento y emparejamiento de bases en la estabilidad térmica de la doble hélice del ADN" . Ácidos nucleicos Res . 34 (2): 564–74. doi : 10.1093 / nar / gkj454 . PMC 1360284 . PMID 16449200 .
- ^ Levin RE, Van Sickle C (1976). "Autólisis de aislamientos de alto GC de Pseudomonas putrefaciens". Antonie van Leeuwenhoek . 42 (1–2): 145–55. doi : 10.1007 / BF00399459 . PMID 7999 .
- ^ a b Hurst LD, Merchant AR (marzo de 2001). "Alto contenido de guanina-citosina no es una adaptación a altas temperaturas: un análisis comparativo entre procariotas" . Proc. Biol. Sci . 268 (1466): 493–7. doi : 10.1098 / rspb.2000.1397 . PMC 1088632 . PMID 11296861 .
- ^ Galtier, N .; Lobry, JR (1997). "Relaciones entre el contenido genómico de G + C, las estructuras secundarias de ARN y la temperatura de crecimiento óptima en procariotas". Revista de evolución molecular . 44 (6): 632–636. Código bibliográfico : 1997JMolE..44..632G . doi : 10.1007 / PL00006186 . PMID 9169555 .
- ^ Yakovchuk, Peter; Protozanova, Ekaterina; Frank-Kamenetskii, Maxim D. (2006). "Contribuciones de apilamiento y emparejamiento de bases en la estabilidad térmica de la doble hélice del ADN" . Investigación de ácidos nucleicos . 34 (2): 564–574. doi : 10.1093 / nar / gkj454 . ISSN 0305-1048 . PMC 1360284 . PMID 16449200 .
- ^ Madigan, MT. y Martinko JM. (2003). Biología de los microorganismos de Brock (10ª ed.). Pearson-Prentice Hall. ISBN 978-84-205-3679-8.
- ^ Definición de GC-ratio en Northwestern University, IL, EE. UU.
- ^ Wilhelm J, Pingoud A, Hahn M (mayo de 2003). "Método basado en PCR en tiempo real para la estimación de tamaños del genoma" . Ácidos nucleicos Res . 31 (10): e56. doi : 10.1093 / nar / gng056 . PMC 156059 . PMID 12736322 .
- ^ Vinogradov AE (mayo de 1994). "Medición por citometría de flujo de la relación genómica AT / GC y el tamaño del genoma" . Citometría . 16 (1): 34–40. doi : 10.1002 / cyto.990160106 . PMID 7518377 .
- ^ Bernardi G (enero de 2000). "Isocoros y genómica evolutiva de vertebrados". Gene . 241 (1): 3–17. doi : 10.1016 / S0378-1119 (99) 00485-0 . PMID 10607893 .
- ^ Furey TS, Haussler D (mayo de 2003). "Integración del mapa citogenético con el borrador de la secuencia del genoma humano" . Tararear. Mol. Genet . 12 (9): 1037–44. doi : 10.1093 / hmg / ddg113 . PMID 12700172 .
- ^ Sumner AT, de la Torre J, Stuppia L (agosto de 1993). "La distribución de genes en cromosomas: un enfoque citológico". J. Mol. Evol . 37 (2): 117-22. Código bibliográfico : 1993JMolE..37..117S . doi : 10.1007 / BF02407346 . PMID 8411200 .
- ^ Aïssani B, Bernardi G (octubre de 1991). "Islas CpG, genes e isocoros en los genomas de vertebrados". Gene . 106 (2): 185–95. doi : 10.1016 / 0378-1119 (91) 90198-K . PMID 1937049 .
- ^ Pozzoli U, Menozzi G, Fumagalli M, et al. (2008). "Tanto los procesos selectivos como los neutrales impulsan la evolución del contenido de GC en el genoma humano" . BMC Evol. Biol . 8 : 99. doi : 10.1186 / 1471-2148-8-99 . PMC 2292697 . PMID 18371205 .
- ^ Wuitschick JD, Karrer KM (1999). "Análisis de contenido genómico G + C, uso de codones, contexto del codón iniciador y sitios de terminación de la traducción en Tetrahymena thermophila ". J. Eukaryot. Microbiol . 46 (3): 239–47. doi : 10.1111 / j.1550-7408.1999.tb05120.x . PMID 10377985 .
- ^ a b Romiguier, Jonathan; Ranwez, Vincent; Douzery, Emmanuel JP; Galtier, Nicolas (1 de agosto de 2010). "Contrastando la dinámica de contenido de GC en 33 genomas de mamíferos: relación con los rasgos de la historia de vida y los tamaños de los cromosomas" . Investigación del genoma . 20 (8): 1001–1009. doi : 10.1101 / gr.104372.109 . ISSN 1088-9051 . PMC 2909565 . PMID 20530252 .
- ^ Birdsell JA (1 de julio de 2002). "Integración de la genómica, la bioinformática y la genética clásica para estudiar los efectos de la recombinación en la evolución del genoma" . Mol. Biol. Evol . 19 (7): 1181–97. CiteSeerX 10.1.1.337.1535 . doi : 10.1093 / oxfordjournals.molbev.a004176 . PMID 12082137 .
- ^ Consorcio Internacional de Secuenciación del Genoma Humano (febrero de 2001). "Secuenciación inicial y análisis del genoma humano" . Naturaleza . 409 (6822): 860–921. Código Bib : 2001Natur.409..860L . doi : 10.1038 / 35057062 . PMID 11237011 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace ) (página 876)
- ^ Datos del genoma completo de Saccharomyces cerevisiae en NCBI
- ^ Datos del genoma completo de Arabidopsis thaliana en NCBI
- ^ Datos del genoma completo de Plasmodium falciparum en NCBI
- ^ Musto H, Cacciò S, Rodríguez-Maseda H, Bernardi G (1997). "Restricciones composicionales en el genoma extremadamente pobre en GC de Plasmodium falciparum " (PDF) . Mem. Inst. Oswaldo Cruz . 92 (6): 835–41. doi : 10.1590 / S0074-02761997000600020 . PMID 9566216 .
- ^ Duret L, Galtier N (2009). "Conversión de genes sesgada y la evolución de paisajes genómicos de mamíferos". Annu Rev Genom Hum Genet . 10 : 285–311. doi : 10.1146 / annurev-genom-082908-150001 . PMID 19630562 . S2CID 9126286 .
- ^ Wayne LG; et al. (1987). "Informe del comité ad hoc sobre la reconciliación de enfoques a la sistemática bacteriana" . Revista Internacional de Bacteriología Sistemática . 37 (4): 463–4. doi : 10.1099 / 00207713-37-4-463 .
- ^ Navegador de taxonomía en NCBI
- ^ Datos del genoma completo de Streptomyces coelicolor A3 (2) en NCBI
- ^ Karimi K, Wuitchik D, Oldach M, Vize P (2018). "Distinguir especies usando contenidos de GC en secuencias mixtas de ADN o ARN" . Evol Bioinform Online . 14 (1 de enero de 2018): 1176934318788866. doi : 10.1177 / 1176934318788866 . PMC 6052495 . PMID 30038485 .
- ^ Lehnert E, Mouchka M, Burriesci M, Gallo N, Schwarz J, Pringle J (2014). "Amplias diferencias en la expresión génica entre cnidarios simbióticos y aposimbióticos" . G3 (Bethesda) . 4 (2): 277–95. doi : 10.1534 / g3.113.009084 . PMC 3931562 . PMID 24368779 .
enlaces externos
- Tabla con contenido de GC de todos los procariotas secuenciados
- Navegador taxonómico de bacterias basado en la proporción de GC en el sitio web del NCBI .
- Relación GC en diversas especies .