En los campos de la bioinformática y la biología computacional , las secuencias de estudio del genoma (GSS) son secuencias de nucleótidos similares a las etiquetas de secuencia expresada (EST) cuya única diferencia es que la mayoría de ellas son de origen genómico , en lugar de ARNm . [1]
Las secuencias de estudio del genoma generalmente se generan y envían a NCBI por laboratorios que realizan la secuenciación del genoma y se utilizan, entre otras cosas, como un marco para el mapeo y la secuenciación de piezas de tamaño del genoma incluidas en las divisiones estándar de GenBank . [1]
Contribuciones
La secuenciación del estudio del genoma es una nueva forma de mapear las secuencias del genoma, ya que no depende del ARNm . Los enfoques actuales de secuenciación del genoma son en su mayoría métodos de escopeta de alto rendimiento, y GSS se usa a menudo en el primer paso de la secuenciación. Los GSS pueden proporcionar una vista global inicial de un genoma, que incluye ADN codificante y no codificante y contienen secciones repetitivas del genoma a diferencia de las tecnologías ecológicamente racionales . Para la estimación de secuencias repetitivas, GSS juega un papel importante en la evaluación temprana de un proyecto de secuenciación, ya que estos datos pueden afectar la evaluación de la cobertura de secuencias, la calidad de la biblioteca y el proceso de construcción. [2] Por ejemplo, en la estimación del genoma del perro, puede estimar los parámetros globales, como la tasa de mutación neutra y el contenido repetido. [3]
GSS también es una forma eficaz de caracterizar rápidamente genomas a gran escala de especies relacionadas en las que solo hay pequeñas secuencias de genes o mapas. [4] GSS con baja cobertura puede generar abundante información sobre el contenido de genes y supuestos elementos reguladores de especies comparativas. [5] Puede comparar estos genes de especies relacionadas para descubrir familias relativamente expandidas o contraídas. Y combinado con la cobertura de clones físicos, los investigadores pueden navegar por el genoma fácilmente y caracterizar la sección genómica específica mediante una secuenciación más extensa. [3]
Limitación
La limitación de la secuencia del estudio genómico es que carece de continuidad a largo plazo debido a su naturaleza fragmentaria, lo que hace que sea más difícil pronosticar el orden de genes y marcadores. Por ejemplo, para detectar secuencias repetitivas en datos de GSS, puede que no sea posible encontrar todas las repeticiones, ya que el genoma repetitivo puede ser más largo que las lecturas, lo que es difícil de reconocer. [2]
Tipos de datos
La división GSS contiene (pero no se limita a) los siguientes tipos de datos:
Secuencias de encuestas genómicas aleatorias de "lectura de una sola pasada"
Las secuencias de encuestas genómicas aleatorias de "lectura de un solo paso" son GSS que se generan a lo largo de una lectura de un solo paso por selección aleatoria. La secuenciación de un solo paso con menor fidelidad se puede utilizar en la acumulación rápida de datos genómicos pero con menor precisión. [6] Incluye RAPD , RFLP , AFLP , etc. [7]
Secuencias finales de cósmidos / BAC / YAC
Las secuencias finales de Cósmido / BAC / YAC utilizan un cromosoma artificial Cósmido / Bacteriano / Cromosoma artificial de levadura para secuenciar el genoma desde el lado del extremo. Estas secuencias actúan como plásmidos de muy pocas copias que a veces sólo hay una copia por célula. Para obtener suficientes cromosomas, necesitan una gran cantidad de cultivo de E. coli, por lo que 2,5 a 5 litros pueden ser una cantidad razonable. [8]
Cosmid / BAC / YAC también se puede utilizar para obtener un clon de fragmento de ADN más grande que vectores como plásmidos y fagémidos. Un inserto más grande suele ser útil para el proyecto de secuencia en la organización de clones. [9]
Las proteínas eucariotas se pueden expresar usando YAC con modificación postraduccional. [10] BAC no puede hacer eso, pero los BAC pueden representar de manera confiable el ADN humano mucho mejor que YAC o cósmidos. [11]
Exon atrapado secuencias genómicas
La secuencia atrapada de exón se usa para identificar genes en el ADN clonado, y esto se logra reconociendo y atrapando el portador que contiene la secuencia de ADN del exón. El atrapamiento de exones tiene dos características principales: en primer lugar, es independiente de la disponibilidad del ARN que expresa el ADN diana. En segundo lugar, las secuencias aisladas pueden derivarse directamente del clon sin conocer los tejidos que expresan el gen que debe identificarse. [12] Durante el corte, el exón puede permanecer en el ARNm y la información transportada por el exón puede estar contenida en la proteína. Dado que el fragmento de ADN se puede insertar en secuencias, si se inserta un exón en el intrón, la transcripción será más larga de lo habitual y esta transcripción se puede atrapar mediante análisis.
Secuencias de PCR de aluminio
El elemento repetitivo Alu es miembro de los elementos intercalados cortos (SINE) en el genoma de los mamíferos. Hay alrededor de 300 a 500 mil copias del elemento repetitivo Alu en el genoma humano, lo que significa que un elemento Alu existe en un promedio de 4 a 6 kb. Los elementos Alu se encuentran ampliamente distribuidos en el genoma de los mamíferos, y la repetibilidad es una de las características, por eso se le llama elemento repetitivo Alu. Mediante el uso de una secuencia Alu especial como locus diana, se puede obtener ADN humano específico a partir del clon de TAC, BAC, PAC o híbrido de célula humana-ratón.
La PCR es un método que se utiliza para clonar un pequeño fragmento de ADN. El fragmento puede ser un gen o solo una parte de un gen. La PCR solo puede clonar fragmentos muy pequeños de ADN, que generalmente no superan los 10 kpb.
Alu PCR es una técnica de "huellas dactilares de ADN". Este enfoque es rápido y fácil de usar. Se obtiene del análisis de muchos loci genómicos flanqueados por elementos repetitivos Alu, que son retrotransposones no autónomos presentes en un elevado número de copias en los genomas de primates. [13] El elemento Alu se puede utilizar para la toma de huellas dactilares del genoma basado en PCR, que también se denomina Alu PCR.
Secuencias marcadas con transposones
Hay varias formas de analizar la función de una secuencia genética en particular, el método más directo es reemplazarla o causar una mutación y luego analizar los resultados y efectos. Hay tres métodos desarrollados para este propósito: reemplazo de genes, supresión de sentido y antisentido y mutagénesis de inserción . Entre estos métodos, se demostró que la mutagénesis por inserción es un enfoque muy bueno y exitoso.
Al principio, se aplicó T-DNA para mutagénesis por inserción. Sin embargo, el uso de elementos transponibles puede traer más ventajas. Los elementos transponibles fueron descubiertos por primera vez por Barbara McClintock en plantas de maíz . Identificó el primer elemento genético transponible, al que llamó locus de disociación (Ds). [14] El tamaño del elemento transponible está entre 750 y 40000 pb. El elemento transponible se puede clasificar principalmente en dos clases: una clase es muy simple, llamada secuencia de inserción (IS), la otra clase es complicada, llamada transposón. El transposón tiene uno o varios genes caracterizados, que pueden identificarse fácilmente. IS tiene el gen de la transposasa.
El transposón se puede utilizar como etiqueta para un ADN con una secuencia conocida. El transposón puede aparecer en otro locus a través de la transcripción o la transcripción inversa por efecto de la nucleasa. Esta aparición de transposón demostró que el genoma no es estadístico, sino que siempre cambia la estructura de sí mismo.
Hay dos ventajas al utilizar el etiquetado de transposones. Primero, si se inserta un transposón en una secuencia genética, esta inserción es única e intacta. La integridad puede hacer que la secuencia etiquetada sea fácilmente analítica molecular. La otra ventaja es que se pueden encontrar muchos transposones eliminados de la secuencia del gen marcado cuando se analiza la transposasa . Esto proporciona la confirmación de que la secuencia del gen insertada fue realmente marcada por transposón. [15]
Ejemplo de archivo GSS
El siguiente es un ejemplo de archivo GSS que se puede enviar a GenBank: [16]
TIPO: GSSESTADO: NuevoCONT_NAME: Sikela JMGSS #: Ayh00001CLON: HHC189FUENTE: ATCCFUENTE_INHOST: 65128OTHER_GSS: GSS00093, GSS000101CITACIÓN: Secuencias genómicas de humanos tejido cerebralSEQ_PRIMER: M13 adelanteP_END: 5 'HIQUAL_START: 1HIQUAL_STOP: 285DNA_TYPE: GenómicoCLASE: escopetaBIBLIOTECA: Hippocampus, Stratagene (cat. # 936205)PÚBLICO: PUT_ID: Actina, gamma, esqueléticoCOMENTARIO:SECUENCIA:AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTGATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAACATTCTTGTCAAGAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCAGCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGTGCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGTTGTTAGGAAATGGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAACTGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT||
Referencias
- ^ a b Notas de la versión de GenBank Flat File 96.0
- ↑ a b Otto, Thomas D., et al. "ReRep: detección computacional de secuencias repetitivas en secuencias de estudio del genoma (GSS)". Bmc Bioinformatics 9.1 (2008): 366.
- ↑ a b Kirkness, EF (26 de septiembre de 2003). "El genoma del perro: secuenciación de encuestas y análisis comparativo". Ciencia . Asociación Estadounidense para el Avance de la Ciencia (AAAS). 301 (5641): 1898-1903. Código Bibliográfico : 2003Sci ... 301.1898K . doi : 10.1126 / science.1086432 . ISSN 0036-8075 . PMID 14512627 . S2CID 22366556 .
- ^ Venkatesh, Byrappa, et al. "Estudio de secuenciación y análisis comparativo del genoma del tiburón elefante (Callorhinchus milii)". PLoS biology 5.4 (2007): e101.
- ^ Hitte, Christophe, et al. "Facilitar la navegación del genoma: secuenciación de encuestas y mapeo de genes híbridos de radiación densa". Nature Reviews Genetics 6.8 (2005): 643-648.
- ^ "Secuenciación de ADN Cómo determinar la secuencia de bases en una molécula de ADN" . Archivado desde el original el 21 de octubre de 2013 . Consultado el 21 de octubre de 2013 .
- ^ DDBJ-GSS
- ^ MEGA- y GIGA preparaciones de cósmido-, BAC-, PAC, YAC- y P1-DNA con JETSTAR 2.0
- ^ "WSSP-04 Capítulo 2 - Vectores" (PDF) . Archivado desde el original (PDF) el 23 de octubre de 2013 . Consultado el 22 de octubre de 2013 .
- ^ Cromosoma artificial de levadura
- ^ Venter, J. Craig, Hamilton O. Smith y Leroy Hood. "Una nueva estrategia cooperativa para secuenciar los genomas humanos y otros".
- ^ Martin C. Wapenaar; Johan T. Den Dunnen (2001). Captura de exones: aplicación de un sistema de captura de múltiples exones con inserto grande . Métodos en Biología Molecular. 175 . págs. 201–215. doi : 10.1385 / 1-59259-235-X: 201 . ISBN 978-1-59259-235-7. PMID 11462836 .
- ^ Cardelli M (2011). "Alu PCR". Protocolos de PCR . Métodos en Biología Molecular. 687 . págs. 221–9. doi : 10.1007 / 978-1-60761-944-4_15 . ISBN 978-1-60761-943-7. PMID 20967611 .
- ^ Tsugeki R, Olson ML, Fedoroff NV (mayo de 2007). "Marcado de transposones y el estudio del desarrollo de la raíz en Arabidopsis". Biología gravitacional y espacial . 11 (2): 79–87. PMID 11540642 .
- ^ Ramachandran S, Sundaresan V (2001). "Transposones como herramientas para la genómica funcional". Fisiología y Bioquímica Vegetal . 39 (3–4): 243–252. doi : 10.1016 / s0981-9428 (01) 01243-8 .
- ^ dbGSS_submit