Análisis en serie de la expresión génica

El análisis en serie de expresión génica ( SAGE ) es una técnica transcriptómica utilizada por biólogos moleculares para producir una instantánea de la población de ARN mensajero en una muestra de interés en forma de pequeñas etiquetas que corresponden a fragmentos de esas transcripciones. Desde entonces se han desarrollado varias variantes, entre las que destaca una versión más robusta, LongSAGE, ^[2] RL-SAGE ^[3] y la más reciente SuperSAGE. ^[4] Muchos de estos han mejorado la técnica con la captura de etiquetas más largas, lo que permite una identificación más segura de un gen fuente.

Resumen de SAGE. Dentro de los organismos, los genes se transcriben y empalman (en eucariotas ) para producir transcripciones maduras de ARNm (rojo). El mRNA se extrae del organismo y la transcriptasa inversa se usa para copiar el mRNA en cDNA bicatenario estable ( ds - cDNA ; azul). En SAGE, el ds-cDNA es digerido por enzimas de restricción (en la ubicación 'X' y 'X' + 11) para producir fragmentos de 'etiqueta' de 11 nucleótidos. Estas etiquetas se concatenan y secuencian mediante secuenciación de Sanger de lectura larga (diferentes tonos de azul indican etiquetas de diferentes genes). Las secuencias se deconvolucionan para encontrar la frecuencia de cada etiqueta. La frecuencia de la etiqueta se puede utilizar para informar sobre la transcripción del gen del que proviene la etiqueta. ^[1]

Descripción general

Brevemente, los experimentos de SAGE proceden de la siguiente manera:

Se aísla el ARNm de una muestra de entrada (por ejemplo, un tumor ) y se utilizan una transcriptasa inversa y cebadores biotinilados para sintetizar el ADNc a partir del ARNm .
El ADNc se une a las perlas de estreptavidina mediante la interacción con la biotina unida a los cebadores y luego se escinde usando una endonucleasa de restricción llamada enzima de anclaje (AE). La ubicación del sitio de escisión y, por tanto, la longitud del ADNc restante unido a la perla variará para cada ADNc (ARNm) individual.
El ADNc escindido aguas abajo del sitio de escisión se descarta y los fragmentos de ADNc inmóviles restantes aguas arriba de los sitios de escisión se dividen por la mitad y se exponen a uno de los dos oligonucleótidos adaptadores (A o B) que contienen varios componentes en el siguiente orden aguas arriba de la unión. sitio: 1) Extremos pegajosos con el sitio de corte AE para permitir la unión al ADNc escindido; 2) Un sitio de reconocimiento para una endonucleasa de restricción conocida como enzima marcadora (TE), que corta aproximadamente 15 nucleótidos corriente abajo de su sitio de reconocimiento (dentro de la secuencia original de ADNc / ARNm); 3) Una secuencia de cebador corta única para el adaptador A o B, que luego se utilizará para una mayor amplificación mediante PCR.
Después de la ligación del adaptador , el ADNc se escinde usando TE para eliminarlos de las perlas, dejando solo una "etiqueta" corta de aproximadamente 11 nucleótidos del ADNc original (15 nucleótidos menos los 4 correspondientes al sitio de reconocimiento de AE).
Las etiquetas de ADNc escindidas se reparan luego con ADN polimerasa para producir fragmentos de ADNc de extremos romos.
Estos fragmentos de etiqueta de ADNc (con cebadores adaptadores y sitios de reconocimiento AE y TE unidos) se ligan, intercalando las dos secuencias de etiquetas juntas y flanqueando los adaptadores A y B en cada extremo. Estas nuevas construcciones, llamadas ditags , se amplifican luego por PCR utilizando cebadores específicos de anclaje A y B.
A continuación, los ditags se escinden utilizando el AE original y se dejan enlazar con otros ditags, que se ligarán para crear un concatémero de ADNc con cada ditag separado por el sitio de reconocimiento de AE.
Estos concatémeros luego se transforman en bacterias para su amplificación a través de la replicación bacteriana.
Los concatémeros de ADNc se pueden aislar y secuenciar utilizando secuenciadores de ADN modernos de alto rendimiento , y estas secuencias se pueden analizar con programas informáticos que cuantifican la recurrencia de etiquetas individuales.

Análisis

La salida de SAGE es una lista de etiquetas de secuencia corta y el número de veces que se observa. Utilizando bases de datos de secuencias, un investigador generalmente puede determinar, con cierta confianza, de qué ARNm original (y por lo tanto de qué gen ) se extrajo la etiqueta.

Se pueden aplicar métodos estadísticos para etiquetar y contar listas de diferentes muestras con el fin de determinar qué genes se expresan con mayor frecuencia. Por ejemplo, una muestra de tejido normal se puede comparar con un tumor correspondiente para determinar qué genes tienden a ser más (o menos) activos.

Historia

En 1979, los equipos de Harvard y Caltech ampliaron la idea básica de hacer copias de ADN de ARNm in vitro para amplificar una biblioteca de los mismos en plásmidos bacterianos. ^[5] En 1982-1983, Greg Sutcliffe y sus colaboradores exploraron la idea de seleccionar clones aleatorios o semialeatorios de una biblioteca de ADNc de este tipo para la secuenciación. ^[6] y Putney et al. que secuenció 178 clones de una biblioteca de ADNc de músculo de conejo. ^[7] En 1991 Adams y sus colaboradores acuñaron el término etiqueta de secuencia expresada (EST) e iniciaron una secuenciación más sistemática de ADNc como proyecto (comenzando con 600 ADNc de cerebro). ^[8] La identificación de tecnologías ecológicamente racionales procedió rápidamente, millones de tecnologías ecológicamente racionales ahora están disponibles en bases de datos públicas (por ejemplo, GenBank ).

En 1995, la idea de reducir la longitud de la etiqueta de 100 a 800 pb hasta una longitud de etiqueta de 10 a 22 pb ayudó a reducir el costo de las encuestas de ARNm. ^[9] En este año, el protocolo SAGE original fue publicado por Victor Velculescu en el Centro de Oncología de la Universidad Johns Hopkins . ^[9] Aunque SAGE se concibió originalmente para su uso en estudios de cáncer, se ha utilizado con éxito para describir el transcriptoma de otras enfermedades y en una amplia variedad de organismos.

Comparación con microarrays de ADN

El objetivo general de la técnica es similar al de la micromatriz de ADN . Sin embargo, el muestreo de SAGE se basa en la secuenciación de la salida de ARNm, no en la hibridación de la salida de ARNm a las sondas, por lo que los niveles de transcripción se miden de forma más cuantitativa que mediante microarrays. Además, las secuencias de ARNm no necesitan ser conocidas a priori , por lo que se pueden descubrir genes o variantes de genes que no se conocen. Los experimentos de micromatrices son mucho más baratos de realizar, por lo que los estudios a gran escala no suelen utilizar SAGE. La cuantificación de las expresiones génicas es más exacta en SAGE porque implica contar directamente el número de transcripciones, mientras que las intensidades de los puntos en los microarrays caen en gradientes no discretos y son propensos al ruido de fondo.

Protocolos variantes

clonación de miARN

Los microARN , o miARN para abreviar, son segmentos pequeños (~ 22 nt) de ARN que se ha descubierto que desempeñan un papel crucial en la regulación génica. Uno de los métodos más utilizados para clonar e identificar miARN dentro de una célula o tejido fue desarrollado en el Laboratorio Bartel y publicado en un artículo de Lau et al. (2001). Desde entonces, han surgido varias variantes de protocolos, pero la mayoría tienen el mismo formato básico. El procedimiento es bastante similar al SAGE: el ARN pequeño se aísla, luego se agregan enlazadores a cada uno y el ARN se convierte en ADNc mediante RT-PCR . Después de esto, los enlazadores, que contienen sitios de restricción internos, se digieren con la enzima de restricción apropiada y los extremos pegajosos se ligan juntos en concatámeros. Después de la concatenación, los fragmentos se ligan en plásmidos y se utilizan para transformar bacterias para generar muchas copias del plásmido que contiene los insertos. A continuación, se pueden secuenciar para identificar el miARN presente, así como analizar los niveles de expresión de un miARN dado contando el número de veces que está presente, de forma similar a SAGE.

LongSAGE y RL-SAGE

LongSAGE era una versión más robusta del SAGE original desarrollado en 2002 que tenía un rendimiento más alto, utilizando 20 μg de ARNm para generar una biblioteca de ADNc de miles de etiquetas. ^[10] Robust LongSage (RL-SAGE) Mejorado aún más en el protocolo LongSAGE con la capacidad de generar una biblioteca con un tamaño de inserto de 50 ng de ARNm , mucho más pequeño que el tamaño de inserto LongSAGE anterior de 2 μg de ARNm ^[10] y usando un número de reacciones en cadena de la polimerasa ditag ( PCR ) para obtener una biblioteca de cDNA completa . ^[11]

SuperSAGE

SuperSAGE es un derivado de SAGE que usa la endonucleasa EcoP15I de tipo III del fago P1 , para cortar etiquetas de secuencia de 26 pb de longitud del ADNc de cada transcripción , expandiendo el tamaño de la etiqueta en al menos 6 pb en comparación con las técnicas predecesoras SAGE y LongSAGE. ^[12] El tamaño de etiqueta más largo permite una asignación más precisa de la etiqueta a la transcripción correspondiente, porque cada base adicional aumenta considerablemente la precisión de la anotación.

Al igual que en el protocolo SAGE original, se forman los llamados ditags, utilizando etiquetas de extremos romos . Sin embargo, SuperSAGE evita el sesgo observado durante la ligadura de ditag LongSAGE de 20 pb, menos aleatoria. ^[13] Mediante secuenciación directa con técnicas de secuenciación de alto rendimiento (secuenciación de próxima generación , es decir, pirosecuenciación ), se pueden analizar cientos de miles o millones de etiquetas simultáneamente, produciendo perfiles de expresión génica muy precisos y cuantitativos . Por lo tanto, el perfil de expresión génica basado en etiquetas, también llamado "perfil de expresión génica digital" (DGE), puede proporcionar hoy perfiles de transcripción más precisos que superan las limitaciones de los microarrays . ^[14]^[15]

Secuenciación de ARNm de extremo 3, análisis masivo de extremos de ADNc

A mediados de la década de 2010, se desarrollaron varias técnicas combinadas con la secuenciación de próxima generación que emplean el principio de "etiqueta" para el "perfil de expresión génica digital", pero sin el uso de la enzima marcadora. El enfoque "MACE", (= análisis masivo de extremos de cDNA) genera etiquetas en algún lugar de los últimos 1500 bps de una transcripción. La técnica ya no depende de las enzimas de restricción y, por lo tanto, evita el sesgo relacionado con la ausencia o la ubicación del sitio de restricción dentro del ADNc. En cambio, el ADNc se fragmenta aleatoriamente y los extremos 3 'se secuencian desde el extremo 5' de la molécula de ADNc que lleva la cola poli-A. La longitud de secuenciación de la etiqueta se puede elegir libremente. Debido a esto, las etiquetas se pueden ensamblar en contigs y la anotación de las etiquetas se puede mejorar drásticamente. Por lo tanto, MACE también se utiliza para el análisis de organismos no modelo. Además, los contigs más largos se pueden cribar en busca de polimorfismos. Como las UTR muestran un gran número de polimorfismos entre individuos, el enfoque MACE se puede aplicar para la determinación de alelos, el perfil de expresión génica específica de alelos y la búsqueda de marcadores moleculares para la reproducción. Además, el enfoque permite determinar la poliadenilación alternativa de las transcripciones. Debido a que MACE solo requiere los extremos 3 'de las transcripciones, incluso el ARN parcialmente degradado se puede analizar con menos sesgo dependiente de la degradación. El enfoque MACE utiliza identificadores moleculares únicos para permitir la identificación del sesgo de la PCR. ^[dieciséis]

Ver también

Secuenciación de alto rendimiento
Transcriptómica
- RNA-Seq
- Microarrays de ADN
- Etiquetas de secuencia expresadas

Referencias

^ Shafee, Thomas; Lowe, Rohan (2017). "Estructura de genes eucariotas y procariotas" . WikiJournal de Medicina . 4 (1). doi : 10.15347 / wjm / 2017.002 . ISSN 2002-4436 .
^ Saha S y col. (2002). "Utilizando el transcriptoma para anotar el genoma". Nat Biotechnol . 20 (5): 508-12. doi : 10.1038 / nbt0502-508 . PMID 11981567 .
^ Gowda M; Jantasuriyarat C; Dean RA; Wang GL. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y análisis del transcriptoma" . Plant Physiol . 134 (3): 890–7. doi : 10.1104 / pp.103.034496 . PMC 389912 . PMID 15020752 .
^ Matsumura H; Ito A; Saitoh H; Winter P; Kahl G; Reuter M; Krüger DH; Terauchi R. (2005). "SuperSAGE". Cell Microbiol . 7 (1): 11–8. doi : 10.1111 / j.1462-5822.2004.00478.x . PMID 15617519 .
^ Sim GK; Kafatos FC; Jones CW; Koehler MD; Efstratiadis A; Maniatis T (diciembre de 1979). "Uso de una biblioteca de ADNc para estudios sobre la evolución y expresión del desarrollo de las familias multigénicas de corion" . Celular . 18 (4): 1303–16. doi : 10.1016 / 0092-8674 (79) 90241-1 . PMID 519770 .
^ Sutcliffe JG; Milner RJ; Bloom FE; Lerner RA (agosto de 1982). "Secuencia común de 82 nucleótidos única para el ARN cerebral" . Proc Natl Acad Sci USA . 79 (16): 4942–6. Código Bibliográfico : 1982PNAS ... 79.4942S . doi : 10.1073 / pnas.79.16.4942 . PMC 346801 . PMID 6956902 .
^ Putney SD; WC Herlihy; Schimmel P (1983). "Una nueva troponina T y clones de cDNA para 13 proteínas musculares diferentes, encontrados por secuenciación de escopeta". Naturaleza . 302 (5910): 718–21. Código bibliográfico : 1983Natur.302..718P . doi : 10.1038 / 302718a0 . PMID 6687628 .
^ Adams MD, Kelley JM, Gocayne JD, et al. (Junio de 1991). "Secuenciación complementaria de ADN: etiquetas de secuencia expresada y proyecto del genoma humano". Ciencia . 252 (5013): 1651–6. Código Bibliográfico : 1991Sci ... 252.1651A . doi : 10.1126 / science.2047873 . PMID 2047873 .
^ a b Velculescu VE; Zhang L; Vogelstein B; Kinzler KW. (1995). "Análisis en serie de la expresión génica". Ciencia . 270 (5235): 484–7. Código Bibliográfico : 1995Sci ... 270..484V . doi : 10.1126 / science.270.5235.484 . PMID 7570003 .
^ a b Saha, S., et al. (2002). "Utilizando el transcriptoma para anotar el genoma". Nat Biotechnol 20 (5): 508-512.
^ Gowda, M., et al. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y el análisis del transcriptoma". Plant Physiol 134 (3): 890-897.
^ Matsumura, H .; Reich, S .; Ito, A .; Saitoh, H .; Kamoun, S .; Winter, P .; Kahl, G .; Reuter, M .; Krüger, D .; Terauchi, R. (2003). "Análisis de expresión génica de interacciones planta huésped-patógeno por SuperSAGE" . Actas de la Academia Nacional de Ciencias . 100 (26): 15718-15723. Código Bibliográfico : 2003PNAS..10015718M . doi : 10.1073 / pnas.2536670100 . PMC 307634 . PMID 14676315 .
^ Gowda, Malali; Jantasuriyarat, Chatchawan; Dean, Ralph A .; Wang, Guo-Liang (1 de marzo de 2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y análisis de transcriptomas" . Fisiología vegetal . 134 (3): 890–897. doi : 10.1104 / pp.103.034496 . ISSN 1532-2548 . PMC 389912 . PMID 15020752 .
^ Shendure, J. (2008). "¿El principio del fin de los microarrays?". Métodos de la naturaleza . 5 (7): 585–7. doi : 10.1038 / nmeth0708-585 . PMID 18587314 .
^ Matsumura, H .; Bin Nasir, KH; Yoshida, K .; Ito, A .; Kahl, GN; Krüger, DH; Terauchi, R. (2006). "Matriz SuperSAGE: el uso directo de etiquetas de transcripción de 26 pares de bases en matrices de oligonucleótidos". Métodos de la naturaleza . 3 (6): 469–74. doi : 10.1038 / nmeth882 . PMID 16721381 .
^ Zawada, Adam (enero de 2014). "El análisis masivo de extremos de ADNc (MACE) y el perfil de expresión de miARN identifica vías proaterogénicas en la enfermedad renal crónica" . Epigenética . 9 (1): 161-172. doi : 10.4161 / epi.26931 . PMC 3928179 . PMID 24184689 .

enlaces externos

SAGEnet
SAGE para principiantes
Una revisión de la técnica SAGE en Science Creative Quarterly

[1] Shafee, Thomas; Lowe, Rohan (2017). "Estructura de genes eucariotas y procariotas" . WikiJournal de Medicina . 4 (1). doi : 10.15347 / wjm / 2017.002 . ISSN 2002-4436 .

[Saha-2] Saha S y col. (2002). "Utilizando el transcriptoma para anotar el genoma". Nat Biotechnol . 20 (5): 508-12. doi : 10.1038 / nbt0502-508 . PMID 11981567 .

[Gowda-3] Gowda M; Jantasuriyarat C; Dean RA; Wang GL. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y análisis del transcriptoma" . Plant Physiol . 134 (3): 890–7. doi : 10.1104 / pp.103.034496 . PMC 389912 . PMID 15020752 .

[Matsumura-4] Matsumura H; Ito A; Saitoh H; Winter P; Kahl G; Reuter M; Krüger DH; Terauchi R. (2005). "SuperSAGE". Cell Microbiol . 7 (1): 11–8. doi : 10.1111 / j.1462-5822.2004.00478.x . PMID 15617519 .

[5] Sim GK; Kafatos FC; Jones CW; Koehler MD; Efstratiadis A; Maniatis T (diciembre de 1979). "Uso de una biblioteca de ADNc para estudios sobre la evolución y expresión del desarrollo de las familias multigénicas de corion" . Celular . 18 (4): 1303–16. doi : 10.1016 / 0092-8674 (79) 90241-1 . PMID 519770 .

[6] Sutcliffe JG; Milner RJ; Bloom FE; Lerner RA (agosto de 1982). "Secuencia común de 82 nucleótidos única para el ARN cerebral" . Proc Natl Acad Sci USA . 79 (16): 4942–6. Código Bibliográfico : 1982PNAS ... 79.4942S . doi : 10.1073 / pnas.79.16.4942 . PMC 346801 . PMID 6956902 .

[7] Putney SD; WC Herlihy; Schimmel P (1983). "Una nueva troponina T y clones de cDNA para 13 proteínas musculares diferentes, encontrados por secuenciación de escopeta". Naturaleza . 302 (5910): 718–21. Código bibliográfico : 1983Natur.302..718P . doi : 10.1038 / 302718a0 . PMID 6687628 .

[adams-8] Adams MD, Kelley JM, Gocayne JD, et al. (Junio de 1991). "Secuenciación complementaria de ADN: etiquetas de secuencia expresada y proyecto del genoma humano". Ciencia . 252 (5013): 1651–6. Código Bibliográfico : 1991Sci ... 252.1651A . doi : 10.1126 / science.2047873 . PMID 2047873 .

[SAGE-9] Velculescu VE; Zhang L; Vogelstein B; Kinzler KW. (1995). "Análisis en serie de la expresión génica". Ciencia . 270 (5235): 484–7. Código Bibliográfico : 1995Sci ... 270..484V . doi : 10.1126 / science.270.5235.484 . PMID 7570003 .

[Saha,_S._2002-10] Saha, S., et al. (2002). "Utilizando el transcriptoma para anotar el genoma". Nat Biotechnol 20 (5): 508-512.

[11] Gowda, M., et al. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y el análisis del transcriptoma". Plant Physiol 134 (3): 890-897.

[Matsumura2003-12] Matsumura, H .; Reich, S .; Ito, A .; Saitoh, H .; Kamoun, S .; Winter, P .; Kahl, G .; Reuter, M .; Krüger, D .; Terauchi, R. (2003). "Análisis de expresión génica de interacciones planta huésped-patógeno por SuperSAGE" . Actas de la Academia Nacional de Ciencias . 100 (26): 15718-15723. Código Bibliográfico : 2003PNAS..10015718M . doi : 10.1073 / pnas.2536670100 . PMC 307634 . PMID 14676315 .

[13] Gowda, Malali; Jantasuriyarat, Chatchawan; Dean, Ralph A .; Wang, Guo-Liang (1 de marzo de 2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y análisis de transcriptomas" . Fisiología vegetal . 134 (3): 890–897. doi : 10.1104 / pp.103.034496 . ISSN 1532-2548 . PMC 389912 . PMID 15020752 .

[14] Shendure, J. (2008). "¿El principio del fin de los microarrays?". Métodos de la naturaleza . 5 (7): 585–7. doi : 10.1038 / nmeth0708-585 . PMID 18587314 .

[15] Matsumura, H .; Bin Nasir, KH; Yoshida, K .; Ito, A .; Kahl, GN; Krüger, DH; Terauchi, R. (2006). "Matriz SuperSAGE: el uso directo de etiquetas de transcripción de 26 pares de bases en matrices de oligonucleótidos". Métodos de la naturaleza . 3 (6): 469–74. doi : 10.1038 / nmeth882 . PMID 16721381 .

[16] Zawada, Adam (enero de 2014). "El análisis masivo de extremos de ADNc (MACE) y el perfil de expresión de miARN identifica vías proaterogénicas en la enfermedad renal crónica" . Epigenética . 9 (1): 161-172. doi : 10.4161 / epi.26931 . PMC 3928179 . PMID 24184689 .

[2]