En genética molecular , un marco de lectura abierto ( ORF ) es la parte de un marco de lectura que tiene la capacidad de ser traducido . Un ORF es un tramo continuo de codones que puede [1] comenzar con un codón de inicio (generalmente AUG) y terminar en un codón de terminación (generalmente UAA, UAG o UGA). [2] Un codón ATG (AUG en términos de ARN ) dentro del ORF (no necesariamente el primero) puede indicar dónde comienza la traducción. El sitio de terminación de la transcripción se encuentra después del ORF, más allá del codón de terminación de la traducción. . Si la transcripción cesara antes del codón de parada, se produciría una proteína incompleta durante la traducción. [3] En los genes eucariotas con múltiples exones , los intrones se eliminan y los exones se unen luego de la transcripción para producir el ARNm final para la traducción de proteínas. En el contexto de la búsqueda de genes , la definición de inicio y fin de un ORF, por lo tanto, solo se aplica a los ARNm empalmados, no al ADN genómico, ya que los intrones pueden contener codones de terminación y / o causar cambios entre los marcos de lectura. Una definición alternativa dice que un ORF es una secuencia que tiene una longitud divisible por tres y está limitada por codones de terminación. [4] [5] Esta definición más general también puede ser útil en el contexto de la transcriptómica y / o metagenómica , donde el codón de inicio y / o finalización puede no estar presente en las secuencias obtenidas. Tal ORF corresponde a partes de un gen en lugar del gen completo.
Importancia biológica
Un uso común de los marcos de lectura abiertos (ORF) es como una pieza de evidencia para ayudar en la predicción de genes . Los ORF largos se utilizan a menudo, junto con otras pruebas, para identificar inicialmente regiones codificantes de proteínas candidatas o regiones codificantes de ARN funcionales en una secuencia de ADN . [6] La presencia de un ORF no significa necesariamente que la región esté siempre traducida . Por ejemplo, en una secuencia de ADN generada aleatoriamente con un porcentaje igual de cada nucleótido , se esperaría un codón de terminación una vez cada 21 codones . [6] Un algoritmo simple de predicción de genes para procariotas podría buscar un codón de inicio seguido de un marco de lectura abierto que sea lo suficientemente largo para codificar una proteína típica, donde el uso del codón de esa región coincide con la característica de frecuencia para las regiones codificantes del organismo dado. [6] Por lo tanto, algunos autores dicen que un ORF debe tener una longitud mínima, por ejemplo, 100 codones [7] o 150 codones. [6] Por sí mismo, incluso un marco de lectura largo y abierto no es una prueba concluyente de la presencia de un gen . [6] Por otro lado, se ha demostrado que algunos ORF cortos (sORF) que carecen de las características clásicas de los genes codificadores de proteínas (tanto de ncRNA como de mRNA) pueden producir péptidos funcionales. Se sabe que [8] 5'-UTR de aproximadamente el 50% de los ARNm de mamíferos contienen uno o varios sORF. [9] Entre el 64% y el 75% de los sitios de iniciación de la traducción de sORF encontrados experimentalmente se conservan en los genomas de humanos y ratones y pueden indicar que estos elementos tienen función. [10] Sin embargo, los sORF a menudo se pueden encontrar solo en las formas menores de los ARNm y evitan la selección; el alto conservadurismo de los sitios de iniciación puede estar relacionado con su ubicación dentro de los promotores de los genes relevantes. Esto es característico del gen SLAMF1 , por ejemplo. [11]
Traducción de seis cuadros
Dado que el ADN se interpreta en grupos de tres nucleótidos (codones), una hebra de ADN tiene tres marcos de lectura distintos. [12] La doble hélice de una molécula de ADN tiene dos hebras antiparalelas; con las dos cadenas que tienen tres marcos de lectura cada una, hay seis posibles traducciones de marcos. [12]
Herramientas de búsqueda de ORF
Buscador de ORF
ORF Finder (Buscador de marcos de lectura abiertos) [13] es una herramienta de análisis gráfico que encuentra todos los marcos de lectura abiertos de un tamaño mínimo seleccionable en la secuencia de un usuario o en una secuencia que ya está en la base de datos. Esta herramienta identifica todos los marcos de lectura abiertos utilizando los códigos genéticos estándar o alternativos. La secuencia de aminoácidos deducida se puede guardar en varios formatos y buscar en la base de datos de secuencias utilizando el servidor de la herramienta de búsqueda de alineación local básica (BLAST). El Buscador de ORF debería ser útil para preparar presentaciones de secuencias completas y precisas. También está empaquetado con el software de envío de secuencias Sequin (analizador de secuencias).
Investigador ORF
ORF Investigator [14] es un programa que no solo proporciona información sobre las secuencias codificantes y no codificantes, sino que también puede realizar un alineamiento global por pares de secuencias de diferentes regiones de genes / ADN. La herramienta encuentra de manera eficiente los ORF para las secuencias de aminoácidos correspondientes y los convierte en su código de aminoácidos de una sola letra, y proporciona sus ubicaciones en la secuencia. La alineación global por pares entre las secuencias hace que sea conveniente detectar las diferentes mutaciones, incluido el polimorfismo de un solo nucleótido . Los algoritmos de Needleman-Wunsch se utilizan para la alineación de genes. El ORF Investigator está escrito en el lenguaje de programación portátil Perl y, por lo tanto, está disponible para los usuarios de todos los sistemas operativos comunes.
Predictor de ORF
OrfPredictor [15] es un servidor web diseñado para identificar regiones codificantes de proteínas en secuencias derivadas de etiquetas de secuencia expresada (EST). Para las secuencias de consulta con un acierto en BLASTX, el programa predice las regiones de codificación basándose en los marcos de lectura de traducción identificados en las alineaciones de BLASTX; de lo contrario, predice la región de codificación más probable basándose en las señales intrínsecas de las secuencias de consulta. La salida son las secuencias de péptidos predichas en el formato FASTA y una línea de definición que incluye el ID de la consulta, el marco de lectura de la traducción y las posiciones de los nucleótidos donde comienza y termina la región de codificación. OrfPredictor facilita la anotación de secuencias derivadas de EST, en particular, para proyectos de EST a gran escala.
ORF Predictor utiliza una combinación de las dos diferentes definiciones de ORF mencionadas anteriormente. Busca tramos que comienzan con un codón de inicio y terminan en un codón de terminación. Como criterio adicional, busca un codón de parada en la región no traducida 5 ' (UTR o NTR, región no traducida [16] ).
ORFik
ORFik es un paquete R en Bioconductor para encontrar marcos de lectura abiertos y utilizar tecnologías de secuenciación de próxima generación para la justificación de ORF. [17]
orfipy
orfipy es una herramienta escrita en Python / Cython para extraer ORF de una manera extremadamente rápida y flexible. [18] orfipy puede trabajar con secuencias FASTA y FASTQ simples o comprimidas con gzip, y proporciona varias opciones para ajustar las búsquedas ORF; estos incluyen especificar los codones de inicio y parada, informar ORF parciales y usar tablas de traducción personalizadas. Los resultados se pueden guardar en varios formatos, incluido el formato BED que ahorra espacio. orfipy es particularmente más rápido para datos que contienen múltiples secuencias FASTA más pequeñas, como conjuntos de transcriptomas de novo. [19]
Ver también
- Región de codificación
- Gen putativo
- Sequerome : una herramienta de creación de perfiles de secuencia que vincula cada registro BLAST con el ORF de NCBI, lo que permite un análisis ORF completo de un informe BLAST.
Referencias
- ^ Sieber, Patricia; Platzer, Matthias; Schuster, Stefan (marzo de 2018). "La definición de marco de lectura abierto revisada" . Tendencias en Genética . 34 (3): 167-170. doi : 10.1016 / j.tig.2017.12.009 . ISSN 0168-9525 .
- ^ "Marco de lectura abierto" . Biblioteca Nacional de Medicina de EE. UU. 2015-10-19 . Consultado el 22 de octubre de 2015 .
- ^ Slonczewski, Joan; John Watkins Foster (2009). Microbiología: una ciencia en evolución . Nueva York: WW Norton & Co. ISBN 978-0-393-97857-5. OCLC 185042615 .
- ^ Claverie, J.-M. (1997) Métodos computacionales para la identificación de genes en secuencias genómicas de vertebrados. Tararear. Mol. Gineta. 6 , 1735-1744.
- ^ P. Sieber, M. Platzer, S. Schuster (2018) La definición de marco de lectura abierto revisada. Trends Genet. 34 , 167-170.
- ^ a b c d e Deonier, Richard; Simon Tavaré ; Michael Waterman (2005). Análisis del genoma computacional: una introducción . Springer-Verlag . pag. 25. ISBN 978-0-387-98785-9.
- ^ Claverie, J.-M., Poirot, O., Lopez, F. (1997) La dificultad de identificar genes en secuencias de vertebrados anónimos. Computación. Chem. 21 203-214
- ^ Zanet, J .; Benrabá, E .; Iluminado.; Pelissier-Monier, A .; Chanut-Delalande, H .; Ronsin, B .; Bellen, HJ; Payre, F .; Plaza, S. (2015). "Los péptidos Pri sORF inducen el procesamiento selectivo de proteínas mediado por proteasomas". Ciencia . 349 (6254): 1356-1358. Código Bibliográfico : 2015Sci ... 349.1356Z . doi : 10.1126 / science.aac5677 . ISSN 0036-8075 . PMID 26383956 . S2CID 206639549 .
- ^ Wethmar, Klaus; Barbosa-Silva, Adriano; Andrade-Navarro, Miguel A .; Leutz, Achim (1 de enero de 2014). "uORFdb: una base de datos bibliográfica completa sobre biología uORF eucariota" . Investigación de ácidos nucleicos . 42 (D1): D60 – D67. doi : 10.1093 / nar / gkt952 . ISSN 0305-1048 . PMC 3964959 . PMID 24163100 .
- ^ Lee, Sooncheol; Liu, Botao; Lee, Soohyun; Huang, Sheng-Xiong; Shen, Ben; Qian, Shu-Bing (11 de septiembre de 2012). "Mapeo global de los sitios de inicio de la traducción en células de mamíferos con resolución de un solo nucleótido" . Actas de la Academia Nacional de Ciencias . 109 (37): E2424 – E2432. doi : 10.1073 / pnas.1207846109 . ISSN 0027-8424 . PMC 3443142 . PMID 22927429 .
- ^ Schwartz, Anton M .; Putlyaeva, Lidia V .; Covich, Milica; Klepikova, Anna V .; Akulich, Kseniya A .; Vorontsov, Ilya E .; Korneev, Kirill V .; Dmitriev, Sergey E .; Polanovsky, Oleg L. (1 de octubre de 2016). "El factor 1 de células B tempranas (EBF1) es fundamental para el control transcripcional del gen SLAMF1 en células B humanas". Biochimica et Biophysica Acta (BBA) - Mecanismos reguladores de genes . 1859 (10): 1259-1268. doi : 10.1016 / j.bbagrm.2016.07.004 . PMID 27424222 .
- ^ a b Pearson, William R .; Wood, Todd; Zhang, Zheng; Miller, Webb (15 de noviembre de 1997). "Comparación de secuencias de ADN con secuencias de proteínas" . Genómica . 46 (1): 24–36. doi : 10.1006 / geno.1997.4995 . ISSN 0888-7543 . PMID 9403055 . S2CID 6413018 .
- ^ "ORFfinder" . www.ncbi.nlm.nih.gov .
- ^ Dwivedi, Vivek Dhar ; Mishra, Sarad Kumar (2012). "ORF Investigator: una nueva herramienta de búsqueda de ORF que combina la alineación de genes global por pares". Revista de Investigación de Ciencias Recientes . 1 (11): 32–35.
- ^ "OrfPredictor" . bioinformatics.ysu.edu .
- ^ J. C. Carrington, D. D. Freed (1990): Mejora de la traducción independiente del casquete por una región no traducida 5 'del potyvirus de la planta . En: J. Virol., 64: 1590-1597. doi: 10.1128 / JVI.64.4.1590-1597.1990. , PMID 2319646 , PMC PMC249294
- ^ "ORFik - marcos de lectura abiertos en genómica" . bioconductor.org .
- ^ Singh, Urminder; Wurtele, Eve Syrkin. "orfipy: una herramienta rápida y flexible para extraer ORF" . Bioinformática . doi : 10.1093 / bioinformatics / btab090 .
- ^ Singh, Urminder (2021-02-13), urmi-21 / orfipy , consultado el 2021-02-13
enlaces externos
- Traducción y marcos de lectura abiertos
- hORFeome V5.1 : una herramienta interactiva basada en web para la colección CCSB Human ORFeome
- ORF Marker : una herramienta GUI de escritorio gratuita, rápida y multiplataforma para predecir y analizar ORF
- StarORF : una herramienta GUI multiplataforma, basada en Java, para predecir y analizar ORF y obtener una secuencia de complemento inverso
- ORFPredictor : un servidor web diseñado para la predicción y traducción de ORF de un lote de secuencias EST o cDNA