Marco de lectura abierto

En biología molecular , los marcos de lectura abiertos (ORF) se definen como intervalos de secuencia de ADN entre los codones de inicio y finalización. Por lo general, esto se considera dentro de una región estudiada de una secuencia de ADN procariota , donde solo uno de los seis posibles marcos de lectura estará 'abierto' (la 'lectura', sin embargo, se refiere al ARN producido por la transcripción del ADN y su subsiguiente interacción con el ribosoma en la traducción ). Tal ORF puede ^[1] contener un codón de inicio (generalmente AUG en términos de ARN ) y, por definición, no puede extenderse más allá de un codón de finalización (generalmente UAA, UAG UGA en ARN). ^[2] Ese codón de inicio (no necesariamente el primero) indica dónde puede comenzar la traducción. El sitio de terminación de la transcripción se encuentra después del ORF, más allá del codón de parada de la traducción . Si la transcripción cesara antes del codón de parada, se produciría una proteína incompleta durante la traducción. ^[3] En los genes eucarióticos con múltiples exones , se eliminan los intrones y luego se unen los exones después de la transcripción para producir el ARNm final para la traducción de proteínas. En el contexto de la búsqueda de genes , la definición start-stop de un ORF, por lo tanto, solo se aplica a los ARNm empalmados, no al ADN genómico, ya que los intrones pueden contener codones de terminación y/o provocar cambios entre los marcos de lectura. Una definición alternativa dice que un ORF es una secuencia que tiene una longitud divisible por tres y está delimitada por codones de terminación. ^[4]^[1] Esta definición más general puede ser útil en el contexto de la transcriptómica y la metagenómica , donde un codón de inicio o finalización puede no estar presente en las secuencias obtenidas. Tal ORF corresponde a partes de un gen en lugar del gen completo.

Un uso común de los marcos abiertos de lectura (ORF, por sus siglas en inglés) es como una pieza de evidencia para ayudar en la predicción de genes . Los ORF largos se utilizan a menudo, junto con otras pruebas, para identificar inicialmente regiones codificantes de proteínas candidatas o regiones codificantes de ARN funcionales en una secuencia de ADN . ^[5] La presencia de un ORF no significa necesariamente que la región esté siempre traducida . Por ejemplo, en una secuencia de ADN generada aleatoriamente con un porcentaje igual de cada nucleótido , se esperaría un codón de terminación una vez cada 21 codones . ^[5] Un algoritmo simple de predicción de genes para los procariotas pueden buscar un codón de inicio seguido de un marco de lectura abierto que sea lo suficientemente largo para codificar una proteína típica, donde el uso del codón de esa región coincida con la característica de frecuencia de las regiones codificantes del organismo dado. ^[5] Por lo tanto, algunos autores dicen que un ORF debe tener una longitud mínima, por ejemplo, 100 codones ^[6] o 150 codones. ^[5] Por sí mismo, incluso un marco de lectura largo y abierto no es una evidencia concluyente de la presencia de un gen . ^[5]

ORF cortos (sORF). Algunos ORF cortos (sORF) que carecen de las características clásicas de los genes que codifican proteínas (tanto de ncRNA como de mRNA) pueden producir péptidos funcionales. ^[7] Se sabe que 5'-UTR de aproximadamente el 50 % de los mRNA de mamíferos contienen uno o varios sORF, ^[8] también llamados ORF aguas arriba o uORF . Sin embargo, menos del 10 % de los ARNm de vertebrados examinados en un estudio anterior contenían codones AUG delante del ORF principal. Curiosamente, se encontraron uORF en dos tercios de los protooncogenes y proteínas relacionadas. ^[9] Entre el 64 y el 75 % de los sitios de iniciación de la traducción encontrados experimentalmente de sORF se conservan en los genomas humanos y de ratón y pueden indicar que estos elementos tienen una función. ^[10]Sin embargo, los sORF a menudo se pueden encontrar solo en las formas menores de mRNA y evitan la selección; la alta conservación de los sitios de iniciación puede estar relacionada con su ubicación dentro de los promotores de los genes relevantes. Esto es característico del gen SLAMF1 , por ejemplo. ^[11]

Dado que el ADN se interpreta en grupos de tres nucleótidos (codones), una hebra de ADN tiene tres marcos de lectura distintos. ^[12] La doble hélice de una molécula de ADN tiene dos hebras antiparalelas; con las dos hebras que tienen tres marcos de lectura cada una, hay seis posibles traducciones de marcos. ^[12]

Ejemplo de secuencia que muestra tres posibles marcos de lectura diferentes . Los codones de inicio están resaltados en púrpura y los codones de parada están resaltados en rojo.

Ejemplo de una traducción de seis fotogramas. La secuencia de nucleótidos se muestra en el medio con traducciones directas arriba y traducciones inversas abajo. Se resaltan dos posibles marcos de lectura abiertos con las secuencias.