En la bioinformática , el formato característica general ( formato de gen-hallazgo , formato característica genérica , GFF ) es un formato de archivo utilizado para la descripción de genes y otras características de DNA , RNA y proteínas secuencias.
Extensiones de nombre de archivo | .gff |
---|---|
Tipo de medio de Internet | text/gff3 |
Desarrollado por | Sanger Center (v2), Proyecto de ontología de secuencia (v3) |
Tipo de formato | Bioinformática |
Extendido desde | Valores separados por tabuladores |
¿ Formato abierto ? | sí |
Sitio web | github |
Versiones GFF
Existen las siguientes versiones de GFF:
- Formato de función general versión 2 , generalmente obsoleto
- Gene Transfer Format 2.2 , un derivado utilizado por Ensembl
- Formato de función genérica versión 3
- Formato de variación del genoma , con pragmas y atributos adicionales para características de secuencia_alteración
GFF2 / GTF tenía una serie de deficiencias, en particular que solo puede representar jerarquías de características de dos niveles y, por lo tanto, no puede manejar la jerarquía de tres niveles de gen → transcripción → exón. GFF3 aborda esta y otras deficiencias. Por ejemplo, admite arbitrariamente muchos niveles jerárquicos y otorga significados específicos a ciertas etiquetas en el campo de atributos.
Estructura general de GFF
Todos los formatos GFF (GFF2, GFF3 y GTF) están delimitados por tabulaciones con 9 campos por línea. Todos comparten la misma estructura para los primeros 7 campos, aunque difieren en el contenido y formato del noveno campo . La estructura general es la siguiente:
Índice de posición | Nombre del puesto | Descripción |
---|---|---|
1 | secuencia | El nombre de la secuencia donde se encuentra la característica. |
2 | fuente | Palabra clave que identifica la fuente de la función, como un programa (por ejemplo, Augustus o RepeatMasker ) o una organización (como TAIR ). |
3 | característica | El nombre del tipo de característica, como "gen" o "exón". En un archivo GFF bien estructurado, todas las características secundarias siempre siguen a sus padres en un solo bloque (por lo que todos los exones de una transcripción se colocan después de la línea característica de "transcripción" principal y antes de cualquier otra línea de transcripción principal). En GFF3, todas las funciones y sus relaciones deben ser compatibles con los estándares publicados por Sequence Ontology Project . |
4 | comienzo | Inicio genómico de la función, con un desplazamiento de 1 base . Esto contrasta con otros formatos de secuencia semiabiertos con desplazamiento 0, como BED . |
5 | final | Extremo genómico de la función, con un desplazamiento de 1 base . Esta es la misma coordenada final que en los formatos de secuencia semiabierta con desplazamiento 0, como BED . [ cita requerida ] |
6 | puntaje | Valor numérico que generalmente indica la confianza de la fuente en la característica anotada. Un valor de "." (un punto) se utiliza para definir un valor nulo. |
7 | hebra | Carácter único que indica la línea de la característica; puede asumir los valores de "+" (positivo, o 5 '-> 3'), "-", (negativo, o 3 '-> 5'), "." (indeterminado). |
8 | fase | fase de características de CDS; puede ser uno de 0, 1, 2 (para funciones de CDS) o "." (para todo lo demás). Consulte la sección siguiente para obtener una explicación detallada. |
9 | atributos | Toda la demás información relacionada con esta función. El formato, estructura y contenido de este campo es el que más varía entre los tres formatos de archivo en competencia. |
El octavo campo: fase de las características de CDS
En pocas palabras, CDS significa "Secuencia de codificación". El significado exacto del término está definido por Sequence Ontology (SO). Según la especificación GFF3 : [2] [3]
Para características de tipo "CDS", la fase indica dónde comienza la característica con referencia al marco de lectura. La fase es uno de los números enteros 0, 1 o 2, lo que indica el número de bases que deben eliminarse desde el comienzo de esta característica para alcanzar la primera base del siguiente codón.
Meta directivas
En los archivos GFF, se puede incluir metainformación adicional y sigue después de la directiva ##. Esta metainformación puede detallar la versión de GFF, la región de secuencia o la especie (la lista completa de tipos de metadatos se puede encontrar en las especificaciones de Sequence Ontology ).
Software GFF
Servidores
Servidores que generan este formato:
Servidor | Archivo de ejemplo |
---|---|
UniProt | [1] |
Clientela
Clientes que utilizan este formato:
Nombre | Descripción | Enlaces |
---|---|---|
GBrowse | Visor de genoma GMOD | GBrowse |
IGB | Navegador de genoma integrado | Navegador de genoma integrado |
Jalview | Un visor y editor de alineación de múltiples secuencias | Jalview |
CORREA | Subrayado de características de secuencia en múltiples alineaciones. Salida de ejemplo: [2] | [3] |
JBrowse | JBrowse es un navegador de genoma rápido e integrable construido completamente con JavaScript y HTML5 | JBrowse.org |
ZENBU | Un sistema colaborativo de visualización interactiva y de integración de datos ómicos | [4] |
Validación
El proyecto modENCODE aloja una herramienta de validación GFF3 en línea con generosos límites de 286,10 MB y 15 millones de líneas.
La colección de software Genome Tools contiene una herramienta gff3validator que se puede utilizar sin conexión para validar y posiblemente ordenar los archivos GFF3. También está disponible un servicio de validación en línea .
Ver también
- Sistema de anotación distribuida
- Formato de llamada variante
- Alineación de secuencia
Referencias
- ^ Información de GFF / GTF , de Ensembl
- ^ "Especificación GFF3" . 2018-11-24.
- ^ "Gff3 - Gmod" .