De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
BCF contra VCF
Demostrar la diferencia entre los formatos binarios BCF y VCF.

El formato de llamada variante ( VCF ) especifica el formato de un archivo de texto utilizado en bioinformática para almacenar variaciones de secuencias de genes . El formato se ha desarrollado con la llegada de proyectos de secuenciación de ADN y genotipado a gran escala , como el Proyecto 1000 Genomas . Los formatos existentes para datos genéticos, como el formato de características generales (GFF), almacenaron todos los datos genéticos, muchos de los cuales son redundantes porque se compartirán entre los genomas. Al utilizar el formato de llamada de variante, solo las variaciones deben almacenarse junto con un genoma de referencia.

El estándar se encuentra actualmente en la versión 4.3, [1] [2] aunque el Proyecto 1000 Genomas ha desarrollado su propia especificación para variaciones estructurales tales como duplicaciones, que no se acomodan fácilmente en el esquema existente. [3] También existe un formato extendido Genomic VCF ( gVCF ), que incluye información adicional sobre "bloques" que coinciden con la referencia y sus cualidades. [4] También está disponible un conjunto de herramientas para editar y manipular los archivos. [5] [6]

Ejemplo [ editar ]

## fileformat = VCFv4.3## fileDate = 20090805## source = myImputationProgramV3.1## referencia = archivo: ///seq/references/1000GenomesPilot-NCBI36.fasta## contig = <ID = 20, longitud = 62435964, ensamblaje = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, especie = "Homo sapiens", taxonomía = x>## phasing = parcial## INFO = <ID = NS, Número = 1, Tipo = Entero, Descripción = "Número de muestras con datos">## INFO = <ID = DP, Número = 1, Tipo = Entero, Descripción = "Profundidad total">## INFO = <ID = AF, Número = A, Tipo = Flotante, Descripción = "Frecuencia alélica">## INFO = <ID = AA, Número = 1, Tipo = Cadena, Descripción = "Alelo Ancestral">## INFO = <ID = DB, Número = 0, Tipo = Bandera, Descripción = "Membresía dbSNP, compilación 129">## INFO = <ID = H2, Número = 0, Tipo = Bandera, Descripción = "Membresía HapMap2">## FILTER = <ID = q10, Description = "Calidad por debajo de 10">## FILTER = <ID = s50, Description = "Menos del 50% de las muestras tienen datos">## FORMAT = <ID = GT, Número = 1, Tipo = Cadena, Descripción = "Genotipo">## FORMAT = <ID = GQ, Number = 1, Type = Integer, Description = "Calidad del genotipo">## FORMAT = <ID = DP, Número = 1, Tipo = Entero, Descripción = "Profundidad de lectura">## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "Calidad del haplotipo">#CHROM POS ID REF ALT QUAL FILTRO INFO FORMATO NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 PASA NS = 3; DP = 14; AF = 0.5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0.017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 320 1110696 rs6040355 AG, T 67 APROBADO NS = 2; DP = 10; AF = 0.333,0.667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2 : 0: 18,2 2/2: 35: 420 1230237. T. 47 APROBADO NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 220 1234567 microsat1 GTC G, GTCT 50 APROBADO NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3

El encabezado VCF [ editar ]

El encabezado comienza el archivo y proporciona metadatos que describen el cuerpo del archivo. Las líneas de encabezado se indican comenzando con # . Las palabras clave especiales en el encabezado se indican con ## . Las palabras clave recomendadas incluyen formato de archivo , fecha de archivo y referencia .

El encabezado contiene palabras clave que, opcionalmente, describen semántica y sintácticamente los campos utilizados en el cuerpo del archivo, en particular INFO, FILTER y FORMAT (ver más abajo).

Las columnas de un VCF [ editar ]

El cuerpo de VCF sigue al encabezado y está separado por tabulaciones en 8 columnas obligatorias y un número ilimitado de columnas opcionales que pueden usarse para registrar otra información sobre las muestras. Cuando se usan columnas adicionales, la primera columna opcional se usa para describir el formato de los datos en las columnas que siguen.

Campos INFO comunes [ editar ]

Se permiten claves arbitrarias, aunque los siguientes subcampos están reservados (aunque son opcionales): [1]

Campos comunes de FORMATO [ editar ]

Ver también [ editar ]

  • El formato FASTA , utilizado para representar secuencias del genoma.
  • El formato FASTQ , utilizado para representar las lecturas del secuenciador de ADN junto con las puntuaciones de calidad.
  • El formato SAM , utilizado para representar las lecturas del secuenciador del genoma que se han alineado con las secuencias del genoma.
  • El formato GVF (Genome Variation Format), una extensión basada en el formato GFF3 .

El Proyecto 1000 Genomas ya no mantiene la especificación VCF. El grupo que lidera la administración y expansión del formato es el equipo de formato de archivo de flujo de trabajo de genómica a gran escala de la Alianza Global para la Genómica y la Salud (GA4GH) , [7] http://ga4gh.org/#/fileformats-team

Referencias [ editar ]

  1. ^ a b "Especificación de VCF" (PDF) . Consultado el 20 de octubre de 2016 .
  2. ^ "Especificaciones de SAM / BAM y formatos de archivo de secuenciación de alto rendimiento relacionados" . Consultado el 24 de junio de 2014 .
  3. ^ "Codificación de variantes estructurales en VCF (formato de llamada de variante) versión 4.0 | 1000 genomas" . Consultado el 20 de octubre de 2016 .
  4. ^ "GVCF - Formato de llamada de variante genómica" . GATK . Instituto Broad.
  5. ^ "VCFtools de Github.io" . Consultado el 20 de octubre de 2016 .
  6. ^ "BCFtools" .
  7. ^ "Mundo Bio-IT" . www.bio-itworld.com . Consultado el 26 de octubre de 2018 .

Enlaces externos [ editar ]

  • Una explicación del formato en forma de imagen.
  • Ossola, Alexandra (20 de marzo de 2015). "La carrera para construir un motor de búsqueda para su ADN" . Espectro IEEE . Consultado el 22 de marzo de 2015 .