El formato Pileup es un formato basado en texto para resumir las llamadas base de lecturas alineadas en una secuencia de referencia. Este formato facilita la visualización visual de la alineación y las llamadas SNP / indel. Fue utilizado por primera vez por Tony Cox y Zemin Ning en el Wellcome Trust Sanger Institute , pero se hizo ampliamente conocido gracias a su implementación dentro del paquete de software SAMtools . [1]
Formato
Ejemplo
Secuencia | Posición | Base de referencia | Leer recuento | Leer resultados | Calidad |
---|---|---|---|---|---|
seq1 | 272 | T | 24 | ,. $ ..... ,,.,., ... ,,,., .. ^ +. | <<<+;<<<<<<<<<<<=<;<;7<& |
seq1 | 273 | T | 23 | ,.....,,.,.,...,,,.,..A | <<<;<<<<<<<<<3<=<<<;<<+ |
seq1 | 274 | T | 23 | PS | 7<7;<;<<<<<<<<<=<;<;<<6 |
seq1 | 275 | A | 23 | , $ .... ,,.,., ... ,,,., ... ^ l. | <+;9*<<<<<<<<<=<<:;<<<< |
seq1 | 276 | GRAMO | 22 | ... T ,,.,., ... ,,,., .... | 33;+<<7=7<<7<&<<1;<<6< |
seq1 | 277 | T | 22 | .... ,,.,.,. C. ,,,., .. G. | +7<;<<<<<<<&<=<<:;<<&< |
seq1 | 278 | GRAMO | 23 | .... ,,.,., ... ,,,., .... ^ k. | %38*<<;<7<<7<=<<<;<<<<< |
seq1 | 279 | C | 23 | A,,.,.,...,,,.,..... | 75&<<<<<<<<<=<<<9<<:<<< |
Las columnas
Cada línea consta de 5 (u opcionalmente 6) columnas separadas por tabulaciones:
- Identificador de secuencia
- Posición en secuencia (comenzando desde 1)
- Nucleótido de referencia en esa posición
- Número de lecturas alineadas que cubren esa posición (profundidad de cobertura)
- Bases en esa posición de lecturas alineadas
- Calidad Phred de esas bases, representadas en ASCII con un desplazamiento de -33 (OPCIONAL)
Columna 5: La cadena de bases
- . (punto) significa una base que coincide con la referencia en la hebra delantera
- , (coma) significa una base que coincide con la referencia en la hebra inversa
- (signo menor / mayor que) denota un salto de referencia. Esto ocurre, por ejemplo, si una base en el genoma de referencia es intrónica y una lectura se asigna a dos exones flanqueantes. Si los puntajes de calidad se dan en una sexta columna , se refieren a la calidad de la lectura y no a la base específica.
- AGTCN (mayúsculas) denota una base que no coincide con la referencia en la hebra delantera
- agtcn (minúscula) denota una base que no coincide con la referencia en la hebra inversa
- Una secuencia que coincide con la expresión regular denota una inserción de una o más bases a partir de la siguiente posición. Por ejemplo, + 2AG significa inserción de AG en la hebra delantera
\+[0-9]+[ACGTNacgtn]+
- Una secuencia que coincide con la expresión regular denota una eliminación de una o más bases a partir de la siguiente posición. Por ejemplo, -2ct significa eliminación de CT en la hebra inversa
\-[0-9]+[ACGTNacgtn]+
- ^ (signo de intercalación) marca el inicio de un segmento de lectura y el ASCII del carácter que sigue a `^ 'menos 33 da la calidad del mapeo
- $ (dólar) marca el final de un segmento de lectura
- * (asterisco) es un marcador de posición para una base eliminada en una eliminación de pares de bases múltiples que se mencionó en una línea anterior por la notación
-[0-9]+[ACGTNacgtn]+
Columna 6: La cadena de calidad base
Esta es una columna opcional. Si está presente, el valor ASCII del carácter menos 33 da la calidad Phred de mapeo de cada una de las bases en la columna anterior 5. Esto es similar a la codificación de calidad en el formato FASTQ .
Extensión de archivo
No existe una extensión de archivo estándar para un archivo Pileup, pero se utilizan .msf (archivo de secuencia múltiple), .pup [2] y .pileup [ cita requerida ] .
Ver también
Referencias
- ^ Li H .; Handsaker B .; Wysoker A .; Fennell T .; Ruan J .; Homer N .; Marth G .; Abecasis G .; Durbin R; Subgrupo de procesamiento de datos del proyecto 1000 Genome (2009) (2009). "El formato de alineación / mapa de secuencia (SAM) y SAMtools" . Bioinformática . 25 (16): 2078–2079. doi : 10.1093 / bioinformatics / btp352 . PMC 2723002 . PMID 19505943 .
- ^ Accelrys (2 de octubre de 1998). "QUANTA: Diseño de proteínas. 3. Lectura y escritura de archivos de datos de secuencia" . Université de Montréal . Consultado el 27 de marzo de 2020 .