Sequence Alignment Map (SAM) es un formato basado en texto originalmente para almacenar secuencias biológicas alineadas con una secuencia de referencia desarrollada por Heng Li y Bob Handsaker et al . [1] Fue desarrollado cuando el Proyecto 1000 Genomas quiso alejarse del formato mapeador MAQ y decidió diseñar un nuevo formato. El sabor general delimitado por tabuladores del formato de vino de un formato anterior inspirado en Blat PSL ‘s. El nombre de SAM vino de Gabor Marth de la Universidad de Utah , quien originalmente tenía un formato con el mismo nombre pero con una sintaxis diferente más similar a un BLASTproducción. [2] Se usa ampliamente para almacenar datos, como secuencias de nucleótidos , generados por tecnologías de secuenciación de próxima generación , y el estándar se ha ampliado para incluir secuencias no mapeadas. [3] El formato admite lecturas cortas y largas (hasta 128 Mbp) producidas por diferentes plataformas de secuenciación y se utiliza para almacenar datos mapeados dentro del Genome Analysis Toolkit (GATK) y en el Broad Institute , el Wellcome Sanger Institute y en todo el Proyecto 1000 Genomas .
Desarrollado por |
|
---|---|
Tipo de formato | Bioinformática |
Extendido desde | Valores separados por tabuladores |
Sitio web | samtools |
Formato
El formato SAM consta de un encabezado y una sección de alineación. [1] El equivalente binario de un archivo SAM es un archivo de mapa de alineación binaria (BAM), que almacena los mismos datos en una representación binaria comprimida. [4] Los archivos SAM se pueden analizar y editar con el software SAMtools . [1] La sección de encabezado debe ser anterior a la sección de alineación si está presente. Los títulos comienzan con el símbolo '@', que los distingue de la sección de alineación. Las secciones de alineación tienen 11 campos obligatorios, así como un número variable de campos opcionales. [1]
Columna | Campo | Tipo | Breve descripción |
---|---|---|---|
1 | QNAME | Cuerda | Plantilla de consulta NAME |
2 | BANDERA | En t | BANDERA bit a bit |
3 | RNAME | Cuerda | Secuencia de referencias NAME |
4 | POS | En t | 1 posición de mapeo basada en el extremo izquierdo |
5 | MAPQ | En t | Calidad de mapeo |
6 | CIGARRO | Cuerda | Cadena de cigarros |
7 | RNEXT | Cuerda | Árbitro. nombre del compañero / próxima lectura |
8 | PNEXT | En t | Posición del compañero / próxima lectura |
9 | TLEN | En t | LONGITUD de plantilla observada |
10 | SEQ | Cuerda | secuencia de segmento |
11 | CUAL | Cuerda | ASCII de calidad base en escala Phred + 33 |
Descripción
De la especificación: [4]
- QNAME: plantilla de consulta NAME. Se considera que las lecturas / segmentos que tienen QNAME idéntico provienen de la misma plantilla. Un QNAME '*' indica que la información no está disponible. En un archivo SAM, una lectura puede ocupar varias líneas de alineación, cuando su alineación es quimérica o cuando se dan múltiples asignaciones.
- BANDERA: combinación de BANDERAS bit a bit [5]
- RNAME: NOMBRE de la secuencia de referencia de la alineación. Si hay líneas de encabezado @SQ, RNAME (si no es '*') debe estar presente en una de las etiquetas SQ-SN. Un segmento no mapeado sin coordenadas tiene un '*' en este campo. Sin embargo, un segmento no mapeado también puede tener una coordenada ordinaria de modo que pueda colocarse en la posición deseada después de la clasificación. Si RNAME es '*', no se pueden hacer suposiciones sobre POS y CIGAR.
- POS: posición de mapeo del extremo izquierdo basada en 1 de la primera base coincidente. La primera base de una secuencia de referencia tiene la coordenada 1. POS se establece en 0 para una lectura no mapeada sin coordenada. Si POS es 0, no se pueden hacer suposiciones sobre RNAME y CIGAR.
- MAPQ: MAPping Quality. Es igual a −10 log10 Pr {la posición de mapeo es incorrecta}, redondeado al entero más cercano. Un valor 255 indica que la calidad del mapeo no está disponible.
- CIGAR: Cadena de informe de alineación con brechas idiosincrásicas concisas (CIGAR).
- RNEXT: nombre de secuencia de referencia de la alineación principal del NEXT leído en la plantilla. Para la última lectura, la siguiente lectura es la primera lectura en la plantilla. Si hay líneas de encabezado @SQ, RNEXT (si no es '*' o '=') debe estar presente en una de las etiquetas SQ-SN. Este campo se establece como '*' cuando la información no está disponible, y se establece como '=' si RNEXT es RNAME idéntico. Si no es '=' y la siguiente lectura en la plantilla tiene una asignación primaria (ver también el bit 0x100 en FLAG), este campo es idéntico a RNAME en la línea primaria de la siguiente lectura. Si RNEXT es '*', no se pueden hacer suposiciones sobre PNEXT y el bit 0x20.
- PNEXT: Posición de la alineación primaria del NEXT leído en la plantilla. Establecer como 0 cuando la información no esté disponible. Este campo es igual a POS en la línea principal de la siguiente lectura. Si PNEXT es 0, no se pueden realizar suposiciones sobre RNEXT y el bit 0x20.
- TLEN: LONGITUD de la plantilla observada firmada. Si todos los segmentos están mapeados a la misma referencia, la longitud de la plantilla observada sin firmar es igual al número de bases desde la base mapeada más a la izquierda hasta la base mapeada más a la derecha. El segmento más a la izquierda tiene un signo más y el más a la derecha tiene un signo menos. El signo de los segmentos en el medio no está definido. Se establece en 0 para la plantilla de un solo segmento o cuando la información no está disponible.
- SEQ: segmento SEQuence. Este campo puede ser un '*' cuando la secuencia no está almacenada. Si no es un '*', la longitud de la secuencia debe ser igual a la suma de las longitudes de las operaciones M / I / S / = / X en CIGAR. Un '=' indica que la base es idéntica a la base de referencia. No se pueden hacer suposiciones sobre los estuches de cartas.
- QUAL: ASCII de base QUALity más 33 (igual que la cadena de calidad en el formato Sanger FASTQ ). Una calidad base es la probabilidad de error base en escala phred que es igual a −10 log10 Pr {la base es incorrecta}. Este campo puede ser un '*' cuando no se almacena la calidad. Si no es un '*', SEQ no debe ser un '*' y la longitud de la cadena de calidad debe ser igual a la longitud de SEQ.
Banderas bit a bit
El campo FLAG se muestra como un solo entero, pero es la suma de indicadores bit a bit para denotar múltiples atributos de una alineación de lectura. [4] Cada atributo denota un bit en la representación binaria del entero.
Entero | Binario | Descripción (interpretación de lectura emparejada) |
---|---|---|
1 | 000000000001 | plantilla que tiene varias plantillas en secuencia (la lectura está emparejada) |
2 | 000000000010 | cada segmento correctamente alineado de acuerdo con el alineador (lea mapeado en el par adecuado) |
4 | 000000000100 | segmento no mapeado (leído1 no mapeado) |
8 | 000000001000 | siguiente segmento en la plantilla sin mapear (read2 sin mapear) |
dieciséis | 000000010000 | SEQ se complementa a la inversa (lectura1 se complementa a la inversa) |
32 | 000000100000 | SEQ del siguiente segmento en la plantilla que se complementa en sentido inverso (read2 reverse complementado) |
64 | 000001000000 | el primer segmento de la plantilla (es read1) |
128 | 000010000000 | el último segmento de la plantilla (se lee2) |
256 | 000100000000 | no alineación primaria |
512 | 001000000000 | la alineación falla los controles de calidad |
1024 | 010000000000 | PCR o duplicado óptico |
2048 | 100000000000 | alineación suplementaria (por ejemplo, alineador específico, podría ser una parte de una lectura dividida o una región ligada) |
Los atributos FLAG se suman para obtener el valor final, por ejemplo, una fila SAM resultante de un registro FASTQ de extremo emparejado de Illumina que tiene el valor FLAG 2145 indicaría:
Valor de la bandera | Significado | Suma de la bandera |
---|---|---|
1 | la lectura está emparejada | 1 |
32 | read2 se complementó a la inversa | 33 |
64 | leer1 | 97 |
2048 | Alineación suplementaria | 2145 |
Campos opcionales
De la especificación: [4]
El tipo puede ser A (carácter), B (matriz general), f (número real), H (matriz hexadecimal), i (entero) o Z (cadena).
Etiqueta | Tipo | Descripción |
---|---|---|
SOY | I | La calidad de mapeo independiente de la plantilla más pequeña de la plantilla |
COMO | I | Puntuación de alineación generada por el alineador |
antes de Cristo | Z | Secuencia de código de barras que identifica la muestra |
BQ | Z | Desplazamiento a la calidad de alineación base (BAQ) |
BZ | Z | Calidad phred de las bases de códigos de barras moleculares únicas en la etiqueta OX |
CB | Z | Identificador de celda |
CC | Z | Nombre de referencia del siguiente hit |
CG | BI | Solo BAM: CIGAR en la codificación binaria de BAM si (y solo si) consta de> 65535 operadores |
CM | I | Edite la distancia entre la secuencia de color y la referencia de color (consulte también NM) |
CO | Z | Comentarios de texto libre |
CP | I | Coordenada más a la izquierda del siguiente golpe |
CQ | Z | Cualidades de base de lectura de color |
CR | Z | Bases de secuencia de código de barras celular (sin corregir) |
CS | Z | Secuencia de lectura de color |
Connecticut | Z | Etiqueta de anotación de lectura completa, utilizada para funciones ficticias de anotación de consenso |
CY | Z | Calidad phred de la secuencia del código de barras celular en la etiqueta CR |
E2 | Z | La segunda base de llamadas más probable |
FI | I | El índice de segmento en la plantilla. |
FS | Z | Sufijo de segmento |
FZ | B, S | Intensidades de la señal de flujo |
GC | ? | Reservado por razones de compatibilidad con versiones anteriores |
GQ | ? | Reservado por razones de compatibilidad con versiones anteriores |
GS | ? | Reservado por razones de compatibilidad con versiones anteriores |
H0 | I | Número de aciertos perfectos |
H1 | I | Número de aciertos de 1 diferencia (ver también NM) |
H2 | I | Número de aciertos de 2 diferencias |
HOLA | I | Índice de aciertos de consulta |
IH | I | Recuento total de visitas a la consulta |
LB | Z | Biblioteca |
MC | Z | Cadena CIGAR para mate / siguiente segmento |
Maryland | Z | Cadena para posiciones que no coinciden |
MF | ? | Reservado por razones de compatibilidad con versiones anteriores |
MI | Z | Identificador molecular; una cadena que identifica de forma única la molécula de la que se derivó el registro |
MQ | I | Mapeo de la calidad de la pareja / siguiente segmento |
NUEVA HAMPSHIRE | I | Número de alineaciones informadas que contienen la consulta en el registro actual |
Nuevo Méjico | I | Editar la distancia a la referencia |
OA | Z | Alineación original |
jefe | Z | CIGAR original (obsoleto; use OA en su lugar) |
OP | I | Posición de mapeo original (obsoleta; use OA en su lugar) |
OQ | Z | Calidad base original |
BUEY | Z | Bases originales de códigos de barras moleculares únicos |
PG | Z | Programa |
PQ | I | Probabilidad phred de la plantilla |
PT | Z | Leer anotaciones para partes de la secuencia de lectura acolchada |
PU | Z | Unidad de plataforma |
Q2 | Z | Calidad phred de la secuencia de mate / siguiente segmento en la etiqueta R2 |
QT | Z | Calidad phred de la secuencia de código de barras de muestra en la etiqueta BC |
QX | Z | Puntuación de calidad del identificador molecular único en la etiqueta RX |
R2 | Z | Secuencia de la relación de posición / siguiente segmento en la plantilla |
RG | Z | Leer grupo |
RT | ? | Reservado por razones de compatibilidad con versiones anteriores |
RX | Z | Bases de secuencia del identificador molecular único (posiblemente corregido) |
S2 | ? | Reservado por razones de compatibilidad con versiones anteriores |
SA | Z | Otras alineaciones canónicas en una alineación quimérica |
SM | I | Calidad de mapeo independiente de la plantilla |
SQ | ? | Reservado por razones de compatibilidad con versiones anteriores |
TC | I | El número de segmentos en la plantilla. |
U2 | Z | La probabilidad de phred de que la segunda llamada sea incorrecta está condicionada a que la mejor esté equivocada |
UQ | I | Probabilidad phred del segmento, condicionada a que el mapeo sea correcto |
¿X? | ? | Reservado para usuarios finales |
Y? | ? | Reservado para usuarios finales |
Z? | ? | Reservado para usuarios finales |
Ver también
Referencias
- ^ a b c d e Li, H .; Handsaker, B .; Wysoker, A .; Fennell, T .; Ruan, J .; Homer, N .; Marth, G .; Abecasis, G .; Durbin, R. (2009). "El formato Sequence Alignment / Map y SAMtools" (PDF) . Bioinformática . 25 (16): 2078–2079. doi : 10.1093 / bioinformatics / btp352 . ISSN 1367-4803 . PMC 2723002 . PMID 19505943 .
- ^ "Tócala de nuevo, SAMtools. Preguntas y respuestas con el equipo de SAMtools sobre 12 años de proporcionar" pegamento "bioinformático: GigaBlog" . gigasciencejournal.com . Consultado el 20 de marzo de 2021 .
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf
- ^ a b c d "Especificación de formato SAM / BAM" (PDF) . samtools.github.io .
- ^ Decodificación de banderas SAM