Puntaje de calidad phred

Una puntuación de calidad Phred es una medida de la calidad de la identificación de las nucleobases generadas por la secuenciación automática de ADN . ^[1]^[2] Fue desarrollado originalmente para llamadas de base Phred para ayudar en la automatización de la secuenciación de ADN en el Proyecto Genoma Humano . Las puntuaciones de calidad Phred se asignan a cada llamada base de nucleótidos en trazas de secuenciador automático. ^[1]^[2] El formato FASTQcodifica las puntuaciones phred como caracteres ASCII junto con las secuencias de lectura. Los puntajes de calidad Phred se han aceptado ampliamente para caracterizar la calidad de las secuencias de ADN y pueden usarse para comparar la eficacia de diferentes métodos de secuenciación. Quizás el uso más importante de las puntuaciones de calidad Phred es la determinación automática de secuencias de consenso precisas y basadas en la calidad .

Puntuaciones de calidad Phred mostradas en un seguimiento de secuencia de ADN

Definición

Puntuaciones de calidad phred ${\ displaystyle Q}$ se definen como una propiedad que está relacionada logarítmicamente con las probabilidades de error de llamada base ${\ Displaystyle P}$ . ^[2]

${\ Displaystyle Q = -10 \ \ log _ {10} P}$

o

${\ Displaystyle P = 10 ^ {\ frac {-Q} {10}}}$

Por ejemplo, si Phred asigna un puntaje de calidad de 30 a una base, las posibilidades de que esta base se llame incorrectamente son de 1 en 1000.

Los puntajes de calidad phred están vinculados logarítmicamente a las probabilidades de error
Nivel de calidad Phred	Probabilidad de una llamada base incorrecta	Precisión de la llamada base
10	1 de cada 10	90%
20	1 de cada 100	99%
30	1 en 1000	99,9%
40	1 de cada 10.000	99,99%
50	1 en 100.000	99,999%
60	1 en 1.000.000	99,9999%

El puntaje de calidad phred es la relación negativa entre la probabilidad de error y el nivel de referencia de ${\ Displaystyle P = 1}$ expresado en decibelios (dB) .

Historia

La idea de las puntuaciones de calidad de secuencia se remonta a la descripción original del formato de archivo SCF realizada por el grupo de Staden en 1992. ^[3] En 1995, Bonfield y Staden propusieron un método para utilizar puntuaciones de calidad específicas de base para mejorar la precisión del consenso. secuencias en proyectos de secuenciación de ADN. ^[4]

Sin embargo, los primeros intentos de desarrollar puntuaciones de calidad específicas de base ^[5]^[6] sólo tuvieron un éxito limitado.

El primer programa en desarrollar puntajes de calidad específicos de base precisos y poderosos fue el programa Phred . Phred pudo calcular puntuaciones de calidad altamente precisas que estaban vinculadas logarítmicamente a las probabilidades de error. Phred fue adoptado rápidamente por todos los principales centros de secuenciación del genoma, así como por muchos otros laboratorios; la gran mayoría de las secuencias de ADN producidas durante el Proyecto Genoma Humano se procesaron con Phred.

Después de que las puntuaciones de calidad de Phred se convirtieran en el estándar requerido en la secuenciación de ADN, otros fabricantes de instrumentos de secuenciación de ADN, incluidos Li-Cor y ABI , desarrollaron métricas de puntuación de calidad similares para su software de llamadas de base. ^[7]

Métodos

El enfoque de Phred para las llamadas de base y el cálculo de las puntuaciones de calidad fue descrito por Ewing et al. . Para determinar los puntajes de calidad, Phred primero calcula varios parámetros relacionados con la forma y la resolución de los picos en cada base. Phred luego usa estos parámetros para buscar un puntaje de calidad correspondiente en enormes tablas de búsqueda. Estas tablas de búsqueda se generaron a partir de trazas de secuencia donde se conocía la secuencia correcta y están codificadas en Phred; Se utilizan diferentes tablas de búsqueda para diferentes máquinas y químicas de secuenciación. Una evaluación de la precisión de las puntuaciones de calidad de Phred para una serie de variaciones en la química de secuenciación y la instrumentación mostró que las puntuaciones de calidad de Phred son muy precisas. ^[8]

Phred se desarrolló originalmente para máquinas secuenciadoras de "gel de placa" como la ABI373. Cuando se desarrolló originalmente, Phred tenía una tasa de error de llamadas base más baja que el software de llamadas base del fabricante, que tampoco proporcionaba puntuaciones de calidad. Sin embargo, Phred solo se adaptó parcialmente a los secuenciadores de ADN capilar que se hicieron populares más tarde. Por el contrario, los fabricantes de instrumentos como ABI continuaron adaptando sus cambios de software de llamada base en la química de secuenciación y han incluido la capacidad de crear puntajes de calidad similares a Phred. Por lo tanto, ha disminuido la necesidad de usar Phred para la llamada de bases de trazas de secuenciación de ADN, y el uso de las versiones de software actuales del fabricante a menudo puede dar resultados más precisos.

Aplicaciones

Las puntuaciones de calidad Phred se utilizan para la evaluación de la calidad de la secuencia, el reconocimiento y la eliminación de la secuencia de baja calidad (recorte final) y la determinación de secuencias de consenso precisas.

Originalmente, las puntuaciones de calidad de Phred fueron utilizadas principalmente por el programa de ensamblaje de secuencias Phrap . Phrap se utilizó habitualmente en algunos de los proyectos de secuenciación más importantes del Proyecto de secuenciación del genoma humano y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza puntuaciones de calidad Phred para determinar secuencias de consenso altamente precisas y para estimar la calidad de las secuencias de consenso. Phrap también utiliza puntuaciones de calidad Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.

Dentro del Proyecto Genoma Humano , el uso más importante de las puntuaciones de calidad Phred fue para la determinación automática de secuencias de consenso. Antes de Phred y Phrap, los científicos tenían que analizar cuidadosamente las discrepancias entre los fragmentos de ADN superpuestos; a menudo, esto implicaba la determinación manual de la secuencia de mayor calidad y la edición manual de cualquier error. El uso de Phrap de las puntuaciones de calidad Phred automatizó eficazmente la búsqueda de la secuencia de consenso de la más alta calidad; en la mayoría de los casos, esto evita por completo la necesidad de realizar una edición manual. Como resultado, la tasa de error estimada en ensamblajes que se crearon automáticamente con Phred y Phrap suele ser sustancialmente más baja que la tasa de error de la secuencia editada manualmente.

En 2009, muchos paquetes de software de uso común utilizan puntuaciones de calidad Phred, aunque en diferente medida. Los programas como Sequencher utilizan puntuaciones de calidad para la visualización, el recorte final y la determinación de consenso; otros programas como CodonCode Aligner también implementan métodos de consenso basados en la calidad.

Compresión

Las puntuaciones de calidad se almacenan normalmente junto con la secuencia de nucleótidos en el formato FASTQ ampliamente aceptado . Representan aproximadamente la mitad del espacio en disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente se están considerando en la literatura tanto la compresión sin pérdidas como con pérdidas . Por ejemplo, el algoritmo QualComp ^[9] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la distorsión de la velocidad, asigna el número de bits para minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE, ^[10] Fastqz ^[11] y más recientemente QVZ, ^[12] AQUa ^[13] y el estándar MPEG-G, que está actualmente en desarrollo por el grupo de trabajo de estandarización MPEG . Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general.

Referencias

^ ^a ^b Ewing B; Hillier L ; Wendl MC; Green P. (1998). "Llamada base de trazas de secuenciador automático utilizando phred. I. Evaluación de la precisión" . Investigación del genoma . 8 (3): 175-185. doi : 10.1101 / gr.8.3.175 . PMID 9521921 .
^ ^a ^b ^c Ewing B, Green P (1998). "Llamada base de trazas de secuenciador automático usando phred. II. Probabilidades de error" . Investigación del genoma . 8 (3): 186-194. doi : 10.1101 / gr.8.3.186 . PMID 9521922 .
^ Estimado S, Staden R (1992). "Un formato de archivo estándar para datos de instrumentos de secuenciación de ADN". Secuencia de ADN . 3 (2): 107-110. doi : 10.3109 / 10425179209034003 . PMID 1457811 .
^ Bonfield JK, Staden R (25 de abril de 1995). "La aplicación de estimaciones numéricas de precisión de llamadas de base a proyectos de secuenciación de ADN" . Investigación de ácidos nucleicos . 23 (8): 1406-1410. doi : 10.1093 / nar / 23.8.1406 . PMC 306869 . PMID 7753633 .
^ Churchill GA, Waterman MS (septiembre de 1992). "La precisión de las secuencias de ADN: estimación de la calidad de la secuencia". Genómica . 14 (1): 89–98. doi : 10.1016 / S0888-7543 (05) 80288-5 . hdl : 1813/31678 . PMID 1358801 .
^ Lawrence CB, Solovyev VV (1994). "Asignación de probabilidad de error específico de la posición a los datos de la secuencia de ADN primaria" . Investigación de ácidos nucleicos . 22 (7): 1272-1280. doi : 10.1093 / nar / 22.7.1272 . PMC 523653 . PMID 8165143 .
^ "Life Technologies - EE. UU." (PDF) .
^ Richterich P (1998). "Estimación de errores en secuencias de ADN" sin procesar ": un estudio de validación" . Investigación del genoma . 8 (3): 251-259. doi : 10.1101 / gr.8.3.251 . PMC 310698 . PMID 9521928 .
^ Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp : un nuevo compresor con pérdidas para puntuaciones de calidad basadas en la teoría de la distorsión de la tasa" . BMC Bioinformática . 14 : 187. doi : 10.1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .
^ Hach, F; Numanagic, yo; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulso de algoritmos de compresión de secuencias utilizando codificación coherente localmente" . Bioinformática . 28 (23): 3051-3057. doi : 10.1093 / bioinformatics / bts593 . PMC 3509486 . PMID 23047557 .
^ "fastqz - compresor FASTQ" .
^ Malysa, Greg; Hernaez, Mikel; Ochoa, Idoia; Rao, Milind; Ganesan, Karthik; Weissman, Tsachy (1 de octubre de 2015). "QVZ: compresión con pérdida de valores de calidad" . Bioinformática . 31 (19): 3122–3129. doi : 10.1093 / bioinformatics / btv330 . ISSN 1367-4803 . PMC 5856090 . PMID 26026138 .
^ Paridaens, Tom; Van Wallendael, Glenn; De Neve, Wesley; Lambert, Peter (2018). "AQUa: un marco adaptativo para la compresión de las puntuaciones de calidad de secuenciación con funcionalidad de acceso aleatorio" . Bioinformática . 34 (3): 425–433. doi : 10.1093 / bioinformatics / btx607 . PMID 29028894 .

enlaces externos

Lecturas largas con KB Basecaller Comparación de la precisión de Phred con un programa de la competencia, KB Basecaller de ABI
La página de inicio del Laboratorio de Phil Green Phrap.

[phred-caller-1] Ewing B; Hillier L ; Wendl MC; Green P. (1998). "Llamada base de trazas de secuenciador automático utilizando phred. I. Evaluación de la precisión" . Investigación del genoma . 8 (3): 175-185. doi : 10.1101 / gr.8.3.175 . PMID 9521921 .

[phred-score-2] Ewing B, Green P (1998). "Llamada base de trazas de secuenciador automático usando phred. II. Probabilidades de error" . Investigación del genoma . 8 (3): 186-194. doi : 10.1101 / gr.8.3.186 . PMID 9521922 .

[3] Estimado S, Staden R (1992). "Un formato de archivo estándar para datos de instrumentos de secuenciación de ADN". Secuencia de ADN . 3 (2): 107-110. doi : 10.3109 / 10425179209034003 . PMID 1457811 .

[4] Bonfield JK, Staden R (25 de abril de 1995). "La aplicación de estimaciones numéricas de precisión de llamadas de base a proyectos de secuenciación de ADN" . Investigación de ácidos nucleicos . 23 (8): 1406-1410. doi : 10.1093 / nar / 23.8.1406 . PMC 306869 . PMID 7753633 .

[5] Churchill GA, Waterman MS (septiembre de 1992). "La precisión de las secuencias de ADN: estimación de la calidad de la secuencia". Genómica . 14 (1): 89–98. doi : 10.1016 / S0888-7543 (05) 80288-5 . hdl : 1813/31678 . PMID 1358801 .

[6] Lawrence CB, Solovyev VV (1994). "Asignación de probabilidad de error específico de la posición a los datos de la secuencia de ADN primaria" . Investigación de ácidos nucleicos . 22 (7): 1272-1280. doi : 10.1093 / nar / 22.7.1272 . PMC 523653 . PMID 8165143 .

[7] "Life Technologies - EE. UU." (PDF) .

[8] Richterich P (1998). "Estimación de errores en secuencias de ADN" sin procesar ": un estudio de validación" . Investigación del genoma . 8 (3): 251-259. doi : 10.1101 / gr.8.3.251 . PMC 310698 . PMID 9521928 .

[9] Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp : un nuevo compresor con pérdidas para puntuaciones de calidad basadas en la teoría de la distorsión de la tasa" . BMC Bioinformática . 14 : 187. doi : 10.1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .

[10] Hach, F; Numanagic, yo; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulso de algoritmos de compresión de secuencias utilizando codificación coherente localmente" . Bioinformática . 28 (23): 3051-3057. doi : 10.1093 / bioinformatics / bts593 . PMC 3509486 . PMID 23047557 .

[11] "fastqz - compresor FASTQ" .

[12] Malysa, Greg; Hernaez, Mikel; Ochoa, Idoia; Rao, Milind; Ganesan, Karthik; Weissman, Tsachy (1 de octubre de 2015). "QVZ: compresión con pérdida de valores de calidad" . Bioinformática . 31 (19): 3122–3129. doi : 10.1093 / bioinformatics / btv330 . ISSN 1367-4803 . PMC 5856090 . PMID 26026138 .

[13] Paridaens, Tom; Van Wallendael, Glenn; De Neve, Wesley; Lambert, Peter (2018). "AQUa: un marco adaptativo para la compresión de las puntuaciones de calidad de secuenciación con funcionalidad de acceso aleatorio" . Bioinformática . 34 (3): 425–433. doi : 10.1093 / bioinformatics / btx607 . PMID 29028894 .

[1]