Puntuación de Sulston

La puntuación de Sulston es una ecuación utilizada en el mapeo de ADN para evaluar numéricamente la probabilidad de que una similitud de "huella dactilar" dada entre dos clones de ADN sea simplemente un resultado de la casualidad. Usado como tal, es una prueba de significación estadística . Es decir, valores bajos implican que la similitud es significativa , lo que sugiere que dos clones de ADN se superponen y que la similitud dada no es solo un evento casual. El nombre es un epónimo que se refiere a John Sulston en virtud de que es el autor principal del artículo que propuso por primera vez el uso de la ecuación. ^[1]

El problema de la superposición en el mapeo

Cada clon en un proyecto de mapeo de ADN tiene una "huella digital", es decir , un conjunto de longitudes de fragmentos de ADN inferidas de (1) digerir enzimáticamente el clon, (2) separar estos fragmentos en un gel y (3) estimar sus longitudes en base a gel. localización. Para cada comparación de clones por pares, se puede establecer cuántas longitudes de cada conjunto coinciden. Los casos que tienen al menos 1 coincidencia indican que los clones pueden superponerse porque las coincidencias pueden representar el mismo ADN. Sin embargo, se desconocen las secuencias subyacentes para cada coincidencia. En consecuencia, dos fragmentos cuyas longitudes coinciden aún pueden representar secuencias diferentes. En otras palabras, las coincidencias no indican de manera concluyente superposiciones. El problema es, en cambio, el uso de coincidencias para clasificar probabilísticamente el estado de superposición.

Puntajes matemáticos en evaluación superpuesta

Los biólogos han utilizado una variedad de medios (a menudo en combinación) para discernir las superposiciones de clones en proyectos de mapeo de ADN . Si bien muchos son biológicos, es decir , buscan marcadores compartidos, otros son básicamente matemáticos, por lo general adoptan enfoques probabilísticos y / o estadísticos.

Exposición de la partitura de Sulston

El puntaje de Sulston se basa en los conceptos de Bernoulli y procesos binomiales , como sigue. Considere dos clones, ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ , teniendo ${\ Displaystyle m}$ y ${\ Displaystyle n}$ longitudes de fragmentos medidos, respectivamente, donde ${\ Displaystyle m \ geq n}$ . Es decir, clon ${\ Displaystyle \ alpha}$ tiene al menos tantos fragmentos como clon ${\ Displaystyle \ beta}$ , pero normalmente más. La puntuación de Sulston es la probabilidad de que al menos ${\ Displaystyle h}$ longitudes de fragmentos en clon ${\ Displaystyle \ beta}$ coincidirá con cualquier combinación de longitudes en ${\ Displaystyle \ alpha}$ . Intuitivamente, vemos que, a lo sumo, puede haber ${\ Displaystyle n}$ partidos. Por lo tanto, para una comparación dada entre dos clones, se puede medir la significancia estadística de una coincidencia de ${\ Displaystyle h}$ fragmentos, es decir , qué tan probable es que esta coincidencia se haya producido simplemente como resultado de una casualidad aleatoria. Los valores muy bajos indicarían una coincidencia significativa que es muy poco probable que haya surgido por pura casualidad, mientras que los valores más altos sugerirían que la coincidencia dada podría ser solo una coincidencia.

Derivación de la puntuación de Sulston

Uno de los supuestos básicos es que los fragmentos se distribuyen uniformemente en un gel, es decir , un fragmento tiene la misma probabilidad de aparecer en cualquier parte del gel. Dado que la posición del gel es un indicador de la longitud del fragmento, esta suposición equivale a suponer que las longitudes de los fragmentos están distribuidas uniformemente. La ubicación medida de cualquier fragmento

{\ Displaystyle x}

, tiene una tolerancia de error asociada de

{\ Displaystyle \ pm t}

, de modo que solo se sabe que su verdadera ubicación se encuentra dentro del segmento

{\ Displaystyle x \ pm t}

.

En lo que sigue, nos referiremos a las longitudes de los fragmentos individuales simplemente como longitudes . Considere una longitud específica ${\ Displaystyle j}$ en clon ${\ Displaystyle \ beta}$ y una longitud específica ${\ Displaystyle i}$ en clon ${\ Displaystyle \ alpha}$ . Estas dos longitudes se seleccionan arbitrariamente de sus respectivos conjuntos ${\ Displaystyle i \ in \ {1,2, \ dots, m \}}$ y ${\ Displaystyle j \ in \ {1,2, \ dots, n \}}$ . Suponemos que la ubicación del gel del fragmento ${\ Displaystyle j}$ se ha determinado y queremos la probabilidad del evento ${\ Displaystyle E_ {ij}}$ que la ubicación del fragmento ${\ Displaystyle i}$ coincidirá con el de ${\ Displaystyle j}$ . Geométricamente, ${\ Displaystyle i}$ será declarado para coincidir ${\ Displaystyle j}$ si cae dentro de la ventana de tamaño ${\ Displaystyle 2t}$ alrededor ${\ Displaystyle j}$ . Desde fragmento ${\ Displaystyle i}$ podría ocurrir en cualquier parte del gel de longitud ${\ Displaystyle G}$ , tenemos ${\ Displaystyle P \ langle E_ {ij} \ rangle = 2t / G}$ . La probabilidad de que ${\ Displaystyle i}$ no coincide ${\ Displaystyle j}$ es simplemente el complemento, es decir ${\ Displaystyle P \ langle E_ {i, j} ^ {C} \ rangle = 1-2t / G}$ , ya que debe coincidir o no.

Ahora, ampliemos esto para calcular la probabilidad de que no haya longitud en el clon ${\ Displaystyle \ alpha}$ coincide con la única longitud particular ${\ Displaystyle j}$ en clon ${\ Displaystyle \ beta}$ . Esta es simplemente la intersección de todos los ensayos individuales. ${\ Displaystyle i \ in \ {1,2, \ dots, m \}}$ donde el evento ${\ Displaystyle E_ {i, j} ^ {C}}$ ocurre, es decir ${\ Displaystyle P \ langle E_ {1, j} ^ {C} \ cap E_ {2, j} ^ {C} \ cap \ cdots \ cap E_ {m, j} ^ {C} \ rangle}$ . Esto se puede reformular verbalmente como: longitud 1 en el clon ${\ Displaystyle \ alpha}$ no coincide con la longitud ${\ Displaystyle j}$ en clon ${\ Displaystyle \ beta}$ y la longitud 2 no coincide con la longitud ${\ Displaystyle j}$ y la longitud 3 no coincide, etc. Dado que se supone que cada uno de estos ensayos es independiente, la probabilidad es simplemente

{\ Displaystyle P \ langle E_ {1, j} ^ {C} \ rangle \ times P \ langle E_ {2, j} ^ {C} \ rangle \ times \ cdots \ times P \ langle E_ {m, j} ^ {C} \ rangle = \ left (1-2t / G \ right) ^ {m}.}

Por supuesto, el hecho en sí de interés es el complemento: es decir, no es no "coincidencias". En otras palabras, la probabilidad de una o más coincidencias es ${\ Displaystyle p = 1- \ left (1-2t / G \ right) ^ {m}}$ . Formalmente, ${\ Displaystyle p}$ es la probabilidad de que al menos una banda en el clon ${\ Displaystyle \ alpha}$ coincide con la banda ${\ Displaystyle j}$ en clon ${\ Displaystyle \ beta}$ .

Este evento se toma como un ensayo de Bernoulli que tiene una probabilidad de "éxito" (coincidencia) de ${\ Displaystyle p}$ para banda ${\ Displaystyle j}$ . Sin embargo, queremos describir el proceso en todas las bandas del clon. ${\ Displaystyle \ beta}$ . Desde ${\ Displaystyle p}$ es constante, el número de coincidencias se distribuye binomialmente . Dado ${\ Displaystyle h}$ partidos observados, la puntuación de Sulston ${\ Displaystyle S}$ es simplemente la probabilidad de obtener al menos ${\ Displaystyle h}$ partidos por casualidad según

{\ Displaystyle S = \ sum _ {j = h} ^ {n} C_ {n, j} p ^ {j} (1-p) ^ {nj},}

dónde ${\ Displaystyle C_ {n, j}}$ son coeficientes binomiales .

Refinamiento matemático

En un artículo de 2005, ^[2] Michael Wendl dio un ejemplo que muestra que la suposición de ensayos independientes no es válida. Entonces, aunque el puntaje tradicional de Sulston representa de hecho una distribución de probabilidad , en realidad no es la característica de distribución del problema de las huellas dactilares. Wendl pasó a dar la solución general para este problema en términos de los polinomios de Bell , mostrando que la puntuación tradicional predice en exceso los valores P en órdenes de magnitud. (Los valores P son muy pequeños en este problema, por lo que estamos hablando, por ejemplo, de probabilidades del orden de 10 × 10 ⁻¹⁴ frente a 10 × 10 ⁻¹² , siendo el último valor de Sulston 2 órdenes de magnitud demasiado alto). Esta solución proporciona una base para determinar cuándo un problema tiene suficiente contenido de información para ser tratado por el enfoque probabilístico y también es una solución general al problema de cumpleaños de 2 tipos .

Una desventaja de la solución exacta es que su evaluación es computacionalmente intensiva y, de hecho, no es factible para comparar clones grandes. ^[2] Se han propuesto algunas aproximaciones rápidas para este problema. ^[3]

Referencias

^ Sulston J, Mallett F, Staden R, Durbin R, Horsnell T, Coulson A (marzo de 1988). "Software para el mapeo del genoma mediante técnicas de huellas dactilares". Comput Appl Biosci . 4 (1): 125–32. doi : 10.1093 / bioinformatics / 4.1.125 . PMID 2838135 .
^ ^a ^b Wendl MC (abril de 2005). "Evaluación probabilística de superposiciones de clones en el mapeo de huellas dactilares de ADN a través de modelos a priori". J. Comput. Biol . 12 (3): 283–97. doi : 10.1089 / cmb.2005.12.283 . PMID 15857243 .
^ Wendl MC (2007). "Métodos de corrección algebraica para la evaluación computacional de superposiciones de clones en el mapeo de huellas dactilares de ADN" . BMC Bioinformática . 8 : 127. doi : 10.1186 / 1471-2105-8-127 . PMC 1868038 . PMID 17442113 .

Ver también

FPC : un programa de mapeo de huellas dactilares ampliamente utilizado que utiliza la puntuación de Sulston

[sulston1988-1] Sulston J, Mallett F, Staden R, Durbin R, Horsnell T, Coulson A (marzo de 1988). "Software para el mapeo del genoma mediante técnicas de huellas dactilares". Comput Appl Biosci . 4 (1): 125–32. doi : 10.1093 / bioinformatics / 4.1.125 . PMID 2838135 .

[wendl2005-2] Wendl MC (abril de 2005). "Evaluación probabilística de superposiciones de clones en el mapeo de huellas dactilares de ADN a través de modelos a priori". J. Comput. Biol . 12 (3): 283–97. doi : 10.1089 / cmb.2005.12.283 . PMID 15857243 .

[wendl-2007-3] Wendl MC (2007). "Métodos de corrección algebraica para la evaluación computacional de superposiciones de clones en el mapeo de huellas dactilares de ADN" . BMC Bioinformática . 8 : 127. doi : 10.1186 / 1471-2105-8-127 . PMC 1868038 . PMID 17442113 .

[1]