En estadística , la diferencia de medias estrictamente estandarizada (SSMD) es una medida del tamaño del efecto . Es la media dividida por la desviación estándar de una diferencia entre dos valores aleatorios, cada uno de uno de los dos grupos. Inicialmente se propuso para el control de calidad [1] y la selección de aciertos [2] en el cribado de alto rendimiento (HTS) y se ha convertido en un parámetro estadístico que mide el tamaño del efecto para la comparación de dos grupos cualesquiera con valores aleatorios. [3]
Fondo
En el cribado de alto rendimiento (HTS), el control de calidad (QC) es fundamental. Una característica importante de CC en un ensayo de HTS es cuánto difieren entre sí los controles positivos, los compuestos de prueba y los controles negativos. Esta característica de CC se puede evaluar mediante la comparación de dos tipos de pozos en los ensayos de HTS . La relación señal-ruido (S / N), la relación señal-fondo (S / B) y el factor Z se han adoptado para evaluar la calidad de los ensayos HTS mediante la comparación de dos tipos de pozos investigados. Sin embargo, el S / B no toma en cuenta ninguna información sobre variabilidad; y el S / N puede capturar la variabilidad solo en un grupo y, por lo tanto, no puede evaluar la calidad del ensayo cuando los dos grupos tienen diferentes variabilidades. [1] Zhang JH y col. propuesto la Z-factor de . [4] La ventaja del factor Z sobre S / N y S / B es que tiene en cuenta las variabilidades en ambos grupos comparados. Como resultado, el factor Z se ha utilizado ampliamente como una métrica de control de calidad en los ensayos de HTS. [ cita requerida ] El signo absoluto en el factor Z hace que sea inconveniente derivar matemáticamente su inferencia estadística.
Para derivar un parámetro mejor interpretable para medir la diferenciación entre dos grupos, Zhang XHD [1] propuso SSMD para evaluar la diferenciación entre un control positivo y un control negativo en los ensayos de HTS. SSMD tiene una base probabilística debido a su fuerte vínculo con la probabilidad d + (es decir, la probabilidad de que la diferencia entre dos grupos sea positiva). [2] Hasta cierto punto, la probabilidad d + es equivalente al índice probabilístico bien establecido P ( X > Y ) que se ha estudiado y aplicado en muchas áreas. [5] [6] [7] [8] [9] Apoyado en su base probabilística, el SSMD se ha utilizado tanto para el control de calidad como para la selección de aciertos en el cribado de alto rendimiento. [1] [2] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21]
Concepto
Parámetro estadístico
Como parámetro estadístico, SSMD (denotado como ) se define como la relación entre la media y la desviación estándar de la diferencia de dos valores aleatorios respectivamente de dos grupos. Suponga que un grupo con valores aleatorios tiene media y varianza y otro grupo tiene media y varianza . La covarianza entre los dos grupos esEntonces, el SSMD para la comparación de estos dos grupos se define como [1]
Si los dos grupos son independientes,
Si los dos grupos independientes tienen varianzas iguales ,
En la situación en la que los dos grupos están correlacionados, una estrategia de uso común para evitar el cálculo de es primero obtener observaciones pareadas de los dos grupos y luego estimar el SSMD basado en las observaciones pareadas. Basado en una diferencia pareadacon media poblacional y , SSMD es
Estimación estadística
En la situación en la que los dos grupos son independientes, Zhang XHD [1] derivó la estimación de máxima verosimilitud (MLE) y la estimación del método de momento (MM) de SSMD. Suponga que los grupos 1 y 2 tienen media muestral y variaciones de la muestra . La estimación de MM de SSMD es entonces [1]
Cuando los dos grupos tienen distribuciones normales con igual varianza , la estimación insesgada de varianza mínima uniforme (UMVUE) de SSMD es, [10]
dónde son los tamaños de muestra en los dos grupos y . [3]
En la situación en la que los dos grupos están correlacionados, según una diferencia pareada con un tamaño de muestra , media muestral y varianza de la muestra , la estimación de MM de SSMD es
La estimación de UMVUE de SSMD es [22]
SSMD se parece a la estadística t y la d de Cohen, pero son diferentes entre sí, como se ilustra en. [3]
Aplicación en ensayos de cribado de alto rendimiento
SSMD es la relación entre la media y la desviación estándar de la diferencia entre dos grupos. Cuando los datos se preprocesan utilizando la transformación logarítmica como lo hacemos normalmente en los experimentos de HTS, SSMD es la media del cambio logarítmico dividido por la desviación estándar del cambio logarítmico con respecto a una referencia negativa. En otras palabras, SSMD es el cambio de pliegue promedio (en la escala logarítmica) penalizado por la variabilidad del cambio de pliegue (en la escala logarítmica) [23] . Para el control de calidad, un índice de la calidad de un ensayo HTS es la magnitud de la diferencia entre un control positivo y una referencia negativa en una placa de ensayo . Para la selección de aciertos, el tamaño de los efectos de un compuesto (es decir, una molécula pequeña o un ARNip ) está representado por la magnitud de la diferencia entre el compuesto y una referencia negativa. SSMD mide directamente la magnitud de la diferencia entre dos grupos. Por lo tanto, SSMD se puede utilizar tanto para el control de calidad como para la selección de aciertos en los experimentos de HTS.
Control de calidad
El número de pocillos para los controles positivo y negativo en una placa en la plataforma de 384 o 1536 pocillos normalmente se diseña para que sea razonablemente grande. [24] Suponga que los controles positivo y negativo en una placa tienen una media muestral , variaciones de muestra y tamaños de muestra . Por lo general, se cumple la suposición de que los controles tienen la misma varianza en una placa. En tal caso, el SSMD para evaluar la calidad en esa placa se estima en [10]
dónde . Cuando el supuesto de varianza igual no se cumple, el SSMD para evaluar la calidad en esa placa se estima como [1]
Si hay claramente valores atípicos en los controles, el SSMD puede estimarse como [23]
dónde son las medianas y las desviaciones absolutas de la mediana en los controles positivo y negativo, respectivamente.
El criterio de control de calidad basado en el factor Z se usa popularmente en los ensayos de HTS. Sin embargo, se ha demostrado que este criterio de CC es el más adecuado para un ensayo con controles positivos muy o extremadamente fuertes. [10] En un ensayo de RNAi HTS, un control positivo fuerte o moderado suele ser más instructivo que un control positivo muy o extremadamente fuerte porque la eficacia de este control es más similar a los resultados de interés. Además, los controles positivos en los dos experimentos HTS, en teoría, tienen diferentes tamaños de efectos. En consecuencia, los umbrales de CC para el control moderado deberían ser diferentes de los del control fuerte en estos dos experimentos. Además, es común que se adopten dos o más controles positivos en un solo experimento. [11] La aplicación de los mismos criterios de CC basados en el factor Z a ambos controles conduce a resultados inconsistentes, como se ilustra en la literatura. [10] [11]
Los criterios de CC basados en SSMD enumerados en la siguiente tabla [20] tienen en cuenta el tamaño del efecto de un control positivo en un ensayo HTS donde el control positivo (como un control de inhibición) teóricamente tiene valores menores que la referencia negativa.
Tipo de calidad | A: control moderado | B: control fuerte | C: Control muy fuerte | D: Control extremadamente fuerte |
---|---|---|---|---|
Excelente | ||||
Bien | ||||
Inferior | ||||
Pobre |
En la aplicación, si el tamaño del efecto de un control positivo se conoce biológicamente, adopte el criterio correspondiente basado en esta tabla. De lo contrario, la siguiente estrategia debería ayudar a determinar qué criterio de CC se debe aplicar: (i) en muchos ensayos de HTS de moléculas pequeñas con un control positivo, generalmente se debe adoptar el criterio D (y ocasionalmente el criterio C) porque este control generalmente tiene muy o extremadamente efectos fuertes; (ii) para los ensayos de RNAi HTS en los que la viabilidad celular es la respuesta medida, el criterio D debe adoptarse para los controles sin células (es decir, los pocillos sin células añadidas) o controles de fondo; (iii) en un ensayo viral en el que la cantidad de virus en las células hospedadoras es el interés, normalmente se usa el criterio C, y el criterio D se usa ocasionalmente para el control positivo que consiste en ARNip del virus. [20]
Se pueden construir criterios de CC similares basados en SSMD para un ensayo de HTS en el que el control positivo (como un control de activación) tiene teóricamente valores mayores que la referencia negativa. Puede encontrar más detalles sobre cómo aplicar criterios de CC basados en SSMD en experimentos HTS en un libro. [20]
Selección de aciertos
En un ensayo de HTS, un objetivo principal es seleccionar compuestos con un tamaño deseado de efecto de inhibición o activación. El tamaño del efecto del compuesto está representado por la magnitud de la diferencia entre un compuesto de prueba y un grupo de referencia negativo sin efectos específicos de inhibición / activación. Un compuesto con un tamaño deseado de efectos en una pantalla HTS se llama hit. El proceso de selección de aciertos se denomina selección de aciertos. Hay dos estrategias principales para seleccionar éxitos con grandes efectos. [20] Una es usar ciertas métricas para clasificar y / o clasificar los compuestos por sus efectos y luego seleccionar el mayor número de compuestos potentes que sea práctico para los ensayos de validación . [17] [19] [22] La otra estrategia es probar si un compuesto tiene efectos lo suficientemente fuertes como para alcanzar un nivel preestablecido. En esta estrategia, se deben controlar las tasas de falsos negativos (FNR) y / o las tasas de falsos positivos (FPR). [14] [15] [16] [25] [26]
SSMD no solo puede clasificar el tamaño de los efectos, sino también clasificar los efectos como se muestra en la siguiente tabla en función del valor de la población () de SSMD. [20] [27]
Subtipo de efecto | Umbrales para SSMD negativo | Umbrales para SSMD positivo |
---|---|---|
Demasiado fuerte | ||
Muy fuerte | ||
Fuerte | ||
Bastante fuerte | ||
Moderar | ||
Bastante moderado | ||
Bastante débil | ||
Débil | ||
Muy débil | ||
Extremadamente débil | ||
Sin efecto |
La estimación de SSMD para pantallas sin réplicas difiere de la de pantallas con réplicas. [20] [23]
En una pantalla primaria sin réplicas, asumiendo que el valor medido (generalmente en la escala logarítmica) en un pozo para un compuesto probado es y la referencia negativa en esa placa tiene un tamaño de muestra , media muestral , mediana , desviación estándar y desviación absoluta mediana , el SSMD para este compuesto se estima en [20] [23]
dónde . Cuando hay valores atípicos en un ensayo que suele ser común en los experimentos de HTS, se puede obtener una versión robusta de SSMD [23] utilizando
En un cribado confirmatorio o primario con réplicas, para el i-ésimo compuesto de prueba conreplicas, calculamos la diferencia pareada entre el valor medido (generalmente en la escala logarítmica) del compuesto y el valor mediano de un control negativo en una placa, luego obtenemos la media y varianza de la diferencia pareada entre las réplicas. El SSMD para este compuesto se estima en [20]
En muchos casos, los científicos pueden usar tanto SSMD como el cambio de pliegue promedio para la selección de aciertos en los experimentos HTS. El gráfico de linterna doble [28] puede mostrar tanto el cambio de pliegue promedio como SSMD para todos los compuestos de prueba en un ensayo y ayudar a integrar ambos para seleccionar resultados en experimentos HTS [29] . El uso de SSMD para la selección de resultados en experimentos HTS se ilustra paso a paso en [23]
Ver también
- Tamaño del efecto
- proyección de alto impacto
- Factor Z
- Selección de aciertos
- SMCV
- c + -probabilidad
- Variable de contraste
- Trama de linterna doble
Otras lecturas
- Zhang XHD (2011) "Detección de alto rendimiento óptimo: diseño experimental práctico y análisis de datos para la investigación de ARNi a escala genómica, Cambridge University Press"
Referencias
- ↑ a b c d e f g h Zhang XHD (2007). "Un par de nuevos parámetros estadísticos para el control de calidad en ensayos de cribado de alto rendimiento de interferencia de ARN" . Genómica . 89 (4): 552–61. doi : 10.1016 / j.ygeno.2006.12.014 . PMID 17276655 .
- ^ a b c Zhang XHD (2007). "Un nuevo método con control flexible y equilibrado de falsos negativos y falsos positivos para la selección de aciertos en ensayos de cribado de alto rendimiento de interferencia de ARN" . Revista de cribado biomolecular . 12 (5): 645–55. doi : 10.1177 / 1087057107300645 . PMID 17517904 .
- ^ a b c Zhang XHD (2010). "Diferencia de medias estrictamente estandarizada, diferencia de medias estandarizada y prueba t clásica para la comparación de dos grupos". Estadística en Investigación Biofarmacéutica . 2 (2): 292–99. doi : 10.1198 / sbr.2009.0074 .
- ^ Zhang JH, Chung TDY, Oldenburg KR (1999). "Un parámetro estadístico simple para su uso en la evaluación y validación de ensayos de cribado de alto rendimiento". Revista de cribado biomolecular . 4 (2): 67–73. doi : 10.1177 / 108705719900400206 . PMID 10838414 .
- ^ Owen DB, Graswell KJ, Hanson DL (1964). "Límites de confianza superior no paramétricos para P (Y
)>Y < X ) cuando X e Y son normales". Revista de la Asociación Estadounidense de Estadística . 59 (307): 906–24. doi : 10.2307 / 2283110 . hdl : 2027 / mdp.39015094992651 . JSTOR 2283110 . - ^ Church JD, Harris B (1970). "La estimación de la fiabilidad a partir de las relaciones tensión-fuerza". Tecnometría . 12 : 49–54. doi : 10.1080 / 00401706.1970.10488633 .
- ^ Downton F (1973). "La estimación de Pr (Y
)>Tecnometría . 15 (3): 551–8. doi : 10.2307 / 1266860 . JSTOR 1266860 . - ^ Reiser B, Guttman I (1986). "Inferencia estadística de Pr (Y-menos-thaqn-X) - caso normal". Tecnometría . 28 (3): 253–7. doi : 10.2307 / 1269081 . JSTOR 1269081 .
- ^ Acción L, Peterson JJ, Temple S, Arndt S (2006). "Índice probabilístico: un enfoque intuitivo no paramétrico para medir el tamaño de los efectos del tratamiento". Estadística en Medicina . 25 (4): 591–602. doi : 10.1002 / sim.2256 . PMID 16143965 .
- ^ a b c d e Zhang XHD (2008). "Nuevos criterios analíticos y diseños de placas eficaces para el control de calidad en pantallas de ARNi de todo el genoma". Revista de cribado biomolecular . 13 (5): 363–77. doi : 10.1177 / 1087057108317062 . PMID 18567841 .
- ^ a b c Zhang XHD, Espeseth AS, Johnson E, Chin J, Gates A, Mitnaul L, Marine SD, Tian J, Stec EM, Kunapuli P, Holder DJ, Heyse JF, Stulovici B, Ferrer M (2008). "Integración de enfoques experimentales y analíticos para mejorar la calidad de los datos en pantallas de ARNi en todo el genoma". Revista de cribado biomolecular . 13 (5): 378–89. doi : 10.1177 / 1087057108317145 . PMID 18480473 .
- ^ Zhang XHD, Ferrer M, Espeseth AS, Marine SD, Stec EM, Crackower MA, Holder DJ, Heyse JF, Strulovici B (2007). "El uso de la diferencia de medias estrictamente estandarizada para la selección de aciertos en experimentos de cribado de alto rendimiento de interferencia de ARN primario". Revista de cribado biomolecular . 12 (4): 645–55. doi : 10.1177 / 1087057107300646 . PMID 17435171 .
- ^ Quon K, Kassner PD (2009). "Cribado de interferencia de ARN para el descubrimiento de dianas oncológicas". Opinión de expertos sobre objetivos terapéuticos . 13 (9): 1027–35. doi : 10.1517 / 14728220903179338 . PMID 19650760 .
- ^ a b Zhang XHD (2010). "Un método eficaz que controla los falsos descubrimientos y los falsos no descubrimientos en las pantallas de ARNi a escala del genoma" . Revista de cribado biomolecular . 15 (9): 1116–22. doi : 10.1177 / 1087057110381783 . PMID 20855561 .
- ^ a b Zhang XHD, Lacson R, Yang R, Marine SD, McCampbell A, Toolan DM, Hare TR, Kajdas J, Berger JP, Holder DJ, Heyse JF, Ferrer M (2010). "El uso de falsos descubrimientos basados en SSMD y tasas de falsos no descubrimientos en pantallas de ARNi a escala del genoma" . Revista de cribado biomolecular . 15 (9): 1123–31. doi : 10.1177 / 1087057110381919 . PMID 20852024 .
- ^ a b Zhang XHD, Marina SD, Ferrer M (2009). "Tasas de error y potencia en pantallas de ARNi a escala genómica" . Revista de cribado biomolecular . 14 (3): 230–38. doi : 10.1177 / 1087057109331475 . PMID 19211781 .
- ^ a b Birmingham A, Selfors LM, Forster T, Wrobel D, Kennedy CJ, Shanks E, Santoyo-Lopez J, Dunican DJ, Long A, Kelleher D, Smith Q, Beijersbergen RL, Ghazal P, Shamu CE (2009). "Métodos estadísticos para el análisis de pantallas de interferencia de ARN de alto rendimiento" . Métodos de la naturaleza . 6 (8): 569–75. doi : 10.1038 / nmeth.1351 . PMC 2789971 . PMID 19644458 .
- ^ Klinghoffer RA, Frazier J, Annis J, Berndt JD, Roberts BS, Arthur WT, Lacson R, Zhang XHD, Ferrer M, Moon RT, Cleary MA (2010). Bereswill S (ed.). "Una pantalla genética mediada por lentivirus identifica la dihidrofolato reductasa (DHFR) como un modulador de la señalización de beta-catenina / GSK3" . PLoS ONE . 4 (9): e6892. doi : 10.1371 / journal.pone.0006892 . PMC 2731218 . PMID 19727391 .
- ^ a b Malo N, Hanley JA, Carlile G, Liu J, Pelletier J, Thomas D, Nadon R (2010). "Diseño experimental y métodos estadísticos para mejorar la detección de aciertos en el cribado de alto rendimiento". Revista de cribado biomolecular . 15 (8): 990–1000. doi : 10.1177 / 1087057110377497 . PMID 20817887 .
- ^ a b c d e f g h yo Zhang XHD (2011). Detección de alto rendimiento óptimo: diseño experimental práctico y análisis de datos para la investigación de ARNi a escala genómica . Prensa de la Universidad de Cambridge. ISBN 978-0-521-73444-8.
- ^ Zhou HL, Xu M, Huang Q, Gates AT, Zhang XD, Castle JC, Stec E, Ferrer M, Strulovici B, Hazuda DJ, Espeseth AS (2008). "Pantalla de ARNi a escala del genoma para los factores del huésped necesarios para la replicación del VIH" . Anfitrión celular y microbio . 4 (5): 495–504. doi : 10.1016 / j.chom.2008.10.004 . PMID 18976975 .
- ^ a b Zhang XHD (2010). "Pantallas de todo el genoma para ARNip eficaces mediante la evaluación del tamaño de los efectos del ARNsi" . Notas de investigación de BMC . 1 : 33. doi : 10.1186 / 1756-0500-1-33 . PMC 2526086 . PMID 18710486 .
- ^ a b c d e f Zhang XHD (2011). "Ilustración de SSMD, puntuación z, SSMD *, puntuación z * y estadística t para la selección de aciertos en pantallas de alto rendimiento de RNAi" . Revista de cribado biomolecular . 16 (7): 775–85. doi : 10.1177 / 1087057111405851 . PMID 21515799 .
- ^ Zhang XHD, Heyse JF (2009). "Determinación del tamaño de la muestra en pantallas de ARNi a escala genómica" . Bioinformática . 25 (7): 841–44. doi : 10.1093 / bioinformatics / btp082 . PMID 19223447 .
- ^ Malo N, Hanley JA, Cerquozzi S, Pelletier J, Nadon R (2006). "Práctica estadística en el análisis de datos de cribado de alto rendimiento". Biotecnología de la naturaleza . 24 (2): 167–75. doi : 10.1038 / nbt1186 . PMID 16465162 .
- ^ Zhang XHD, Kuan PF, Ferrer M, Shu X, Liu YC, Gates AT, Kunapuli P, Stec EM, Xu M, Marine SD, Holder DJ, Stulovici B, Heyse JF, Espeseth AS (2009). "Selección de éxito con control de tasa de descubrimiento falso en pantallas de ARNi a escala de genoma" . Investigación de ácidos nucleicos . 36 (14): 4667–79. doi : 10.1093 / nar / gkn435 . PMC 2504311 . PMID 18628291 .
- ^ Zhang XHD (2009). "Un método para comparar eficazmente los efectos de los genes en múltiples condiciones en la investigación de perfiles de expresión y ARNi". Farmacogenómica . 10 (3): 345–58. doi : 10.2217 / 14622416.10.3.345 . PMID 20397965 .
- ^ Zhang XHD (2010). "Evaluación del tamaño de los efectos del gen o ARNi en experimentos multifactoriales de alto rendimiento". Farmacogenómica . 11 (2): 199–213. doi : 10.2217 / PGS.09.136 . PMID 20136359 .
- ^ Zhao WQ, Santini F, Breese R, Ross D, Zhang XD, Stone DJ, Ferrer M, Townsend M, Wolfe AL, Seager MA, Kinney GG, Shughrue PJ, Ray WJ (2010). "La inhibición de la endocitosis mediada por calcineurina y los receptores del ácido alfa-amino-3-hidroxi-5-metil-4-isoxazolpropiónico (AMPA) previene la disrupción sináptica inducida por el oligómero beta amiloide" . Revista de Química Biológica . 285 (10): 7619–32. doi : 10.1074 / jbc.M109.057182 . PMC 2844209 . PMID 20032460 .