En estadística , el problema de comparaciones múltiples , multiplicidad o prueba múltiple ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente [1] o infiere un subconjunto de parámetros seleccionados en base a los valores observados. [2] En ciertos campos se conoce como efecto buscar en otra parte .
Cuantas más inferencias se hagan, es más probable que se produzcan inferencias erróneas. Se han desarrollado varias técnicas estadísticas para evitar que esto suceda, lo que permite comparar directamente los niveles de significancia para comparaciones únicas y múltiples. Estas técnicas generalmente requieren un umbral de significación más estricto para las comparaciones individuales, a fin de compensar el número de inferencias que se realizan. Una revisión de las pruebas de comparaciones múltiples puede ayudar a los usuarios a determinar cuál es la mejor para su situación. [3]
Historia
El interés por el problema de las comparaciones múltiples se inició en la década de 1950 con el trabajo de Tukey y Scheffé . Más tarde surgieron otros métodos, como el procedimiento de prueba cerrado (Marcus et al., 1976) y el método de Holm-Bonferroni (1979). En 1995, se inició el trabajo sobre la tasa de descubrimientos falsos . En 1996, se celebró en Israel la primera conferencia internacional sobre procedimientos de comparación múltiple ; por lo general, tiene lugar aproximadamente cada dos años en diferentes países de acogida. [4]
Definición
Las comparaciones múltiples surgen cuando un análisis estadístico involucra múltiples pruebas estadísticas simultáneas, cada una de las cuales tiene el potencial de producir un "descubrimiento", del mismo conjunto de datos o conjuntos de datos dependientes. Un nivel de confianza establecido generalmente se aplica solo a cada prueba considerada individualmente, pero a menudo es deseable tener un nivel de confianza para toda la familia de pruebas simultáneas. [5] No compensar las comparaciones múltiples puede tener importantes consecuencias en el mundo real, como lo ilustran los siguientes ejemplos:
- Suponga que el tratamiento es una nueva forma de enseñar la escritura a los estudiantes, y el control es la forma estándar de enseñar la escritura. Los estudiantes de los dos grupos se pueden comparar en términos de gramática, ortografía, organización, contenido, etc. A medida que se comparan más atributos, es cada vez más probable que los grupos de tratamiento y control parezcan diferir en al menos un atributo debido únicamente al error de muestreo aleatorio .
- Supongamos que consideramos la eficacia de un fármaco en términos de la reducción de cualquiera de los síntomas de una enfermedad. A medida que se consideran más síntomas, es cada vez más probable que el medicamento parezca una mejora con respecto a los medicamentos existentes en términos de al menos un síntoma.
En ambos ejemplos, a medida que aumenta el número de comparaciones, es más probable que los grupos que se comparan parezcan diferir en términos de al menos un atributo. Nuestra confianza en que un resultado se generalizará a datos independientes generalmente debería ser más débil si se observa como parte de un análisis que involucra múltiples comparaciones, en lugar de un análisis que involucra una sola comparación.
Por ejemplo, si una prueba se realiza al nivel del 5% y la hipótesis nula correspondiente es verdadera, solo hay un 5% de probabilidad de rechazar incorrectamente la hipótesis nula. Sin embargo, si se realizan 100 pruebas y todas las hipótesis nulas correspondientes son verdaderas, el número esperado de rechazos incorrectos (también conocidos como falsos positivos o errores de Tipo I ) es 5. Si las pruebas son estadísticamente independientes entre sí, la probabilidad de al menos un rechazo incorrecto es del 99,4%.
Obsérvese que, por supuesto, el problema de las comparaciones múltiples no surge en todas las situaciones en las que se prueban empíricamente varias hipótesis, ya sea secuencialmente o en paralelo (concurrentes); [6] en términos generales, el problema de las comparaciones múltiples surge cuando se prueban múltiples hipótesis en el mismo conjunto de datos (o conjuntos de datos que no son independientes) o cuando se prueba una y la misma hipótesis en varios conjuntos de datos.
El problema de las comparaciones múltiples también se aplica a los intervalos de confianza . Un único intervalo de confianza con un nivel de probabilidad de cobertura del 95% contendrá el parámetro de población en el 95% de los experimentos. Sin embargo, si se consideran 100 intervalos de confianza simultáneamente, cada uno con una probabilidad de cobertura del 95%, el número esperado de intervalos sin cobertura es 5. Si los intervalos son estadísticamente independientes entre sí, la probabilidad de que al menos un intervalo no contenga la población. el parámetro es 99,4%.
Se han desarrollado técnicas para prevenir la inflación de tasas de falsos positivos y tasas de no cobertura que ocurren con múltiples pruebas estadísticas.
Clasificación de pruebas de hipótesis múltiples
La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1 , H 2 , ..., H m . Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H i produce las siguientes variables aleatorias:
La hipótesis nula es verdadera (H 0 ) | La hipótesis alternativa es verdadera (H A ) | Total | |
---|---|---|---|
La prueba se declara significativa | V | S | R |
La prueba se declara no significativa | U | T | |
Total | metro |
- m es el número total de hipótesis probadas
- es el número de hipótesis nulas verdaderas , un parámetro desconocido
- es el número de hipótesis alternativas verdaderas
- V es el número de falsos positivos (error de tipo I) (también llamado "falsos descubrimientos")
- S es el número de verdaderos positivos (también llamado "verdaderos descubrimientos")
- T es el número de falsos negativos (error de tipo II)
- U es el número de verdaderos negativos
- es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", verdaderas o falsas)
En m pruebas de hipótesis de las cualesson verdaderas hipótesis nulas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .
Procedimientos de control
Si se realizan m comparaciones independientes, la tasa de error familiar (FWER) viene dada por
Por lo tanto, a menos que las pruebas sean perfectamente dependientes positivamente (es decir, idénticas), aumenta a medida que aumenta el número de comparaciones. Si no asumimos que las comparaciones son independientes, aún podemos decir:
which follows from Boole's inequality. Example:
There are different ways to assure that the family-wise error rate is at most . The most conservative method, which is free of dependence and distributional assumptions, is the Bonferroni correction . A marginally less conservative correction can be obtained by solving the equation for the family-wise error rate of independent comparisons for . This yields , which is known as the Šidák correction. Another procedure is the Holm–Bonferroni method, which uniformly delivers more power than the simple Bonferroni correction, by testing only the lowest p-value () against the strictest criterion, and the higher p-values () against progressively less strict criteria.[7].
For continuous problems, one can employ Bayesian logic to compute from the prior-to-posterior volume ratio. Continuous generalizations of the Bonferroni and Šidák correction are presented in.[8]
Multiple testing correction
Multiple testing correction refers to re-calculating probabilities obtained from a statistical test which was repeated multiple times. In order to retain a prescribed family-wise error rate α in an analysis involving more than one comparison, the error rate for each comparison must be more stringent than α. Boole's inequality implies that if each of m tests is performed to have type I error rate α/m, the total error rate will not exceed α. This is called the Bonferroni correction, and is one of the most commonly used approaches for multiple comparisons.
In some situations, the Bonferroni correction is substantially conservative, i.e., the actual family-wise error rate is much less than the prescribed level α. This occurs when the test statistics are highly dependent (in the extreme case where the tests are perfectly dependent, the family-wise error rate with no multiple comparisons adjustment and the per-test error rates are identical). For example, in fMRI analysis,[9][10] tests are done on over 100,000 voxels in the brain. The Bonferroni method would require p-values to be smaller than .05/100000 to declare significance. Since adjacent voxels tend to be highly correlated, this threshold is generally too stringent.
Because simple techniques such as the Bonferroni method can be conservative, there has been a great deal of attention paid to developing better techniques, such that the overall rate of false positives can be maintained without excessively inflating the rate of false negatives. Such methods can be divided into general categories:
- Methods where total alpha can be proved to never exceed 0.05 (or some other chosen value) under any conditions. These methods provide "strong" control against Type I error, in all conditions including a partially correct null hypothesis.
- Methods where total alpha can be proved not to exceed 0.05 except under certain defined conditions.
- Methods which rely on an omnibus test before proceeding to multiple comparisons. Typically these methods require a significant ANOVA, MANOVA, or Tukey's range test. These methods generally provide only "weak" control of Type I error, except for certain numbers of hypotheses.
- Empirical methods, which control the proportion of Type I errors adaptively, utilizing correlation and distribution characteristics of the observed data.
The advent of computerized resampling methods, such as bootstrapping and Monte Carlo simulations, has given rise to many techniques in the latter category. In some cases where exhaustive permutation resampling is performed, these tests provide exact, strong control of Type I error rates; in other cases, such as bootstrap sampling, they provide only approximate control.
Pruebas múltiples a gran escala
Traditional methods for multiple comparisons adjustments focus on correcting for modest numbers of comparisons, often in an analysis of variance. A different set of techniques have been developed for "large-scale multiple testing", in which thousands or even greater numbers of tests are performed. For example, in genomics, when using technologies such as microarrays, expression levels of tens of thousands of genes can be measured, and genotypes for millions of genetic markers can be measured. Particularly in the field of genetic association studies, there has been a serious problem with non-replication — a result being strongly statistically significant in one study but failing to be replicated in a follow-up study. Such non-replication can have many causes, but it is widely considered that failure to fully account for the consequences of making multiple comparisons is one of the causes.[11]
In different branches of science, multiple testing is handled in different ways. It has been argued that if statistical tests are only performed when there is a strong basis for expecting the result to be true, multiple comparisons adjustments are not necessary.[12] It has also been argued that use of multiple testing corrections is an inefficient way to perform empirical research, since multiple testing adjustments control false positives at the potential expense of many more false negatives. On the other hand, it has been argued that advances in measurement and information technology have made it far easier to generate large datasets for exploratory analysis, often leading to the testing of large numbers of hypotheses with no prior basis for expecting many of the hypotheses to be true. In this situation, very high false positive rates are expected unless multiple comparisons adjustments are made.
For large-scale testing problems where the goal is to provide definitive results, the familywise error rate remains the most accepted parameter for ascribing significance levels to statistical tests. Alternatively, if a study is viewed as exploratory, or if significant results can be easily re-tested in an independent study, control of the false discovery rate (FDR)[13][14][15] is often preferred. The FDR, loosely defined as the expected proportion of false positives among all significant tests, allows researchers to identify a set of "candidate positives" that can be more rigorously evaluated in a follow-up study.[16]
The practice of trying many unadjusted comparisons in the hope of finding a significant one is a known problem, whether applied unintentionally or deliberately, is sometimes called "p-hacking."[17][18]
Assessing whether any alternative hypotheses are true
A basic question faced at the outset of analyzing a large set of testing results is whether there is evidence that any of the alternative hypotheses are true. One simple meta-test that can be applied when it is assumed that the tests are independent of each other is to use the Poisson distribution as a model for the number of significant results at a given level α that would be found when all null hypotheses are true.[citation needed] If the observed number of positives is substantially greater than what should be expected, this suggests that there are likely to be some true positives among the significant results. For example, if 1000 independent tests are performed, each at level α = 0.05, we expect 0.05 × 1000 = 50 significant tests to occur when all null hypotheses are true. Based on the Poisson distribution with mean 50, the probability of observing more than 61 significant tests is less than 0.05, so if more than 61 significant results are observed, it is very likely that some of them correspond to situations where the alternative hypothesis holds. A drawback of this approach is that it over-states the evidence that some of the alternative hypotheses are true when the test statistics are positively correlated, which commonly occurs in practice.[citation needed]. On the other hand, the approach remains valid even in the presence of correlation among the test statistics, as long as the Poisson distribution can be shown to provide a good approximation for the number of significant results. This scenario arises, for instance, when mining significant frequent itemsets from transactional datasets. Furthermore, a careful two stage analysis can bound the FDR at a pre-specified level.[19]
Another common approach that can be used in situations where the test statistics can be standardized to Z-scores is to make a normal quantile plot of the test statistics. If the observed quantiles are markedly more dispersed than the normal quantiles, this suggests that some of the significant results may be true positives.[citation needed]
Ver también
- q-value
- Key concepts
- Familywise error rate
- False positive rate
- False discovery rate (FDR)
- False coverage rate (FCR)
- Interval estimation
- Post-hoc analysis
- Experimentwise error rate
- Statistical hypothesis testing
- General methods of alpha adjustment for multiple comparisons
- Closed testing procedure
- Bonferroni correction
- Boole–Bonferroni bound
- Duncan's new multiple range test
- Holm–Bonferroni method
- Harmonic mean p-value procedure
- Related concepts
- Testing hypotheses suggested by the data
- Texas sharpshooter fallacy
- Model selection
- Look-elsewhere effect
- Data dredging
Referencias
- ^ Miller, R.G. (1981). Simultaneous Statistical Inference 2nd Ed. Springer Verlag New York. ISBN 978-0-387-90548-8.
- ^ Benjamini, Y. (2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. 52 (6): 708–721. doi:10.1002/bimj.200900299. PMID 21154895.
- ^ Midway, Stephen; Robertson, Matthew; Flinn, Shane; Kaller, Michael (2020-12-04). "Comparing multiple comparisons: practical guidance for choosing the best multiple comparisons test". PeerJ. 8: e10387. doi:10.7717/peerj.10387. ISSN 2167-8359.
- ^ [1]
- ^ Kutner, Michael; Nachtsheim, Christopher; Neter, John; Li, William (2005). Applied Linear Statistical Models. pp. 744–745.
- ^ Georgiev, Georgi (2017-08-22). "Multivariate Testing – Best Practices & Tools for MVT (A/B/n) Tests". Blog for Web Analytics, Statistics and Data-Driven Internet Marketing | Analytics-Toolkit.com. Retrieved 2020-02-13.
- ^ Aickin, M; Gensler, H (May 1996). "Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods". Am J Public Health. 86 (5): 726–728. doi:10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727.
- ^ Bayer, Adrian E.; Seljak, Uroš (2020). "The look-elsewhere effect from a unified Bayesian and frequentist perspective". Journal of Cosmology and Astroparticle Physics. 2020 (10): 009–009. arXiv:2007.13821. doi:10.1088/1475-7516/2020/10/009.
- ^ Logan, B. R.; Rowe, D. B. (2004). "An evaluation of thresholding techniques in fMRI analysis". NeuroImage. 22 (1): 95–108. CiteSeerX 10.1.1.10.421. doi:10.1016/j.neuroimage.2003.12.047. PMID 15110000.
- ^ Logan, B. R.; Geliazkova, M. P.; Rowe, D. B. (2008). "An evaluation of spatial thresholding techniques in fMRI analysis". Human Brain Mapping. 29 (12): 1379–1389. doi:10.1002/hbm.20471. PMC 6870886. PMID 18064589.
- ^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (2010-10-01). "Statistical significance in genetic association studies". Clinical and Investigative Medicine. 33 (5): E266–E270. ISSN 0147-958X. PMC 3270946. PMID 20926032.
- ^ Rothman, Kenneth J. (1990). "No Adjustments Are Needed for Multiple Comparisons". Epidemiology. 1 (1): 43–46. doi:10.1097/00001648-199001000-00010. JSTOR 20065622. PMID 2081237.
- ^ Benjamini, Yoav; Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing". Journal of the Royal Statistical Society, Series B. 57 (1): 125–133. JSTOR 2346101.
- ^ Storey, JD; Tibshirani, Robert (2003). "Statistical significance for genome-wide studies". PNAS. 100 (16): 9440–9445. Bibcode:2003PNAS..100.9440S. doi:10.1073/pnas.1530509100. JSTOR 3144228. PMC 170937. PMID 12883005.
- ^ Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia (2001). "Empirical Bayes analysis of a microarray experiment". Journal of the American Statistical Association. 96 (456): 1151–1160. doi:10.1198/016214501753382129. JSTOR 3085878.
- ^ Noble, William S. (2009-12-01). "How does multiple testing correction work?". Nature Biotechnology. 27 (12): 1135–1137. doi:10.1038/nbt1209-1135. ISSN 1087-0156. PMC 2907892. PMID 20010596.
- ^ Young, S. S., Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.CS1 maint: multiple names: authors list (link)
- ^ Smith, G. D., Shah, E. (2002). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.CS1 maint: multiple names: authors list (link)
- ^ Kirsch, A; Mitzenmacher, M; Pietracaprina, A; Pucci, G; Upfal, E; Vandin, F (June 2012). "An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets". Journal of the ACM. 59 (3): 12:1–12:22. arXiv:1002.1104. doi:10.1145/2220357.2220359.
Otras lecturas
- F. Betz, T. Hothorn, P. Westfall (2010), Multiple Comparisons Using R, CRC Press
- S. Dudoit and M. J. van der Laan (2008), Multiple Testing Procedures with Application to Genomics, Springer
- Farcomeni, A. (2008). "A Review of Modern Multiple Hypothesis Testing, with particular attention to the false discovery proportion". Statistical Methods in Medical Research. 17: 347–388. doi:10.1177/0962280206079046.
- Phipson, B.; Smyth, G. K. (2010). "Permutation P-values Should Never Be Zero: Calculating Exact P-values when Permutations are Randomly Drawn". Statistical Applications in Genetics and Molecular Biology. doi:10.2202/1544-6155.1585.
- P. H. Westfall and S. S. Young (1993), Resampling-based Multiple Testing: Examples and Methods for p-Value Adjustment, Wiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) Multiple comparisons and multiple testing using SAS, 2nd edn, SAS Institute
- A gallery of examples of implausible correlations sourced by data dredging