En estadística , el problema de comparaciones múltiples , multiplicidad o prueba múltiple ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente [1] o infiere un subconjunto de parámetros seleccionados en base a los valores observados. [2] En ciertos campos se conoce como efecto buscar en otra parte .
Cuantas más inferencias se hagan, es más probable que se produzcan inferencias erróneas. Se han desarrollado varias técnicas estadísticas para evitar que esto suceda, lo que permite comparar directamente los niveles de significancia para comparaciones únicas y múltiples. Estas técnicas generalmente requieren un umbral de significación más estricto para las comparaciones individuales, a fin de compensar el número de inferencias que se realizan. Una revisión de las pruebas de comparaciones múltiples puede ayudar a los usuarios a determinar cuál es la mejor para su situación. [3]
Historia
El interés por el problema de las comparaciones múltiples se inició en la década de 1950 con el trabajo de Tukey y Scheffé . Más tarde surgieron otros métodos, como el procedimiento de prueba cerrado (Marcus et al., 1976) y el método Holm-Bonferroni (1979). En 1995, se inició el trabajo sobre la tasa de descubrimientos falsos . En 1996, se celebró en Israel la primera conferencia internacional sobre procedimientos de comparación múltiple ; generalmente se lleva a cabo cada dos años en diferentes países de acogida. [4]
Definición
Las comparaciones múltiples surgen cuando un análisis estadístico involucra múltiples pruebas estadísticas simultáneas, cada una de las cuales tiene el potencial de producir un "descubrimiento", del mismo conjunto de datos o conjuntos de datos dependientes. Un nivel de confianza establecido generalmente se aplica solo a cada prueba considerada individualmente, pero a menudo es deseable tener un nivel de confianza para toda la familia de pruebas simultáneas. [5] No compensar las comparaciones múltiples puede tener importantes consecuencias en el mundo real, como lo ilustran los siguientes ejemplos:
- Suponga que el tratamiento es una nueva forma de enseñar la escritura a los estudiantes, y el control es la forma estándar de enseñar la escritura. Los estudiantes de los dos grupos se pueden comparar en términos de gramática, ortografía, organización, contenido, etc. A medida que se comparan más atributos, es cada vez más probable que los grupos de tratamiento y control parezcan diferir en al menos un atributo debido únicamente al error de muestreo aleatorio .
- Supongamos que consideramos la eficacia de un fármaco en términos de la reducción de cualquiera de los síntomas de una enfermedad. A medida que se consideran más síntomas, es cada vez más probable que el medicamento parezca una mejora con respecto a los medicamentos existentes en términos de al menos un síntoma.
En ambos ejemplos, a medida que aumenta el número de comparaciones, es más probable que los grupos que se comparan parezcan diferir en términos de al menos un atributo. Nuestra confianza en que un resultado se generalizará a datos independientes generalmente debería ser más débil si se observa como parte de un análisis que involucra múltiples comparaciones, en lugar de un análisis que involucra una sola comparación.
Por ejemplo, si una prueba se realiza al nivel del 5% y la hipótesis nula correspondiente es verdadera, solo hay un 5% de probabilidad de rechazar incorrectamente la hipótesis nula. Sin embargo, si se realizan 100 pruebas y todas las hipótesis nulas correspondientes son verdaderas, el número esperado de rechazos incorrectos (también conocidos como falsos positivos o errores de Tipo I ) es 5. Si las pruebas son estadísticamente independientes entre sí, la probabilidad de al menos un rechazo incorrecto es del 99,4%.
Obsérvese que, por supuesto, el problema de las comparaciones múltiples no surge en todas las situaciones en las que se prueban empíricamente varias hipótesis, ya sea secuencialmente o en paralelo (concurrentes); [6] en términos generales, el problema de las comparaciones múltiples surge cuando se prueban múltiples hipótesis en el mismo conjunto de datos (o conjuntos de datos que no son independientes) o cuando se prueba una y la misma hipótesis en varios conjuntos de datos.
El problema de las comparaciones múltiples también se aplica a los intervalos de confianza . Un único intervalo de confianza con un nivel de probabilidad de cobertura del 95% contendrá el parámetro de población en el 95% de los experimentos. Sin embargo, si se consideran 100 intervalos de confianza simultáneamente, cada uno con una probabilidad de cobertura del 95%, el número esperado de intervalos sin cobertura es 5. Si los intervalos son estadísticamente independientes entre sí, la probabilidad de que al menos un intervalo no contenga la población. el parámetro es 99,4%.
Se han desarrollado técnicas para prevenir la inflación de tasas de falsos positivos y tasas de no cobertura que ocurren con múltiples pruebas estadísticas.
Clasificación de pruebas de hipótesis múltiples
La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1 , H 2 , ..., H m . Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H i produce las siguientes variables aleatorias:
La hipótesis nula es verdadera (H 0 ) | La hipótesis alternativa es verdadera (H A ) | Total | |
---|---|---|---|
La prueba se declara significativa | V | S | R |
La prueba se declara no significativa | U | T | |
Total | metro |
- m es el número total de hipótesis probadas
- es el número de hipótesis nulas verdaderas , un parámetro desconocido
- es el número de hipótesis alternativas verdaderas
- V es el número de falsos positivos (error de tipo I) (también llamado "falsos descubrimientos")
- S es el número de verdaderos positivos (también llamado "verdaderos descubrimientos")
- T es el número de falsos negativos (error de tipo II)
- U es el número de verdaderos negativos
- es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", verdaderas o falsas)
En m pruebas de hipótesis de las cualesson verdaderas hipótesis nulas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .
Procedimientos de control
Si se realizan m comparaciones independientes, la tasa de error familiar (FWER) viene dada por
Por lo tanto, a menos que las pruebas sean perfectamente dependientes positivamente (es decir, idénticas), aumenta a medida que aumenta el número de comparaciones. Si no asumimos que las comparaciones son independientes, aún podemos decir:
que se sigue de la desigualdad de Boole . Ejemplo:
Hay diferentes formas de asegurar que la tasa de error familiar sea como máximo . El método más conservador, que está libre de suposiciones de dependencia y distribución, es la corrección de Bonferroni. . Se puede obtener una corrección marginalmente menos conservadora resolviendo la ecuación para la tasa de error familiar de comparaciones independientes para . Esto produce, que se conoce como la corrección de Šidák . Otro procedimiento es el método Holm-Bonferroni , que proporciona uniformemente más potencia que la simple corrección de Bonferroni, probando solo el valor p más bajo () contra el criterio más estricto, y los valores p más altos () frente a criterios progresivamente menos estrictos. [7].
Para problemas continuos, se puede emplear la lógica bayesiana para calcularde la relación de volumen anterior a posterior. Las generalizaciones continuas de la corrección de Bonferroni y Šidák se presentan en. [8]
Corrección de pruebas múltiples
La corrección de pruebas múltiples se refiere a volver a calcular las probabilidades obtenidas de una prueba estadística que se repitió varias veces. Para retener una tasa de error α prescrita por familia en un análisis que implica más de una comparación, la tasa de error para cada comparación debe ser más estricta que α . La desigualdad de Boole implica que si cada una de las m pruebas se realiza para tener una tasa de error de tipo I α / m , la tasa de error total no excederá α . Esto se denomina corrección de Bonferroni y es uno de los enfoques más utilizados para comparaciones múltiples.
En algunas situaciones, la corrección de Bonferroni es sustancialmente conservadora, es decir, la tasa de error familiar real es mucho menor que el nivel prescrito α . Esto ocurre cuando las estadísticas de la prueba son altamente dependientes (en el caso extremo en el que las pruebas son perfectamente dependientes, la tasa de error familiar sin ajuste de comparaciones múltiples y las tasas de error por prueba son idénticas). Por ejemplo, en el análisis de resonancia magnética funcional, [9] [10] las pruebas se realizan en más de 100.000 vóxeles en el cerebro. El método de Bonferroni requeriría que los valores p sean menores que .05 / 100000 para declarar significancia. Dado que los vóxeles adyacentes tienden a estar muy correlacionados, este umbral suele ser demasiado estricto.
Debido a que las técnicas simples como el método de Bonferroni pueden ser conservadoras, se ha prestado mucha atención al desarrollo de mejores técnicas, de modo que la tasa general de falsos positivos se pueda mantener sin inflar excesivamente la tasa de falsos negativos. Dichos métodos se pueden dividir en categorías generales:
- Métodos en los que se puede demostrar que el alfa total nunca excede 0.05 (o algún otro valor elegido) bajo ninguna condición. Estos métodos proporcionan un control "fuerte" contra el error de Tipo I, en todas las condiciones, incluida una hipótesis nula parcialmente correcta.
- Métodos en los que se puede demostrar que el alfa total no excede 0.05 excepto bajo ciertas condiciones definidas.
- Métodos que se basan en una prueba ómnibus antes de proceder a comparaciones múltiples. Por lo general, estos métodos requieren una prueba de rango ANOVA , MANOVA o de Tukey significativa . Estos métodos generalmente proporcionan sólo un control "débil" del error de Tipo I, excepto para cierto número de hipótesis.
- Métodos empíricos, que controlan la proporción de errores de Tipo I de forma adaptativa, utilizando las características de correlación y distribución de los datos observados.
El advenimiento de los métodos de remuestreo computarizado , como el bootstrapping y las simulaciones de Monte Carlo , ha dado lugar a muchas técnicas en la última categoría. En algunos casos en los que se realiza un remuestreo de permutación exhaustivo, estas pruebas proporcionan un control fuerte y exacto de las tasas de error de Tipo I; en otros casos, como el muestreo bootstrap, solo proporcionan un control aproximado.
Pruebas múltiples a gran escala
Los métodos tradicionales para los ajustes de comparaciones múltiples se centran en corregir números modestos de comparaciones, a menudo en un análisis de varianza . Se ha desarrollado un conjunto diferente de técnicas para "pruebas múltiples a gran escala", en las que se realizan miles o incluso un número mayor de pruebas. Por ejemplo, en genómica , cuando se utilizan tecnologías como microarrays , se pueden medir los niveles de expresión de decenas de miles de genes y se pueden medir los genotipos de millones de marcadores genéticos. Particularmente en el campo de los estudios de asociación genética , ha habido un problema serio con la no replicación, un resultado que es estadísticamente significativo en un estudio, pero que no se replica en un estudio de seguimiento. Tal no replicación puede tener muchas causas, pero se considera ampliamente que no tener en cuenta completamente las consecuencias de hacer comparaciones múltiples es una de las causas. [11]
En diferentes ramas de la ciencia, las pruebas múltiples se manejan de diferentes maneras. Se ha argumentado que si las pruebas estadísticas solo se realizan cuando hay una base sólida para esperar que el resultado sea verdadero, no es necesario realizar ajustes por comparaciones múltiples. [12] También se ha argumentado que el uso de múltiples correcciones de prueba es una forma ineficiente de realizar investigación empírica , ya que múltiples ajustes de prueba controlan los falsos positivos a expensas de muchos más falsos negativos . Por otro lado, se ha argumentado que los avances en la medición y la tecnología de la información han facilitado mucho la generación de grandes conjuntos de datos para el análisis exploratorio , lo que a menudo conduce a la prueba de un gran número de hipótesis sin una base previa para esperar que muchas de las hipótesis funcionen. ser cierto. En esta situación, se esperan tasas muy altas de falsos positivos a menos que se realicen ajustes de comparaciones múltiples.
Para problemas de prueba a gran escala donde el objetivo es proporcionar resultados definitivos, la tasa de error familiar sigue siendo el parámetro más aceptado para atribuir niveles de significancia a las pruebas estadísticas. Alternativamente, si un estudio se considera exploratorio, o si los resultados significativos se pueden volver a probar fácilmente en un estudio independiente, a menudo se prefiere el control de la tasa de falsos descubrimientos (FDR) [13] [14] [15] . El FDR, definido vagamente como la proporción esperada de falsos positivos entre todas las pruebas significativas, permite a los investigadores identificar un conjunto de "candidatos positivos" que pueden evaluarse más rigurosamente en un estudio de seguimiento. [dieciséis]
La práctica de probar muchas comparaciones no ajustadas con la esperanza de encontrar una significativa es un problema conocido, ya sea que se aplique de forma no intencionada o deliberada, a veces se denomina "p-hacking". [17] [18]
Evaluar si alguna hipótesis alternativa es cierta
Una cuestión básica que se plantea al comienzo del análisis de un gran conjunto de resultados de pruebas es si existe evidencia de que alguna de las hipótesis alternativas sea cierta. Una metaprueba simple que se puede aplicar cuando se supone que las pruebas son independientes entre sí es utilizar la distribución de Poisson como modelo para el número de resultados significativos en un nivel dado α que se encontrarían cuando todas las hipótesis nulas son cierto. [ cita requerida ] Si el número observado de positivos es sustancialmente mayor de lo que debería esperarse, esto sugiere que es probable que haya algunos verdaderos positivos entre los resultados significativos. Por ejemplo, si se realizan 1000 pruebas independientes, cada una en el nivel α = 0.05, esperamos que ocurran 0.05 × 1000 = 50 pruebas significativas cuando todas las hipótesis nulas son verdaderas. Con base en la distribución de Poisson con media 50, la probabilidad de observar más de 61 pruebas significativas es menor a 0.05, por lo que si se observan más de 61 resultados significativos, es muy probable que algunos de ellos correspondan a situaciones donde se cumple la hipótesis alternativa. Un inconveniente de este enfoque es que exagera la evidencia de que algunas de las hipótesis alternativas son verdaderas cuando las estadísticas de prueba están correlacionadas positivamente, lo que ocurre comúnmente en la práctica. [ cita requerida ] . Por otro lado, el enfoque sigue siendo válido incluso en presencia de correlación entre las estadísticas de prueba, siempre que se pueda demostrar que la distribución de Poisson proporciona una buena aproximación para el número de resultados significativos. Este escenario surge, por ejemplo, cuando se extraen importantes conjuntos de elementos frecuentes de conjuntos de datos transaccionales. Además, un análisis cuidadoso en dos etapas puede vincular el FDR a un nivel preestablecido. [19]
Otro enfoque común que se puede utilizar en situaciones en las que las estadísticas de la prueba se pueden estandarizar a puntajes Z es hacer un gráfico cuantílico normal de las estadísticas de la prueba. Si los cuantiles observados están marcadamente más dispersos que los cuantiles normales, esto sugiere que algunos de los resultados significativos pueden ser verdaderos positivos. [ cita requerida ]
Ver también
- q -valor
- Conceptos clave
- Tasa de error familiar
- Tasa de falsos positivos
- Tasa de descubrimiento falso (FDR)
- Tasa de cobertura falsa (FCR)
- Estimación de intervalo
- Análisis post hoc
- Tasa de error experimental
- Prueba de hipótesis estadística
- Métodos generales de ajuste alfa para comparaciones múltiples
- Procedimiento de prueba cerrado
- Corrección de Bonferroni
- Boole: límite de Bonferroni
- Nueva prueba de rango múltiple de Duncan
- Método Holm-Bonferroni
- Procedimiento de valor p de media armónica
- Conceptos relacionados
- Prueba de hipótesis sugeridas por los datos
- La falacia del francotirador de Texas
- Selección de modelo
- Efecto mirar en otra parte
- Dragado de datos
Referencias
- ^ Miller, RG (1981). Inferencia Estadística Simultánea 2ª Ed . Springer Verlag Nueva York. ISBN 978-0-387-90548-8.
- ^ Benjamini, Y. (2010). "Inferencia simultánea y selectiva: éxitos actuales y retos futuros". Revista biométrica . 52 (6): 708–721. doi : 10.1002 / bimj.200900299 . PMID 21154895 .
- ^ A mitad de camino, Stephen; Robertson, Matthew; Flinn, Shane; Kaller, Michael (4 de diciembre de 2020). "Comparación de comparaciones múltiples: orientación práctica para elegir la mejor prueba de comparaciones múltiples" . PeerJ . 8 : e10387. doi : 10.7717 / peerj.10387 . ISSN 2167-8359 .
- ^ [1]
- ^ Kutner, Michael; Nachtsheim, Christopher; Neter, John ; Li, William (2005). Modelos estadísticos lineales aplicados . págs. 744 –745.
- ^ Georgiev, Georgi (22 de agosto de 2017). "Pruebas multivariantes: mejores prácticas y herramientas para pruebas MVT (A / B / n)" . Blog de análisis web, estadísticas y marketing en Internet basado en datos | Analytics-Toolkit.com . Consultado el 13 de febrero de 2020 .
- ^ Aickin, M; Gensler, H (mayo de 1996). "Ajuste de múltiples pruebas al informar los resultados de la investigación: los métodos Bonferroni vs Holm" . Soy J Salud Pública . 86 (5): 726–728. doi : 10.2105 / ajph.86.5.726 . PMC 1380484 . PMID 8629727 .
- ^ Bayer, Adrian E .; Seljak, Uroš (2020). "El efecto mirar hacia otro lado desde una perspectiva unificada bayesiana y frecuentista" . Revista de cosmología y física de astropartículas . 2020 (10): 009–009. arXiv : 2007.13821 . doi : 10.1088 / 1475-7516 / 2020/10/009 .
- ^ Logan, BR; Rowe, DB (2004). "Una evaluación de las técnicas de umbralización en el análisis de fMRI". NeuroImage . 22 (1): 95–108. CiteSeerX 10.1.1.10.421 . doi : 10.1016 / j.neuroimage.2003.12.047 . PMID 15110000 .
- ^ Logan, BR; Geliazkova, MP; Rowe, DB (2008). "Una evaluación de las técnicas de umbralización espacial en el análisis de fMRI" . Cartografía del cerebro humano . 29 (12): 1379-1389. doi : 10.1002 / hbm.20471 . PMC 6870886 . PMID 18064589 .
- ^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (1 de octubre de 2010). "Importancia estadística en estudios de asociación genética" . Medicina clínica e investigativa . 33 (5): E266 – E270. ISSN 0147-958X . PMC 3270946 . PMID 20926032 .
- ^ Rothman, Kenneth J. (1990). "No se necesitan ajustes para comparaciones multiples". Epidemiología . 1 (1): 43–46. doi : 10.1097 / 00001648-199001000-00010 . JSTOR 20065622 . PMID 2081237 .
- ^ Benjamini, Yoav; Hochberg, Yosef (1995). "Controlar la tasa de falsos descubrimientos: un enfoque práctico y poderoso para múltiples pruebas". Revista de la Sociedad Real de Estadística, Serie B . 57 (1): 125-133. JSTOR 2346101 .
- ^ Storey, JD; Tibshirani, Robert (2003). "Significación estadística para estudios de todo el genoma" . PNAS . 100 (16): 9440–9445. Código bibliográfico : 2003PNAS..100.9440S . doi : 10.1073 / pnas.1530509100 . JSTOR 3144228 . PMC 170937 . PMID 12883005 .
- ^ Efron, Bradley; Tibshirani, Robert; Storey, John D .; Tusher, Virginia (2001). "Análisis empírico de Bayes de un experimento de microarrays". Revista de la Asociación Estadounidense de Estadística . 96 (456): 1151-1160. doi : 10.1198 / 016214501753382129 . JSTOR 3085878 .
- ^ Noble, William S. (1 de diciembre de 2009). "¿Cómo funciona la corrección de pruebas múltiples?" . Biotecnología de la naturaleza . 27 (12): 1135-1137. doi : 10.1038 / nbt1209-1135 . ISSN 1087-0156 . PMC 2907892 . PMID 20010596 .
- ^ Young, SS, Karr, A. (2011). "Deming, datos y estudios observacionales" (PDF) . Importancia . 8 (3): 116-120. doi : 10.1111 / j.1740-9713.2011.00506.x .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Smith, GD, Shah, E. (2002). "Dragado de datos, sesgo o confusión" . BMJ . 325 (7378): 1437–1438. doi : 10.1136 / bmj.325.7378.1437 . PMC 1124898 . PMID 12493654 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Kirsch, A; Mitzenmacher, M ; Pietracaprina, A; Pucci, G; Upfal, E ; Vandin, F (junio de 2012). "Un enfoque riguroso eficiente para identificar conjuntos de elementos frecuentes estadísticamente significativos". Revista de la ACM . 59 (3): 12: 1–12: 22. arXiv : 1002.1104 . doi : 10.1145 / 2220357.2220359 .
Otras lecturas
- F. Betz, T. Hothorn, P. Westfall (2010), Comparaciones múltiples usando R , CRC Press
- S. Dudoit y MJ van der Laan (2008), Procedimientos de prueba múltiples con aplicación a la genómica , Springer
- Farcomeni, A. (2008). "Una revisión de las pruebas de hipótesis múltiples modernas, con especial atención a la proporción de falso descubrimiento". Métodos estadísticos en la investigación médica . 17 : 347–388. doi : 10.1177 / 0962280206079046 .
- Phipson, B .; Smyth, GK (2010). "Los valores P de permutación nunca deben ser cero: cálculo de valores P exactos cuando las permutaciones se dibujan aleatoriamente". Aplicaciones estadísticas en genética y biología molecular . doi : 10.2202 / 1544-6155.1585 .
- PH Westfall y SS Young (1993), Pruebas múltiples basadas en remuestreos: ejemplos y métodos para el ajuste del valor p , Wiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) Comparaciones múltiples y pruebas múltiples usando SAS , 2nd edn, SAS Institute
- Una galería de ejemplos de correlaciones inverosímiles derivadas del dragado de datos