El uso indebido de los valores p es común en la investigación científica y la educación científica . Los valores de p se utilizan a menudo o se interpretan incorrectamente; la Asociación Estadounidense de Estadística afirma que los valores p pueden indicar cuán incompatibles son los datos con un modelo estadístico específico. [1] A partir de un enfoque de prueba de hipótesis de Neyman-Pearson para inferencias estadísticas, los datos obtenidos al comparar el valor p con un nivel de significancia producirán uno de dos resultados: la hipótesis nulase rechaza (lo que, sin embargo, no prueba que la hipótesis nula sea falsa ), o la hipótesis nula no puede rechazarse en ese nivel de significancia (lo que, sin embargo, no prueba que la hipótesis nula sea verdadera ). Desde un enfoque de prueba estadística fisheriano a inferencias estadísticas, la mínima p medios-valor , ya sea que la hipótesis nula es verdadera y ha ocurrido un suceso altamente improbable o que la hipótesis nula es falsa.
Aclaraciones sobre los valores p
La siguiente lista aclara algunos problemas que comúnmente se malinterpretan con respecto a los valores p : [1] [2] [3]
- El valor p no es la probabilidad de que la hipótesis nula sea verdadera, o la probabilidad de que la hipótesis alternativa sea falsa. [1] Un valor p puede indicar el grado de compatibilidad entre un conjunto de datos y una explicación hipotética particular (como una hipótesis nula). Específicamente, el valor p puede tomarse como la probabilidad previa de obtener un efecto que sea al menos tan extremo como el efecto observado, dado que la hipótesis nula es cierta. Esto no debe confundirse con la probabilidad posterior de que la hipótesis nula sea cierta dado el efecto observado (ver falacia del fiscal ). De hecho, las estadísticas frecuentistas no asocian probabilidades a las hipótesis.
- El valor p no es la probabilidad de que los efectos observados se hayan producido únicamente por azar. [1] El valor p se calcula bajo el supuesto de que cierto modelo, generalmente la hipótesis nula, es verdadero. Esto significa que el valor p es un enunciado sobre la relación de los datos con esa hipótesis. [1]
- El nivel de significancia de 0.05 es simplemente una convención. [2] [4] El nivel de significancia 0.05 (nivel alfa) se usa a menudo como el límite entre un valor p estadísticamente significativo y uno no significativo estadísticamente . Sin embargo, esto no implica que, en general, exista una razón científica para considerar los resultados en lados opuestos de cualquier umbral como cualitativamente diferentes. [2] [5]
- El valor p no indica el tamaño o la importancia del efecto observado. [1] Se puede observar un valor p pequeño para un efecto que no es significativo o importante. De hecho, cuanto mayor sea el tamaño de la muestra, menor será el efecto mínimo necesario para producir un valor p estadísticamente significativo (ver tamaño del efecto ). La visualización de los tamaños del efecto es un componente crítico de un método de análisis de datos llamado estadísticas de estimación .
Representar probabilidades de hipótesis
Un enfoque frecuentista rechaza la validez de representar probabilidades de hipótesis: las hipótesis son verdaderas o falsas, no algo que pueda representarse con una probabilidad. [6]
La estadística bayesiana modela activamente la probabilidad de hipótesis. El valor p no permite por sí mismo razonar sobre las probabilidades de hipótesis, lo que requiere múltiples hipótesis o un rango de hipótesis, con una distribución previa de verosimilitudes entre ellas, en cuyo caso se podría utilizar la estadística bayesiana. Allí, se usa una función de verosimilitud para todos los valores posibles del anterior en lugar del valor p para una única hipótesis nula. El valor p describe una propiedad de los datos en comparación con una hipótesis nula específica; no es una propiedad de la hipótesis en sí. Por la misma razón, los valores p no dan la probabilidad de que los datos hayan sido producidos solo por azar. [1]
Problema de comparaciones múltiples
El problema de las comparaciones múltiples ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente [7] o infiere un subconjunto de parámetros seleccionados en base a los valores observados. [8] También se conoce como efecto de buscar en otra parte . Los errores en la inferencia, incluidos los intervalos de confianza que no incluyen sus correspondientes parámetros de población o las pruebas de hipótesis que rechazan incorrectamente la hipótesis nula , tienen más probabilidades de ocurrir cuando se considera el conjunto como un todo. Se han desarrollado varias técnicas estadísticas para evitar que esto suceda, lo que permite comparar directamente los niveles de significancia para comparaciones únicas y múltiples. Estas técnicas generalmente requieren un umbral de significación más alto para las comparaciones individuales, a fin de compensar el número de inferencias que se realizan. [ cita requerida ]
El webcomic xkcd satirizó los malentendidos de los valores p al retratar a los científicos que investigan la afirmación de que comer gominolas causaba acné . [9] [10] [11] [12] Después de no poder encontrar una correlación significativa ( p <0.05) entre comer gominolas y acné, los científicos investigan 20 colores diferentes de gominolas individualmente, sin ajustar por comparaciones múltiples. Encuentran un color (verde) nominalmente asociado con el acné ( p <0.05). Luego, un periódico informa que los resultados indican que las gominolas verdes están relacionadas con el acné con un nivel de confianza del 95%, como si el verde fuera el único color probado. De hecho, si se realizan 20 pruebas independientes con un nivel de significancia de 0,05 y todas las hipótesis nulas son verdaderas, hay un 64,2% de posibilidades de obtener al menos un falso positivo y el número esperado de falsos positivos es 1 (es decir, 0,05 × 20).
En general, la tasa de error familiar (FWER) —la probabilidad de obtener al menos un falso positivo— aumenta con el número de pruebas realizadas. La FWER cuando todas las hipótesis nulas son verdaderas para m pruebas independientes, cada una realizada al nivel de significancia α, es: [11]
Ver también
- Estadísticas de estimación
- Crisis de replicación
- Metaciencia
- Uso indebido de estadísticas
- Comprobación de estado
Referencias
- ↑ a b c d e f g Wasserstein RL, Lazar NA (2016). "Declaración de la ASA sobre p -valores: contexto, proceso y propósito" (PDF) . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 . S2CID 124084622 .
- ^ a b c Sterne JA, Davey Smith G (enero de 2001). "Examinando la evidencia, ¿qué hay de malo en las pruebas de significancia?" . BMJ . 322 (7280): 226–31. doi : 10.1136 / bmj.322.7280.226 . PMC 1119478 . PMID 11159626 .
- ^ Schervish MJ (1996). " Valores p : qué son y qué no son". El estadístico estadounidense . 50 (3): 203–206. doi : 10.2307 / 2684655 . JSTOR 2684655 .
- ^ Rafi Z, Groenlandia S (septiembre de 2020). "Herramientas semánticas y cognitivas para ayudar a la ciencia estadística: reemplazar la confianza y la importancia por compatibilidad y sorpresa" . Metodología de Investigación Médica de BMC . 20 (1): 244. doi : 10.1186 / s12874-020-01105-9 . PMC 7528258 . PMID 32998683 .
- ^ Amrhein V, Korner-Nievergelt F, Roth T (2017). "p> 0,05: umbrales de significación y la crisis de la investigación irrepetible" . PeerJ . 5 : e3544. doi : 10.7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .
- ^ Chaput, Brigitte; Girard, Jean-Claude; Henry, Michel (2011). "Enfoque frecuentista: modelización y simulación en la enseñanza de la estadística y la probabilidad". La enseñanza de la estadística en la matemática escolar: desafíos para la docencia y la formación del profesorado . Nueva serie de estudios del ICMI. 14 . págs. 85–95. doi : 10.1007 / 978-94-007-1131-0_12 . ISBN 978-94-007-1130-3.
- ^ Miller RG (1981). Inferencia estadística simultánea (2ª ed.). Nueva York: Springer Verlag . ISBN 978-0-387-90548-8.
- ^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y retos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708-21. doi : 10.1002 / bimj.200900299 . PMID 21154895 .
- ^ Munroe R (6 de abril de 2011). "Significativo" . xkcd . Consultado el 22 de febrero de 2016 .
- ^ Colquhoun D (noviembre de 2014). "Una investigación de la tasa de falsos descubrimientos y la mala interpretación de los valores p" . Ciencia Abierta de la Royal Society . 1 (3): 140216. arXiv : 1407.5296 . Código bibliográfico : 2014RSOS .... 140216C . doi : 10.1098 / rsos.140216 . PMC 4448847 . PMID 26064558 .
- ^ a b Reinhart A (2015). Estadísticas mal hechas: la guía lamentablemente completa . Sin prensa de almidón . págs. 47–48. ISBN 978-1-59327-620-1.
- ^ Barsalou M (2 de junio de 2014). "Prueba de hipótesis y valores p" . Blog de Minitab . Consultado el 22 de febrero de 2016 .
Otras lecturas
- Wasserstein, Ronald L .; Schirm, Allen L .; Lazar, Nicole A. (20 de marzo de 2019). "Moverse a un mundo más allá" p <0.05 " " . El estadístico estadounidense . Informa UK Limited. 73 (sup. 1): 1–19. doi : 10.1080 / 00031305.2019.1583913 . ISSN 0003-1305 .
- Ioannidis, John PA (29 de marzo de 2019). "¿Qué hemos (no) aprendido de millones de artículos científicos con valores P?" . El estadístico estadounidense . 73 (sup. 1): 20–25. doi : 10.1080 / 00031305.2018.1447512 . ISSN 0003-1305 .
- Moran JL, Solomon PJ (junio de 2004). "¿Una despedida de los valores P?" (PDF) . Cuidados intensivos y reanimación . 6 (2): 130–7. PMID 16566700 .
- Lew MJ (julio de 2012). "Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conoces P" . Revista británica de farmacología . 166 (5): 1559–67. doi : 10.1111 / j.1476-5381.2012.01931.x . PMC 3419900 . PMID 22394284 .
- Nuzzo R (febrero de 2014). "Método científico: errores estadísticos" . Naturaleza . 506 (7487): 150–2. Código Bib : 2014Natur.506..150N . doi : 10.1038 / 506150a . PMID 24522584 .