En la prueba de significación de hipótesis nula , el valor p [nota 1] es la probabilidad de obtener resultados de prueba al menos tan extremos como los resultados realmente observados , bajo el supuesto de que la hipótesis nula es correcta. [2] [3] Un valor p muy pequeño significa que un resultado observado tan extremo sería muy poco probable bajo la hipótesis nula. Informar los valores p de las pruebas estadísticas es una práctica común en las publicaciones académicas de muchos campos cuantitativos. Dado que el significado preciso del valor p es difícil de comprender, el uso indebido está muy extendido.y ha sido un tema importante en metaciencia . [4] [5]
Conceptos básicos
En estadística, toda conjetura relativa a la distribución de probabilidad desconocida de una colección de variables aleatorias que representan los datos observados en algunos estudios se llama hipótesis estadística . Si enunciamos una sola hipótesis y el objetivo de la prueba estadística es ver si esta hipótesis es defendible, pero no, al mismo tiempo, investigar otras hipótesis, entonces dicha prueba se llama prueba de significancia . Tenga en cuenta que la hipótesis podría especificar la distribución de probabilidad deprecisamente, o solo podría especificar que pertenece a alguna clase de distribuciones. A menudo, reducimos los datos a una única estadística numérica. cuya distribución de probabilidad marginal está estrechamente relacionada con una cuestión principal de interés en el estudio.
El valor p se utiliza en el contexto de la prueba de hipótesis nula para cuantificar la idea de significación estadística de la evidencia, siendo la evidencia el valor observado de la estadística elegida.. [nota 2] La prueba de hipótesis nula es un argumento reductio ad absurdum adaptado a la estadística. En esencia, se asume que una reclamación es válida si su contrademanda es muy inverosímil.
Por lo tanto, la única hipótesis que debe especificarse en esta prueba y que incorpora la contrademanda se denomina hipótesis nula ; es decir, la hipótesis a anular. Se dice que un resultado es estadísticamente significativo si nos permite rechazar la hipótesis nula. El resultado, siendo estadísticamente significativo, era altamente improbable si se asume que la hipótesis nula es cierta. Un rechazo de la hipótesis nula implica que la hipótesis correcta radica en el complemento lógico de la hipótesis nula. Pero no es necesario especificar alternativas específicas. El rechazo de la hipótesis nula no nos dice cuál de las posibles alternativas podría estar mejor respaldada. Sin embargo, el usuario de la prueba eligió la estadística de pruebaen primer lugar, probablemente con alternativas particulares en mente; tal prueba se usa a menudo precisamente para convencer a la gente de que esas alternativas son viables porque lo que realmente se observó era extremadamente improbable bajo la hipótesis nula.
Como ejemplo particular, si una hipótesis nula establece que una determinada estadística de resumen sigue la distribución normal estándar N (0,1), entonces el rechazo de esta hipótesis nula podría significar que (i) la media no es 0, o (ii) la varianza no es 1, o (iii) la distribución no es normal . Diferentes pruebas de la misma hipótesis nula serían más o menos sensibles a diferentes alternativas. De todos modos, si logramos rechazar la hipótesis nula, incluso si sabemos que la distribución es normal y la varianza es 1, la prueba de hipótesis nula no nos dice qué valores distintos de cero de la media son ahora más plausibles. Si uno tiene una gran cantidad de observaciones independientes de la misma distribución de probabilidad, eventualmente podrá demostrar que su valor medio no es exactamente igual a cero; pero la desviación de cero puede ser tan pequeña que no tenga ningún interés práctico o científico. En igualdad de condiciones, los valores p más pequeños se toman como evidencia más sólida en contra de la hipótesis nula.
Definición e interpretación
General
Considere una estadística de prueba observada de distribución desconocida . Entonces el valor p es cuál sería la probabilidad previa de observar un valor estadístico de prueba al menos tan "extremo" como si hipótesis nula eran verdad. Es decir:
- para una prueba de cola derecha unilateral,
- para una prueba de cola izquierda unilateral,
- para una prueba de dos caras. Si distribucion es simétrico con respecto a cero, entonces
Si el valor p es muy pequeño, entonces la hipótesis nula es falsa o ha ocurrido algo poco probable. En una prueba de significancia formal , la hipótesis nulase rechaza si el valor p es menor que un valor umbral predefinido, que se conoce como nivel alfa o nivel de significación . El valor deen cambio, lo establece el investigador antes de examinar los datos. Por convención, se establece comúnmente en 0.05, aunque a veces se usan niveles alfa más bajos.
El valor p es una función del estadístico de prueba elegidoy por tanto es una variable aleatoria . Si la hipótesis nula fija la distribución de probabilidad deprecisamente, y si esa distribución es continua, entonces cuando la hipótesis nula es verdadera, el valor p se distribuye uniformemente entre 0 y 1. Por lo tanto, el valor p no es fijo. Si la misma prueba se repite de forma independiente con datos nuevos (siempre con la misma distribución de probabilidad), se obtendrá un valor p diferente en cada iteración. Si la hipótesis nula es compuesta, o la distribución del estadístico es discreta, la probabilidad de obtener un valor p menor o igual a cualquier número entre 0 y 1 es menor o igual que ese número, si la hipótesis nula es verdad. Sigue siendo cierto que los valores muy pequeños son relativamente improbables si la hipótesis nula es verdadera, y que una prueba de significancia a nivel se obtiene rechazando la hipótesis nula si el nivel de significancia es menor o igual a .
Se pueden combinar diferentes valores p basados en conjuntos de datos independientes, por ejemplo, utilizando la prueba de probabilidad combinada de Fisher .
Distribución
Cuando la hipótesis nula es verdadera, si toma la forma , y la variable aleatoria subyacente es continua, entonces la distribución de probabilidad del valor p es uniforme en el intervalo [0,1]. Por el contrario, si la hipótesis alternativa es cierta, la distribución depende del tamaño de la muestra y del valor real del parámetro que se está estudiando. [6] [7]
La distribución de los valores p para un grupo de estudios a veces se denomina curva p . [8] La curva se ve afectada por cuatro factores: la proporción de estudios que examinaron hipótesis nulas falsas, el poder de los estudios que investigaron hipótesis nulas falsas, los niveles alfa y el sesgo de publicación . [9] Se puede utilizar una curva p para evaluar la confiabilidad de la literatura científica, por ejemplo, detectando sesgos de publicación o piratería p . [8] [10]
Para hipótesis compuestas
En los problemas de prueba de hipótesis paramétricas, una hipótesis simple o puntual se refiere a una hipótesis en la que se supone que el valor del parámetro es un solo número. Por el contrario, en una hipótesis compuesta, el valor del parámetro viene dado por un conjunto de números. Por ejemplo, cuando se prueba la hipótesis nula de que una distribución es normal con una media menor o igual a cero frente a la alternativa de que la media es mayor que cero (varianza conocida), la hipótesis nula no especifica la distribución de probabilidad de la prueba apropiada. estadística. En el ejemplo que acabamos de mencionar, esa sería la estadística Z perteneciente a la prueba Z unilateral de una muestra . Para cada valor posible de la media teórica, el estadístico de la prueba Z tiene una distribución de probabilidad diferente. En estas circunstancias (el caso de la denominada hipótesis nula compuesta), el valor p se define tomando el caso de hipótesis nula menos favorable, que normalmente se encuentra en el límite entre nula y alternativa.
Esta definición asegura la complementariedad de los valores p y los niveles alfa. Si establecemos el nivel de significancia alfa en 0.05, y solo rechazamos la hipótesis nula si el valor p es menor o igual a 0.05, entonces nuestra prueba de hipótesis tendrá un nivel de significancia (tasa máxima de error tipo 1) 0.05. Como escribió Neyman: “El error que un estadístico en ejercicio consideraría más importante de evitar (que es un juicio subjetivo) se denomina error del primer tipo. La primera exigencia de la teoría matemática es deducir criterios de prueba que aseguren que la probabilidad de cometer un error del primer tipo sea igual (o aproximadamente igual o no superior) a un número α preasignado, como α = 0,05 o 0,01 , etc. Este número se llama nivel de significación ”; Neyman 1976, pág. 161 en "El surgimiento de la estadística matemática: un bosquejo histórico con especial referencia a los Estados Unidos", "Sobre la historia de la estadística y la probabilidad", ed. DB Owen, Nueva York: Marcel Dekker, págs. 149-193. Véase también "Confusión sobre medidas de evidencia (p) versus errores (a) en pruebas estadísticas clásicas", Raymond Hubbard y MJ Bayarri, The American Statistician, agosto de 2003, vol. 57, No 3, 171-182 (con discusión). Para una declaración moderna concisa, consulte el capítulo 10 de "Toda la estadística: un curso conciso en inferencia estadística", Springer; 1ª edición corregida. 20a edición (17 de septiembre de 2004). Larry Wasserman.
Uso
El valor p se usa ampliamente en pruebas de hipótesis estadísticas , específicamente en pruebas de significancia de hipótesis nulas. En este método, como parte del diseño experimental , antes de realizar el experimento, primero se elige un modelo (la hipótesis nula ) y un valor umbral para p , llamado nivel de significancia de la prueba, tradicionalmente 5% o 1% [11] y denotado como α . Si el valor p es menor que el nivel de significancia elegido ( α ), eso sugiere que los datos observados son suficientemente inconsistentes con la hipótesis nula y que la hipótesis nula puede ser rechazada. Sin embargo, eso no prueba que la hipótesis probada sea falsa. Cuando el valor p se calcula correctamente, esta prueba garantiza que la tasa de error de tipo I sea como máximo α [ se necesita una explicación adicional ] [ se necesita una cita ] . Para un análisis típico, utilizando el punto de corte estándar α = 0.05, la hipótesis nula se rechaza cuando p <.05 y no se rechaza cuando p > .05. El valor p no respalda, en sí mismo, el razonamiento sobre las probabilidades de hipótesis, sino que es solo una herramienta para decidir si se rechaza la hipótesis nula.
Mal uso
Según la ASA , existe un acuerdo generalizado de que los valores p a menudo se utilizan incorrectamente y se malinterpretan. [3] Una práctica que ha sido particularmente criticada es aceptar la hipótesis alternativa para cualquier valor p nominalmente menor que .05 sin otra evidencia de apoyo. Si bien los valores p son útiles para evaluar cuán incompatibles son los datos con un modelo estadístico específico, también se deben considerar factores contextuales, como "el diseño de un estudio, la calidad de las mediciones, la evidencia externa del fenómeno en estudio, y la validez de los supuestos que subyacen al análisis de datos ". [3] Otra preocupación es que el valor p a menudo se malinterpreta como la probabilidad de que la hipótesis nula sea cierta. [3] [12]
Algunos estadísticos han propuesto reemplazar los valores p con medidas alternativas de evidencia, [3] como intervalos de confianza , [13] [14] razones de probabilidad , [15] [16] o factores de Bayes , [17] [18] [19] pero existe un acalorado debate sobre la viabilidad de estas alternativas. [20] [21] Otros han sugerido eliminar los umbrales de significación fijos e interpretar los valores p como índices continuos de la fuerza de la evidencia contra la hipótesis nula. [22] [23] Sin embargo, otros sugirieron informar junto con los valores p la probabilidad previa de un efecto real que se requeriría para obtener un riesgo de falso positivo (es decir, la probabilidad de que no haya un efecto real) por debajo de un umbral preestablecido ( por ejemplo, 5%). [24]
Cálculo
Por lo general, es una estadística de prueba , en lugar de cualquiera de las observaciones reales. Un estadístico de prueba es el resultado de una función escalar de todas las observaciones. Esta estadística proporciona un número único, como el promedio o el coeficiente de correlación , que resume las características de los datos, de una manera relevante para una investigación en particular. Como tal, el estadístico de prueba sigue una distribución determinada por la función utilizada para definir ese estadístico de prueba y la distribución de los datos de observación de entrada.
Para el caso importante en el que se hipotetiza que los datos sean una muestra aleatoria de una distribución normal, dependiendo de la naturaleza del estadístico de prueba y las hipótesis de interés sobre su distribución, se han desarrollado diferentes pruebas de hipótesis nula. Algunas de estas pruebas son la prueba z para hipótesis relativas a la media de una distribución normal con varianza conocida, la prueba t basada en la distribución t de Student de un estadístico adecuado para hipótesis relativas a la media de una distribución normal cuando la varianza es desconocida, la prueba F basada en la distribución F de otro estadístico más para las hipótesis relativas a la varianza. Para datos de otra naturaleza, por ejemplo, datos categóricos (discretos), se pueden construir estadísticos de prueba cuya distribución de hipótesis nula se base en aproximaciones normales a estadísticos apropiados obtenidos invocando el teorema del límite central para muestras grandes, como en el caso de Pearson. prueba al cuadrado .
Por lo tanto, calcular un valor p requiere una hipótesis nula, una estadística de prueba (junto con la decisión de si el investigador está realizando una prueba de una cola o una prueba de dos colas ) y datos. Aunque calcular la estadística de prueba sobre datos dados puede ser fácil, calcular la distribución muestral bajo la hipótesis nula y luego calcular su función de distribución acumulativa (CDF) es a menudo un problema difícil. Hoy en día, este cálculo se realiza mediante software estadístico, a menudo mediante métodos numéricos (en lugar de fórmulas exactas), pero, a principios y mediados del siglo XX, esto se hacía a través de tablas de valores, y uno de los valores p interpolados o extrapolados de estos. valores discretos [ cita requerida ] . En lugar de utilizar una tabla de valores p , Fisher invirtió el CDF, publicando una lista de valores del estadístico de prueba para valores p fijos dados ; esto corresponde al cálculo de la función cuantil (CDF inversa).
Ejemplo
Como ejemplo de una prueba estadística, se realiza un experimento para determinar si un lanzamiento de moneda es justo (la misma probabilidad de que salga cara o cruz) o injustamente sesgado (un resultado es más probable que el otro).
Suponga que los resultados experimentales muestran que la moneda gira hacia arriba 14 veces de un total de 20 lanzamientos. Los datos completossería una secuencia de veinte veces el símbolo "H" o "T". La estadística en la que uno podría enfocarse, podría ser el número totalde cabezas. La hipótesis nula es que la moneda es justa y los lanzamientos de moneda son independientes entre sí. Si se considera una prueba de cola derecha, que sería el caso si uno está realmente interesado en la posibilidad de que la moneda esté sesgada hacia la caída de caras, entonces el valor p de este resultado es la posibilidad de que una moneda justa caiga en cara en al menos 14 veces de cada 20 volteretas. Esa probabilidad se puede calcular a partir de coeficientes binomiales como
Esta probabilidad es el valor p , considerando solo resultados extremos que favorecen cara. A esto se le llama prueba de una cola . Sin embargo, uno podría estar interesado en desviaciones en cualquier dirección, favoreciendo tanto cara como cruz. En su lugar, se puede calcular el valor p de dos colas , que considera las desviaciones que favorecen tanto a cara como a cruz. A medida que la distribución binomial es simétrica para una moneda, la de dos caras p -valor es simplemente el doble de la anterior por una sola cara calculado p -valor: el de dos caras p -valor es 0,115.
En el ejemplo anterior:
- Hipótesis nula (H 0 ): La moneda es justa, con Prob (cara) = 0,5
- Estadística de prueba: número de cabezas
- Nivel alfa (umbral de significancia designado): 0.05
- Observación O: 14 caras de 20 lanzamientos; y
- Valor p de dos colas de observación O dado H 0 = 2 * min (Prob (no. De cabezas ≥ 14 cabezas), Prob (no. De cabezas ≤ 14 cabezas)) = 2 * min (0.058, 0.978) = 2 * 0,058 = 0,115.
Tenga en cuenta que el Prob (n. ° de cabezas ≤ 14 cabezas) = 1 - Prob (n. ° de cabezas ≥ 14 cabezas) + Prob (n. ° de cabezas = 14) = 1 - 0.058 + 0.036 = 0.978; sin embargo, la simetría de la distribución binomial hace que sea un cálculo innecesario encontrar la menor de las dos probabilidades. Aquí, el valor p calculado excede .05, lo que significa que los datos están dentro del rango de lo que sucedería el 95% de las veces si la moneda fuera justa. Por lo tanto, la hipótesis nula no se rechaza al nivel de .05.
Sin embargo, si se hubiera obtenido una cabeza más, el valor p resultante (dos colas) habría sido 0.0414 (4.14%), en cuyo caso la hipótesis nula se rechazaría al nivel de .05.
Historia
Los cálculos de los valores p se remontan a la década de 1700, cuando se calcularon para la proporción de sexos humanos al nacer y se utilizaron para calcular la significación estadística en comparación con la hipótesis nula de igual probabilidad de nacimientos masculinos y femeninos. [25] John Arbuthnot estudió esta cuestión en 1710, [26] [27] [28] [29] y examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 a 1710. En cada año, el número de varones nacidos en Londres superó el número de mujeres. Considerando igualmente probables más nacimientos masculinos o femeninos, la probabilidad del resultado observado es 1/2 82 , o aproximadamente 1 en 4,836,000,000,000,000,000,000,000,000; en términos modernos, el valor p . Esto es muy pequeño, lo que lleva a Arbuthnot a que esto no se debió al azar, sino a la divina providencia: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de nacimientos masculinos y femeninos igualmente probables en el nivel de significancia p = 1/2 82 . Este y otro trabajo de Arbuthnot se acredita como "... el primer uso de pruebas de significancia ..." [30] el primer ejemplo de razonamiento sobre la significancia estadística, [31] y "... quizás el primer informe publicado de una prueba no paramétrica ...", [ 27] específicamente la prueba de signos ; ver detalles en Prueba de signos § Historial .
La misma pregunta fue abordada más tarde por Pierre-Simon Laplace , quien en su lugar utilizó una prueba paramétrica , modelando el número de nacimientos masculinos con una distribución binomial : [32]
En la década de 1770, Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas mostraron un exceso de niños en comparación con las niñas. Con el cálculo de un valor p, concluyó que el exceso era un efecto real, pero inexplicable.
El valor p fue introducido formalmente por primera vez por Karl Pearson , en su prueba de chi-cuadrado de Pearson , [33] utilizando la distribución de chi-cuadrado y anotado como P mayúscula. [33] Los valores de p para la distribución de chi-cuadrado (para varios valores de χ 2 y grados de libertad), ahora anotados como P, se calcularon en ( Elderton 1902 ), recopilados en ( Pearson 1914 , pp. xxxi-xxxiii, 26-28, Tabla XII)
.El uso del valor p en estadística fue popularizado por Ronald Fisher , [34] [ cita completa necesaria ] y juega un papel central en su enfoque del tema. [35] En su influyente libro Statistical Methods for Research Workers (1925), Fisher propuso el nivel p = 0,05, o una probabilidad de 1 en 20 de ser excedido por casualidad, como límite de significación estadística , y lo aplicó a una distribución normal. (como una prueba de dos colas), lo que produce la regla de dos desviaciones estándar (en una distribución normal) para la significación estadística (ver la regla 68-95-99.7 ). [36] [nota 3] [37]
Luego calculó una tabla de valores, similar a Elderton pero, lo que es más importante, invirtió los roles de χ 2 y p. Es decir, en lugar de calcular p para diferentes valores de χ 2 (y grados de libertad n ), calculó valores de χ 2 que producen valores p especificados , específicamente 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50 , 0.30, 0.20, 0.10, 0.05, 0.02 y 0.01. [38] Eso permitió comparar los valores calculados de χ 2 con los valores de corte y alentó el uso de valores p (especialmente 0.05, 0.02 y 0.01) como límites, en lugar de calcular y reportar los valores p ellos mismos. Luego se compiló el mismo tipo de tablas en ( Fisher & Yates 1938 ), lo que cimentó el enfoque. [37]
Como ilustración de la aplicación de los valores p al diseño e interpretación de experimentos, en su siguiente libro The Design of Experiments (1935), Fisher presentó el experimento de la dama degustando té , [39] que es el ejemplo arquetípico de la p - valor.
Para evaluar la afirmación de una dama de que ella ( Muriel Bristol ) podía distinguir por el gusto cómo se prepara el té (primero agregando la leche a la taza, luego el té, o primero el té, luego la leche), se le presentaron secuencialmente 8 tazas: 4 preparadas de una manera, 4 prepararon la otra, y pidieron determinar la preparación de cada taza (sabiendo que eran 4 de cada una). En ese caso, la hipótesis nula era que no tenía ninguna habilidad especial, la prueba era la prueba exacta de Fisher y el valor p erapor lo que Fisher estaba dispuesto a rechazar la hipótesis nula (considere que es muy poco probable que el resultado se deba al azar) si todos se clasificaran correctamente. (En el experimento real, Bristol clasificó correctamente las 8 tazas).
Fisher reiteró el umbral de p = 0,05 y explicó su razón de ser: [40]
Es habitual y conveniente que los experimentadores tomen el 5 por ciento como nivel estándar de significancia, en el sentido de que están preparados para ignorar todos los resultados que no alcancen este estándar y, por este medio, eliminar de la discusión posterior el mayor parte de las fluctuaciones que las causas del azar han introducido en sus resultados experimentales.
También aplica este umbral al diseño de experimentos, señalando que si solo se hubieran presentado 6 tazas (3 de cada), una clasificación perfecta solo habría arrojado un valor p deque no habría alcanzado este nivel de significación. [40] Fisher también subrayó la interpretación de p, como la proporción a largo plazo de valores al menos tan extremos como los datos, asumiendo que la hipótesis nula es cierta.
En ediciones posteriores, Fisher contrastó explícitamente el uso del valor p para la inferencia estadística en la ciencia con el método de Neyman-Pearson, que él denomina "Procedimientos de aceptación". [41] Fisher enfatiza que si bien los niveles fijos como 5%, 2% y 1% son convenientes, se puede usar el valor p exacto , y la fuerza de la evidencia puede y será revisada con más experimentación. Por el contrario, los procedimientos de decisión requieren una decisión clara, que produce una acción irreversible, y el procedimiento se basa en los costos del error, que, según él, son inaplicables a la investigación científica.
Cantidades relacionadas
Un concepto estrechamente relacionado es el valor E , [42] que es el número esperado de veces en pruebas múltiples que se espera obtener un estadístico de prueba al menos tan extremo como el que realmente se observó si se supone que la hipótesis nula es cierto. El valor E es el producto del número de pruebas y el valor p .
El valor q es el análogo del valor p con respecto a la tasa de descubrimiento falso positivo . [43] Se utiliza en pruebas de hipótesis múltiples para mantener el poder estadístico mientras se minimiza la tasa de falsos positivos . [44]
Ver también
- Corrección de Bonferroni
- Contrarrevolucionario
- Método de Fisher de combinar valores p
- Valor p generalizado
- Método Holm-Bonferroni
- Varias comparaciones
- p -rep
- falacia del valor p
- Medio armónico p -valor
Notas
- ^ Las letras en cursiva, las mayúsculas y los guiones del término varían. Por ejemplo, el estilo AMA usa "valor P ", el estilo APA usa "valor p " y la Asociación Estadounidense de Estadística usa "valor p ". [1]
- ^ La importancia estadística de un resultado no implica que el resultado también sea científicamente significativo. Por ejemplo, un medicamento puede tener un efecto beneficioso mínimo, pero puede ser tan pequeño que no tenga ningún interés médico o científico. [ aclaración necesaria ]
- ^ Para ser más específico, p = 0.05 corresponde a aproximadamente 1.96 desviaciones estándar para una distribución normal (prueba de dos colas), y 2 desviaciones estándar corresponden a aproximadamente 1 en 22 de probabilidad de ser excedido por casualidad, op ≈ 0.045; Fisher toma nota de estas aproximaciones.
Referencias
- ^ http://magazine.amstat.org/wp-content/uploads/STATTKadmin/style%5B1%5D.pdf
- ↑ Aschwanden, Christie (24 de noviembre de 2015). "Ni siquiera los científicos pueden explicar fácilmente los valores P" . FiveThirtyEight . Archivado desde el original el 25 de septiembre de 2019 . Consultado el 11 de octubre de 2019 .
- ^ a b c d e Wasserstein, Ronald L .; Lazar, Nicole A. (7 de marzo de 2016). "Declaración de la ASA sobre p-valores: contexto, proceso y propósito" . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 .
- ^ Hubbard, Raymond; Lindsay, R. Murray (2008). "Por qué los valores de P no son una medida útil de evidencia en las pruebas de significación estadística". Teoría y Psicología . 18 (1): 69–88. doi : 10.1177 / 0959354307086923 .
- ^ Ioannidis, John PA ; et al. (Enero de 2017). "Un manifiesto por la ciencia reproducible" (PDF) . Comportamiento humano de la naturaleza . 1 : 0021. doi : 10.1038 / s41562-016-0021 . S2CID 6326747 .
- ^ Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). "Mediana del valor p bajo la hipótesis alternativa". El estadístico estadounidense . 56 (3): 202–6. doi : 10.1198 / 000313002146 . S2CID 33812107 .
- ^ Hung, HMJ; O'Neill, RT; Bauer, P .; Kohne, K. (1997). "El comportamiento del valor p cuando la hipótesis alternativa es cierta" . Biometrics (manuscrito enviado). 53 (1): 11-22. doi : 10.2307 / 2533093 . JSTOR 2533093 . PMID 9147587 .
- ^ a b Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015). "El alcance y las consecuencias de la piratería informática en la ciencia" . PLOS Biol . 13 (3): e1002106. doi : 10.1371 / journal.pbio.1002106 . PMC 4359000 . PMID 25768323 .
- ^ Lakens D (2015). "Cómo se ve realmente el p-hacking: un comentario sobre Masicampo y LaLande (2012)" . QJ Exp Psychol (Hove) . 68 (4): 829–32. doi : 10.1080 / 17470218.2014.982664 . PMID 25484109 .
- ^ Simonsohn U, Nelson LD, Simmons JP (2014). "Curva p y tamaño del efecto: corrección del sesgo de publicación utilizando sólo resultados significativos". Perspectiva Psychol Sci . 9 (6): 666–81. doi : 10.1177 / 1745691614553988 . PMID 26186117 . S2CID 39975518 .
- ^ Nuzzo, R. (2014). "Método científico: errores estadísticos" . Naturaleza . 506 (7487): 150-152. Código Bibliográfico : 2014Natur.506..150N . doi : 10.1038 / 506150a . PMID 24522584 .
- ^ Colquhoun, David (2014). "Una investigación de la tasa de falsos descubrimientos y la mala interpretación de los valores p" . Ciencia Abierta de la Royal Society . 1 (3): 140216. arXiv : 1407.5296 . Código bibliográfico : 2014RSOS .... 140216C . doi : 10.1098 / rsos.140216 . PMC 4448847 . PMID 26064558 .
- ^ Lee, Dong Kyu (7 de marzo de 2017). "Alternativas al valor de P: intervalo de confianza y tamaño del efecto" . Revista Coreana de Anestesiología . 69 (6): 555–562. doi : 10.4097 / kjae.2016.69.6.555 . ISSN 2005-6419 . PMC 5133225 . PMID 27924194 .
- ^ Ranstam, J. (agosto de 2012). "Por qué la cultura del valor P es mala y los intervalos de confianza son una mejor alternativa" (PDF) . Artrosis y cartílago . 20 (8): 805–808. doi : 10.1016 / j.joca.2012.04.001 . PMID 22503814 .
- ^ Perneger, Thomas V. (12 de mayo de 2001). "Tamizar la evidencia: las razones de verosimilitud son alternativas a los valores de P" . BMJ: Revista médica británica . 322 (7295): 1184–5. doi : 10.1136 / bmj.322.7295.1184 . ISSN 0959-8138 . PMC 1120301 . PMID 11379590 .
- ^ Royall, Richard (2004). "El paradigma de probabilidad de evidencia estadística". La naturaleza de la evidencia científica . págs. 119-152. doi : 10.7208 / chicago / 9780226789583.003.0005 . ISBN 9780226789576.
- ^ Schimmack, Ulrich (30 de abril de 2015). "Reemplazo de p-valores con factores de Bayes: una cura milagrosa para la crisis de replicabilidad en la ciencia psicológica" . Índice de replicabilidad . Consultado el 7 de marzo de 2017 .
- ^ Marden, John I. (diciembre de 2000). "Prueba de hipótesis: de valores p a factores de Bayes". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1316-1320. doi : 10.2307 / 2669779 . JSTOR 2669779 .
- ^ Stern, Hal S. (16 de febrero de 2016). "Una prueba con cualquier otro nombre: valores, factores de Bayes e inferencia estadística" . Investigación conductual multivariante . 51 (1): 23-29. doi : 10.1080 / 00273171.2015.1099032 . PMC 4809350 . PMID 26881954 .
- ^ Murtaugh, Paul A. (marzo de 2014). "En defensa de los valores p" . Ecología . 95 (3): 611–617. doi : 10.1890 / 13-0590.1 . PMID 24804441 .
- ^ Aschwanden, Christie (7 de marzo de 2016). "Los estadísticos encontraron una cosa en la que pueden estar de acuerdo: es hora de dejar de hacer un mal uso de los valores P" . FiveThirtyEight .
- ^ Amrhein, Valentin ; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). "La tierra es plana (p> 0,05): umbrales de significación y la crisis de la investigación irrepetible" . PeerJ . 5 : e3544. doi : 10.7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .
- ^ Amrhein, Valentin ; Groenlandia, Sander (2017). "Eliminar, en lugar de redefinir, la significación estadística". Comportamiento humano de la naturaleza . 2 (1): 0224. doi : 10.1038 / s41562-017-0224-0 . PMID 30980046 . S2CID 46814177 .
- ^ Colquhoun D (diciembre de 2017). "valores p" . Ciencia Abierta de la Royal Society . 4 (12): 171085. doi : 10.1098 / rsos.171085 . PMC 5750014 . PMID 29308247 .
- ^ Brian, Éric ; Jaisson, Marie (2007). "Físico-Teología y Matemáticas (1710-1794)". El descenso de la proporción de sexos humanos al nacer . Springer Science & Business Media. pp. 1 -25. ISBN 978-1-4020-6036-6.
- ^ John Arbuthnot (1710). "Un argumento a favor de la Divina Providencia, tomado de la constante regularidad observada en los nacimientos de ambos sexos" (PDF) . Transacciones filosóficas de la Royal Society de Londres . 27 (325–336): 186–190. doi : 10.1098 / rstl.1710.0011 . S2CID 186209819 .
- ^ a b Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadística no paramétrica práctica (tercera edición), Wiley, págs. 157-176, ISBN 978-0-471-16068-7
- ^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (segunda ed.), Chapman y Hall, ISBN 978-0-412-44980-2
- ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. págs. 225–226 . ISBN 978-0-67440341-3.
- ^ Bellhouse, P. (2001), "John Arbuthnot", en Estadísticos de los siglos por CC Heyde y E. Seneta , Springer, págs. 39–42, ISBN 978-0-387-95329-8
- ^ Hald, Anders (1998), "Capítulo 4. Azar o diseño: pruebas de significación", Una historia de la estadística matemática de 1750 a 1930 , Wiley, p. sesenta y cinco
- ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. pag. 134 . ISBN 978-0-67440341-3.
- ^ a b Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . Revista Filosófica . Serie 5. 50 (302): 157-175. doi : 10.1080 / 14786440009463897 .
- ^ Inman 2004 .
- ^ Hubbard, Raymond; Bayarri, MJ (2003), "Confusión sobre medidas de evidencia ( p ′ s) versus errores (α′s) en pruebas estadísticas clásicas", The American Statistician , 57 (3): 171-178 [p. 171], doi : 10.1198 / 0003130031856
- ^ Fisher , 1925 , pág. 47, Capítulo III. Distribuciones .
- ^ a b Dallal 2012 , Nota 31: ¿Por qué P = 0.05? .
- ^ Fisher 1925 , págs. 78-79, 98, Capítulo IV. Pruebas de bondad de ajuste, independencia y homogeneidad; con Tabla de χ 2 , Tabla III. Tabla de χ 2 .
- ^ Fisher , 1971 , II. Los principios de la experimentación, ilustrados por un experimento psicofísico.
- ^ a b Fisher 1971 , sección 7. La prueba de significación.
- ^ Fisher 1971 , Sección 12.1 Procedimientos de aceptación e inferencia científica.
- ^ Definición de valor E de los Institutos Nacionales de Salud
- ^ Piso, John D (2003). "La tasa de falso descubrimiento positivo: una interpretación bayesiana y el valor q" . The Annals of Statistics . 31 (6): 2013-2035. doi : 10.1214 / aos / 1074290335 .
- ^ Storey, John D; Tibshirani, Robert (2003). "Significación estadística para estudios de todo el genoma" . PNAS . 100 (16): 9440–9445. Código bibliográfico : 2003PNAS..100.9440S . doi : 10.1073 / pnas.1530509100 . PMC 170937 . PMID 12883005 .
Otras lecturas
- Lydia Denworth, "Un problema significativo: los métodos científicos estándar están bajo fuego. ¿Cambiará algo?", Scientific American , vol. 321, no. 4 (octubre de 2019), págs. 62–67. "El uso de valores p durante casi un siglo [desde 1925] para determinar la significación estadística de los resultados experimentales ha contribuido a crear una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Existe una creciente determinación de reformar el análisis estadístico ... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos". (pág.63)
- Elderton, William Palin (1902). "Tablas para probar la bondad del ajuste de la teoría a la observación" . Biometrika . 1 (2): 155-163. doi : 10.1093 / biomet / 1.2.155 .
- Fisher, Ronald (1925). Métodos estadísticos para investigadores . Edimburgo, Escocia: Oliver & Boyd. ISBN 978-0-05-002170-5.
- Fisher, Ronald A. (1971) [1935]. El diseño de experimentos (9ª ed.). Macmillan. ISBN 978-0-02-844690-5.
- Fisher, RA; Yates, F. (1938). Tablas estadísticas para investigación biológica, agrícola y médica . Londres, Inglaterra.
- Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, Mass: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.
- Hubbard, Raymond; Armstrong, J. Scott (2006). "Por qué no sabemos realmente lo que significa la significación estadística: implicaciones para los educadores" (PDF) . Revista de educación en marketing . 28 (2): 114-120. doi : 10.1177 / 0273475306288399 . hdl : 2092/413 . Archivado desde el original el 18 de mayo de 2006.CS1 maint: URL no apta ( enlace )
- Hubbard, Raymond; Lindsay, R. Murray (2008). "Por qué los valores de P no son una medida útil de evidencia en las pruebas de significación estadística" (PDF) . Teoría y Psicología . 18 (1): 69–88. doi : 10.1177 / 0959354307086923 . Archivado desde el original (PDF) el 21 de octubre de 2016 . Consultado el 28 de agosto de 2015 .
- Stigler, S. (diciembre de 2008). "Fisher y el nivel del 5%" . Oportunidad . 21 (4): 12. doi : 10.1007 / s00144-008-0033-3 .
- Dallal, Gerard E. (2012). El pequeño manual de práctica estadística .
- Biau, DJ; Jolles, BM; Porcher, R. (marzo de 2010). "Valor de p y la teoría de la prueba de hipótesis: una explicación para los nuevos investigadores" . Clin Orthop Relat Res . 463 (3): 885–892. doi : 10.1007 / s11999-009-1164-4 . PMC 2816758 . PMID 19921345 .
- Reinhart, Alex (2015). Estadísticas mal hechas: la guía lamentablemente completa . Sin prensa de almidón . pag. 176. ISBN 978-1593276201.
enlaces externos
- Calculadoras de valores p en línea gratuitas para varias pruebas específicas (chi-cuadrado, prueba F de Fisher, etc.).
- Comprender los valores p , incluido un subprograma de Java que ilustra cómo los valores numéricos de los valores p pueden dar impresiones bastante engañosas sobre la verdad o falsedad de la hipótesis bajo prueba.
- StatQuest: valores P, claramente explicados en YouTube
- StatQuest: trampas del valor P y cálculos de potencia en YouTube
- La ciencia no está rota: artículo sobre cómo se pueden manipular los valores p y una herramienta interactiva para visualizarlos.