Significancia estadística

En la prueba de hipótesis estadística , ^[1]^[2] un resultado tiene significación estadística cuando es muy poco probable que haya ocurrido dada la hipótesis nula . ^[3] Más precisamente, el nivel de significancia definido de un estudio , denotado por , es la probabilidad de que el estudio rechace la hipótesis nula, dado que la hipótesis nula es verdadera; ^[4] y el valor p de un resultado, , es la probabilidad de obtener un resultado al menos tan extremo, dado que la hipótesis nula es verdadera. ^[5] El resultado es estadísticamente significativo, ${\ estilo de visualización \ alfa}$ ${\ estilo de visualización p}$ según los estándares del estudio, cuando . ^[6]^[7]^[8]^[9]^[10]^[11]^[12] El nivel de significación para un estudio se elige antes de la recopilación de datos y, por lo general, se establece en 5 % ^[13] o mucho menos, según el campo de estudio. ^[14] ${\ estilo de visualización p \ leq \ alfa}$

En cualquier experimento u observación que implique extraer una muestra de una población , siempre existe la posibilidad de que se haya producido un efecto observado debido únicamente al error de muestreo . ^[15]^[16] Pero si el valor p de un efecto observado es menor (o igual) que el nivel de significancia, un investigador puede concluir que el efecto refleja las características de toda la población, ^[1] rechazando así la hipótesis nula hipótesis. ^[17]

Esta técnica para probar la importancia estadística de los resultados se desarrolló a principios del siglo XX. El término significado no implica importancia aquí, y el término significado estadístico no es lo mismo que significado de investigación, significado teórico o significado práctico. ^[1]^[2]^[18]^[19] Por ejemplo, el término importancia clínica se refiere a la importancia práctica del efecto de un tratamiento. ^[20]

La significación estadística data de la década de 1700, en el trabajo de John Arbuthnot y Pierre-Simon Laplace , quienes calcularon el valor p para la proporción de sexos humanos al nacer, asumiendo una hipótesis nula de probabilidad igual de nacimientos masculinos y femeninos; ver p -valor § Historial para más detalles. ^[21]^[22]^[23]^[24]^[25]^[26]^[27]

En 1925, Ronald Fisher avanzó la idea de la prueba de hipótesis estadística, a la que llamó "pruebas de significación", en su publicación Métodos estadísticos para investigadores . ^[28]^[29]^[30] Fisher sugirió una probabilidad de uno en veinte (0.05) como un nivel de corte conveniente para rechazar la hipótesis nula. ^[31] En un artículo de 1933, Jerzy Neyman y Egon Pearson llamaron a este límite el nivel de significancia , al que llamaron . Recomendaron que se establezca con anticipación, antes de cualquier recopilación de datos. ^[31]^[32] ${\ estilo de visualización \ alfa}$ ${\ estilo de visualización \ alfa}$

A pesar de su sugerencia inicial de 0,05 como nivel de significancia, Fisher no tenía la intención de fijar este valor límite. En su publicación de 1956 Métodos estadísticos e inferencia científica, recomendó que los niveles de significación se establecieran de acuerdo con circunstancias específicas. ^[31]

En una prueba de dos colas , la región de rechazo para un nivel de significación de

α = 0,05

se divide en ambos extremos de la distribución de muestreo y constituye el 5 % del área bajo la curva (áreas blancas).