Prueba de hipótesis estadística

Una hipótesis estadística es una hipótesis que se puede probar sobre la base de datos observados modelados como los valores realizados tomados por una colección de variables aleatorias . ^[1] Un conjunto de datos se modela como valores realizados de una colección de variables aleatorias que tienen una distribución de probabilidad conjunta en algún conjunto de posibles distribuciones conjuntas. La hipótesis que se está probando es exactamente ese conjunto de posibles distribuciones de probabilidad. Una prueba de hipótesis estadística es un método de inferencia estadística . Una hipótesis alternativase propone para la distribución de probabilidad de los datos, ya sea de manera explícita o solo de manera informal. La comparación de los dos modelos se considera estadísticamente significativa si, de acuerdo con un umbral de probabilidad (el nivel de significancia), es poco probable que los datos se produzcan si la hipótesis nula fuera cierta. Una prueba de hipótesis especifica qué resultados de un estudio pueden llevar a un rechazo de la hipótesis nula en un nivel preespecificado de significancia, mientras se usa una medida de desviación preseleccionada de esa hipótesis (el estadístico de prueba o bondad de ajuste la medida). El nivel de significancia preseleccionado es la "tasa de falsos positivos" máxima permitida. Se quiere controlar el riesgo de rechazar incorrectamente una verdadera hipótesis nula.

El proceso de distinguir entre la hipótesis nula y la hipótesis alternativa se ve facilitado por la consideración de dos tipos de errores. Se produce un error de tipo I cuando se rechaza una hipótesis nula verdadera. Se produce un error de tipo II cuando no se rechaza una hipótesis nula falsa.

Las pruebas de hipótesis basadas en la significación estadística son otra forma de expresar los intervalos de confianza (más precisamente, conjuntos de confianza). En otras palabras, cada prueba de hipótesis basada en la significancia se puede obtener mediante un intervalo de confianza, y cada intervalo de confianza se puede obtener mediante una prueba de hipótesis basada en la significancia. ^[2]

La prueba de hipótesis basada en significancia es el marco más común para la prueba de hipótesis estadística. Un marco alternativo para la prueba de hipótesis estadísticas es especificar un conjunto de modelos estadísticos , uno para cada hipótesis candidata, y luego usar técnicas de selección de modelos para elegir el modelo más apropiado. ^[3] Las técnicas de selección más comunes se basan en el criterio de información de Akaike (= AIC) o en el criterio de información bayesiano (= BIC).

El proceso de prueba

En la literatura estadística, la prueba de hipótesis estadísticas juega un papel fundamental. ^[4] Hay dos procesos matemáticamente equivalentes que se pueden utilizar. ^[5]

La línea habitual de razonamiento es la siguiente:

Existe una hipótesis de investigación inicial de la que se desconoce la verdad.
El primer paso es establecer las hipótesis nula y alternativa pertinentes . Esto es importante, ya que una afirmación errónea de las hipótesis enturbiará el resto del proceso.
El segundo paso es considerar los supuestos estadísticos que se hacen sobre la muestra al realizar la prueba; por ejemplo, supuestos sobre la independencia estadística o sobre la forma de las distribuciones de las observaciones. Esto es igualmente importante ya que las suposiciones inválidas significarán que los resultados de la prueba no serán válidos.
Decida qué prueba es apropiada e indique el estadístico de prueba T relevante .
Derive la distribución del estadístico de prueba bajo la hipótesis nula a partir de los supuestos. En casos estándar, este será un resultado bien conocido. Por ejemplo, el estadístico de prueba podría seguir una distribución t de Student con grados de libertad conocidos, o una distribución normal con media y varianza conocidas. Si la distribución del estadístico de prueba está completamente fijada por la hipótesis nula, llamamos a la hipótesis simple; de lo contrario, se llama compuesta.
Seleccione un nivel de significancia ( α ), un umbral de probabilidad por debajo del cual se rechazará la hipótesis nula. Los valores comunes son 5% y 1%.
La distribución del estadístico de prueba bajo la hipótesis nula divide los posibles valores de T en aquellos para los que se rechaza la hipótesis nula (la llamada región crítica) y aquellos para los que no lo es. La probabilidad de la región crítica es α . En el caso de una hipótesis nula compuesta, la probabilidad máxima de la región crítica es α .
Calcular a partir de las observaciones de los observados valor t _obs de la estadística de prueba T .
Decidir rechazar la hipótesis nula a favor de la alternativa o no rechazarla. La regla de decisión es rechazar la hipótesis nula H ₀ si el valor observado t _obs está en la región crítica, y aceptar o "no rechazar" la hipótesis en caso contrario.

Una formulación alternativa común de este proceso es la siguiente:

Calcular a partir de las observaciones de los observados valor t _obs de la estadística de prueba T .
Calcule el valor p . Esta es la probabilidad, bajo la hipótesis nula, de muestrear un estadístico de prueba al menos tan extremo como el observado (la probabilidad máxima de ese evento, si la hipótesis es compuesta).
Rechazar la hipótesis nula, a favor de la hipótesis alternativa, si y solo si el valor p es menor que (o igual a) el nivel de significancia (la probabilidad seleccionada) umbral ( ${\ Displaystyle \ alpha}$ ).

El primer proceso resultó ventajoso en el pasado cuando solo se disponía de tablas de estadísticas de prueba con umbrales de probabilidad comunes. Permitió tomar una decisión sin el cálculo de una probabilidad. Era adecuado para el trabajo de clase y para uso operativo, pero era deficiente para informar los resultados. El último proceso se basó en tablas extensas o en soporte computacional no siempre disponible. El cálculo explícito de una probabilidad es útil para informar. Los cálculos ahora se realizan trivialmente con el software apropiado.

La diferencia en los dos procesos aplicados al ejemplo de la maleta radiactiva (abajo):

"La lectura del contador Geiger es 10. El límite es 9. Revise la maleta".
"La lectura del contador Geiger es alta; el 97% de las maletas seguras tienen lecturas más bajas. El límite es del 95%. Revise la maleta".

El primer informe es adecuado, el segundo da una explicación más detallada de los datos y el motivo por el que se revisa la maleta.

La diferencia entre aceptar la hipótesis nula y simplemente no rechazarla es importante. La terminología de "no rechazar" destaca el hecho de que el resultado a no significativo no proporciona forma de determinar cuál de las dos hipótesis es verdadera, por lo que todo lo que se puede concluir es que la hipótesis nula no ha sido rechazada. La frase "aceptar la hipótesis nula" puede sugerir que ha sido probada simplemente porque no ha sido refutada, una falacia lógica conocida como el argumento de la ignorancia . A menos que se utilice una prueba con un poder particularmente alto , es probable que la idea de "aceptar" la hipótesis nula sea incorrecta. No obstante, la terminología prevalece en todas las estadísticas, donde se comprende bien el significado que se pretende realmente.

Los procesos descritos aquí son perfectamente adecuados para el cálculo. Descuidan seriamente las consideraciones de diseño de experimentos . ^[6]^[7]

Es particularmente crítico que se estimen los tamaños de muestra apropiados antes de realizar el experimento.

La frase "prueba de significancia" fue acuñada por el estadístico Ronald Fisher . ^[8]

Interpretación

El valor p es la probabilidad de que se produzca un resultado dado (o un resultado más significativo) bajo la hipótesis nula. A un nivel de significancia de 0.05, se esperaría que la moneda justa rechazara (incorrectamente) la hipótesis nula en aproximadamente 1 de cada 20 pruebas. El valor p no proporciona la probabilidad de que alguna de las hipótesis sea correcta (una fuente común de confusión). ^[9]

Si el valor p es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está en la región crítica), entonces decimos que la hipótesis nula se rechaza en el nivel de significancia elegido. El rechazo de la hipótesis nula es una conclusión. Esto es como un veredicto de "culpabilidad" en un juicio penal: la evidencia es suficiente para rechazar la inocencia, lo que implica culpabilidad.

Si el valor p no es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está fuera de la región crítica), entonces la evidencia es insuficiente para apoyar una conclusión. (Esto es similar a un veredicto de "no culpable"). El investigador generalmente da consideración adicional a aquellos casos donde el valor p está cerca del nivel de significancia.

En el ejemplo de Lady probando té (a continuación), Fisher requirió que Lady clasificara correctamente todas las tazas de té para justificar la conclusión de que era poco probable que el resultado fuera una casualidad. Su prueba reveló que si la dama efectivamente estaba adivinando al azar (la hipótesis nula), había un 1,4% de posibilidades de que se produjeran los resultados observados (té perfectamente ordenado).

Rechazar la hipótesis de que una gran huella se originó en un oso no prueba de inmediato la existencia de Bigfoot . La prueba de hipótesis enfatiza el rechazo, que se basa en una probabilidad, más que en la aceptación, que requiere pasos adicionales de lógica.

"La probabilidad de rechazar la hipótesis nula es una función de cinco factores: si la prueba es de una o dos colas, el nivel de significancia, la desviación estándar, la cantidad de desviación de la hipótesis nula y el número de observaciones. " ^[10] Estos factores son fuente de críticas; los factores bajo el control del experimentador / analista dan a los resultados una apariencia de subjetividad.

Uso e importancia

Las estadísticas son útiles para analizar la mayoría de las colecciones de datos. Esto es igualmente cierto para las pruebas de hipótesis que pueden justificar conclusiones incluso cuando no existe una teoría científica. En el ejemplo de Lady probando té, era "obvio" que no existía ninguna diferencia entre (leche vertida en el té) y (té vertido en la leche). Los datos contradecían lo "obvio".

Las aplicaciones de la prueba de hipótesis en el mundo real incluyen: ^[11]

Probando si más hombres que mujeres sufren pesadillas
Establecimiento de la autoría de los documentos
Evaluar el efecto de la luna llena en el comportamiento
Determinar el rango en el que un murciélago puede detectar un insecto por eco
Decidir si las alfombras de los hospitales provocan más infecciones
Seleccionar los mejores medios para dejar de fumar
Comprobación de si las pegatinas de parachoques reflejan el comportamiento del propietario del automóvil
Probando las afirmaciones de los analistas de escritura a mano

La prueba de hipótesis estadísticas juega un papel importante en el conjunto de las estadísticas y en la inferencia estadística . Por ejemplo, Lehmann (1992) en una revisión del artículo fundamental de Neyman y Pearson (1933) dice: "Sin embargo, a pesar de sus deficiencias, el nuevo paradigma formulado en el artículo de 1933 y los muchos desarrollos llevados a cabo en su marco continúan desempeñan un papel central tanto en la teoría como en la práctica de la estadística y cabe esperar que lo hagan en un futuro previsible ".

La prueba de significancia ha sido la herramienta estadística preferida en algunas ciencias sociales experimentales (más del 90% de los artículos en el Journal of Applied Psychology durante principios de la década de 1990). ^[12] Otros campos han favorecido la estimación de parámetros (por ejemplo , tamaño del efecto ). La prueba de significación se utiliza como sustituto de la comparación tradicional del valor predicho y el resultado experimental en el núcleo del método científico . Cuando la teoría solo es capaz de predecir el signo de una relación, se puede configurar una prueba de hipótesis direccional (unilateral) de modo que solo un resultado estadísticamente significativo respalde la teoría. Esta forma de evaluación de la teoría es la aplicación de prueba de hipótesis más criticada.

Precauciones

"Si el gobierno exigiera que los procedimientos estadísticos llevaran etiquetas de advertencia como las de los medicamentos, la mayoría de los métodos de inferencia tendrían etiquetas largas". ^[13] Esta precaución se aplica a las pruebas de hipótesis y sus alternativas.

La prueba de hipótesis exitosa se asocia con una probabilidad y una tasa de error de tipo I. La conclusión puede estar equivocada.

La conclusión de la prueba es tan sólida como la muestra en la que se basa. El diseño del experimento es fundamental. Se han observado varios efectos inesperados que incluyen:

El ingenioso efecto Hans . Un caballo parecía ser capaz de hacer aritmética simple.
El efecto Hawthorne . Los trabajadores industriales eran más productivos en mejor iluminación y más productivos en peor.
El efecto placebo . Las píldoras sin ingredientes médicamente activos fueron notablemente efectivas.

Un análisis estadístico de datos engañosos produce conclusiones engañosas. El problema de la calidad de los datos puede ser más sutil. En la previsión, por ejemplo, no hay acuerdo sobre una medida de precisión de la previsión. En ausencia de una medición de consenso, ninguna decisión basada en mediciones estará libre de controversias.

El libro How to Lie with Statistics ^[14]^[15] es el libro de estadística más popular jamás publicado. ^[16] No considera mucho la prueba de hipótesis, pero sus precauciones son aplicables, que incluyen: Muchas afirmaciones se hacen sobre la base de muestras demasiado pequeñas para convencer. Si un informe no menciona el tamaño de la muestra, tenga dudas.

La prueba de hipótesis actúa como un filtro de conclusiones estadísticas; solo se pueden publicar aquellos resultados que cumplan con un umbral de probabilidad. La economía también actúa como filtro de publicación; sólo se podrán enviar para su publicación aquellos resultados favorables al autor y la fuente de financiación. El impacto del filtrado en la publicación se denomina sesgo de publicación . Un problema relacionado es el de las pruebas múltiples (a veces vinculadas a la minería de datos ), en las que se aplican una variedad de pruebas para una variedad de efectos posibles a un solo conjunto de datos y solo se informan las que arrojan un resultado significativo. Estos a menudo se tratan mediante el uso de procedimientos de corrección de multiplicidad que controlan la tasa de error familiar (FWER) o la tasa de descubrimiento falso. (FDR).

Aquellos que toman decisiones críticas basadas en los resultados de una prueba de hipótesis son prudentes en mirar los detalles en lugar de solo la conclusión. En las ciencias físicas, la mayoría de los resultados se aceptan por completo solo cuando se confirman de forma independiente. El consejo general con respecto a las estadísticas es: "Las cifras nunca mienten, pero los mentirosos sí" (anónimo).

Ejemplos

Proporción de sexos humanos

El uso más temprano de la prueba de hipótesis estadísticas generalmente se atribuye a la cuestión de si los nacimientos masculinos y femeninos son igualmente probables (hipótesis nula), que fue abordado en el 1700 por John Arbuthnot (1710), ^[17] y más tarde por Pierre-Simon Laplace. (Década de 1770). ^[18]

Arbuthnot examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 hasta 1710, y aplicó la prueba de signos , una prueba no paramétrica simple . ^[19]^[20]^[21] En todos los años, el número de hombres nacidos en Londres excedía el número de mujeres. Considerando igualmente probables más nacimientos masculinos o femeninos, la probabilidad del resultado observado es 0.5 ⁸² , o aproximadamente 1 en 4,8360,0000,0000,0000,0000,0000; en términos modernos, esta es la p-valor. Arbuthnot llegó a la conclusión de que esto es demasiado pequeño para deberse al azar y debe, en cambio, deberse a la providencia divina: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de nacimientos masculinos y femeninos igualmente probables en el nivel de significancia p = 1/2 ⁸² .

Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas mostraron un exceso de niños en comparación con las niñas. ^[22]^[23] Con el cálculo de un valor p, concluyó que el exceso era un efecto real, pero inexplicable. ^[24]

Señora probando té

En un famoso ejemplo de prueba de hipótesis, conocido como el té de degustación de la dama , ^{[25] la} Dra. Muriel Bristol, una colega de Fisher afirmó poder decir si el té o la leche se agregaron primero a una taza. Fisher propuso darle ocho tazas, cuatro de cada variedad, en orden aleatorio. Entonces, uno podría preguntar cuál era la probabilidad de que ella obtuviera el número que acertó, pero solo por casualidad. La hipótesis nula era que la Dama no tenía tal habilidad. La estadística de prueba fue un simple recuento del número de éxitos en la selección de las 4 tazas. La región crítica fue el caso único de 4 éxitos de 4 posibles basados en un criterio de probabilidad convencional (<5%). Un patrón de 4 éxitos corresponde a 1 de 70 combinaciones posibles (p≈ 1,4%). Fisher afirmó que no se requería (nunca) ninguna hipótesis alternativa. La dama identificó correctamente cada taza, ^[26] que se consideraría un resultado estadísticamente significativo.

Juicio en la sala de audiencias

Un procedimiento de prueba estadística es comparable a un juicio penal ; un acusado se considera no culpable mientras no se pruebe su culpabilidad. El fiscal intenta probar la culpabilidad del acusado. Solo cuando hay pruebas suficientes para la acusación se declara culpable al acusado.

Al inicio del procedimiento, hay dos hipótesis ${\ Displaystyle H_ {0}}$ : "el acusado no es culpable", y ${\ Displaystyle H_ {1}}$ : "el acusado es culpable". El primero, ${\ Displaystyle H_ {0}}$ , se denomina hipótesis nula y, por el momento, se acepta. El segundo, ${\ Displaystyle H_ {1}}$ , se llama hipótesis alternativa . Es la hipótesis alternativa que se espera apoyar.

La hipótesis de la inocencia se rechaza solo cuando un error es muy improbable, porque no se quiere condenar a un acusado inocente. Tal error se llama error del primer tipo (es decir, la condena de una persona inocente), y se controla que la ocurrencia de este error sea rara. Como consecuencia de este comportamiento asimétrico , es más común un error de segundo tipo (absolver a la persona que cometió el delito).

	H ₀ es cierto Verdaderamente no culpable	H ₁ es verdadero Verdaderamente culpable
Aceptar hipótesis nula Absolución	Decisión correcta	Error de tipo II de decisión incorrecta
Rechazar hipótesis nula Convicción	Error de tipo I de decisión incorrecta	Decisión correcta

Un juicio penal puede considerarse como uno o ambos procesos de decisión: culpable versus no culpable o evidencia versus un umbral ("más allá de una duda razonable"). Según un punto de vista, se juzga al acusado; en el otro punto de vista, se juzga la actuación de la acusación (que soporta la carga de la prueba). Una prueba de hipótesis puede considerarse como un juicio de una hipótesis o como un juicio de evidencia.

Frijoles del filósofo

El siguiente ejemplo fue elaborado por un filósofo que describe métodos científicos generaciones antes de que se formalizara y popularizara la prueba de hipótesis. ^[27]

Pocos frijoles de este puñado son blancos.
La mayoría de los frijoles de esta bolsa son blancos.
Por lo tanto: Probablemente, estos frijoles fueron sacados de otra bolsa.
Ésta es una inferencia hipotética.

Los frijoles en la bolsa son la población. El puñado son la muestra. La hipótesis nula es que la muestra se originó en la población. El criterio para rechazar la hipótesis nula es la diferencia "obvia" en apariencia (una diferencia informal en la media). El resultado interesante es que la consideración de una población real y una muestra real produjo una bolsa imaginaria. El filósofo estaba considerando la lógica más que la probabilidad. Para ser una prueba de hipótesis estadística real, este ejemplo requiere las formalidades de un cálculo de probabilidad y una comparación de esa probabilidad con un estándar.

Una simple generalización del ejemplo considera una mezcla de frijoles y un puñado que contiene muy pocos o muchos frijoles blancos. La generalización considera ambos extremos. Se requieren más cálculos y más comparaciones para llegar a una respuesta formal, pero la filosofía central no ha cambiado; Si la composición del puñado es muy diferente a la de la bolsa, entonces la muestra probablemente se originó en otra bolsa. El ejemplo original se denomina prueba de un solo lado o de una cola, mientras que la generalización se denomina prueba de dos o dos colas.

La declaración también se basa en la inferencia de que el muestreo fue aleatorio. Si alguien hubiera estado hurgando en la bolsa para encontrar frijoles blancos, entonces explicaría por qué el puñado tenía tantos frijoles blancos y también explicaría por qué se agotó la cantidad de frijoles blancos en la bolsa (aunque probablemente se supone que la bolsa se supone mucho más grande que la mano).

Juego de cartas clarividente

Se prueba la clarividencia de una persona (el sujeto) . Se les muestra el reverso de un naipe elegido al azar 25 veces y se les pregunta a cuál de los cuatro palos pertenece. El número de visitas, o las respuestas correctas, se llama X .

Mientras tratamos de encontrar evidencia de su clarividencia, por el momento la hipótesis nula es que la persona no es clarividente. ^[28] La alternativa es: la persona es (más o menos) clarividente.

Si la hipótesis nula es válida, lo único que puede hacer la persona de prueba es adivinar. Para cada carta, la probabilidad (frecuencia relativa) de que aparezca un solo palo es 1/4. Si la alternativa es válida, el sujeto de prueba predecirá el traje correctamente con una probabilidad mayor que 1/4. A la probabilidad de adivinar correctamente la llamaremos p . Las hipótesis, entonces, son:

hipótesis nula ${\ Displaystyle {\ text {:}} \ qquad H_ {0}: p = {\ tfrac {1} {4}}}$ (solo adivinando)

y

hipótesis alternativa ${\ Displaystyle {\ text {:}} H_ {1}: p> {\ tfrac {1} {4}}}$ (verdadero clarividente).

Cuando el sujeto de prueba predice correctamente las 25 cartas, las consideraremos clarividentes y rechazaremos la hipótesis nula. Así también con 24 o 23 aciertos. Con solo 5 o 6 aciertos, en cambio, no hay motivo para considerarlos así. Pero, ¿qué pasa con 12 hits o 17 hits? ¿Cuál es el número crítico, c , de aciertos, en qué punto consideramos que el sujeto es clarividente? ¿Cómo determinamos el valor crítico c ? Con la opción c = 25 (es decir, solo aceptamos la clarividencia cuando todas las cartas se predicen correctamente) somos más críticos que con c= 10. En el primer caso, casi ningún sujeto de prueba será reconocido como clarividente, en el segundo caso, un cierto número pasará la prueba. En la práctica, uno decide qué tan crítico será uno. Es decir, uno decide con qué frecuencia acepta un error del primer tipo: un falso positivo o error de Tipo I. Con c = 25, la probabilidad de tal error es:

{\ displaystyle P ({\ text {rechazar}} H_ {0} \ mid H_ {0} {\ text {es válido}}) = P (X = 25 \ mid p = {\ tfrac {1} {4} }) = \ left ({\ tfrac {1} {4}} \ right) ^ {25} \ approx 10 ^ {- 15},}

y por tanto, muy pequeño. La probabilidad de un falso positivo es la probabilidad de adivinar correctamente al azar las 25 veces.

Siendo menos crítico, con c = 10, da:

{\ displaystyle P ({\ text {rechazar}} H_ {0} \ mid H_ {0} {\ text {es válido}}) = P (X \ geq 10 \ mid p = {\ tfrac {1} {4 }}) = \ sum _ {k = 10} ^ {25} P (X = k \ mid p = {\ tfrac {1} {4}}) = \ sum _ {k = 10} ^ {25} { \ binom {25} {k}} (1 - {\ tfrac {1} {4}}) ^ {25-k} ({\ tfrac {1} {4}}) ^ {k} \ approx 0 {. } 0713.}

Por lo tanto, c = 10 produce una probabilidad mucho mayor de falso positivo.

Antes de que se realice realmente la prueba, se determina la probabilidad máxima aceptable de un error de Tipo I ( α ). Normalmente, se seleccionan valores en el rango de 1% a 5%. (Si la tasa de error máxima aceptable es cero, se requiere un número infinito de conjeturas correctas). Dependiendo de esta tasa de error de Tipo 1, se calcula el valor crítico c . Por ejemplo, si seleccionamos una tasa de error del 1%, c se calcula así:

{\ displaystyle P ({\ text {rechazar}} H_ {0} \ mid H_ {0} {\ text {es válido}}) = P (X \ geq c \ mid p = {\ tfrac {1} {4 }}) \ leq 0 {.} 01.}

De todos los números c, con esta propiedad, elegimos el más pequeño, con el fin de minimizar la probabilidad de un error Tipo II, un falso negativo . Para el ejemplo anterior, seleccionamos: ${\ Displaystyle c = 13}$ .

Maleta radiactiva

Como ejemplo, considere determinar si una maleta contiene algún material radiactivo. Colocado debajo de un contador Geiger , produce 10 conteos por minuto. La hipótesis nula es que no hay material radiactivo en la maleta y que todos los recuentos medidos se deben a la radiactividad ambiental típica del aire circundante y los objetos inofensivos. Luego, podemos calcular la probabilidad de que observemos 10 conteos por minuto si la hipótesis nula fuera cierta. Si la hipótesis nula predice (digamos) un promedio de 9 recuentos por minuto, entonces de acuerdo con la distribución de Poisson típica para la desintegración radiactivahay aproximadamente un 41% de posibilidades de registrar 10 o más recuentos. Así podemos decir que la maleta es compatible con la hipótesis nula (esto no garantiza que no exista material radiactivo, solo que no tenemos suficiente evidencia para sugerir que sí). Por otro lado, si la hipótesis nula predice 3 recuentos por minuto (para los cuales la distribución de Poisson predice solo un 0,1% de probabilidad de registrar 10 o más recuentos), entonces la maleta no es compatible con la hipótesis nula, y es probable que existan otros factores responsables. para producir las medidas.

La prueba no afirma directamente la presencia de material radiactivo. Una prueba exitosa afirma que la afirmación de que no hay material radiactivo presente es poco probable dada la lectura (y por lo tanto ...). El doble negativo (refutar la hipótesis nula) del método es confuso, pero usar un contraejemplo para refutar es una práctica matemática estándar. El atractivo del método es su practicidad. Conocemos (por experiencia) el rango esperado de conteos con solo la radiactividad ambiental presente, por lo que podemos decir que una medición es inusualmente grande. La estadística solo formaliza lo intuitivo mediante el uso de números en lugar de adjetivos. Probablemente desconozcamos las características de las maletas radiactivas; Simplemente asumimos que producen lecturas más grandes.

Para formalizar ligeramente la intuición: se sospecha de radiactividad si el recuento Geiger con la maleta se encuentra entre o supera el mayor (5% o 1%) de los recuentos Geiger realizados con radiación ambiental únicamente. Esto no hace suposiciones sobre la distribución de recuentos. Se requieren muchas observaciones de radiación ambiental para obtener buenas estimaciones de probabilidad de eventos raros.

La prueba descrita aquí es más completamente la prueba de significación estadística de hipótesis nula. La hipótesis nula representa lo que creeríamos por defecto, antes de ver ninguna evidencia. La significancia estadística es un posible hallazgo de la prueba, declarado cuando es poco probable que la muestra observada haya ocurrido por casualidad si la hipótesis nula fuera cierta. El nombre de la prueba describe su formulación y su posible resultado. Una característica de la prueba es su tajante decisión: rechazar o no rechazar la hipótesis nula. Un valor calculado se compara con un umbral, que se determina a partir del riesgo tolerable de error.

Definición de términos

Las siguientes definiciones se basan principalmente en la exposición del libro de Lehmann y Romano: ^[4]

Hipótesis estadística: Una declaración sobre los parámetros que describen una población (no una muestra).
Estadística: Un valor calculado a partir de una muestra sin parámetros desconocidos, a menudo para resumir la muestra con fines de comparación.
Hipótesis simple: Cualquier hipótesis que especifique completamente la distribución de la población.
Hipótesis compuesta: Cualquier hipótesis que no especifique completamente la distribución de la población.
Hipótesis nula (H ₀ ): Una hipótesis asociada con una contradicción a una teoría que uno quisiera probar.
Datos positivos: Datos que permiten al investigador rechazar una hipótesis nula.
Hipótesis alternativa (H ₁ ): Una hipótesis (a menudo compuesta) asociada con una teoría que le gustaría probar.
Prueba estadística: Un procedimiento cuyas entradas son muestras y cuyo resultado es una hipótesis.
Región de aceptación: El conjunto de valores del estadístico de prueba para el cual no rechazamos la hipótesis nula.
Región de rechazo / Región crítica: El conjunto de valores del estadístico de prueba para el que se rechaza la hipótesis nula.
Valor crítico: El valor umbral que delimita las regiones de aceptación y rechazo para la estadística de prueba.
Poder de una prueba (1 - β ): Probabilidad de la prueba de rechazar correctamente la hipótesis nula cuando la hipótesis alternativa es verdadera. El complemento de la tasa de falsos negativos , β . El poder se denomina sensibilidad en bioestadística . ("Esta es una prueba sensible. Debido a que el resultado es negativo, podemos decir con seguridad que el paciente no tiene la afección"). Consulte la sensibilidad y especificidad y los errores de tipo I y tipo II para obtener definiciones exhaustivas.
Tamaño: Para hipótesis simples, esta es la probabilidad de que la prueba rechace incorrectamente la hipótesis nula. La tasa de falsos positivos . Para las hipótesis compuestas, este es el supremo de la probabilidad de rechazar la hipótesis nula en todos los casos cubiertos por la hipótesis nula. El complemento de la tasa de falsos positivos se denomina especificidad en bioestadística . ("Esta es una prueba específica. Debido a que el resultado es positivo, podemos decir con seguridad que el paciente tiene la afección"). Consulte la sensibilidad y especificidad y los errores de tipo I y tipo II para obtener definiciones exhaustivas.
Nivel de significancia de una prueba ( α ): Es el límite superior impuesto al tamaño de una prueba. Su valor es elegido por el estadístico antes de mirar los datos o elegir cualquier prueba en particular que se utilizará. Es la máxima exposición al rechazo erróneo de H _{0 lo} que están dispuestos a aceptar. Probar H ₀ al nivel de significancia α significa probar H ₀ con una prueba cuyo tamaño no exceda α . En la mayoría de los casos, se utilizan pruebas cuyo tamaño es igual al nivel de significancia.
p -valor: La probabilidad, asumiendo que la hipótesis nula es verdadera, de observar un resultado al menos tan extremo como el estadístico de prueba. En el caso de una hipótesis nula compuesta, la probabilidad del peor de los casos.
Prueba de significancia estadística: Un predecesor de la prueba de hipótesis estadística (consulte la sección Orígenes). Se dijo que un resultado experimental era estadísticamente significativo si una muestra era suficientemente inconsistente con la hipótesis (nula). Esto se consideró de diversas maneras como sentido común, una heurística pragmática para identificar resultados experimentales significativos, una convención que establece un umbral de evidencia estadística o un método para sacar conclusiones a partir de los datos. La prueba de hipótesis estadística añadió rigor matemático y consistencia filosófica al concepto al hacer explícita la hipótesis alternativa. El término se usa libremente para la versión moderna que ahora es parte de la prueba de hipótesis estadísticas.
Prueba conservadora: Una prueba es conservadora si, cuando se construye para un nivel de significancia nominal dado, la verdadera probabilidad de rechazar incorrectamente la hipótesis nula nunca es mayor que el nivel nominal.
Prueba exacta: Una prueba en la que el nivel de significancia o el valor crítico se puede calcular con exactitud, es decir, sin ninguna aproximación. En algunos contextos, este término se restringe a las pruebas aplicadas a datos categóricos y a las pruebas de permutación , en las que los cálculos se llevan a cabo mediante la enumeración completa de todos los resultados posibles y sus probabilidades.

Una prueba de hipótesis estadística compara una estadística de prueba ( z o t para los ejemplos) con un umbral. La estadística de prueba (la fórmula que se encuentra en la tabla a continuación) se basa en la optimización. Para un nivel fijo de tasa de error de Tipo I, el uso de estas estadísticas minimiza las tasas de error de Tipo II (equivalente a maximizar la potencia). Los siguientes términos describen las pruebas en términos de dicha optimización:

Prueba más poderosa: Para un tamaño o nivel de significancia dado , la prueba con la mayor potencia (probabilidad de rechazo) para un valor dado de los parámetros que se están probando, contenidos en la hipótesis alternativa.
Prueba uniformemente más potente (UMP): Una prueba con la mayor potencia para todos los valores de los parámetros que se están probando, contenidos en la hipótesis alternativa.

Estadísticas de prueba comunes

Variaciones y subclases

La prueba de hipótesis estadística es una técnica clave tanto de la inferencia frecuentista como de la inferencia bayesiana , aunque los dos tipos de inferencia tienen diferencias notables. Las pruebas de hipótesis estadísticas definen un procedimiento que controla (corrige) la probabilidad de decidir incorrectamente que una posición predeterminada ( hipótesis nula ) es incorrecta. El procedimiento se basa en la probabilidad de que ocurra un conjunto de observaciones si la hipótesis nula fuera cierta. Tenga en cuenta que esta probabilidad de tomar una decisión incorrecta no es la probabilidad de que la hipótesis nula sea verdadera, ni de si alguna hipótesis alternativa específica es verdadera. Esto contrasta con otras posibles técnicas de teoría de la decisión.en el que la hipótesis nula y alternativa se tratan sobre una base más igualitaria.

Un enfoque bayesiano ingenuo para la prueba de hipótesis es basar las decisiones en la probabilidad posterior , ^[29]^[30] pero esto falla cuando se comparan hipótesis puntuales y continuas. Otros enfoques para la toma de decisiones, como la teoría de decisiones bayesiana , intentan equilibrar las consecuencias de decisiones incorrectas en todas las posibilidades, en lugar de concentrarse en una única hipótesis nula. Existen otros enfoques para tomar una decisión basada en datos a través de la teoría de la decisión y las decisiones óptimas., algunos de los cuales tienen propiedades deseables. Sin embargo, la prueba de hipótesis es un enfoque dominante para el análisis de datos en muchos campos de la ciencia. Las extensiones de la teoría de la prueba de hipótesis incluyen el estudio del poder de las pruebas, es decir, la probabilidad de rechazar correctamente la hipótesis nula dado que es falsa. Estas consideraciones se pueden utilizar para determinar el tamaño de la muestra antes de la recopilación de datos.

Historia

Uso temprano

Si bien la prueba de hipótesis se popularizó a principios del siglo XX, las primeras formas se utilizaron en el siglo XVIII. El primer uso se le atribuye a John Arbuthnot (1710), ^[31] seguido por Pierre-Simon Laplace (1770), al analizar la proporción de sexos humanos al nacer; ver § Proporción de sexos humanos .

Orígenes modernos y controversia temprana

Las pruebas de significación modernas son en gran parte el producto de Karl Pearson ( valor p , prueba de chi-cuadrado de Pearson ), William Sealy Gosset ( distribución t de Student ) y Ronald Fisher (" hipótesis nula ", análisis de varianza , " prueba de significación ") , mientras que la prueba de hipótesis fue desarrollada por Jerzy Neyman y Egon Pearson (hijo de Karl). Ronald Fisher comenzó su vida en estadística como un bayesiano (Zabell 1992), pero Fisher pronto se desencantó con la subjetividad involucrada (es decir, el uso del principio de indiferenciaal determinar probabilidades previas), y buscó proporcionar un enfoque más "objetivo" de la inferencia inductiva. ^[32]

Fisher fue un estadístico agrícola que enfatizó el diseño y métodos experimentales rigurosos para extraer un resultado de pocas muestras asumiendo distribuciones gaussianas. Neyman (que se asoció con el joven Pearson) enfatizó el rigor matemático y los métodos para obtener más resultados de muchas muestras y una gama más amplia de distribuciones. La prueba de hipótesis moderna es un híbrido inconsistente de la formulación, los métodos y la terminología de Fisher vs Neyman / Pearson desarrollados a principios del siglo XX.

Fisher popularizó la "prueba de significación". Requería una hipótesis nula (correspondiente a una distribución de frecuencia poblacional) y una muestra. Sus cálculos (ahora familiares) determinaron si rechazar la hipótesis nula o no. La prueba de significancia no utilizó una hipótesis alternativa, por lo que no hubo concepto de error de Tipo II.

El valor p se diseñó como un índice informal, pero objetivo, destinado a ayudar al investigador a determinar (basándose en otros conocimientos) si modificar experimentos futuros o fortalecer la fe en la hipótesis nula. ^{[33] La} prueba de hipótesis (y los errores de Tipo I / II) fue ideada por Neyman y Pearson como una alternativa más objetiva al valor p de Fisher , también destinado a determinar el comportamiento del investigador, pero sin requerir ninguna inferencia inductiva por parte del investigador. ^[34]^[35]

Neyman & Pearson consideraron un problema diferente (al que llamaron "prueba de hipótesis"). Inicialmente consideraron dos hipótesis simples (ambas con distribuciones de frecuencia). Calcularon dos probabilidades y típicamente seleccionaron la hipótesis asociada con la probabilidad más alta (la hipótesis con más probabilidades de haber generado la muestra). Su método siempre seleccionó una hipótesis. También permitió el cálculo de ambos tipos de probabilidades de error.

Fisher y Neyman / Pearson se enfrentaron amargamente. Neyman / Pearson consideró que su formulación era una generalización mejorada de las pruebas de significancia. (El artículo de definición ^[34] era abstracto . Los matemáticos han generalizado y refinado la teoría durante décadas. ^[36] ) Fisher pensó que no era aplicable a la investigación científica porque A menudo, durante el curso del experimento, se descubre que las suposiciones iniciales sobre la hipótesis nula son cuestionables debido a fuentes de error inesperadas. Creía que el uso de decisiones rígidas de rechazar / aceptar basadas en modelos formulados antes de que se recopilaran los datos era incompatible con este escenario común al que se enfrentan los científicos y los intentos de aplicar este método a la investigación científica llevarían a una confusión masiva.^[37]

La disputa entre Fisher y Neyman-Pearson se libró sobre bases filosóficas, caracterizada por un filósofo como una disputa sobre el papel adecuado de los modelos en la inferencia estadística. ^[38]

Los acontecimientos intervinieron: Neyman aceptó una posición en el hemisferio occidental, rompiendo su asociación con Pearson y separando a los disputantes (que habían ocupado el mismo edificio) por gran parte del diámetro planetario. La Segunda Guerra Mundial proporcionó un intermedio en el debate. La disputa entre Fisher y Neyman terminó (sin resolverse después de 27 años) con la muerte de Fisher en 1962. Neyman escribió un elogio bien considerado. ^[39] Algunas de las publicaciones posteriores de Neyman informaron valores p y niveles de significancia. ^[40]

La versión moderna de la prueba de hipótesis es un híbrido de los dos enfoques que resultaron de la confusión de los escritores de libros de texto estadísticos (como predijo Fisher) a partir de la década de 1940. ^[41] (Pero la detección de señales , por ejemplo, todavía usa la formulación de Neyman / Pearson). Se ignoraron grandes diferencias conceptuales y muchas advertencias además de las mencionadas anteriormente. Neyman y Pearson proporcionaron la terminología más fuerte, las matemáticas más rigurosas y la filosofía más consistente, pero la materia que se enseña hoy en la introducción a la estadística tiene más similitudes con el método de Fisher que con el de ellos. ^[42] Esta historia explica la terminología inconsistente (ejemplo: la hipótesis nula nunca se acepta, pero hay una región de aceptación).

En algún momento alrededor de 1940, ^[41] en un aparente esfuerzo por proporcionar a los investigadores una forma "no controvertida" ^[43] de tener su pastel y comérselo también , los autores de libros de texto estadísticos comenzaron a combinar de forma anónima estas dos estrategias mediante el uso de la p -valor en lugar del estadístico de prueba (o datos) para contrastar el "nivel de significancia" de Neyman-Pearson. ^[41] Por lo tanto, se alentó a los investigadores a inferir la solidez de sus datos frente a alguna hipótesis nula utilizando valores p , mientras que también pensaban que estaban conservando la objetividad posterior a la recopilación de datos.proporcionada por la prueba de hipótesis. Entonces se hizo habitual que la hipótesis nula, que originalmente era una hipótesis de investigación realista, se usara casi únicamente como una hipótesis "nula" de paja (una en la que un tratamiento no tiene efecto, independientemente del contexto). ^[44]

Una comparación entre pescador, frecuentista (Neyman-Pearson)
#	Prueba de hipótesis nula de Fisher	Teoría de la decisión de Neyman-Pearson
1	Establezca una hipótesis nula estadística. La nula no necesita ser una hipótesis nula (es decir, diferencia cero).	Establezca dos hipótesis estadísticas, H1 y H2, y decida sobre α, β y el tamaño de la muestra antes del experimento, basándose en consideraciones subjetivas de costo-beneficio. Estos definen una región de rechazo para cada hipótesis.
2	Informe el nivel exacto de significación (por ejemplo, p = 0,051 o p = 0,049). No utilice un nivel convencional del 5% y no hable de aceptar o rechazar hipótesis. Si el resultado "no es significativo", no saque conclusiones ni tome decisiones, pero suspenda el juicio hasta que haya más datos disponibles.	Si los datos caen en la región de rechazo de H1, acepte H2; de lo contrario, acepte H1. Tenga en cuenta que aceptar una hipótesis no significa que usted crea en ella, sino solo que actúa como si fuera cierta.
3	Utilice este procedimiento solo si se sabe poco sobre el problema en cuestión y solo para sacar conclusiones provisionales en el contexto de un intento de comprender la situación experimental.	La utilidad del procedimiento se limita, entre otras cosas, a situaciones en las que existe una disyunción de hipótesis (p. Ej., Μ1 = 8 o μ2 = 10 es cierto) y en las que se pueden realizar compensaciones significativas de costo-beneficio para elegir alfa y beta.

Primeras elecciones de hipótesis nula

Paul Meehl ha argumentado que la importancia epistemológica de la elección de la hipótesis nula ha pasado desapercibida en gran medida. Cuando la teoría predice la hipótesis nula, un experimento más preciso será una prueba más severa de la teoría subyacente. Cuando la hipótesis nula por defecto es "sin diferencia" o "sin efecto", un experimento más preciso es una prueba menos severa de la teoría que motivó la realización del experimento. ^[45] Por tanto, puede resultar útil un examen de los orígenes de esta última práctica:

1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en varias ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". De ahí la hipótesis nula de Laplace de que las tasas de natalidad de niños y niñas deberían ser iguales dada la "sabiduría convencional". ^[22]

1900: Karl Pearson desarrolla la prueba de chi cuadrado para determinar "si una forma dada de curva de frecuencia describirá efectivamente las muestras extraídas de una población dada". Por tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números de cinco y seis en los datos de lanzamiento de dados de Weldon . ^[46]

1904: Karl Pearson desarrolla el concepto de " contingencia " para determinar si los resultados son independientes de un factor categórico dado. Aquí, la hipótesis nula es por defecto que dos cosas no están relacionadas (por ejemplo, la formación de cicatrices y las tasas de mortalidad por viruela). ^[47] La hipótesis nula en este caso ya no es predicha por la teoría o la sabiduría convencional, sino que es el principio de indiferencia que llevó a Fisher y otros a descartar el uso de "probabilidades inversas". ^[48]

Prueba de significación estadística de hipótesis nula

Se puede hacer un ejemplo de prueba de hipótesis de Neyman-Pearson cambiando el ejemplo de la maleta radiactiva. Si la "maleta" es en realidad un contenedor blindado para el transporte de material radiactivo, entonces se podría utilizar una prueba para seleccionar entre tres hipótesis: ninguna fuente radiactiva presente, una presente, dos (todas) presentes. La prueba podría ser necesaria por motivos de seguridad, con acciones necesarias en cada caso. El lema de Neyman-Pearson de la prueba de hipótesis dice que un buen criterio para la selección de hipótesis es la razón de sus probabilidades (una razón de verosimilitud). Un método simple de solución es seleccionar la hipótesis con la probabilidad más alta para los conteos de Geiger observados. El resultado típico coincide con la intuición: pocos recuentos implican ninguna fuente, muchos recuentos implican dos fuentes y los recuentos intermedios implican una fuente. Tenga en cuenta también que, por lo general, hay problemas para probar una negativa . Las hipótesis nulas deberían ser al menos falsificables .

La teoría de Neyman-Pearson puede acomodar tanto las probabilidades previas como los costos de las acciones resultantes de las decisiones. ^[49] El primero permite que cada prueba considere los resultados de pruebas anteriores (a diferencia de las pruebas de significación de Fisher). Este último permite la consideración de cuestiones económicas (por ejemplo) así como de probabilidades. Una razón de verosimilitud sigue siendo un buen criterio para seleccionar entre hipótesis.

Las dos formas de prueba de hipótesis se basan en diferentes formulaciones de problemas. La prueba original es análoga a una pregunta de verdadero / falso; la prueba de Neyman-Pearson se parece más a una opción múltiple. En opinión de Tukey ^[50], el primero llega a una conclusión basándose únicamente en pruebas sólidas, mientras que el segundo produce una decisión sobre la base de las pruebas disponibles. Si bien las dos pruebas parecen bastante diferentes tanto matemática como filosóficamente, los desarrollos posteriores conducen a la afirmación opuesta. Considere muchas fuentes radiactivas diminutas. Las hipótesis se convierten en 0,1,2,3 ... granos de arena radiactiva. Hay poca distinción entre ninguna o alguna radiación (Fisher) y 0 granos de arena radiactiva frente a todas las alternativas (Neyman-Pearson). El principal artículo de Neyman-Pearson de 1933 ^[34]también se consideran hipótesis compuestas (aquellas cuya distribución incluye un parámetro desconocido). Un ejemplo demostró la optimalidad de la prueba t (de Student) , "no puede haber una prueba mejor para la hipótesis bajo consideración" (p. 321). La teoría de Neyman-Pearson estaba demostrando la optimización de los métodos de Fisher desde sus inicios.

La prueba de significación de Fisher ha demostrado ser una herramienta estadística flexible y popular en su aplicación con poco potencial de crecimiento matemático. La prueba de hipótesis de Neyman-Pearson se afirma como un pilar de la estadística matemática, ^[51] creando un nuevo paradigma para el campo. También estimuló nuevas aplicaciones en control de procesos estadísticos , teoría de detección , teoría de decisiones y teoría de juegos . Ambas formulaciones han tenido éxito, pero los éxitos han tenido un carácter diferente.

La disputa sobre las formulaciones no está resuelta. La ciencia utiliza principalmente la formulación de Fisher (ligeramente modificada) como se enseña en la introducción a la estadística. Los estadísticos estudian la teoría de Neyman-Pearson en la escuela de posgrado. Los matemáticos están orgullosos de unir las formulaciones. Los filósofos los consideran por separado. Las opiniones eruditas consideran las formulaciones diversamente competitivas (Fisher vs Neyman), incompatibles ^[32] o complementarias. ^[36] La disputa se ha vuelto más compleja desde que la inferencia bayesiana ha logrado respetabilidad.

La terminología es inconsistente. La prueba de hipótesis puede significar cualquier combinación de dos formulaciones que hayan cambiado con el tiempo. Cualquier discusión sobre la prueba de significación frente a la prueba de hipótesis es doblemente vulnerable a la confusión.

Fisher pensó que la prueba de hipótesis era una estrategia útil para realizar el control de calidad industrial, sin embargo, estaba en total desacuerdo con que la prueba de hipótesis pudiera ser útil para los científicos. ^{[33] La} prueba de hipótesis proporciona un medio para encontrar las estadísticas de prueba utilizadas en las pruebas de significación. ^[36] El concepto de poder es útil para explicar las consecuencias de ajustar el nivel de significancia y se utiliza mucho en la determinación del tamaño de la muestra . Los dos métodos siguen siendo filosóficamente distintos. ^[38] Por lo general (pero no siempre ) producen la misma respuesta matemática. La respuesta preferida depende del contexto. ^[36]Si bien la fusión existente de las teorías de Fisher y Neyman-Pearson ha sido fuertemente criticada, se ha considerado modificar la fusión para lograr los objetivos bayesianos. ^[52]

Crítica

La crítica a las pruebas de hipótesis estadísticas llena volúmenes. ^[53]^[54]^[55]^[56]^[57]^[58] Gran parte de las críticas se pueden resumir en las siguientes cuestiones:

La interpretación de un valor p depende de la regla de detención y la definición de comparación múltiple. El primero cambia a menudo durante el curso de un estudio y el segundo es inevitablemente ambiguo. (es decir, "los valores p dependen tanto de los (datos) observados como de los otros (datos) posibles que podrían haberse observado pero no lo fueron"). ^[59]
Confusión resultante (en parte) de combinar los métodos de Fisher y Neyman-Pearson que son conceptualmente distintos. ^[50]
Énfasis en la significación estadística con exclusión de la estimación y confirmación por experimentos repetidos. ^[60]
Requiere rigurosamente la significación estadística como criterio de publicación, lo que genera sesgo de publicación . ^[61] La mayoría de las críticas son indirectas. En lugar de equivocarse, las pruebas de hipótesis estadísticas se malinterpretan, se usan en exceso y se usan incorrectamente.
Cuando se usa para detectar si existe una diferencia entre grupos, surge una paradoja. A medida que se realizan mejoras en el diseño experimental (por ejemplo, mayor precisión de medición y tamaño de la muestra), la prueba se vuelve más indulgente. A menos que se acepte la suposición absurda de que todas las fuentes de ruido en los datos se cancelan por completo, la probabilidad de encontrar significación estadística en cualquier dirección se aproxima al 100%. ^[62] Sin embargo, esta suposición absurda de que la diferencia media entre dos grupos no puede ser cero implica que los datos no pueden ser independientes y distribuidos idénticamente (iid) porque la diferencia esperada entre dos subgrupos cualesquiera de variables aleatorias iid es cero; por tanto, la suposición iid también es absurda.
Capas de preocupaciones filosóficas. La probabilidad de significación estadística es una función de las decisiones tomadas por los experimentadores / analistas. ^[10] Si las decisiones se basan en una convención, se denominan arbitrarias o absurdas ^[43], mientras que las que no se basan en esa base pueden denominarse subjetivas. Para minimizar los errores de tipo II, se recomiendan muestras grandes. En psicología, se afirma que prácticamente todas las hipótesis nulas son falsas para muestras suficientemente grandes, por lo que "... normalmente no tiene sentido realizar un experimento con el único objetivo de rechazar la hipótesis nula". ^[63] "Los hallazgos estadísticamente significativos a menudo son engañosos" en psicología. ^[64] La importancia estadística no implica una importancia práctica, ycorrelación no implica causalidad . Por tanto, poner en duda la hipótesis nula está lejos de apoyar directamente la hipótesis de investigación.
"[No] nos dice lo que queremos saber". ^[65] Hay listas de docenas de denuncias disponibles. ^[57]^[66]^[67]

Los críticos y partidarios están en gran parte de acuerdo en los hechos con respecto a las características de la prueba de significación de hipótesis nula (NHST): si bien puede proporcionar información crítica, es inadecuada como única herramienta para el análisis estadístico . Rechazar con éxito la hipótesis nula puede no ofrecer apoyo a la hipótesis de investigación. La controversia continua se refiere a la selección de las mejores prácticas estadísticas para el futuro a corto plazo dadas las prácticas existentes. Sin embargo, un diseño de investigación adecuado puede minimizar este problema. Los críticos preferirían prohibir la NHST por completo, forzando una desviación total de esas prácticas, ^[68] mientras que los partidarios sugieren un cambio menos absoluto. ^{[ cita requerida ]}

La controversia sobre las pruebas de significación, y sus efectos sobre el sesgo de publicación en particular, ha producido varios resultados. La Asociación Estadounidense de Psicología ha reforzado sus requisitos de presentación de informes estadísticos después de la revisión, ^[69] los editores de revistas médicas han reconocido la obligación de publicar algunos resultados que no son estadísticamente significativos para combatir el sesgo de publicación ^[70] y una revista ( Journal of Articles in Support of the Hipótesis nula ) se ha creado para publicar dichos resultados exclusivamente. ^{[71] Los} libros de texto han agregado algunas precauciones ^[72]y una mayor cobertura de las herramientas necesarias para estimar el tamaño de la muestra requerida para producir resultados significativos. Las principales organizaciones no han abandonado el uso de pruebas de significancia, aunque algunas han discutido hacerlo. ^[69]

Alternativas

Una posición unificadora de los críticos es que las estadísticas no deben conducir a una conclusión o decisión de aceptación o rechazo, sino a un valor estimado con una estimación de intervalo ; esta filosofía de análisis de datos se conoce en términos generales como estadísticas de estimación . Las estadísticas de estimación se pueden realizar con métodos frecuentistas [1] o bayesianos. ^[73]

Un fuerte crítico de las pruebas de significación sugirió una lista de alternativas de información: ^[74] tamaños del efecto para la importancia, intervalos de predicción para la confianza, réplicas y extensiones para la replicabilidad, metanálisis para la generalidad. Ninguna de estas alternativas sugeridas produce una conclusión / decisión. Lehmann dijo que la teoría de la prueba de hipótesis se puede presentar en términos de conclusiones / decisiones, probabilidades o intervalos de confianza. "La distinción entre los ... enfoques es principalmente de informes e interpretación". ^[75]

Sobre una "alternativa" no hay desacuerdo: el propio Fisher dijo, ^[25] "En relación con la prueba de significancia, podemos decir que un fenómeno es demostrable experimentalmente cuando sabemos cómo realizar un experimento que rara vez dejará de darnos un resultado estadísticamente significativo ". Cohen, un crítico influyente de las pruebas de significación, estuvo de acuerdo, ^[65] "... no busque una alternativa mágica a la NHST [prueba de significación de hipótesis nula]... No existe. "" ... dados los problemas de la inducción estadística, finalmente debemos confiar, al igual que las ciencias más antiguas, en la replicación ". La" alternativa "a las pruebas de significancia son las pruebas repetidas. La forma más fácil para disminuir la incertidumbre estadística es obteniendo más datos, ya sea aumentando el tamaño de la muestra o mediante pruebas repetidas. Nickerson afirmó no haber visto nunca la publicación de un experimento literalmente replicado en psicología. ^[66] Un enfoque indirecto para la replicación es el metanálisis .

La inferencia bayesiana es una alternativa propuesta a las pruebas de significancia. (Nickerson citó 10 fuentes que lo sugirieron, incluido Rozeboom (1960)). ^[66] Por ejemplo, la estimación de parámetros bayesianos puede proporcionar información rica sobre los datos a partir de los cuales los investigadores pueden extraer inferencias, mientras se utilizan antecedentes inciertos que ejercen solo una influencia mínima en los resultados cuando hay suficientes datos disponibles. El psicólogo John K. Kruschke ha sugerido la estimación bayesiana como una alternativa para la prueba t . ^[76] Alternativamente, se pueden comparar dos modelos / hipótesis en competencia utilizando factores de Bayes . ^[77]Los métodos bayesianos podrían ser criticados por requerir información que rara vez está disponible en los casos en los que las pruebas de significación se utilizan con mayor frecuencia. Ni las probabilidades previas ni la distribución de probabilidad del estadístico de prueba bajo la hipótesis alternativa están a menudo disponibles en las ciencias sociales. ^[66]

Los defensores de un enfoque bayesiano a veces afirman que el objetivo de un investigador suele ser evaluar objetivamente la probabilidad de que una hipótesis sea cierta en función de los datos que han recopilado. ^[78]^[79] Ni la prueba de significación de Fisher ni la prueba de hipótesis de Neyman-Pearson pueden proporcionar esta información, y no lo afirman. La probabilidad de que una hipótesis sea verdadera sólo puede derivarse del uso del Teorema de Bayes , que no fue satisfactorio para los campos de Fisher y Neyman-Pearson debido al uso explícito de subjetividad en la forma de probabilidad previa . ^[34]^[80]La estrategia de Fisher es eludir esto con el valor p (un índice objetivo basado únicamente en los datos) seguido de inferencia inductiva , mientras que Neyman-Pearson ideó su enfoque del comportamiento inductivo .

Filosofía

La prueba de hipótesis y la filosofía se cruzan. La estadística inferencial , que incluye la prueba de hipótesis, es probabilidad aplicada. Tanto la probabilidad como su aplicación están entrelazadas con la filosofía. El filósofo David Hume escribió: "Todo conocimiento degenera en probabilidad". Las definiciones prácticas contrapuestas de probabilidad reflejan diferencias filosóficas. La aplicación más común de la prueba de hipótesis es la interpretación científica de datos experimentales, que es naturalmente estudiada por la filosofía de la ciencia .

Fisher y Neyman se opusieron a la subjetividad de la probabilidad. Sus opiniones contribuyeron a las definiciones objetivas. El núcleo de su desacuerdo histórico fue filosófico.

Muchas de las críticas filosóficas de la prueba de hipótesis son discutidas por los estadísticos en otros contextos, particularmente la correlación no implica causalidad y el diseño de experimentos . La prueba de hipótesis es de continuo interés para los filósofos. ^[38]^[81]

Educación

La estadística se enseña cada vez más en las escuelas y la prueba de hipótesis es uno de los elementos que se enseñan. ^[82]^[83] Muchas de las conclusiones reportadas en la prensa popular (encuestas de opinión política a estudios médicos) se basan en estadísticas. Algunos escritores han afirmado que el análisis estadístico de este tipo permite pensar con claridad sobre problemas que involucran datos masivos, así como el reporte efectivo de tendencias e inferencias de dichos datos, pero advierten que los escritores para un público amplio deben tener un conocimiento sólido del campo. para utilizar los términos y conceptos correctamente. ^[84]^[85]^{[ cita requerida ]}^[84]^[85]^{[ cita requerida ]}Una clase de introducción a la estadística universitaria pone mucho énfasis en la prueba de hipótesis, quizás la mitad del curso. Campos como la literatura y la teología ahora incluyen hallazgos basados en análisis estadísticos (ver el Analizador de la Biblia ). Una clase de introducción a la estadística enseña la prueba de hipótesis como un proceso de libro de cocina. La prueba de hipótesis también se enseña a nivel de posgrado. Los estadísticos aprenden a crear buenos procedimientos de prueba estadística (como z , t de Student , F y chi-cuadrado). La prueba de hipótesis estadísticas se considera un área madura dentro de la estadística, ^[75] pero continúa una cantidad limitada de desarrollo.

Un estudio académico afirma que el método del libro de cocina para enseñar estadística introductoria no deja tiempo para la historia, la filosofía o la controversia. La prueba de hipótesis se ha enseñado como método unificado recibido. Las encuestas mostraron que los graduados de la clase estaban llenos de conceptos filosóficos erróneos (sobre todos los aspectos de la inferencia estadística) que persistían entre los instructores. ^[86] Si bien el problema se abordó hace más de una década, ^[87] y continúan los pedidos de reforma educativa, ^{[88] los} estudiantes aún se gradúan de las clases de estadística con conceptos erróneos fundamentales sobre la prueba de hipótesis. ^[89]Las ideas para mejorar la enseñanza de la prueba de hipótesis incluyen alentar a los estudiantes a buscar errores estadísticos en artículos publicados, enseñar la historia de la estadística y enfatizar la controversia en un tema generalmente seco. ^[90]

Ver también

Estadísticas
Problema de Behrens-Fisher
Bootstrapping (estadísticas)
Comprobando si una moneda es justa
Comparación del árbol de decisión de la prueba de medios
Aleatoriedad espacial completa
Contrarrevolucionario
Falsificabilidad
Método de Fisher para combinar pruebas de significancia independientes
Causalidad de Granger
Efecto mirar en otra parte
Problema de unidad de área modificable
Prueba de hipótesis multivariante
Prueba omnibus
Pensamiento dicotómico
Prueba de hipótesis casi segura

Referencias

^ Stuart A., Ord K., Arnold S. (1999), Teoría avanzada de estadística de Kendall: Volumen 2A — Inferencia clásica y el modelo lineal ( Arnold ) §20.2.
^ Arroz, John A. (2007). Estadística matemática y análisis de datos (3ª ed.). Thomson Brooks / Cole . §9.3.
^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2ª ed.). Springer-Verlag. ISBN 978-0-387-95364-9.
^ a b Lehmann, EL; Romano, Joseph P. (2005). Prueba de hipótesis estadísticas (3E ed.). Nueva York: Springer. ISBN 978-0-387-98864-1.
^ Triola, Mario (2001). Estadísticas elementales (8 ed.). Boston: Addison-Wesley. pag. 388 . ISBN 978-0-201-61477-0.
^ Hinkelmann, Klaus y Kempthorne, Oscar (2008). Diseño y Análisis de Experimentos . I y II (Segunda ed.). Wiley. ISBN 978-0-470-38551-7.CS1 maint: varios nombres: lista de autores ( enlace )
^ Montgomery, Douglas (2009). Diseño y análisis de experimentos . Hoboken, Nueva Jersey: Wiley. ISBN 978-0-470-12866-4.
^ RA Fisher (1925). Métodos estadísticos para investigadores , Edimburgo: Oliver y Boyd, 1925, p.43.
^ Nuzzo, Regina (2014). "Método científico: errores estadísticos" . Naturaleza . 506 (7487): 150-152. Código Bib : 2014Natur.506..150N . doi : 10.1038 / 506150a . PMID 24522584 .
↑ a b Bakan, David (1966). "La prueba de significación en la investigación psicológica". Boletín psicológico . 66 (6): 423–437. doi : 10.1037 / h0020412 . PMID 5974619 .
^ Richard J. Larsen; Donna Fox Stroup (1976). Estadísticas en el mundo real: un libro de ejemplos . Macmillan. ISBN 978-0023677205.
^ Hubbard, R .; Parsa, AR; Luthy, MR (1997). "La difusión de las pruebas de significación estadística en psicología: el caso de la revista de psicología aplicada". Teoría y Psicología . 7 (4): 545–554. doi : 10.1177 / 0959354397074006 . S2CID 145576828 .
^ Moore, David (2003). Introducción a la práctica de la estadística . Nueva York: WH Freeman and Co. p. 426. ISBN 9780716796572.
^ Huff, Darrell (1993). Cómo mentir con las estadísticas . Nueva York: Norton. ISBN 978-0-393-31072-6.
^ Huff, Darrell (1991). Cómo mentir con las estadísticas . Londres: Penguin Books. ISBN 978-0-14-013629-6.
^ "Durante los últimos cincuenta años, Cómo mentir con las estadísticas ha vendido más copias que cualquier otro texto estadístico". JM Steele. " " Darrell Huff y cincuenta años de cómo mentir con la estadística " . Ciencia estadística , 20 (3), 2005, 205-209.
^ John Arbuthnot (1710). "Un argumento a favor de la Divina Providencia, tomado de la constante regularidad observada en los nacimientos de ambos sexos" (PDF) . Transacciones filosóficas de la Royal Society de Londres . 27 (325–336): 186–190. doi : 10.1098 / rstl.1710.0011 . S2CID 186209819 .
^ Brian, Éric; Jaisson, Marie (2007). "Físico-Teología y Matemáticas (1710-1794)". El descenso de la proporción de sexos humanos al nacer . Springer Science & Business Media. pp. 1 -25. ISBN 978-1-4020-6036-6.
^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadísticas prácticas no paramétricas (tercera edición), Wiley, pp. 157-176, ISBN 978-0-471-16068-7
^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (Segunda ed.), Chapman & Hall, ISBN 978-0-412-44980-2
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. págs. 225–226 . ISBN 978-0-67440341-3.
↑ a b Laplace, P. (1778). "Mémoire sur les probabilités" (PDF) . Mémoires de l'Académie Royale des Sciences de Paris . 9 : 227–332.
^ Laplace, P. (1778). "Mémoire sur les probabilités (XIX, XX)" . Oeuvres complètes de Laplace . Mémoires de l'Académie Royale des Sciences de Paris . 9 . págs. 429–438.
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, Mass: Belknap Press de Harvard University Press. pag. 134 . ISBN 978-0-674-40340-6.
↑ a b Fisher, Sir Ronald A. (1956) [1935]. "Matemáticas de una dama degustando té" . En James Roy Newman (ed.). El mundo de las matemáticas, volumen 3 [ Diseño de experimentos ]. Publicaciones de Courier Dover. ISBN 978-0-486-41151-4.Originalmente del libro de Fisher Design of Experiments .
^ Cuadro, Joan Fisher (1978). RA Fisher, La vida de un científico . Nueva York: Wiley. pag. 134. ISBN 978-0-471-09300-8.
^ CS Peirce (agosto de 1878). "Ilustraciones de la lógica de la ciencia VI: deducción, inducción e hipótesis" . Popular Science Monthly . 13 . Consultado el 30 de marzo de 2012 .
^ Jaynes, ET (2007). Teoría de la probabilidad: la lógica de la ciencia (5. ed. Impresa). Cambridge [ua]: Universidad de Cambridge. Prensa. ISBN 978-0-521-59271-0.
^ Schervish, M (1996) Teoría de la estadística , p. 218. Springer ISBN 0-387-94546-6
^ Kaye, David H .; Freedman, David A. (2011). "Guía de referencia sobre estadística" . Manual de referencia sobre evidencia científica (3ª ed.). Eagan, MN Washington, DC: West National Academies Press. pag. 259. ISBN 978-0-309-21421-6.
^ Bellhouse, P. (2001), "John Arbuthnot", en Estadísticos de los siglos por CC Heyde y E. Seneta , Springer, págs. 39-42, ISBN 978-0-387-95329-8
^ a b Raymond Hubbard, MJ Bayarri , Los valores P no son probabilidades de error. Archivado el 4 de septiembre de 2013 en la Wayback Machine . Un documento de trabajo que explica la diferencia entre el valor p probatorio de Fisher y la tasa de error tipo I de Neyman-Pearson ${\ Displaystyle \ alpha}$ .
↑ a b Fisher, R (1955). "Métodos estadísticos e inducción científica" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 17 (1): 69–78.
^ a b c d Neyman, J; Pearson, ES (1 de enero de 1933). "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas" . Philosophical Transactions de la Royal Society A . 231 (694–706): 289–337. Código bibliográfico : 1933RSPTA.231..289N . doi : 10.1098 / rsta.1933.0009 .
^ Goodman, SN (15 de junio de 1999). "Hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P". Ann Intern Med . 130 (12): 995–1004. doi : 10.7326 / 0003-4819-130-12-199906150-00008 . PMID 10383371 . S2CID 7534212 .
↑ a b c d Lehmann, EL (diciembre de 1993). "Las teorías de Fisher, Neyman-Pearson de hipótesis de prueba: ¿una teoría o dos?". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1242-1249. doi : 10.1080 / 01621459.1993.10476404 .
^ Fisher, Enfermera registrada (1958). "La naturaleza de la probabilidad" (PDF) . Revisión del centenario . 2 : 261-274. "Estamos bastante en peligro de enviar al mundo a jóvenes altamente entrenados e inteligentes con tablas de números erróneos bajo el brazo y con una densa niebla en el lugar donde deberían estar sus cerebros. En este siglo, por supuesto, trabajarán en misiles guiados y asesorarán a la profesión médica sobre el control de enfermedades, y no hay límite en la medida en que podrían impedir todo tipo de esfuerzo nacional ".
↑ a b c Lenhard, Johannes (2006). "Modelos e inferencia estadística: la controversia entre Fisher y Neyman-Pearson". Br. J. Philos. Sci . 57 : 69–91. doi : 10.1093 / bjps / axi152 . S2CID 14136146 .
^ Neyman, Jerzy (1967). "RA Fisher (1890-1962): una apreciación". Ciencia . 156 (3781): 1456–1460. Código Bibliográfico : 1967Sci ... 156.1456N . doi : 10.1126 / science.156.3781.1456 . PMID 17741062 . S2CID 44708120 .
^ Losavich, JL; Neyman, J .; Scott, EL; Wells, MA (1971). "Explicaciones hipotéticas de los efectos negativos aparentes de la siembra de nubes en el experimento Whitetop" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 68 (11): 2643–2646. Código Bibliográfico : 1971PNAS ... 68.2643L . doi : 10.1073 / pnas.68.11.2643 . PMC 389491 . PMID 16591951 .
^ a b c Halpin, PF; Stam, HJ (invierno de 2006). "Inferencia inductiva o comportamiento inductivo: Fisher y Neyman: enfoques de Pearson para las pruebas estadísticas en la investigación psicológica (1940-1960)". La Revista Estadounidense de Psicología . 119 (4): 625–653. doi : 10.2307 / 20445367 . JSTOR 20445367 . PMID 17286092 .
^ Gigerenzer, Gerd; Zeno Swijtink; Theodore Porter; Lorraine Daston; John Beatty; Lorenz Kruger (1989). "Parte 3: Los expertos en inferencia". El imperio del azar: cómo la probabilidad cambió la ciencia y la vida cotidiana . Prensa de la Universidad de Cambridge. págs. 70-122. ISBN 978-0-521-39838-1.
↑ a b Gigerenzer, G (noviembre de 2004). "Estadísticas sin sentido". La Revista de Socioeconomía . 33 (5): 587–606. doi : 10.1016 / j.socec.2004.09.033 .
^ Loftus, GR (1991). "Sobre la tiranía de la prueba de hipótesis en las ciencias sociales" (PDF) . Psicología contemporánea . 36 (2): 102-105. doi : 10.1037 / 029395 .
^ Meehl, P (1990). "Evaluación y modificación de teorías: la estrategia de defensa lakatosiana y dos principios que la justifican" (PDF) . Investigación psicológica . 1 (2): 108-141. doi : 10.1207 / s15327965pli0102_1 .
↑ Pearson, K (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . The London, Edinburgh y Dublin Philosophical Magazine y Journal of Science . 5 (50): 157-175. doi : 10.1080 / 14786440009463897 .
^ Pearson, K (1904). "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal" . Serie biométrica de memorias de investigación de Drapers 'Company . 1 : 1–35.
^ Zabell, S (1989). "RA Fisher sobre la historia de la probabilidad inversa" . Ciencia estadística . 4 (3): 247–256. doi : 10.1214 / ss / 1177012488 . JSTOR 2245634 .
^ Ash, Robert (1970). Teoría básica de la probabilidad . Nueva York: Wiley. ISBN 978-0471034506.Sección 8.2
↑ a b Tukey, John W. (1960). "Conclusiones vs decisiones". Tecnometría . 26 (4): 423–433. doi : 10.1080 / 00401706.1960.10489909 ."Hasta que analicemos los relatos de las hipótesis de prueba, separando los elementos de decisión [Neyman-Pearson] de los elementos de conclusión [de Fisher], la íntima mezcla de elementos dispares será una fuente continua de confusión". ... "Hay un lugar para" hacer lo mejor "y" decir sólo lo que es cierto ", pero es importante saber, en cada caso, qué se está haciendo y cuál se debe hacer. "
^ Stigler, Stephen M. (agosto de 1996). "La Historia de la Estadística en 1933" . Ciencia estadística . 11 (3): 244–252. doi : 10.1214 / ss / 1032280216 . JSTOR 2246117 .
^ Berger, James O. (2003). "¿Podrían haber estado de acuerdo Fisher, Jeffreys y Neyman sobre las pruebas?" . Ciencia estadística . 18 (1): 1–32. doi : 10.1214 / ss / 1056397485 .
^ Morrison, Denton; Henkel, Ramon, eds. (2006) [1970]. La controversia de la prueba de significación . Transacción Aldine. ISBN 978-0-202-30879-1.
^ Oakes, Michael (1986). Inferencia estadística: un comentario para las ciencias sociales y del comportamiento . Chichester Nueva York: Wiley. ISBN 978-0471104438.
^ Chow, Siu L. (1997). Importancia estadística: justificación, validez y utilidad . ISBN 978-0-7619-5205-3.
^ Harlow, Lisa Lavoie; Stanley A. Mulaik; James H. Steiger, eds. (1997). ¿Y si no hubiera pruebas de significación? . Lawrence Erlbaum Associates. ISBN 978-0-8058-2634-0.
↑ a b Kline, Rex (2004). Más allá de las pruebas de significación: reforma de los métodos de análisis de datos en la investigación del comportamiento . Washington, DC: Asociación Americana de Psicología. ISBN 9781591471189.
^ McCloskey, Deirdre N .; Stephen T. Ziliak (2008). El culto a la importancia estadística: cómo el error estándar nos cuesta trabajos, justicia y vidas . Prensa de la Universidad de Michigan. ISBN 978-0-472-05007-9.
^ Maizal, Jerome (1976). "Contribuciones metodológicas recientes a los ensayos clínicos" (PDF) . Revista Estadounidense de Epidemiología . 104 (4): 408–421. doi : 10.1093 / oxfordjournals.aje.a112313 . PMID 788503 .
^ Yates, Frank (1951). "La influencia de los métodos estadísticos para investigadores en el desarrollo de la ciencia de la estadística". Revista de la Asociación Estadounidense de Estadística . 46 (253): 19–34. doi : 10.1080 / 01621459.1951.10500764 ."El énfasis dado a las pruebas formales de importancia en todos los métodos estadísticos [de RA Fisher] ... ha provocado que los investigadores científicos presten una atención indebida a los resultados de las pruebas de importancia que realizan en sus datos, en particular los datos derivados de experimentos, y también poco a las estimaciones de la magnitud de los efectos que están investigando ". ... "El énfasis en las pruebas de significación y la consideración de los resultados de cada experimento de forma aislada, ha tenido la desafortunada consecuencia de que los investigadores científicos a menudo han considerado la ejecución de una prueba de significación en un experimento como el objetivo final".
^ Begg, Colin B .; Berlín, Jesse A. (1988). "Sesgo de publicación: un problema en la interpretación de datos médicos". Revista de la Sociedad Real de Estadística, Serie A . 151 (3): 419–463. doi : 10.2307 / 2982993 . JSTOR 2982993 .
^ Meehl, Paul E. (1967). "Prueba de teoría en psicología y física: una paradoja metodológica" (PDF) . Filosofía de la ciencia . 34 (2): 103-115. doi : 10.1086 / 288135 . S2CID 96422880 . Archivado desde el original (PDF) el 3 de diciembre de 2013. Treinta años más tarde, Meehl reconoció que la teoría de la significación estadística era matemáticamente sólida mientras continuaba cuestionando la elección predeterminada de la hipótesis nula, culpando en cambio a "la escasa comprensión de los científicos sociales de la relación lógica entre teoría y hecho" en "El problema es epistemología, no Estadísticas: Reemplace las pruebas de significación por intervalos de confianza y cuantifique la precisión de las predicciones numéricas arriesgadas "(Capítulo 14 en Harlow (1997)).
^ Nunnally, Jum (1960). "El lugar de la estadística en psicología". Medición educativa y psicológica . 20 (4): 641–650. doi : 10.1177 / 001316446002000401 . S2CID 144813784 .
^ Lykken, David T. (1991). "¿Qué le pasa a la psicología, de todos modos?". Pensando claramente en la psicología . 1 : 3-39.
↑ a b Jacob Cohen (diciembre de 1994). "La Tierra es Redonda (p <.05)" . Psicólogo estadounidense . 49 (12): 997–1003. doi : 10.1037 / 0003-066X.49.12.997 . S2CID 380942 . Este documento condujo a la revisión de las prácticas estadísticas por parte de la APA. Cohen fue miembro del Grupo de Trabajo que realizó la revisión.
↑ a b c d Nickerson, Raymond S. (2000). "Pruebas de significación de hipótesis nulas: una revisión de una controversia antigua y continua" . Métodos psicológicos . 5 (2): 241-301. doi : 10.1037 / 1082-989X.5.2.241 . PMID 10937333 . S2CID 28340967 .
^ Rama, Mark (2014). "Efectos secundarios malignos de la prueba de significación de hipótesis nula" . Teoría y Psicología . 24 (2): 256–277. doi : 10.1177 / 0959354314525282 . S2CID 40712136 .
^ Hunter, John E. (enero de 1997). "Necesario: una prohibición de la prueba de significación". Ciencia psicológica . 8 (1): 3–7. doi : 10.1111 / j.1467-9280.1997.tb00534.x .
↑ a b Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología; directrices y explicaciones". Psicólogo estadounidense . 54 (8): 594–604. doi : 10.1037 / 0003-066X.54.8.594 ."Pruebas de hipótesis. Es difícil imaginar una situación en la que una decisión dicotómica de aceptación-rechazo sea mejor que informar un valor p real o, mejor aún, un intervalo de confianza". (pág. 599). El comité utilizó el término cauteloso "tolerancia" al describir su decisión contra la prohibición de la prueba de hipótesis en los informes de psicología. (pág. 603)
^ "ICMJE: obligación de publicar estudios negativos" . Archivado desde el original el 16 de julio de 2012 . Consultado el 3 de septiembre de 2012 . Los editores deben considerar seriamente para su publicación cualquier estudio cuidadosamente realizado sobre una cuestión importante, relevante para sus lectores, ya sea que los resultados para el resultado primario o cualquier resultado adicional sean estadísticamente significativos. No enviar o publicar los resultados debido a la falta de significación estadística es una causa importante de sesgo de publicación.
^ Revista de artículos en apoyo del sitio web de hipótesis nula : página de inicio de JASNH . El volumen 1 número 1 se publicó en 2002 y todos los artículos tratan sobre temas relacionados con la psicología.
^ Howell, David (2002). Métodos estadísticos para la psicología (5 ed.). Duxbury. pag. 94 . ISBN 978-0-534-37770-0.
^ Kruschke, JK (9 de julio de 2012). "La estimación bayesiana reemplaza la prueba T" (PDF) . Revista de Psicología Experimental: General . 142 (2): 573–603. doi : 10.1037 / a0029146 . PMID 22774788 .
^ Armstrong, J. Scott (2007). "Las pruebas de significación perjudican el progreso en la predicción" . Revista Internacional de Pronósticos . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . doi : 10.1016 / j.ijforecast.2007.03.004 .
↑ a b E. L. Lehmann (1997). "Prueba de hipótesis estadísticas: la historia de un libro" . Ciencia estadística . 12 (1): 48–52. doi : 10.1214 / ss / 1029963261 .
^ Kruschke, JK (9 de julio de 2012). "La estimación bayesiana reemplaza la prueba T" (PDF) . Revista de Psicología Experimental: General . 142 (2): 573–603. doi : 10.1037 / a0029146 . PMID 22774788 .
^ Kass, RE (1993). "Factores de Bayes e incertidumbre del modelo" (PDF) . Departamento de Estadística, Universidad de Washington. Cite journal requiere |journal=( ayuda )
^ Rozeboom, William W (1960). "La falacia de la prueba de significación de hipótesis nula" (PDF) . Boletín psicológico . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . doi : 10.1037 / h0042040 . PMID 13744252 . "... la aplicación adecuada de las estadísticas a la inferencia científica está irrevocablemente comprometida con una consideración exhaustiva de las probabilidades inversas [también conocidas como bayesianas] ..." Se reconoció, con pesar, que las distribuciones de probabilidad a priori estaban disponibles "sólo como una sensación subjetiva, diferir de una persona a otra "" en el futuro más inmediato, al menos ".
^ Berger, James (2006). "El caso del análisis bayesiano objetivo" . Análisis bayesiano . 1 (3): 385–402. doi : 10.1214 / 06-ba115 . Al enumerar las definiciones en competencia de análisis bayesiano "objetivo", "una meta principal de la estadística (de hecho, la ciencia) es encontrar una metodología bayesiana objetiva completamente coherente para aprender de los datos". El autor expresó la opinión de que este objetivo "no es alcanzable".
^ Aldrich, J (2008). "RA Fisher en el teorema de Bayes y Bayes" (PDF) . Análisis bayesiano . 3 (1): 161-170. doi : 10.1214 / 08-BA306 . Archivado desde el original (PDF) el 6 de septiembre de 2014.
^ Mayo, DG; Spanos, A. (2006). "Pruebas severas como concepto básico en una filosofía de inducción de Neyman-Pearson". La Revista Británica de Filosofía de la Ciencia . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . doi : 10.1093 / bjps / axl003 . S2CID 7176653 .
^ Matemáticas> Escuela secundaria: Estadística y probabilidad> Introducción Archivado el 28 de julio de 2012 en archive.today Iniciativa de estándares estatales básicos comunes (se relaciona con estudiantes de EE. UU.)
^ Pruebas de College Board> AP: Asignaturas> Estadísticas The College Board (se relaciona con estudiantes de EE. UU.)
↑ a b Huff, Darrell (1993). Cómo mentir con las estadísticas . Nueva York: Norton. pag. 8 . ISBN 978-0-393-31072-6.Los métodos estadísticos y los términos estadísticos son necesarios para informar los datos masivos de las tendencias sociales y económicas, las condiciones comerciales, las encuestas de "opinión", el censo. Pero sin escritores que usen las palabras con honestidad y lectores que sepan lo que significan, el resultado solo puede ser una tontería semántica ”.
↑ a b Snedecor, George W .; Cochran, William G. (1967). Métodos estadísticos (6 ed.). Ames, Iowa: Iowa State University Press. pag. 3. "... las ideas básicas en estadística nos ayudan a pensar con claridad sobre el problema, proporcionan alguna orientación sobre las condiciones que deben cumplirse si se quieren hacer inferencias sólidas y nos permiten detectar muchas inferencias que no tienen una buena base lógica. "
^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2007). "Conceptos erróneos de los estudiantes sobre la inferencia estadística: una revisión de la evidencia empírica de la investigación sobre educación estadística" (PDF) . Revisión de la investigación educativa . 2 (2): 98-113. doi : 10.1016 / j.edurev.2007.04.001 .
^ Moore, David S. (1997). "Nueva pedagogía y nuevos contenidos: el caso de la estadística" (PDF) . Revista Estadística Internacional . 65 (2): 123-165. doi : 10.2307 / 1403333 . JSTOR 1403333 .
^ Hubbard, Raymond; Armstrong, J. Scott (2006). "Por qué no sabemos realmente lo que significa la significación estadística: implicaciones para los educadores" (PDF) . Revista de educación en marketing . 28 (2): 114-120. doi : 10.1177 / 0273475306288399 . hdl : 2092/413 . S2CID 34729227 . Archivado desde el original el 18 de mayo de 2006. CS1 maint: URL no apta ( enlace ) Preimpresión
^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2009). "¿Qué tan seguros están los estudiantes en sus conceptos erróneos sobre las pruebas de hipótesis?" . Revista de Educación en Estadística . 17 (2). doi : 10.1080 / 10691898.2009.11889514 .
^ Gigerenzer, G. (2004). "El ritual nulo Lo que siempre quiso saber acerca de las pruebas importantes, pero tenía miedo de preguntar" (PDF) . El Manual SAGE de Metodología Cuantitativa para las Ciencias Sociales . págs. 391–408. doi : 10.4135 / 9781412986311 . ISBN 9780761923596.

Lectura adicional

Lehmann EL (1992) "Introducción a Neyman y Pearson (1933) sobre el problema de las pruebas más eficientes de hipótesis estadísticas". En: Breakthroughs in Statistics, Volumen 1 , (Eds Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5 (seguido de reimpresión del artículo)
Neyman, J .; Pearson, ES (1933). "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas" . Philosophical Transactions de la Royal Society A . 231 (694–706): 289–337. Código bibliográfico : 1933RSPTA.231..289N . doi : 10.1098 / rsta.1933.0009 .

Enlaces externos

"Hipótesis estadísticas, verificación de" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Wilson González, Georgina; Kay Sankaran (10 de septiembre de 1997). "Prueba de hipótesis" . Manual de muestreo y monitoreo ambiental . Virginia Tech.
Crítica bayesiana de las pruebas de hipótesis clásicas
Crítica de la prueba de hipótesis clásica que destaca los escrúpulos de larga data de los estadísticos
Dallal GE (2007) The Little Handbook of Statistical Practice (Un buen tutorial)
Referencias de argumentos a favor y en contra de la prueba de hipótesis
Descripción general de las pruebas estadísticas: cómo elegir la prueba estadística correcta
[2] Método de prueba de hipótesis basado en análisis estadístico en el descubrimiento de conocimientos biológicos; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana

Calculadoras en línea

Calculadoras de intervalo de confianza y prueba de hipótesis MBAStats
Algunas calculadoras de prueba de hipótesis y valores p .

[1] Stuart A., Ord K., Arnold S. (1999), Teoría avanzada de estadística de Kendall: Volumen 2A — Inferencia clásica y el modelo lineal ( Arnold ) §20.2.

[2] Arroz, John A. (2007). Estadística matemática y análisis de datos (3ª ed.). Thomson Brooks / Cole . §9.3.

[3] Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2ª ed.). Springer-Verlag. ISBN 978-0-387-95364-9.

[LR-4] Lehmann, EL; Romano, Joseph P. (2005). Prueba de hipótesis estadísticas (3E ed.). Nueva York: Springer. ISBN 978-0-387-98864-1.

[5] Triola, Mario (2001). Estadísticas elementales (8 ed.). Boston: Addison-Wesley. pag. 388 . ISBN 978-0-201-61477-0.

[6] Hinkelmann, Klaus y Kempthorne, Oscar (2008). Diseño y Análisis de Experimentos . I y II (Segunda ed.). Wiley. ISBN 978-0-470-38551-7.CS1 maint: varios nombres: lista de autores ( enlace )

[7] Montgomery, Douglas (2009). Diseño y análisis de experimentos . Hoboken, Nueva Jersey: Wiley. ISBN 978-0-470-12866-4.

[Fisher1925-8] RA Fisher (1925). Métodos estadísticos para investigadores , Edimburgo: Oliver y Boyd, 1925, p.43.

[9] Nuzzo, Regina (2014). "Método científico: errores estadísticos" . Naturaleza . 506 (7487): 150-152. Código Bib : 2014Natur.506..150N . doi : 10.1038 / 506150a . PMID 24522584 .

[bakan66-10] Bakan, David (1966). "La prueba de significación en la investigación psicológica". Boletín psicológico . 66 (6): 423–437. doi : 10.1037 / h0020412 . PMID 5974619 .

[larsen-11] Richard J. Larsen; Donna Fox Stroup (1976). Estadísticas en el mundo real: un libro de ejemplos . Macmillan. ISBN 978-0023677205.

[hubbard-12] Hubbard, R .; Parsa, AR; Luthy, MR (1997). "La difusión de las pruebas de significación estadística en psicología: el caso de la revista de psicología aplicada". Teoría y Psicología . 7 (4): 545–554. doi : 10.1177 / 0959354397074006 . S2CID 145576828 .

[moore-13] Moore, David (2003). Introducción a la práctica de la estadística . Nueva York: WH Freeman and Co. p. 426. ISBN 9780716796572.

[14] Huff, Darrell (1993). Cómo mentir con las estadísticas . Nueva York: Norton. ISBN 978-0-393-31072-6.

[15] Huff, Darrell (1991). Cómo mentir con las estadísticas . Londres: Penguin Books. ISBN 978-0-14-013629-6.

[fiftyyears-16] "Durante los últimos cincuenta años, Cómo mentir con las estadísticas ha vendido más copias que cualquier otro texto estadístico". JM Steele. " " Darrell Huff y cincuenta años de cómo mentir con la estadística " . Ciencia estadística , 20 (3), 2005, 205-209.

[17] John Arbuthnot (1710). "Un argumento a favor de la Divina Providencia, tomado de la constante regularidad observada en los nacimientos de ambos sexos" (PDF) . Transacciones filosóficas de la Royal Society de Londres . 27 (325–336): 186–190. doi : 10.1098 / rstl.1710.0011 . S2CID 186209819 .

[18] Brian, Éric; Jaisson, Marie (2007). "Físico-Teología y Matemáticas (1710-1794)". El descenso de la proporción de sexos humanos al nacer . Springer Science & Business Media. pp. 1 -25. ISBN 978-1-4020-6036-6.

[Conover1999-19] Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadísticas prácticas no paramétricas (tercera edición), Wiley, pp. 157-176, ISBN 978-0-471-16068-7

[Sprent1989-20] Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (Segunda ed.), Chapman & Hall, ISBN 978-0-412-44980-2

[21] Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. págs. 225–226 . ISBN 978-0-67440341-3.

[Laplace_1778-22] Laplace, P. (1778). "Mémoire sur les probabilités" (PDF) . Mémoires de l'Académie Royale des Sciences de Paris . 9 : 227–332.

[Laplace_1878-23] Laplace, P. (1778). "Mémoire sur les probabilités (XIX, XX)" . Oeuvres complètes de Laplace . Mémoires de l'Académie Royale des Sciences de Paris . 9 . págs. 429–438.

[24] Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, Mass: Belknap Press de Harvard University Press. pag. 134 . ISBN 978-0-674-40340-6.

[fisher-25] Fisher, Sir Ronald A. (1956) [1935]. "Matemáticas de una dama degustando té" . En James Roy Newman (ed.). El mundo de las matemáticas, volumen 3 [ Diseño de experimentos ]. Publicaciones de Courier Dover. ISBN 978-0-486-41151-4.Originalmente del libro de Fisher Design of Experiments .

[26] Cuadro, Joan Fisher (1978). RA Fisher, La vida de un científico . Nueva York: Wiley. pag. 134. ISBN 978-0-471-09300-8.

[27] CS Peirce (agosto de 1878). "Ilustraciones de la lógica de la ciencia VI: deducción, inducción e hipótesis" . Popular Science Monthly . 13 . Consultado el 30 de marzo de 2012 .

[28] Jaynes, ET (2007). Teoría de la probabilidad: la lógica de la ciencia (5. ed. Impresa). Cambridge [ua]: Universidad de Cambridge. Prensa. ISBN 978-0-521-59271-0.

[29] Schervish, M (1996) Teoría de la estadística , p. 218. Springer ISBN 0-387-94546-6

[30] Kaye, David H .; Freedman, David A. (2011). "Guía de referencia sobre estadística" . Manual de referencia sobre evidencia científica (3ª ed.). Eagan, MN Washington, DC: West National Academies Press. pag. 259. ISBN 978-0-309-21421-6.

[Bellhouse2001-31] Bellhouse, P. (2001), "John Arbuthnot", en Estadísticos de los siglos por CC Heyde y E. Seneta , Springer, págs. 39-42, ISBN 978-0-387-95329-8

[ftp.isds.duke-32] Raymond Hubbard, MJ Bayarri , Los valores P no son probabilidades de error. Archivado el 4 de septiembre de 2013 en la Wayback Machine . Un documento de trabajo que explica la diferencia entre el valor p probatorio de Fisher y la tasa de error tipo I de Neyman-Pearson ${\ Displaystyle \ alpha}$ .

[Fisher_1955_69–78-33] Fisher, R (1955). "Métodos estadísticos e inducción científica" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 17 (1): 69–78.

[Neyman_289–337-34] Neyman, J; Pearson, ES (1 de enero de 1933). "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas" . Philosophical Transactions de la Royal Society A . 231 (694–706): 289–337. Código bibliográfico : 1933RSPTA.231..289N . doi : 10.1098 / rsta.1933.0009 .

[35] Goodman, SN (15 de junio de 1999). "Hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P". Ann Intern Med . 130 (12): 995–1004. doi : 10.7326 / 0003-4819-130-12-199906150-00008 . PMID 10383371 . S2CID 7534212 .

[Lehmann93-36] Lehmann, EL (diciembre de 1993). "Las teorías de Fisher, Neyman-Pearson de hipótesis de prueba: ¿una teoría o dos?". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1242-1249. doi : 10.1080 / 01621459.1993.10476404 .

[37] Fisher, Enfermera registrada (1958). "La naturaleza de la probabilidad" (PDF) . Revisión del centenario . 2 : 261-274. "Estamos bastante en peligro de enviar al mundo a jóvenes altamente entrenados e inteligentes con tablas de números erróneos bajo el brazo y con una densa niebla en el lugar donde deberían estar sus cerebros. En este siglo, por supuesto, trabajarán en misiles guiados y asesorarán a la profesión médica sobre el control de enfermedades, y no hay límite en la medida en que podrían impedir todo tipo de esfuerzo nacional ".

[Lenhard-38] Lenhard, Johannes (2006). "Modelos e inferencia estadística: la controversia entre Fisher y Neyman-Pearson". Br. J. Philos. Sci . 57 : 69–91. doi : 10.1093 / bjps / axi152 . S2CID 14136146 .

[39] Neyman, Jerzy (1967). "RA Fisher (1890-1962): una apreciación". Ciencia . 156 (3781): 1456–1460. Código Bibliográfico : 1967Sci ... 156.1456N . doi : 10.1126 / science.156.3781.1456 . PMID 17741062 . S2CID 44708120 .

[40] Losavich, JL; Neyman, J .; Scott, EL; Wells, MA (1971). "Explicaciones hipotéticas de los efectos negativos aparentes de la siembra de nubes en el experimento Whitetop" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 68 (11): 2643–2646. Código Bibliográfico : 1971PNAS ... 68.2643L . doi : 10.1073 / pnas.68.11.2643 . PMC 389491 . PMID 16591951 .

[Halpin_625–653-41] Halpin, PF; Stam, HJ (invierno de 2006). "Inferencia inductiva o comportamiento inductivo: Fisher y Neyman: enfoques de Pearson para las pruebas estadísticas en la investigación psicológica (1940-1960)". La Revista Estadounidense de Psicología . 119 (4): 625–653. doi : 10.2307 / 20445367 . JSTOR 20445367 . PMID 17286092 .

[Gigerenzer-42] Gigerenzer, Gerd; Zeno Swijtink; Theodore Porter; Lorraine Daston; John Beatty; Lorenz Kruger (1989). "Parte 3: Los expertos en inferencia". El imperio del azar: cómo la probabilidad cambió la ciencia y la vida cotidiana . Prensa de la Universidad de Cambridge. págs. 70-122. ISBN 978-0-521-39838-1.

[Gigerenzer_587–606-43] Gigerenzer, G (noviembre de 2004). "Estadísticas sin sentido". La Revista de Socioeconomía . 33 (5): 587–606. doi : 10.1016 / j.socec.2004.09.033 .

[44] Loftus, GR (1991). "Sobre la tiranía de la prueba de hipótesis en las ciencias sociales" (PDF) . Psicología contemporánea . 36 (2): 102-105. doi : 10.1037 / 029395 .

[45] Meehl, P (1990). "Evaluación y modificación de teorías: la estrategia de defensa lakatosiana y dos principios que la justifican" (PDF) . Investigación psicológica . 1 (2): 108-141. doi : 10.1207 / s15327965pli0102_1 .

[Pearson_1900-46] Pearson, K (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . The London, Edinburgh y Dublin Philosophical Magazine y Journal of Science . 5 (50): 157-175. doi : 10.1080 / 14786440009463897 .

[Pearson_1904-47] Pearson, K (1904). "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal" . Serie biométrica de memorias de investigación de Drapers 'Company . 1 : 1–35.

[48] Zabell, S (1989). "RA Fisher sobre la historia de la probabilidad inversa" . Ciencia estadística . 4 (3): 247–256. doi : 10.1214 / ss / 1177012488 . JSTOR 2245634 .

[Ash-49] Ash, Robert (1970). Teoría básica de la probabilidad . Nueva York: Wiley. ISBN 978-0471034506.Sección 8.2

[Tukey60-50] Tukey, John W. (1960). "Conclusiones vs decisiones". Tecnometría . 26 (4): 423–433. doi : 10.1080 / 00401706.1960.10489909 ."Hasta que analicemos los relatos de las hipótesis de prueba, separando los elementos de decisión [Neyman-Pearson] de los elementos de conclusión [de Fisher], la íntima mezcla de elementos dispares será una fuente continua de confusión". ... "Hay un lugar para" hacer lo mejor "y" decir sólo lo que es cierto ", pero es importante saber, en cada caso, qué se está haciendo y cuál se debe hacer. "

[51] Stigler, Stephen M. (agosto de 1996). "La Historia de la Estadística en 1933" . Ciencia estadística . 11 (3): 244–252. doi : 10.1214 / ss / 1032280216 . JSTOR 2246117 .

[52] Berger, James O. (2003). "¿Podrían haber estado de acuerdo Fisher, Jeffreys y Neyman sobre las pruebas?" . Ciencia estadística . 18 (1): 1–32. doi : 10.1214 / ss / 1056397485 .

[morrison-53] Morrison, Denton; Henkel, Ramon, eds. (2006) [1970]. La controversia de la prueba de significación . Transacción Aldine. ISBN 978-0-202-30879-1.

[54] Oakes, Michael (1986). Inferencia estadística: un comentario para las ciencias sociales y del comportamiento . Chichester Nueva York: Wiley. ISBN 978-0471104438.

[chow-55] Chow, Siu L. (1997). Importancia estadística: justificación, validez y utilidad . ISBN 978-0-7619-5205-3.

[harlow-56] Harlow, Lisa Lavoie; Stanley A. Mulaik; James H. Steiger, eds. (1997). ¿Y si no hubiera pruebas de significación? . Lawrence Erlbaum Associates. ISBN 978-0-8058-2634-0.

[kline-57] Kline, Rex (2004). Más allá de las pruebas de significación: reforma de los métodos de análisis de datos en la investigación del comportamiento . Washington, DC: Asociación Americana de Psicología. ISBN 9781591471189.

[mccloskey-58] McCloskey, Deirdre N .; Stephen T. Ziliak (2008). El culto a la importancia estadística: cómo el error estándar nos cuesta trabajos, justicia y vidas . Prensa de la Universidad de Michigan. ISBN 978-0-472-05007-9.

[59] Maizal, Jerome (1976). "Contribuciones metodológicas recientes a los ensayos clínicos" (PDF) . Revista Estadounidense de Epidemiología . 104 (4): 408–421. doi : 10.1093 / oxfordjournals.aje.a112313 . PMID 788503 .

[60] Yates, Frank (1951). "La influencia de los métodos estadísticos para investigadores en el desarrollo de la ciencia de la estadística". Revista de la Asociación Estadounidense de Estadística . 46 (253): 19–34. doi : 10.1080 / 01621459.1951.10500764 ."El énfasis dado a las pruebas formales de importancia en todos los métodos estadísticos [de RA Fisher] ... ha provocado que los investigadores científicos presten una atención indebida a los resultados de las pruebas de importancia que realizan en sus datos, en particular los datos derivados de experimentos, y también poco a las estimaciones de la magnitud de los efectos que están investigando ". ... "El énfasis en las pruebas de significación y la consideración de los resultados de cada experimento de forma aislada, ha tenido la desafortunada consecuencia de que los investigadores científicos a menudo han considerado la ejecución de una prueba de significación en un experimento como el objetivo final".

[61] Begg, Colin B .; Berlín, Jesse A. (1988). "Sesgo de publicación: un problema en la interpretación de datos médicos". Revista de la Sociedad Real de Estadística, Serie A . 151 (3): 419–463. doi : 10.2307 / 2982993 . JSTOR 2982993 .

[62] Meehl, Paul E. (1967). "Prueba de teoría en psicología y física: una paradoja metodológica" (PDF) . Filosofía de la ciencia . 34 (2): 103-115. doi : 10.1086 / 288135 . S2CID 96422880 . Archivado desde el original (PDF) el 3 de diciembre de 2013. Treinta años más tarde, Meehl reconoció que la teoría de la significación estadística era matemáticamente sólida mientras continuaba cuestionando la elección predeterminada de la hipótesis nula, culpando en cambio a "la escasa comprensión de los científicos sociales de la relación lógica entre teoría y hecho" en "El problema es epistemología, no Estadísticas: Reemplace las pruebas de significación por intervalos de confianza y cuantifique la precisión de las predicciones numéricas arriesgadas "(Capítulo 14 en Harlow (1997)).

[63] Nunnally, Jum (1960). "El lugar de la estadística en psicología". Medición educativa y psicológica . 20 (4): 641–650. doi : 10.1177 / 001316446002000401 . S2CID 144813784 .

[64] Lykken, David T. (1991). "¿Qué le pasa a la psicología, de todos modos?". Pensando claramente en la psicología . 1 : 3-39.

[cohen94-65] Jacob Cohen (diciembre de 1994). "La Tierra es Redonda (p <.05)" . Psicólogo estadounidense . 49 (12): 997–1003. doi : 10.1037 / 0003-066X.49.12.997 . S2CID 380942 . Este documento condujo a la revisión de las prácticas estadísticas por parte de la APA. Cohen fue miembro del Grupo de Trabajo que realizó la revisión.

[nickerson-66] Nickerson, Raymond S. (2000). "Pruebas de significación de hipótesis nulas: una revisión de una controversia antigua y continua" . Métodos psicológicos . 5 (2): 241-301. doi : 10.1037 / 1082-989X.5.2.241 . PMID 10937333 . S2CID 28340967 .

[branch-67] Rama, Mark (2014). "Efectos secundarios malignos de la prueba de significación de hipótesis nula" . Teoría y Psicología . 24 (2): 256–277. doi : 10.1177 / 0959354314525282 . S2CID 40712136 .

[68] Hunter, John E. (enero de 1997). "Necesario: una prohibición de la prueba de significación". Ciencia psicológica . 8 (1): 3–7. doi : 10.1111 / j.1467-9280.1997.tb00534.x .

[wilkinson-69] Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología; directrices y explicaciones". Psicólogo estadounidense . 54 (8): 594–604. doi : 10.1037 / 0003-066X.54.8.594 ."Pruebas de hipótesis. Es difícil imaginar una situación en la que una decisión dicotómica de aceptación-rechazo sea mejor que informar un valor p real o, mejor aún, un intervalo de confianza". (pág. 599). El comité utilizó el término cauteloso "tolerancia" al describir su decisión contra la prohibición de la prueba de hipótesis en los informes de psicología. (pág. 603)

[70] "ICMJE: obligación de publicar estudios negativos" . Archivado desde el original el 16 de julio de 2012 . Consultado el 3 de septiembre de 2012 . Los editores deben considerar seriamente para su publicación cualquier estudio cuidadosamente realizado sobre una cuestión importante, relevante para sus lectores, ya sea que los resultados para el resultado primario o cualquier resultado adicional sean estadísticamente significativos. No enviar o publicar los resultados debido a la falta de significación estadística es una causa importante de sesgo de publicación.

[JASNH-71] Revista de artículos en apoyo del sitio web de hipótesis nula : página de inicio de JASNH . El volumen 1 número 1 se publicó en 2002 y todos los artículos tratan sobre temas relacionados con la psicología.

[72] Howell, David (2002). Métodos estadísticos para la psicología (5 ed.). Duxbury. pag. 94 . ISBN 978-0-534-37770-0.

[73] Kruschke, JK (9 de julio de 2012). "La estimación bayesiana reemplaza la prueba T" (PDF) . Revista de Psicología Experimental: General . 142 (2): 573–603. doi : 10.1037 / a0029146 . PMID 22774788 .

[Armstrong1-74] Armstrong, J. Scott (2007). "Las pruebas de significación perjudican el progreso en la predicción" . Revista Internacional de Pronósticos . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . doi : 10.1016 / j.ijforecast.2007.03.004 .

[Lehmann97-75] E. L. Lehmann (1997). "Prueba de hipótesis estadísticas: la historia de un libro" . Ciencia estadística . 12 (1): 48–52. doi : 10.1214 / ss / 1029963261 .

[76] Kruschke, JK (9 de julio de 2012). "La estimación bayesiana reemplaza la prueba T" (PDF) . Revista de Psicología Experimental: General . 142 (2): 573–603. doi : 10.1037 / a0029146 . PMID 22774788 .

[77] Kass, RE (1993). "Factores de Bayes e incertidumbre del modelo" (PDF) . Departamento de Estadística, Universidad de Washington. Cite journal requiere |journal=( ayuda )

[78] Rozeboom, William W (1960). "La falacia de la prueba de significación de hipótesis nula" (PDF) . Boletín psicológico . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . doi : 10.1037 / h0042040 . PMID 13744252 . "... la aplicación adecuada de las estadísticas a la inferencia científica está irrevocablemente comprometida con una consideración exhaustiva de las probabilidades inversas [también conocidas como bayesianas] ..." Se reconoció, con pesar, que las distribuciones de probabilidad a priori estaban disponibles "sólo como una sensación subjetiva, diferir de una persona a otra "" en el futuro más inmediato, al menos ".

[79] Berger, James (2006). "El caso del análisis bayesiano objetivo" . Análisis bayesiano . 1 (3): 385–402. doi : 10.1214 / 06-ba115 . Al enumerar las definiciones en competencia de análisis bayesiano "objetivo", "una meta principal de la estadística (de hecho, la ciencia) es encontrar una metodología bayesiana objetiva completamente coherente para aprender de los datos". El autor expresó la opinión de que este objetivo "no es alcanzable".

[80] Aldrich, J (2008). "RA Fisher en el teorema de Bayes y Bayes" (PDF) . Análisis bayesiano . 3 (1): 161-170. doi : 10.1214 / 08-BA306 . Archivado desde el original (PDF) el 6 de septiembre de 2014.

[doi10.1093/bjps/axl003-81] Mayo, DG; Spanos, A. (2006). "Pruebas severas como concepto básico en una filosofía de inducción de Neyman-Pearson". La Revista Británica de Filosofía de la Ciencia . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . doi : 10.1093 / bjps / axl003 . S2CID 7176653 .

[82] Matemáticas> Escuela secundaria: Estadística y probabilidad> Introducción Archivado el 28 de julio de 2012 en archive.today Iniciativa de estándares estatales básicos comunes (se relaciona con estudiantes de EE. UU.)

[83] Pruebas de College Board> AP: Asignaturas> Estadísticas The College Board (se relaciona con estudiantes de EE. UU.)

[Huff8-84] Huff, Darrell (1993). Cómo mentir con las estadísticas . Nueva York: Norton. pag. 8 . ISBN 978-0-393-31072-6.Los métodos estadísticos y los términos estadísticos son necesarios para informar los datos masivos de las tendencias sociales y económicas, las condiciones comerciales, las encuestas de "opinión", el censo. Pero sin escritores que usen las palabras con honestidad y lectores que sepan lo que significan, el resultado solo puede ser una tontería semántica ”.

[S&C-85] Snedecor, George W .; Cochran, William G. (1967). Métodos estadísticos (6 ed.). Ames, Iowa: Iowa State University Press. pag. 3. "... las ideas básicas en estadística nos ayudan a pensar con claridad sobre el problema, proporcionan alguna orientación sobre las condiciones que deben cumplirse si se quieren hacer inferencias sólidas y nos permiten detectar muchas inferencias que no tienen una buena base lógica. "

[86] Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2007). "Conceptos erróneos de los estudiantes sobre la inferencia estadística: una revisión de la evidencia empírica de la investigación sobre educación estadística" (PDF) . Revisión de la investigación educativa . 2 (2): 98-113. doi : 10.1016 / j.edurev.2007.04.001 .

[87] Moore, David S. (1997). "Nueva pedagogía y nuevos contenidos: el caso de la estadística" (PDF) . Revista Estadística Internacional . 65 (2): 123-165. doi : 10.2307 / 1403333 . JSTOR 1403333 .

[88] Hubbard, Raymond; Armstrong, J. Scott (2006). "Por qué no sabemos realmente lo que significa la significación estadística: implicaciones para los educadores" (PDF) . Revista de educación en marketing . 28 (2): 114-120. doi : 10.1177 / 0273475306288399 . hdl : 2092/413 . S2CID 34729227 . Archivado desde el original el 18 de mayo de 2006. CS1 maint: URL no apta ( enlace ) Preimpresión

[89] Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2009). "¿Qué tan seguros están los estudiantes en sus conceptos erróneos sobre las pruebas de hipótesis?" . Revista de Educación en Estadística . 17 (2). doi : 10.1080 / 10691898.2009.11889514 .

[Gigerenzer_2004_391–408-90] Gigerenzer, G. (2004). "El ritual nulo Lo que siempre quiso saber acerca de las pruebas importantes, pero tenía miedo de preguntar" (PDF) . El Manual SAGE de Metodología Cuantitativa para las Ciencias Sociales . págs. 391–408. doi : 10.4135 / 9781412986311 . ISBN 9780761923596.

[1]