De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En la prueba de hipótesis estadísticas , [1] [2] un resultado tiene significación estadística cuando es muy poco probable que haya ocurrido dada la hipótesis nula . [3] [4] Más precisamente, el nivel de significancia definido de un estudio , denotado por , es la probabilidad de que el estudio rechace la hipótesis nula, dado que se asumió que la hipótesis nula era verdadera; [5] y el valor p de un resultado ,, es la probabilidad de obtener un resultado al menos tan extremo, dado que la hipótesis nula es verdadera. [6] El resultado es estadísticamente significativo,según los estándares del estudio, cuando . [7] [8] [9] [10] [11] [12] [13] El nivel de significancia de un estudio se elige antes de la recopilación de datos y, por lo general, se establece en 5% [14] o mucho más bajo, dependiendo de la campo de estudio. [15]

En cualquier experimento u observación que implique extraer una muestra de una población , siempre existe la posibilidad de que se haya producido un efecto observado debido únicamente a un error de muestreo . [16] [17] Pero si el valor p de un efecto observado es menor (o igual) que el nivel de significancia, un investigador puede concluir que el efecto refleja las características de toda la población, [1] rechazando así la nula hipótesis. [18]

Esta técnica para probar la significación estadística de los resultados se desarrolló a principios del siglo XX. El término significación no implica importancia aquí, y el término significación estadística no es lo mismo que significación de investigación, teórica o práctica. [1] [2] [19] [20] Por ejemplo, el término importancia clínica se refiere a la importancia práctica del efecto del tratamiento. [21]

Historia [ editar ]

La significación estadística se remonta a la década de 1700, en el trabajo de John Arbuthnot y Pierre-Simon Laplace , quienes calcularon el valor p para la proporción de sexos humanos al nacer, asumiendo una hipótesis nula de igual probabilidad de nacimientos masculinos y femeninos; consulte p -value § Historial para obtener más detalles. [22] [23] [24] [25] [26] [27] [28]

En 1925, Ronald Fisher propuso la idea de las pruebas de hipótesis estadísticas, a las que llamó "pruebas de significación", en su publicación Statistical Methods for Research Workers . [29] [30] [31] Fisher sugirió una probabilidad de uno en veinte (0.05) como un nivel de corte conveniente para rechazar la hipótesis nula. [32] En un artículo de 1933, Jerzy Neyman y Egon Pearson llamaron a este límite el nivel de significancia , al que llamaron . Recomendaron que se establezca con anticipación, antes de cualquier recopilación de datos. [32] [33]

A pesar de su sugerencia inicial de 0.05 como nivel de significancia, Fisher no pretendía que este valor de corte fuera fijo. En su publicación de 1956 Statistical Methods and Scientific Inference, recomendó que los niveles de significancia se establecieran de acuerdo con circunstancias específicas. [32]

Conceptos relacionados [ editar ]

El nivel de significancia es el umbral por debajo del cual se rechaza la hipótesis nula aunque, por supuesto, fuera cierta, y algo más está sucediendo. Esto significa que también es la probabilidad de rechazar erróneamente la hipótesis nula, si la hipótesis nula es verdadera. [5] Esto también se llama falso positivo y error de tipo I .

A veces, los investigadores hablan sobre el nivel de confianza γ = (1 - α ) en su lugar. Esta es la probabilidad de no rechazar la hipótesis nula dado que es cierta. [34] [35] Los niveles de confianza y los intervalos de confianza fueron introducidos por Neyman en 1937. [36]

Papel en la prueba de hipótesis estadísticas [ editar ]

En una prueba de dos colas , la región de rechazo para un nivel de significancia de α = 0.05 se divide en ambos extremos de la distribución de muestreo y constituye el 5% del área bajo la curva (áreas blancas).

La significación estadística juega un papel fundamental en la prueba de hipótesis estadísticas. Se utiliza para determinar si la hipótesis nula debe rechazarse o retenerse. La hipótesis nula es la suposición predeterminada de que no sucedió ni cambió nada. [37] Para que se rechace la hipótesis nula, un resultado observado debe ser estadísticamente significativo, es decir, el valor p observado es menor que el nivel de significancia preestablecido .

Para determinar si un resultado es estadísticamente significativo, un investigador calcula un valor p , que es la probabilidad de observar un efecto de la misma magnitud o más extremo dado que la hipótesis nula es verdadera. [6] [13] La hipótesis nula se rechaza si el p -valor es menor que (o igual a) un nivel predeterminado, . también se denomina nivel de significancia y es la probabilidad de rechazar la hipótesis nula dado que es verdadera (un error de tipo I ). Por lo general, se establece en o por debajo del 5%.

Por ejemplo, cuando se establece en 5%, la probabilidad condicional de un error de tipo I , dado que la hipótesis nula es verdadera , es del 5%, [38] y un resultado estadísticamente significativo es aquel en el que el valor p observado es menor que (o igual a) 5%. [39] Cuando se extraen datos de una muestra, esto significa que la región de rechazo comprende el 5% de la distribución de la muestra . [40] Este 5% puede asignarse a un lado de la distribución de muestreo, como en una prueba de una cola , o dividirse a ambos lados de la distribución, como en una prueba de dos colas., con cada cola (o región de rechazo) que contiene el 2,5% de la distribución.

El uso de una prueba de una cola depende de si la pregunta de investigación o la hipótesis alternativa especifica una dirección, como si un grupo de objetos es más pesado o el desempeño de los estudiantes en una evaluación es mejor . [3] Aún se puede usar una prueba de dos colas, pero será menos poderosa que una prueba de una cola, porque la región de rechazo para una prueba de una cola se concentra en un extremo de la distribución nula y tiene el doble de tamaño ( 5% frente a 2,5%) de cada región de rechazo para una prueba de dos colas. Como resultado, la hipótesis nula puede rechazarse con un resultado menos extremo si se utilizó una prueba de una cola. [41]La prueba de una cola es solo más poderosa que una prueba de dos colas si la dirección especificada de la hipótesis alternativa es correcta. Sin embargo, si es incorrecto, la prueba de una cola no tiene potencia.

Umbrales de importancia en campos específicos [ editar ]

En campos específicos como la física de partículas y la fabricación , la significación estadística a menudo se expresa en múltiplos de la desviación estándar o sigma ( σ ) de una distribución normal , con umbrales de significación establecidos en un nivel mucho más estricto (por ejemplo, 5 σ ). [42] [43] Por ejemplo, la certeza de la existencia de la partícula del bosón de Higgs se basó en el criterio de 5 σ , que corresponde a un valor p de aproximadamente 1 en 3,5 millones. [43] [44]

En otros campos de la investigación científica, como los estudios de asociación de todo el genoma , los niveles de significación tan bajos como5 × 10 −8 no son infrecuentes [45] [46] , ya que el número de pruebas realizadas es extremadamente grande.

Limitaciones [ editar ]

Los investigadores que se centren únicamente en si sus resultados son estadísticamente significativos podrían informar de hallazgos que no son sustanciales [47] y no replicables. [48] [49] También existe una diferencia entre la significación estadística y la significación práctica. Un estudio que se considera estadísticamente significativo puede no ser necesariamente significativo en la práctica. [50] [20]

Tamaño del efecto [ editar ]

El tamaño del efecto es una medida de la importancia práctica de un estudio. [50] Un resultado estadísticamente significativo puede tener un efecto débil. Para medir la importancia de su resultado en la investigación, se anima a los investigadores a que siempre informen del tamaño del efecto junto con los valores p . Una medida del tamaño del efecto cuantifica la fuerza de un efecto, como la distancia entre dos medias en unidades de desviación estándar (cf. d de Cohen ), el coeficiente de correlación entre dos variables o su cuadrado , y otras medidas. [51]

Reproducibilidad [ editar ]

Un resultado estadísticamente significativo puede no ser fácil de reproducir. [49] En particular, algunos resultados estadísticamente significativos serán de hecho falsos positivos. Cada intento fallido de reproducir un resultado aumenta la probabilidad de que el resultado sea un falso positivo. [52]

Desafíos [ editar ]

Uso excesivo en algunas revistas [ editar ]

A partir de la década de 2010, algunas revistas comenzaron a cuestionar si se confiaba demasiado en las pruebas de significancia, y en particular el uso de un umbral de α = 5%, como la medida principal de validez de una hipótesis. [53] Algunas revistas alentaron a los autores a realizar análisis más detallados que solo una prueba de significación estadística. En psicología social, la revista Basic and Applied Social Psychology prohibió por completo el uso de pruebas de significancia en los artículos que publicó, [54] requiriendo que los autores usen otras medidas para evaluar hipótesis e impacto. [55] [56]

Otros editores, al comentar sobre esta prohibición, han señalado: "Prohibir la presentación de informes de los valores p , como lo hizo recientemente la Psicología Social Básica y Aplicada, no va a resolver el problema porque se trata simplemente de tratar un síntoma del problema. No hay nada de malo con pruebas de hipótesis y valores p per se siempre que los autores, revisores y editores de acciones los utilicen correctamente ". [57] Algunos estadísticos prefieren utilizar medidas alternativas de evidencia, como razones de probabilidad o factores de Bayes . [58] El uso de estadísticas bayesianas puede evitar los niveles de confianza, pero también requiere hacer suposiciones adicionales, [58]y puede que no necesariamente mejore la práctica con respecto a las pruebas estadísticas. [59]

El abuso generalizado de la significación estadística representa un tema importante de investigación en metaciencia . [60]

Redefiniendo la importancia [ editar ]

En 2016, la Asociación Estadounidense de Estadística (ASA) publicó una declaración sobre los valores p , diciendo que "el uso generalizado de 'significación estadística' (generalmente interpretado como ' p  ≤ 0.05') como una licencia para hacer una declaración de un hallazgo científico (o verdad implícita) conduce a una distorsión considerable del proceso científico ". [58] En 2017, un grupo de 72 autores propuso mejorar la reproducibilidad cambiando el umbral del valor p para la significación estadística de 0,05 a 0,005. [61] Otros investigadores respondieron que la imposición de un umbral de significación más estricto agravaría problemas como el dragado de datos.; Por tanto, las proposiciones alternativas son seleccionar y justificar umbrales de valores p flexibles antes de recopilar datos, [62] o interpretar los valores p como índices continuos, descartando así los umbrales y la significación estadística. [63] Además, el cambio a 0,005 aumentaría la probabilidad de falsos negativos, por lo que el efecto que se está estudiando es real, pero la prueba no lo demuestra. [64]

En 2019, más de 800 estadísticos y científicos firmaron un mensaje pidiendo el abandono del término "significación estadística" en la ciencia, [65] y la Asociación Estadounidense de Estadística publicó una declaración oficial adicional [66] declarando (página 2):

Concluimos, basándonos en nuestra revisión de los artículos de este número especial y la literatura más amplia, que es hora de dejar de usar el término "estadísticamente significativo" por completo. Tampoco deberían sobrevivir variantes como "significativamente diferente" , "" y "no significativo", ya sea que se expresen en palabras, con asteriscos en una tabla o de alguna otra manera.

Ver también [ editar ]

  • Prueba A / B , prueba ABX
  • Estadísticas de estimación
  • Método de Fisher para combinar pruebas de significancia independientes
  • Efecto mirar en otra parte
  • Problema de comparaciones múltiples
  • Tamaño de la muestra
  • Falacia del francotirador de Texas (da ejemplos de pruebas en las que el nivel de significancia se estableció demasiado alto)

Referencias [ editar ]

  1. ↑ a b c Sirkin, R. Mark (2005). "Pruebas t de dos muestras". Estadística para las Ciencias Sociales (3ª ed.). Thousand Oaks, CA: SAGE Publications, Inc. págs. 271–316. ISBN 978-1-412-90546-6.
  2. ↑ a b Borror, Connie M. (2009). "Toma de decisiones estadísticas". Manual del ingeniero de calidad certificado (3ª ed.). Milwaukee, WI: Prensa de calidad ASQ. págs. 418–472. ISBN 978-0-873-89745-7.
  3. ^ a b Myers, Jerome L .; Bueno, Arnold D .; Lorch Jr., Robert F. (2010). "Desarrollar los fundamentos de la prueba de hipótesis utilizando la distribución binomial". Diseño de investigación y análisis estadístico (3ª ed.). Nueva York, NY: Routledge. págs. 65–90. ISBN 978-0-805-86431-1.
  4. ^ "Una introducción a la importancia estadística" . Bóveda de matemáticas . 2017-04-30 . Consultado el 11 de noviembre de 2019 .
  5. ↑ a b Dalgaard, Peter (2008). "Poder y el cálculo del tamaño de la muestra". Introducción a la Estadística con R . Estadística y Computación. Nueva York: Springer. págs. 155–56. doi : 10.1007 / 978-0-387-79054-1_9 . ISBN 978-0-387-79053-4.
  6. ^ a b "Prueba de hipótesis estadística" . www.dartmouth.edu . Consultado el 11 de noviembre de 2019 .
  7. ^ Johnson, Valen E. (9 de octubre de 2013). "Estándares revisados ​​para evidencia estadística" . Actas de la Academia Nacional de Ciencias . 110 (48): 19313-19317. doi : 10.1073 / pnas.1313476110 . PMC 3845140 . PMID 24218581 . Consultado el 3 de julio de 2014 .  
  8. ^ Redmond, Carol; Colton, Theodore (2001). "Significación clínica versus significación estadística". Bioestadística en ensayos clínicos . Serie de referencia de Wiley en Bioestadística (3ª ed.). West Sussex, Reino Unido: John Wiley & Sons Ltd. págs. 35–36. ISBN 978-0-471-82211-0.
  9. ^ Cumming, Geoff (2012). Comprensión de las nuevas estadísticas: tamaños de efecto, intervalos de confianza y metanálisis . Nueva York, Estados Unidos: Routledge. págs. 27-28.
  10. ^ Krzywinski, Martin; Altman, Naomi (30 de octubre de 2013). "Puntos de significación: significación, valores P y pruebas t" . Métodos de la naturaleza . 10 (11): 1041–1042. doi : 10.1038 / nmeth.2698 . PMID 24344377 . 
  11. ^ Sham, Pak C .; Purcell, Shaun M (17 de abril de 2014). "Pruebas de significación y poder estadístico en estudios genéticos a gran escala". Nature Reviews Genética . 15 (5): 335–346. doi : 10.1038 / nrg3706 . PMID 24739678 . 
  12. ^ Altman, Douglas G. (1999). Estadísticas prácticas para la investigación médica . Nueva York, Estados Unidos: Chapman & Hall / CRC. págs.  167 . ISBN 978-0412276309.
  13. ↑ a b Devore, Jay L. (2011). Probabilidad y estadística para la ingeniería y las ciencias (8ª ed.). Boston, MA: Cengage Learning. págs. 300–344. ISBN 978-0-538-73352-6.
  14. ^ Craparo, Robert M. (2007). "Nivel significativo". En Salkind, Neil J. (ed.). Enciclopedia de Medición y Estadística . 3 . Thousand Oaks, CA: Publicaciones SAGE. págs. 889–891. ISBN 978-1-412-91611-0.
  15. ^ Sproull, Natalie L. (2002). "Prueba de hipótesis" . Manual de métodos de investigación: una guía para profesionales y estudiantes de ciencias sociales (2ª ed.). Lanham, MD: Scarecrow Press, Inc. págs.  49–64 . ISBN 978-0-810-84486-5.
  16. ^ Babbie, Conde R. (2013). "La lógica del muestreo". La práctica de la investigación social (13ª ed.). Belmont, CA: Cengage Learning. págs. 185–226. ISBN 978-1-133-04979-1.
  17. ^ Faherty, Vincent (2008). "Probabilidad y significación estadística". Estadística compasiva: análisis cuantitativo aplicado a los servicios sociales (con ejercicios e instrucciones en SPSS) (1ª ed.). Thousand Oaks, CA: SAGE Publications, Inc. págs. 127-138. ISBN 978-1-412-93982-9.
  18. ^ McKillup, Steve (2006). "La probabilidad te ayuda a tomar una decisión sobre tus resultados" . Estadísticas explicadas: una guía introductoria para científicos de la vida (1ª ed.). Cambridge, Reino Unido: Cambridge University Press. págs.  44–56 . ISBN 978-0-521-54316-3.
  19. ^ Myers, Jerome L .; Bueno, Arnold D .; Lorch Jr, Robert F. (2010). "La distribución t y sus aplicaciones". Diseño de investigación y análisis estadístico (3ª ed.). Nueva York, NY: Routledge. págs. 124-153. ISBN 978-0-805-86431-1.
  20. ^ a b Hooper, Peter. "¿Qué es el valor P?" (PDF) . Universidad de Alberta, Departamento de Ciencias Matemáticas y Estadísticas . Consultado el 10 de noviembre de 2019 .
  21. ^ Leung, W.-C. (1 de marzo de 2001). "Equilibrio de la significación estadística y clínica en la evaluación de los efectos del tratamiento" . Revista Médica de Postgrado . 77 (905): 201–204. doi : 10.1136 / pmj.77.905.201 . ISSN 0032-5473 . PMC 1741942 . PMID 11222834 .   
  22. ^ Brian, Éric; Jaisson, Marie (2007). "Físico-Teología y Matemáticas (1710-1794)". El descenso de la proporción de sexos humanos al nacer . Springer Science & Business Media. págs. 1–25. ISBN 978-1-4020-6036-6.
  23. ^ John Arbuthnot (1710). "Un argumento a favor de la Divina Providencia, tomado de la constante regularidad observada en los nacimientos de ambos sexos" (PDF) . Transacciones filosóficas de la Royal Society de Londres . 27 (325–336): 186–190. doi : 10.1098 / rstl.1710.0011 .
  24. ^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadísticas prácticas no paramétricas (tercera edición), Wiley, pp. 157-176, ISBN 978-0-471-16068-7
  25. ^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (Segunda ed.), Chapman & Hall, ISBN 978-0-412-44980-2
  26. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. págs.  225–226 . ISBN 978-0-67440341-3.
  27. ^ Bellhouse, P. (2001), "John Arbuthnot", en Estadísticos de los siglos por CC Heyde y E. Seneta , Springer, págs. 39-42, ISBN 978-0-387-95329-8
  28. ^ Hald, Anders (1998), "Capítulo 4. Oportunidad o diseño: pruebas de importancia", Una historia de la estadística matemática de 1750 a 1930 , Wiley, p. sesenta y cinco
  29. ^ Cumming, Geoff (2011). "De la significación de la hipótesis nula para probar los tamaños del efecto". Comprensión de las nuevas estadísticas: tamaños de efecto, intervalos de confianza y metanálisis . Serie de aplicaciones multivariantes. East Sussex, Reino Unido: Routledge. págs. 21–52. ISBN 978-0-415-87968-2.
  30. ^ Fisher, Ronald A. (1925). Métodos estadísticos para investigadores . Edimburgo, Reino Unido: Oliver y Boyd. pp.  43 . ISBN 978-0-050-02170-5.
  31. ^ Poletiek, Fenna H. (2001). "Teorías formales de las pruebas". Comportamiento de prueba de hipótesis . Ensayos en psicología cognitiva (1ª ed.). East Sussex, Reino Unido: Psychology Press. págs. 29–48. ISBN 978-1-841-69159-6.
  32. ^ a b c Quinn, Geoffrey R .; Keough, Michael J. (2002). Diseño experimental y análisis de datos para biólogos (1ª ed.). Cambridge, Reino Unido: Cambridge University Press. págs.  46–69 . ISBN 978-0-521-00976-8.
  33. ^ Neyman, J .; Pearson, ES (1933). "La prueba de hipótesis estadísticas en relación a probabilidades a priori". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 29 (4): 492–510. doi : 10.1017 / S030500410001152X .
  34. ^ "Las conclusiones sobre la significancia estadística son posibles con la ayuda del intervalo de confianza. Si el intervalo de confianza no incluye el valor del efecto cero, se puede suponer que hay un resultado estadísticamente significativo". Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, María (2009). "¿Intervalo de confianza o valor P?" . Deutsches Ärzteblatt Online . 106 (19): 335–9. doi : 10.3238 / arztebl.2009.0335 . PMC 2689604 . PMID 19547734 .  
  35. ^ StatNews # 73: Superposición de intervalos de confianza y significación estadística
  36. ^ Neyman, J. (1937). "Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad" . Philosophical Transactions de la Royal Society A . 236 (767): 333–380. doi : 10.1098 / rsta.1937.0005 . JSTOR 91337 . 
  37. ^ Meier, Kenneth J .; Brudney, Jeffrey L .; Bohte, John (2011). Estadísticas aplicadas para la administración pública y sin fines de lucro (3ª ed.). Boston, MA: Cengage Learning. págs. 189–209. ISBN 978-1-111-34280-7.
  38. ^ Healy, Joseph F. (2009). Los fundamentos de la estadística: una herramienta para la investigación social (2ª ed.). Belmont, CA: Cengage Learning. págs. 177–205. ISBN 978-0-495-60143-2.
  39. ^ McKillup, Steve (2006). Estadísticas explicadas: una guía introductoria para científicos de la vida (1ª ed.). Cambridge, Reino Unido: Cambridge University Press. págs.  32–38 . ISBN 978-0-521-54316-3.
  40. ^ Salud, David (1995). Introducción al diseño experimental y la estadística para la biología (1ª ed.). Boston, MA: CRC press. págs. 123-154. ISBN 978-1-857-28132-3.
  41. ^ Hinton, Perry R. (2010). "Importancia, error y poder". Estadísticas explicadas (3ª ed.). Nueva York, NY: Routledge. págs. 79–90. ISBN 978-1-848-72312-2.
  42. ^ Vaughan, Simon (2013). Inferencia científica: aprender de los datos (1ª ed.). Cambridge, Reino Unido: Cambridge University Press. págs. 146-152. ISBN 978-1-107-02482-3.
  43. ↑ a b Bracken, Michael B. (2013). Riesgo, azar y causalidad: investigación de los orígenes y el tratamiento de la enfermedad (1ª ed.). New Haven, CT: Prensa de la Universidad de Yale. págs.  260–276 . ISBN 978-0-300-18884-4.
  44. ^ Franklin, Allan (2013). "Prólogo: El surgimiento de los sigmas". Estándares cambiantes: experimentos en física de partículas en el siglo XX (1ª ed.). Pittsburgh, PA: Prensa de la Universidad de Pittsburgh. págs. Ii-Iii. ISBN 978-0-822-94430-0.
  45. ^ Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6 de febrero de 2011). "Análisis estadístico básico en estudios genéticos de casos y controles" . Protocolos de la naturaleza . 6 (2): 121–33. doi : 10.1038 / nprot.2010.182 . PMC 3154648 . PMID 21293453 .  
  46. ^ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 de julio de 2012). "Directrices para estudios de asociación de todo el genoma" . PLOS Genetics . 8 (7): e1002812. doi : 10.1371 / journal.pgen.1002812 . PMC 3390399 . PMID 22792080 .  
  47. ^ Carver, Ronald P. (1978). "El caso contra las pruebas de significación estadística" . Harvard Educational Review . 48 (3): 378–399. doi : 10.17763 / haer.48.3.t490261645281841 .
  48. ^ Ioannidis, John PA (2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos" . PLOS Medicine . 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .  
  49. ^ a b Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). "La tierra es plana (p> 0,05): umbrales de significación y la crisis de la investigación irrepetible" . PeerJ . 5 : e3544. doi : 10.7717 / peerj.3544 . PMC 5502092 . PMID 28698825 .  
  50. ↑ a b Hojat, Mohammadreza; Xu, Gang (2004). "Una guía para visitantes sobre tamaños de efectos". Avances en la educación en ciencias de la salud . 9 (3): 241–9. doi : 10.1023 / B: AHSE.0000038173.00909.f6 . PMID 15316274 . 
  51. Pedhazur, Elazar J .; Schmelkin, Liora P. (1991). Medición, diseño y análisis: un enfoque integrado (Student ed.). Nueva York, NY: Psychology Press. págs. 180–210. ISBN 978-0-805-81063-9.
  52. ^ Stahel, Werner (2016). "Problema estadístico en reproducibilidad". Principios, problemas, prácticas y perspectivas Reproducibilidad: principios, problemas, prácticas y perspectivas : 87-114. doi : 10.1002 / 9781118865064.ch5 . ISBN 9781118864975.
  53. ^ "Serie de seminarios CSSME: el argumento sobre p -valores y el paradigma de prueba de significación de hipótesis nulas (NHST)" . www.education.leeds.ac.uk . Escuela de Educación, Universidad de Leeds . Consultado el 1 de diciembre de 2016 .
  54. ^ Novella, Steven (25 de febrero de 2015). "Revista de psicología prohíbe las pruebas de significación" . Medicina basada en la ciencia.
  55. Woolston, Chris (5 de marzo de 2015). "Revista de psicología prohíbe los valores P" . Naturaleza . 519 (7541): 9. doi : 10.1038 / 519009f .
  56. Siegfried, Tom (17 de marzo de 2015). "Prohibición del valor P: un pequeño paso para una revista, un gran paso para la ciencia" . Noticias de ciencia . Consultado el 1 de diciembre de 2016 .
  57. ^ Antonakis, John (febrero de 2017). "Sobre hacer mejor ciencia: de la emoción del descubrimiento a las implicaciones políticas" (PDF) . The Leadership Quarterly . 28 (1): 5-21. doi : 10.1016 / j.leaqua.2017.01.006 .
  58. ↑ a b c Wasserstein, Ronald L .; Lazar, Nicole A. (2 de abril de 2016). "Declaración de la ASA sobre p-valores: contexto, proceso y propósito" . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 .
  59. García-Pérez, Miguel A. (5 de octubre de 2016). "No darás falso testimonio contra la prueba de significado de hipótesis nula" . Medición educativa y psicológica . 77 (4): 631–662. doi : 10.1177 / 0013164416668232 . ISSN 0013-1644 . PMC 5991793 . PMID 30034024 .   
  60. ^ Ioannidis, John PA; Ware, Jennifer J .; Wagenmakers, Eric-Jan; Simonsohn, Uri; Chambers, Christopher D .; Button, Katherine S .; Obispo, Dorothy VM; Nosek, Brian A .; Munafò, Marcus R. (enero de 2017). "Un manifiesto por la ciencia reproducible" . Comportamiento humano de la naturaleza . 1 : 0021. doi : 10.1038 / s41562-016-0021 .
  61. ^ Benjamín, Daniel; et al. (2018). "Redefinir la significación estadística" . Comportamiento humano de la naturaleza . 1 (1): 6–10. doi : 10.1038 / s41562-017-0189-z . PMID 30980045 . 
  62. ^ Chawla, Dalmeet (2017). " ' Una talla única para todos' umbral para valores de p bajo el fuego" . Naturaleza . doi : 10.1038 / nature.2017.22625 .
  63. ^ Amrhein, Valentin; Groenlandia, Sander (2017). "Eliminar, en lugar de redefinir, la significación estadística". Comportamiento humano de la naturaleza . 2 (1): 0224. doi : 10.1038 / s41562-017-0224-0 . PMID 30980046 . 
  64. ^ Vyse, Stuart. "Moviendo los postes estadísticos de la ciencia" . csicop.org . CSI . Consultado el 10 de julio de 2018 .
  65. ^ McShane, Blake; Groenlandia, Sander; Amrhein, Valentin (marzo de 2019). "Los científicos se levantan contra la significación estadística" . Naturaleza . 567 (7748): 305–307. doi : 10.1038 / d41586-019-00857-9 . PMID 30894741 . 
  66. ^ Wasserstein, Ronald L .; Schirm, Allen L .; Lazar, Nicole A. (20 de marzo de 2019). "Moverse a un mundo más allá" p <0.05 " " . El estadístico estadounidense . 73 (sup1): 1–19. doi : 10.1080 / 00031305.2019.1583913 .

Lectura adicional [ editar ]

  • Lydia Denworth, "Un problema significativo: los métodos científicos estándar están bajo fuego. ¿Cambiará algo?", Scientific American , vol. 321, no. 4 (octubre de 2019), págs. 62–67. "El uso de valores p durante casi un siglo [desde 1925] para determinar la significación estadística de los resultados experimentales ha contribuido a crear una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Existe una creciente determinación de reformar el análisis estadístico ... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos". (pág.63)
  • Ziliak, Stephen y Deirdre McCloskey (2008), El culto de la importancia estadística: cómo el error estándar nos cuesta trabajos, justicia y vidas . Ann Arbor, University of Michigan Press , 2009. ISBN 978-0-472-07007-7 . Reseñas y recepción: (compilado por Ziliak) 
  • Thompson, Bruce (2004). "La crisis de la" significación "en psicología y educación". Revista de Socioeconomía . 33 (5): 607–613. doi : 10.1016 / j.socec.2004.09.034 .
  • Chow, Siu L., (1996). Importancia estadística: fundamento, validez y utilidad , volumen 1 de la serie Introducing Statistical Methods, Sage Publications Ltd, ISBN 978-0-7619-5205-3 - sostiene que la significación estadística es útil en determinadas circunstancias. 
  • Kline, Rex, (2004). Más allá de las pruebas de significación: reforma de los métodos de análisis de datos en la investigación del comportamiento Washington, DC: Asociación Americana de Psicología.
  • Nuzzo, Regina (2014). Método científico: Errores estadísticos . Nature Vol. 506, pág. 150-152 (acceso abierto). Destaca los malentendidos comunes sobre el valor p.
  • Cohen, Joseph (1994). [1] . La tierra es redonda (p <.05). Psicólogo estadounidense. Vol 49, pág. 997-1003. Revisa problemas con pruebas estadísticas de hipótesis nulas.
  • Amrhein, Valentin; Groenlandia, Sander; McShane, Blake (20 de marzo de 2019). "Los científicos se levantan contra la significación estadística" . Naturaleza . 567 (7748): 305–307. doi : 10.1038 / d41586-019-00857-9 . PMID  30894741 .

Enlaces externos [ editar ]

  • El artículo " Usos conocidos más tempranos de algunas de las palabras de las matemáticas (S) " contiene una entrada sobre Importancia que proporciona información histórica.
  • " The Concept of Statistical Significance Testing " (febrero de 1994): artículo de Bruce Thompon presentado por ERIC Clearinghouse on Assessment and Evaluation, Washington, DC
  • " ¿Qué significa que un resultado sea" estadísticamente significativo "? " (Sin fecha): un artículo del Servicio de Evaluación Estadística de la Universidad George Mason, Washington, DC