Por qué la mayoría de los resultados de las investigaciones publicadas son falsos

" Por qué la mayoría de las investigaciones publicadas son falsas " ^[1] es un ensayo de 2005 escrito por John Ioannidis , profesor de la Facultad de Medicina de Stanford , y publicado en PLOS Medicine . Se considera fundamental para el campo de la metaciencia .

El PDF del artículo.

En el artículo, Ioannidis argumentó que una gran cantidad, si no la mayoría, de los artículos de investigación médica publicados contienen resultados que no se pueden replicar . En términos simples, el ensayo establece que los científicos usan pruebas de hipótesis para determinar si los descubrimientos científicos son significativos. La "importancia" se formaliza en términos de probabilidad y un cálculo formalizado (" valor P ") se informa en la literatura científica como un mecanismo de selección. Ioannidis postuló suposiciones sobre la forma en que las personas realizan y reportan estas pruebas y luego construyó un modelo estadístico que indica que la mayoría de los hallazgos publicados son resultados falsos positivos .

Argumento

Suponga que en un campo científico dado existe una probabilidad de referencia conocida de que un resultado sea verdadero, denotado por ${\ Displaystyle \ mathbb {P} ({\ text {True}})}$ . Cuando se realiza un estudio, la probabilidad de que se obtenga un resultado positivo es ${\ Displaystyle \ mathbb {P} (+)}$ . Dados estos dos factores, queremos calcular la probabilidad condicional ${\ Displaystyle \ mathbb {P} ({\ text {True}} \ mid +)}$ , que se conoce como valor predictivo positivo (VPP). El teorema de Bayes nos permite calcular el PPV como:

{\ Displaystyle \ mathbb {P} ({\ text {True}} \ mid +) = {(1- \ beta) \ mathbb {P} ({\ text {True}}) \ over {(1- \ beta ) \ mathbb {P} ({\ text {True}}) + \ alpha \ left [1- \ mathbb {P} ({\ text {True}}) \ right]}}}

dónde

{\ Displaystyle \ alpha}

es la tasa de error de tipo I y

{\ Displaystyle \ beta}

es la tasa de error de tipo II ; el poder estadístico es

{\ Displaystyle 1- \ beta}

. En la mayoría de las investigaciones científicas es habitual desear

{\ Displaystyle \ alpha = 0.05}

y

{\ Displaystyle \ beta = 0.2}

. Si asumimos

{\ Displaystyle \ mathbb {P} ({\ text {True}}) = 0.1}

para un campo científico dado, entonces podemos calcular el VPP para diferentes valores de

{\ Displaystyle \ alpha}

y

{\ Displaystyle \ beta}

:

${\ Displaystyle \ alpha}$	0,1	0,2	0,3	0.4	0,5	0,6	0,7	0,8	0,9
	${\ Displaystyle \ beta}$
0,01	0,91	0,90	0,89	0,87	0,85	0,82	0,77	0,69	0,53
0,02	0,83	0,82	0,80	0,77	0,74	0,69	0,63	0,53	0,36
0,03	0,77	0,75	0,72	0,69	0,65	0,60	0,53	0,43	0,27
0,04	0,71	0,69	0,66	0,63	0,58	0,53	0,45	0,36	0,22
0,05	0,67	0,64	0,61	0,57	0,53	0,47	0,40	0,31	0,18

Sin embargo, la fórmula simple para el VPP derivada del teorema de Bayes no tiene en cuenta el sesgo en el diseño o informe del estudio. Algunos hallazgos publicados no se habrían presentado como hallazgos de investigación si no fuera por el sesgo del investigador. Dejar ${\ Displaystyle u \ in [0,1]}$ sea la probabilidad de que un análisis solo se haya publicado debido al sesgo del investigador. Entonces el PPV viene dado por la expresión más general:

{\ Displaystyle \ mathbb {P} ({\ text {True}} | +) = {\ left [1- (1-u) \ beta \ right] \ mathbb {P} ({\ text {True}}) \ over {\ left [1- (1-u) \ beta \ right] \ mathbb {P} ({\ text {True}}) + \ left [(1-u) \ alpha + u \ right] \ left [1- \ mathbb {P} ({\ text {True}}) \ right]}}}

La introducción de sesgos tenderá a deprimir el VPP; en el caso extremo cuando se maximiza el sesgo de un estudio,

{\ Displaystyle \ mathbb {P} ({\ text {True}} | +) = \ mathbb {P} ({\ text {True}})}

. Incluso si un estudio cumple con los requisitos de referencia para

{\ Displaystyle \ alpha}

y

{\ Displaystyle \ beta}

, y está libre de sesgos, todavía existe una probabilidad del 36% de que un artículo que informa un resultado positivo sea incorrecto; si la probabilidad base de un resultado verdadero es menor, esto también hará que el PPV sea más bajo. Además, existe una fuerte evidencia de que el poder estadístico promedio de un estudio en muchos campos científicos está muy por debajo del nivel de referencia de 0.8. ^[2]^[3]^[4]

Dadas las realidades del sesgo, el bajo poder estadístico y un pequeño número de hipótesis verdaderas, Ioannidis concluye que es probable que la mayoría de los estudios en una variedad de campos científicos informen resultados falsos.

Corolarios

Además del resultado principal, Ioannidis enumera seis corolarios de factores que pueden influir en la confiabilidad de la investigación publicada:

Cuanto más pequeños sean los estudios realizados en un campo científico, es menos probable que los resultados de la investigación sean ciertos.
Cuanto menor sea el tamaño del efecto en un campo científico, es menos probable que los hallazgos de la investigación sean ciertos.
Cuanto mayor sea el número y menor la selección de relaciones probadas en un campo científico, es menos probable que los resultados de la investigación sean ciertos.
Cuanto mayor sea la flexibilidad en los diseños , definiciones, resultados y modos analíticos en un campo científico, es menos probable que los hallazgos de la investigación sean ciertos.
Cuanto mayores sean los intereses y prejuicios financieros y de otro tipo en un campo científico, es menos probable que los resultados de la investigación sean ciertos.
Cuanto más caliente sea un campo científico (con más equipos científicos involucrados), es menos probable que los hallazgos de la investigación sean ciertos.

Recepción e influencia

A pesar del escepticismo sobre las declaraciones extremas hechas en el documento, un gran número de investigadores ha aceptado el argumento más amplio y las advertencias de Ioannidis. ^[5] El crecimiento de la metaciencia y el reconocimiento de una crisis de replicación científica han reforzado la credibilidad del artículo y han dado lugar a pedidos de reformas metodológicas en la investigación científica. ^[6]^[7]

En comentarios y respuestas técnicas, los estadísticos Goodman y Groenlandia identificaron varias debilidades en el modelo de Ioannidis. ^[8]^[9] El uso de lenguaje dramático y exagerado de Ioannidis que "demostró" que la mayoría de las afirmaciones de los resultados de la investigación son falsas y que "la mayoría de los resultados de la investigación son falsos para la mayoría de los diseños de investigación y para la mayoría de los campos " [cursiva agregada] fue rechazada y, sin embargo, estuvieron de acuerdo con las conclusiones y recomendaciones de su documento. Los bioestadísticos Jager y Leek criticaron el modelo por estar basado en suposiciones justificables pero arbitrarias en lugar de datos empíricos e hicieron una investigación propia que calculó que la tasa de falsos positivos en los estudios biomédicos se estimó en alrededor del 14%, no más del 50% como Ionnidis. afirmó. ^[10] Su artículo fue publicado en una edición especial de 2014 de la revista Biostatistics junto con críticas extendidas de apoyo de otros estadísticos. Leek resumió los puntos clave de acuerdo como: cuando se habla de la tasa de falsos descubrimientos científicos, uno tiene que traer datos; existen diferentes marcos para estimar la tasa de descubrimientos falsos desde el punto de vista científico; y "es bastante improbable que la mayoría de las investigaciones publicadas sean falsas", pero eso probablemente varía según la definición que uno tenga de "la mayoría" y "falsa". ^{[11] El} estadístico Ullrich Schimmick reforzó la importancia de la base empírica de los modelos al señalar que la tasa de descubrimientos falsos informada en algunos campos científicos no es la tasa de descubrimiento real porque los resultados no significativos rara vez se informan. El modelo teórico de Ioannidis no tiene en cuenta eso, pero cuando se aplica un método estadístico ("curva z") para estimar el número de resultados no significativos no publicados a dos ejemplos, la tasa de falsos positivos está entre el 8% y el 17%, no más del 50%. ^[12] A pesar de estas debilidades, no obstante, existe un acuerdo general con el problema y las recomendaciones que analiza Ioannidis, aunque su tono ha sido descrito como "dramático" y "alarmantemente engañoso", lo que corre el riesgo de hacer que la gente se vuelva innecesariamente escéptica o cínica sobre la ciencia. ^[8]^[13]

Un impacto duradero de este trabajo ha sido el conocimiento de los impulsores subyacentes de la alta tasa de falsos positivos en la medicina clínica y la investigación biomédica, y los esfuerzos de las revistas y los científicos para mitigarlos. Ioannidis reiteró estos factores en 2016 como: ^[14]

Solo, investigador en silos limitado a tamaños de muestra pequeños
Sin prerregistro de hipótesis probadas
Selección post-hoc de las hipótesis con los mejores valores de P
Solo requiriendo P <0,05
Sin replicación
Sin compartir datos

Ver también

Referencias

^ Ioannidis, John PA (2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos" . PLOS Medicine . 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .
^ Button, Katherine S .; Ioannidis, John PA; Mokrysz, Claire; Nosek, Brian A .; Flint, Jonathan; Robinson, Emma SJ; Munafò, Marcus R. (2013). "Fallo de energía: por qué el pequeño tamaño de la muestra socava la fiabilidad de la neurociencia" . Nature Reviews Neurociencia . 14 (5): 365–376. doi : 10.1038 / nrn3475 . ISSN 1471-0048 . PMID 23571845 .
^ Szucs, Denes; Ioannidis, John PA (2 de marzo de 2017). "Evaluación empírica de los tamaños del efecto publicados y el poder en la literatura reciente de neurociencia y psicología cognitiva" . PLOS Biología . 15 (3): e2000797. doi : 10.1371 / journal.pbio.2000797 . ISSN 1545-7885 . PMC 5333800 . PMID 28253258 .
^ Ioannidis, John PA; Stanley, TD; Doucouliagos, Hristos (2017). "El poder del sesgo en la investigación económica". The Economic Journal . 127 (605): F236 – F265. doi : 10.1111 / ecoj.12461 . ISSN 1468-0297 .
^ Belluz, Julia (16 de febrero de 2015). John Ioannidis ha dedicado su vida a cuantificar cómo se rompe la ciencia ” . Vox . Consultado el 28 de marzo de 2020 .
^ "Baja potencia y la crisis de la replicación: ¿Qué hemos aprendido desde 2004 (o 1984, o 1964)?« Modelado estadístico, inferencia causal y ciencias sociales " . statmodeling.stat.columbia.edu . Consultado el 28 de marzo de 2020 .
^ Wasserstein, Ronald L .; Lazar, Nicole A. (2 de abril de 2016). "La declaración de ASA sobre p-valores: contexto, proceso y propósito" . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 . ISSN 0003-1305 .
^ a b Goodman, Steven; Groenlandia, Sander (24 de abril de 2007). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos: problemas en el análisis" . PLOS Medicine . págs. e168. doi : 10.1371 / journal.pmed.0040168 . Archivado desde el original el 16 de mayo de 2020.
^ Goodman, Steven; Groenlandia, Sander. "EVALUACIÓN DE LA FIABILIDAD DE LA LITERATURA MÉDICA: UNA RESPUESTA A" POR QUÉ LA MAYORÍA DE LOS RESULTADOS DE INVESTIGACIÓN PUBLICADOS SON FALSOS " " . Colección del Archivo de Investigaciones Bioestadísticas . Documento de trabajo 135: Documentos de trabajo del Departamento de Bioestadística de la Universidad Johns Hopkins. Archivado desde el original el 2 de noviembre de 2018.Mantenimiento de CS1: ubicación ( enlace )
^ Jager, Leah R .; Leek, Jeffrey T. (1 de enero de 2014). "Una estimación de la tasa de falsos descubrimientos científicos y su aplicación a la literatura médica superior" . Bioestadística . Académico de Oxford. págs. 1-12. doi : 10.1093 / bioestadística / kxt007 . Archivado desde el original el 11 de junio de 2020.
^ Puerro, Jeff. "¿Es la mayor parte de la ciencia falsa? Los titanes pesan" . Simplystatistics.org . Archivado desde el original el 31 de enero de 2017.
^ Schimmick, Ullrich (16 de enero de 2019). "Ioannidis (2005) se equivocó: la mayoría de los resultados de las investigaciones publicadas no son falsos" . Índice de replicabilidad . Archivado desde el original el 19 de septiembre de 2020.
^ Ingraham, Paul (15 de septiembre de 2016). "Ioannidis: hacer que la ciencia se vea mal desde 2005" . www.PainScience.com . Archivado desde el original el 21 de junio de 2020.
^ Minikel, Eric V. (17 de marzo de 2016). "John Ioannidis: el estado de la investigación sobre la investigación" . www.cureffi.org . Archivado desde el original el 17 de enero de 2020.

Otras lecturas

Carnegie Mellon University, Statistics Journal Club: Resumen y discusión de: "Por qué la mayoría de las investigaciones publicadas son falsas"
Aplicaciones a la economía: De Long, J. Bradford; Lang, Kevin. "¿Son todas las hipótesis económicas falsas?" Revista de Economía Política. 100 (6): 1257–1272, 1992
Aplicaciones a las ciencias sociales: Hardwicke, Tom E .; Wallach, Joshua D .; Kidwell, Mallory C .; Bendixen, Theiss; Crüwell Sophia y Ioannidis, John PA "Una evaluación empírica de las prácticas de investigación relacionadas con la transparencia y la reproducibilidad en las ciencias sociales (2014-2017)". Ciencia Abierta de la Royal Society. 7 : 190806, 2020.

enlaces externos

Video (s) de YouTube de la Iniciativa de Berkeley para la Transparencia en las Ciencias Sociales , 2016, "Por qué la mayoría de los hallazgos de investigación publicados son falsos" ( Parte I , Parte II , Parte III )
Vídeo de YouTube de John Ioannidis en Talks at Google , 2014 "Investigación reproducible: ¿Verdadero o falso?"

[1] Ioannidis, John PA (2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos" . PLOS Medicine . 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .

[2] Button, Katherine S .; Ioannidis, John PA; Mokrysz, Claire; Nosek, Brian A .; Flint, Jonathan; Robinson, Emma SJ; Munafò, Marcus R. (2013). "Fallo de energía: por qué el pequeño tamaño de la muestra socava la fiabilidad de la neurociencia" . Nature Reviews Neurociencia . 14 (5): 365–376. doi : 10.1038 / nrn3475 . ISSN 1471-0048 . PMID 23571845 .

[3] Szucs, Denes; Ioannidis, John PA (2 de marzo de 2017). "Evaluación empírica de los tamaños del efecto publicados y el poder en la literatura reciente de neurociencia y psicología cognitiva" . PLOS Biología . 15 (3): e2000797. doi : 10.1371 / journal.pbio.2000797 . ISSN 1545-7885 . PMC 5333800 . PMID 28253258 .

[4] Ioannidis, John PA; Stanley, TD; Doucouliagos, Hristos (2017). "El poder del sesgo en la investigación económica". The Economic Journal . 127 (605): F236 – F265. doi : 10.1111 / ecoj.12461 . ISSN 1468-0297 .

[5] Belluz, Julia (16 de febrero de 2015). John Ioannidis ha dedicado su vida a cuantificar cómo se rompe la ciencia ” . Vox . Consultado el 28 de marzo de 2020 .

[6] "Baja potencia y la crisis de la replicación: ¿Qué hemos aprendido desde 2004 (o 1984, o 1964)?« Modelado estadístico, inferencia causal y ciencias sociales " . statmodeling.stat.columbia.edu . Consultado el 28 de marzo de 2020 .

[7] Wasserstein, Ronald L .; Lazar, Nicole A. (2 de abril de 2016). "La declaración de ASA sobre p-valores: contexto, proceso y propósito" . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 . ISSN 0003-1305 .

[Goodman-1-8] Goodman, Steven; Groenlandia, Sander (24 de abril de 2007). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos: problemas en el análisis" . PLOS Medicine . págs. e168. doi : 10.1371 / journal.pmed.0040168 . Archivado desde el original el 16 de mayo de 2020.

[Goodman-2-9] Goodman, Steven; Groenlandia, Sander. "EVALUACIÓN DE LA FIABILIDAD DE LA LITERATURA MÉDICA: UNA RESPUESTA A" POR QUÉ LA MAYORÍA DE LOS RESULTADOS DE INVESTIGACIÓN PUBLICADOS SON FALSOS " " . Colección del Archivo de Investigaciones Bioestadísticas . Documento de trabajo 135: Documentos de trabajo del Departamento de Bioestadística de la Universidad Johns Hopkins. Archivado desde el original el 2 de noviembre de 2018.Mantenimiento de CS1: ubicación ( enlace )

[Leek-1-10] Jager, Leah R .; Leek, Jeffrey T. (1 de enero de 2014). "Una estimación de la tasa de falsos descubrimientos científicos y su aplicación a la literatura médica superior" . Bioestadística . Académico de Oxford. págs. 1-12. doi : 10.1093 / bioestadística / kxt007 . Archivado desde el original el 11 de junio de 2020.

[Leek-2-11] Puerro, Jeff. "¿Es la mayor parte de la ciencia falsa? Los titanes pesan" . Simplystatistics.org . Archivado desde el original el 31 de enero de 2017.

[12] Schimmick, Ullrich (16 de enero de 2019). "Ioannidis (2005) se equivocó: la mayoría de los resultados de las investigaciones publicadas no son falsos" . Índice de replicabilidad . Archivado desde el original el 19 de septiembre de 2020.

[13] Ingraham, Paul (15 de septiembre de 2016). "Ioannidis: hacer que la ciencia se vea mal desde 2005" . www.PainScience.com . Archivado desde el original el 21 de junio de 2020.

[Minikel-14] Minikel, Eric V. (17 de marzo de 2016). "John Ioannidis: el estado de la investigación sobre la investigación" . www.cureffi.org . Archivado desde el original el 17 de enero de 2020.

[1]