Prueba de hipótesis sugeridas por los datos

En estadística , es probable que las hipótesis sugeridas por un conjunto de datos dado , cuando se prueben con el mismo conjunto de datos que las sugirió, sean aceptadas incluso cuando no sean ciertas. Esto se debe a que estaría involucrado el razonamiento circular (doble inmersión): algo parece cierto en el conjunto limitado de datos; por lo tanto, planteamos la hipótesis de que es cierto en general; por lo tanto, lo probamos (erróneamente) en el mismo conjunto de datos limitado, lo que parece confirmar que es cierto. Generar hipótesis basadas en datos ya observados, en ausencia de probarlas con datos nuevos, se denomina teorización post hoc (del latín post hoc , "después de esto").

El procedimiento correcto es probar cualquier hipótesis en un conjunto de datos que no se utilizó para generar la hipótesis.

Ejemplo de aceptación falaz de una hipótesis

Suponga que cincuenta investigadores diferentes realizan ensayos clínicos para probar si la vitamina X es eficaz en el tratamiento del cáncer. La gran mayoría de ellos no encuentra diferencias significativas entre las mediciones realizadas en pacientes que han tomado vitamina X y aquellos que han tomado un placebo . Sin embargo, debido al ruido estadístico , un estudio encuentra una correlación significativa entre tomar vitamina X y curarse del cáncer.

Teniendo en cuenta los 50 estudios en su conjunto, la única conclusión que se puede llegar con gran certeza es que no existe evidencia de que la vitamina X tenga algún efecto en el tratamiento del cáncer. Sin embargo, alguien que intente lograr una mayor publicidad para el único estudio atípico podría intentar crear una hipótesis sugerida por los datos, encontrando algún aspecto exclusivo de ese estudio y afirmando que este aspecto es la clave de sus diferentes resultados. Supongamos, por ejemplo, que este estudio fuera el único realizado en Dinamarca. Se podría afirmar que este conjunto de 50 estudios muestra que la vitamina X es más eficaz en Dinamarca que en otros lugares. Sin embargo, aunque los datos no contradicen esta hipótesis, tampoco la apoyan firmemente. Solo uno o más estudios adicionales podrían reforzar esta hipótesis adicional.

El problema general

Probar una hipótesis sugerida por los datos puede resultar muy fácilmente en falsos positivos ( errores de tipo I ). Si uno mira lo suficiente y en lugares lo suficientemente diferentes, eventualmente se pueden encontrar datos para apoyar cualquier hipótesis. Sin embargo, estos datos positivos no constituyen por sí mismos evidencia de que la hipótesis sea correcta. Los datos de las pruebas negativas que se descartaron son igualmente importantes, porque dan una idea de cuán comunes son los resultados positivos en comparación con el azar. Ejecutar un experimento, ver un patrón en los datos, proponer una hipótesis a partir de ese patrón y luego usar los mismos datos experimentales como evidencia para la nueva hipótesis es extremadamente sospechoso, porque los datos de todos los demás experimentos, completados o potenciales, esencialmente se han "arrojado out "eligiendo mirar sólo los experimentos que sugirieron la nueva hipótesis en primer lugar.

Un gran conjunto de pruebas, como se describe anteriormente, aumenta en gran medida la probabilidad de error de tipo I, ya que se descartan todos los datos menos los más favorables a la hipótesis . Este es un riesgo, no solo en la prueba de hipótesis sino en todas las inferencias estadísticas, ya que a menudo es problemático describir con precisión el proceso que se ha seguido para buscar y descartar datos . En otras palabras, uno quiere mantener todos los datos (sin importar si tienden a apoyar o refutar la hipótesis) de "buenas pruebas", pero a veces es difícil averiguar qué es una "buena prueba". Es un problema particular en el modelado estadístico , donde muchos modelos diferentes son rechazados por ensayo y error antes de publicar un resultado (ver también sobreajuste , sesgo de publicación ).

El error es particularmente frecuente en la minería de datos y el aprendizaje automático . También ocurre comúnmente en publicaciones académicas donde solo los informes de resultados positivos, en lugar de negativos, tienden a ser aceptados, lo que resulta en el efecto conocido como sesgo de publicación .

Procedimientos correctos

Todas las estrategias para la prueba sólida de hipótesis sugeridas por los datos implican incluir una gama más amplia de pruebas en un intento de validar o refutar la nueva hipótesis. Éstas incluyen:

Recolección de muestras de confirmación
Validación cruzada
Métodos de compensación para comparaciones múltiples
Estudios de simulación que incluyan una representación adecuada de las pruebas múltiples realmente involucradas

La prueba simultánea de Henry Scheffé de todos los contrastes en problemas de comparación múltiple es el remedio más ^{[ cita requerida ]} conocido en el caso del análisis de varianza . ^[1] Es un método diseñado para probar hipótesis sugeridas por los datos evitando la falacia descrita anteriormente.

Ver también

notas y referencias

^ Henry Scheffé , "Un método para juzgar todos los contrastes en el análisis de varianza", Biometrika , 40, páginas 87-104 (1953). doi : 10.1093 / biomet / 40.1-2.87

[1] Henry Scheffé , "Un método para juzgar todos los contrastes en el análisis de varianza", Biometrika , 40, páginas 87-104 (1953). doi : 10.1093 / biomet / 40.1-2.87

[1]