Dragado de datos


De Wikipedia, la enciclopedia libre
  (Redirigido desde P-hacking )
Saltar a navegación Saltar a búsqueda
Un ejemplo de un resultado producido por el dragado de datos, que muestra una correlación entre el número de letras en la palabra ganadora del Scripps National Spelling Bee y el número de personas en los Estados Unidos asesinadas por arañas venenosas .

Dragado de datos (o la pesca de datos , los datos de espionaje , carnicería de datos ), también conocido como persecución importancia , las misiones importancia , la inferencia selectiva , y p -hacking [1] es el mal uso de análisis de datos para encontrar patrones en los datos que se pueden presentar como estadísticamente significativo , lo que aumenta y subestima drásticamente el riesgo de falsos positivos. Esto se hace mediante la realización de muchas pruebas estadísticas sobre los datos y solo informando aquellas que arrojan resultados significativos. [2]

El proceso de dragado de datos implica probar múltiples hipótesis utilizando un solo conjunto de datos mediante una búsqueda exhaustiva , quizás combinaciones de variables que puedan mostrar una correlación , y quizás grupos de casos u observaciones que muestren diferencias en su media o en su desglose por algún otro. variable.

Las pruebas convencionales de significación estadística se basan en la probabilidad de que surja un resultado particular si el azar solo estuviera en juego, y necesariamente aceptan algún riesgo de conclusiones erróneas de cierto tipo (rechazos erróneos de la hipótesis nula). Este nivel de riesgo se llama importancia. Cuando se realizan un gran número de pruebas, algunas producen resultados falsos de este tipo; por lo tanto, el 5% de las hipótesis elegidas al azar se podría informar (erróneamente) como estadísticamente significativo al nivel de significancia del 5%, el 1% podría informarse (erróneamente) como estadísticamente significativo al nivel de significancia del 1%, y así sucesivamente, solo por casualidad . Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán consideradas estadísticamente significativas (aunque esto sea engañoso), ya que es probable que casi todos los conjuntos de datos con algún grado de aleatoriedad contengan (por ejemplo) algunas correlaciones falsas. Si no son cautelosos, los investigadores que utilizan técnicas de minería de datos pueden ser fácilmente engañados por estos resultados.

El dragado de datos es un ejemplo de cómo ignorar el problema de las comparaciones múltiples . Una forma es cuando se comparan subgrupos sin alertar al lector sobre el número total de comparaciones de subgrupos examinadas. [3]

Sacar conclusiones de los datos

El procedimiento de prueba de hipótesis estadística frecuentista convencional consiste en formular una hipótesis de investigación, como "las personas de clases sociales más altas viven más tiempo", luego recopilar datos relevantes, y luego llevar a cabo una prueba de significación estadística para ver qué tan probables se encontrarían tales resultados si la casualidad solos estaban en el trabajo. (El último paso se llama prueba contra la hipótesis nula ).

Un punto clave en un análisis estadístico adecuado es probar una hipótesis con evidencia (datos) que no se utilizó para construir la hipótesis. Esto es fundamental porque cada conjunto de datos contiene algunos patrones debidos completamente al azar. Si la hipótesis no se prueba en un conjunto de datos diferente de la misma población estadística , es imposible evaluar la probabilidad de que el azar por sí solo produzca tales patrones. Consulte las hipótesis de prueba sugeridas por los datos .

He aquí un ejemplo sencillo. Lanzar una moneda cinco veces, con un resultado de 2 caras y 3 cruces, podría llevar a la hipótesis de que la moneda favorece a las cruces en 3/5 a 2/5. Si esta hipótesis se prueba luego en el conjunto de datos existente, se confirma, pero la confirmación no tiene sentido. El procedimiento adecuado habría sido formar de antemano una hipótesis de cuál es la probabilidad de cruz y luego lanzar la moneda varias veces para ver si la hipótesis se rechaza o no. Si se observan tres cruces y dos caras, podría formarse otra hipótesis, de que la probabilidad de cruces es 3/5, pero solo podría probarse mediante un nuevo juego de lanzamientos de monedas. Es importante darse cuenta de que la significancia estadística bajo el procedimiento incorrecto es completamente falsa; las pruebas de significancia no protegen contra el dragado de datos.

Hipótesis sugerida por datos no representativos

Suponga que un estudio de una muestra aleatoria de personas incluye exactamente dos personas con un cumpleaños el 7 de agosto: Mary y John. Alguien involucrado en el espionaje de datos podría intentar encontrar similitudes adicionales entre Mary y John. Al pasar por cientos o miles de posibles similitudes entre los dos, cada una con una baja probabilidad de ser cierta, es casi seguro que se puede encontrar una similitud inusual. Quizás John y Mary son las únicas dos personas del estudio que cambiaron de menor tres veces en la universidad. Una hipótesis, sesgada por el espionaje de datos, podría ser "Las personas nacidas el 7 de agosto tienen una probabilidad mucho mayor de cambiar de menor más de dos veces en la universidad".

Se podría considerar que los datos en sí mismos sacados de contexto respaldan firmemente esa correlación, ya que nadie con una fecha de nacimiento diferente había cambiado de menor tres veces en la universidad. Sin embargo, si (como es probable) se trata de una hipótesis falsa, lo más probable es que este resultado no sea reproducible ; cualquier intento de comprobar si otras personas que cumplen el 7 de agosto tienen una tasa similar de cambio de menores probablemente obtendrá resultados contradictorios casi de inmediato.

Parcialidad

El sesgo es un error sistemático en el análisis. Por ejemplo, los médicos dirigieron a los pacientes con VIH con alto riesgo cardiovascular a un tratamiento específico contra el VIH, abacavir , y a los pacientes de menor riesgo a otros medicamentos, lo que impidió una evaluación simple de abacavir en comparación con otros tratamientos. Un análisis que no corrigió este sesgo penalizó injustamente al abacavir, ya que sus pacientes tenían un riesgo más alto, por lo que muchos de ellos tenían ataques cardíacos. [3] Este problema puede ser muy grave, por ejemplo, en el estudio observacional . [3] [2]

Los factores faltantes, los factores de confusión no medidos y las pérdidas durante el seguimiento también pueden provocar sesgos. [3] Al seleccionar artículos con un valor p significativo , se seleccionan los estudios negativos en contra, que es el sesgo de publicación . Esto también se conoce como "sesgo del archivador", porque los resultados de valor p menos significativos se dejan en el archivador y nunca se publican.

Modelado múltiple

Otro aspecto del acondicionamiento de las pruebas estadísticas por el conocimiento de los datos se puede ver al utilizar la frecuencia del flujo de datos en un sistema o máquina en la regresión lineal de análisis de datos [ aclarar ] . Un paso crucial en el proceso es decidir qué covariables incluir en una relación que explique una o más variables. Hay tanto estadísticas (consulte Regresión escalonada) y consideraciones de fondo que llevan a los autores a privilegiar algunos de sus modelos sobre otros, y existe un uso liberal de las pruebas estadísticas. Sin embargo, descartar una o más variables de una relación explicativa sobre la base de los datos significa que no se pueden aplicar válidamente procedimientos estadísticos estándar a las variables retenidas en la relación como si nada hubiera sucedido. Dada la naturaleza del caso, las variables retenidas han tenido que pasar algún tipo de prueba preliminar (posiblemente una intuitiva imprecisa) de que las variables descartadas fallaron. En 1966, Selvin y Stuart compararon las variables retenidas en el modelo con los peces que no caen a través de la red, en el sentido de que sus efectos seguramente serán mayores que los que sí caen a través de la red.Esto no solo altera el desempeño de todas las pruebas posteriores en el modelo explicativo retenido, sino que puede introducir sesgos y alterarerror cuadrático medio en la estimación. [4] [5]

Ejemplos en meteorología y epidemiología

En meteorología , las hipótesis a menudo se formulan utilizando datos meteorológicos hasta el presente y se prueban con datos meteorológicos futuros, lo que garantiza que, incluso subconscientemente, los datos futuros no podrían influir en la formulación de la hipótesis. Por supuesto, tal disciplina requiere esperar a que lleguen nuevos datos, para mostrar el poder predictivo de la teoría formulada frente a la hipótesis nula . Este proceso garantiza que nadie pueda acusar al investigador de adaptar manualmente el modelo predictivo a los datos disponibles, ya que el tiempo que se avecina aún no está disponible.

Como otro ejemplo, suponga que los observadores notan que una ciudad en particular parece tener un grupo de cáncer , pero carecen de una hipótesis firme de por qué esto es así. Sin embargo, tienen acceso a una gran cantidad de datos demográficos sobre la ciudad y el área circundante, que contienen mediciones para el área de cientos o miles de variables diferentes, en su mayoría no correlacionadas. Incluso si todas estas variables son independientes de la tasa de incidencia de cáncer, es muy probable que al menos una variable se correlacione significativamente con la tasa de cáncer en toda el área. Si bien esto puede sugerir una hipótesis, se necesitan más pruebas utilizando las mismas variables pero con datos de una ubicación diferente para confirmar. Tenga en cuenta que un valor pde 0.01 sugiere que el 1% de las veces un resultado al menos tan extremo se obtendría por casualidad; Si se prueban cientos o miles de hipótesis (con variables independientes relativamente no correlacionadas entre sí), es probable que se obtenga un valor p menor que 0.01 para muchas hipótesis nulas.

Remedios

Buscar patrones en los datos es legítimo. Aplicar una prueba estadística de significancia , o prueba de hipótesis, a los mismos datos de los que surge un patrón es incorrecto. Una forma de construir hipótesis evitando el dragado de datos es realizar pruebas aleatorias fuera de la muestra . El investigador recopila un conjunto de datos y luego lo divide al azar en dos subconjuntos, A y B. Sólo un subconjunto, digamos, el subconjunto A, se examina para crear hipótesis. Una vez que se formula una hipótesis, se debe probar en el subconjunto B, que no se utilizó para construir la hipótesis. Solo cuando B también apoya tal hipótesis es razonable creer que la hipótesis podría ser válida. (Este es un tipo simple de validación cruzada y a menudo se denomina validación de prueba de entrenamiento o de mitad dividida).

Otro remedio para el dragado de datos es registrar el número de todas las pruebas de significación realizadas durante el estudio y simplemente dividir el criterio de significación de uno ("alfa") por este número; esta es la corrección de Bonferroni . Sin embargo, esta es una métrica muy conservadora. Un alfa familiar de 0.05, dividido de esta manera por 1,000 para dar cuenta de 1,000 pruebas de significancia, produce un alfa por hipótesis muy estricto de 0.00005. Los métodos particularmente útiles en el análisis de varianza y en la construcción de bandas de confianza simultáneas para regresiones que involucran funciones de base son el método de Scheffé y, si el investigador tiene en mente solo comparaciones por pares, el método de Tukey . El uso de la tasa de falsos descubrimientos de Benjamini y Hochberg es un enfoque más sofisticado que se ha convertido en un método popular para el control de pruebas de hipótesis múltiples.

Cuando ninguno de los enfoques es práctico, se puede hacer una distinción clara entre los análisis de datos que son confirmatorios y los análisis que son exploratorios . La inferencia estadística es apropiada solo para el primero. [5]

En última instancia, la significación estadística de una prueba y la confianza estadística de un hallazgo son propiedades conjuntas de los datos y el método utilizado para examinar los datos. Por lo tanto, si alguien dice que un determinado evento tiene una probabilidad de 20% ± 2% 19 de 20 veces, esto significa que si la probabilidad del evento se estima mediante el mismo método utilizado para obtener la estimación del 20%, el resultado está entre 18% y 22% con probabilidad 0,95. No se puede hacer ninguna afirmación de importancia estadística con solo mirar, sin tener en cuenta el método utilizado para evaluar los datos.

Las revistas académicas cambian cada vez más al formato de informe registrado , que tiene como objetivo contrarrestar problemas muy serios como el dragado de datos y HARKing , que han hecho que la investigación de pruebas teóricas sea muy poco confiable: por ejemplo, Nature Human Behavior ha adoptado el formato de informe registrado, ya que " cambiar [s] el énfasis de los resultados de la investigación a las preguntas que guían la investigación y los métodos utilizados para responderlas ”. [6] La Revista Europea de Personalidaddefine este formato de la siguiente manera: “En un informe registrado, los autores crean una propuesta de estudio que incluye antecedentes teóricos y empíricos, preguntas / hipótesis de investigación y datos piloto (si están disponibles). Una vez presentada, esta propuesta se revisará antes de la recopilación de datos y, si se acepta, se publicará el documento resultante de este procedimiento revisado por pares, independientemente de los resultados del estudio ". [7]

Los métodos y resultados también pueden ponerse a disposición del público, como en el enfoque de ciencia abierta , lo que dificulta aún más el dragado de datos. [8]

Ver también

  • Aliasing
  • Falacia de tasa base
  • Código de la Biblia
  • Desigualdades de Bonferroni
  • cosecha de la cereza
  • HARKing
  • Lincoln-Kennedy coincidencias leyenda urbana
  • Efecto mirar en otra parte
  • Metaciencia
  • Uso indebido de estadísticas
  • Sobreajuste
  • Pareidolia
  • Análisis post hoc
  • Analítica predictiva
  • La falacia del francotirador de Texas

Referencias

  1. ^ Wasserstein, Ronald L .; Lazar, Nicole A. (2 de abril de 2016). "La declaración de ASA sobre p-valores: contexto, proceso y propósito" . El estadístico estadounidense . Informa UK Limited. 70 (2): 129-133. doi : 10.1080 / 00031305.2016.1154108 . ISSN  0003-1305 .
  2. ↑ a b Davey Smith, G .; Ebrahim, S. (2002). "Dragado de datos, sesgo o confusión" . BMJ . 325 (7378): 1437–1438. doi : 10.1136 / bmj.325.7378.1437 . PMC 1124898 . PMID 12493654 .  
  3. ^ a b c d Joven, SS; Karr, A. (2011). "Deming, datos y estudios observacionales" (PDF) . Importancia . 8 (3): 116-120. doi : 10.1111 / j.1740-9713.2011.00506.x .
  4. ^ Selvin, HC; Stuart, A. (1966). "Procedimientos de dragado de datos en el análisis de encuestas". El estadístico estadounidense . 20 (3): 20-23. doi : 10.1080 / 00031305.1966.10480401 . JSTOR 2681493 . 
  5. ↑ a b Berk, R .; Brown, L .; Zhao, L. (2009). "Inferencia estadística después de la selección del modelo" . J Quant Criminol . 26 (2): 217-236. doi : 10.1007 / s10940-009-9077-7 . S2CID 10350955 . 
  6. ^ "Promoción de la reproducibilidad con informes registrados" . Comportamiento humano de la naturaleza . 1 (1): 0034. 10 de enero de 2017. doi : 10.1038 / s41562-016-0034 . S2CID 28976450 . 
  7. ^ "Revisión simplificada e informes registrados que pronto serán oficiales en EJP" . ejp-blog.com .
  8. ^ Vyse, Stuart (2017). "Confesiones de P-Hacker: Daryl Bem y yo" . Investigador escéptico . 41 (5): 25-27. Archivado desde el original el 5 de agosto de 2018 . Consultado el 5 de agosto de 2018 .

Otras lecturas

  • Ioannidis, John PA (30 de agosto de 2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos" . PLOS Medicine . San Francisco: Biblioteca Pública de Ciencias. 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . ISSN  1549-1277 . PMC  1182327 . PMID  16060722 .
  • Jefe, Megan L .; Holman, Luke; Lanfear, Rob; Kahn, Andrew T .; Jennions, Michael D. (13 de marzo de 2015). "El alcance y las consecuencias del P-Hacking en la ciencia" . PLOS Biología . 13 (3): e1002106. doi : 10.1371 / journal.pbio.1002106 . PMC  4359000 . PMID  25768323 .
  • Insel, Thomas (14 de noviembre de 2014). "P-Hacking" . Blog del Director del NIMH .
  • Smith, Gary (2016). Desviaciones estándar: suposiciones erróneas, datos torturados y otras formas de mentir con las estadísticas . Gerald Duckworth & Co. ISBN 9780715649749.

enlaces externos

  • Una bibliografía sobre el sesgo de espionaje de datos
  • Correlaciones espurias , una galería de ejemplos de correlaciones inverosímiles
  • StatQuest: trampas del valor P y cálculos de potencia en YouTube
  • Video que explica el p-hacking de " Neuroskeptic ", un blogger de Discover Magazine
  • Step Away From Stepwise , un artículo del Journal of Big Data que critica la regresión escalonada.
Obtenido de " https://en.wikipedia.org/w/index.php?title=Data_dredging&oldid=1023475448 "