Dragado de datos

El dragado de datos (o pesca de datos, espionaje de datos, carnicería de datos ), también conocido como búsqueda de significado , búsqueda de significado , inferencia selectiva y p -hacking , ^[1] es el uso indebido del análisis de datos para encontrar patrones en los datos que se pueden presentar como estadísticamente significativo , lo que aumenta y minimiza drásticamente el riesgo de falsos positivos. Esto se hace realizando muchas pruebas estadísticas en los datos y solo informando aquellos que arrojan resultados significativos. ^[2]

El proceso de dragado de datos implica probar múltiples hipótesis utilizando un solo conjunto de datos mediante una búsqueda exhaustiva , tal vez combinaciones de variables que puedan mostrar una correlación , y tal vez grupos de casos u observaciones que muestren diferencias en su media o en su desglose por algún otro. variable.

Las pruebas convencionales de significación estadística se basan en la probabilidad de que surja un resultado particular si solo actuara el azar, y necesariamente aceptan algún riesgo de conclusiones erróneas de cierto tipo (rechazos erróneos de la hipótesis nula). Este nivel de riesgo se llama la importancia. Cuando se realizan un gran número de pruebas, algunas arrojan falsos resultados de este tipo; por lo tanto, el 5 % de las hipótesis elegidas al azar podría (erróneamente) informarse como estadísticamente significativa al 5 % de nivel de significación, el 1 % podría (erróneamente) informarse como estadísticamente significativa al 1 % de nivel de significación, y así sucesivamente, solo por casualidad . Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán estadísticamente significativas (aunque esto sea engañoso), ya que es probable que casi todos los conjuntos de datos con algún grado de aleatoriedad contengan (por ejemplo) algunas correlaciones espurias . Si no son cautelosos, los investigadores que utilizan técnicas de minería de datos pueden ser fácilmente engañados por estos resultados.

El dragado de datos es un ejemplo de ignorar el problema de las comparaciones múltiples . Una forma es cuando los subgrupos se comparan sin alertar al lector sobre el número total de comparaciones de subgrupos examinadas. ^[3]

El procedimiento de prueba de hipótesis estadística frecuentista convencional consiste en formular una hipótesis de investigación, como "las personas de clases sociales más altas viven más tiempo", luego recopilar datos relevantes y luego llevar a cabo una prueba de significación estadística para ver qué tan probable se encontrarían tales resultados si el azar estaban solos en el trabajo. (El último paso se llama prueba contra la hipótesis nula ).

Un punto clave en el análisis estadístico adecuado es probar una hipótesis con evidencia (datos) que no se usaron para construir la hipótesis. Esto es fundamental porque cada conjunto de datos contiene algunos patrones debidos completamente al azar. Si la hipótesis no se prueba en un conjunto de datos diferente de la misma población estadística , es imposible evaluar la probabilidad de que el azar por sí solo produzca tales patrones. Véase prueba de hipótesis sugeridas por los datos .

Un ejemplo de un resultado producido por el dragado de datos, que muestra una correlación entre la cantidad de letras en la palabra ganadora del Scripps National Spelling Bee y la cantidad de personas en los Estados Unidos muertas por arañas venenosas .