Mal uso de estadísticas

Este artículo puede requerir una limpieza para cumplir con los estándares de calidad de Wikipedia . El problema específico es: este artículo está mal escrito, a menudo no es claro. Por favor, ayude a mejorar este artículo si puede. ( Noviembre de 2014 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Las estadísticas , cuando se usan de manera engañosa, pueden engañar al observador casual para que crea algo diferente a lo que muestran los datos . Es decir, se produce un mal uso de las estadísticas cuando un argumento estadístico afirma una falsedad . En algunos casos, el mal uso puede ser accidental. En otros, tiene un propósito y es para beneficio del perpetrador. Cuando la razón estadística involucrada es falsa o mal aplicada, esto constituye una falacia estadística .

La trampa de las estadísticas falsas puede resultar bastante dañina para la búsqueda del conocimiento. Por ejemplo, en la ciencia médica, corregir una falsedad puede llevar décadas y costar vidas.

Los abusos pueden ser fáciles de cometer. Los científicos profesionales, incluso los matemáticos y los estadísticos profesionales, pueden ser engañados incluso por algunos métodos simples, incluso si tienen cuidado de verificar todo. Se sabe que los científicos se engañan a sí mismos con las estadísticas debido a la falta de conocimiento de la teoría de la probabilidad y la falta de estandarización de sus pruebas .

Definición, limitaciones y contexto [ editar ]

Una definición utilizable es: "Uso indebido de las estadísticas: usar números de tal manera que, ya sea intencionalmente o por ignorancia o descuido, las conclusiones sean injustificadas o incorrectas". ^[1] Los "números" incluyen gráficos engañosos discutidos en otra parte. El término no se encuentra comúnmente en los textos de estadística y no se conoce una definición autorizada. Es una generalización de la mentira con las estadísticas que fue descrita abundantemente por ejemplos de estadísticos hace 60 años.

La definición enfrenta algunos problemas (algunos son abordados por la fuente): ^[2]

La estadística suele producir probabilidades; las conclusiones son provisionales
Las conclusiones provisionales tienen errores y tasas de error. Por lo general, el 5% de las conclusiones provisionales de las pruebas de significancia son incorrectas.
Los estadísticos no están completamente de acuerdo sobre los métodos ideales
Los métodos estadísticos se basan en supuestos que rara vez se cumplen por completo.
La recopilación de datos suele estar limitada por limitaciones éticas, prácticas y financieras.

Cómo mentir con las estadísticas reconoce que las estadísticas puedentomar legítimamente muchas formas. Independientemente de las cifras, se puede debatir si las estadísticas muestran que un producto es "ligero y económico" o "endeble y barato". Algunos objetan la sustitución de la corrección estadística por el liderazgo moral (por ejemplo) como objetivo. A menudo es difícil atribuir la culpa de los usos indebidos porque los científicos, encuestadores, estadísticos y reporteros suelen ser empleados o consultores.

El oyente / observador / audiencia / jurado completa un mal uso insidioso (?) De las estadísticas. El proveedor proporciona las "estadísticas" en forma de números o gráficos (o fotografías de antes / después), lo que permite al consumidor sacar conclusiones (posiblemente injustificadas o incorrectas). El mal estado de la alfabetización estadística pública y la naturaleza no estadística de la intuición humana permiten engañar sin producir explícitamente conclusiones erróneas. La definición es débil sobre la responsabilidad del consumidor de estadísticas.

Un historiador enumeró más de 100 falacias en una docena de categorías, incluidas las de generalización y las de causalidad. ^[3] Algunas de las falacias son explícita o potencialmente estadísticas, incluido el muestreo, el sinsentido estadístico, la probabilidad estadística, la extrapolación falsa, la interpolación falsa y la generalización insidiosa. Todos los problemas técnicos / matemáticos de probabilidad aplicada encajarían en la falacia de probabilidad estadística enumerada. Muchas de las falacias podrían combinarse con el análisis estadístico, lo que permite la posibilidad de una conclusión falsa que surja de un análisis estadístico irreprochable.

Un ejemplo de uso de la estadística es el análisis de la investigación médica. El proceso incluye ^[4]^[5] la planificación experimental, la realización del experimento, el análisis de datos, la elaboración de las conclusiones lógicas y la presentación / informe. El informe está resumido por la prensa popular y por los anunciantes. El uso indebido de las estadísticas puede deberse a problemas en cualquier paso del proceso. Los estándares estadísticos que idealmente se imponen al informe científico son muy diferentes de los que se imponen a la prensa popular y los anunciantes; sin embargo, existen casos de publicidad disfrazada de ciencia . La definición de uso indebido de las estadísticas es débil en lo que respecta a la exhaustividad requerida de los informes estadísticos. Se expresa la opinión de que los periódicos deben proporcionar al menos la fuente de las estadísticas reportadas.

Causas simples [ editar ]

Muchos usos indebidos de las estadísticas se producen porque

La fuente es un experto en la materia, no un experto en estadísticas. ^[6] La fuente puede utilizar incorrectamente un método o interpretar un resultado.
La fuente es un estadístico, no un experto en la materia. ^[7] Un experto debe saber cuándo los números que se comparan describen cosas diferentes. Los números cambian, como no lo hace la realidad, cuando cambian las definiciones legales o los límites políticos.
El tema en estudio no está bien definido. ^[8] Si bien las pruebas de CI están disponibles y son numéricas, es difícil definir qué miden; La inteligencia es un concepto esquivo. Publicar "impacto" tiene el mismo problema. ^[9] Una pregunta aparentemente simple sobre la cantidad de palabras en el idioma inglés encuentra inmediatamente preguntas sobre formas arcaicas, teniendo en cuenta prefijos y sufijos, múltiples definiciones de una palabra, variantes ortográficas, dialectos, creaciones fantásticas (como ectoplastísticas de ectoplasma y estadísticas) , ^[10] vocabulario técnico ...
La calidad de los datos es mala. ^{[11] La} ropa es un ejemplo. Las personas tienen una amplia gama de tamaños y formas corporales. Es obvio que la talla de la ropa debe ser multidimensional. En cambio, es complejo de formas inesperadas. Algunas prendas se venden solo por talla (sin consideración explícita de la forma del cuerpo), las tallas varían según el país y el fabricante y algunas tallas son deliberadamente engañosas. Si bien los tamaños son numéricos, solo los análisis estadísticos más crudos son posibles utilizando los números de tamaño con cuidado.
La prensa popular tiene una experiencia limitada y motivos mixtos. ^[12] Si los hechos no son "de interés periodístico" (lo que puede requerir una exageración), es posible que no se publiquen. Los motivos de los anunciantes son aún más variados.
"Los políticos usan las estadísticas de la misma manera que un borracho usa farolas, como apoyo en lugar de iluminación" - Andrew Lang (WikiQuote) "¿Qué aprendemos de estas dos formas de ver los mismos números? Aprendemos que un propagandista inteligente , derecha o izquierda, casi siempre puede encontrar una manera de presentar los datos sobre el crecimiento económico que parecen respaldar su caso. Y, por lo tanto, también aprendemos a tomar cualquier análisis estadístico de una fuente fuertemente política con un puñado de sal ". ^[13] El término estadísticas se origina a partir de números generados y utilizados por el estado. Un buen gobierno puede requerir números precisos, pero el gobierno popular puede requerir números de apoyo (no necesariamente los mismos). "El uso y mal uso de las estadísticas por parte de los gobiernos es un arte antiguo". ^[14]

Tipos de mal uso [ editar ]

Descartando observaciones desfavorables [ editar ]

Todo lo que tiene que hacer una empresa para promocionar un producto neutral (inútil) es encontrar o realizar, por ejemplo, 40 estudios con un nivel de confianza del 95%. Si el producto es realmente inútil, esto produciría en promedio un estudio que demuestre que el producto fue beneficioso, un estudio que demuestre que fue dañino y treinta y ocho estudios no concluyentes (38 es el 95% de 40). Esta táctica se vuelve más eficaz cuanto más estudios hay disponibles. Es probable que las organizaciones que no publican todos los estudios que realizan, como las empresas tabacaleras que niegan un vínculo entre fumar y el cáncer, los grupos de defensa contra el tabaquismo y los medios de comunicación que intentan demostrar un vínculo entre el tabaquismo y diversas dolencias, o los vendedores de píldoras milagrosas usa esta táctica.

Ronald Fisher consideró este tema en su famoso experimento de muestra de té de degustación de mujeres (de su libro de 1935, The Design of Experiments ). Con respecto a los experimentos repetidos, dijo: "Claramente sería ilegítimo, y robaría nuestro cálculo de su base, si no se contabilizaran todos los resultados fallidos".

Otro término relacionado con este concepto es la recolección de cerezas .

Ignorando características importantes [ editar ]

Los conjuntos de datos multivariables tienen dos o más características / dimensiones . Si se eligen muy pocas de estas características para el análisis (por ejemplo, si solo se elige una característica y se realiza una regresión lineal simple en lugar de una regresión lineal múltiple ), los resultados pueden ser engañosos. Esto deja al analista vulnerable a cualquiera de las diversas paradojas estadísticas , o en algunos casos (no todos) de causalidad falsa como se muestra a continuación.

Preguntas cargadas [ editar ]

Las respuestas a las encuestas a menudo pueden manipularse redactando la pregunta de tal manera que induzca una prevalencia hacia una determinada respuesta por parte del encuestado. Por ejemplo, en las encuestas de apoyo a una guerra, las preguntas:

¿Apoya el intento de Estados Unidos de llevar la libertad y la democracia a otros lugares del mundo?
¿Apoya la acción militar no provocada de Estados Unidos?

probablemente resultará en datos sesgados en diferentes direcciones, aunque ambos están haciendo encuestas sobre el apoyo a la guerra. Una mejor forma de redactar la pregunta podría ser "¿Apoya la actual acción militar estadounidense en el exterior?" Una forma aún más neutral de plantear esa pregunta es "¿Cuál es su opinión sobre la actual acción militar estadounidense en el exterior?" El punto debe ser que la persona a la que se le pregunta no tiene forma de adivinar a partir de las palabras lo que el interrogador podría querer escuchar.

Otra forma de hacer esto es preceder a la pregunta con información que respalde la respuesta "deseada". Por ejemplo, es probable que más personas respondan "sí" a la pregunta "Dada la carga cada vez mayor de impuestos sobre las familias de clase media, ¿apoya recortes en el impuesto sobre la renta?" que a la pregunta "Considerando el creciente déficit presupuestario federal y la desesperada necesidad de más ingresos, ¿apoya recortes en el impuesto sobre la renta?"

La formulación adecuada de preguntas puede ser muy sutil. Las respuestas a dos preguntas pueden variar drásticamente según el orden en que se formulen. ^[15] "Una encuesta que preguntó sobre la 'propiedad de acciones' encontró que la mayoría de los ganaderos de Texas poseían acciones, aunque probablemente no del tipo que se negocia en la Bolsa de Valores de Nueva York". ^[dieciséis]

Sobregeneralización [ editar ]

La sobregeneralización es una falacia que ocurre cuando se afirma que una estadística sobre una población en particular es válida entre los miembros de un grupo para el cual la población original no es una muestra representativa.

Por ejemplo, supongamos que se observa que el 100% de las manzanas son rojas en verano. La afirmación "Todas las manzanas son rojas" sería un ejemplo de generalización excesiva porque la estadística original solo era cierta para un subconjunto específico de manzanas (las de verano), que no se espera que sea representativo de la población de manzanas en su conjunto.

Un ejemplo del mundo real de la falacia de la sobregeneralización puede observarse como un artefacto de las técnicas modernas de votación, que prohíben llamar a teléfonos móviles para realizar encuestas políticas telefónicas. Dado que los jóvenes tienen más probabilidades que otros grupos demográficos de carecer de un teléfono "fijo" convencional, una encuesta telefónica que encuesta exclusivamente a los que responden a las llamadas de teléfonos fijos puede hacer que los resultados de la encuesta no muestren las opiniones de los jóvenes, si no se toman otras medidas para tener en cuenta este sesgo del muestreo. Por lo tanto, una encuesta que examine las preferencias de voto de los jóvenes que utilizan esta técnica puede no ser una representación perfectamente precisa de las verdaderas preferencias de voto de los jóvenes en su conjunto sin generalizar en exceso, porque la muestra utilizada excluye a los jóvenes que solo llevan teléfonos móviles.que pueden tener o no preferencias de voto que difieren del resto de la población.

La generalización excesiva a menudo ocurre cuando la información se transmite a través de fuentes no técnicas, en particular los medios de comunicación.

Muestras sesgadas [ editar ]

Los científicos han aprendido a un gran costo que la recopilación de buenos datos experimentales para el análisis estadístico es difícil. Ejemplo: el efecto placebo (mente sobre cuerpo) es muy poderoso. El 100% de los sujetos desarrollaron una erupción cuando se expusieron a una sustancia inerte que se llamó falsamente hiedra venenosa, mientras que pocos desarrollaron una erupción en un objeto "inofensivo" que en realidad era hiedra venenosa. ^{[17] Los} investigadores combaten este efecto mediante experimentos comparativos aleatorios doble ciego . Los estadísticos suelen preocuparse más por la validez de los datos que por el análisis. Esto se refleja en un campo de estudio dentro de la estadística conocido como diseño de experimentos .

Los encuestadores han aprendido a un gran costo que la recopilación de buenos datos de encuestas para el análisis estadístico es difícil. El efecto selectivo de los teléfonos móviles en la recopilación de datos (discutido en la sección Sobregeneralización) es un ejemplo potencial; Si los jóvenes con teléfonos tradicionales no son representativos, la muestra puede estar sesgada. Las encuestas por muestreo tienen muchas trampas y requieren un gran cuidado en su ejecución. ^[18] Un esfuerzo requirió casi 3000 llamadas telefónicas para obtener 1000 respuestas. La muestra aleatoria simple de la población "no es simple y no puede ser aleatoria". ^[19]

Información errónea o malentendido del error estimado [ editar ]

Si un equipo de investigación quiere saber cómo se sienten 300 millones de personas sobre un tema determinado, no sería práctico preguntarles a todos. Sin embargo, si el equipo elige una muestra aleatoria de aproximadamente 1000 personas, pueden estar bastante seguros de que los resultados dados por este grupo son representativos de lo que el grupo más grande habría dicho si se les hubiera preguntado a todos.

Esta confianza en realidad puede cuantificarse mediante el teorema del límite central y otros resultados matemáticos. La confianza se expresa como una probabilidad de que el resultado verdadero (para el grupo más grande) esté dentro de un cierto rango de la estimación (la cifra para el grupo más pequeño). Ésta es la cifra de "más o menos" que se suele citar para las encuestas estadísticas. Por lo general, no se menciona la parte de probabilidad del nivel de confianza; si es así, se supone que es un número estándar como el 95%.

Los dos números están relacionados. Si una encuesta tiene un error estimado de ± 5% al 95% de confianza, también tiene un error estimado de ± 6,6% al 99% de confianza. ± % al 95% de confianza es siempre ± % al 99% de confianza para una población distribuida normalmente. ${\ Displaystyle x}$ ${\ Displaystyle 1,32x}$

Cuanto menor sea el error estimado, mayor será la muestra requerida, a un nivel de confianza dado.

al 95,4% de confianza:

± 1% requeriría 10,000 personas.
± 2% requeriría 2.500 personas.
± 3% requeriría 1,111 personas.
± 4% requeriría 625 personas.
± 5% requeriría 400 personas.
± 10% requeriría 100 personas.
± 20% requeriría 25 personas.
± 25% requeriría 16 personas.
± 50% requeriría 4 personas.

Las personas pueden asumir, debido a que se omite la cifra de confianza, que existe una certeza del 100% de que el resultado verdadero está dentro del error estimado. Esto no es matemáticamente correcto.

Es posible que muchas personas no se den cuenta de que la aleatoriedad de la muestra es muy importante. En la práctica, muchas encuestas de opinión se realizan por teléfono, lo que distorsiona la muestra de varias formas, incluida la exclusión de personas que no tienen teléfono, favoreciendo la inclusión de personas que tienen más de un teléfono, favoreciendo la inclusión de personas que están dispuestas a participar en una encuesta telefónica sobre quienes se niegan, etc. El muestreo no aleatorio hace que el error estimado no sea confiable.

Por otro lado, la gente puede considerar que las estadísticas son intrínsecamente poco fiables porque no se llama a todo el mundo, o porque ellos mismos nunca son encuestados. La gente puede pensar que es imposible obtener datos sobre la opinión de decenas de millones de personas con solo sondear a unos pocos miles. Esto también es inexacto. ^[a] Una encuesta con un muestreo perfecto sin sesgos y respuestas veraces tiene un margen de error determinado matemáticamente , que solo depende del número de personas encuestadas.

Sin embargo, a menudo solo se informa un margen de error para una encuesta. Cuando se informan resultados para subgrupos de población, se aplicará un mayor margen de error, pero esto puede no quedar claro. Por ejemplo, una encuesta de 1000 personas puede contener 100 personas de un determinado grupo étnico o económico. Los resultados que se centren en ese grupo serán mucho menos fiables que los resultados para la población completa. Si el margen de error para la muestra completa fuera del 4%, digamos, entonces el margen de error para ese subgrupo podría ser de alrededor del 13%.

También hay muchos otros problemas de medición en las encuestas de población.

Los problemas mencionados anteriormente se aplican a todos los experimentos estadísticos, no solo a las encuestas de población.

Falsa causalidad [ editar ]

Cuando una prueba estadística muestra una correlación entre A y B, generalmente hay seis posibilidades:

A causa B.
B causa A.
A y B ambos se causan parcialmente entre sí.
A y B son ambos causados por un tercer factor, C.
B es causado por C, que se correlaciona con A.
La correlación observada se debió puramente al azar.

La sexta posibilidad se puede cuantificar mediante pruebas estadísticas que pueden calcular la probabilidad de que la correlación observada sea tan grande como por casualidad si, de hecho, no existe relación entre las variables. Sin embargo, incluso si esa posibilidad tiene una pequeña probabilidad, todavía quedan las otras cinco.

Si el número de personas que compran helado en la playa está relacionado estadísticamente con el número de personas que se ahogan en la playa, nadie diría que el helado causa ahogamiento porque es obvio que no es así. (En este caso, tanto el ahogamiento como la compra de helados están claramente relacionados por un tercer factor: el número de personas en la playa).

Esta falacia se puede utilizar, por ejemplo, para demostrar que la exposición a una sustancia química causa cáncer. Reemplace "número de personas que compran helado" por "número de personas expuestas a la sustancia química X" y "número de personas que se ahogan" por "número de personas que contraen cáncer", y mucha gente le creerá. En tal situación, puede haber una correlación estadística incluso si no hay un efecto real. Por ejemplo, si existe la percepción de que un sitio químico es "peligroso" (incluso si realmente no lo es), el valor de las propiedades en el área disminuirá, lo que atraerá a más familias de bajos ingresos a mudarse a esa área. Si las familias de bajos ingresos tienen más probabilidades de contraer cáncer que las familias de altos ingresos (debido a una dieta más pobre, por ejemplo, o un menor acceso a la atención médica), las tasas de cáncer aumentarán,aunque el producto químico en sí no es peligroso. Se cree^[22] que esto es exactamente lo que sucedió con algunos de los primeros estudios que muestran un vínculo entre los campos electromagnéticos (EMF) de las líneas eléctricas y el cáncer .^[23]

En estudios bien diseñados, el efecto de la causalidad falsa puede eliminarse asignando a algunas personas a un "grupo de tratamiento" y a algunas personas a un "grupo de control" al azar, y dándole el tratamiento al grupo de tratamiento y no dando al grupo de control el tratamiento. En el ejemplo anterior, un investigador podría exponer a un grupo de personas a la sustancia química X y dejar un segundo grupo sin exponer. Si el primer grupo tuvo tasas de cáncer más altas, el investigador sabe que no hay un tercer factor que afectó si una persona estuvo expuesta porque controló quién estuvo expuesto o no, y asignó a las personas a los grupos expuestos y no expuestos al azar. Sin embargo, en muchas aplicaciones, realizar un experimento de esta manera es prohibitivamente caro, inviable, poco ético, ilegal o absolutamente imposible. Por ejemplo,es muy poco probable que unEl IRB aceptaría un experimento que implicara exponer intencionalmente a personas a una sustancia peligrosa para probar su toxicidad. Las obvias implicaciones éticas de este tipo de experimentos limitan la capacidad de los investigadores para probar empíricamente la causalidad.

Prueba de la hipótesis nula [ editar ]

En una prueba estadística, la hipótesis nula ( ) se considera válida hasta que suficientes datos demuestren que es incorrecta. Luego se rechaza y la hipótesis alternativa ( ) se considera probada como correcta. Por casualidad, esto puede suceder, aunque es cierto, con una probabilidad denotada (el nivel de significancia). Esto se puede comparar con el proceso judicial, donde el acusado es considerado inocente ( ) hasta que se pruebe su culpabilidad ( ) más allá de toda duda razonable ( ). ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {A}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle \ alpha}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {A}}$ ${\ Displaystyle \ alpha}$

Pero si los datos no nos dan pruebas suficientes para rechazar eso , esto no prueba automáticamente que sea correcto. Si, por ejemplo, un productor de tabaco desea demostrar que sus productos son seguros, puede realizar fácilmente una prueba con una pequeña muestra de fumadores frente a una pequeña muestra de no fumadores. Es poco probable que alguno de ellos desarrolle cáncer de pulmón (e incluso si lo hicieran, la diferencia entre los grupos tiene que ser muy grande para poder rechazar ). Por lo tanto, es probable, incluso cuando fumar sea peligroso, que nuestra prueba no rechace . Si se acepta, no se sigue automáticamente que fumar sea inofensivo. La prueba no tiene poder suficiente para rechazar , por lo que la prueba es inútil y el valor de la "prueba" de también es nulo. ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$ ${\ Displaystyle H_ {0}}$

Esto se puede comparar, utilizando el análogo judicial anterior, con el acusado verdaderamente culpable que es puesto en libertad solo porque la prueba no es suficiente para un veredicto de culpabilidad. Esto no prueba la inocencia del acusado, sino solo que no hay pruebas suficientes para un veredicto de culpabilidad.

"... la hipótesis nula nunca se prueba ni se establece, pero posiblemente se refuta, en el curso de la experimentación. Se puede decir que cada experimento existe sólo para dar a los hechos una oportunidad de refutar la hipótesis nula". (Fisher en The Design of Experiments ) Existen muchas razones para la confusión, incluido el uso de lógica doble negativa y terminología resultante de la fusión de la "prueba de significación" de Fisher (donde la hipótesis nula nunca se acepta) con la "prueba de hipótesis" (donde alguna hipótesis siempre se acepta).

Confundir significación estadística con significación práctica [ editar ]

La significación estadística es una medida de probabilidad; La importancia práctica es una medida de efecto. ^[24] Una cura para la calvicie es estadísticamente significativa si una escasa pelusa de melocotón generalmente cubre el cuero cabelludo previamente desnudo. La curación es prácticamente significativa cuando ya no se necesita un sombrero en clima frío y el peluquero pregunta cuánto quitarle la parte superior. Los calvos quieren una cura que sea tanto estadística como prácticamente significativa; Probablemente funcione y, si lo hace, tendrá un gran efecto peludo. La publicación científica a menudo solo requiere significación estadística. Esto ha dado lugar a quejas (durante los últimos 50 años) de que las pruebas de significación estadística son un mal uso de las estadísticas. ^[25]

Dragado de datos [ editar ]

El dragado de datos es un abuso de la minería de datos . En el dragado de datos, se examinan grandes recopilaciones de datos para encontrar una correlación, sin ninguna elección predefinida de una hipótesis para probar. Dado que el intervalo de confianza requeridopara establecer una relación entre dos parámetros generalmente se elige que sea del 95% (lo que significa que hay un 95% de probabilidad de que la relación observada no se deba a una probabilidad aleatoria), por lo que existe un 5% de probabilidad de encontrar una correlación entre dos conjuntos cualesquiera de variables completamente aleatorias. Dado que los esfuerzos de dragado de datos generalmente examinan grandes conjuntos de datos con muchas variables y, por lo tanto, un número aún mayor de pares de variables, es casi seguro que cualquier estudio de este tipo encuentre resultados espurios pero aparentemente estadísticamente significativos.

Tenga en cuenta que el dragado de datos es una forma válida de encontrar una posible hipótesis, pero esa hipótesis debe luego ser probada con datos que no se usaron en el dragado original. El mal uso se produce cuando esa hipótesis se establece como un hecho sin mayor validación.

"No se puede probar legítimamente una hipótesis con los mismos datos que primero sugirieron esa hipótesis. El remedio es claro. Una vez que tenga una hipótesis, diseñe un estudio para buscar específicamente el efecto que ahora cree que existe. Si el resultado de esta prueba es estadísticamente significativo, por fin tienes pruebas reales ". ^[26]

Manipulación de datos [ editar ]

Esta práctica, denominada informalmente "manipular los datos", incluye informes selectivos (ver también sesgo de publicación ) e incluso simplemente inventar datos falsos.

Abundan los ejemplos de informes selectivos. Los ejemplos más fáciles y comunes implican elegir un grupo de resultados que siguen un patrón consistente con la hipótesis preferida mientras se ignoran otros resultados o "series de datos" que contradicen la hipótesis.

Los investigadores psíquicos han cuestionado durante mucho tiempo los estudios que muestran a personas con capacidad ESP . Los críticos acusan a los defensores de ESP de publicar solo experimentos con resultados positivos y archivar aquellos que muestran resultados negativos. Un "resultado positivo" es una ejecución de prueba (o ejecución de datos) en la que el sujeto adivina una tarjeta oculta, etc., con una frecuencia mucho mayor que la probabilidad aleatoria . ^{[ cita requerida ]}

Los científicos, en general, cuestionan la validez de los resultados de los estudios que no pueden ser reproducidos por otros investigadores. Sin embargo, algunos científicos se niegan a publicar sus datos y métodos. ^[27]

La manipulación de datos es un tema / consideración serio en el análisis estadístico más honesto. Los valores atípicos, los datos faltantes y la no normalidad pueden afectar negativamente la validez del análisis estadístico. Es apropiado estudiar los datos y reparar los problemas reales antes de que comience el análisis. "[E] n cualquier diagrama de dispersión habrá algunos puntos más o menos separados de la parte principal de la nube: estos puntos deben ser rechazados sólo por una causa". ^[28]

Otras falacias [ editar ]

La pseudorreplicación es un error técnico asociado con el análisis de varianza . La complejidad oculta el hecho de que el análisis estadístico se intenta en una sola muestra (N = 1). Para este caso degenerado, la varianza no se puede calcular (división por cero). Un (N = 1) siempre le dará al investigador la correlación estadística más alta entre el sesgo de intención y los hallazgos reales.

La falacia del jugador asume que un evento para el que se puede medir una probabilidad futura tiene la misma probabilidad de ocurrir una vez que ya ha ocurrido. Por lo tanto, si alguien ya ha lanzado 9 monedas y cada una ha salido cara, la gente tiende a suponer que la probabilidad de que un décimo lanzamiento también sea cara es de 1023 a 1 en contra (que era antes de que se lanzara la primera moneda) cuando en realidad la La probabilidad de la décima cara es del 50% (suponiendo que la moneda no esté sesgada).

La falacia del fiscal ^[29] ha llevado, en el Reino Unido, a que Sally Clark sea condenada por error por matar a sus dos hijos. En el tribunal, la baja probabilidad estadística (1 en 73 millones) de que los dos hijos de una mujer murieran a causa del síndrome de muerte súbita infantil dada por el profesor Sir Roy Meadow se malinterpretó para sugerir una baja probabilidad de su inocencia. Incluso si la probabilidad proporcionada de SMSL doble, que luego fue cuestionada por la Royal Statistical Society , ^[30]De ser correcto, hay que sopesar todas las posibles explicaciones entre sí para llegar a una conclusión sobre cuál fue la causa más probable de la muerte inexplicable de los dos niños. Los datos disponibles sugieren que las probabilidades estarían a favor del doble SMSL en comparación con el doble homicidio por un factor de nueve ^[31] ". La condena de Sally Clark finalmente se anuló.

La falacia lúdica . Las probabilidades se basan en modelos simples que ignoran las posibilidades reales (aunque remotas). Los jugadores de póquer no consideran que un oponente pueda sacar un arma en lugar de una carta. Los asegurados (y los gobiernos) asumen que las aseguradoras seguirán siendo solventes, pero ven AIG y riesgo sistémico .

Otros tipos de mal uso [ editar ]

Otros usos indebidos incluyen comparar manzanas y naranjas , utilizando el promedio incorrecto, ^[32] regresión hacia la media , ^[33] y la frase general basura dentro, basura fuera . ^[34] Algunas estadísticas son simplemente irrelevantes para un problema. ^[35]

El cuarteto de Anscombe es un conjunto de datos inventado que ejemplifica las deficiencias de las estadísticas descriptivas simples (y el valor del trazado de datos antes del análisis numérico).

Ver también [ editar ]

Engaño
Ética en matemáticas
Metaciencia
Mal uso de valores p
Gráfico engañoso
Análisis post hoc
La paradoja de Simpson
Comprobación de estado

Referencias [ editar ]

Notas [ editar ]

^ Se dispone de algunos datos sobre la precisión de las encuestas. Con respecto a una importante encuesta realizada por el gobierno de los Estados Unidos, "En términos relativos, tanto el error de muestreo como el error [sesgo] no muestral son minúsculos". ^[20] La diferencia entre los votos pronosticados por una encuesta privada y el recuento real de las elecciones presidenciales estadounidenses está disponible para su comparación en "Preferencias presidenciales del año de elección: Registro de precisión de la encuesta Gallup: 1936-2012" . Las predicciones se calcularon típicamente sobre la base de menos de 5000 opiniones de votantes probables. ^[21]

Fuentes [ editar ]

^ Spirer, Spirer y Jaffe 1998 , p. 1.
^ Gardenier, John; Resnik, David (2002). "El mal uso de la estadística: conceptos, herramientas y una agenda de investigación". Rendición de cuentas en la investigación: políticas y garantía de calidad . 9 (2): 65–74. doi : 10.1080 / 08989620212968 . PMID 12625352 .
^ Fischer, David (1979). Falacias de los historiadores: hacia una lógica del pensamiento histórico . Nueva York: Harper & Row. págs. 337–338. ISBN 978-0060904982.
↑ Strasak, Alexander M .; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Errores estadísticos en la investigación médica: una revisión de los errores comunes". Semanario médico suizo . 137 (3–4): 44–49. PMID 17299669 . En este artículo, cualquier cosa que no sea la mejor práctica estadística se equipara al posible uso indebido de las estadísticas. En unas pocas páginas se analizan 47 posibles errores estadísticos; errores en el diseño del estudio, análisis de datos, documentación, presentación e interpretación. "Los especialistas deben participar desde el principio en el diseño del estudio, ya que los errores en este punto pueden tener repercusiones importantes y afectar negativamente a todas las etapas posteriores de la investigación médica".
^ Indrayan, Abhaya (2007). "Falacias estadísticas en la investigación ortopédica" . Revista India de Ortopedia . 41 (1): 37–46. doi : 10.4103 / 0019-5413.30524 . PMC 2981893 . PMID 21124681 . Contiene una amplia lista de usos médicos indebidos de estadísticas de todo tipo.
^ Spirer, Spirer & Jaffe 1998 , capítulos 7 y 8.
^ Spirer, Spirer & Jaffe 1998 , capítulo 3.
^ Spirer, Spirer & Jaffe 1998 , capítulo 4.
^ Adler, Robert; John Ewing; Peter Taylor (2009). "Estadísticas de citas" . Ciencia estadística . 24 (1): 1-14. doi : 10.1214 / 09-STS285 . Los artículos científicos y las revistas académicas a menudo se clasifican por "impacto", es decir, el número de veces que se citan en publicaciones posteriores. Los matemáticos y estadísticos concluyen que el impacto (aunque relativamente objetivo) no es una medida muy significativa. "La única confianza en los datos de citas proporciona en el mejor de los casos una comprensión incompleta y, a menudo, superficial de la investigación, una comprensión que es válida sólo cuando se refuerza con otros juicios. Los números no son inherentemente superiores a los juicios sólidos".
^ Spirer, Spirer & Jaffe 1998 , título del capítulo.
^ Spirer, Spirer & Jaffe 1998 , capítulo 5.
^ Weatherburn, Don (noviembre de 2011), "Usos y abusos de las estadísticas delictivas" (PDF) , Boletín de justicia y crimen: Problemas contemporáneos en el crimen y la justicia , Oficina de estadísticas e investigación del crimen de Nueva Gales del Sur, 153 , ISBN 9781921824357, ISSN 1030-1046 , archivado desde el original el 21 de junio de 2014CS1 maint: URL no apta ( enlace ) Este informe australiano sobre estadísticas delictivas ofrece numerosos ejemplos de interpretación y mala interpretación de los datos. "El aumento en el acceso de los medios a la información sobre el crimen no ha ido acompañado de un aumento en la calidad de los informes de los medios sobre el crimen. El uso indebido de las estadísticas del crimen por los medios ha impedido el debate racional sobre la ley y el orden". Entre los presuntos abusos de los medios: uso selectivo de datos, denuncia selectiva de hechos, comentarios engañosos, tergiversación de hechos y titulares engañosos. La policía y los políticos también abusaron de las estadísticas.
^ Krugman, Paul (1994). Vender prosperidad: sentido económico y tonterías en la era de las expectativas disminuidas . Nueva York: WW Norton. pag. 111 . ISBN 0-393-03602-2.
^ Spirer, Spirer y Jaffe 1998 .
↑ Kahneman , 2013 , p. 102.
^ Moore y Notz , 2006 , p. 59.
^ Moore y Notz , 2006 , p. 97.
^ Moore y McCabe 2003 , págs. 252-254.
^ Moore y Notz , 2006 , p. 53, Encuestas por muestreo en el mundo real.
^ Freedman, Pisani & Purves 1998 , capítulo 22: Medir el empleo y el desempleo, p. 405.
^ Freedman, Pisani y Purves 1998 , págs. 389–390.
^ Farley, John W. (2003). Barrett, Stephen (ed.). "Líneas eléctricas y cáncer: nada que temer" . Quackwatch.
↑ Vince, Gaia (3 de junio de 2005). "Un gran estudio vincula las líneas eléctricas con el cáncer infantil" . Nuevo científico . Archivado desde el original el 16 de agosto de 2014.CS1 maint: URL no apta ( enlace )Citas: Draper, G. (2005). "Cáncer infantil en relación con la distancia de las líneas eléctricas de alta tensión en Inglaterra y Gales: un estudio de casos y controles" . BMJ . 330 (7503): 1290. doi : 10.1136 / bmj.330.7503.1290 . PMC 558197 . PMID 15933351 .
^ Moore y McCabe 2003 , págs. 463.
^ Rozeboom, William W. (1960). "La falacia de la prueba de significación de hipótesis nula". Boletín psicológico . 57 (5): 416–428. doi : 10.1037 / h0042040 . PMID 13744252 .
^ Moore y McCabe , 2003 , p. 466.
^ Neylon, C (2009). "Los científicos lideran el impulso para el intercambio de datos abiertos" . Información de investigación . Europa Science. 41 : 22-23. ISSN 1744-8026 . Archivado desde el original el 3 de diciembre de 2013. CS1 maint: URL no apta ( enlace )
^ Freedman, Pisani & Purves 1998 , capítulo 9: Más sobre correlaciones, §3: Algunos casos excepcionales
^ Seife, Charles (2011). Prueba: cómo te engañan los números . Nueva York: Penguin. pp. 203–205 y Apéndice C. ISBN 9780143120070. Analiza el notorio caso británico.
^ Royal Statistical Society (23 de octubre de 2001). " " Royal Statistical Society preocupada por cuestiones planteadas en el caso de Sally Clark " (PDF) . Archivado desde el original (PDF) el 24 de agosto de 2011. (28,0 KB) "
^ Hill, R. (2004). "Múltiples muertes infantiles súbitas - ¿coincidencia o más allá de la coincidencia?". Epidemiología pediátrica y perinatal . 18 (5): 320–6. doi : 10.1111 / j.1365-3016.2004.00560.x . PMID 15367318 .
^ Huff 1954 , capítulo 2.
^ Kahneman 2013 , capítulo 17.
^ Hooke 1983 , §50.
^ Campbell 1974 , capítulo 3: Estadísticas sin sentido .

Lectura adicional [ editar ]

Wikimedia Commons tiene medios relacionados con el mal uso de las estadísticas .

Wikiquote tiene citas relacionadas con: Uso indebido de estadísticas

Campbell, Stephen (1974). Defectos y falacias en el pensamiento estadístico . Prentice Hall. ISBN 0-486-43598-9.
Christensen, R .; Reichert, T. (1976). "Violaciones de la unidad de medida en el reconocimiento de patrones, ambigüedad e irrelevancia". Reconocimiento de patrones . 8 (4): 239–245. doi : 10.1016 / 0031-3203 (76) 90044-3 .
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "Uso indebido de estadísticas en investigaciones médicas" (PDF) . Revista europea de medicina general . 4 (3): 127-133. doi : 10.29333 / ejgm / 82507 . Archivado desde el original el 13 de noviembre de 2014.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "Revisión de confiabilidad y factores que afectan la confiabilidad" (PDF) . InterStat . Archivado desde el original el 28 de agosto de 2013.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Freedman, David; Pisani, Robert; Purves, Roger (1998). Estadística (3ª ed.). WW Norton. ISBN 978-0-393-97083-8.
Hooke, Robert (1983). Cómo distinguir a los mentirosos de los estadísticos . Nueva York: M. Dekker. ISBN 0-8247-1817-8.
Huff, Darrell (1954). Cómo mentir con las estadísticas . WW Norton & Company. LCCN 53013322 . OL 6138576M .
Kahneman, Daniel (2013). Pensando, rápido y lento . Nueva York: Farrar, Straus y Giroux. ISBN 9780374533557.
Moore, David; McCabe, George P. (2003). Introducción a la práctica de la estadística (4ª ed.). Nueva York: WH Freeman and Co. ISBN 0716796570.
Moore, David; Notz, William I. (2006). Estadística: conceptos y controversias (6ª ed.). Nueva York: WH Freeman. ISBN 9780716786368.
Spirer, Herbert; Spirer, Louise; Jaffe, AJ (1998). Estadísticas mal utilizadas (2ª ed. Revisada y ampliada). Nueva York: M. Dekker. ISBN 978-0824702113. El libro se basa en varios cientos de ejemplos de mal uso.
Oldberg, T. y R. Christensen (1995) "Medida errática" en NDE for the Energy Industry 1995 , The American Society of Mechanical Engineers. ISBN 0-7918-1298-7 (páginas 1 a 6) Publicado nuevamente en la Web por ndt.net
Oldberg, T. (2005) "Un problema ético en las estadísticas de confiabilidad de las pruebas de detección de defectos", discurso en el Capítulo Golden Gate de la Sociedad Estadounidense de Pruebas No Destructivas . Publicado en la Web por ndt.net
Stone, M. (2009) No figurar: El costoso descuido del razonamiento estadístico de Whitehall , Civitas, Londres. ISBN 1-906837-07-4
Galbraith, J .; Stone, M. (2011). "El abuso de la regresión en las fórmulas de asignación del Servicio Nacional de Salud: respuesta al ' documento de investigación de asignación de recursos' del Departamento de Salud de 2007 ". Revista de la Sociedad Real de Estadística, Serie A . 174 (3): 517–528. doi : 10.1111 / j.1467-985X.2010.00700.x .

[22] Se dispone de algunos datos sobre la precisión de las encuestas. Con respecto a una importante encuesta realizada por el gobierno de los Estados Unidos, "En términos relativos, tanto el error de muestreo como el error [sesgo] no muestral son minúsculos". ^[20] La diferencia entre los votos pronosticados por una encuesta privada y el recuento real de las elecciones presidenciales estadounidenses está disponible para su comparación en "Preferencias presidenciales del año de elección: Registro de precisión de la encuesta Gallup: 1936-2012" . Las predicciones se calcularon típicamente sobre la base de menos de 5000 opiniones de votantes probables. ^[21]

[FOOTNOTESpirerSpirerJaffe19981-1] Spirer, Spirer y Jaffe 1998 , p. 1.

[2] Gardenier, John; Resnik, David (2002). "El mal uso de la estadística: conceptos, herramientas y una agenda de investigación". Rendición de cuentas en la investigación: políticas y garantía de calidad . 9 (2): 65–74. doi : 10.1080 / 08989620212968 . PMID 12625352 .

[3] Fischer, David (1979). Falacias de los historiadores: hacia una lógica del pensamiento histórico . Nueva York: Harper & Row. págs. 337–338. ISBN 978-0060904982.

[4] Strasak, Alexander M .; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Errores estadísticos en la investigación médica: una revisión de los errores comunes". Semanario médico suizo . 137 (3–4): 44–49. PMID 17299669 . En este artículo, cualquier cosa que no sea la mejor práctica estadística se equipara al posible uso indebido de las estadísticas. En unas pocas páginas se analizan 47 posibles errores estadísticos; errores en el diseño del estudio, análisis de datos, documentación, presentación e interpretación. "Los especialistas deben participar desde el principio en el diseño del estudio, ya que los errores en este punto pueden tener repercusiones importantes y afectar negativamente a todas las etapas posteriores de la investigación médica".

[Indrayan2007-5] Indrayan, Abhaya (2007). "Falacias estadísticas en la investigación ortopédica" . Revista India de Ortopedia . 41 (1): 37–46. doi : 10.4103 / 0019-5413.30524 . PMC 2981893 . PMID 21124681 . Contiene una amplia lista de usos médicos indebidos de estadísticas de todo tipo.

[FOOTNOTESpirerSpirerJaffe1998chapters_7_&_8-6] Spirer, Spirer & Jaffe 1998 , capítulos 7 y 8.

[FOOTNOTESpirerSpirerJaffe1998chapter_3-7] Spirer, Spirer & Jaffe 1998 , capítulo 3.

[FOOTNOTESpirerSpirerJaffe1998chapter_4-8] Spirer, Spirer & Jaffe 1998 , capítulo 4.

[9] Adler, Robert; John Ewing; Peter Taylor (2009). "Estadísticas de citas" . Ciencia estadística . 24 (1): 1-14. doi : 10.1214 / 09-STS285 . Los artículos científicos y las revistas académicas a menudo se clasifican por "impacto", es decir, el número de veces que se citan en publicaciones posteriores. Los matemáticos y estadísticos concluyen que el impacto (aunque relativamente objetivo) no es una medida muy significativa. "La única confianza en los datos de citas proporciona en el mejor de los casos una comprensión incompleta y, a menudo, superficial de la investigación, una comprensión que es válida sólo cuando se refuerza con otros juicios. Los números no son inherentemente superiores a los juicios sólidos".

[FOOTNOTESpirerSpirerJaffe1998chapter_title-10] Spirer, Spirer & Jaffe 1998 , título del capítulo.

[FOOTNOTESpirerSpirerJaffe1998chapter_5-11] Spirer, Spirer & Jaffe 1998 , capítulo 5.

[12] Weatherburn, Don (noviembre de 2011), "Usos y abusos de las estadísticas delictivas" (PDF) , Boletín de justicia y crimen: Problemas contemporáneos en el crimen y la justicia , Oficina de estadísticas e investigación del crimen de Nueva Gales del Sur, 153 , ISBN 9781921824357, ISSN 1030-1046 , archivado desde el original el 21 de junio de 2014CS1 maint: URL no apta ( enlace ) Este informe australiano sobre estadísticas delictivas ofrece numerosos ejemplos de interpretación y mala interpretación de los datos. "El aumento en el acceso de los medios a la información sobre el crimen no ha ido acompañado de un aumento en la calidad de los informes de los medios sobre el crimen. El uso indebido de las estadísticas del crimen por los medios ha impedido el debate racional sobre la ley y el orden". Entre los presuntos abusos de los medios: uso selectivo de datos, denuncia selectiva de hechos, comentarios engañosos, tergiversación de hechos y titulares engañosos. La policía y los políticos también abusaron de las estadísticas.

[13] Krugman, Paul (1994). Vender prosperidad: sentido económico y tonterías en la era de las expectativas disminuidas . Nueva York: WW Norton. pag. 111 . ISBN 0-393-03602-2.

[FOOTNOTESpirerSpirerJaffe1998-14] Spirer, Spirer y Jaffe 1998 .

[FOOTNOTEKahneman2013102-15] Kahneman , 2013 , p. 102.

[FOOTNOTEMooreNotz200659-16] Moore y Notz , 2006 , p. 59.

[FOOTNOTEMooreNotz200697-17] Moore y Notz , 2006 , p. 97.

[FOOTNOTEMooreMcCabe2003252–254-18] Moore y McCabe 2003 , págs. 252-254.

[FOOTNOTEMooreNotz200653,_Sample_surveys_in_the_real_world-19] Moore y Notz , 2006 , p. 53, Encuestas por muestreo en el mundo real.

[FOOTNOTEFreedmanPisaniPurves1998chapter_22:_Measuring_Employment_and_Unemployment,_p._405-20] Freedman, Pisani & Purves 1998 , capítulo 22: Medir el empleo y el desempleo, p. 405.

[FOOTNOTEFreedmanPisaniPurves1998389–390-21] Freedman, Pisani y Purves 1998 , págs. 389–390.

[Farley2003-23] Farley, John W. (2003). Barrett, Stephen (ed.). "Líneas eléctricas y cáncer: nada que temer" . Quackwatch.

[powerlines-24] Vince, Gaia (3 de junio de 2005). "Un gran estudio vincula las líneas eléctricas con el cáncer infantil" . Nuevo científico . Archivado desde el original el 16 de agosto de 2014.CS1 maint: URL no apta ( enlace )Citas: Draper, G. (2005). "Cáncer infantil en relación con la distancia de las líneas eléctricas de alta tensión en Inglaterra y Gales: un estudio de casos y controles" . BMJ . 330 (7503): 1290. doi : 10.1136 / bmj.330.7503.1290 . PMC 558197 . PMID 15933351 .

[FOOTNOTEMooreMcCabe2003463-25] Moore y McCabe 2003 , págs. 463.

[Rozeboom1960-26] Rozeboom, William W. (1960). "La falacia de la prueba de significación de hipótesis nula". Boletín psicológico . 57 (5): 416–428. doi : 10.1037 / h0042040 . PMID 13744252 .

[FOOTNOTEMooreMcCabe2003466-27] Moore y McCabe , 2003 , p. 466.

[28] Neylon, C (2009). "Los científicos lideran el impulso para el intercambio de datos abiertos" . Información de investigación . Europa Science. 41 : 22-23. ISSN 1744-8026 . Archivado desde el original el 3 de diciembre de 2013. CS1 maint: URL no apta ( enlace )

[fpp3-29] Freedman, Pisani & Purves 1998 , capítulo 9: Más sobre correlaciones, §3: Algunos casos excepcionales

[30] Seife, Charles (2011). Prueba: cómo te engañan los números . Nueva York: Penguin. pp. 203–205 y Apéndice C. ISBN 9780143120070. Analiza el notorio caso británico.

[rss2-31] Royal Statistical Society (23 de octubre de 2001). " " Royal Statistical Society preocupada por cuestiones planteadas en el caso de Sally Clark " (PDF) . Archivado desde el original (PDF) el 24 de agosto de 2011. (28,0 KB) "

[32] Hill, R. (2004). "Múltiples muertes infantiles súbitas - ¿coincidencia o más allá de la coincidencia?". Epidemiología pediátrica y perinatal . 18 (5): 320–6. doi : 10.1111 / j.1365-3016.2004.00560.x . PMID 15367318 .

[FOOTNOTEHuff1954chapter_2-33] Huff 1954 , capítulo 2.

[FOOTNOTEKahneman2013chapter_17-34] Kahneman 2013 , capítulo 17.

[FOOTNOTEHooke1983§50-35] Hooke 1983 , §50.

[FOOTNOTECampbell1974[httpsbooksgooglecombooksidGtSV7rG6Iu4CpgPA25_chapter_3:_Meaningless_statistics]-36] Campbell 1974 , capítulo 3: Estadísticas sin sentido .

[1]