En estadística , una relación espuria o correlación espuria [1] [2] es una relación matemática en la que dos o más eventos o variables están asociados pero no causalmente relacionados , debido a la coincidencia o la presencia de un determinado tercer factor invisible (referido como una "variable de respuesta común", "factor de confusión" o " variable al acecho ").
Ejemplos de
Un ejemplo de una relación espuria se puede encontrar en la literatura de series de tiempo , donde una regresión espuria es una regresión que proporciona evidencia estadística engañosa de una relación lineal entre variables independientes no estacionarias . De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables. [3] [4] En particular, es probable que dos variables económicas nominales estén correlacionadas entre sí, incluso cuando ninguna tiene un efecto causal sobre la otra, porque cada una es igual a una variable real multiplicada por el nivel de precios , y la presencia común de el nivel de precios en las dos series de datos les imparte correlación. (Véase también correlación espuria de proporciones ).
Otro ejemplo de una relación espuria se puede ver al examinar las ventas de helados de una ciudad . Las ventas pueden ser más altas cuando la tasa de ahogamientos en las piscinas de la ciudad es más alta. Alegar que las ventas de helados provocan ahogamiento, o viceversa, implicaría una relación falsa entre los dos. En realidad, una ola de calor puede haber causado ambos. La ola de calor es un ejemplo de una variable oculta o invisible, también conocida como variable de confusión .
Otro ejemplo común es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de manantiales y el número de bebés humanos nacidos en ese momento. Por supuesto que no hubo conexión causal; estaban correlacionados entre sí solo porque estaban correlacionados con el clima nueve meses antes de las observaciones. [5] Sin embargo, Höfer et al. (2004) mostró que la correlación es más fuerte que las variaciones climáticas, ya que pudo demostrar en la Alemania posterior a la reunificación que, si bien el número de partos clínicos no se relacionó con el aumento de la población de cigüeñas, los partos fuera del hospital se correlacionaron con la población de cigüeñas. [6]
En casos raros, puede ocurrir una relación espuria entre dos variables completamente no relacionadas sin ninguna variable de confusión, como fue el caso entre el éxito del equipo de fútbol profesional Washington Redskins en un juego específico antes de cada elección presidencial y el éxito del partido político del presidente en ejercicio. en dicha elección. Durante 16 elecciones consecutivas entre 1940 y 2000, la Regla de los Pieles Rojas coincidió correctamente con si el partido político del presidente en ejercicio retendría o perdería la presidencia. La regla finalmente falló poco después de que Elias Sports Bureau descubrió la correlación en 2000; en 2004, 2012 y 2016, los resultados del juego de los Redskins y la elección no coincidieron. [7] [8] [9]
Evaluación de la hipótesis
A menudo, uno prueba una hipótesis nula de no correlación entre dos variables y elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos se hubiera producido en menos del (digamos) 5% de las muestras de datos si la hipótesis nula fuera verdadera. Mientras que una verdadera hipótesis nula será aceptada el 95% de las veces, el otro 5% de las veces que tenga un verdadero nulo de no correlación, una correlación cero será rechazada erróneamente, provocando la aceptación de una correlación que es espuria (un evento conocido como Tipo Me equivoco ). Aquí, la correlación espuria en la muestra resultó de la selección aleatoria de una muestra que no reflejaba las verdaderas propiedades de la población subyacente.
Detectar relaciones espúreas
El término "relación espuria" se usa comúnmente en estadística y, en particular, en técnicas de investigación experimental , las cuales intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables mediadoras , (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espúreas.
Experimentos
En los experimentos, las relaciones espúreas a menudo se pueden identificar controlando otros factores, incluidos aquellos que se han identificado teóricamente como posibles factores de confusión. Por ejemplo, considere a un investigador que intenta determinar si un nuevo fármaco mata las bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, la bacteria muere. Pero para ayudar a descartar la presencia de una variable de confusión, otro cultivo se somete a condiciones que son lo más idénticas posible a las que enfrenta el cultivo mencionado en primer lugar, pero el segundo cultivo no está sujeto a la droga. Si hay un factor de confusión invisible en esas condiciones, este cultivo de control también morirá, por lo que no se puede extraer ninguna conclusión de la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si la cultura de control no muere, el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.
Análisis estadísticos no experimentales
Las disciplinas cuyos datos son en su mayoría no experimentales, como la economía , suelen emplear datos de observación para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría . El principal método estadístico en econometría es el análisis de regresión multivariable . Normalmente una relación lineal como
se hipotetiza, en el que es la variable dependiente (hipotetizada como la variable causada), para j = 1, ..., k es la j- ésima variable independiente (hipotetizada como una variable causal), yes el término de error (que contiene los efectos combinados de todas las demás variables causales, que no deben correlacionarse con las variables independientes incluidas). Si hay razones para creer que ninguno de loss es causado por y , luego estimaciones de los coeficientesson obtenidas. Si la hipótesis nula de que es rechazada, entonces la hipótesis alternativa de que y equivalentemente que las causas y no se pueden rechazar. Por otro lado, si la hipótesis nula de que no puede rechazarse, entonces, de manera equivalente, la hipótesis de que no hay efecto causal de on y no se puede rechazar. Aquí, la noción de causalidad es una de causalidad contributiva : si el valor verdadero, luego un cambio en resultará en un cambio en y a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie de tal manera que compense exactamente su efecto; así un cambio enno es suficiente para cambiar y . Asimismo, un cambio enNo es necesario cambiar y , porque un cambio en y podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causal incluida en el modelo).
El análisis de regresión controla otras variables relevantes incluyéndolas como regresores (variables explicativas). Esto ayuda a evitar una inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causante como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura incluyéndola directamente en la regresión, por lo que ese efecto no se considerará un efecto espurio de la variable potencialmente causante de interés. Además, el uso de regresión multivariante ayuda a evitar inferir erróneamente que un efecto indirecto de, digamos x 1 (por ejemplo, x 1 → x 2 → y ) es un efecto directo ( x 1 → y ).
Así como un experimentador debe tener cuidado de emplear un diseño experimental que controle todos los factores de confusión, el usuario de la regresión múltiple también debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores. Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error de forma predeterminada, y si el término de error resultante se correlaciona con uno (o más) de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente ( ver sesgo de variable omitida ).
Además del análisis de regresión, los datos se pueden examinar para determinar si existe la causalidad de Granger . La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre y .
Otras relaciones
Hay varias otras relaciones definidas en el análisis estadístico de la siguiente manera.
- Relación directa
- Relación mediadora
- Relación moderadora
Ver también
- Causalidad
- La correlación no implica causa
- Correlación ilusoria
- Especificación del modelo
- Sesgo de variable omitida
- Falacia post hoc
- Validación del modelo estadístico
Notas al pie
- ^ Burns, William C., " Correlaciones espurias ", 1997.
- ^ Perla, Judea . "Serie de conferencias de investigación de la 81ª Facultad de UCLA" . singapore.cs.ucla.edu . Consultado el 10 de noviembre de 2019 .
- ^ Yule, G. Udny (1 de enero de 1926). "¿Por qué a veces obtenemos correlaciones sin sentido entre series de tiempo? Un estudio en muestreo y la naturaleza de las series de tiempo" . Revista de la Royal Statistical Society . 89 (1): 1–63. doi : 10.2307 / 2341482 . JSTOR 2341482 . S2CID 126346450 .
- ^ Granger, Clive WJ; Ghysels, Eric; Swanson, Norman R .; Watson, Mark W. (2001). Ensayos en econometría: artículos recopilados de Clive WJ Granger . Prensa de la Universidad de Cambridge. ISBN 978-0521796491.
- ^ Sapsford, Roger; Jupp, Victor, eds. (2006). Recopilación y análisis de datos . Sabio. ISBN 0-7619-4362-5.
- ^ Höfer, Thomas; Hildegard Przyrembel; Silvia Verleger (2004). "Nueva evidencia de la teoría de la cigüeña". Epidemiología pediátrica y perinatal . 18 (1): 18-22. doi : 10.1111 / j.1365-3016.2003.00534.x . PMID 14738551 .
- ^ Hofheimer, Bill (30 de octubre de 2012). " ' Regla de los pieles rojas': Hirdt de MNF sobre la intersección del fútbol y la política" . ESPN . Consultado el 16 de octubre de 2016 .
- ^ Manker, Rob (7 de noviembre de 2012). "Regla de los pieles rojas: la victoria de Barack Obama sobre Mitt Romney aborda el predictor presidencial de su primera derrota" . Chicago Tribune . Consultado el 8 de noviembre de 2012 .
- ^ Pohl, Robert S. (2013). Leyendas urbanas y tradición histórica de Washington . The History Press. págs. 78–80. ISBN 978-1625846648.
Referencias
- Banerjee, A .; Dolado, J .; Galbraith, JW; Hendry, DF (1993). Cointegración, corrección de errores y análisis econométrico de datos no estacionarios . Prensa de la Universidad de Oxford. págs. 70–81. ISBN 0-19-828810-7.
- Pearl, Judea (2000). Causalidad: modelos, razonamiento e inferencia . Prensa de la Universidad de Cambridge. ISBN 0521773628.
enlaces externos
- Correlaciones espurias : una colección de ejemplos