El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen estadísticas descriptivas simples casi idénticas , pero tienen distribuciones muy diferentes y parecen muy diferentes cuando se grafican . Cada conjunto de datos consta de once ( x , y ) puntos . Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de graficar los datos antes de analizarlos como el efecto de los valores atípicos y otras observaciones influyentes.sobre propiedades estadísticas. Describió que el artículo tenía la intención de contrarrestar la impresión entre los estadísticos de que "los cálculos numéricos son exactos, pero los gráficos son aproximados". [1] Se ha interpretado como un verdadero cuarteto musical . [2]
Datos
Para los cuatro conjuntos de datos:
Propiedad | Valor | Precisión |
---|---|---|
Media de x | 9 | exacto |
Varianza muestral de x : s2 x | 11 | exacto |
Media de y | 7,50 | a 2 decimales |
Varianza muestral de y : s2 y | 4.125 | ± 0,003 |
Correlación entre x y y | 0,816 | a 3 decimales |
Línea de regresión lineal | y = 3,00 + 0,500 x | a 2 y 3 decimales, respectivamente |
Coeficiente de determinación de la regresión lineal: | 0,67 | a 2 decimales |
- El primer gráfico de dispersión (arriba a la izquierda) parece ser una relación lineal simple , correspondiente a dos variables correlacionadas donde y podría modelarse como gaussiana con una media linealmente dependiente de x .
- El segundo gráfico (arriba a la derecha) no se distribuye normalmente; mientras que una relación entre las dos variables es obvia, no es lineal y el coeficiente de correlación de Pearson no es relevante. Sería más apropiado una regresión más general y el correspondiente coeficiente de determinación .
- En el tercer gráfico (abajo a la izquierda), la distribución es lineal, pero debería tener una línea de regresión diferente ( se hubiera requerido una regresión robusta ). La regresión calculada se compensa con el valor atípico que ejerce suficiente influencia para reducir el coeficiente de correlación de 1 a 0,816.
- Finalmente, el cuarto gráfico (abajo a la derecha) muestra un ejemplo en el que un punto de alto apalancamiento es suficiente para producir un alto coeficiente de correlación, aunque los otros puntos de datos no indican ninguna relación entre las variables.
El cuarteto todavía se usa a menudo para ilustrar la importancia de mirar un conjunto de datos gráficamente antes de comenzar a analizar de acuerdo con un tipo particular de relación, y la insuficiencia de las propiedades estadísticas básicas para describir conjuntos de datos realistas. [3] [4] [5] [6] [7]
Los conjuntos de datos son los siguientes. Los valores de x son los mismos para los primeros tres conjuntos de datos. [1]
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
X | y | X | y | X | y | X | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7,46 | 8.0 | 6.58 |
8.0 | 6,95 | 8.0 | 8.14 | 8.0 | 6,77 | 8.0 | 5.76 |
13,0 | 7.58 | 13,0 | 8,74 | 13,0 | 12,74 | 8.0 | 7.71 |
9.0 | 8,81 | 9.0 | 8,77 | 9.0 | 7.11 | 8.0 | 8,84 |
11,0 | 8.33 | 11,0 | 9.26 | 11,0 | 7.81 | 8.0 | 8.47 |
14.0 | 9,96 | 14.0 | 8,10 | 14.0 | 8,84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6,08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9.13 | 12,0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6,42 | 8.0 | 7,91 |
5,0 | 5,68 | 5,0 | 4,74 | 5,0 | 5.73 | 8.0 | 6,89 |
No se sabe cómo Anscombe creó sus conjuntos de datos. [8] Desde su publicación, se han desarrollado varios métodos para generar conjuntos de datos similares con estadísticas idénticas y gráficos diferentes. [8] [9] Uno de estos, el Datasaurus Dozen , consiste en puntos que trazan el contorno de un dinosaurio, más otros doce conjuntos de datos que tienen las mismas estadísticas de resumen. [10] [11] [12]
Ver también
Referencias
- ↑ a b Anscombe, FJ (1973). "Gráficos en análisis estadístico". Estadístico estadounidense . 27 (1): 17-21. doi : 10.1080 / 00031305.1973.10478966 . JSTOR 2682899 .
- ^ https://flat.io/score/60a8d8653374193bc2aa3633-anscombe-s-quartet
- ^ Elert, Glenn. "Regresión lineal" . El hipertexto de física .
- ^ Janert, Philipp K. (2010). Análisis de datos con herramientas de código abierto . O'Reilly Media . págs. 65–66 . ISBN 0-596-80235-8.
- ^ Chatterjee, Samprit; Hadi, Ali S. (2006). Análisis de regresión por ejemplo . John Wiley e hijos. pag. 91. ISBN 0-471-74696-7.
- ^ Saville, David J .; Wood, Graham R. (1991). Métodos estadísticos: El enfoque geométrico . Springer . pag. 418. ISBN 0-387-97517-9.
- ^ Tufte, Edward R. (2001). La presentación visual de información cuantitativa (2ª ed.). Cheshire, CT: Prensa de gráficos. ISBN 0-9613921-4-2.
- ^ a b Chatterjee, Sangit; Firat, Aykut (2007). "Generación de datos con estadísticas idénticas pero gráficos diferentes: un seguimiento del conjunto de datos de Anscombe". El estadístico estadounidense . 61 (3): 248-254. doi : 10.1198 / 000313007X220057 . JSTOR 27643902 .
- ^ Matejka, Justin; Fitzmaurice, George (2017). "Las mismas estadísticas, gráficos diferentes: generación de conjuntos de datos con apariencia variada y estadísticas idénticas a través de recocido simulado". Actas de la Conferencia CHI de 2017 sobre factores humanos en sistemas informáticos : 1290–1294. doi : 10.1145 / 3025453.3025912 .
- ^ Murray, Lori L .; Wilson, John G. (abril de 2021). "Generación de conjuntos de datos para enseñar la importancia del análisis de regresión" . Revista de Ciencias de la Decisión de Educación Innovadora . 19 (2): 157-166. doi : 10.1111 / dsji.12233 . ISSN 1540-4595 .
- ^ Andrienko, Natalia; Andrienko, Gennady; Fuchs, Georg; Slingsby, Aidan; Turkay, Cagatay; Wrobel, Stefan (2020), "Análisis visual para investigar y procesar datos" , Análisis visual para científicos de datos , Cham: Springer International Publishing, págs. 151–180, doi : 10.1007 / 978-3-030-56146-8_5 , ISBN 978-3-030-56145-1, consultado el 20 de abril de 2021
- ^ Matejka, Justin; Fitzmaurice, George (2017). "Las mismas estadísticas, gráficos diferentes: generación de conjuntos de datos con apariencia variada y estadísticas idénticas a través de recocido simulado" . Investigación de Autodesk . Consultado el 20 de abril de 2021 .
enlaces externos
- Departamento de Física, Universidad de Toronto
- Applet dinámico realizado en GeoGebra que muestra los datos y estadísticas y también permite arrastrar los puntos (Conjunto 5).
- Ejemplos animados de Autodesk llamados "Datasaurus Dozen".
- Documentación para los conjuntos de datos en R .