Un diagrama de mosaico (también conocido como diagrama de Marimekko ) es un método gráfico para visualizar datos de dos o más variables cualitativas. [1] Es la extensión multidimensional de spineplots, que muestran gráficamente la misma información para una sola variable. [2] Ofrece una visión general de los datos y permite reconocer relaciones entre diferentes variables. Por ejemplo, la independencia se muestra cuando todos los cuadros de las categorías tienen las mismas áreas. [3] Los gráficos de mosaico fueron introducidos por Hartigan y Kleiner en 1981 y ampliado por Friendly en 1994. [4] Los gráficos de mosaico también se denominan gráficos de Mekko debido a su parecido con un Marimekko impresión.
Al igual que con los gráficos de barras y los gráficos de columna, el área de los mosaicos, también conocida como tamaño del contenedor, es proporcional al número de observaciones dentro de esa categoría. [5]
Ejemplo
Un ejemplo clásico de tramas de mosaico utiliza datos de los pasajeros del Titanic . Los datos utilizados para este ejemplo tienen 2201 observaciones y 3 variables. Las variables son:
- el género de la persona (hombre / mujer)
- la clase (1ra, 2da y 3ra clase, o tripulación)
- ¿sobrevivió esta persona al hundimiento (sí / no)?
Las observaciones se compilaron en la siguiente tabla:
Género | Sobrevivió | Primera clase | 2da clase | 3ra clase | Tripulación |
---|---|---|---|---|---|
Masculino | No | 118 | 154 | 422 | 670 |
sí | 62 | 25 | 88 | 192 | |
Mujer | No | 4 | 13 | 106 | 3 |
sí | 141 | 93 | 90 | 20 |
Construcción de parcelas de mosaico
Pedido | Variable | Eje |
---|---|---|
1. | Género | Vertical |
2. | Clase | Horizontal |
3. | Sobrevivió | Vertical |
Las variables categóricas se ordenan primero. Luego, cada variable se asigna a un eje. En la tabla de la derecha, se presenta la secuencia y clasificación de este conjunto de datos. Otro orden resultará en un diagrama de mosaico diferente, es decir, el orden de las variables es significativo como para todos los diagramas multivariados.
En el borde izquierdo de la primera variable, primero graficamos "Género", lo que significa que dividimos los datos verticalmente en dos bloques: el bloque inferior corresponde a las mujeres, mientras que el superior (mucho más grande) a los hombres. Uno ve inmediatamente que aproximadamente una cuarta parte de los pasajeros eran mujeres y las tres cuartas partes restantes hombres.
A continuación, se aplica la segunda variable "Clase" al borde superior. Por tanto, las cuatro columnas verticales marcan los cuatro valores de esa variable (1º, 2º, 3º y tripulación). Estas columnas son de grosor variable, porque el ancho de la columna indica la proporción relativa del valor correspondiente en la población. La tripulación representa claramente el grupo masculino más grande, mientras que los pasajeros de tercera clase son el grupo femenino más numeroso. También se considera que el número de tripulantes mujeres ha sido marginal.
Finalmente se aplica la última variable ("Sobrevivido"), esta vez a lo largo del borde izquierdo con el resultado resaltado con sombra: los rectángulos gris oscuro representan a las personas que no sobrevivieron al desastre, los grises claros a las personas que sí. Se ve inmediatamente que las mujeres de la primera clase tienen la mayor probabilidad de supervivencia. Se considera que la probabilidad de supervivencia de las mujeres es mayor que la de los hombres (marginadas en todas las clases). De manera similar, una marginación sobre el género identifica a los pasajeros de primera clase como los que tienen más probabilidades de sobrevivir. En general, aproximadamente 1/3 de todas las personas sobrevivieron (proporción de áreas de color gris claro).
Propiedades
- Las variables mostradas son escalas categóricas u ordinales.
- La trama es de al menos dos variables. No existe un límite superior, pero demasiadas variables pueden resultar confusas en forma gráfica.
- El número de observaciones no está limitado, pero no se lee en la imagen.
- Las superficies de los campos rectangulares que están disponibles para una combinación de características son proporcionales al número de observaciones que tienen esta combinación de características.
- A diferencia de, por ejemplo, la gráfica de caja o la gráfica QQ , no es posible que la gráfica de mosaico represente un intervalo de confianza. Por tanto, el significado de las diferentes frecuencias de los distintos valores característicos no se puede observar visualmente.
Ver también
Referencias
- ^ Sandra D. Schlotzhauer (1 de abril de 2007). Estadísticas elementales con JMP . Instituto SAS. pag. 407. ISBN 978-1-59994-428-9.
- ^ Nuevas técnicas y tecnologías para la estadística II: Actas del segundo seminario de Bonn . IOS Press. 1 de enero de 1997. pág. 254. ISBN 978-90-5199-326-4.
- ^ Michael Friendly (1 de enero de 1991). Sistema SAS para gráficos estadísticos . Instituto SAS. págs. 512–. ISBN 978-1-55544-441-9.
- ^ SAS Institute (6 de septiembre de 2013). JMP 11 Análisis básico . Instituto SAS. págs. 251–. ISBN 978-1-61290-684-3.
- ^ Martin Theus; Simon Urbanek (23 de marzo de 2011). Gráficos interactivos para el análisis de datos: principios y ejemplos . Prensa CRC. ISBN 978-1-4200-1106-7.
Otras lecturas
- John Hartigan, Beat Kleiner: Mosaicos para tablas de contingencia . En: Ciencias de la Computación y Estadística: Actas del XIII Simposio sobre la Interfaz . 1981, S. 268-273.