A bagplot , o trama starburst , [1] [2] es un método en estadísticas sólidas para la visualización de dos o datos estadísticos tridimensionales, análoga a la unidimensional diagrama de caja . Introducido en 1999 por Rousseuw et al., El gráfico de bolsas permite visualizar la ubicación, la dispersión, la asimetría y los valores atípicos de un conjunto de datos. [3]
Construcción
La gráfica de bolsa consta de tres polígonos anidados , llamados "bolsa", "valla" y "bucle".
- El polígono interior, llamado bolsa , se construye sobre la base de la profundidad de Tukey , el menor número de observaciones que puede contener un semiplano que también contiene un punto dado. [4] Contiene como máximo el 50% de los puntos de datos.
- El más exterior de los tres polígonos, llamado cercado, no se dibuja como parte de la gráfica de bolsas, pero se usa para construirlo. Se forma inflando la bolsa por un cierto factor (generalmente 3). Las observaciones fuera de la cerca se marcan como valores atípicos . [5]
- Las observaciones que no están marcadas como valores atípicos están rodeadas por un bucle , el casco convexo de las observaciones dentro de la cerca. [6]
Se utiliza un símbolo de asterisco (*) cerca del centro del gráfico para marcar la mediana de profundidad, el punto con la mayor profundidad de Tukey posible. Las observaciones entre la bolsa y la cerca están marcadas por segmentos de línea, en una línea a la mediana de profundidad, conectándolos a la bolsa.
La versión tridimensional consta de una bolsa interior y exterior. [7] La bolsa exterior debe dibujarse en colores transparentes para que la bolsa interior permanezca visible.
Propiedades
El gráfico de bolsas es invariante bajo transformaciones afines del plano y robusto frente a valores atípicos. [8]
Referencias
- ^ Rousseeuw, Peter J .; Ruts I .; Tukey JW (1999). "La gráfica de bolsa: una gráfica de caja bivariada". El estadístico estadounidense . 53 (4): 382–387. doi : 10.1080 / 00031305.1999.10474494 .
- ^ Ronald K. Pearson (1 de abril de 2005). Minería de datos imperfectos: lidiar con la contaminación y los registros incompletos . SIAM. págs. 204–. ISBN 978-0-89871-582-8.
- ^ Dominique Haughton ; Jonathan Haughton (18 de septiembre de 2011). Análisis de los niveles de vida: desarrollo a través del lente de los datos de las encuestas de hogares . Saltador. págs. 14–. ISBN 978-1-4614-0385-2.
- ^ Sophie Dabo-Niang; Frédéric Ferraty (21 de mayo de 2008). Estadísticas funcionales y operativas . Saltador. págs. 204–. ISBN 978-3-7908-2062-1.
- ^ John C. Gower; Sugnet Gardner Lubbe; Niel J. Le Roux (23 de febrero de 2011). Entendiendo Biplots . John Wiley e hijos. págs. 59–. ISBN 978-1-119-97290-7.
- ^ Prabhanjan Narayanachar Tattar (24 de julio de 2013). R Desarrollo de aplicaciones estadísticas por ejemplo Guía para principiantes . Packt Publishing Ltd. págs. 203–. ISBN 978-1-84951-945-8.
- ^ Kruppa, Jochen J .; Jung K. (2017). "Identificación automatizada de valores atípicos multigrupo en datos moleculares de alto rendimiento utilizando bagplots y gemplots" . BMC Bioinformática . 18 : 232. doi : 10.1186 / s12859-017-1645-5 . PMC 5414140 .
- ^ Rajeev Raman; Robert Sedgewick; Matthias F. Stallmann (1 de enero de 2006). Actas del Octavo Taller de Ingeniería de Algoritmos y Experimentos y del Tercer Taller de Algoritmos Analíticos y Combinatoria . SIAM. págs. 62–. ISBN 978-0-89871-610-8.