Un histograma es una representación aproximada de la distribución de datos numéricos. Fue introducido por primera vez por Karl Pearson . [1] Para construir un histograma, el primer paso es " agrupar " (o " cubo ") el rango de valores, es decir, dividir todo el rango de valores en una serie de intervalos, y luego contar cuántos valores caen en cada intervalo. Los bins generalmente se especifican como intervalos consecutivos no superpuestos de una variable. Los contenedores (intervalos) deben ser adyacentes y a menudo (pero no es obligatorio) del mismo tamaño. [2]
Histograma | |
---|---|
Una de las siete herramientas básicas de la calidad | |
Primero descrito por | Karl Pearson |
Propósito | Evaluar de manera aproximada la distribución de probabilidad de una variable dada representando las frecuencias de las observaciones que ocurren en ciertos rangos de valores. |
Si los contenedores son del mismo tamaño, se erige un rectángulo sobre el contenedor con una altura proporcional a la frecuencia , el número de cajas en cada contenedor. También se puede normalizar un histograma para mostrar frecuencias "relativas". Luego muestra la proporción de casos que caen en cada una de varias categorías , con la suma de las alturas igual a 1.
Sin embargo, no es necesario que los contenedores tengan el mismo ancho; en ese caso, el rectángulo erigido se define para que su área sea proporcional a la frecuencia de casos en el contenedor. [3] El eje vertical no es la frecuencia sino la densidad de frecuencia , el número de casos por unidad de la variable en el eje horizontal. En los datos de la oficina del censo a continuación se muestran ejemplos de ancho de contenedor variable.
Como los contenedores adyacentes no dejan espacios, los rectángulos de un histograma se tocan entre sí para indicar que la variable original es continua. [4]
Los histogramas dan una idea aproximada de la densidad de la distribución subyacente de los datos y, a menudo, para la estimación de la densidad : estimar la función de densidad de probabilidad de la variable subyacente. El área total de un histograma utilizado para la densidad de probabilidad siempre se normaliza a 1. Si la longitud de los intervalos en el eje x son todos 1, entonces un histograma es idéntico a una gráfica de frecuencia relativa .
Se puede pensar en un histograma como una estimación simplista de la densidad del kernel , que utiliza un kernel para suavizar las frecuencias en los contenedores. Esto produce una función de densidad de probabilidad más suave , que en general reflejará con mayor precisión la distribución de la variable subyacente. La estimación de la densidad se puede trazar como una alternativa al histograma y, por lo general, se dibuja como una curva en lugar de un conjunto de cuadros. No obstante, se prefieren los histogramas en las aplicaciones, cuando es necesario modelar sus propiedades estadísticas. La variación correlacionada de una estimación de densidad de kernel es muy difícil de describir matemáticamente, mientras que es simple para un histograma en el que cada intervalo varía de forma independiente.
Una alternativa a la estimación de la densidad del kernel es el histograma desplazado promedio, [5] que es rápido de calcular y proporciona una estimación de curva suave de la densidad sin usar kernels.
El histograma es una de las siete herramientas básicas de control de calidad . [6]
Los histogramas a veces se confunden con gráficos de barras. Se usa un histograma para datos continuos , donde los contenedores representan rangos de datos, mientras que un gráfico de barras es un gráfico de variables categóricas . Algunos autores recomiendan que los gráficos de barras tengan espacios entre los rectángulos para aclarar la distinción. [7] [8]
Ejemplos de
Estos son los datos del histograma de la derecha, con 500 elementos:
Bin / Intervalo | Recuento / frecuencia |
---|---|
−3,5 a −2,51 | 9 |
−2,5 a −1,51 | 32 |
−1,5 a −0,51 | 109 |
−0,5 a 0,49 | 180 |
0,5 hasta 1,49 | 132 |
1,5 hasta 2,49 | 34 |
2,5 a 3,49 | 4 |
Las palabras utilizadas para describir los patrones en un histograma son: "simétrico", "sesgado a la izquierda" o "derecha", "unimodal", "bimodal" o "multimodal".
Simétrico, unimodal
Bimodal
Multimodal
Simétrico
Es una buena idea trazar los datos usando varios anchos de contenedor diferentes para obtener más información al respecto. A continuación, se muestra un ejemplo de los consejos que se dan en un restaurante.
Propinas usando un ancho de bandeja de $ 1, sesgado a la derecha, unimodal
Las propinas que usan un ancho de contenedor de 10c, todavía sesgado a la derecha, multimodal con modos en cantidades de $ y 50c, indica redondeo, también algunos valores atípicos
La Oficina del Censo de EE. UU. Descubrió que había 124 millones de personas que trabajaban fuera de sus hogares. [9] Utilizando sus datos sobre el tiempo que ocupan los viajes al trabajo, la siguiente tabla muestra que el número absoluto de personas que respondieron con tiempos de viaje "al menos 30 pero menos de 35 minutos" es mayor que los números de las categorías anteriores e inferiores. eso. Es probable que esto se deba a que las personas redondean el tiempo de viaje informado. [ cita requerida ] El problema de informar los valores como números redondeados de forma algo arbitraria es un fenómeno común cuando se recopilan datos de personas. [ cita requerida ]
Datos por números absolutos Intervalo Ancho Cantidad Cantidad / ancho 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Este histograma muestra el número de casos por intervalo unitario como la altura de cada bloque, de modo que el área de cada bloque es igual al número de personas en la encuesta que pertenecen a su categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos, con Q en miles.
Datos por proporción Intervalo Ancho Cantidad (Q) Q / total / ancho 0 5 4180 0,0067 5 5 13687 0.0221 10 5 18618 0.0300 15 5 19634 0.0316 20 5 17981 0.0290 25 5 7190 0.0116 30 5 16369 0.0264 35 5 3212 0,0052 40 5 4122 0,0066 45 15 9200 0,0049 60 30 6461 0,0017 90 60 3435 0,0005
Este histograma se diferencia del primero solo en la escala vertical . El área de cada bloque es la fracción del total que representa cada categoría, y el área total de todas las barras es igual a 1 (la fracción significa "todas"). La curva que se muestra es una estimación de densidad simple . Esta versión muestra proporciones y también se conoce como histograma de área unitaria.
En otras palabras, un histograma representa una distribución de frecuencia por medio de rectángulos cuyos anchos representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes: la altura de cada uno es la densidad de frecuencia promedio para el intervalo. Los intervalos se colocan juntos para mostrar que los datos representados por el histograma, aunque exclusivos, también son contiguos. (Por ejemplo, en un histograma es posible tener dos intervalos de conexión de 10,5 a 20,5 y 20,5 a 33,5, pero no dos intervalos de conexión de 10,5 a 20,5 y 22,5 a 32,5. Los intervalos vacíos se representan como vacíos y no se omiten). [10 ]
Definiciones matemáticas
Los datos utilizados para construir un histograma se generan mediante una función m i que cuenta el número de observaciones que caen en cada una de las categorías disjuntas (conocidas como bins ). Por lo tanto, si dejamos que n sea el número total de observaciones yk el número total de bins, los datos del histograma m i cumplen las siguientes condiciones:
Histograma acumulativo
Un histograma acumulativo es un mapeo que cuenta el número acumulativo de observaciones en todos los contenedores hasta el contenedor especificado. Es decir, el histograma acumulativo M i de un histograma m j se define como:
Número de contenedores y ancho
No existe el "mejor" número de contenedores, y diferentes tamaños de contenedores pueden revelar diferentes características de los datos. La agrupación de datos es al menos tan antigua como el trabajo de Graunt en el siglo XVII, pero no se dieron pautas sistemáticas [11] hasta el trabajo de Sturges en 1926. [12]
El uso de contenedores más anchos donde la densidad de los puntos de datos subyacentes es baja reduce el ruido debido a la aleatoriedad del muestreo; el uso de contenedores más estrechos donde la densidad es alta (por lo que la señal ahoga el ruido) proporciona una mayor precisión a la estimación de la densidad. Por lo tanto, puede resultar beneficioso variar el ancho del intervalo dentro de un histograma. No obstante, los contenedores de igual ancho se utilizan ampliamente.
Algunos teóricos han intentado determinar un número óptimo de bins, pero estos métodos suelen hacer suposiciones sólidas sobre la forma de la distribución. Dependiendo de la distribución de datos real y los objetivos del análisis, pueden ser apropiados diferentes anchos de contenedor, por lo que generalmente se necesita experimentación para determinar un ancho apropiado. Sin embargo, existen varias pautas y reglas prácticas útiles. [13]
El número de contenedores k se puede asignar directamente o se puede calcular a partir de un ancho de contenedor sugerido h como:
Los tirantes indican la función del techo .
Elección de raíz cuadrada
que toma la raíz cuadrada del número de puntos de datos en la muestra (utilizado por histogramas de Excel y muchos otros) y redondea al siguiente entero . [14]
Fórmula de Sturges
La fórmula de Sturges [12] se deriva de una distribución binomial y asume implícitamente una distribución aproximadamente normal.
Implícitamente basa los tamaños de los contenedores en el rango de los datos y puede funcionar mal si n <30, porque el número de contenedores será pequeño (menos de siete) y es poco probable que muestre bien las tendencias en los datos. También puede funcionar mal si los datos no se distribuyen normalmente.
Regla del arroz
La regla del arroz [15] se presenta como una alternativa simple a la regla de Sturges.
Fórmula de Doane
La fórmula de Doane [16] es una modificación de la fórmula de Sturges que intenta mejorar su rendimiento con datos anormales.
dónde es la asimetría estimada del tercer momento de la distribución y
Regla de referencia normal de Scott
dónde es la desviación estándar de la muestra . La regla de referencia normal de Scott [17] es óptima para muestras aleatorias de datos distribuidos normalmente, en el sentido de que minimiza el error cuadrático medio integrado de la estimación de densidad. [11]
La elección de Freedman-Diaconis
La regla Freedman-Diaconis es: [18] [11]
que se basa en el rango intercuartílico , denotado por IQR. Reemplaza 3.5σ de la regla de Scott con 2 IQR, que es menos sensible que la desviación estándar a valores atípicos en los datos.
Minimizar el error cuadrático estimado de la validación cruzada
Este enfoque de minimizar el error cuadrático medio integrado de la regla de Scott se puede generalizar más allá de las distribuciones normales, mediante el uso de la validación cruzada de dejar uno fuera: [19] [20]
Aquí, es el número de puntos de datos en el k- ésimo intervalo , y elegir el valor de h que minimice J minimizará el error cuadrático medio integrado.
La elección de Shimazaki y Shinomoto
La elección se basa en la minimización de una función de riesgo L 2 estimada [21]
dónde y son la varianza media y sesgada de un histograma con ancho de intervalo , y .
Anchos de bandeja variables
En lugar de elegir contenedores espaciados uniformemente, para algunas aplicaciones es preferible variar el ancho del contenedor. Esto evita contenedores con recuentos bajos. Un caso común es elegir contenedores equiprobables , donde se espera que el número de muestras en cada contenedor sea aproximadamente igual. Los contenedores se pueden elegir de acuerdo con alguna distribución conocida o se pueden elegir en función de los datos para que cada contenedor tengamuestras. Al trazar el histograma, la densidad de frecuencia se utiliza para el eje dependiente. Si bien todos los contenedores tienen aproximadamente el mismo área, las alturas del histograma se aproximan a la distribución de densidad.
Para contenedores equiprobables, se sugiere la siguiente regla para el número de contenedores: [22]
Esta elección de contenedores está motivada por la maximización de la potencia de una prueba de chi-cuadrado de Pearson que prueba si los contenedores contienen el mismo número de muestras. Más específicamente, para un intervalo de confianza dadose recomienda elegir entre 1/2 y 1 veces la siguiente ecuación: [23]
Dónde es la función probit . Siguiendo esta regla para daría entre y ; el coeficiente de 2 se elige como un valor fácil de recordar de este amplio óptimo.
Observación
Una buena razón por la que el número de contenedores debe ser proporcional a es el siguiente: supongamos que los datos se obtienen como Realizaciones independientes de una distribución de probabilidad acotada con densidad uniforme. Entonces, el histograma permanece igualmente "rugoso" comotiende al infinito. Si es el "ancho" de la distribución (p. ej., la desviación estándar o el rango entre cuartiles), entonces el número de unidades en un intervalo (la frecuencia) es de orden y el error estándar relativo es de orden. En comparación con el siguiente intervalo, el cambio relativo de la frecuencia es de ordensiempre que la derivada de la densidad no sea cero. Estos dos son del mismo orden si es de orden , así que eso es de orden . Esta simple elección de raíz cúbica también se puede aplicar a contenedores con un ancho no constante.
Aplicaciones
- En hidrología, el histograma y la función de densidad estimada de los datos de precipitación y descarga de ríos, analizados con una distribución de probabilidad , se utilizan para comprender mejor su comportamiento y frecuencia de ocurrencia. [25] Se muestra un ejemplo en la figura azul.
- En muchos programas de procesamiento de imágenes digitales hay una herramienta de histograma, que le muestra la distribución del contraste / brillo de los píxeles .
Ver también
- Binning de datos
- Estimación de densidad
- Estimación de la densidad del grano , un método más suave pero más complejo de estimación de la densidad
- Estimación de entropía
- Regla Freedman-Diaconis
- Histograma de imagen
- diagrama de Pareto
- Siete herramientas básicas de calidad
- Histogramas V-óptimo
Referencias
- ^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo" . Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de la ingeniería . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 .
- ^ Howitt, D .; Cramer, D. (2008). Introducción a la Estadística en Psicología (Cuarta ed.). Prentice Hall. ISBN 978-0-13-205161-3.
- ^ Freedman, D .; Pisani, R .; Purves, R. (1998). Estadística (Tercera ed.). WW Norton. ISBN 978-0-393-97083-8.
- ^ Charles Stangor (2011) "Métodos de investigación para las ciencias del comportamiento". Wadsworth, Cengage Learning. ISBN 9780840031976 .
- ^ David W. Scott (diciembre de 2009). "Histograma desplazado promediado" . Revisiones interdisciplinarias de Wiley: Estadística computacional . 2: 2 (2): 160-164. doi : 10.1002 / wics.54 .
- ^ Nancy R. Tague (2004). "Siete herramientas básicas de calidad" . La caja de herramientas de calidad . Milwaukee, Wisconsin : Calidad de la sociedad estadounidense . pag. 15 . Consultado el 5 de febrero de 2010 .
- ^ Naomi, Robbins. "Un histograma NO es un gráfico de barras" . Forbes . Consultado el 31 de julio de 2018 .
- ^ M. Eileen Magnello (diciembre de 2006). "Karl Pearson y los orígenes de la estadística moderna: un elástico se convierte en estadístico" . La Revista de Nueva Zelanda para la Historia y Filosofía de la Ciencia y la Tecnología . 1 volumen. OCLC 682200824 .
- ^ Censo de 2000 de Estados Unidos .
- ^ Dean, S. y Illowsky, B. (2009, 19 de febrero). Estadística descriptiva: histograma. Obtenido del sitio web de Connexions: http://cnx.org/content/m16298/1.11/
- ^ a b c Scott, David W. (1992). Estimación de densidad multivariante: teoría, práctica y visualización . Nueva York: John Wiley.
- ^ a b Sturges, HA (1926). "La elección de un intervalo de clases". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi : 10.1080 / 01621459.1926.10502161 . JSTOR 2965501 .
- ^ por ejemplo, § 5.6 "Estimación de densidad", WN Venables y BD Ripley, Estadísticas aplicadas modernas con S (2002), Springer, 4ª edición. ISBN 0-387-95457-0 .
- ^ "EXCEL Univariante: Histograma" .
- ^ Educación en estadística en línea: un curso de estudio multimedia ( http://onlinestatbook.com/ ). Líder del proyecto: David M. Lane, Rice University (capítulo 2 "Representación gráfica de distribuciones", sección "Histogramas")
- ^ Doane DP (1976) Clasificación de frecuencia estética. Estadístico estadounidense, 30: 181–183
- ^ Scott, David W. (1979). "Sobre histogramas óptimos y basados en datos". Biometrika . 66 (3): 605–610. doi : 10.1093 / biomet / 66.3.605 .
- ^ Freedman, David; Diaconis, P. (1981). "Sobre el histograma como estimador de densidad: teoría L 2 " (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . doi : 10.1007 / BF01025868 . S2CID 14437088 .
- ^ Wasserman, Larry (2004). Todas las estadísticas . Nueva York: Springer. pag. 310. ISBN 978-1-4419-2322-6.
- ^ Stone, Charles J. (1984). "Una regla de selección de histograma asintóticamente óptima" (PDF) . Actas de la conferencia de Berkeley en honor a Jerzy Neyman y Jack Kiefer .
- ^ Shimazaki, H .; Shinomoto, S. (2007). "Un método para seleccionar el tamaño del contenedor de un histograma de tiempo". Computación neuronal . 19 (6): 1503-1527. CiteSeerX 10.1.1.304.6404 . doi : 10.1162 / neco.2007.19.6.1503 . PMID 17444758 . S2CID 7781236 .
- ^ Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Prueba de bondad de ajuste de chi-cuadrado" . Manual electrónico de métodos estadísticos de NIST / SEMATECH . NIST / SEMATECH. pag. 7.2.1.1 . Consultado el 29 de marzo de 2019 .
- ^ Moore, David (1986). "3". En D'Agostino, Ralph; Stephens, Michael (eds.). Técnicas de bondad de ajuste . Nueva York, NY, EE.UU .: Marcel Dekker Inc. p. 70. ISBN 0-8247-7487-6.
- ^ Una calculadora para distribuciones de probabilidad y funciones de densidad
- ^ Una ilustración de histogramas y funciones de densidad de probabilidad
Otras lecturas
- Lancaster, HO Una introducción a las estadísticas médicas. John Wiley e hijos. 1974. ISBN 0-471-51250-8
enlaces externos
- Explorando histogramas , un ensayo de Aran Lunzer y Amelia McNamara
- Viaje al trabajo y lugar de trabajo (ubicación del documento del censo citado en el ejemplo)
- Histograma suave para señales e imágenes de algunas muestras
- Histogramas: Construcción, Análisis y Comprensión con enlaces externos y una aplicación a la Física de partículas.
- Un método para seleccionar el tamaño del contenedor de un histograma
- Histogramas: teoría y práctica , algunas excelentes ilustraciones de algunos de los conceptos de ancho de contenedor derivados anteriormente.
- Histogramas de la manera correcta
- Generador de histogramas interactivo
- Función de Matlab para trazar buenos histogramas
- Histograma dinámico en MS Excel
- Construcción y manipulación de histogramas mediante subprogramas de Java y gráficos en SOCR
- Caja de herramientas para construir los mejores histogramas