Histograma

Un histograma es una representación aproximada de la distribución de datos numéricos. Fue introducido por primera vez por Karl Pearson . ^[1] Para construir un histograma, el primer paso es " agrupar " (o " cubo ") el rango de valores, es decir, dividir todo el rango de valores en una serie de intervalos, y luego contar cuántos valores caen en cada intervalo. Los bins generalmente se especifican como intervalos consecutivos no superpuestos de una variable. Los contenedores (intervalos) deben ser adyacentes y a menudo (pero no es obligatorio) del mismo tamaño. ^[2]

Histograma

Una de las siete herramientas básicas de la calidad
Primero descrito por	Karl Pearson
Propósito	Evaluar de manera aproximada la distribución de probabilidad de una variable dada representando las frecuencias de las observaciones que ocurren en ciertos rangos de valores.

Si los contenedores son del mismo tamaño, se erige un rectángulo sobre el contenedor con una altura proporcional a la frecuencia , el número de cajas en cada contenedor. También se puede normalizar un histograma para mostrar frecuencias "relativas". Luego muestra la proporción de casos que caen en cada una de varias categorías , con la suma de las alturas igual a 1.

Sin embargo, no es necesario que los contenedores tengan el mismo ancho; en ese caso, el rectángulo erigido se define para que su área sea proporcional a la frecuencia de casos en el contenedor. ^[3] El eje vertical no es la frecuencia sino la densidad de frecuencia , el número de casos por unidad de la variable en el eje horizontal. En los datos de la oficina del censo a continuación se muestran ejemplos de ancho de contenedor variable.

Como los contenedores adyacentes no dejan espacios, los rectángulos de un histograma se tocan entre sí para indicar que la variable original es continua. ^[4]

Los histogramas dan una idea aproximada de la densidad de la distribución subyacente de los datos y, a menudo, para la estimación de la densidad : estimar la función de densidad de probabilidad de la variable subyacente. El área total de un histograma utilizado para la densidad de probabilidad siempre se normaliza a 1. Si la longitud de los intervalos en el eje x son todos 1, entonces un histograma es idéntico a una gráfica de frecuencia relativa .

Se puede pensar en un histograma como una estimación simplista de la densidad del kernel , que utiliza un kernel para suavizar las frecuencias en los contenedores. Esto produce una función de densidad de probabilidad más suave , que en general reflejará con mayor precisión la distribución de la variable subyacente. La estimación de la densidad se puede trazar como una alternativa al histograma y, por lo general, se dibuja como una curva en lugar de un conjunto de cuadros. No obstante, se prefieren los histogramas en las aplicaciones, cuando es necesario modelar sus propiedades estadísticas. La variación correlacionada de una estimación de densidad de kernel es muy difícil de describir matemáticamente, mientras que es simple para un histograma en el que cada intervalo varía de forma independiente.

Una alternativa a la estimación de la densidad del kernel es el histograma desplazado promedio, ^[5] que es rápido de calcular y proporciona una estimación de curva suave de la densidad sin usar kernels.

El histograma es una de las siete herramientas básicas de control de calidad . ^[6]

Los histogramas a veces se confunden con gráficos de barras. Se usa un histograma para datos continuos , donde los contenedores representan rangos de datos, mientras que un gráfico de barras es un gráfico de variables categóricas . Algunos autores recomiendan que los gráficos de barras tengan espacios entre los rectángulos para aclarar la distinción. ^[7]^[8]

Ejemplos de

Estos son los datos del histograma de la derecha, con 500 elementos:

Bin / Intervalo	Recuento / frecuencia
−3,5 a −2,51	9
−2,5 a −1,51	32
−1,5 a −0,51	109
−0,5 a 0,49	180
0,5 hasta 1,49	132
1,5 hasta 2,49	34
2,5 a 3,49	4

Las palabras utilizadas para describir los patrones en un histograma son: "simétrico", "sesgado a la izquierda" o "derecha", "unimodal", "bimodal" o "multimodal".

Simétrico, unimodal
Sesgado a la derecha
Sesgado a la izquierda
Bimodal
Multimodal
Simétrico

Es una buena idea trazar los datos usando varios anchos de contenedor diferentes para obtener más información al respecto. A continuación, se muestra un ejemplo de los consejos que se dan en un restaurante.

Propinas usando un ancho de bandeja de $ 1, sesgado a la derecha, unimodal
Las propinas que usan un ancho de contenedor de 10c, todavía sesgado a la derecha, multimodal con modos en cantidades de $ y 50c, indica redondeo, también algunos valores atípicos

La Oficina del Censo de EE. UU. Descubrió que había 124 millones de personas que trabajaban fuera de sus hogares. ^[9] Utilizando sus datos sobre el tiempo que ocupan los viajes al trabajo, la siguiente tabla muestra que el número absoluto de personas que respondieron con tiempos de viaje "al menos 30 pero menos de 35 minutos" es mayor que los números de las categorías anteriores e inferiores. eso. Es probable que esto se deba a que las personas redondean el tiempo de viaje informado. ^{[ cita requerida ]} El problema de informar los valores como números redondeados de forma algo arbitraria es un fenómeno común cuando se recopilan datos de personas. ^{[ cita requerida ]}

Histograma del tiempo de viaje (al trabajo), censo de 2000 de EE. UU. El área bajo la curva es igual al número total de casos. Este diagrama usa Q / ancho de la tabla.

Datos por números absolutos
Intervalo	Ancho	Cantidad	Cantidad / ancho
0	5	4180	836
5	5	13687	2737
10	5	18618	3723
15	5	19634	3926
20	5	17981	3596
25	5	7190	1438
30	5	16369	3273
35	5	3212	642
40	5	4122	824
45	15	9200	613
60	30	6461	215
90	60	3435	57

Este histograma muestra el número de casos por intervalo unitario como la altura de cada bloque, de modo que el área de cada bloque es igual al número de personas en la encuesta que pertenecen a su categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos, con Q en miles.

Histograma del tiempo de viaje (al trabajo), censo de 2000 de EE. UU. El área bajo la curva es igual a 1. Este diagrama usa Q / total / ancho de la tabla.

Datos por proporción
Intervalo	Ancho	Cantidad (Q)	Q / total / ancho
0	5	4180	0,0067
5	5	13687	0.0221
10	5	18618	0.0300
15	5	19634	0.0316
20	5	17981	0.0290
25	5	7190	0.0116
30	5	16369	0.0264
35	5	3212	0,0052
40	5	4122	0,0066
45	15	9200	0,0049
60	30	6461	0,0017
90	60	3435	0,0005

Este histograma se diferencia del primero solo en la escala vertical . El área de cada bloque es la fracción del total que representa cada categoría, y el área total de todas las barras es igual a 1 (la fracción significa "todas"). La curva que se muestra es una estimación de densidad simple . Esta versión muestra proporciones y también se conoce como histograma de área unitaria.

En otras palabras, un histograma representa una distribución de frecuencia por medio de rectángulos cuyos anchos representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes: la altura de cada uno es la densidad de frecuencia promedio para el intervalo. Los intervalos se colocan juntos para mostrar que los datos representados por el histograma, aunque exclusivos, también son contiguos. (Por ejemplo, en un histograma es posible tener dos intervalos de conexión de 10,5 a 20,5 y 20,5 a 33,5, pero no dos intervalos de conexión de 10,5 a 20,5 y 22,5 a 32,5. Los intervalos vacíos se representan como vacíos y no se omiten). ^{[10 ]}

Definiciones matemáticas

Un histograma ordinario y uno acumulativo de los mismos datos. Los datos que se muestran son una muestra aleatoria de 10,000 puntos de una distribución normal con una media de 0 y una desviación estándar de 1.

Los datos utilizados para construir un histograma se generan mediante una función m _i que cuenta el número de observaciones que caen en cada una de las categorías disjuntas (conocidas como bins ). Por lo tanto, si dejamos que n sea el número total de observaciones yk el número total de bins, los datos del histograma m _i cumplen las siguientes condiciones:

{\ Displaystyle n = \ sum _ {i = 1} ^ {k} {m_ {i}}.}

Histograma acumulativo

Un histograma acumulativo es un mapeo que cuenta el número acumulativo de observaciones en todos los contenedores hasta el contenedor especificado. Es decir, el histograma acumulativo M _i de un histograma m _j se define como:

{\ Displaystyle M_ {i} = \ sum _ {j = 1} ^ {i} {m_ {j}}.}

Número de contenedores y ancho

No existe el "mejor" número de contenedores, y diferentes tamaños de contenedores pueden revelar diferentes características de los datos. La agrupación de datos es al menos tan antigua como el trabajo de Graunt en el siglo XVII, pero no se dieron pautas sistemáticas ^[11] hasta el trabajo de Sturges en 1926. ^[12]

El uso de contenedores más anchos donde la densidad de los puntos de datos subyacentes es baja reduce el ruido debido a la aleatoriedad del muestreo; el uso de contenedores más estrechos donde la densidad es alta (por lo que la señal ahoga el ruido) proporciona una mayor precisión a la estimación de la densidad. Por lo tanto, puede resultar beneficioso variar el ancho del intervalo dentro de un histograma. No obstante, los contenedores de igual ancho se utilizan ampliamente.

Algunos teóricos han intentado determinar un número óptimo de bins, pero estos métodos suelen hacer suposiciones sólidas sobre la forma de la distribución. Dependiendo de la distribución de datos real y los objetivos del análisis, pueden ser apropiados diferentes anchos de contenedor, por lo que generalmente se necesita experimentación para determinar un ancho apropiado. Sin embargo, existen varias pautas y reglas prácticas útiles. ^[13]

El número de contenedores k se puede asignar directamente o se puede calcular a partir de un ancho de contenedor sugerido h como:

{\ Displaystyle k = \ left \ lceil {\ frac {\ max x- \ min x} {h}} \ right \ rceil.}

Los tirantes indican la función del techo .

Elección de raíz cuadrada

{\ Displaystyle k = \ lceil {\ sqrt {n}} \ rceil \,}

que toma la raíz cuadrada del número de puntos de datos en la muestra (utilizado por histogramas de Excel y muchos otros) y redondea al siguiente entero . ^[14]

Fórmula de Sturges

La fórmula de Sturges ^[12] se deriva de una distribución binomial y asume implícitamente una distribución aproximadamente normal.

{\ Displaystyle k = \ lceil \ log _ {2} n \ rceil +1, \,}

Implícitamente basa los tamaños de los contenedores en el rango de los datos y puede funcionar mal si n <30, porque el número de contenedores será pequeño (menos de siete) y es poco probable que muestre bien las tendencias en los datos. También puede funcionar mal si los datos no se distribuyen normalmente.

Regla del arroz

{\ Displaystyle k = \ lceil 2 {\ sqrt [{3}] {n}} \ rceil,}

La regla del arroz ^[15] se presenta como una alternativa simple a la regla de Sturges.

Fórmula de Doane

La fórmula de Doane ^[16] es una modificación de la fórmula de Sturges que intenta mejorar su rendimiento con datos anormales.

{\ Displaystyle k = 1 + \ log _ {2} (n) + \ log _ {2} \ left (1 + {\ frac {| g_ {1} |} {\ sigma _ {g_ {1}}} }\derecho)}

dónde ${\ Displaystyle g_ {1}}$ es la asimetría estimada del tercer momento de la distribución y

{\ Displaystyle \ sigma _ {g_ {1}} = {\ sqrt {\ frac {6 (n-2)} {(n + 1) (n + 3)}}}}

Regla de referencia normal de Scott

{\ Displaystyle h = {\ frac {3,49 {\ hat {\ sigma}}} {\ sqrt [{3}] {n}}},}

dónde ${\ Displaystyle {\ hat {\ sigma}}}$ es la desviación estándar de la muestra . La regla de referencia normal de Scott ^[17] es óptima para muestras aleatorias de datos distribuidos normalmente, en el sentido de que minimiza el error cuadrático medio integrado de la estimación de densidad. ^[11]

La elección de Freedman-Diaconis

La regla Freedman-Diaconis es: ^[18]^[11]

{\ Displaystyle h = 2 {\ frac {\ operatorname {IQR} (x)} {\ sqrt [{3}] {n}}},}

que se basa en el rango intercuartílico , denotado por IQR. Reemplaza 3.5σ de la regla de Scott con 2 IQR, que es menos sensible que la desviación estándar a valores atípicos en los datos.

Minimizar el error cuadrático estimado de la validación cruzada

Este enfoque de minimizar el error cuadrático medio integrado de la regla de Scott se puede generalizar más allá de las distribuciones normales, mediante el uso de la validación cruzada de dejar uno fuera: ^[19]^[20]

{\ Displaystyle {\ underset {h} {\ operatorname {arg \, min}}} {\ hat {J}} (h) = {\ underset {h} {\ operatorname {arg \, min}}} \ left ({\ frac {2} {(n-1) h}} - {\ frac {n + 1} {n ^ {2} (n-1) h}} \ sum _ {k} N_ {k} ^ {2} \ right)}

Aquí, ${\ Displaystyle N_ {k}}$ es el número de puntos de datos en el k- ésimo intervalo , y elegir el valor de h que minimice J minimizará el error cuadrático medio integrado.

La elección de Shimazaki y Shinomoto

La elección se basa en la minimización de una función de riesgo L ² estimada ^[21]

{\ Displaystyle {\ underset {h} {\ operatorname {arg \, min}}} {\ frac {2 {\ bar {m}} - v} {h ^ {2}}}}

dónde ${\ Displaystyle \ textstyle {\ bar {m}}}$ y ${\ Displaystyle \ textstyle v}$ son la varianza media y sesgada de un histograma con ancho de intervalo ${\ Displaystyle \ textstyle h}$ , ${\ Displaystyle \ textstyle {\ bar {m}} = {\ frac {1} {k}} \ sum _ {i = 1} ^ {k} m_ {i}}$ y ${\ Displaystyle \ textstyle v = {\ frac {1} {k}} \ sum _ {i = 1} ^ {k} (m_ {i} - {\ bar {m}}) ^ {2}}$ .

Anchos de bandeja variables

En lugar de elegir contenedores espaciados uniformemente, para algunas aplicaciones es preferible variar el ancho del contenedor. Esto evita contenedores con recuentos bajos. Un caso común es elegir contenedores equiprobables , donde se espera que el número de muestras en cada contenedor sea aproximadamente igual. Los contenedores se pueden elegir de acuerdo con alguna distribución conocida o se pueden elegir en función de los datos para que cada contenedor tenga ${\ Displaystyle \ approx n / k}$ muestras. Al trazar el histograma, la densidad de frecuencia se utiliza para el eje dependiente. Si bien todos los contenedores tienen aproximadamente el mismo área, las alturas del histograma se aproximan a la distribución de densidad.

Para contenedores equiprobables, se sugiere la siguiente regla para el número de contenedores: ^[22]

{\ Displaystyle k = 2n ^ {2/5}}

Esta elección de contenedores está motivada por la maximización de la potencia de una prueba de chi-cuadrado de Pearson que prueba si los contenedores contienen el mismo número de muestras. Más específicamente, para un intervalo de confianza dado ${\ Displaystyle \ alpha}$ se recomienda elegir entre 1/2 y 1 veces la siguiente ecuación: ^[23]

{\ Displaystyle k = 4 \ left ({\ frac {2n ^ {2}} {\ Phi ^ {- 1} (\ alpha)}} \ right) ^ {\ frac {1} {5}}}

Dónde ${\ Displaystyle \ Phi ^ {- 1}}$ es la función probit . Siguiendo esta regla para ${\ Displaystyle \ alpha = 0.05}$ daría entre ${\ Displaystyle 1.88n ^ {2/5}}$ y ${\ Displaystyle 3.77n ^ {2/5}}$ ; el coeficiente de 2 se elige como un valor fácil de recordar de este amplio óptimo.

Observación

Una buena razón por la que el número de contenedores debe ser proporcional a ${\ Displaystyle {\ sqrt [{3}] {n}}}$ es el siguiente: supongamos que los datos se obtienen como ${\ Displaystyle n}$ Realizaciones independientes de una distribución de probabilidad acotada con densidad uniforme. Entonces, el histograma permanece igualmente "rugoso" como ${\ Displaystyle n}$ tiende al infinito. Si ${\ Displaystyle s}$ es el "ancho" de la distribución (p. ej., la desviación estándar o el rango entre cuartiles), entonces el número de unidades en un intervalo (la frecuencia) es de orden ${\ Displaystyle nh / s}$ y el error estándar relativo es de orden ${\ Displaystyle {\ sqrt {s / (nh)}}}$ . En comparación con el siguiente intervalo, el cambio relativo de la frecuencia es de orden ${\ Displaystyle h / s}$ siempre que la derivada de la densidad no sea cero. Estos dos son del mismo orden si ${\ Displaystyle h}$ es de orden ${\ Displaystyle s / {\ sqrt [{3}] {n}}}$ , así que eso ${\ Displaystyle k}$ es de orden ${\ Displaystyle {\ sqrt [{3}] {n}}}$ . Esta simple elección de raíz cúbica también se puede aplicar a contenedores con un ancho no constante.

Función de histograma y densidad para una distribución de Gumbel ^[24]

Aplicaciones

En hidrología, el histograma y la función de densidad estimada de los datos de precipitación y descarga de ríos, analizados con una distribución de probabilidad , se utilizan para comprender mejor su comportamiento y frecuencia de ocurrencia. ^[25] Se muestra un ejemplo en la figura azul.
En muchos programas de procesamiento de imágenes digitales hay una herramienta de histograma, que le muestra la distribución del contraste / brillo de los píxeles .
histograma de contraste

Ver también

Binning de datos
Estimación de densidad
- Estimación de la densidad del grano , un método más suave pero más complejo de estimación de la densidad
Estimación de entropía
Regla Freedman-Diaconis
Histograma de imagen
diagrama de Pareto
Siete herramientas básicas de calidad
Histogramas V-óptimo

Referencias

^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo" . Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de la ingeniería . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 .
^ Howitt, D .; Cramer, D. (2008). Introducción a la Estadística en Psicología (Cuarta ed.). Prentice Hall. ISBN 978-0-13-205161-3.
^ Freedman, D .; Pisani, R .; Purves, R. (1998). Estadística (Tercera ed.). WW Norton. ISBN 978-0-393-97083-8.
^ Charles Stangor (2011) "Métodos de investigación para las ciencias del comportamiento". Wadsworth, Cengage Learning. ISBN 9780840031976 .
^ David W. Scott (diciembre de 2009). "Histograma desplazado promediado" . Revisiones interdisciplinarias de Wiley: Estadística computacional . 2: 2 (2): 160-164. doi : 10.1002 / wics.54 .
^ Nancy R. Tague (2004). "Siete herramientas básicas de calidad" . La caja de herramientas de calidad . Milwaukee, Wisconsin : Calidad de la sociedad estadounidense . pag. 15 . Consultado el 5 de febrero de 2010 .
^ Naomi, Robbins. "Un histograma NO es un gráfico de barras" . Forbes . Consultado el 31 de julio de 2018 .
^ M. Eileen Magnello (diciembre de 2006). "Karl Pearson y los orígenes de la estadística moderna: un elástico se convierte en estadístico" . La Revista de Nueva Zelanda para la Historia y Filosofía de la Ciencia y la Tecnología . 1 volumen. OCLC 682200824 .
^ Censo de 2000 de Estados Unidos .
^ Dean, S. y Illowsky, B. (2009, 19 de febrero). Estadística descriptiva: histograma. Obtenido del sitio web de Connexions: http://cnx.org/content/m16298/1.11/
^ a b c Scott, David W. (1992). Estimación de densidad multivariante: teoría, práctica y visualización . Nueva York: John Wiley.
^ a b Sturges, HA (1926). "La elección de un intervalo de clases". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi : 10.1080 / 01621459.1926.10502161 . JSTOR 2965501 .
^ por ejemplo, § 5.6 "Estimación de densidad", WN Venables y BD Ripley, Estadísticas aplicadas modernas con S (2002), Springer, 4ª edición. ISBN 0-387-95457-0 .
^ "EXCEL Univariante: Histograma" .
^ Educación en estadística en línea: un curso de estudio multimedia ( http://onlinestatbook.com/ ). Líder del proyecto: David M. Lane, Rice University (capítulo 2 "Representación gráfica de distribuciones", sección "Histogramas")
^ Doane DP (1976) Clasificación de frecuencia estética. Estadístico estadounidense, 30: 181–183
^ Scott, David W. (1979). "Sobre histogramas óptimos y basados en datos". Biometrika . 66 (3): 605–610. doi : 10.1093 / biomet / 66.3.605 .
^ Freedman, David; Diaconis, P. (1981). "Sobre el histograma como estimador de densidad: teoría L 2 " (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . doi : 10.1007 / BF01025868 . S2CID 14437088 .
^ Wasserman, Larry (2004). Todas las estadísticas . Nueva York: Springer. pag. 310. ISBN 978-1-4419-2322-6.
^ Stone, Charles J. (1984). "Una regla de selección de histograma asintóticamente óptima" (PDF) . Actas de la conferencia de Berkeley en honor a Jerzy Neyman y Jack Kiefer .
^ Shimazaki, H .; Shinomoto, S. (2007). "Un método para seleccionar el tamaño del contenedor de un histograma de tiempo". Computación neuronal . 19 (6): 1503-1527. CiteSeerX 10.1.1.304.6404 . doi : 10.1162 / neco.2007.19.6.1503 . PMID 17444758 . S2CID 7781236 .
^ Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Prueba de bondad de ajuste de chi-cuadrado" . Manual electrónico de métodos estadísticos de NIST / SEMATECH . NIST / SEMATECH. pag. 7.2.1.1 . Consultado el 29 de marzo de 2019 .
^ Moore, David (1986). "3". En D'Agostino, Ralph; Stephens, Michael (eds.). Técnicas de bondad de ajuste . Nueva York, NY, EE.UU .: Marcel Dekker Inc. p. 70. ISBN 0-8247-7487-6.
^ Una calculadora para distribuciones de probabilidad y funciones de densidad
^ Una ilustración de histogramas y funciones de densidad de probabilidad

Otras lecturas

Lancaster, HO Una introducción a las estadísticas médicas. John Wiley e hijos. 1974. ISBN 0-471-51250-8

enlaces externos

Explorando histogramas , un ensayo de Aran Lunzer y Amelia McNamara
Viaje al trabajo y lugar de trabajo (ubicación del documento del censo citado en el ejemplo)
Histograma suave para señales e imágenes de algunas muestras
Histogramas: Construcción, Análisis y Comprensión con enlaces externos y una aplicación a la Física de partículas.
Un método para seleccionar el tamaño del contenedor de un histograma
Histogramas: teoría y práctica , algunas excelentes ilustraciones de algunos de los conceptos de ancho de contenedor derivados anteriormente.
Histogramas de la manera correcta
Generador de histogramas interactivo
Función de Matlab para trazar buenos histogramas
Histograma dinámico en MS Excel
Construcción y manipulación de histogramas mediante subprogramas de Java y gráficos en SOCR
Caja de herramientas para construir los mejores histogramas

[pearson-1] Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo" . Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de la ingeniería . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 .

[2] Howitt, D .; Cramer, D. (2008). Introducción a la Estadística en Psicología (Cuarta ed.). Prentice Hall. ISBN 978-0-13-205161-3.

[3] Freedman, D .; Pisani, R .; Purves, R. (1998). Estadística (Tercera ed.). WW Norton. ISBN 978-0-393-97083-8.

[4] Charles Stangor (2011) "Métodos de investigación para las ciencias del comportamiento". Wadsworth, Cengage Learning. ISBN 9780840031976 .

[5] David W. Scott (diciembre de 2009). "Histograma desplazado promediado" . Revisiones interdisciplinarias de Wiley: Estadística computacional . 2: 2 (2): 160-164. doi : 10.1002 / wics.54 .

[6] Nancy R. Tague (2004). "Siete herramientas básicas de calidad" . La caja de herramientas de calidad . Milwaukee, Wisconsin : Calidad de la sociedad estadounidense . pag. 15 . Consultado el 5 de febrero de 2010 .

[7] Naomi, Robbins. "Un histograma NO es un gráfico de barras" . Forbes . Consultado el 31 de julio de 2018 .

[8] M. Eileen Magnello (diciembre de 2006). "Karl Pearson y los orígenes de la estadística moderna: un elástico se convierte en estadístico" . La Revista de Nueva Zelanda para la Historia y Filosofía de la Ciencia y la Tecnología . 1 volumen. OCLC 682200824 .

[9] Censo de 2000 de Estados Unidos .

[10] Dean, S. y Illowsky, B. (2009, 19 de febrero). Estadística descriptiva: histograma. Obtenido del sitio web de Connexions: http://cnx.org/content/m16298/1.11/

[scott92-11] Scott, David W. (1992). Estimación de densidad multivariante: teoría, práctica y visualización . Nueva York: John Wiley.

[sturges-12] Sturges, HA (1926). "La elección de un intervalo de clases". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi : 10.1080 / 01621459.1926.10502161 . JSTOR 2965501 .

[13] por ejemplo, § 5.6 "Estimación de densidad", WN Venables y BD Ripley, Estadísticas aplicadas modernas con S (2002), Springer, 4ª edición. ISBN 0-387-95457-0 .

[14] "EXCEL Univariante: Histograma" .

[15] Educación en estadística en línea: un curso de estudio multimedia ( http://onlinestatbook.com/ ). Líder del proyecto: David M. Lane, Rice University (capítulo 2 "Representación gráfica de distribuciones", sección "Histogramas")

[Doane1976-16] Doane DP (1976) Clasificación de frecuencia estética. Estadístico estadounidense, 30: 181–183

[scott79-17] Scott, David W. (1979). "Sobre histogramas óptimos y basados en datos". Biometrika . 66 (3): 605–610. doi : 10.1093 / biomet / 66.3.605 .

[18] Freedman, David; Diaconis, P. (1981). "Sobre el histograma como estimador de densidad: teoría L 2 " (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . doi : 10.1007 / BF01025868 . S2CID 14437088 .

[19] Wasserman, Larry (2004). Todas las estadísticas . Nueva York: Springer. pag. 310. ISBN 978-1-4419-2322-6.

[20] Stone, Charles J. (1984). "Una regla de selección de histograma asintóticamente óptima" (PDF) . Actas de la conferencia de Berkeley en honor a Jerzy Neyman y Jack Kiefer .

[21] Shimazaki, H .; Shinomoto, S. (2007). "Un método para seleccionar el tamaño del contenedor de un histograma de tiempo". Computación neuronal . 19 (6): 1503-1527. CiteSeerX 10.1.1.304.6404 . doi : 10.1162 / neco.2007.19.6.1503 . PMID 17444758 . S2CID 7781236 .

[22] Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Prueba de bondad de ajuste de chi-cuadrado" . Manual electrónico de métodos estadísticos de NIST / SEMATECH . NIST / SEMATECH. pag. 7.2.1.1 . Consultado el 29 de marzo de 2019 .

[23] Moore, David (1986). "3". En D'Agostino, Ralph; Stephens, Michael (eds.). Técnicas de bondad de ajuste . Nueva York, NY, EE.UU .: Marcel Dekker Inc. p. 70. ISBN 0-8247-7487-6.

[24] Una calculadora para distribuciones de probabilidad y funciones de densidad

[25] Una ilustración de histogramas y funciones de densidad de probabilidad

[1]