En teoría de la probabilidad , un normales (o gaussiana o Gauss o Laplace-Gauss ) de distribución es un tipo de distribución de probabilidad continua para un valor real- variable aleatoria . La forma general de su función de densidad de probabilidad es
Función de densidad de probabilidad La curva roja es la distribución normal estándar. | |||
Función de distribución acumulativa | |||
Notación | |||
---|---|---|---|
Parámetros | = media ( ubicación ) = varianza ( escala al cuadrado ) | ||
Apoyo | |||
CDF | |||
Cuantil | |||
Significar | |||
Mediana | |||
Modo | |||
Diferencia | |||
ENOJADO | |||
Oblicuidad | |||
Ex. curtosis | |||
Entropía | |||
MGF | |||
CF | |||
Información de Fisher |
| ||
Divergencia de Kullback-Leibler |
El parámetro es la media o expectativa de la distribución (y también su mediana y moda ), mientras que el parámetroes su desviación estándar . [1] La varianza de la distribución es. [2] Se dice que una variable aleatoria con una distribución gaussiana tiene una distribución normal y se denomina desviación normal .
Las distribuciones normales son importantes en estadística y a menudo se utilizan en las ciencias naturales y sociales para representar variables aleatorias de valor real cuyas distribuciones no se conocen. [3] [4] Su importancia se debe en parte al teorema del límite central . Establece que, bajo algunas condiciones, el promedio de muchas muestras (observaciones) de una variable aleatoria con media finita y varianza es en sí misma una variable aleatoria, cuya distribución converge a una distribución normal a medida que aumenta el número de muestras. Por lo tanto, las cantidades físicas que se espera sean la suma de muchos procesos independientes, como los errores de medición , a menudo tienen distribuciones que son casi normales. [5]
Además, las distribuciones gaussianas tienen algunas propiedades únicas que son valiosas en los estudios analíticos. Por ejemplo, cualquier combinación lineal de una colección fija de desviaciones normales es una desviación normal. Muchos resultados y métodos, como la propagación de la incertidumbre y el ajuste de parámetros por mínimos cuadrados , pueden derivarse analíticamente de forma explícita cuando las variables relevantes se distribuyen normalmente.
Una distribución normal a veces se denomina informalmente curva de campana . [6] Sin embargo, muchas otras distribuciones tienen forma de campana (como las distribuciones de Cauchy , t de Student y logística ).
Definiciones
Distribución normal estándar
El caso más simple de una distribución normal se conoce como distribución normal estándar . Este es un caso especial cuando y , y se describe mediante esta función de densidad de probabilidad : [1]
Aquí, el factor asegura que el área total bajo la curva es igual a uno. [nota 1] El factoren el exponente asegura que la distribución tenga una unidad de varianza (es decir, que la varianza sea igual a uno) y, por lo tanto, también una unidad de desviación estándar. Esta función es simétrica alrededor, donde alcanza su máximo valor y tiene puntos de inflexión en y .
Los autores difieren en cuanto a qué distribución normal debería denominarse "estándar". Carl Friedrich Gauss , por ejemplo, definió la normal estándar con una varianza de. Es decir:
Por otro lado, Stephen Stigler [7] va incluso más allá, definiendo la normal estándar como una varianza de:
Distribución normal general
Toda distribución normal es una versión de la distribución normal estándar, cuyo dominio ha sido estirado por un factor (la desviación estándar) y luego traducida por (el valor medio):
La densidad de probabilidad se debe escalar por de modo que la integral sigue siendo 1.
Si es una desviación normal estándar , entonces tendrá una distribución normal con valor esperado y desviación estándar . Esto equivale a decir que la distribución normal "estándar" se puede escalar / estirar por un factor de y cambiado por para producir una distribución normal diferente, llamada . Por el contrario, si es una desviación normal con parámetros y , luego esto la distribución se puede reescalar y cambiar mediante la fórmula para convertirlo a la distribución normal "estándar". Esta variante también se llama la forma estandarizada de.
Notación
La densidad de probabilidad de la distribución gaussiana estándar (distribución normal estándar, con media cero y varianza unitaria) a menudo se denota con la letra griega ( phi ). [8] La forma alternativa de la letra griega phi,, también se utiliza con bastante frecuencia. [1]
La distribución normal a menudo se denomina o . [1] [9] Por lo tanto, cuando una variable aleatoria se distribuye normalmente con media y desviación estándar , uno puede escribir
Parametrizaciones alternativas
Algunos autores abogan por utilizar la precisión como parámetro que define el ancho de la distribución, en lugar de la desviación o la varianza . La precisión se define normalmente como el recíproco de la varianza,. [10] La fórmula para la distribución se convierte en
Se afirma que esta elección tiene ventajas en los cálculos numéricos cuando es muy cercano a cero, y simplifica fórmulas en algunos contextos, como en la inferencia bayesiana de variables con distribución normal multivariante .
Alternativamente, el recíproco de la desviación estándar podría definirse como la precisión , en cuyo caso la expresión de la distribución normal se convierte en
Según Stigler, esta formulación es ventajosa debido a una fórmula mucho más simple y fácil de recordar, y fórmulas aproximadas simples para los cuantiles de la distribución.
Las distribuciones normales forman una familia exponencial con parámetros naturales y y estadísticas naturales x y x 2 . Los parámetros de doble expectativa para la distribución normal son η 1 = μ y η 2 = μ 2 + σ 2 .
Función de distribución acumulativa
La función de distribución acumulada (CDF) de la distribución normal estándar, generalmente denotada con la letra griega mayúscula( phi ), [1] es la integral
La función de error relacionada da la probabilidad de una variable aleatoria, con distribución normal de media 0 y varianza 1/2 dentro del rango . Es decir: [1]
Estas integrales no se pueden expresar en términos de funciones elementales y, a menudo, se dice que son funciones especiales . Sin embargo, se conocen muchas aproximaciones numéricas; ver más abajo para más.
Las dos funciones están estrechamente relacionadas, a saber
Para una distribución normal genérica con densidad , significar y desviación , la función de distribución acumulativa es
El complemento del CDF normal estándar, , a menudo se denomina función Q , especialmente en textos de ingeniería. [11] [12] Da la probabilidad de que el valor de una variable aleatoria normal estándar excederá : . Otras definiciones del-función, todas las cuales son simples transformaciones de , también se utilizan ocasionalmente. [13]
La gráfica del CDF normal estándartiene simetría rotacional doble alrededor del punto (0,1 / 2); es decir,. Su antiderivada (integral indefinida) se puede expresar de la siguiente manera:
El CDF de la distribución normal estándar se puede expandir mediante la integración por partes en una serie:
dónde denota el doble factorial .
También se puede derivar una expansión asintótica de la CDF para x grande usando la integración por partes. Para obtener más información, consulte Función de error # Expansión asintótica . [14]
Se puede encontrar una aproximación rápida a la CDF de la distribución normal estándar utilizando una aproximación en serie de Taylor:
Desviación estándar y cobertura
Aproximadamente el 68% de los valores extraídos de una distribución normal están dentro de una desviación estándar σ de la media; aproximadamente el 95% de los valores se encuentran dentro de dos desviaciones estándar; y aproximadamente el 99,7% están dentro de tres desviaciones estándar. [6] Este hecho se conoce como la regla 68-95-99.7 (empírica) o la regla 3-sigma .
Más precisamente, la probabilidad de que una desviación normal se encuentre en el rango entre y es dado por
A 12 cifras significativas, los valores para son: [15]
OEIS | ||||||
---|---|---|---|---|---|---|
1 | 0,682 689 492 137 | 0,317 310 507 863 |
| OEIS : A178647 | ||
2 | 0.954 499 736 104 | 0,045 500 263 896 |
| OEIS : A110894 | ||
3 | 0,997 300 203 937 | 0.002 699 796 063 |
| OEIS : A270712 | ||
4 | 0.999 936 657 516 | 0,000 063 342 484 |
| |||
5 | 0,999 999 426 697 | 0,000 000 573 303 |
| |||
6 | 0,999 999 998 027 | 0.000 000 001 973 |
|
Para grande , se puede usar la aproximación .
Función cuantil
La función cuantil de una distribución es la inversa de la función de distribución acumulativa. La función cuantil de la distribución normal estándar se llama función probit y se puede expresar en términos de la función de error inverso :
Para una variable aleatoria normal con media y varianza , la función cuantil es
El cuantil de la distribución normal estándar se denota comúnmente como . Estos valores se utilizan en pruebas de hipótesis , construcción de intervalos de confianza y gráficos QQ . Una variable aleatoria normal excederá con probabilidad , y quedará fuera del intervalo con probabilidad . En particular, el cuantiles 1,96 ; por lo tanto, una variable aleatoria normal estará fuera del intervalo en solo el 5% de los casos.
La siguiente tabla da el cuantil tal que estará en el rango con una probabilidad especificada . Estos valores son útiles para determinar el intervalo de tolerancia para promedios muestrales y otros estimadores estadísticos con distribuciones normales (o asintóticamente normales) :. [16] [17] NOTA: la siguiente tabla muestra, no como se define arriba.
0,80 | 1.281 551 565 545 | 0,999 | 3.290 526 731 492 | |
0,90 | 1.644 853 626 951 | 0,9999 | 3.890 591 886 413 | |
0,95 | 1.959 963 984 540 | 0,99999 | 4.417 173 413 469 | |
0,98 | 2.326 347 874 041 | 0,999999 | 4.891 638 475 699 | |
0,99 | 2.575 829 303 549 | 0,9999999 | 5.326 723 886 384 | |
0,995 | 2.807 033 768 344 | 0,99999999 | 5.730 728 868 236 | |
0,998 | 3.090 232 306 168 | 0,999999999 | 6.109 410 204 869 |
Para pequeños , la función cuantil tiene la útil expansión asintótica
Propiedades
La distribución normal es la única distribución cuyos acumulados más allá de los dos primeros (es decir, distintos de la media y la varianza ) son cero. También es la distribución continua con la máxima entropía para una media y varianza especificadas. [18] [19] Geary ha demostrado, asumiendo que la media y la varianza son finitas, que la distribución normal es la única distribución donde la media y la varianza calculadas a partir de un conjunto de valores independientes son independientes entre sí. [20] [21]
La distribución normal es una subclase de las distribuciones elípticas . La distribución normal es simétrica con respecto a su media y no es cero en toda la línea real. Como tal, puede que no sea un modelo adecuado para variables que son intrínsecamente positivas o muy sesgadas, como el peso de una persona o el precio de una acción . Estas variables pueden describirse mejor mediante otras distribuciones, como la distribución logarítmica normal o la distribución de Pareto .
El valor de la distribución normal es prácticamente cero cuando el valor se encuentra a más de unas pocas desviaciones estándar de la media (por ejemplo, una extensión de tres desviaciones estándar cubre todo menos el 0,27% de la distribución total). Por lo tanto, puede que no sea un modelo apropiado cuando se espera una fracción significativa de valores atípicos ( valores que se encuentran a muchas desviaciones estándar de la media) y los mínimos cuadrados y otros métodos de inferencia estadística que son óptimos para variables distribuidas normalmente a menudo se vuelven muy poco confiables cuando se aplican. a tales datos. En esos casos, se debe suponer una distribución más espesa y se deben aplicar los métodos de inferencia estadística robustos y apropiados .
La distribución gaussiana pertenece a la familia de distribuciones estables que son los atractores de sumas de distribuciones independientes distribuidas de forma idéntica, ya sea que la media o la varianza sean finitas o no. Excepto por el gaussiano, que es un caso límite, todas las distribuciones estables tienen colas pesadas y varianza infinita. Es una de las pocas distribuciones que son estables y que tienen funciones de densidad de probabilidad que se pueden expresar analíticamente, siendo las otras la distribución de Cauchy y la distribución de Lévy .
Simetrías y derivadas
La distribución normal con densidad (significar y desviación estándar ) tiene las siguientes propiedades:
- Es simétrico alrededor del punto. que es al mismo tiempo la moda , la mediana y la media de la distribución. [22]
- Es unimodal : su primera derivada es positiva para negativo para y cero solo en
- El área debajo de la curva y sobre el -eje es la unidad (es decir, igual a uno).
- Su primera derivada es
- Su densidad tiene dos puntos de inflexión (donde la segunda derivada de es cero y cambia de signo), ubicado a una desviación estándar de la media, es decir, en y [22]
- Su densidad es logarítmica-cóncava . [22]
- Su densidad es infinitamente diferenciable , de hecho supersuave de orden 2. [23]
Además, la densidad de la distribución normal estándar (es decir y ) también tiene las siguientes propiedades:
- Su primera derivada es
- Su segunda derivada es
- De manera más general, su n- ésima derivada es dónde es el n- ésimo polinomio de Hermite (probabilista) . [24]
- La probabilidad de que una variable distribuida normalmente con conocido y está en un conjunto particular, se puede calcular utilizando el hecho de que la fracción tiene una distribución normal estándar.
Momentos
Los momentos simples y absolutos de una variable. son los valores esperados de y , respectivamente. Si el valor esperado de es cero, estos parámetros se denominan momentos centrales . Por lo general, solo nos interesan los momentos con orden de números enteros..
Si tiene una distribución normal, estos momentos existen y son finitos para cualquier cuya parte real es mayor que -1. Para cualquier número entero no negativo, los momentos centrales simples son: [25]
Aquí denota el factorial doble , es decir, el producto de todos los números de a 1 que tienen la misma paridad que
Los momentos absolutos centrales coinciden con momentos simples para todos los órdenes pares, pero son distintos de cero para los órdenes impares. Para cualquier número entero no negativo
La última fórmula es válida también para cualquier número no entero Cuando la media los momentos simples y absolutos se pueden expresar en términos de funciones hipergeométricas confluentes y [ cita requerida ]
Estas expresiones siguen siendo válidas incluso si no es un número entero. Ver también polinomios de Hermite generalizados .
Pedido | Momento no central | Momento central |
---|---|---|
1 | ||
2 | ||
3 | ||
4 | ||
5 | ||
6 | ||
7 | ||
8 |
La expectativa de condicionado al evento de que yace en un intervalo es dado por
dónde y respectivamente son la densidad y la función de distribución acumulativa de . Paraesto se conoce como la relación de molinos inversa . Tenga en cuenta que arriba, la densidad de se usa en lugar de la densidad normal estándar como en la relación de Mills inversa, por lo que aquí tenemos en vez de .
Transformada de Fourier y función característica
La transformada de Fourier de densidad normal con media y desviación estándar es [26]
dónde es la unidad imaginaria . Si la media, el primer factor es 1, y la transformada de Fourier es, además de un factor constante, una densidad normal en el dominio de la frecuencia , con media 0 y desviación estándar. En particular, la distribución normal estándares una función propia de la transformada de Fourier.
En la teoría de la probabilidad, la transformada de Fourier de la distribución de probabilidad de una variable aleatoria de valor real está estrechamente relacionado con la función característica de esa variable, que se define como el valor esperado de, en función de la variable real (el parámetro de frecuencia de la transformada de Fourier). Esta definición puede extenderse analíticamente a una variable de valor complejo.. [27] La relación entre ambos es:
Funciones generadoras de momentos y acumulados
La función generadora de momentos de una variable aleatoria real. es el valor esperado de , en función del parámetro real . Para una distribución normal con densidad, significar y desviación , la función generadora de momento existe y es igual a
La función generadora acumulativa es el logaritmo de la función generadora de momentos, a saber
Dado que este es un polinomio cuadrático en , solo los dos primeros acumulados son distintos de cero, es decir, la media y la varianza .
Stein operador y clase
Dentro del método de Stein, el operador de Stein y la clase de una variable aleatoria están y la clase de todas las funciones absolutamente continuas .
Límite de variación cero
En el limite cuando tiende a cero, la densidad de probabilidad eventualmente tiende a cero en cualquier , pero crece sin límite si , mientras que su integral permanece igual a 1. Por lo tanto, la distribución normal no se puede definir como una función ordinaria cuando.
Sin embargo, se puede definir la distribución normal con varianza cero como una función generalizada ; específicamente, como la "función delta" de Dirac traducido por el medio , es decir Su CDF es entonces la función de paso de Heaviside traducida por la media, a saber
Entropía máxima
De todas las distribuciones de probabilidad sobre los reales con una media especificada y varianza , la distribución normal es el que tiene la máxima entropía . [28] Sies una variable aleatoria continua con densidad de probabilidad , entonces la entropía de se define como [29] [30] [31]
dónde se entiende que es cero siempre que . Esta función se puede maximizar, sujeto a las limitaciones de que la distribución esté correctamente normalizada y tenga una varianza específica, mediante el uso de cálculo variacional . Se define una función con dos multiplicadores de Lagrange :
dónde es, por ahora, considerado como una función de densidad con media y desviación estándar .
En la máxima entropía, una pequeña variación acerca de producirá una variación acerca de que es igual a 0:
Dado que esto debe ser válido para cualquier pequeña , el término entre paréntesis debe ser cero y resolver para rinde:
Usando las ecuaciones de restricción para resolver y produce la densidad de la distribución normal:
La entropía de una distribución normal es igual a
Otras propiedades
- Si la función característica de alguna variable aleatoria es de la forma , dónde es un polinomio , entonces el teorema de Marcinkiewicz (llamado así por Józef Marcinkiewicz ) afirma que puede ser como mucho un polinomio cuadrático, y por lo tanto es una variable aleatoria normal. [32] La consecuencia de este resultado es que la distribución normal es la única distribución con un número finito (dos) de acumulados distintos de cero .
- Si y son conjuntamente normales y no correlacionados , entonces son independientes . El requisito de que y debe ser conjuntamente normal es esencial; sin ella la propiedad no se sostiene. [33] [34] [prueba] Para las variables aleatorias no normales, la falta de correlación no implica independencia.
- La divergencia de Kullback-Leibler de una distribución normal de otro viene dado por: [35]
La distancia de Hellinger entre las mismas distribuciones es igual a
- La matriz de información de Fisher para una distribución normal es diagonal y toma la forma
- El conjugado antes de la media de una distribución normal es otra distribución normal. [36] Específicamente, si son iid y el prior es , luego la distribución posterior para el estimador de estarán
- La familia de distribuciones normales no solo forma una familia exponencial (EF), sino que de hecho forma una familia exponencial natural (NEF) con función de varianza cuadrática ( NEF-QVF ). Muchas propiedades de distribuciones normales se generalizan a propiedades de distribuciones NEF-QVF, distribuciones NEF o distribuciones EF en general. Las distribuciones NEF-QVF comprenden 6 familias, incluidas las distribuciones de Poisson, Gamma, binomiales y binomiales negativas, mientras que muchas de las familias comunes estudiadas en probabilidad y estadística son NEF o EF.
- En geometría de la información , la familia de distribuciones normales forma una variedad estadística con curvatura constante . La misma familia es plana con respecto a las (± 1) conexiones ∇ y ∇. [37]
Distribuciones relacionadas
Teorema del límite central
El teorema del límite central establece que bajo ciertas condiciones (bastante comunes), la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal. Más específicamente, dondeson variables aleatorias independientes e idénticamente distribuidas con la misma distribución arbitraria, media cero y varianza y es su media escalada por
Entonces como aumenta, la distribución de probabilidad de tenderá a la distribución normal con media cero y varianza .
El teorema se puede extender a variables que no son independientes y / o no están distribuidos de manera idéntica si se imponen ciertas restricciones sobre el grado de dependencia y los momentos de las distribuciones.
Muchos estadísticos de prueba , puntajes y estimadores que se encuentran en la práctica contienen sumas de ciertas variables aleatorias, e incluso más estimadores pueden representarse como sumas de variables aleatorias mediante el uso de funciones de influencia . El teorema del límite central implica que esos parámetros estadísticos tendrán distribuciones asintóticamente normales.
El teorema del límite central también implica que ciertas distribuciones pueden aproximarse mediante la distribución normal, por ejemplo:
- La distribución binomial es aproximadamente normal con media y varianza para grande y para no demasiado cerca de 0 o 1.
- La distribución de Poisson con parámetro es aproximadamente normal con media y varianza , para grandes valores de . [38]
- La distribución chi-cuadrado es aproximadamente normal con media y varianza , para grande .
- La distribución t de Student es aproximadamente normal con media 0 y varianza 1 cuando es largo.
Si estas aproximaciones son suficientemente precisas depende del propósito para el que se necesitan y de la tasa de convergencia a la distribución normal. Suele darse el caso de que tales aproximaciones sean menos precisas en las colas de la distribución.
Un límite superior general para el error de aproximación en el teorema del límite central viene dado por el teorema de Berry-Esseen , las mejoras de la aproximación están dadas por las expansiones de Edgeworth .
Este teorema también se puede utilizar para justificar el modelado de la suma de muchas fuentes de ruido uniforme como ruido gaussiano. Ver AWGN .
Operaciones y funciones de variables normales
La densidad de probabilidad , la distribución acumulada y la distribución acumulada inversa de cualquier función de una o más variables normales independientes o correlacionadas se pueden calcular con el método numérico de trazado de rayos [39] ( código Matlab ). En las siguientes secciones veremos algunos casos especiales.
Operaciones en una sola variable normal
Si X se distribuye normalmente con media μ y varianza σ 2 , entonces
- , para cualquier número real y , también se distribuye normalmente, con media y desviación estándar . Es decir, la familia de distribuciones normales se cierra bajo transformaciones lineales.
- La exponencial de X se distribuye log-normalmente : e X ~ ln ( N ( μ , σ 2 )) .
- El valor absoluto de X ha plegado la distribución normal : | X | ~ N f ( μ , σ 2 ) . Si μ = 0, esto se conoce como distribución media normal .
- El valor absoluto de los residuos normalizados, | X - μ | / σ , tiene distribución chi con un grado de libertad: | X - μ | / σ ~.
- El cuadrado de X / σ tiene la distribución chi-cuadrado no central con un grado de libertad: X 2 / σ 2 ~( μ 2 / σ 2 ) . Si μ = 0, la distribución se llama simplemente chi-cuadrado .
- La probabilidad logarítmica de una variable normal es simplemente el logaritmo de su función de densidad de probabilidad :
Dado que este es un cuadrado escalado y desplazado de una variable normal estándar, se distribuye como una variable chi-cuadrado escalada y desplazada .
- La distribución de la variable X restringida a un intervalo [ a , b ] se denomina distribución normal truncada .
- ( X - μ ) −2 tiene una distribución de Lévy con ubicación 0 y escala σ −2 .
Operaciones sobre dos variables normales independientes
- Si y son dos variables aleatorias normales independientes , con medias, y desviaciones estándar , , luego su suma también se distribuirá normalmente, [prueba] con media y varianza .
- En particular, si y son desviaciones normales independientes con media y varianza cero , luego y también son independientes y están distribuidos normalmente, con media cero y varianza . Este es un caso especial de la identidad de polarización . [40]
- Si , son dos desviaciones normales independientes con media y desviación , y , son números reales arbitrarios, entonces la variable
también se distribuye normalmente con media y desviación . De ello se deduce que la distribución normal es estable (con exponente).
Operaciones sobre dos variables normales estándar independientes
Si y son dos variables aleatorias normales estándar independientes con media 0 y varianza 1, entonces
- Su suma y diferencia se distribuye normalmente con media cero y varianza dos: .
- Su producto sigue la distribución del producto [41] con función de densidad dónde es la función de Bessel modificada del segundo tipo . Esta distribución es simétrica alrededor de cero, ilimitada en, y tiene la función característica .
- Su relación sigue la distribución estándar de Cauchy :.
- Su norma euclidiana tiene la distribución de Rayleigh .
Operaciones sobre múltiples variables normales independientes
- Cualquier combinación lineal de desviaciones normales independientes es una desviación normal.
- Si son variables aleatorias normales estándar independientes, entonces la suma de sus cuadrados tiene la distribución chi-cuadrado con grados de libertad
- Si son variables aleatorias independientes distribuidas normalmente con medias y variaciones , entonces su media muestral es independiente de la desviación estándar muestral , [42] que se puede demostrar usando el teorema de Basu o el teorema de Cochran . [43] La razón de estas dos cantidades tendrá la distribución t de Student con grados de libertad:
- Si , son variables aleatorias normales estándar independientes, entonces la razón de sus sumas de cuadrados normalizados tendrá la distribución F con ( n , m ) grados de libertad: [44]
- Una forma cuadrática de un vector normal, es decir, una función cuadráticade múltiples variables normales independientes o correlacionadas, es una variable chi-cuadrado generalizada .
Operaciones sobre la función de densidad
La distribución normal dividida se define más directamente en términos de unir secciones escaladas de las funciones de densidad de diferentes distribuciones normales y reescalar la densidad para integrarla en una. La distribución normal truncada resulta de cambiar la escala de una sección de una función de densidad única.
Divisibilidad infinita y teorema de Cramér
Para cualquier entero positivo , cualquier distribución normal con media y varianza es la distribución de la suma de desvíos normales independientes, cada uno con media y varianza . Esta propiedad se llama divisibilidad infinita . [45]
Por el contrario, si y son variables aleatorias independientes y su suma tiene una distribución normal, entonces ambos y deben ser desviaciones normales. [46]
Este resultado se conoce como teorema de descomposición de Cramér , y equivale a decir que la convolución de dos distribuciones es normal si y solo si ambas son normales. El teorema de Cramér implica que una combinación lineal de variables independientes no gaussianas nunca tendrá una distribución exactamente normal, aunque puede acercarse a ella de manera arbitraria. [32]
Teorema de bernstein
El teorema de Bernstein establece que si y son independientes y y también son independientes, entonces tanto X como Y deben tener necesariamente distribuciones normales. [47] [48]
De manera más general, si son variables aleatorias independientes, luego dos combinaciones lineales distintas y será independiente si y solo si todos son normales y , dónde denota la varianza de . [47]
Extensiones
La noción de distribución normal, que es una de las distribuciones más importantes en la teoría de la probabilidad, se ha extendido mucho más allá del marco estándar del caso univariante (es decir, unidimensional) (Caso 1). Todas estas extensiones también se denominan leyes normales o gaussianas , por lo que existe una cierta ambigüedad en los nombres.
- La distribución normal multivariante describe la ley de Gauss en el espacio euclidiano k -dimensional . Un vector X ∈ R k es multivariante-normalmente distribuido si cualquier combinación lineal de sus componentes ∑k
j = 1a j X j tiene una distribución normal (univariante). La varianza de X es unamatriz V definida positiva simétrica k × k . La distribución normal multivariante es un caso especial de las distribuciones elípticas . Como tal, sus loci de isodensidad en el caso de k = 2 son elipses y en el caso de k arbitrariosson elipsoides . - Distribución gaussiana rectificada una versión rectificada de la distribución normal con todos los elementos negativos restablecidos a 0
- La distribución normal compleja se ocupa de los vectores normales complejos. Se dice que un vector complejo X ∈ C k es normal si sus componentes real e imaginario poseen conjuntamente una distribución normal multivariante de 2 k dimensiones. La estructura de varianza-covarianza de X se describe mediante dos matrices: la varianza Γ matriz, y la relación de la matriz C .
- La distribución normal de matrices describe el caso de matrices distribuidas normalmente.
- Los procesos gaussianos son los procesos estocásticos normalmente distribuidos . Estos pueden verse como elementos de algún espacio de Hilbert de dimensión infinita H y, por lo tanto, son los análogos de los vectores normales multivariados para el caso k = ∞ . Se dice que un elemento aleatorio h ∈ H es normal si para cualquier constante a ∈ H el producto escalar ( a , h ) tiene una distribución normal (univariante). La estructura de varianza de tal elemento aleatorio gaussiano se puede describir en términos de la lineal covarianza operador K: H → H . Varios procesos gaussianos se hicieron lo suficientemente populares como para tener sus propios nombres:
- Movimiento browniano ,
- Puente browniano ,
- Proceso de Ornstein-Uhlenbeck .
- La distribución q gaussiana es una construcción matemática abstracta que representa un " q-análogo " de la distribución normal.
- el q-gaussiano es un análogo de la distribución gaussiana, en el sentido de que maximiza la entropía de Tsallis , y es un tipo de distribución de Tsallis . Tenga en cuenta que esta distribución es diferente de la distribución q gaussiana anterior.
Una variable aleatoria X tiene una distribución normal de dos partes si tiene una distribución
donde μ es la media y σ 1 y σ 2 son las desviaciones estándar de la distribución a la izquierda y derecha de la media, respectivamente.
Se han determinado la media, la varianza y el tercer momento central de esta distribución [49].
donde E ( X ), V ( X ) y T ( X ) son la media, la varianza y el tercer momento central, respectivamente.
Uno de los principales usos prácticos de la ley de Gauss es modelar las distribuciones empíricas de muchas variables aleatorias diferentes que se encuentran en la práctica. En tal caso, una posible extensión sería una familia de distribuciones más rica, con más de dos parámetros y, por lo tanto, pudiendo ajustar la distribución empírica con mayor precisión. Los ejemplos de tales extensiones son:
- Distribución de Pearson : una familia de distribuciones de probabilidad de cuatro parámetros que amplían la ley normal para incluir diferentes valores de asimetría y curtosis.
- La distribución normal generalizada , también conocida como distribución de potencia exponencial, permite colas de distribución con comportamientos asintóticos más gruesos o más delgados.
Inferencia estadística
Estimación de parámetros
A menudo ocurre que no conocemos los parámetros de la distribución normal, sino que queremos estimarlos . Es decir, tener una muestra de un normal población nos gustaría conocer los valores aproximados de los parámetros y . El enfoque estándar para este problema es el método de máxima verosimilitud , que requiere la maximización de la función logarítmica de verosimilitud :
Tomando derivados con respecto a y y resolver el sistema resultante de condiciones de primer orden produce las estimaciones de máxima verosimilitud :
Muestra promedio
Estimador se llama media muestral , ya que es la media aritmética de todas las observaciones. La estadísticaes completo y suficiente para, y por lo tanto por el teorema de Lehmann-Scheffé ,es el estimador insesgado de varianza mínima uniforme (UMVU). [50] En muestras finitas se distribuye normalmente:
La varianza de este estimador es igual al elemento μμ de la matriz de información de Fisher inversa . Esto implica que el estimador es eficiente en muestras finitas . De importancia práctica es el hecho de que el error estándar de es proporcional a , es decir, si se desea reducir el error estándar en un factor de 10, se debe aumentar el número de puntos de la muestra en un factor de 100. Este hecho se usa ampliamente para determinar el tamaño de la muestra para las encuestas de opinión y el número de ensayos en simulaciones de Monte Carlo .
Desde el punto de vista de la teoría asintótica ,es consistente , es decir, converge en probabilidad a como . El estimador también es asintóticamente normal , lo que es un simple corolario del hecho de que es normal en muestras finitas:
Varianza de la muestra
El estimador se llama varianza de la muestra , ya que es la varianza de la muestra (). En la práctica, a menudo se utiliza otro estimador en lugar del. Este otro estimador se denota, y también se llama varianza muestral , que representa una cierta ambigüedad en la terminología; su raíz cuadradase llama desviación estándar muestral . El estimador difiere de teniendo ( n - 1) en lugar de n en el denominador (la llamada corrección de Bessel ):
La diferencia entre y se convierte en insignificante para grandes n ' s. Sin embargo, en muestras finitas, la motivación detrás del uso dees que es un estimador insesgado del parámetro subyacente, mientras que está sesgado. Además, según el teorema de Lehmann-Scheffé, el estimadores uniformemente mínima varianza insesgada (UMVU), [50] lo que lo convierte en el "mejor" estimador entre todos los estimadores insesgados. Sin embargo, se puede demostrar que el estimador sesgado es "mejor" que el en términos del criterio del error cuadrático medio (MSE). En muestras finitas tanto y tienen una distribución chi-cuadrado escalada con ( n - 1) grados de libertad:
La primera de estas expresiones muestra que la varianza de es igual a , que es ligeramente mayor que el elemento σσ de la matriz de información de Fisher inversa. Por lo tanto, no es un estimador eficiente para , y además, desde es UMVU, podemos concluir que el estimador eficiente de muestra finita para no existe.
Aplicando la teoría asintótica, ambos estimadores y son consistentes, es decir, convergen en probabilidad para como el tamaño de la muestra . Los dos estimadores también son asintóticamente normales:
En particular, ambos estimadores son asintóticamente eficientes para .
Intervalos de confianza
Según el teorema de Cochran , para distribuciones normales, la media muestraly la varianza muestral s 2 son independientes , lo que significa que no puede haber ganancia al considerar su distribución conjunta . También hay un teorema inverso: si en una muestra la media muestral y la varianza muestral son independientes, entonces la muestra debe provenir de la distribución normal. La independencia entrey s se pueden emplear para construir la denominada estadística-t :
Esta cantidad t tiene la distribución t de Student con ( n - 1) grados de libertad y es una estadística auxiliar (independiente del valor de los parámetros). La inversión de la distribución de estas estadísticas t nos permitirá construir el intervalo de confianza para μ ; [51] de manera similar, invertir la distribución χ 2 del estadístico s 2 nos dará el intervalo de confianza para σ 2 : [52]
donde t k, p y χ 2
k, p son los p- ésimos cuantiles de las distribuciones t y χ 2, respectivamente. Estos intervalos de confianza son del nivel de confianza 1 - α , lo que significa que los valores verdaderos μ y σ 2 quedan fuera de estos intervalos con probabilidad (o nivel de significancia ) α . En la práctica, la gente suele tomar α = 5% , lo que resulta en intervalos de confianza del 95%. Las fórmulas aproximadas en la pantalla anterior se derivaron de las distribuciones asintóticas dey s 2 . Las fórmulas aproximadas se vuelven válidas para valores grandes de n , y son más convenientes para el cálculo manual ya que los cuantiles normales estándar z α / 2 no dependen de n . En particular, el valor más popular de α = 5% , resulta en | z 0,025 | = 1,96 .
Pruebas de normalidad
Las pruebas de normalidad evalúan la probabilidad de que el conjunto de datos dado { x 1 , ..., x n } provenga de una distribución normal. Normalmente, la hipótesis nula H 0 es que las observaciones se distribuyen normalmente con una media μ no especificada y una varianza σ 2 , frente a la alternativa H a de que la distribución es arbitraria. Se han diseñado muchas pruebas (más de 40) para este problema, las más importantes se describen a continuación:
Las parcelas de diagnóstico son intuitivamente más atractivas pero subjetivas al mismo tiempo, ya que se basan en el juicio humano informal para aceptar o rechazar la hipótesis nula.
- La gráfica QQ , también conocida como gráfica de probabilidad normal o gráfica rankit, es una gráfica de los valores ordenados del conjunto de datos frente a los valores esperados de los cuantiles correspondientes de la distribución normal estándar. Es decir, es una gráfica de un punto de la forma (Φ −1 ( p k ), x ( k ) ), donde los puntos de representación p k son iguales ap k = ( k - α ) / ( n + 1 - 2 α ) y α es una constante de ajuste, que puede ser cualquier valor entre 0 y 1. Si la hipótesis nula es verdadera, los puntos graficados deben encontrarse aproximadamente en una línea recta.
- Gráfico PP : similar al gráfico QQ, pero se utiliza con mucha menos frecuencia. Este método consiste en graficar los puntos (Φ ( z ( k ) ), p k ), donde. Para datos distribuidos normalmente, esta gráfica debe estar en una línea de 45 ° entre (0, 0) y (1, 1).
Pruebas de bondad de ajuste :
Pruebas basadas en momentos :
- Prueba K-cuadrado de D'Agostino
- Prueba de Jarque-Bera
- Prueba de Shapiro-Wilk : se basa en el hecho de que la línea en la gráfica QQ tiene la pendiente de σ . La prueba compara la estimación de mínimos cuadrados de esa pendiente con el valor de la varianza de la muestra y rechaza la hipótesis nula si estas dos cantidades difieren significativamente.
Pruebas basadas en la función de distribución empírica :
- Prueba de Anderson-Darling
- Prueba de Lilliefors (una adaptación de la prueba de Kolmogorov-Smirnov )
Análisis bayesiano de la distribución normal
El análisis bayesiano de datos distribuidos normalmente se complica por las muchas posibilidades diferentes que se pueden considerar:
- Tanto la media como la varianza, o ninguna de las dos, pueden considerarse una cantidad fija.
- Cuando se desconoce la varianza, el análisis puede realizarse directamente en términos de varianza, o en términos de precisión , el recíproco de la varianza. La razón para expresar las fórmulas en términos de precisión es que el análisis de la mayoría de los casos está simplificado.
- Es necesario considerar tanto los casos univariados como los multivariados .
- Se pueden colocar distribuciones previas conjugadas o inadecuadas en las variables desconocidas.
- Un conjunto adicional de casos ocurre en la regresión lineal bayesiana , donde en el modelo básico se supone que los datos están distribuidos normalmente, y se colocan a priori normales en los coeficientes de regresión . El análisis resultante es similar a los casos básicos de datos independientes distribuidos de forma idéntica .
Las fórmulas para los casos de regresión no lineal se resumen en el artículo anterior conjugado .
Suma de dos cuadráticas
Forma escalar
La siguiente fórmula auxiliar es útil para simplificar las ecuaciones de actualización posterior , que de otra manera se vuelven bastante tediosas.
Esta ecuación reescribe la suma de dos cuadráticas en x expandiendo los cuadrados, agrupando los términos en x y completando el cuadrado . Tenga en cuenta lo siguiente sobre los factores constantes complejos asociados a algunos de los términos:
- El factor tiene la forma de una media ponderada de y y z .
- Esto muestra que se puede pensar que este factor es el resultado de una situación en la que los recíprocos de las cantidades a y b se suman directamente, por lo que para combinar a y b en sí mismos, es necesario reciprocar, sumar y corresponder el resultado nuevamente para volver al Unidades originales. Este es exactamente el tipo de operación realizada por la media armónica , por lo que no es sorprendente quees la mitad de la media armónica de una y b .
Forma vectorial
Se puede escribir una fórmula similar para la suma de dos cuadráticas vectoriales: si x , y , z son vectores de longitud k , y A y B son matrices de tamaño simétricas e invertibles, luego
dónde
Tenga en cuenta que la forma x ′ A x se llama forma cuadrática y es un escalar :
En otras palabras, suma todas las combinaciones posibles de productos de pares de elementos de x , con un coeficiente separado para cada uno. Además, desde, solo la suma importa para cualquier elemento fuera de la diagonal de A , y no hay pérdida de generalidad al suponer que A es simétrico . Además, si A es simétrica, entonces la forma
Suma de diferencias de la media
Otra fórmula útil es la siguiente:
dónde
Con varianza conocida
Para un conjunto de iid , puntos de datos X normalmente distribuidos de tamaño n donde cada punto individual x siguecon varianza conocida σ 2 , la distribución previa conjugada también se distribuye normalmente.
Esto se puede mostrar más fácilmente reescribiendo la varianza como precisión , es decir, usando τ = 1 / σ 2 . Entonces sí y procedemos de la siguiente manera.
Primero, la función de verosimilitud es (usando la fórmula anterior para la suma de las diferencias de la media):
Luego, procedemos de la siguiente manera:
En la derivación anterior, usamos la fórmula anterior para la suma de dos cuadráticas y eliminamos todos los factores constantes que no involucran μ . El resultado es el núcleo de una distribución normal, con media y precisión , es decir
Esto se puede escribir como un conjunto de ecuaciones de actualización bayesianas para los parámetros posteriores en términos de los parámetros anteriores:
Es decir, combinar n puntos de datos con una precisión total de nτ (o equivalentemente, varianza total de n / σ 2 ) y media de valores, derivar una nueva precisión total simplemente agregando la precisión total de los datos a la precisión total anterior, y formar una nueva media a través de un promedio ponderado de precisión , es decir, un promedio ponderado de la media de los datos y la media anterior, cada una ponderada por la precisión total asociada. Esto tiene sentido lógico si se piensa que la precisión indica la certeza de las observaciones: en la distribución de la media posterior, cada uno de los componentes de entrada se pondera por su certeza, y la certeza de esta distribución es la suma de las certezas individuales . (Para la intuición de esto, compare la expresión "el todo es (o no es) mayor que la suma de sus partes". Además, considere que el conocimiento del posterior proviene de una combinación del conocimiento del previo y la verosimilitud , por lo que tiene sentido que estemos más seguros de él que de cualquiera de sus componentes).
La fórmula anterior revela por qué es más conveniente hacer un análisis bayesiano de priores conjugados para la distribución normal en términos de precisión. La precisión posterior es simplemente la suma de las precisiones previa y de probabilidad, y la media posterior se calcula mediante un promedio ponderado de precisión, como se describe anteriormente. Las mismas fórmulas se pueden escribir en términos de varianza intercambiando todas las precisiones, produciendo las fórmulas más feas.
Con media conocida
Para un conjunto de iid , puntos de datos X normalmente distribuidos de tamaño n donde cada punto individual x siguecon media conocida μ, el conjugado previo de la varianza tiene una distribución gamma inversa o una distribución chi-cuadrado inversa escalada . Los dos son equivalentes excepto por tener diferentes parametrizaciones . Aunque la gamma inversa se usa más comúnmente, usamos el chi-cuadrado inverso escalado por conveniencia. La prioridad para σ 2 es la siguiente:
La función de probabilidad de arriba, escrita en términos de la varianza, es:
dónde
Luego:
Lo anterior también es una distribución chi-cuadrado inversa escalada donde
o equivalente
Reparametrizando en términos de una distribución gamma inversa , el resultado es:
Con media desconocida y varianza desconocida
Para un conjunto de iid , puntos de datos X normalmente distribuidos de tamaño n donde cada punto individual x siguecon media desconocida μ y varianza desconocida σ 2 , se coloca un conjugado previo combinado (multivariado) sobre la media y la varianza, que consiste en una distribución gamma inversa normal . Lógicamente, esto se origina de la siguiente manera:
- A partir del análisis del caso con media desconocida pero varianza conocida, vemos que las ecuaciones de actualización involucran estadísticas suficientes calculadas a partir de los datos que consisten en la media de los puntos de datos y la varianza total de los puntos de datos, calculada a su vez a partir de la varianza conocida. dividido por el número de puntos de datos.
- A partir del análisis del caso con varianza desconocida pero media conocida, vemos que las ecuaciones de actualización involucran estadísticas suficientes sobre los datos que consisten en el número de puntos de datos y la suma de las desviaciones cuadradas .
- Tenga en cuenta que los valores de actualización posterior sirven como distribución previa cuando se manejan más datos. Por lo tanto, deberíamos pensar lógicamente en nuestros antecedentes en términos de las estadísticas suficientes que acabamos de describir, teniendo en cuenta la misma semántica tanto como sea posible.
- Para manejar el caso donde se desconocen tanto la media como la varianza, podríamos colocar a priori independientes sobre la media y la varianza, con estimaciones fijas de la media promedio, la varianza total, el número de puntos de datos utilizados para calcular la varianza antes y la suma de las desviaciones cuadradas. . Sin embargo, tenga en cuenta que, en realidad, la varianza total de la media depende de la varianza desconocida, y la suma de las desviaciones cuadradas que entran en la varianza antes (parece) depender de la media desconocida. En la práctica, esta última dependencia es relativamente poco importante: el desplazamiento de la media real desplaza los puntos generados en una cantidad igual y, en promedio, las desviaciones al cuadrado seguirán siendo las mismas. Sin embargo, este no es el caso con la varianza total de la media: a medida que aumenta la varianza desconocida, la varianza total de la media aumentará proporcionalmente y nos gustaría capturar esta dependencia.
- Esto sugiere que creamos un previo condicional de la media en la varianza desconocida, con un hiperparámetro que especifica la media de las pseudo-observaciones asociadas con el anterior, y otro parámetro que especifica el número de pseudo-observaciones. Este número sirve como parámetro de escala de la varianza, lo que permite controlar la varianza general de la media en relación con el parámetro de varianza real. El anterior para la varianza también tiene dos hiperparámetros, uno que especifica la suma de las desviaciones cuadradas de las pseudo-observaciones asociadas con el anterior, y otro que especifica una vez más el número de pseudo-observaciones. Tenga en cuenta que cada uno de los anteriores tiene un hiperparámetro que especifica el número de pseudoobservaciones y, en cada caso, esto controla la varianza relativa de ese anterior. Estos se dan como dos hiperparámetros separados para que la varianza (también conocida como la confianza) de los dos anteriores se pueda controlar por separado.
- Esto conduce inmediatamente a la distribución gamma inversa normal , que es el producto de las dos distribuciones recién definidas, con priores conjugados utilizados (una distribución gamma inversa sobre la varianza y una distribución normal sobre la media, condicionada a la varianza) y con los mismos cuatro parámetros que acabamos de definir.
Los priores se definen normalmente de la siguiente manera:
Las ecuaciones de actualización se pueden derivar y tienen el siguiente aspecto:
El número respectivo de pseudoobservaciones les suma el número de observaciones reales. El nuevo hiperparámetro medio es una vez más un promedio ponderado, esta vez ponderado por el número relativo de observaciones. Finalmente, la actualización de es similar al caso con la media conocida, pero en este caso la suma de las desviaciones cuadradas se toma con respecto a la media de los datos observados en lugar de la media verdadera y, como resultado, es necesario agregar un nuevo "término de interacción" para tener cuidado de la fuente de error adicional derivada de la desviación entre la media anterior y la de los datos.
Las distribuciones anteriores son
Por tanto, la articulación previa es
La función de probabilidad de la sección anterior con varianza conocida es:
Escribiéndolo en términos de varianza en lugar de precisión, obtenemos:
dónde
Por lo tanto, el posterior es (descartando los hiperparámetros como factores condicionantes):
En otras palabras, la distribución posterior tiene la forma de un producto de una distribución normal sobre p ( μ | σ 2 ) por una distribución gamma inversa sobre p (σ 2 ), con parámetros que son los mismos que los de las ecuaciones de actualización anteriores.
Ocurrencia y aplicaciones
La ocurrencia de distribución normal en problemas prácticos puede clasificarse libremente en cuatro categorías:
- Distribuciones exactamente normales;
- Aproximadamente leyes normales, por ejemplo, cuando tal aproximación está justificada por el teorema del límite central ; y
- Distribuciones modeladas como normales, siendo la distribución normal la distribución con máxima entropía para una media y varianza dadas.
- Problemas de regresión: la distribución normal se encuentra después de que los efectos sistemáticos se hayan modelado suficientemente bien.
Normalidad exacta
Ciertas cantidades en física se distribuyen normalmente, como lo demostró por primera vez James Clerk Maxwell . Ejemplos de tales cantidades son:
- Función de densidad de probabilidad de un estado fundamental en un oscilador armónico cuántico .
- La posición de una partícula que experimenta difusión . Si inicialmente la partícula está ubicada en un punto específico (es decir, su distribución de probabilidad es la función delta de Dirac ), luego del tiempo t, su ubicación se describe mediante una distribución normal con varianza t , que satisface la ecuación de difusión . Si la ubicación inicial viene dada por una determinada función de densidad, entonces la densidad en el tiempo t es la convolución de gy la PDF normal.
Normalidad aproximada
Aproximadamente distribuciones normales ocurren en muchas situaciones, como se explica por el teorema del límite central . Cuando el resultado es producido por muchos efectos pequeños que actúan de forma aditiva e independiente , su distribución será cercana a la normal. La aproximación normal no será válida si los efectos actúan de forma multiplicativa (en lugar de aditiva), o si existe una única influencia externa que tiene una magnitud considerablemente mayor que el resto de los efectos.
- En los problemas de conteo, donde el teorema del límite central incluye una aproximación de discreto a continuo y donde están involucradas distribuciones infinitamente divisibles y descomponibles , como
- Variables aleatorias binomiales , asociadas a variables de respuesta binaria;
- Variables aleatorias de Poisson , asociadas con eventos raros;
- La radiación térmica tiene una distribución de Bose-Einstein en escalas de tiempo muy cortas y una distribución normal en escalas de tiempo más largas debido al teorema del límite central.
Normalidad asumida
Solo puedo reconocer la aparición de la curva normal, la curva de errores de Laplacia, como un fenómeno muy anormal. Se aproxima aproximadamente a en ciertas distribuciones; por esta razón, y debido a su hermosa simplicidad, tal vez podamos usarlo como una primera aproximación, particularmente en investigaciones teóricas.
- Pearson (1901)
Existen métodos estadísticos para probar empíricamente esa suposición, consulte la sección anterior Pruebas de normalidad .
- En biología , el logaritmo de varias variables tienden a tener una distribución normal, es decir, tienden a tener una distribución logarítmica normal (después de la separación en subpoblaciones masculinas / femeninas), con ejemplos que incluyen:
- Medidas de tamaño de tejido vivo (longitud, altura, área de la piel, peso); [53]
- La longitud de los apéndices inertes (pelo, garras, uñas, dientes) de especímenes biológicos, en la dirección de crecimiento ; presumiblemente, el grosor de la corteza de los árboles también se incluye en esta categoría;
- Ciertas medidas fisiológicas, como la presión arterial de humanos adultos.
- En finanzas, en particular el modelo Black-Scholes , los cambios en el logaritmo de los tipos de cambio, índices de precios e índices bursátiles se asumen normales (estas variables se comportan como interés compuesto , no como interés simple, y por tanto son multiplicativas). Algunos matemáticos como Benoit Mandelbrot han argumentado que las distribuciones log-Levy , que poseen colas pesadas , serían un modelo más apropiado, en particular para el análisis de caídas del mercado de valores . El uso del supuesto de distribución normal que ocurre en los modelos financieros también ha sido criticado por Nassim Nicholas Taleb en sus trabajos.
- Los errores de medición en experimentos físicos a menudo se modelan mediante una distribución normal. Este uso de una distribución normal no implica que se asuma que los errores de medición están distribuidos normalmente, sino que el uso de la distribución normal produce las predicciones más conservadoras posibles dado solo el conocimiento sobre la media y la varianza de los errores. [54]
- En las pruebas estandarizadas , se puede hacer que los resultados tengan una distribución normal seleccionando el número y la dificultad de las preguntas (como en la prueba de CI ) o transformando los puntajes brutos del examen en puntajes de "salida" ajustándolos a la distribución normal. Por ejemplo, el rango tradicional del SAT de 200 a 800 se basa en una distribución normal con una media de 500 y una desviación estándar de 100.
- Muchos puntajes se derivan de la distribución normal, incluidos rangos de percentiles ("percentiles" o "cuantiles"), equivalentes de curvas normales , estanines , puntajes z y puntajes T. Además, algunos procedimientos estadísticos de comportamiento asumen que las puntuaciones se distribuyen normalmente; por ejemplo, pruebas t y ANOVA . La calificación de la curva de campana asigna calificaciones relativas basadas en una distribución normal de calificaciones.
- En hidrología, la distribución de la descarga fluvial de larga duración o la lluvia, por ejemplo, los totales mensuales y anuales, a menudo se considera prácticamente normal de acuerdo con el teorema del límite central . [55] La imagen azul, hecha con CumFreq , ilustra un ejemplo de ajuste de la distribución normal a las lluvias clasificadas de octubre que muestra el cinturón de confianza del 90% basado en la distribución binomial . Los datos de lluvia se representan mediante la representación de posiciones como parte del análisis de frecuencia acumulada .
Problemas metodológicos y revisión por pares
John Ioannidis sostiene que el uso de desviaciones estándar distribuidas normalmente como estándares para validar los resultados de la investigación deja sin probar predicciones falsables sobre fenómenos que no se distribuyen normalmente. Esto incluye, por ejemplo, los fenómenos que solo aparecen cuando están presentes todas las condiciones necesarias y uno no puede ser un sustituto de otro en forma de adición y los fenómenos que no están distribuidos aleatoriamente. Ioannidis sostiene que la validación centrada en la desviación estándar da una falsa apariencia de validez a las hipótesis y teorías en las que algunas, pero no todas las predicciones falsables, se distribuyen normalmente, ya que la parte de las predicciones falsables contra las que hay evidencia puede y, en algunos casos, se encuentra en la forma no normal. partes distribuidas de la gama de predicciones fácilmente identificables, así como descartar sin fundamento hipótesis para las cuales ninguna de las predicciones falsables se distribuye normalmente como si fueran infalsificables cuando en realidad hacen predicciones falsables. Ioannidis sostiene que muchos casos de teorías mutuamente excluyentes que son aceptadas como "validadas" por las revistas de investigación se deben a que las revistas no han admitido falsificaciones empíricas de predicciones no distribuidas normalmente, y no porque las teorías mutuamente excluyentes sean verdaderas no puede ser, aunque dos teorías mutuamente excluyentes pueden estar equivocadas y una tercera correcta. [56]
Métodos computacionales
Generando valores a partir de la distribución normal
En simulaciones por computadora, especialmente en aplicaciones del método Monte-Carlo , a menudo es deseable generar valores que estén distribuidos normalmente. Todos los algoritmos enumerados a continuación generan las desviaciones normales estándar, ya que un N ( μ, σ2
) se puede generar como X = μ + σZ , donde Z es normal estándar. Todos estos algoritmos se basan en la disponibilidad de un generador de números aleatorios U capaz de producir variaciones aleatorias uniformes .
- El método más sencillo se basa en la propiedad de la transformada integral de probabilidad : si U se distribuye uniformemente en (0,1), entonces Φ −1 ( U ) tendrá la distribución normal estándar. El inconveniente de este método es que se basa en el cálculo de la función probit Φ −1 , que no se puede realizar analíticamente. Algunos métodos aproximados se describen en Hart (1968) y en el artículo de erf . Wichura proporciona un algoritmo rápido para calcular esta función con 16 decimales, [57] que R usa para calcular las variables aleatorias de la distribución normal.
- Un enfoque aproximado fácil de programar, que se basa en el teorema del límite central , es el siguiente: generar 12 desviaciones U (0,1) uniformes , sumarlas todas y restar 6; la variable aleatoria resultante tendrá una distribución normal aproximadamente estándar. En realidad, la distribución será Irwin-Hall , que es una aproximación polinomial de undécimo orden de 12 secciones a la distribución normal. Esta desviación aleatoria tendrá un rango limitado de (−6, 6). [58]
- El método de Box-Muller utiliza dos números aleatorios independientes U y V distribuidos uniformemente en (0,1). Entonces las dos variables aleatorias X e Y
- Ambos tendrán la distribución normal estándar y serán independientes . Esta formulación surge porque para un vector aleatorio normal bivariado ( X , Y ) la norma al cuadrado X 2 + Y 2 tendrá la distribución chi-cuadrado con dos grados de libertad, que es una variable aleatoria exponencial fácilmente generada correspondiente a la cantidad −2ln ( U ) en estas ecuaciones; y el ángulo se distribuye uniformemente alrededor del círculo, elegido por la variable aleatoria V .
- El método polar de Marsaglia es una modificación del método de Box-Muller que no requiere el cálculo de las funciones seno y coseno. En este método, U y V se extraen de la distribución uniforme (-1,1), y luego se calcula S = U 2 + V 2 . Si S es mayor o igual a 1, entonces el método comienza de nuevo, de lo contrario las dos cantidades
- se devuelven. Nuevamente, X e Y son variables aleatorias normales estándar independientes.
- El método Ratio [59] es un método de rechazo. El algoritmo procede como sigue:
- Genere dos desviaciones uniformes independientes U y V ;
- Calcule X = √ 8 / e ( V - 0.5) / U ;
- Opcional: si X 2 ≤ 5 - 4 e 1/4 U, entonces acepte X y finalice el algoritmo;
- Opcional: si X 2 ≥ 4 e −1,35 / U + 1,4, rechace X y comience de nuevo desde el paso 1;
- Si X 2 ≤ −4 ln U, entonces acepte X ; de lo contrario, comience de nuevo el algoritmo.
- Los dos pasos opcionales permiten evitar en la mayoría de los casos la evaluación del logaritmo en el último paso. Estos pasos pueden mejorarse en gran medida [60], por lo que el logaritmo rara vez se evalúa.
- El algoritmo zigurat [61] es más rápido que la transformada de Box-Muller y sigue siendo exacto. En aproximadamente el 97% de todos los casos, utiliza solo dos números aleatorios, un entero aleatorio y un uniforme aleatorio, una multiplicación y una prueba si. Sólo en el 3% de los casos, cuando la combinación de ambos queda fuera del "núcleo del zigurat" (una especie de muestreo de rechazo que utiliza logaritmos), se deben emplear exponenciales y números aleatorios más uniformes.
- La aritmética de enteros se puede utilizar para muestrear a partir de la distribución normal estándar. [62] Este método es exacto en el sentido de que satisface las condiciones de aproximación ideal ; [63] es decir, equivale a muestrear un número real de la distribución normal estándar y redondearlo al número de coma flotante representable más cercano.
- También hay algo de investigación [64] sobre la conexión entre la transformada rápida de Hadamard y la distribución normal, ya que la transformada emplea solo suma y resta y, según el teorema del límite central, los números aleatorios de casi cualquier distribución se transformarán en la distribución normal. En este sentido, una serie de transformadas de Hadamard se pueden combinar con permutaciones aleatorias para convertir conjuntos de datos arbitrarios en datos distribuidos normalmente.
Aproximaciones numéricas para el CDF normal y la función cuantil normal
El CDF normal estándar se usa ampliamente en computación científica y estadística.
Los valores Φ ( x ) pueden aproximarse con mucha precisión mediante una variedad de métodos, como integración numérica , series de Taylor , series asintóticas y fracciones continuas . Se utilizan diferentes aproximaciones según el nivel de precisión deseado.
- Zelen y Severo (1964) dan la aproximación de Φ ( x ) para x> 0 con el error absoluto | ε ( x ) | <7.5 · 10 −8 (algoritmo 26.2.17 ):
- Hart (1968) enumera algunas docenas de aproximaciones - mediante funciones racionales, con o sin exponenciales - para la función erfc () . Sus algoritmos varían en el grado de complejidad y la precisión resultante, con una precisión absoluta máxima de 24 dígitos. Un algoritmo de West (2009) combina el algoritmo 5666 de Hart con una aproximación de fracción continua en la cola para proporcionar un algoritmo de cálculo rápido con una precisión de 16 dígitos.
- Cody (1969), después de recordar que la solución Hart68 no es adecuada para erf, da una solución tanto para erf como para erfc, con un límite de error relativo máximo, mediante la Aproximación Racional de Chebyshev .
- Marsaglia (2004) sugirió un algoritmo simple [nota 2] basado en la expansión de la serie de Taylor
- La Biblioteca Científica GNU calcula valores de la CDF normal estándar usando algoritmos de Hart y aproximaciones con polinomios de Chebyshev .
Shore (1982) introdujo aproximaciones simples que pueden incorporarse en modelos de optimización estocástica de investigación de operaciones e ingeniería, como la ingeniería de confiabilidad y el análisis de inventarios. Denotando p = Φ (z), la aproximación más simple para la función cuantil es:
Esta aproximación proporciona para z un error absoluto máximo de 0.026 (para 0.5 ≤ p ≤ 0.9999, correspondiente a 0 ≤ z ≤ 3.719). Para p <1/2, reemplace p por 1 - py cambie el signo. Otra aproximación, algo menos precisa, es la aproximación de un solo parámetro:
Este último había servido para derivar una aproximación simple para la integral de pérdida de la distribución normal, definida por
Esta aproximación es particularmente precisa para la cola lejana derecha (error máximo de 10 −3 para z≥1.4). En Shore (2005) se muestran aproximaciones muy precisas para el CDF, basadas en la metodología de modelado de respuesta (RMM, Shore, 2011, 2012).
Algunas aproximaciones más se pueden encontrar en: Función de error # Aproximación con funciones elementales . En particular, pequeño error relativo en todo el dominio para el CDF y la función cuantil también, se logra a través de una fórmula explícitamente invertible por Sergei Winitzki en 2008.
Historia
Desarrollo
Algunos autores [65] [66] atribuyen el mérito del descubrimiento de la distribución normal a de Moivre , quien en 1738 [nota 3] publicó en la segunda edición de su " La Doctrina de las Oportunidades " el estudio de los coeficientes en el binomio expansión de ( a + b ) n . De Moivre demostró que el término medio de esta expansión tiene la magnitud aproximada de, y que "Si m o ½ n es una Cantidad infinitamente grande, entonces el Logaritmo de la Razón, que un Término distante del medio por el Intervalo ℓ , tiene al Término medio, es. " [67] Aunque este teorema puede interpretarse como la primera expresión oscura de la ley de probabilidad normal, Stigler señala que el propio De Moivre no interpretó sus resultados como nada más que la regla aproximada para los coeficientes binomiales, y en particular de Moivre carecía del concepto de función de densidad de probabilidad. [68]
En 1823 Gauss publicó su monografía " Theoria combinaciónis observaciónum erroribus minimis obnoxiae " donde, entre otras cosas, introduce varios conceptos estadísticos importantes, como el método de mínimos cuadrados , el método de máxima verosimilitud y la distribución normal . Gauss usó M , M ′ , M ′ ′, ... para denotar las medidas de alguna cantidad desconocida V , y buscó el estimador "más probable" de esa cantidad: el que maximiza la probabilidad φ ( M - V ) · φ ( M ′ - V ) · φ ( M ′ ′ - V ) · ... de obtener los resultados experimentales observados. En su notación φΔ es la ley de probabilidad de los errores de medición de magnitud Δ. Sin saber cuál es la función φ , Gauss requiere que su método se reduzca a la respuesta conocida: la media aritmética de los valores medidos. [nota 4] A partir de estos principios, Gauss demuestra que la única ley que racionaliza la elección de la media aritmética como estimador del parámetro de ubicación es la ley normal de errores: [69]
donde h es "la medida de la precisión de las observaciones". Usando esta ley normal como modelo genérico para errores en los experimentos, Gauss formula lo que ahora se conoce como el método de mínimos cuadrados ponderados no lineales (NWLS). [70]
Aunque Gauss fue el primero en sugerir la ley de distribución normal, Laplace hizo contribuciones significativas. [nota 5] Fue Laplace quien planteó por primera vez el problema de agregar varias observaciones en 1774, [71] aunque su propia solución condujo a la distribución laplaciana . Fue Laplace quien calculó por primera vez el valor de la integral ∫ e - t 2 dt = √ π en 1782, proporcionando la constante de normalización para la distribución normal. [72] Finalmente, fue Laplace quien en 1810 probó y presentó a la Academia el teorema del límite central fundamental , que enfatizaba la importancia teórica de la distribución normal. [73]
Es interesante notar que en 1809 un matemático irlandés Adrain publicó dos derivaciones de la ley de probabilidad normal, simultánea e independientemente de Gauss. [74] Sus obras pasaron desapercibidas para la comunidad científica, hasta que en 1871 fueron "redescubiertas" por Abbe . [75]
En el medio del siglo 19 Maxwell demostró que la distribución normal no es sólo una herramienta matemática conveniente, pero también puede ocurrir en los fenómenos naturales: [76] "El número de partículas cuya velocidad, resuelto en una dirección determinada, se encuentra entre x y x + dx es
Nombrar
Desde su introducción, la distribución normal ha sido conocida con muchos nombres diferentes: la ley del error, la ley de la facilidad de los errores, la segunda ley de Laplace, la ley de Gauss, etc. El propio Gauss aparentemente acuñó el término con referencia a las "ecuaciones normales". involucrado en sus aplicaciones, con normal teniendo su significado técnico de ortogonal en lugar de "habitual". [77] Sin embargo, a fines del siglo XIX, algunos autores [nota 6] habían comenzado a usar el nombre distribución normal , donde la palabra "normal" se usaba como adjetivo; el término ahora se ve como un reflejo del hecho de que esta distribución se consideró típica, común y, por tanto, "normal". Peirce (uno de esos autores) una vez definió "normal" así: "... lo 'normal' no es el promedio (o cualquier otro tipo de media) de lo que realmente ocurre, sino de lo que , a la larga, ocurriría bajo ciertas circunstancias." [78] Hacia fines del siglo XX, Pearson popularizó el término normal como designación para esta distribución. [79]
Hace muchos años llamé a la curva de Laplace-Gauss la curva normal , cuyo nombre, si bien evita una cuestión internacional de prioridad, tiene la desventaja de llevar a la gente a creer que todas las demás distribuciones de frecuencia son, en un sentido u otro, "anormales".
- Pearson (1920)
Además, fue Pearson quien escribió por primera vez la distribución en términos de la desviación estándar σ como en la notación moderna. Poco después de esto, en el año 1915, Fisher agregó el parámetro de ubicación a la fórmula de distribución normal, expresándolo en la forma en que está escrito hoy en día:
El término "normal estándar", que denota la distribución normal con media cero y varianza unitaria, se generalizó alrededor de la década de 1950, apareciendo en los libros de texto populares de PG Hoel (1947) " Introducción a la estadística matemática " y AM Mood (1950) ". Introducción a la teoría de la estadística ". [80]
Ver también
- Distribución de Bates : similar a la distribución de Irwin-Hall, pero reescalada en el rango de 0 a 1
- Problema de Behrens-Fisher: el problema de larga data de probar si dos muestras normales con diferentes varianzas tienen las mismas medias;
- Distancia de Bhattacharyya : método utilizado para separar mezclas de distribuciones normales
- Teorema de Erdős-Kac: sobre la aparición de la distribución normal en la teoría de números
- Desenfoque gaussiano : convolución , que utiliza la distribución normal como núcleo
- Normalmente distribuido y no correlacionado no implica independiente
- Distribución normal recíproca
- Relación distribución normal
- Mesa normal estándar
- Lema de Stein
- Distribución subgaussiana
- Suma de variables aleatorias distribuidas normalmente
- Distribución Tweedie : la distribución normal es un miembro de la familia de modelos de dispersión exponencial Tweedie.
- Distribución normal envuelta : la distribución normal aplicada a un dominio circular
- Prueba Z : usando la distribución normal
Notas
- ^ Para la prueba, consulte la integral gaussiana .
- ^ Por ejemplo, este algoritmo se da en el artículo Bc lenguaje de programación .
- ↑ De Moivre publicó por primera vez sus hallazgos en 1733, en un panfleto "Approximatio ad Summam Terminorum Binomii ( a + b ) n in Seriem Expansi" que fue designado para circulación privada únicamente. Pero no fue hasta el año 1738 que puso a disposición del público sus resultados. El folleto original se reimprimió varias veces, véase, por ejemplo, Walker (1985) .
- ^ "Ciertamente ha sido costumbre considerar como un axioma la hipótesis de que si alguna cantidad ha sido determinada por varias observaciones directas, hechas bajo las mismas circunstancias y con el mismo cuidado, la media aritmética de los valores observados proporciona el valor más probable, si no de manera rigurosa, pero casi al menos, de modo que siempre sea más seguro adherirse a él ". - Gauss (1809 , sección 177)
- ^ "Mi costumbre de llamar a la curva la curva de Gauss-Laplacian ocurva normal nos salva de compartir el mérito del descubrimiento entre los dos grandes astrónomos matemáticos". cita de Pearson (1905 , p. 189)
- ↑ Además de los específicamente mencionados aquí, este uso se encuentra en las obras de Peirce , Galton ( Galton (1889 , capítulo V)) y Lexis ( Lexis (1878) , Rohrbasser & Véron (2003) ) c. 1875. [ cita requerida ]
Referencias
Citas
- ^ a b c d e f "Lista de símbolos de probabilidad y estadística" . Bóveda de matemáticas . 26 de abril de 2020 . Consultado el 15 de agosto de 2020 .
- ^ Weisstein, Eric W. "Distribución normal" . mathworld.wolfram.com . Consultado el 15 de agosto de 2020 .
- ^ Distribución normal , Enciclopedia de psicología de Gale
- ^ Casella y Berger (2001 , p. 102)
- ^ Lyon, A. (2014). ¿Por qué las distribuciones normales son normales? , The British Journal for the Philosophy of Science.
- ^ a b "Distribución normal" . www.mathsisfun.com . Consultado el 15 de agosto de 2020 .
- ^ Stigler (1982)
- ↑ Halperin, Hartley & Hoel (1965 , ítem 7)
- ^ McPherson (1990 , p. 110)
- ^ Bernardo y Smith (2000 , p. 121)
- ^ Scott, Clayton; Nowak, Robert (7 de agosto de 2003). "La función Q" . Conexiones .
- ^ Barak, Ohad (6 de abril de 2006). "Función Q y función de error" (PDF) . Universidad de Tel Aviv. Archivado desde el original (PDF) el 25 de marzo de 2009.
- ^ Weisstein, Eric W. "Función de distribución normal" . MathWorld .
- ^ Abramowitz, Milton ; Stegun, Irene Ann , eds. (1983) [junio de 1964]. "Capítulo 26, ecuación 26.2.12" . Manual de funciones matemáticas con fórmulas, gráficos y tablas matemáticas . Serie de Matemáticas Aplicadas. 55 (Novena reimpresión con correcciones adicionales de la décima impresión original con correcciones (diciembre de 1972); primera ed.). Washington DC; Nueva York: Departamento de Comercio de los Estados Unidos, Oficina Nacional de Normas; Publicaciones de Dover. pag. 932. ISBN 978-0-486-61272-0. LCCN 64-60036 . Señor 0167642 . ‹Ver Tfd› LCCN 65-12253 .
- ^ "Wolfram | Alpha: motor de conocimiento computacional" . Wolframalpha.com . Consultado el 3 de marzo de 2017 .
- ^ "Wolfram | Alpha: motor de conocimiento computacional" . Wolframalpha.com .
- ^ "Wolfram | Alpha: motor de conocimiento computacional" . Wolframalpha.com . Consultado el 3 de marzo de 2017 .
- ^ Portada, Thomas M .; Thomas, Joy A. (2006). Elementos de la teoría de la información . John Wiley e hijos. pag. 254 .
- ^ Park, Sung Y .; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi : 10.1016 / j.jeconom.2008.12.014 . Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 .
- ^ Geary RC (1936) La distribución de la proporción de "Student" para las muestras no normales ". Suplemento de la Revista de la Royal Statistical Society 3 (2): 178-184
- ^ Lukacs, Eugene (marzo de 1942). "Una caracterización de la distribución normal". Anales de estadística matemática . 13 (1): 91–93. doi : 10.1214 / AOMS / 1177731647 . ISSN 0003-4851 . JSTOR 2236166 . Señor 0006626 . Zbl 0060.28509 . Wikidata Q55897617 .
- ^ a b c Patel y Read (1996 , [2.1.4])
- ↑ Fan (1991 , p. 1258)
- ↑ Patel & Read (1996 , [2.1.8])
- ^ Papoulis, Athanasios. Probabilidad, variables aleatorias y procesos estocásticos (4ª ed.). pag. 148.
- ↑ Bryc (1995 , p. 23)
- ↑ Bryc (1995 , p. 24)
- ^ Portada y Thomas (2006 , p. 254)
- ^ Williams, David (2001). Pesando las probabilidades: un curso de probabilidad y estadística (reimpreso. Ed.). Cambridge [ua]: Universidad de Cambridge. Prensa. pp. 197 -199. ISBN 978-0-521-00618-7.
- ^ Smith, José M. Bernardo; Adrian FM (2000). Teoría bayesiana (Reimpresión ed.). Chichester [ua]: Wiley. págs. 209 , 366. ISBN 978-0-471-49464-5.
- ^ O'Hagan, A. (1994) Teoría avanzada de estadística de Kendall, Vol. 2B, Inferencia bayesiana , Edward Arnold. ISBN 0-340-52922-9 (Sección 5.40)
- ↑ a b Bryc (1995 , p. 35)
- ^ UIUC, Conferencia 21. La distribución normal multivariante , 21,6: "Individualmente gaussiano versus conjuntamente gaussiano".
- ^ Edward L. Melnick y Aaron Tenenbein, "Especificaciones erróneas de la distribución normal", The American Statistician , volumen 36, número 4 de noviembre de 1982, páginas 372–373
- ^ "Distancia de Kullback Leibler (KL) de dos distribuciones de probabilidad normales (gaussianas)" . Allisons.org . 5 de diciembre de 2007 . Consultado el 3 de marzo de 2017 .
- ^ Jordan, Michael I. (8 de febrero de 2010). "Stat260: modelado e inferencia bayesianos: el conjugado anterior para la distribución normal" (PDF) .
- ^ Amari y Nagaoka (2000)
- ^ "Aproximación normal a la distribución de Poisson" . Stat.ucla.edu . Consultado el 3 de marzo de 2017 .
- ^ a b Das, Abhranil (2020). "Un método para integrar y clasificar distribuciones normales". arXiv : 2012.14331 [ stat.ML ].
- ↑ Bryc (1995 , p. 27)
- ^ Weisstein, Eric W. "Distribución normal de productos" . MathWorld . wolfram.com.
- ^ Lukacs, Eugene (1942). "Una caracterización de la distribución normal" . Los Anales de Estadística Matemática . 13 (1): 91–3. doi : 10.1214 / aoms / 1177731647 . ISSN 0003-4851 . JSTOR 2236166 .
- ^ Basu, D .; Laha, RG (1954). "Sobre algunas caracterizaciones de la distribución normal". Sankhyā . 13 (4): 359–62. ISSN 0036-4452 . JSTOR 25048183 .
- ^ Lehmann, EL (1997). Prueba de hipótesis estadísticas (2ª ed.). Saltador. pag. 199. ISBN 978-0-387-94919-2.
- ↑ Patel & Read (1996 , [2.3.6])
- ↑ Galambos y Simonelli (2004 , Teorema 3.5)
- ↑ a b Lukacs y King (1954)
- ^ Quine, MP (1993). "Sobre tres caracterizaciones de la distribución normal" . Probabilidad y estadística matemática . 14 (2): 257–263.
- ^ John, S (1982). "La familia normal de distribuciones de dos piezas de tres parámetros y su ajuste". Comunicaciones en estadística: teoría y métodos . 11 (8): 879–885. doi : 10.1080 / 03610928208828279 .
- ↑ a b Krishnamoorthy (2006 , p. 127)
- ↑ Krishnamoorthy (2006 , p. 130)
- ↑ Krishnamoorthy (2006 , p. 133)
- ↑ Huxley (1932)
- ^ Jaynes, Edwin T. (2003). Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. págs. 592–593. ISBN 9780521592710.
- ^ Oosterbaan, Roland J. (1994). "Capítulo 6: Análisis de frecuencia y regresión de datos hidrológicos" (PDF) . En Ritzema, Henk P. (ed.). Principios y aplicaciones de drenaje, publicación 16 (segunda edición revisada). Wageningen, Países Bajos: Instituto Internacional para la Recuperación y Mejoramiento de Tierras (ILRI). págs. 175–224. ISBN 978-90-70754-33-4.
- ^ Por qué la mayoría de las investigaciones publicadas son falsas, John PA Ioannidis, 2005
- ^ Wichura, Michael J. (1988). "Algoritmo AS241: los puntos porcentuales de la distribución normal". Estadísticas aplicadas . 37 (3): 477–84. doi : 10.2307 / 2347330 . JSTOR 2347330 .
- ^ Johnson, Kotz y Balakrishnan (1995 , Ecuación (26.48))
- ^ Kinderman y Monahan (1977)
- ↑ Leva (1992)
- ^ Marsaglia y Tsang (2000)
- ↑ Karney (2016)
- ^ Monahan (1985 , sección 2)
- ^ Wallace (1996)
- ^ Johnson, Kotz y Balakrishnan (1994 , p. 85)
- ^ Le Cam y Lo Yang (2000 , p. 74)
- ^ De Moivre, Abraham (1733), Corolario I - véase Walker (1985 , p. 77)
- ^ Stigler (1986 , p. 76)
- ↑ Gauss (1809 , sección 177)
- ↑ Gauss (1809 , sección 179)
- ↑ Laplace (1774 , Problema III)
- ↑ Pearson (1905 , p. 189)
- ^ Stigler (1986 , p. 144)
- ^ Stigler (1978 , p. 243)
- ^ Stigler (1978 , p. 244)
- ↑ Maxwell (1860 , pág.23)
- ^ Jaynes, Edwin J .; Teoría de la probabilidad: la lógica de la ciencia , capítulo 7
- ^ Peirce, Charles S. (c. 1909 MS), Collected Papers v. 6, párrafo 327
- ^ Kruskal y Stigler (1997)
- ^ "Usos más antiguos ... (entrada CURVA ESTÁNDAR NORMAL)" .
Fuentes
- Aldrich, John; Miller, Jeff. "Los primeros usos de los símbolos en probabilidad y estadística" .
- Aldrich, John; Miller, Jeff. "Los primeros usos conocidos de algunas de las palabras de las matemáticas" .En particular, las entradas para "campana y curva de campana" , "normal (distribución)" , "Gaussiana" y "Error, ley del error, teoría de los errores, etc." .
- Amari, Shun-ichi; Nagaoka, Hiroshi (2000). Métodos de geometría de la información . Prensa de la Universidad de Oxford. ISBN 978-0-8218-0531-2.
- Bernardo, José M .; Smith, Adrian FM (2000). Teoría Bayesiana . Wiley. ISBN 978-0-471-49464-5.
- Bryc, Wlodzimierz (1995). La distribución normal: caracterizaciones con aplicaciones . Springer-Verlag. ISBN 978-0-387-97990-8.
- Casella, George; Berger, Roger L. (2001). Inferencia estadística (2ª ed.). Duxbury. ISBN 978-0-534-24312-8.
- Cody, William J. (1969). "Aproximaciones racionales de Chebyshev para la función de error" . Matemáticas de la Computación . 23 (107): 631–638. doi : 10.1090 / S0025-5718-1969-0247736-4 .
- Portada, Thomas M .; Thomas, Joy A. (2006). Elementos de la teoría de la información . John Wiley e hijos.
- de Moivre, Abraham (1738). La doctrina de las oportunidades . ISBN 978-0-8218-2103-9.
- Fan, Jianqing (1991). "Sobre las tasas óptimas de convergencia para problemas de deconvolución no paramétricos" . The Annals of Statistics . 19 (3): 1257-1272. doi : 10.1214 / aos / 1176348248 . JSTOR 2241949 .
- Galton, Francis (1889). Herencia natural (PDF) . Londres, Reino Unido: Richard Clay and Sons.
- Galambos, Janos; Simonelli, Italo (2004). Productos de variables aleatorias: aplicaciones a problemas de física y funciones aritméticas . Marcel Dekker, Inc. ISBN 978-0-8247-5402-0.
- Gauss, Carolo Friderico (1809). Theoria motvs corporvm coelestivm in sectionibvs conicis Solem ambientivm [ Teoría del movimiento de los cuerpos celestes que se mueven alrededor del Sol en secciones cónicas ] (en latín). Traducción inglesa .
- Gould, Stephen Jay (1981). The Mismeasure of Man (primera ed.). WW Norton. ISBN 978-0-393-01489-1.
- Halperin, Max; Hartley, Herman O .; Hoel, Paul G. (1965). "Estándares recomendados para la notación y los símbolos estadísticos. Comité de la COPSS sobre símbolos y notación". El estadístico estadounidense . 19 (3): 12-14. doi : 10.2307 / 2681417 . JSTOR 2681417 .
- Hart, John F .; et al. (1968). Aproximaciones informáticas . Nueva York, NY: John Wiley & Sons, Inc. ISBN 978-0-88275-642-4.
- "Distribución normal" , Enciclopedia de matemáticas , EMS Press , 2001 [1994]
- Herrnstein, Richard J .; Murray, Charles (1994). La curva de campana: inteligencia y estructura de clases en la vida estadounidense . Prensa libre . ISBN 978-0-02-914673-6.
- Huxley, Julian S. (1932). Problemas de crecimiento relativo . Londres. ISBN 978-0-486-61114-3. OCLC 476909537 .
- Johnson, Norman L .; Kotz, Samuel; Balakrishnan, Narayanaswamy (1994). Distribuciones univariadas continuas, volumen 1 . Wiley. ISBN 978-0-471-58495-7.
- Johnson, Norman L .; Kotz, Samuel; Balakrishnan, Narayanaswamy (1995). Distribuciones univariadas continuas, volumen 2 . Wiley. ISBN 978-0-471-58494-0.
- Karney, CFF (2016). "Muestreo exactamente de la distribución normal". Transacciones ACM en software matemático . 42 (1): 3: 1-14. arXiv : 1303.6257 . doi : 10.1145 / 2710016 . S2CID 14252035 .
- Kinderman, Albert J .; Monahan, John F. (1977). "Generación por computadora de variables aleatorias usando la relación de desviaciones uniformes". Transacciones ACM en software matemático . 3 (3): 257–260. doi : 10.1145 / 355744.355750 . S2CID 12884505 .
- Krishnamoorthy, Kalimuthu (2006). Manual de distribuciones estadísticas con aplicaciones . Chapman y Hall / CRC. ISBN 978-1-58488-635-8.
- Kruskal, William H .; Stigler, Stephen M. (1997). Spencer, Bruce D. (ed.). Terminología normativa: 'normal' en estadística y en otros lugares . Estadísticas y Políticas Públicas. Prensa de la Universidad de Oxford. ISBN 978-0-19-852341-3.
- Laplace, Pierre-Simon de (1774). "Mémoire sur la probabilité des cause par les événements" . Mémoires de l'Académie Royale des Sciences de Paris (Savants étrangers), tomo 6 : 621–656.Traducido por Stephen M. Stigler en Statistical Science 1 (3), 1986: ‹Ver Tfd› JSTOR 2245476 .
- Laplace, Pierre-Simon (1812). Théorie analytique des probabilités [ Teoría analítica de probabilidades ].
- Le Cam, Lucien; Lo Yang, Grace (2000). Asintótica en estadística: algunos conceptos básicos (segunda ed.). Saltador. ISBN 978-0-387-95036-5.
- Leva, Joseph L. (1992). "Un generador de números aleatorios normal rápido" (PDF) . Transacciones ACM en software matemático . 18 (4): 449–453. CiteSeerX 10.1.1.544.5806 . doi : 10.1145 / 138351.138364 . S2CID 15802663 . Archivado desde el original (PDF) el 16 de julio de 2010.
- Lexis, Wilhelm (1878). "Sur la durée normale de la vie humaine et sur la théorie de la stabilité des rapports statistiques". Annales de Démographie Internationale . París. II : 447–462.
- Lukacs, Eugene; King, Edgar P. (1954). "Una propiedad de distribución normal" . Los Anales de Estadística Matemática . 25 (2): 389–394. doi : 10.1214 / aoms / 1177728796 . JSTOR 2236741 .
- McPherson, Glen (1990). Estadística en la investigación científica: sus bases, aplicación e interpretación . Springer-Verlag. ISBN 978-0-387-97137-7.
- Marsaglia, George ; Tsang, Wai Wan (2000). "El método Zigurat para generar variables aleatorias" . Revista de software estadístico . 5 (8). doi : 10.18637 / jss.v005.i08 .
- Marsaglia, George (2004). "Evaluación de la distribución normal" . Revista de software estadístico . 11 (4). doi : 10.18637 / jss.v011.i04 .
- Maxwell, James Clerk (1860). "V. Ilustraciones de la teoría dinámica de los gases. - Parte I: Sobre los movimientos y colisiones de esferas perfectamente elásticas". Revista filosófica . Serie 4. 19 (124): 19–32. doi : 10.1080 / 14786446008642818 .
- Monahan, JF (1985). "Precisión en la generación de números aleatorios" . Matemáticas de la Computación . 45 (172): 559–568. doi : 10.1090 / S0025-5718-1985-0804945-X .
- Patel, Jagdish K .; Leer, Campbell B. (1996). Manual de distribución normal (2ª ed.). Prensa CRC. ISBN 978-0-8247-9342-5.
- Pearson, Karl (1901). "En líneas y planos de ajuste más cercano a sistemas de puntos en el espacio" (PDF) . Revista filosófica . 6. 2 (11): 559–572. doi : 10.1080 / 14786440109462720 .
- Pearson, Karl (1905). " ' Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson'. Dúplica" . Biometrika . 4 (1): 169–212. doi : 10.2307 / 2331536 . JSTOR 2331536 .
- Pearson, Karl (1920). "Notas sobre la historia de la correlación" . Biometrika . 13 (1): 25–45. doi : 10.1093 / biomet / 13.1.25 . JSTOR 2331722 .
- Rohrbasser, Jean-Marc; Véron, Jacques (2003). "Wilhelm Lexis: la duración normal de la vida como expresión de la" naturaleza de las cosas " " . Población . 58 (3): 303–322. doi : 10.3917 / pope.303.0303 .
- Shore, H (1982). "Aproximaciones simples para la función acumulativa inversa, la función de densidad y la integral de pérdida de la distribución normal". Revista de la Royal Statistical Society. Serie C (Estadística aplicada) . 31 (2): 108-114. doi : 10.2307 / 2347972 . JSTOR 2347972 .
- Shore, H (2005). "Aproximaciones precisas basadas en RMM para el CDF de la distribución normal". Comunicaciones en estadística: teoría y métodos . 34 (3): 507–513. doi : 10.1081 / sta-200052102 . S2CID 122148043 .
- Shore, H (2011). "Metodología de modelado de respuesta". WIREs Comput Stat . 3 (4): 357–372. doi : 10.1002 / wics.151 .
- Shore, H (2012). "Estimación de modelos de metodología de modelado de respuesta". WIREs Comput Stat . 4 (3): 323–333. doi : 10.1002 / wics.1199 .
- Stigler, Stephen M. (1978). "Estadística matemática en los primeros estados" . The Annals of Statistics . 6 (2): 239–265. doi : 10.1214 / aos / 1176344123 . JSTOR 2958876 .
- Stigler, Stephen M. (1982). "Una propuesta modesta: un nuevo estándar para lo normal". El estadístico estadounidense . 36 (2): 137-138. doi : 10.2307 / 2684031 . JSTOR 2684031 .
- Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. ISBN 978-0-674-40340-6.
- Stigler, Stephen M. (1999). Estadísticas sobre la mesa . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.
- Walker, Helen M. (1985). "De Moivre sobre la ley de probabilidad normal" (PDF) . En Smith, David Eugene (ed.). Un libro de consulta en matemáticas . Dover. ISBN 978-0-486-64690-9.
- Wallace, CS (1996). "Generadores pseudoaleatorios rápidos para variantes normales y exponenciales". Transacciones ACM en software matemático . 22 (1): 119-127. doi : 10.1145 / 225545.225554 . S2CID 18514848 .
- Weisstein, Eric W. "Distribución normal" . MathWorld .
- West, Graeme (2009). "Mejores aproximaciones a funciones normales acumulativas" (PDF) . Revista Wilmott : 70–76.
- Zelen, Marvin; Severo, Norman C. (1964). Funciones de probabilidad (capítulo 26) . Manual de funciones matemáticas con fórmulas, gráficos y tablas matemáticas , por Abramowitz, M .; y Stegun, IA : Oficina Nacional de Normas. Nueva York, NY: Dover. ISBN 978-0-486-61272-0.
enlaces externos
- "Distribución normal" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
- Calculadora de distribución normal , calculadora más potente