Distribución normal multivariante

En teoría y estadística de probabilidad , la distribución normal multivariada , la distribución gaussiana multivariante o la distribución normal conjunta es una generalización de la distribución normal unidimensional ( univariante ) a dimensiones superiores . Una definición es que se dice que un vector aleatorio tiene una distribución normal k -variable si cada combinación lineal de sus componentes k tiene una distribución normal univariante. Su importancia deriva principalmente del teorema del límite central multivariado.. La distribución normal multivariada se utiliza a menudo para describir, al menos aproximadamente, cualquier conjunto de variables aleatorias de valor real (posiblemente) correlacionadas , cada una de las cuales se agrupa alrededor de un valor medio.

Normal multivariante
Función de densidad de probabilidad Muchos puntos muestrales de una distribución normal multivariante con ${\ displaystyle {\ boldsymbol {\ mu}} = \ left [{\ begin {smallmatrix} 0 \\ 0 \ end {smallmatrix}} \ right]}$ y ${\ displaystyle {\ boldsymbol {\ Sigma}} = \ left [{\ begin {smallmatrix} 1 & 3/5 \\ 3/5 & 2 \ end {smallmatrix}} \ right]}$ , que se muestra junto con la elipse 3-sigma, las dos distribuciones marginales y los dos histogramas 1-d.
Notación	${\ Displaystyle {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}})}$
Parámetros	μ ∈ R ^k - ubicación Σ ∈ R ^{k × k} - covarianza ( matriz semidefinida positiva )
Apoyo	x ∈ μ + intervalo ( Σ ) ⊆ R ^k
PDF	${\ displaystyle (2 \ pi) ^ {- {\ frac {k} {2}}} \ det ({\ boldsymbol {\ Sigma}}) ^ {- {\ frac {1} {2}}} \, e ^ {- {\ frac {1} {2}} (\ mathbf {x} - {\ boldsymbol {\ mu}}) ^ {\! {\ mathsf {T}}} {\ boldsymbol {\ Sigma}} ^ {- 1} (\ mathbf {x} - {\ boldsymbol {\ mu}})},}$ existe solo cuando Σ es positivo-definido
Significar	μ
Modo	μ
Diferencia	Σ
Entropía	${\ Displaystyle {\ frac {1} {2}} \ ln \ left ((2 \ pi \ mathrm {e}) ^ {k} \ det \ left ({\ boldsymbol {\ Sigma}} \ right) \ right )}$
MGF	${\ Displaystyle \ exp \! {\ Big (} {\ boldsymbol {\ mu}} ^ {\! {\ mathsf {T}}} \ mathbf {t} + {\ tfrac {1} {2}} \ mathbf {t} ^ {\! {\ mathsf {T}}} {\ boldsymbol {\ Sigma}} \ mathbf {t} {\ Big)}}$
CF	${\ Displaystyle \ exp \! {\ Big (} i {\ boldsymbol {\ mu}} ^ {\! {\ mathsf {T}}} \ mathbf {t} - {\ tfrac {1} {2}} \ mathbf {t} ^ {\! {\ mathsf {T}}} {\ boldsymbol {\ Sigma}} \ mathbf {t} {\ Big)}}$
Divergencia de Kullback-Leibler	vea abajo

Definiciones

Notación y parametrización

La distribución normal multivariante de un vector aleatorio k -dimensional ${\ Displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {k}) ^ {\ mathrm {T}}}$ se puede escribir en la siguiente notación:

{\ Displaystyle \ mathbf {X} \ \ sim \ {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}}),}

o para hacer saber explícitamente que X es k- dimensional,

{\ Displaystyle \ mathbf {X} \ \ sim \ {\ mathcal {N}} _ {k} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}}),}

con vector de media k -dimensional

{\ displaystyle {\ boldsymbol {\ mu}} = \ operatorname {E} [\ mathbf {X}] = (\ operatorname {E} [X_ {1}], \ operatorname {E} [X_ {2}], \ ldots, \ operatorname {E} [X_ {k}]) ^ {\ textbf {T}},}

y ${\ Displaystyle k \ times k}$ Matriz de covarianza

{\ Displaystyle \ Sigma _ {i, j} = \ operatorname {E} [(X_ {i} - \ mu _ {i}) (X_ {j} - \ mu _ {j})] = \ operatorname {Cov } [X_ {i}, X_ {j}]}

tal que ${\ Displaystyle 1 \ leq i, j \ leq k.}$ La inversa de la matriz de covarianza se llama matriz de precisión , denotada por ${\ displaystyle {\ boldsymbol {Q}} = {\ boldsymbol {\ Sigma}} ^ {- 1}}$ .

Vector aleatorio normal estándar

Un verdadero vector aleatorio ${\ Displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {k}) ^ {\ mathrm {T}}}$ se llama vector aleatorio normal estándar si todos sus componentes ${\ Displaystyle X_ {n}}$ son independientes y cada una es una variable aleatoria distribuida normalmente de varianza unitaria de media cero, es decir, si ${\ Displaystyle X_ {n} \ sim \ {\ mathcal {N}} (0,1)}$ para todos ${\ Displaystyle n}$ . ^[1]^{: pág. 454}

Vector aleatorio normal centrado

Un verdadero vector aleatorio ${\ Displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {k}) ^ {\ mathrm {T}}}$ se llama un vector aleatorio normal centrado si existe un determinista ${\ Displaystyle k \ times \ ell}$ matriz ${\ displaystyle {\ boldsymbol {A}}}$ tal que ${\ Displaystyle {\ boldsymbol {A}} \ mathbf {Z}}$ tiene la misma distribución que ${\ Displaystyle \ mathbf {X}}$ dónde ${\ Displaystyle \ mathbf {Z}}$ es un vector aleatorio normal estándar con ${\ Displaystyle \ ell}$ componentes. ^[1]^{: pág. 454}

Vector aleatorio normal

Un verdadero vector aleatorio ${\ Displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {k}) ^ {\ mathrm {T}}}$ se llama vector aleatorio normal si existe un vector aleatorio ${\ Displaystyle \ ell}$ -vector ${\ Displaystyle \ mathbf {Z}}$ , que es un vector aleatorio normal estándar, un ${\ Displaystyle k}$ -vector ${\ Displaystyle \ mathbf {\ mu}}$ y un ${\ Displaystyle k \ times \ ell}$ matriz ${\ displaystyle {\ boldsymbol {A}}}$ , tal que ${\ Displaystyle \ mathbf {X} = {\ boldsymbol {A}} \ mathbf {Z} + \ mathbf {\ mu}}$ . ^[2]^{: pág. 454}^[1]^{: pág. 455}

Formalmente:

${\ Displaystyle \ mathbf {X} \ \ sim \ {\ mathcal {N}} (\ mathbf {\ mu}, {\ boldsymbol {\ Sigma}}) \ quad \ iff \ quad {\ text {existe}} \ mathbf {\ mu} \ in \ mathbb {R} ^ {k}, {\ boldsymbol {A}} \ in \ mathbb {R} ^ {k \ times \ ell} {\ text {tal que}} \ mathbf {X} = {\ boldsymbol {A}} \ mathbf {Z} + \ mathbf {\ mu} {\ text {for}} Z_ {n} \ sim \ {\ mathcal {N}} (0,1), {\ text {iid}}}$

Aquí la matriz de covarianza es ${\ displaystyle {\ boldsymbol {\ Sigma}} = {\ boldsymbol {A}} {\ boldsymbol {A}} ^ {\ mathrm {T}}}$ .

En el caso degenerado donde la matriz de covarianza es singular , la distribución correspondiente no tiene densidad; consulte la sección siguiente para obtener más detalles. Este caso surge con frecuencia en las estadísticas ; por ejemplo, en la distribución del vector de residuos en la regresión de mínimos cuadrados ordinarios. La ${\ Displaystyle X_ {i}}$ en general, no son independientes; pueden verse como el resultado de aplicar la matriz ${\ displaystyle {\ boldsymbol {A}}}$ a una colección de variables gaussianas independientes ${\ Displaystyle \ mathbf {Z}}$ .

Definiciones equivalentes

Las siguientes definiciones son equivalentes a la definición dada anteriormente. Un vector aleatorio ${\ Displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {k}) ^ {T}}$ tiene una distribución normal multivariante si satisface una de las siguientes condiciones equivalentes.

Cada combinación lineal ${\ Displaystyle Y = a_ {1} X_ {1} + \ cdots + a_ {k} X_ {k}}$ de sus componentes se distribuye normalmente . Es decir, para cualquier vector constante ${\ Displaystyle \ mathbf {a} \ in \ mathbb {R} ^ {k}}$ , la variable aleatoria ${\ Displaystyle Y = \ mathbf {a} ^ {\ mathrm {T}} \ mathbf {X}}$ tiene una distribución normal univariante, donde una distribución normal univariante con varianza cero es una masa puntual en su media.
Hay un k- vector ${\ Displaystyle \ mathbf {\ mu}}$ y un semidefinito positivo simétrico ${\ Displaystyle k \ times k}$ matriz ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ , tal que la función característica de ${\ Displaystyle \ mathbf {X}}$ es

{\ Displaystyle \ varphi _ {\ mathbf {X}} (\ mathbf {u}) = \ exp {\ Big (} i \ mathbf {u} ^ {T} {\ boldsymbol {\ mu}} - {\ tfrac {1} {2}} \ mathbf {u} ^ {T} {\ boldsymbol {\ Sigma}} \ mathbf {u} {\ Big)}.}

La distribución normal esférica se puede caracterizar como la distribución única donde los componentes son independientes en cualquier sistema de coordenadas ortogonales. ^[3]^[4]

Función de densidad

Densidad articular normal bivariada

Caso no degenerado

Se dice que la distribución normal multivariada es "no degenerada" cuando la matriz de covarianza simétrica ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ es positivo definido . En este caso la distribución tiene densidad ^[5]

${\ Displaystyle f _ {\ mathbf {X}} (x_ {1}, \ ldots, x_ {k}) = {\ frac {\ exp \ left (- {\ frac {1} {2}} ({\ mathbf {x}} - {\ boldsymbol {\ mu}}) ^ {\ mathrm {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ mathbf {x}} - {\ boldsymbol {\ mu }}) \ right)} {\ sqrt {(2 \ pi) ^ {k} | {\ boldsymbol {\ Sigma}} |}}}}$

dónde ${\ Displaystyle {\ mathbf {x}}}$ es un vector de columna k -dimensional real y ${\ Displaystyle | {\ boldsymbol {\ Sigma}} | \ equiv \ det {\ boldsymbol {\ Sigma}}}$ es el determinante de ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ , también conocida como varianza generalizada . La ecuación anterior se reduce a la de la distribución normal univariante si ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ es un ${\ Displaystyle 1 \ times 1}$ matriz (es decir, un solo número real).

La versión circularmente simétrica de la distribución normal compleja tiene una forma ligeramente diferente.

Cada locus de isodensidad , el lugar de los puntos en el espacio k -dimensional, cada uno de los cuales da el mismo valor particular de la densidad, es una elipse o su generalización de dimensión superior; por tanto, la normal multivariante es un caso especial de las distribuciones elípticas .

La cantidad ${\ Displaystyle {\ sqrt {({\ mathbf {x}} - {\ boldsymbol {\ mu}}) ^ {\ mathrm {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ mathbf {x}} - {\ boldsymbol {\ mu}})}}}$ se conoce como distancia de Mahalanobis , que representa la distancia del punto de prueba ${\ Displaystyle {\ mathbf {x}}}$ de la media ${\ displaystyle {\ boldsymbol {\ mu}}}$ . Tenga en cuenta que en el caso cuando ${\ Displaystyle k = 1}$ , la distribución se reduce a una distribución normal univariante y la distancia de Mahalanobis se reduce al valor absoluto de la puntuación estándar . Consulte también Intervalo a continuación.

Caso bivariado

En el caso bidimensional no singular ( ${\ Displaystyle k = {\ text {rango}} \ left (\ Sigma \ right) = 2}$ ), la función de densidad de probabilidad de un vector ${\ Displaystyle {\ text {[XY] ′}}}$ es:

{\ Displaystyle f (x, y) = {\ frac {1} {2 \ pi \ sigma _ {X} \ sigma _ {Y} {\ sqrt {1- \ rho ^ {2}}}}} \ mathrm {e} ^ {- {\ frac {1} {2 (1- \ rho ^ {2})}} \ left [\ left ({\ frac {x- \ mu _ {X}} {\ sigma _ { X}}} \ right) ^ {2} -2 \ rho \ left ({\ frac {x- \ mu _ {X}} {\ sigma _ {X}}} \ right) \ left ({\ frac { y- \ mu _ {Y}} {\ sigma _ {Y}}} \ right) + \ left ({\ frac {y- \ mu _ {Y}} {\ sigma _ {Y}}} \ right) ^ {2} \ right]}}

dónde ${\ Displaystyle \ rho}$ es la correlación entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ y donde ${\ Displaystyle \ sigma _ {X}> 0}$ y ${\ Displaystyle \ sigma _ {Y}> 0}$ . En este caso,

{\ displaystyle {\ boldsymbol {\ mu}} = {\ begin {pmatrix} \ mu _ {X} \\\ mu _ {Y} \ end {pmatrix}}, \ quad {\ boldsymbol {\ Sigma}} = {\ begin {pmatrix} \ sigma _ {X} ^ {2} & \ rho \ sigma _ {X} \ sigma _ {Y} \\\ rho \ sigma _ {X} \ sigma _ {Y} & \ sigma _ {Y} ^ {2} \ end {pmatrix}}.}

En el caso bivariado, la primera condición equivalente para la reconstrucción multivariante de la normalidad se puede hacer menos restrictiva, ya que es suficiente para verificar que existen muchas combinaciones lineales distintas de ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ son normales para concluir que el vector de ${\ Displaystyle {\ text {[XY] ′}}}$ es normal bivariado. ^[6]

Los loci bivariados de isodensidad graficados en el ${\ Displaystyle x, y}$ -plano son elipses , cuyos ejes principales están definidos por los vectores propios de la matriz de covarianza ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ (los semidiámetros mayor y menor de la elipse son iguales a la raíz cuadrada de los valores propios ordenados).

Distribución normal bivariada centrada en

{\ Displaystyle (1,3)}

con una desviación estándar de 3 en aproximadamente el

{\ displaystyle (0.878,0.478)}

dirección y de 1 en la dirección ortogonal.

Como valor absoluto del parámetro de correlación ${\ Displaystyle \ rho}$ aumenta, estos loci se aprietan hacia la siguiente línea:

{\ Displaystyle y (x) = \ operatorname {sgn} (\ rho) {\ frac {\ sigma _ {Y}} {\ sigma _ {X}}} (x- \ mu _ {X}) + \ mu _ {Y}.}

Esto se debe a que esta expresión, con ${\ Displaystyle \ operatorname {sgn} (\ rho)}$ (donde sgn es la función de signo ) reemplazado por ${\ Displaystyle \ rho}$ , es la mejor predicción lineal insesgada de ${\ Displaystyle Y}$ dado un valor de ${\ Displaystyle X}$ . ^[7]

Caso degenerado

Si la matriz de covarianza ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ no es de rango completo, entonces la distribución normal multivariante es degenerada y no tiene densidad. Más precisamente, no tiene densidad con respecto a la medida de Lebesgue k -dimensional (que es la medida habitual asumida en los cursos de probabilidad a nivel de cálculo). Se dice que solo los vectores aleatorios cuyas distribuciones son absolutamente continuas con respecto a una medida tienen densidades (con respecto a esa medida). Para hablar de densidades pero evitar lidiar con complicaciones de la teoría de la medida, puede ser más sencillo restringir la atención a un subconjunto de ${\ Displaystyle \ operatorname {rango} ({\ boldsymbol {\ Sigma}})}$ de las coordenadas de ${\ Displaystyle \ mathbf {x}}$ tal que la matriz de covarianza para este subconjunto sea definida positiva; entonces las otras coordenadas se pueden considerar como una función afín de estas coordenadas seleccionadas. ^{[ cita requerida ]}

Entonces, para hablar de densidades de manera significativa en casos singulares, debemos seleccionar una medida base diferente. Usando el teorema de la desintegración podemos definir una restricción de la medida de Lebesgue a la ${\ Displaystyle \ operatorname {rango} ({\ boldsymbol {\ Sigma}})}$ -subespacio afín dimensional de ${\ Displaystyle \ mathbb {R} ^ {k}}$ donde se admite la distribución gaussiana, es decir ${\ Displaystyle \ {{\ boldsymbol {\ mu}} + {\ boldsymbol {\ Sigma ^ {1/2}}} \ mathbf {v}: \ mathbf {v} \ in \ mathbb {R} ^ {k} \}}$ . Con respecto a esta medida la distribución tiene la densidad del siguiente motivo:

{\ displaystyle f (\ mathbf {x}) = \ left (\ det \ nolimits ^ {*} (2 \ pi {\ boldsymbol {\ Sigma}}) \ right) ^ {- {\ frac {1} {2 }}} \, e ^ {- {\ frac {1} {2}} (\ mathbf {x} - {\ boldsymbol {\ mu}}) ^ {\! {\ mathsf {T}}} {\ boldsymbol {\ Sigma}} ^ {+} (\ mathbf {x} - {\ boldsymbol {\ mu}})}}

dónde ${\ Displaystyle {\ boldsymbol {\ Sigma}} ^ {+}}$ es el inverso generalizado y det * es el pseudodeterminante . ^[8]

Función de distribución acumulativa

La noción de función de distribución acumulativa (CDF) en la dimensión 1 se puede extender de dos maneras al caso multidimensional, basado en regiones rectangulares y elipsoidales.

La primera forma es definir el CDF ${\ Displaystyle F (\ mathbf {x})}$ de un vector aleatorio ${\ Displaystyle \ mathbf {X}}$ como la probabilidad de que todos los componentes de ${\ Displaystyle \ mathbf {X}}$ son menores o iguales a los valores correspondientes en el vector ${\ Displaystyle \ mathbf {x}}$ : ^[9]

{\ Displaystyle F (\ mathbf {x}) = \ mathbb {P} (\ mathbf {X} \ leq \ mathbf {x}), \ quad {\ text {donde}} \ mathbf {X} \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}}).}

Aunque no existe una forma cerrada para ${\ Displaystyle F (\ mathbf {x})}$ , hay varios algoritmos que lo estiman numéricamente . ^[9]^[10]

Otra forma es definir el CDF ${\ Displaystyle F (r)}$ como la probabilidad de que una muestra se encuentre dentro del elipsoide determinada por su distancia de Mahalanobis ${\ Displaystyle r}$ del gaussiano, una generalización directa de la desviación estándar. ^[11] Para calcular los valores de esta función, existen fórmulas analíticas cerradas, ^{[11] de la} siguiente manera.

Intervalo

El intervalo para la distribución normal multivariante produce una región que consta de esos vectores x que satisfacen

{\ displaystyle ({\ mathbf {x}} - {\ boldsymbol {\ mu}}) ^ {T} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ mathbf {x}} - {\ boldsymbol {\ mu}}) \ leq \ chi _ {k} ^ {2} (p).}

Aquí ${\ Displaystyle {\ mathbf {x}}}$ es un ${\ Displaystyle k}$ -vector dimensional, ${\ displaystyle {\ boldsymbol {\ mu}}}$ es lo conocido ${\ Displaystyle k}$ -vector medio dimensional, ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ es la matriz de covarianza conocida y ${\ Displaystyle \ chi _ {k} ^ {2} (p)}$ es la función cuantil de probabilidad ${\ Displaystyle p}$ de la distribución chi-cuadrado con ${\ Displaystyle k}$ grados de libertad. ^[12] Cuando ${\ Displaystyle k = 2,}$ la expresión define el interior de una elipse y la distribución chi-cuadrado se simplifica a una distribución exponencial con media igual a dos (tasa igual a la mitad).

Función de distribución acumulativa complementaria (distribución de cola)

La función de distribución acumulativa complementaria (ccdf) o la distribución de cola se define como ${\ Displaystyle {\ overline {F}} (\ mathbf {x}) = 1- \ mathbb {P} (\ mathbf {X} \ leq \ mathbf {x})}$ . Cuándo ${\ Displaystyle \ mathbf {X} \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}})}$ , entonces la ccdf se puede escribir como una probabilidad del máximo de variables gaussianas dependientes: ^[13]

{\ Displaystyle {\ overline {F}} (\ mathbf {x}) = \ mathbb {P} (\ cup _ {i} \ {X_ {i} \ geq x_ {i} \}) = \ mathbb {P } (\ max _ {i} Y_ {i} \ geq 0), \ quad {\ text {donde}} \ mathbf {Y} \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}} - \ mathbf {x}, \, {\ boldsymbol {\ Sigma}}).}

Si bien no existe una fórmula cerrada simple para calcular la ccdf, el máximo de variables gaussianas dependientes se puede estimar con precisión mediante el método de Monte Carlo . ^[13]^[14]

Propiedades

Probabilidad en diferentes dominios

Arriba: la probabilidad de una normal bivariada en el dominio

{\ Displaystyle x \ sin yy \ cos x> 1}

(regiones azules). Medio: la probabilidad de una normal trivariada en un dominio toroidal. Abajo: integral de Montecarlo convergente de la probabilidad de una normal de 4 variables en el dominio poliédrico regular 4d definido por

{\ Displaystyle \ sum _ {i = 1} ^ {4} \ vert x_ {i} \ vert <1}

. Todos estos se calculan mediante el método numérico de trazado de rayos. ^[15]

El contenido de probabilidad de la normal multivariante en un dominio cuadrático definido por ${\ displaystyle q ({\ boldsymbol {x}}) = {\ boldsymbol {x}} '\ mathbf {Q_ {2}} {\ boldsymbol {x}} + {\ boldsymbol {q_ {1}}}' { \ boldsymbol {x}} + q_ {0}> 0}$ (dónde ${\ Displaystyle \ mathbf {Q_ {2}}}$ es una matriz, ${\ displaystyle {\ boldsymbol {q_ {1}}}}$ es un vector, y ${\ Displaystyle q_ {0}}$ es un escalar), que es relevante para la teoría de clasificación / decisión bayesiana utilizando el análisis discriminante gaussiano, viene dada por la distribución chi-cuadrado generalizada . ^[15] El contenido de probabilidad dentro de cualquier dominio general definido por ${\ displaystyle f ({\ boldsymbol {x}})> 0}$ (dónde ${\ displaystyle f ({\ boldsymbol {x}})}$ es una función general) se puede calcular utilizando el método numérico de trazado de rayos ^[15] ( código Matlab ).

Momentos superiores

Los momentos de k -ésimo orden de x están dados por

{\ Displaystyle \ mu _ {1, \ ldots, N} (\ mathbf {x}) \ {\ stackrel {\ mathrm {def}} {=}} \ \ mu _ {r_ {1}, \ ldots, r_ {N}} (\ mathbf {x}) \ {\ stackrel {\ mathrm {def}} {=}} \ operatorname {E} \ left [\ prod _ {j = 1} ^ {N} X_ {j} ^ {r_ {j}} \ right]}

donde $r 1 + r 2 + \dots + r N = k .$

Los momentos centrales de k -ésimo orden son los siguientes

Si k es impar, $μ 1,\dots, N (x - μ) = 0$ .
Si k es par con $k = 2 λ$ , entonces

{\ Displaystyle \ mu _ {1, \ dots, 2 \ lambda} (\ mathbf {x} - {\ boldsymbol {\ mu}}) = \ sum \ left (\ sigma _ {ij} \ sigma _ {k \ ell} \ cdots \ sigma _ {XZ} \ right)}

donde la suma se toma sobre todas las asignaciones del conjunto ${\ Displaystyle \ left \ {1, \ ldots, 2 \ lambda \ right \}}$ en pares λ (desordenados). Es decir, para un momento central k ésimo $(= 2 λ = 6)$ , se suman los productos de λ = 3 covarianzas (el valor esperado μ se toma como 0 en aras de la parsimonia):

{\ Displaystyle {\ begin {alineado} & \ operatorname {E} [X_ {1} X_ {2} X_ {3} X_ {4} X_ {5} X_ {6}] \\ [8pt] = {} & \ operatorname {E} [X_ {1} X_ {2}] \ operatorname {E} [X_ {3} X_ {4}] \ operatorname {E} [X_ {5} X_ {6}] + \ operatorname {E } [X_ {1} X_ {2}] \ operatorname {E} [X_ {3} X_ {5}] \ operatorname {E} [X_ {4} X_ {6}] + \ operatorname {E} [X_ { 1} X_ {2}] \ operatorname {E} [X_ {3} X_ {6}] \ operatorname {E} [X_ {4} X_ {5}] \\ [4pt] & {} + \ operatorname {E } [X_ {1} X_ {3}] \ operatorname {[} X_ {2} X_ {4}] \ operatorname {E} [X_ {5} X_ {6}] + \ operatorname {E} [X_ {1 } X_ {3}] \ operatorname {E} [X_ {2} X_ {5}] \ operatorname {E} [X_ {4} X_ {6}] + \ operatorname {E} [X_ {1} X_ {3 }] \ operatorname {E} [X_ {2} X_ {6}] \ operatorname {E} [X_ {4} X_ {5}] \\ [4pt] & {} + \ operatorname {E} [X_ {1 } X_ {4}] \ operatorname {E} [X_ {2} X_ {3}] \ operatorname {E} [X_ {5} X_ {6}] + \ operatorname {E} [X_ {1} X_ {4 }] \ operatorname {E} [X_ {2} X_ {5}] \ operatorname {E} [X_ {3} X_ {6}] + \ operatorname {E} [X_ {1} X_ {4}] \ operatorname {E} [X_ {2} X_ {6}] \ operatorname {E} [X_ {3} X_ {5}] \\ [4pt] & {} + \ operatorname {E} [X_ {1} X_ {5 }] \ nombre del operador {E} [X_ {2} X_ {3} ] \ operatorname {E} [X_ {4} X_ {6}] + \ operatorname {E} [X_ {1} X_ {5}] \ operatorname {E} [X_ {2} X_ {4}] \ operatorname { E} [X_ {3} X_ {6}] + \ operatorname {E} [X_ {1} X_ {5}] \ operatorname {E} [X_ {2} X_ {6}] \ operatorname {E} [X_ {3} X_ {4}] \\ [4pt] & {} + \ operatorname {E} [X_ {1} X_ {6}] \ operatorname {E} [X_ {2} X_ {3}] \ operatorname { E} [X_ {4} X_ {5}] + \ operatorname {E} [X_ {1} X_ {6}] \ operatorname {E} [X_ {2} X_ {4}] \ operatorname {E} [X_ {3} X_ {5}] + \ operatorname {E} [X_ {1} X_ {6}] \ operatorname {E} [X_ {2} X_ {5}] \ operatorname {E} [X_ {3} X_ {4}]. \ End {alineado}}}

Esto produce ${\ displaystyle {\ tfrac {(2 \ lambda -1)!} {2 ^ {\ lambda -1} (\ lambda -1)!}}}$ términos en la suma (15 en el caso anterior), siendo cada uno el producto de λ (en este caso 3) covarianzas. Para los momentos de cuarto orden (cuatro variables) hay tres términos. Para momentos de sexto orden hay $3 \times 5 = 15$ términos, y para momentos de octavo orden hay $3 \times 5 \times 7 = 105$ términos.

Luego, las covarianzas se determinan reemplazando los términos de la lista ${\ Displaystyle [1, \ ldots, 2 \ lambda]}$ por los términos correspondientes de la lista que consta de r ₁ unos, luego r ₂ dos, etc. Para ilustrar esto, examine el siguiente caso de momento central de cuarto orden:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} \ left [X_ {i} ^ {4} \ right] & = 3 \ sigma _ {ii} ^ {2} \\ [4pt] \ operatorname {E } \ left [X_ {i} ^ {3} X_ {j} \ right] & = 3 \ sigma _ {ii} \ sigma _ {ij} \\ [4pt] \ operatorname {E} \ left [X_ {i } ^ {2} X_ {j} ^ {2} \ right] & = \ sigma _ {ii} \ sigma _ {jj} +2 \ sigma _ {ij} ^ {2} \\ [4pt] \ operatorname { E} \ izquierda [X_ {i} ^ {2} X_ {j} X_ {k} \ derecha] & = \ sigma _ {ii} \ sigma _ {jk} +2 \ sigma _ {ij} \ sigma _ { ik} \\ [4pt] \ operatorname {E} \ left [X_ {i} X_ {j} X_ {k} X_ {n} \ right] & = \ sigma _ {ij} \ sigma _ {kn} + \ sigma _ {ik} \ sigma _ {jn} + \ sigma _ {in} \ sigma _ {jk}. \ end {alineado}}}

dónde ${\ Displaystyle \ sigma _ {ij}}$ es la covarianza de X _i y X _j . Con el método anterior, primero se encuentra el caso general para un k- ésimo momento con k X variables diferentes , ${\ Displaystyle E \ left [X_ {i} X_ {j} X_ {k} X_ {n} \ right]}$ , y luego uno simplifica esto en consecuencia. Por ejemplo, para ${\ Displaystyle \ operatorname {E} [X_ {i} ^ {2} X_ {k} X_ {n}]}$ , se deja $X i = X j$ y se usa el hecho de que ${\ Displaystyle \ sigma _ {ii} = \ sigma _ {i} ^ {2}}$ .

Funciones de un vector normal

a: densidad de probabilidad de una función

{\ Displaystyle \ cos x ^ {2}}

de una sola variable normal

{\ Displaystyle x}

con

{\ Displaystyle \ mu = -2}

y

{\ Displaystyle \ sigma = 3}

. b: Densidad de probabilidad de una función

{\ Displaystyle x ^ {y}}

de un vector normal

{\ Displaystyle (x, y)}

, con media

{\ displaystyle {\ boldsymbol {\ mu}} = (1,2)}

y covarianza

{\ displaystyle \ mathbf {\ Sigma} = {\ begin {bmatrix} .01 & .016 \\. 016 & .04 \ end {bmatrix}}}

. c: Mapa de calor de la densidad de probabilidad conjunta de dos funciones de un vector normal

{\ Displaystyle (x, y)}

, con media

{\ displaystyle {\ boldsymbol {\ mu}} = (- 2,5)}

y covarianza

{\ displaystyle \ mathbf {\ Sigma} = {\ begin {bmatrix} 10 y -7 \\ - 7 y 10 \ end {bmatrix}}}

. d: densidad de probabilidad de una función

{\ Displaystyle \ sum _ {i = 1} ^ {4} \ vert x_ {i} \ vert}

de 4 iid variables normales estándar. Estos se calculan mediante el método numérico de trazado de rayos. ^[15]

Una forma cuadrática de un vector normal ${\ displaystyle {\ boldsymbol {x}}}$ , ${\ displaystyle q ({\ boldsymbol {x}}) = {\ boldsymbol {x}} '\ mathbf {Q_ {2}} {\ boldsymbol {x}} + {\ boldsymbol {q_ {1}}}' { \ boldsymbol {x}} + q_ {0}}$ (dónde ${\ Displaystyle \ mathbf {Q_ {2}}}$ es una matriz, ${\ displaystyle {\ boldsymbol {q_ {1}}}}$ es un vector, y ${\ Displaystyle q_ {0}}$ es un escalar), es una variable chi-cuadrado generalizada . ^[15]

Si ${\ displaystyle f ({\ boldsymbol {x}})}$ es una función de valor escalar general de un vector normal, su función de densidad de probabilidad , función de distribución acumulativa y función de distribución acumulativa inversa se pueden calcular con el método numérico de trazado de rayos ( código Matlab ). ^[15]

Función de verosimilitud

Si se conocen la media y la matriz de covarianza, la probabilidad logarítmica de un vector observado ${\ displaystyle {\ boldsymbol {x}}}$ es simplemente el logaritmo de la función de densidad de probabilidad :

{\ Displaystyle \ ln L ({\ boldsymbol {x}}) = - {\ frac {1} {2}} \ left [\ ln (| {\ boldsymbol {\ Sigma}} | \,) + ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}}) '{\ boldsymbol {\ Sigma}} ^ {- 1} ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}}) + k \ ln (2 \ pi) \ right]}

,

La versión circularmente simétrica del caso complejo no central, donde ${\ Displaystyle {\ boldsymbol {z}}}$ es un vector de números complejos, sería

{\ Displaystyle \ ln L ({\ boldsymbol {z}}) = - \ ln (| {\ boldsymbol {\ Sigma}} | \,) - ({\ boldsymbol {z}} - {\ boldsymbol {\ mu} }) ^ {\ dagger} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ boldsymbol {z}} - {\ boldsymbol {\ mu}}) - k \ ln (\ pi)}

es decir, con la transposición conjugada (indicada por ${\ Displaystyle \ daga}$ ) reemplazando la transposición normal (indicada por ${\ displaystyle '}$ ). Esto es ligeramente diferente que en el caso real, porque la versión circularmente simétrica de la distribución normal compleja tiene una forma ligeramente diferente para la constante de normalización .

Se utiliza una notación similar para la regresión lineal múltiple . ^[dieciséis]

Dado que la probabilidad logarítmica de un vector normal es una forma cuadrática del vector normal, se distribuye como una variable chi cuadrado generalizada . ^[15]

Entropía diferencial

La entropía diferencial de la distribución normal multivariante es ^[17]

{\ Displaystyle {\ begin {alineado} h \ left (f \ right) & = - \ int _ {- \ infty} ^ {\ infty} \ int _ {- \ infty} ^ {\ infty} \ cdots \ int _ {- \ infty} ^ {\ infty} f (\ mathbf {x}) \ ln f (\ mathbf {x}) \, d \ mathbf {x}, \\ & = {\ frac {1} {2 }} \ ln \ left (\ left | \ left (2 \ pi e \ right) {\ boldsymbol {\ Sigma}} \ right | \ right) = {\ frac {1} {2}} \ ln \ left ( \ left (2 \ pi e \ right) ^ {k} \ left | {\ boldsymbol {\ Sigma}} \ right | \ right) = {\ frac {k} {2}} \ ln \ left (2 \ pi e \ right) + {\ frac {1} {2}} \ ln \ left (\ left | {\ boldsymbol {\ Sigma}} \ right | \ right) = {\ frac {k} {2}} + { \ frac {k} {2}} \ ln \ left (2 \ pi \ right) + {\ frac {1} {2}} \ ln \ left (\ left | {\ boldsymbol {\ Sigma}} \ right | \ right) \\\ end {alineado}}}

donde las barras indican el determinante de la matriz y $k$ es la dimensionalidad del espacio vectorial.

Divergencia de Kullback-Leibler

La divergencia Kullback-Leibler de ${\ displaystyle {\ mathcal {N}} _ {1} ({\ boldsymbol {\ mu}} _ {1}, {\ boldsymbol {\ Sigma}} _ {1})}$ a ${\ displaystyle {\ mathcal {N}} _ {0} ({\ boldsymbol {\ mu}} _ {0}, {\ boldsymbol {\ Sigma}} _ {0})}$ , para matrices no singulares Σ ₁ y Σ ₀ , es: ^[18]

{\ Displaystyle D _ {\ text {KL}} ({\ mathcal {N}} _ {0} \ | {\ mathcal {N}} _ {1}) = {1 \ over 2} \ left \ {\ operatorname {tr} \ left ({\ boldsymbol {\ Sigma}} _ {1} ^ {- 1} {\ boldsymbol {\ Sigma}} _ {0} \ right) + \ left ({\ boldsymbol {\ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {0} \ right) ^ {\ rm {T}} {\ boldsymbol {\ Sigma}} _ {1} ^ {- 1} ({\ boldsymbol { \ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {0}) - k + \ ln {| {\ boldsymbol {\ Sigma}} _ {1} | \ over | {\ boldsymbol {\ Sigma}} _ {0} |} \ right \},}

dónde ${\ Displaystyle k}$ es la dimensión del espacio vectorial.

El logaritmo debe tomarse en base e ya que los dos términos que siguen al logaritmo son en sí mismos logaritmos en base e de expresiones que son factores de la función de densidad o que surgen naturalmente. Por tanto, la ecuación da un resultado medido en nat . Dividir toda la expresión anterior por log _e 2 produce la divergencia en bits .

Cuándo ${\ displaystyle {\ boldsymbol {\ mu}} _ {1} = {\ boldsymbol {\ mu}} _ {0}}$ ,

{\ Displaystyle D _ {\ text {KL}} ({\ mathcal {N}} _ {0} \ | {\ mathcal {N}} _ {1}) = {1 \ over 2} \ left \ {\ operatorname {tr} \ left ({\ boldsymbol {\ Sigma}} _ {1} ^ {- 1} {\ boldsymbol {\ Sigma}} _ {0} \ right) -k + \ ln {| {\ boldsymbol {\ Sigma }} _ {1} | \ over | {\ boldsymbol {\ Sigma}} _ {0} |} \ right \}.}

Información mutua

La información mutua de una distribución es un caso especial de divergencia Kullback-Leibler en el que ${\ Displaystyle P}$ es la distribución multivariante completa y ${\ displaystyle Q}$ es el producto de las distribuciones marginales unidimensionales. En la notación de la sección de divergencia de Kullback-Leibler de este artículo, ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {1}}$ es una matriz diagonal con las entradas diagonales de ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {0}}$ , y ${\ displaystyle {\ boldsymbol {\ mu}} _ {1} = {\ boldsymbol {\ mu}} _ {0}}$ . La fórmula resultante para la información mutua es:

{\ displaystyle I ({\ boldsymbol {X}}) = - {1 \ over 2} \ ln | {\ boldsymbol {\ rho}} _ {0} |,}

dónde ${\ displaystyle {\ boldsymbol {\ rho}} _ {0}}$ es la matriz de correlación construida a partir de ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {0}}$ . ^{[ cita requerida ]}

En el caso bivariado, la expresión de la información mutua es:

{\ Displaystyle I (x; y) = - {1 \ over 2} \ ln (1- \ rho ^ {2}).}

Normalidad conjunta

Normalmente distribuidos e independientes

Si ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ están distribuidos normalmente e independientes , esto implica que están "conjuntamente distribuidos normalmente", es decir, el par ${\ Displaystyle (X, Y)}$ debe tener una distribución normal multivariante. Sin embargo, no es necesario que un par de variables distribuidas normalmente en conjunto sean independientes (solo lo sería si no estuviera correlacionado, ${\ Displaystyle \ rho = 0}$ ).

No es necesario que dos variables aleatorias distribuidas normalmente sean bivariadas normales

El hecho de que dos variables aleatorias ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ ambos tienen una distribución normal no implica que el par ${\ Displaystyle (X, Y)}$ tiene una distribución normal conjunta. Un ejemplo simple es uno en el que X tiene una distribución normal con valor esperado 0 y varianza 1, y ${\ Displaystyle Y = X}$ Si ${\ Displaystyle | X |> c}$ y ${\ Displaystyle Y = -X}$ Si ${\ Displaystyle | X | }>$ , dónde ${\ Displaystyle c> 0}$ . Existen contraejemplos similares para más de dos variables aleatorias. En general, suman un modelo mixto . ^{[ cita requerida ]}

Correlaciones e independencia

En general, las variables aleatorias pueden no estar correlacionadas pero son estadísticamente dependientes. Pero si un vector aleatorio tiene una distribución normal multivariante, dos o más de sus componentes que no están correlacionados son independientes . Esto implica que dos o más de sus componentes que son independientes por pares son independientes. Pero, como se ha señalado justo por encima, es no cierto que dos variables aleatorias que son ( por separado , marginalmente) distribuyen normalmente y no correlacionados son independientes.

Distribuciones condicionales

Si N -dimensional x se divide de la siguiente manera

{\ displaystyle \ mathbf {x} = {\ begin {bmatrix} \ mathbf {x} _ {1} \\\ mathbf {x} _ {2} \ end {bmatrix}} {\ text {con tamaños}} { \ begin {bmatrix} q \ times 1 \\ (Nq) \ times 1 \ end {bmatrix}}}

y en consecuencia μ y Σ se dividen de la siguiente manera

{\ displaystyle {\ boldsymbol {\ mu}} = {\ begin {bmatrix} {\ boldsymbol {\ mu}} _ {1} \\ {\ boldsymbol {\ mu}} _ {2} \ end {bmatrix}} {\ text {con tamaños}} {\ begin {bmatrix} q \ times 1 \\ (Nq) \ times 1 \ end {bmatrix}}}

{\ displaystyle {\ boldsymbol {\ Sigma}} = {\ begin {bmatrix} {\ boldsymbol {\ Sigma}} _ {11} & {\ boldsymbol {\ Sigma}} _ {12} \\ {\ boldsymbol {\ Sigma}} _ {21} & {\ boldsymbol {\ Sigma}} _ {22} \ end {bmatrix}} {\ text {con tamaños}} {\ begin {bmatrix} q \ times q & q \ times (Nq) \ \ (Nq) \ times q & (Nq) \ times (Nq) \ end {bmatrix}}}

entonces la distribución de x ₁ condicional a x ₂ = a es normal multivariante ( x ₁ | x ₂ = a ) ~ N ( μ , Σ ) donde

{\ displaystyle {\ bar {\ boldsymbol {\ mu}}} = {\ boldsymbol {\ mu}} _ {1} + {\ boldsymbol {\ Sigma}} _ {12} {\ boldsymbol {\ Sigma}} _ {22} ^ {- 1} \ left (\ mathbf {a} - {\ boldsymbol {\ mu}} _ {2} \ right)}

y matriz de covarianza

{\ displaystyle {\ overline {\ boldsymbol {\ Sigma}}} = {\ boldsymbol {\ Sigma}} _ {11} - {\ boldsymbol {\ Sigma}} _ {12} {\ boldsymbol {\ Sigma}} _ {22} ^ {- 1} {\ boldsymbol {\ Sigma}} _ {21}.}

^[19]

Esta matriz es el complemento de Schur de Σ ₂₂ en Σ . Esto significa que para calcular la matriz de covarianza condicional, se invierte la matriz de covarianza general, se descartan las filas y columnas correspondientes a las variables a las que se está condicionando y luego se invierte para obtener la matriz de covarianza condicional. Aquí ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {22} ^ {- 1}}$ es el inverso generalizado de ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {22}}$ .

Tenga en cuenta que saber que x ₂ = a altera la varianza, aunque la nueva varianza no depende del valor específico de a ; quizás más sorprendentemente, la media se desplaza por ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {12} {\ boldsymbol {\ Sigma}} _ {22} ^ {- 1} \ left (\ mathbf {a} - {\ boldsymbol {\ mu}} _ {2} \ right)}$ ; compare esto con la situación de no conocer el valor de a , en cuyo caso x ₁ tendría distribución ${\ displaystyle {\ mathcal {N}} _ {q} \ left ({\ boldsymbol {\ mu}} _ {1}, {\ boldsymbol {\ Sigma}} _ {11} \ right)}$ .

Un hecho interesante derivado para probar este resultado, es que los vectores aleatorios ${\ Displaystyle \ mathbf {x} _ {2}}$ y ${\ Displaystyle \ mathbf {y} _ {1} = \ mathbf {x} _ {1} - {\ boldsymbol {\ Sigma}} _ {12} {\ boldsymbol {\ Sigma}} _ {22} ^ {- 1} \ mathbf {x} _ {2}}$ son independientes.

La matriz Σ ₁₂Σ ₂₂⁻¹ se conoce como la matriz de coeficientes de regresión .

Caso bivariado

En el caso bivariado donde x se divide en ${\ Displaystyle X_ {1}}$ y ${\ Displaystyle X_ {2}}$ , la distribución condicional de ${\ Displaystyle X_ {1}}$ dado ${\ Displaystyle X_ {2}}$ es ^[20]

{\ Displaystyle X_ {1} \ mid X_ {2} = a \ \ sim \ {\ mathcal {N}} \ left (\ mu _ {1} + {\ frac {\ sigma _ {1}} {\ sigma _ {2}}} \ rho (a- \ mu _ {2}), \, (1- \ rho ^ {2}) \ sigma _ {1} ^ {2} \ right).}

dónde ${\ Displaystyle \ rho}$ es el coeficiente de correlación entre ${\ Displaystyle X_ {1}}$ y ${\ Displaystyle X_ {2}}$ .

Expectativa condicional bivariada

En el caso general

{\ Displaystyle {\ begin {pmatrix} X_ {1} \\ X_ {2} \ end {pmatrix}} \ sim {\ mathcal {N}} \ left ({\ begin {pmatrix} \ mu _ {1} \ \\ mu _ {2} \ end {pmatrix}}, {\ begin {pmatrix} \ sigma _ {1} ^ {2} & \ rho \ sigma _ {1} \ sigma _ {2} \\\ rho \ sigma _ {1} \ sigma _ {2} & \ sigma _ {2} ^ {2} \ end {pmatrix}} \ right)}

La expectativa condicional de X ₁ dado X ₂ es:

{\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2} = x_ {2}) = \ mu _ {1} + \ rho {\ frac {\ sigma _ {1}} {\ sigma _ {2}}} (x_ {2} - \ mu _ {2})}

Prueba: el resultado se obtiene tomando la expectativa de la distribución condicional ${\ Displaystyle X_ {1} \ mid X_ {2}}$ sobre.

En el caso centrado con variaciones unitarias

{\ displaystyle {\ begin {pmatrix} X_ {1} \\ X_ {2} \ end {pmatrix}} \ sim {\ mathcal {N}} \ left ({\ begin {pmatrix} 0 \\ 0 \ end { pmatrix}}, {\ begin {pmatrix} 1 & \ rho \\\ rho & 1 \ end {pmatrix}} \ right)}

La expectativa condicional de X ₁ dado X ₂ es

{\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2} = x_ {2}) = \ rho x_ {2}}

y la varianza condicional es

{\ Displaystyle \ operatorname {var} (X_ {1} \ mid X_ {2} = x_ {2}) = 1- \ rho ^ {2};}

por tanto, la varianza condicional no depende de x ₂ .

La expectativa condicional de X ₁ dado que X ₂ es menor / mayor que z es: ^[21]^{: 367}

{\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2} )>

{\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2}> z) = \ rho {\ phi (z) \ over (1- \ Phi (z))},}

donde la relación final aquí se llama la relación de Mills inversa .

Prueba: los dos últimos resultados se obtienen utilizando el resultado ${\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2} = x_ {2}) = \ rho x_ {2}}$ , así que eso

{\ Displaystyle \ operatorname {E} (X_ {1} \ mid X_ {2} )>

y luego usando las propiedades de la expectativa de una distribución normal truncada .

Distribuciones marginales

Para obtener la distribución marginal sobre un subconjunto de variables aleatorias normales multivariadas, solo es necesario eliminar las variables irrelevantes (las variables que se quieren marginar) del vector medio y la matriz de covarianza. La prueba de esto se deriva de las definiciones de distribuciones normales multivariadas y álgebra lineal. ^[22]

Ejemplo

Sea X = [ X ₁ , X ₂ , X ₃ ] variables aleatorias normales multivariadas con vector medio μ = [ μ ₁ , μ ₂ , μ ₃ ] y matriz de covarianza Σ (parametrización estándar para distribuciones normales multivariadas). Entonces, la distribución conjunta de X ′ = [ X ₁ , X ₃ ] es normal multivariante con el vector medio μ ′ = [ μ ₁ , μ ₃ ] y la matriz de covarianza ${\ displaystyle {\ boldsymbol {\ Sigma}} '= {\ begin {bmatrix} {\ boldsymbol {\ Sigma}} _ {11} & {\ boldsymbol {\ Sigma}} _ {13} \\ {\ boldsymbol { \ Sigma}} _ {31} & {\ boldsymbol {\ Sigma}} _ {33} \ end {bmatrix}}}$ .

Transformacion afin

Si Y = c + BX es una transformación afín de ${\ Displaystyle \ mathbf {X} \ \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}),}$ donde c es un ${\ Displaystyle M \ times 1}$ vector de constantes y B es una constante ${\ Displaystyle M \ times N}$ matriz, entonces Y tiene una distribución normal multivariante con valor esperado c + Bμ y varianza BΣB ^T es decir, ${\ Displaystyle \ mathbf {Y} \ sim {\ mathcal {N}} \ left (\ mathbf {c} + \ mathbf {B} {\ boldsymbol {\ mu}}, \ mathbf {B} {\ boldsymbol {\ Sigma}} \ mathbf {B} ^ {\ rm {T}} \ right)}$ . En particular, cualquier subconjunto de X _i tiene una distribución marginal que también es normal multivariante. Para ver esto, considere el siguiente ejemplo: para extraer el subconjunto ( X ₁ , X ₂ , X ₄ ) ^T , use

{\ displaystyle \ mathbf {B} = {\ begin {bmatrix} 1 & 0 & 0 & 0 & 0 & \ ldots & 0 \\ 0 & 1 & 0 & 0 & 0 & \ ldots & 0 \\ 0 & 0 & 0 & 1 & 0 & \ ldots & 0 \ end {bmatrix}}}

que extrae los elementos deseados directamente.

Otro corolario es que la distribución de Z = b · X , donde b es un vector constante con el mismo número de elementos que X y el punto indica el producto escalar , es gaussiana univariante con ${\ Displaystyle Z \ sim {\ mathcal {N}} \ left (\ mathbf {b} \ cdot {\ boldsymbol {\ mu}}, \ mathbf {b} ^ {\ rm {T}} {\ boldsymbol {\ Sigma}} \ mathbf {b} \ right)}$ . Este resultado sigue usando

{\ Displaystyle \ mathbf {B} = {\ begin {bmatrix} b_ {1} & b_ {2} & \ ldots & b_ {n} \ end {bmatrix}} = \ mathbf {b} ^ {\ rm {T}} .}

Observe cómo la definición positiva de Σ implica que la varianza del producto escalar debe ser positiva.

Una transformación afín de X tal como 2 X no es la misma que la suma de dos realizaciones independientes de X .

Interpretación geométrica

Los contornos de equidensidad de una distribución normal multivariante no singular son elipsoides (es decir, transformaciones lineales de hiperesferas ) centradas en la media. ^[23] Por tanto, la distribución normal multivariante es un ejemplo de la clase de distribuciones elípticas . Las direcciones de los ejes principales de los elipsoides están dadas por los vectores propios de la matriz de covarianza. ${\ Displaystyle {\ boldsymbol {\ Sigma}}}$ . Las longitudes relativas cuadradas de los ejes principales vienen dadas por los valores propios correspondientes.

Si Σ = UΛU ^T = UΛ ^1/2 ( UΛ ^1/2 ) ^T es una descomposición propia donde las columnas de U son vectores propios unitarios y Λ es una matriz diagonal de los valores propios, entonces tenemos

{\ Displaystyle \ mathbf {X} \ \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}) \ iff \ mathbf {X} \ \ sim {\ boldsymbol {\ mu}} + \ mathbf {U} {\ boldsymbol {\ Lambda}} ^ {1/2} {\ mathcal {N}} (0, \ mathbf {I}) \ iff \ mathbf {X} \ \ sim {\ boldsymbol {\ mu}} + \ mathbf {U} {\ mathcal {N}} (0, {\ boldsymbol {\ Lambda}}).}

Además, se puede elegir que U sea una matriz de rotación , ya que la inversión de un eje no tiene ningún efecto sobre N (0, Λ ), pero la inversión de una columna cambia el signo del determinante de U. La distribución N ( μ , Σ ) es en efecto N (0, I ) escalada por Λ ^1/2 , rotada por U y traducida por μ .

Por el contrario, cualquier elección de μ , matriz U de rango completo y entradas diagonales positivas Λ _i produce una distribución normal multivariante no singular. Si cualquier Λ _i es cero y U es cuadrado, la matriz de covarianza resultante UΛU ^T es singular . Geométricamente, esto significa que cada elipsoide de contorno es infinitamente delgado y tiene un volumen cero en el espacio n -dimensional, ya que al menos uno de los ejes principales tiene una longitud de cero; este es el caso degenerado .

"El radio alrededor de la media verdadera en una variable aleatoria normal bivariada, reescrito en coordenadas polares (radio y ángulo), sigue una distribución de Hoyt ". ^[24]

En una dimensión, la probabilidad de encontrar una muestra de la distribución normal en el intervalo ${\ Displaystyle \ mu \ pm \ sigma}$ es aproximadamente 68.27%, pero en dimensiones más altas la probabilidad de encontrar una muestra en la región de la elipse de desviación estándar es menor. ^[25]

Dimensionalidad	Probabilidad
1	0,6827
2	0.3935
3	0.1987
4	0.0902
5	0.0374
6	0.0144
7	0,0052
8	0,0018
9	0,0006
10	0,0002

Inferencia estadística

Estimación de parámetros

La derivación del estimador de máxima verosimilitud de la matriz de covarianza de una distribución normal multivariante es sencilla.

En resumen, la función de densidad de probabilidad (pdf) de una normal multivariante es

{\ Displaystyle f (\ mathbf {x}) = {\ frac {1} {\ sqrt {(2 \ pi) ^ {k} | {\ boldsymbol {\ Sigma}} |}}} \ exp \ left (- {1 \ over 2} (\ mathbf {x} - {\ boldsymbol {\ mu}}) ^ {\ rm {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ mathbf {x} } - {\ boldsymbol {\ mu}}) \ right)}

y el estimador ML de la matriz de covarianza de una muestra de n observaciones es

{\ Displaystyle {\ widehat {\ boldsymbol {\ Sigma}}} = {1 \ over n} \ sum _ {i = 1} ^ {n} ({\ mathbf {x}} _ {i} - {\ overline {\ mathbf {x}}}) ({\ mathbf {x}} _ {i} - {\ overline {\ mathbf {x}}}) ^ {T}}

que es simplemente la matriz de covarianza de la muestra . Este es un estimador sesgado cuya expectativa es

{\ displaystyle E [{\ widehat {\ boldsymbol {\ Sigma}}}] = {\ frac {n-1} {n}} {\ boldsymbol {\ Sigma}}.}

Una covarianza muestral insesgada es

{\ Displaystyle {\ widehat {\ boldsymbol {\ Sigma}}} = {1 \ over n-1} \ sum _ {i = 1} ^ {n} (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) ^ {\ rm {T}}. = {1 \ over n-1} [X '(I - {\ frac {1} {n}} * J) X]}

(forma de matriz; I es matriz de identidad, J es matriz de unos)

La matriz de información de Fisher para estimar los parámetros de una distribución normal multivariante tiene una expresión de forma cerrada. Esto se puede utilizar, por ejemplo, para calcular el límite de Cramér – Rao para la estimación de parámetros en esta configuración. Consulte la información de Fisher para obtener más detalles.

Inferencia bayesiana

En la estadística bayesiana , el previo conjugado del vector medio es otra distribución normal multivariante y el previo conjugado de la matriz de covarianza es una distribución de Wishart inversa. ${\ Displaystyle {\ mathcal {W}} ^ {- 1}}$ . Supongamos entonces que se han realizado n observaciones

{\ Displaystyle \ mathbf {X} = \ {\ mathbf {x} _ {1}, \ dots, \ mathbf {x} _ {n} \} \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}})}

y que se le ha asignado un prior conjugado, donde

{\ displaystyle p ({\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}) = p ({\ boldsymbol {\ mu}} \ mid {\ boldsymbol {\ Sigma}}) \ p ({\ símbolo en negrita {\ Sigma}}),}

dónde

{\ displaystyle p ({\ boldsymbol {\ mu}} \ mid {\ boldsymbol {\ Sigma}}) \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}} _ {0}, m ^ { -1} {\ boldsymbol {\ Sigma}}),}

y

{\ displaystyle p ({\ boldsymbol {\ Sigma}}) \ sim {\ mathcal {W}} ^ {- 1} ({\ boldsymbol {\ Psi}}, n_ {0}).}

Entonces, ^{[ cita requerida ]}

{\ Displaystyle {\ begin {array} {rcl} p ({\ boldsymbol {\ mu}} \ mid {\ boldsymbol {\ Sigma}}, \ mathbf {X}) & \ sim & {\ mathcal {N}} \ left ({\ frac {n {\ bar {\ mathbf {x}}} + m {\ boldsymbol {\ mu}} _ {0}} {n + m}}, {\ frac {1} {n + m}} {\ boldsymbol {\ Sigma}} \ right), \\ p ({\ boldsymbol {\ Sigma}} \ mid \ mathbf {X}) & \ sim & {\ mathcal {W}} ^ {- 1 } \ left ({\ boldsymbol {\ Psi}} + n \ mathbf {S} + {\ frac {nm} {n + m}} ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}} _ {0}) ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}} _ {0}) ', n + n_ {0} \ right), \ end {matriz }}}

dónde

{\ Displaystyle {\ begin {alineado} {\ bar {\ mathbf {x}}} & = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbf {x} _ {i}, \\\ mathbf {S} & = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (\ mathbf {x} _ {i} - {\ bar { \ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ bar {\ mathbf {x}}}) '. \ end {alineado}}}

Pruebas de normalidad multivariadas

Las pruebas de normalidad multivariante comprueban la similitud de un conjunto de datos con la distribución normal multivariante . La hipótesis nula es que el conjunto de datos es similar a la distribución normal, por lo tanto, un valor p suficientemente pequeño indica datos no normales. Las pruebas de normalidad multivariante incluyen la prueba de Cox-Small ^[26] y la adaptación de Smith y Jain ^[27] de la prueba de Friedman-Rafsky creada por Larry Rafsky y Jerome Friedman . ^[28]

La prueba de Mardia ^[29] se basa en extensiones multivariadas de medidas de asimetría y curtosis . Para una muestra { x ₁ , ..., x _n } de k -vectores dimensionales calculamos

{\ Displaystyle {\ begin {alineado} & {\ widehat {\ boldsymbol {\ Sigma}}} = {1 \ over n} \ sum _ {j = 1} ^ {n} \ left (\ mathbf {x} _ {j} - {\ bar {\ mathbf {x}}} \ right) \ left (\ mathbf {x} _ {j} - {\ bar {\ mathbf {x}}} \ right) ^ {T} \ \ & A = {1 \ over 6n} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} \ left [(\ mathbf {x} _ {i} - {\ bar {\ mathbf {x}}}) ^ {T} \; {\ widehat {\ boldsymbol {\ Sigma}}} ^ {- 1} (\ mathbf {x} _ {j} - {\ bar {\ mathbf { x}}}) \ right] ^ {3} \\ & B = {\ sqrt {\ frac {n} {8k (k + 2)}}} \ left \ {{1 \ over n} \ sum _ {i = 1} ^ {n} \ left [(\ mathbf {x} _ {i} - {\ bar {\ mathbf {x}}}) ^ {T} \; {\ widehat {\ boldsymbol {\ Sigma}} } ^ {- 1} (\ mathbf {x} _ {i} - {\ bar {\ mathbf {x}}}) \ right] ^ {2} -k (k + 2) \ right \} \ end { alineado}}}

Bajo la hipótesis nula de normalidad multivariante, el estadístico A tendrá aproximadamente una distribución chi-cuadrado con1/6⋅ k ( k + 1) ( k + 2) grados de libertad, y B será aproximadamente normal estándar N (0,1).

La estadística de curtosis de Mardia está sesgada y converge muy lentamente a la distribución normal limitante. Para muestras de tamaño mediano ${\ Displaystyle (50 \ leq n <400)}$ , los parámetros de la distribución asintótica del estadístico de curtosis se modifican ^[30] Para pruebas de muestras pequeñas ( ${\ Displaystyle n <50}$ ) se utilizan valores críticos empíricos. Rencher ^{[31] proporciona} tablas de valores críticos para ambos estadísticos para k = 2, 3, 4.

Las pruebas de Mardia son invariantes afines pero no consistentes. Por ejemplo, la prueba de asimetría multivariante no es consistente con alternativas simétricas no normales. ^[32]

La prueba BHEP ^[33] calcula la norma de la diferencia entre la función característica empírica y la función característica teórica de la distribución normal. El cálculo de la norma se realiza en el espacio L 2 ( μ ) de funciones cuadradas integrables con respecto a la función de ponderación gaussiana ${\ Displaystyle \ scriptstyle \ mu _ {\ beta} (\ mathbf {t}) = (2 \ pi \ beta ^ {2}) ^ {- k / 2} e ^ {- | \ mathbf {t} | ^ {2} / (2 \ beta ^ {2})}}$ . La estadística de prueba es

{\ Displaystyle {\ begin {alineado} T _ {\ beta} & = \ int _ {\ mathbb {R} ^ {k}} \ left | {1 \ over n} \ sum _ {j = 1} ^ {n } e ^ {i \ mathbf {t} ^ {T} {\ widehat {\ boldsymbol {\ Sigma}}} ^ {- 1/2} (\ mathbf {x} _ {j} - {\ bar {\ mathbf {x})}}} - e ^ {- | \ mathbf {t} | ^ {2} / 2} \ right | ^ {2} \; {\ boldsymbol {\ mu}} _ {\ beta} (\ mathbf {t}) \, d \ mathbf {t} \\ & = {1 \ over n ^ {2}} \ sum _ {i, j = 1} ^ {n} e ^ {- {\ beta ^ { 2} \ over 2} (\ mathbf {x} _ {i} - \ mathbf {x} _ {j}) ^ {T} {\ widehat {\ boldsymbol {\ Sigma}}} ^ {- 1} (\ mathbf {x} _ {i} - \ mathbf {x} _ {j})} - {\ frac {2} {n (1+ \ beta ^ {2}) ^ {k / 2}}} \ sum _ {i = 1} ^ {n} e ^ {- {\ frac {\ beta ^ {2}} {2 (1+ \ beta ^ {2})}} (\ mathbf {x} _ {i} - { \ bar {\ mathbf {x}}}) ^ {T} {\ widehat {\ boldsymbol {\ Sigma}}} ^ {- 1} (\ mathbf {x} _ {i} - {\ bar {\ mathbf { x}}})} + {\ frac {1} {(1 + 2 \ beta ^ {2}) ^ {k / 2}}} \ end {alineado}}}

La distribución límite de este estadístico de prueba es una suma ponderada de variables aleatorias chi-cuadrado, ^[33] sin embargo, en la práctica es más conveniente calcular los cuantiles de la muestra utilizando las simulaciones de Monte-Carlo. ^{[ cita requerida ]}

Se encuentra disponible una revisión detallada de estos y otros procedimientos de prueba. ^[34]

Clasificación en clases normales multivariadas

Izquierda: Clasificación de siete clases normales multivariadas. Las elipses de colores son elipses de error de 1 sd. El negro marca los límites entre las regiones de clasificación.

{\ Displaystyle p_ {e}}

es la probabilidad de error de clasificación total. Derecha: la matriz de errores.

{\ Displaystyle p_ {ij}}

es la probabilidad de clasificar una muestra de normal

{\ Displaystyle i}

como

{\ Displaystyle j}

. Estos se calculan mediante el método numérico de trazado de rayos ^[15] ( código Matlab ).

Análisis discriminante gaussiano

Suponga que se supone que las observaciones (que son vectores) provienen de una de varias distribuciones normales multivariadas, con medias y covarianzas conocidas. Entonces, cualquier observación dada puede asignarse a la distribución de la que tiene la mayor probabilidad de surgir. Este procedimiento de clasificación se denomina análisis discriminante gaussiano. El rendimiento de la clasificación, es decir, las probabilidades de los diferentes resultados de clasificación y el error de clasificación general, se pueden calcular mediante el método numérico de trazado de rayos ^[15] ( código Matlab ).

Métodos computacionales

Dibujar valores de la distribución

Un método ampliamente utilizado para dibujar (muestrear) un vector aleatorio x de la distribución normal multivariada N -dimensional con el vector medio μ y la matriz de covarianza Σ funciona de la siguiente manera: ^[35]

Encuentre cualquier matriz real A tal que A A ^T = Σ . Cuando Σ es positivo-definido, típicamente se usa la descomposición de Cholesky , y siempre se puede usar la forma extendida de esta descomposición (ya que la matriz de covarianza puede ser solo positiva semi-definida) en ambos casos se obtiene una matriz A adecuada . Una alternativa es usar la matriz A = UΛ ^½ obtenida de una descomposición espectral Σ = UΛU ⁻¹ de Σ . El primer enfoque es más sencillo desde el punto de vista computacional, pero las matrices Un cambio para diferentes ordenamientos de los elementos del vector aleatorio, mientras que el segundo enfoque proporciona matrices que están relacionadas mediante simples reordenamientos. En teoría, ambos enfoques ofrecen formas igualmente buenas de determinar una matriz A adecuada , pero existen diferencias en el tiempo de cálculo.
Sea z = ( z ₁ ,…, z _N ) ^T un vector cuyos componentes son N variables normales estándar independientes (que se pueden generar, por ejemplo, utilizando la transformada de Box-Muller ).
Vamos x sea μ + Az . Esto tiene la distribución deseada debido a la propiedad de transformación afín.

Ver también

Distribución de chi , el pdf de la norma 2 (o norma euclidiana ) de un vector multivariado normalmente distribuido (centrado en cero).
Distribución normal compleja , una aplicación de distribución normal bivariada
Cópula , para la definición del modelo de cópula normal o gaussiano.
Distribución t multivariante , que es otra distribución multivariada esféricamente simétrica ampliamente utilizada.
Extensión de distribución estable multivariante de la distribución normal multivariada, cuando el índice (exponente en la función característica) está entre cero y dos.
Distancia de Mahalanobis
Distribución Wishart
Distribución normal de la matriz

Referencias

↑ a b c Lapidoth, Amos (2009). Una base en la comunicación digital . Prensa de la Universidad de Cambridge. ISBN 978-0-521-19395-5.
^ Gut, Allan (2009). Un curso intermedio en probabilidad . Saltador. ISBN 978-1-441-90161-3.
^ Kac, M. (1939). "Sobre una caracterización de la distribución normal". Revista Estadounidense de Matemáticas . 61 (3): 726–728. doi : 10.2307 / 2371328 . JSTOR 2371328 .
^ Sinz, Fabián; Gerwinn, Sebastian; Bethge, Matthias (2009). "Caracterización de la distribución normal p-generalizada" . Revista de análisis multivariante . 100 (5): 817–820. doi : 10.1016 / j.jmva.2008.07.006 .
^ Simon JD Prince (junio de 2012). Visión por computadora: modelos, aprendizaje e inferencia . Prensa de la Universidad de Cambridge. 3.7: "Distribución normal multivariante".
^ Hamedani, GG; Tata, MN (1975). "Sobre la determinación de la distribución normal bivariada a partir de distribuciones de combinaciones lineales de las variables". The American Mathematical Monthly . 82 (9): 913–915. doi : 10.2307 / 2318494 . JSTOR 2318494 .
^ Wyatt, John (26 de noviembre de 2008). "Estimación del error cuadrático mínimo lineal" (PDF) . Curso de apuntes sobre probabilidad aplicada . Archivado desde el original (PDF) el 10 de octubre de 2015 . Consultado el 23 de enero de 2012 .
^ Rao, CR (1973). Inferencia estadística lineal y sus aplicaciones . Nueva York: Wiley. págs. 527–528. ISBN 0-471-70823-2.
^ a b Botev, ZI (2016). "La ley normal bajo restricciones lineales: simulación y estimación mediante inclinación minimax". Revista de la Sociedad Real de Estadística, Serie B . 79 : 125-148. arXiv : 1603.04166 . Código bibliográfico : 2016arXiv160304166B . doi : 10.1111 / rssb.12162 . S2CID 88515228 .
^ Genz, Alan (2009). Cálculo de probabilidades normales y t multivariadas . Saltador. ISBN 978-3-642-01689-9.
^ a b Bensimhoun Michael, función acumulativa N-dimensional y otros datos útiles sobre gaussianos y densidades normales (2006)
^ Siotani, Minoru (1964). "Regiones de tolerancia para una población normal multivariante" (PDF) . Anales del Instituto de Matemática Estadística . 16 (1): 135-153. doi : 10.1007 / BF02868568 . S2CID 123269490 .
^ a b Botev, ZI; Mandjes, M .; Ridder, A. (6 a 9 de diciembre de 2015). "Distribución de la cola del máximo de variables aleatorias gaussianas correlacionadas". Conferencia de simulación de invierno de 2015 (CSM) . Huntington Beach, California, Estados Unidos: IEEE. págs. 633–642. doi : 10.1109 / WSC.2015.7408202 . ISBN 978-1-4673-9743-8.
^ Adler, RJ; Blanchet, J .; Liu, J. (7 a 10 de diciembre de 2008). "Simulación eficiente de probabilidades de cola de campos aleatorios gaussianos". Conferencia de simulación de invierno de 2008 (WSC) . Miami, Florida, Estados Unidos: IEEE. págs. 328–336. doi : 10.1109 / WSC.2008.4736085 . ISBN 978-1-4244-2707-9.Mantenimiento CS1: fecha y año ( enlace )
^ a b c d e f g h yo Das, Abhranil (2020). "Un método para integrar y clasificar distribuciones normales". arXiv : 2012.14331 [ stat.ML ].
^ Tong, T. (2010) Regresión lineal múltiple: MLE y sus resultados de distribución Archivado el 16 de junio de 2013 en WebCite , Lecture Notes
^ Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, Nueva Jersey (mayo de 1989). "Expresiones de entropía y sus estimadores para distribuciones multivariadas". Transacciones IEEE sobre teoría de la información . 35 (3): 688–692. doi : 10.1109 / 18.30996 .
^ Duchi, J. "Derivaciones para álgebra lineal y optimización" (PDF) : 13. Cite journal requiere |journal=( ayuda )
^ Eaton, Morris L. (1983). Estadística multivariante: un enfoque de espacio vectorial . John Wiley e hijos. págs. 116-117. ISBN 978-0-471-02776-8.
^ Jensen, J (2000). Estadísticas para ingenieros petroleros y geocientíficos . Amsterdam: Elsevier. pag. 207.
^ Maddala, GS (1983). Variables dependientes y cualitativas limitadas en econometría . Prensa de la Universidad de Cambridge. ISBN 0-521-33825-5.
^ Un cálculo algebraico de la distribución marginal se muestra aquí http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html . Una prueba mucho más breve se describe aquí https://math.stackexchange.com/a/3832137
^ Nikolaus Hansen (2016). "La estrategia de evolución de CMA: un tutorial" (PDF) . arXiv : 1604.00772 . Código bibliográfico : 2016arXiv160400772H . Archivado desde el original (PDF) el 31 de marzo de 2010 . Consultado el 7 de enero de 2012 .
^ Daniel Wollschlaeger. "La Distribución Hoyt (Documentación para el paquete R 'shotGroups' versión 0.6.2)" .^{[ enlace muerto permanente ]}
^ Wang, Bin; Shi, Wenzhong; Miao, Zelang (13 de marzo de 2015). Rocchini, Duccio (ed.). "Análisis de confianza de la elipse de desviación estándar y su extensión en el espacio euclidiano dimensional superior" . PLOS ONE . 10 (3): e0118537. Código Bibliográfico : 2015PLoSO..1018537W . doi : 10.1371 / journal.pone.0118537 . ISSN 1932-6203 . PMC 4358977 . PMID 25769048 .
^ Cox, RD; Small, NJH (1978). "Prueba de normalidad multivariante". Biometrika . 65 (2): 263. doi : 10.1093 / biomet / 65.2.263 .
^ Smith, SP; Jain, AK (1988). "Una prueba para determinar la normalidad multivariante de un conjunto de datos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 10 (5): 757. doi : 10.1109 / 34.6789 .
^ Friedman, JH; Rafsky, LC (1979). "Generalizaciones multivariadas de las pruebas de dos muestras de Wald-Wolfowitz y Smirnov" . The Annals of Statistics . 7 (4): 697. doi : 10.1214 / aos / 1176344722 .
^ Mardia, KV (1970). "Medidas de asimetría y curtosis multivariante con aplicaciones". Biometrika . 57 (3): 519–530. doi : 10.1093 / biomet / 57.3.519 .
^ Rencher (1995), páginas 112-113.
^ Rencher (1995), páginas 493–495.
^ Baringhaus, L .; Henze, N. (1991). "Limitar distribuciones para medidas de asimetría multivariante y curtosis basadas en proyecciones" . Revista de análisis multivariante . 38 : 51–69. doi : 10.1016 / 0047-259X (91) 90031-V .
^ a b Baringhaus, L .; Henze, N. (1988). "Una prueba consistente de normalidad multivariante basada en la función característica empírica". Metrika . 35 (1): 339–348. doi : 10.1007 / BF02613322 . S2CID 122362448 .
^ Henze, Norbert (2002). "Pruebas invariantes de normalidad multivariante: una revisión crítica". Papeles estadísticos . 43 (4): 467–506. doi : 10.1007 / s00362-002-0119-6 . S2CID 122934510 .
^ Suave, JE (2009). Estadística computacional . Estadística y Computación. Nueva York: Springer. págs. 315–316. doi : 10.1007 / 978-0-387-98144-4 . ISBN 978-0-387-98143-7.

Literatura

Rencher, AC (1995). Métodos de análisis multivariante . Nueva York: Wiley.
Tong, YL (1990). La distribución normal multivariante . Springer Series en Estadística. Nueva York: Springer-Verlag. doi : 10.1007 / 978-1-4613-9655-0 . ISBN 978-1-4613-9657-4.

[Lapidoth-1] Lapidoth, Amos (2009). Una base en la comunicación digital . Prensa de la Universidad de Cambridge. ISBN 978-0-521-19395-5.

[Gut-2] Gut, Allan (2009). Un curso intermedio en probabilidad . Saltador. ISBN 978-1-441-90161-3.

[3] Kac, M. (1939). "Sobre una caracterización de la distribución normal". Revista Estadounidense de Matemáticas . 61 (3): 726–728. doi : 10.2307 / 2371328 . JSTOR 2371328 .

[4] Sinz, Fabián; Gerwinn, Sebastian; Bethge, Matthias (2009). "Caracterización de la distribución normal p-generalizada" . Revista de análisis multivariante . 100 (5): 817–820. doi : 10.1016 / j.jmva.2008.07.006 .

[5] Simon JD Prince (junio de 2012). Visión por computadora: modelos, aprendizaje e inferencia . Prensa de la Universidad de Cambridge. 3.7: "Distribución normal multivariante".

[HT-6] Hamedani, GG; Tata, MN (1975). "Sobre la determinación de la distribución normal bivariada a partir de distribuciones de combinaciones lineales de las variables". The American Mathematical Monthly . 82 (9): 913–915. doi : 10.2307 / 2318494 . JSTOR 2318494 .

[wyattlms-7] Wyatt, John (26 de noviembre de 2008). "Estimación del error cuadrático mínimo lineal" (PDF) . Curso de apuntes sobre probabilidad aplicada . Archivado desde el original (PDF) el 10 de octubre de 2015 . Consultado el 23 de enero de 2012 .

[rao-8] Rao, CR (1973). Inferencia estadística lineal y sus aplicaciones . Nueva York: Wiley. págs. 527–528. ISBN 0-471-70823-2.

[bo16-9] Botev, ZI (2016). "La ley normal bajo restricciones lineales: simulación y estimación mediante inclinación minimax". Revista de la Sociedad Real de Estadística, Serie B . 79 : 125-148. arXiv : 1603.04166 . Código bibliográfico : 2016arXiv160304166B . doi : 10.1111 / rssb.12162 . S2CID 88515228 .

[Genz-10] Genz, Alan (2009). Cálculo de probabilidades normales y t multivariadas . Saltador. ISBN 978-3-642-01689-9.

[Bensimhoun-11] Bensimhoun Michael, función acumulativa N-dimensional y otros datos útiles sobre gaussianos y densidades normales (2006)

[Siotani-12] Siotani, Minoru (1964). "Regiones de tolerancia para una población normal multivariante" (PDF) . Anales del Instituto de Matemática Estadística . 16 (1): 135-153. doi : 10.1007 / BF02868568 . S2CID 123269490 .

[bmr15-13] Botev, ZI; Mandjes, M .; Ridder, A. (6 a 9 de diciembre de 2015). "Distribución de la cola del máximo de variables aleatorias gaussianas correlacionadas". Conferencia de simulación de invierno de 2015 (CSM) . Huntington Beach, California, Estados Unidos: IEEE. págs. 633–642. doi : 10.1109 / WSC.2015.7408202 . ISBN 978-1-4673-9743-8.

[abl08-14] Adler, RJ; Blanchet, J .; Liu, J. (7 a 10 de diciembre de 2008). "Simulación eficiente de probabilidades de cola de campos aleatorios gaussianos". Conferencia de simulación de invierno de 2008 (WSC) . Miami, Florida, Estados Unidos: IEEE. págs. 328–336. doi : 10.1109 / WSC.2008.4736085 . ISBN 978-1-4244-2707-9.Mantenimiento CS1: fecha y año ( enlace )

[Das-15] yo Das, Abhranil (2020). "Un método para integrar y clasificar distribuciones normales". arXiv : 2012.14331 [ stat.ML ].

[16] Tong, T. (2010) Regresión lineal múltiple: MLE y sus resultados de distribución Archivado el 16 de junio de 2013 en WebCite , Lecture Notes

[17] Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, Nueva Jersey (mayo de 1989). "Expresiones de entropía y sus estimadores para distribuciones multivariadas". Transacciones IEEE sobre teoría de la información . 35 (3): 688–692. doi : 10.1109 / 18.30996 .

[18] Duchi, J. "Derivaciones para álgebra lineal y optimización" (PDF) : 13. Cite journal requiere |journal=( ayuda )

[eaton-19] Eaton, Morris L. (1983). Estadística multivariante: un enfoque de espacio vectorial . John Wiley e hijos. págs. 116-117. ISBN 978-0-471-02776-8.

[20] Jensen, J (2000). Estadísticas para ingenieros petroleros y geocientíficos . Amsterdam: Elsevier. pag. 207.

[Maddala83-21] Maddala, GS (1983). Variables dependientes y cualitativas limitadas en econometría . Prensa de la Universidad de Cambridge. ISBN 0-521-33825-5.

[22] Un cálculo algebraico de la distribución marginal se muestra aquí http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html . Una prueba mucho más breve se describe aquí https://math.stackexchange.com/a/3832137

[23] Nikolaus Hansen (2016). "La estrategia de evolución de CMA: un tutorial" (PDF) . arXiv : 1604.00772 . Código bibliográfico : 2016arXiv160400772H . Archivado desde el original (PDF) el 31 de marzo de 2010 . Consultado el 7 de enero de 2012 .

[24] Daniel Wollschlaeger. "La Distribución Hoyt (Documentación para el paquete R 'shotGroups' versión 0.6.2)" .^{[ enlace muerto permanente ]}

[25] Wang, Bin; Shi, Wenzhong; Miao, Zelang (13 de marzo de 2015). Rocchini, Duccio (ed.). "Análisis de confianza de la elipse de desviación estándar y su extensión en el espacio euclidiano dimensional superior" . PLOS ONE . 10 (3): e0118537. Código Bibliográfico : 2015PLoSO..1018537W . doi : 10.1371 / journal.pone.0118537 . ISSN 1932-6203 . PMC 4358977 . PMID 25769048 .

[26] Cox, RD; Small, NJH (1978). "Prueba de normalidad multivariante". Biometrika . 65 (2): 263. doi : 10.1093 / biomet / 65.2.263 .

[27] Smith, SP; Jain, AK (1988). "Una prueba para determinar la normalidad multivariante de un conjunto de datos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 10 (5): 757. doi : 10.1109 / 34.6789 .

[28] Friedman, JH; Rafsky, LC (1979). "Generalizaciones multivariadas de las pruebas de dos muestras de Wald-Wolfowitz y Smirnov" . The Annals of Statistics . 7 (4): 697. doi : 10.1214 / aos / 1176344722 .

[Mardia-29] Mardia, KV (1970). "Medidas de asimetría y curtosis multivariante con aplicaciones". Biometrika . 57 (3): 519–530. doi : 10.1093 / biomet / 57.3.519 .

[30] Rencher (1995), páginas 112-113.

[31] Rencher (1995), páginas 493–495.

[32] Baringhaus, L .; Henze, N. (1991). "Limitar distribuciones para medidas de asimetría multivariante y curtosis basadas en proyecciones" . Revista de análisis multivariante . 38 : 51–69. doi : 10.1016 / 0047-259X (91) 90031-V .

[BH-33] Baringhaus, L .; Henze, N. (1988). "Una prueba consistente de normalidad multivariante basada en la función característica empírica". Metrika . 35 (1): 339–348. doi : 10.1007 / BF02613322 . S2CID 122362448 .

[Henze-34] Henze, Norbert (2002). "Pruebas invariantes de normalidad multivariante: una revisión crítica". Papeles estadísticos . 43 (4): 467–506. doi : 10.1007 / s00362-002-0119-6 . S2CID 122934510 .

[Gentle-35] Suave, JE (2009). Estadística computacional . Estadística y Computación. Nueva York: Springer. págs. 315–316. doi : 10.1007 / 978-0-387-98144-4 . ISBN 978-0-387-98143-7.

[1]