Distribución chi-cuadrado generalizada

En teoría de probabilidad y estadística , la distribución chi-cuadrado generalizada (o distribución chi-cuadrado generalizada ) es la distribución de una forma cuadrática de una variable multinormal (vector normal) , o una combinación lineal de diferentes variables normales y cuadrados de variables normales. De manera equivalente, también es una suma lineal de variables chi-cuadrado independientes no centrales y una variable normal . Hay varias otras generalizaciones similares para las que a veces se usa el mismo término; algunos de ellos son casos especiales de la familia aquí discutida, por ejemplo, la distribución gamma .

Distribución chi-cuadrado generalizada
Función de densidad de probabilidad
Función de distribución acumulativa
Notación	${\ displaystyle {\ tilde {\ chi}} ^ {2} ({\ boldsymbol {w}}, {\ boldsymbol {k}}, {\ boldsymbol {\ lambda}}, m, s)}$
Parámetros	${\ displaystyle {\ boldsymbol {w}}}$ , vector de pesos de componentes chi-cuadrado no central ${\ displaystyle {\ boldsymbol {k}}}$ , vector de grados de libertad de componentes chi-cuadrado no central ${\ displaystyle {\ boldsymbol {\ lambda}}}$ , vector de parámetros de no centralidad de componentes chi-cuadrado ${\ Displaystyle m}$ , media de término normal ${\ Displaystyle s}$ , sd de término normal
Apoyo	${\ Displaystyle x \ in \ mathbb {R}}$
Significar	${\ Displaystyle \ sum _ {j} w_ {j} (k_ {j} + \ lambda _ {j}) + m}$
Diferencia	${\ Displaystyle 2 \ sum _ {j} w_ {j} ^ {2} (k_ {j} +2 \ lambda _ {j}) + s ^ {2}}$
CF	${\ Displaystyle {\ frac {\ exp \ left (it \ sum _ {j} {\ frac {w_ {j} \ lambda _ {j}} {1-2iw_ {j} t}} - {\ frac {s ^ {2} t ^ {2}} {2}} \ right)} {\ prod _ {j} \ left (1-2iw_ {j} t \ right) ^ {k_ {j} / 2}}}}$

Definición

La variable chi-cuadrado generalizada se puede describir de múltiples formas. Uno es escribirlo como una suma lineal de variables chi-cuadrado independientes no centrales y una variable normal: ^[1]^[2]

{\ Displaystyle \ xi = \ sum _ {i} w_ {i} y_ {i} + x, \ quad y_ {i} \ sim \ chi '^ {2} (k_ {i}, \ lambda _ {i} ), \ quad x \ sim N (m, s).}

Aquí los parámetros son los pesos. ${\ Displaystyle w_ {i}}$ , los grados de libertad ${\ Displaystyle k_ {i}}$ y no centralidades ${\ Displaystyle \ lambda _ {i}}$ de los chi-cuadrados constituyentes, y los parámetros normales ${\ Displaystyle m}$ y ${\ Displaystyle s}$ . Algunos casos especiales importantes de esto tienen todos los pesos. ${\ Displaystyle w_ {i}}$ del mismo signo, o tienen componentes centrales de chi-cuadrado, u omiten el término normal.

Dado que una variable chi-cuadrado no central es una suma de cuadrados de variables normales con diferentes medias, la variable chi-cuadrado generalizada también se define como una suma de cuadrados de variables normales independientes, más una variable normal independiente: es decir, una cuadrática en variables normales.

Otra forma equivalente es formularlo como una forma cuadrática de un vector normal ${\ displaystyle {\ boldsymbol {x}}}$ : ^[3] ^[4]

{\ Displaystyle \ xi = q ({\ boldsymbol {x}}) = {\ boldsymbol {x}} '\ mathbf {Q_ {2}} {\ boldsymbol {x}} + {\ boldsymbol {q_ {1}} } '{\ boldsymbol {x}} + q_ {0}}

.

Aquí ${\ Displaystyle \ mathbf {Q_ {2}}}$ es una matriz, ${\ displaystyle {\ boldsymbol {q_ {1}}}}$ es un vector, y ${\ Displaystyle q_ {0}}$ es un escalar. Estos, junto con la media ${\ displaystyle {\ boldsymbol {\ mu}}}$ y matriz de covarianza ${\ Displaystyle \ mathbf {\ Sigma}}$ del vector normal ${\ displaystyle {\ boldsymbol {x}}}$ , parametrizar la distribución. Los parámetros de la primera expresión (en términos de chi-cuadrados no centrales, una normal y una constante) se pueden calcular en términos de los parámetros de la última expresión (forma cuadrática de un vector normal). ^[4] Si (y solo si) ${\ Displaystyle \ mathbf {Q_ {2}}}$ en esta formulación es positivo-definido , entonces todos los ${\ Displaystyle w_ {i}}$ en la primera formulación tendrá el mismo signo.

Para el caso más general, se puede hacer una reducción hacia una forma estándar común utilizando una representación de la siguiente forma: ^[5]

{\ Displaystyle X = (z + a) ^ {\ mathrm {T}} A (z + a) + c ^ {\ mathrm {T}} z = (x + b) ^ {\ mathrm {T}} D (x + b) + d ^ {\ mathrm {T}} x + e,}

donde D es una matriz diagonal y donde x representa un vector de variables aleatorias normales estándar no correlacionadas .

Calcular el pdf / cdf / cdf inverso / números aleatorios

Las funciones de densidad de probabilidad, distribución acumulativa y distribución acumulativa inversa de una variable chi-cuadrado generalizada no tienen expresiones simples de forma cerrada. Sin embargo, se han publicado algoritmos numéricos ^[5]^[2]^[6]^[4] y código informático ( Fortran y C , Matlab , R ) para evaluar algunos de estos y generar muestras aleatorias.

Aplicaciones

El chi-cuadrado generalizado es la distribución de estimaciones estadísticas en los casos en que la teoría estadística habitual no se cumple, como en los ejemplos siguientes.

En ajuste y selección de modelos

Si un modelo predictivo se ajusta por mínimos cuadrados , pero los residuos tienen autocorrelación o heterocedasticidad , los modelos alternativos se pueden comparar (en la selección del modelo ) relacionando los cambios en la suma de cuadrados con una distribución chi-cuadrado generalizada asintóticamente válida . ^[3]

Clasificación de vectores normales mediante análisis discriminante gaussiano

Si ${\ displaystyle {\ boldsymbol {x}}}$ es un vector normal, su probabilidad logarítmica es una forma cuadrática de ${\ displaystyle {\ boldsymbol {x}}}$ , y por lo tanto se distribuye como un chi cuadrado generalizado. La razón logarítmica de verosimilitud que ${\ displaystyle {\ boldsymbol {x}}}$ surge de una distribución normal versus otra también es una forma cuadrática , por lo que se distribuye como un chi-cuadrado generalizado. ^[4]

En el análisis discriminante gaussiano, las muestras de distribuciones multinormales se separan de manera óptima mediante el uso de un clasificador cuadrático , un límite que es una función cuadrática (por ejemplo, la curva definida al establecer la razón de verosimilitud entre dos gaussianos en 1). Las tasas de error de clasificación de diferentes tipos (falsos positivos y falsos negativos) son integrales de las distribuciones normales dentro de las regiones cuadráticas definidas por este clasificador. Dado que esto es matemáticamente equivalente a integrar una forma cuadrática de un vector normal, el resultado es una integral de una variable chi cuadrado generalizada. ^[4]

En procesamiento de señales

La siguiente aplicación surge en el contexto del análisis de Fourier en el procesamiento de señales , la teoría de la renovación en la teoría de la probabilidad y los sistemas de múltiples antenas en la comunicación inalámbrica . El factor común de estas áreas es que la suma de las variables distribuidas exponencialmente es de importancia (o, de manera idéntica, la suma de las magnitudes cuadradas de las variables gaussianas complejas centradas de forma circular-simétrica ).

Si ${\ Displaystyle Z_ {i}}$ son k independiente , circularmente simétrica centrada gaussianas complejas variables aleatorias con media 0 y varianza ${\ Displaystyle \ sigma _ {i} ^ {2}}$ , luego la variable aleatoria

{\ Displaystyle {\ tilde {Q}} = \ sum _ {i = 1} ^ {k} | Z_ {i} | ^ {2}}

tiene una distribución chi-cuadrado generalizada de una forma particular. La diferencia con la distribución estándar de chi-cuadrado es que ${\ Displaystyle Z_ {i}}$ son complejas y pueden tener diferentes varianzas, y la diferencia con la distribución chi-cuadrado más generalizada es que la matriz de escala A relevante es diagonal. Si ${\ Displaystyle \ mu = \ sigma _ {i} ^ {2}}$ para todo yo , entonces ${\ Displaystyle {\ tilde {Q}}}$ , reducido por ${\ Displaystyle \ mu / 2}$ (es decir, multiplicado por ${\ Displaystyle 2 / \ mu}$ ), tiene una distribución chi-cuadrado , ${\ Displaystyle \ chi ^ {2} (2k)}$ , también conocida como distribución Erlang . Si ${\ Displaystyle \ sigma _ {i} ^ {2}}$ tener valores distintos para todo i , entonces ${\ Displaystyle {\ tilde {Q}}}$ tiene el pdf ^[7]

{\ Displaystyle f (x; k, \ sigma _ {1} ^ {2}, \ ldots, \ sigma _ {k} ^ {2}) = \ sum _ {i = 1} ^ {k} {\ frac {e ^ {- {\ frac {x} {\ sigma _ {i} ^ {2}}}}} {\ sigma _ {i} ^ {2} \ prod _ {j = 1, j \ neq i} ^ {k} \ left (1 - {\ frac {\ sigma _ {j} ^ {2}} {\ sigma _ {i} ^ {2}}} \ right)}} \ quad {\ text {para} } x \ geq 0.}

Si hay conjuntos de variaciones repetidas entre ${\ Displaystyle \ sigma _ {i} ^ {2}}$ , suponga que se dividen en M conjuntos, cada uno de los cuales representa un cierto valor de varianza. Denotar ${\ Displaystyle \ mathbf {r} = (r_ {1}, r_ {2}, \ dots, r_ {M})}$ para ser el número de repeticiones en cada grupo. Es decir, el m ésimo conjunto contiene ${\ Displaystyle r_ {m}}$ variables que tienen varianza ${\ Displaystyle \ sigma _ {m} ^ {2}.}$ Representa una combinación lineal arbitraria de independientes ${\ Displaystyle \ chi ^ {2}}$ -variables aleatorias distribuidas con diferentes grados de libertad:

{\ Displaystyle {\ tilde {Q}} = \ sum _ {m = 1} ^ {M} \ sigma _ {m} ^ {2} / 2 * Q_ {m}, \ quad Q_ {m} \ sim \ chi ^ {2} (2r_ {m}) \ ,.}

El pdf de ${\ Displaystyle {\ tilde {Q}}}$ es ^[8]

{\ Displaystyle f (x; \ mathbf {r}, \ sigma _ {1} ^ {2}, \ dots \ sigma _ {M} ^ {2}) = \ prod _ {m = 1} ^ {M} {\ frac {1} {\ sigma _ {m} ^ {2r_ {m}}}} \ sum _ {k = 1} ^ {M} \ sum _ {l = 1} ^ {r_ {k}} { \ frac {\ Psi _ {k, l, \ mathbf {r}}} {(r_ {k} -l)!}} (- x) ^ {r_ {k} -l} e ^ {- {\ frac {x} {\ sigma _ {k} ^ {2}}}}, \ quad {\ text {para}} x \ geq 0,}

dónde

{\ Displaystyle \ Psi _ {k, l, \ mathbf {r}} = (- 1) ^ {r_ {k} -1} \ sum _ {\ mathbf {i} \ in \ Omega _ {k, l} } \ prod _ {j \ neq k} {\ binom {i_ {j} + r_ {j} -1} {i_ {j}}} \ left ({\ frac {1} {\ sigma _ {j} ^ {2}}} \! - \! {\ Frac {1} {\ sigma _ {k} ^ {2}}} \ right) ^ {- (r_ {j} + i_ {j})},}

con ${\ Displaystyle \ mathbf {i} = [i_ {1}, \ ldots, i_ {M}] ^ {T}}$ del set ${\ Displaystyle \ Omega _ {k, l}}$ de todas las particiones de ${\ Displaystyle l-1}$ (con ${\ Displaystyle i_ {k} = 0}$ ) definido como

{\ Displaystyle \ Omega _ {k, l} = \ left \ {[i_ {1}, \ ldots, i_ {m}] \ in \ mathbb {Z} ^ {m}; \ sum _ {j = 1} ^ {M} i_ {j} \! = L-1, i_ {k} = 0, i_ {j} \ geq 0 {\ text {para todos}} j \ right \}.}

Ver también

Grados de libertad (estadísticas) #Alternativa
Distribución chi-cuadrado no central
Distribución chi-cuadrado

Referencias

^ Davies, RB (1973) Inversión numérica de una función característica. Biometrika , 60 (2), 415–417
^ a b Davies, R, B. (1980) "Algoritmo AS155: La distribución de una combinación lineal de χ ² variables aleatorias", Estadística aplicada , 29, 323–333
^ a b Jones, DA (1983) "Análisis estadístico de modelos empíricos ajustados por optimización", Biometrika , 70 (1), 67-88
↑ a b c d e Das, Abhranil (2020). "Un método para integrar y clasificar distribuciones normales". arXiv : 2012.14331 .
^ a b Sheil, J., O'Muircheartaigh, I. (1977) "Algoritmo AS106: La distribución de formas cuadráticas no negativas en variables normales", Estadística aplicada , 26, 92-98
^ Imhof, JP (1961). "Calcular la distribución de formas cuadráticas en variables normales" (PDF) . Biometrika . 48 (3/4): 419–426. doi : 10.2307 / 2332763 . JSTOR 2332763 .
^ D. Hammarwall, M. Bengtsson, B. Ottersten (2008) "Adquirir CSI parcial para transmisión espacialmente selectiva por retroalimentación de norma de canal instantánea", Transacciones IEEE sobre procesamiento de señales , 56, 1188-1204
^ E. Björnson, D. Hammarwall, B. Ottersten (2009) "Explotación de la retroalimentación de la norma de canal cuantificada a través de estadísticas condicionales en sistemas MIMO correlacionados arbitrariamente" , Transacciones IEEE sobre procesamiento de señales , 57, 4027-4041

enlaces externos

Davies, RB: código fuente de Fortran y C para "Combinación lineal de variables aleatorias chi-cuadrado"
Das, A: código MATLAB para calcular las estadísticas, pdf, cdf, cdf inverso y números aleatorios de la distribución chi-cuadrado generalizada.

[Davies1-1] Davies, RB (1973) Inversión numérica de una función característica. Biometrika , 60 (2), 415–417

[Davies2-2] Davies, R, B. (1980) "Algoritmo AS155: La distribución de una combinación lineal de χ ² variables aleatorias", Estadística aplicada , 29, 323–333

[Jones1-3] Jones, DA (1983) "Análisis estadístico de modelos empíricos ajustados por optimización", Biometrika , 70 (1), 67-88

[Das-4] Das, Abhranil (2020). "Un método para integrar y clasificar distribuciones normales". arXiv : 2012.14331 .

[Sheil-5] Sheil, J., O'Muircheartaigh, I. (1977) "Algoritmo AS106: La distribución de formas cuadráticas no negativas en variables normales", Estadística aplicada , 26, 92-98

[Imhof-6] Imhof, JP (1961). "Calcular la distribución de formas cuadráticas en variables normales" (PDF) . Biometrika . 48 (3/4): 419–426. doi : 10.2307 / 2332763 . JSTOR 2332763 .

[7] D. Hammarwall, M. Bengtsson, B. Ottersten (2008) "Adquirir CSI parcial para transmisión espacialmente selectiva por retroalimentación de norma de canal instantánea", Transacciones IEEE sobre procesamiento de señales , 56, 1188-1204

[8] E. Björnson, D. Hammarwall, B. Ottersten (2009) "Explotación de la retroalimentación de la norma de canal cuantificada a través de estadísticas condicionales en sistemas MIMO correlacionados arbitrariamente" , Transacciones IEEE sobre procesamiento de señales , 57, 4027-4041

[1]