Distribución T -quared de Hotelling

En estadística , particularmente en las pruebas de hipótesis , la distribución T- cuadrada de Hotelling ( T ² ), propuesta por Harold Hotelling , ^[1] es una distribución de probabilidad multivariante que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas de la muestra que son generalizaciones naturales de las estadísticas subyacentes a la de Student t -distribución .

Distribución T ^{2 de} Hotelling
Función de densidad de probabilidad
Función de distribución acumulativa
Parámetros	p - dimensión de las variables aleatorias m - relacionada con el tamaño de la muestra
Apoyo	${\ Displaystyle x \ in (0, + \ infty) \;}$ Si ${\ Displaystyle p = 1}$ ${\ Displaystyle x \ in [0, + \ infty) \;}$ de lo contrario.

El estadístico t- cuadrado de Hotelling ( t ² ) es una generalización del estadístico t de Student que se utiliza en la prueba de hipótesis multivariante . ^[2]

Motivación

La distribución surge en la estadística multivariante al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución lleva el nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student. ^[1]

Definición

Si el vector ${\ Displaystyle d}$ tiene distribución multivariante gaussiana con media cero y matriz de covarianza unitaria ${\ Displaystyle N (\ mathbf {0} _ {p}, \ mathbf {I} _ {p, p})}$ y ${\ Displaystyle M}$ es un ${\ Displaystyle p \ times p}$ matriz con matriz de escala unitaria y m grados de libertad con una distribución de Wishart ${\ Displaystyle W (\ mathbf {I} _ {p, p}, m)}$ , luego la forma cuadrática ${\ Displaystyle X}$ tiene una distribución de Hotelling (con parámetros ${\ Displaystyle p}$ y ${\ Displaystyle m}$ ): ^[3]

{\ Displaystyle X = md ^ {T} M ^ {- 1} d \ sim T ^ {2} (p, m).}

Además, si una variable aleatoria X tiene la distribución T- cuadrada de Hotelling , ${\ Displaystyle X \ sim T_ {p, m} ^ {2}}$ , luego: ^[1]

{\ Displaystyle {\ frac {m-p + 1} {pm}} X \ sim F_ {p, m-p + 1}}

dónde ${\ Displaystyle F_ {p, m-p + 1}}$ es la distribución F con los parámetros p y m − p + 1 .

Estadístico t cuadrado de Hotelling

Dejar ${\ Displaystyle {\ hat {\ mathbf {\ Sigma}}}}$ ser la covarianza de la muestra :

{\ Displaystyle {\ hat {\ mathbf {\ Sigma}}} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) '}

donde denotamos transponer por un apóstrofe . Se puede demostrar que ${\ Displaystyle {\ hat {\ mathbf {\ Sigma}}}}$ es una matriz positiva (semi) definida y ${\ Displaystyle (n-1) {\ hat {\ mathbf {\ Sigma}}}}$ sigue una distribución p -variable de Wishart con n -1 grados de libertad. ^[4] La matriz de covarianza muestral de la media dice ${\ Displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ overline {\ mathbf {x}}} = {\ hat {\ mathbf {\ Sigma}}} / n}$ .

El estadístico t- cuadrado de Hotelling se define entonces como: ^[5]

{\ Displaystyle t ^ {2} = ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ hat {\ mathbf {\ Sigma}}} _ {\ overline {\ mathbf {x}}} ^ {- 1} ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}}),}

que es proporcional a la distancia entre la media muestral y ${\ displaystyle {\ boldsymbol {\ mu}}}$ . Debido a esto, uno debe esperar que la estadística asuma valores bajos si ${\ Displaystyle {\ overline {\ mathbf {x}}} \ approx {\ boldsymbol {\ mu}}}$ y valores altos si son diferentes.

De la distribución ,

{\ Displaystyle t ^ {2} \ sim T_ {p, n-1} ^ {2} = {\ frac {p (n-1)} {np}} F_ {p, np},}

dónde ${\ Displaystyle F_ {p, np}}$ es la distribución F con los parámetros p y n - p .

Para calcular un valor p (no relacionado con la variable p aquí), tenga en cuenta que la distribución de ${\ Displaystyle t ^ {2}}$ equivale a implicar que

{\ Displaystyle {\ frac {np} {p (n-1)}} t ^ {2} \ sim F_ {p, np}.}

Luego, use la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.

Motivación

Dejar ${\ Displaystyle {\ mathcal {N}} _ {p} ({\ boldsymbol {\ mu}}, {\ mathbf {\ Sigma}})}$ denotar una distribución normal p -variable con ubicación ${\ displaystyle {\ boldsymbol {\ mu}}}$ y covarianza conocida ${\ Displaystyle {\ mathbf {\ Sigma}}}$ . Dejar

{\ Displaystyle {\ mathbf {x}} _ {1}, \ dots, {\ mathbf {x}} _ {n} \ sim {\ mathcal {N}} _ {p} ({\ boldsymbol {\ mu} }, {\ mathbf {\ Sigma}})}

ser n variables aleatorias independientes distribuidas de forma idéntica (iid) , que pueden representarse como ${\ Displaystyle p \ times 1}$ vectores de columna de números reales. Definir

{\ Displaystyle {\ overline {\ mathbf {x}}} = {\ frac {\ mathbf {x} _ {1} + \ cdots + \ mathbf {x} _ {n}} {n}}}

ser la media muestral con covarianza ${\ Displaystyle {\ mathbf {\ Sigma}} _ {\ overline {\ mathbf {x}}} = {\ mathbf {\ Sigma}} / n}$ . Se puede demostrar que

{\ displaystyle ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ mathbf {\ Sigma}} _ {\ overline {\ mathbf {x}}} ^ {- 1 } ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}}) \ sim \ chi _ {p} ^ {2},}

dónde ${\ Displaystyle \ chi _ {p} ^ {2}}$ es la distribución chi-cuadrado con p grados de libertad. ^[6]

Prueba

Prueba -

Para mostrar esto, use el hecho de que ${\ Displaystyle {\ overline {\ mathbf {x}}} \ sim {\ mathcal {N}} _ {p} ({\ boldsymbol {\ mu}}, {\ mathbf {\ Sigma}} / n)}$ y derivar la función característica de la variable aleatoria ${\ Displaystyle \ mathbf {y} = ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ mathbf {\ Sigma}} _ {\ bar {\ mathbf {x} }} ^ {- 1} ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}}) = ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '({\ mathbf {\ Sigma}} / n) ^ {- 1} ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}}) }$ . Como de costumbre, deja ${\ Displaystyle | \ cdot |}$ denotar el determinante del argumento, como en ${\ Displaystyle | {\ boldsymbol {\ Sigma}} |}$ .

Por definición de función característica, tenemos: ^[7]

{\ displaystyle {\ begin {alineado} \ varphi _ {\ mathbf {y}} (\ theta) & = \ operatorname {E} e ^ {i \ theta \ mathbf {y}}, \\ [5pt] & = \ operatorname {E} e ^ {i \ theta ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '({\ mathbf {\ Sigma}} / n) ^ {- 1 } ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}})} \\ [5pt] & = \ int e ^ {i \ theta ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) 'n {\ mathbf {\ Sigma}} ^ {- 1} ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mathbf { \ mu}}})} (2 \ pi) ^ {- p / 2} | {\ boldsymbol {\ Sigma}} / n | ^ {- 1/2} \, e ^ {- (1/2) ( {\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) 'n {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ overline {\ mathbf {x}}} - { \ boldsymbol {\ mu}})} \, dx_ {1} \ cdots dx_ {p} \ end {alineado}}}

Hay dos exponenciales dentro de la integral, por lo que al multiplicar los exponenciales sumamos los exponentes, obteniendo:

{\ Displaystyle {\ begin {alineado} & = \ int (2 \ pi) ^ {- p / 2} | {\ boldsymbol {\ Sigma}} / n | ^ {- 1/2} \, e ^ {- (1/2) ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) 'n ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}})} \, dx_ {1} \ cdots dx_ {p} \ end {alineado }}}

Ahora toma el término ${\ Displaystyle | {\ boldsymbol {\ Sigma}} / n | ^ {- 1/2}}$ fuera de la integral, y multiplicar todo por una identidad ${\ Displaystyle I = | ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1 / 2} \; \ cdot \; | ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {-1/2}}$ , llevando uno de ellos dentro de la integral:

{\ displaystyle {\ begin {alineado} & = | ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1/2} | {\ boldsymbol {\ Sigma}} / n | ^ {- 1/2} \ int (2 \ pi) ^ {- p / 2} | ({\ boldsymbol {\ Sigma} } ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {- 1/2} \, e ^ {- (1/2) n ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}})} \, dx_ {1} \ cdots dx_ {p} \ end {alineado}}}

Pero el término dentro de la integral es precisamente la función de densidad de probabilidad de una distribución normal multivariante con matriz de covarianza. ${\ displaystyle ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} / n = \ left [n ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) \ right] ^ {- 1}}$ y significa ${\ Displaystyle \ mu}$ , así que al integrar sobre todo ${\ Displaystyle x_ {1}, \ dots, x_ {p}}$ , debe ceder ${\ Displaystyle 1}$ según los axiomas de probabilidad . ^{[ aclaración necesaria ]} Por lo tanto, terminamos con:

{\ Displaystyle {\ begin {alineado} & = \ left | ({\ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1 } \ cdot {\ frac {1} {n}} \ right | ^ {1/2} | {\ boldsymbol {\ Sigma}} / n | ^ {- 1/2} \\ & = \ left | ({ \ boldsymbol {\ Sigma}} ^ {- 1} -2i \ theta {\ boldsymbol {\ Sigma}} ^ {- 1}) ^ {- 1} \ cdot {\ frac {1} {\ cancel {n}} } \ cdot {\ cancel {n}} \ cdot {\ boldsymbol {\ Sigma}} ^ {- 1} \ right | ^ {1/2} \\ & = \ left | \ left [({\ cancel {{ \ boldsymbol {\ Sigma}} ^ {- 1}}} - 2i \ theta {\ cancel {{\ boldsymbol {\ Sigma}} ^ {- 1}}}) {\ cancel {\ boldsymbol {\ Sigma}}} \ right] ^ {- 1} \ right | ^ {1/2} \\ & = | \ mathbf {I} _ {p} -2i \ theta \ mathbf {I} _ {p} | ^ {- 1 / 2} \ end {alineado}}}

dónde ${\ Displaystyle I_ {p}}$ es una matriz de identidad de dimensión ${\ Displaystyle p}$ . Finalmente, calculando el determinante, obtenemos:

{\ Displaystyle {\ begin {alineado} & = (1-2i \ theta) ^ {- p / 2} \ end {alineado}}}

que es la función característica para una distribución chi-cuadrado con ${\ Displaystyle p}$ grados de libertad. ${\ Displaystyle \; \; \; \ blacksquare}$

Estadística de dos muestras

Si ${\ Displaystyle {\ mathbf {x}} _ {1}, \ dots, {\ mathbf {x}} _ {n_ {x}} \ sim N_ {p} ({\ boldsymbol {\ mu}}, {\ mathbf {\ Sigma}})}$ y ${\ Displaystyle {\ mathbf {y}} _ {1}, \ dots, {\ mathbf {y}} _ {n_ {y}} \ sim N_ {p} ({\ boldsymbol {\ mu}}, {\ mathbf {\ Sigma}})}$ , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos

{\ Displaystyle {\ overline {\ mathbf {x}}} = {\ frac {1} {n_ {x}}} \ sum _ {i = 1} ^ {n_ {x}} \ mathbf {x} _ { i} \ qquad {\ overline {\ mathbf {y}}} = {\ frac {1} {n_ {y}}} \ sum _ {i = 1} ^ {n_ {y}} \ mathbf {y} _ {I}}

como significa la muestra, y

{\ Displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {x}} = {\ frac {1} {n_ {x} -1}} \ sum _ {i = 1} ^ {n_ {x}} (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) '}

{\ Displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {y}} = {\ frac {1} {n_ {y} -1}} \ sum _ {i = 1} ^ {n_ {y}} (\ mathbf {y} _ {i} - {\ overline {\ mathbf {y}}}) (\ mathbf {y} _ {i} - {\ overline {\ mathbf {y}}}) '}

como las respectivas matrices de covarianza de muestra. Luego

{\ Displaystyle {\ hat {\ mathbf {\ Sigma}}} = {\ frac {(n_ {x} -1) {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {x}} + ( n_ {y} -1) {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {y}}} {n_ {x} + n_ {y} -2}}}

es la estimación de la matriz de covarianza combinada insesgada (una extensión de la varianza combinada ).

Finalmente, el estadístico t cuadrado de dos muestras de Hotelling es

{\ Displaystyle t ^ {2} = {\ frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} ({\ overline {\ mathbf {x}}} - {\ overline {\ mathbf {y}}}) '{\ hat {\ mathbf {\ Sigma}}} ^ {- 1} ({\ overline {\ mathbf {x}}} - {\ overline {\ mathbf {y}} }) \ sim T ^ {2} (p, n_ {x} + n_ {y} -2)}

Conceptos relacionados

Puede estar relacionado con la distribución F por ^[4]

{\ Displaystyle {\ frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} \ sim F (p, n_ {x} + n_ {y} -1-p).}

La distribución no nula de esta estadística es la distribución F no central (la razón de una variable aleatoria chi cuadrado no central y una variable aleatoria chi cuadrado central independiente )

{\ Displaystyle {\ frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} \ sim F (p, n_ {x} + n_ {y} -1-p; \ delta),}

con

{\ Displaystyle \ delta = {\ frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} {\ boldsymbol {d}} '\ mathbf {\ Sigma} ^ {- 1} {\ boldsymbol {d}},}

dónde ${\ Displaystyle {\ boldsymbol {d}} = \ mathbf {{\ overline {x}} - {\ overline {y}}}}$ es el vector de diferencia entre las medias poblacionales.

En el caso de dos variables, la fórmula se simplifica muy bien y permite apreciar cómo la correlación, ${\ Displaystyle \ rho}$ , entre las variables afecta ${\ Displaystyle t ^ {2}}$ . Si definimos

{\ Displaystyle d_ {1} = {\ overline {x}} _ {1} - {\ overline {y}} _ {1}, \ qquad d_ {2} = {\ overline {x}} _ {2} - {\ overline {y}} _ {2}}

y

{\ Displaystyle s_ {1} = {\ sqrt {\ Sigma _ {11}}} \ qquad s_ {2} = {\ sqrt {\ Sigma _ {22}}} \ qquad \ rho = \ Sigma _ {12} / (s_ {1} s_ {2}) = \ Sigma _ {21} / (s_ {1} s_ {2})}

luego

{\ Displaystyle t ^ {2} = {\ frac {n_ {x} n_ {y}} {(n_ {x} + n_ {y}) (1-r ^ {2})}} \ left [\ left ({\ frac {d_ {1}} {s_ {1}}} \ right) ^ {2} + \ left ({\ frac {d_ {2}} {s_ {2}}} \ right) ^ {2 } -2 \ rho \ left ({\ frac {d_ {1}} {s_ {1}}} \ right) \ left ({\ frac {d_ {2}} {s_ {2}}} \ right) \ derecho]}

Por tanto, si las diferencias en las dos filas del vector ${\ Displaystyle \ mathbf {d} = {\ overline {\ mathbf {x}}} - {\ overline {\ mathbf {y}}}}$ son del mismo signo, en general, ${\ Displaystyle t ^ {2}}$ se vuelve más pequeño a medida que ${\ Displaystyle \ rho}$ se vuelve más positivo. Si las diferencias son de signo opuesto ${\ Displaystyle t ^ {2}}$ se vuelve más grande a medida que ${\ Displaystyle \ rho}$ se vuelve más positivo.

Se puede encontrar un caso especial univariado en la prueba t de Welch .

En la literatura se han propuesto pruebas más robustas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. ^[8]^[9]

Ver también

De Student t -test en las estadísticas univariantes
De Student t -distribución en teoría de la probabilidad univariada
Distribución de estudiantes multivariante
Distribución F (comúnmente tabulado o disponible en bibliotecas de software y, por lo tanto, utilizado para probar laestadística T- cuadrado usando la relación dada arriba)
Distribución lambda de Wilks (en estadísticas multivariadas , Λ de Wilks es para T ^{2 de} Hotelling como F de Snedecor es para t de Student en estadísticas univariadas)

Referencias

↑ a b c Hotelling, H. (1931). "La generalización de la ratio de Student" . Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214 / aoms / 1177732979 .
^ Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . 5 . Prentice Hall.
^ Eric W. Weisstein, MathWorld
^ a b Mardia, KV; Kent, JT; Bibby, JM (1979). Análisis multivariado . Prensa académica. ISBN 978-0-12-471250-8.
^ "6.5.4.3. T de Hotelling al cuadrado" .
^ Fin del capítulo 4.2 de Johnson, RA & Wichern, DW (2002)
^ Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3ª ed.). Wiley. ISBN 978-0-471-00710-4.
^ Marozzi, M. (2016). "Ensayos multivariados basados en distancias entre puntos con aplicación a la resonancia magnética". Métodos estadísticos en la investigación médica . 25 (6): 2593–2610. doi : 10.1177 / 0962280214529104 . PMID 24740998 .
^ Marozzi, M. (2015). "Pruebas de multidistancia multivariante para estudios de casos y controles de tamaño de muestra bajo de alta dimensión". Estadística en Medicina . 34 (9): 1511-1526. doi : 10.1002 / sim.6418 . PMID 25630579 .

enlaces externos

Prokhorov, AV (2001) [1994], T 2 -distribución "Hotelling T 2 -distribución" , Enciclopedia de Matemáticas , el ccsme Press

[H1931-1] Hotelling, H. (1931). "La generalización de la ratio de Student" . Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214 / aoms / 1177732979 .

[jonhson-2] Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . 5 . Prentice Hall.

[3] Eric W. Weisstein, MathWorld

[MKB-4] Mardia, KV; Kent, JT; Bibby, JM (1979). Análisis multivariado . Prensa académica. ISBN 978-0-12-471250-8.

[5] "6.5.4.3. T de Hotelling al cuadrado" .

[6] Fin del capítulo 4.2 de Johnson, RA & Wichern, DW (2002)

[7] Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3ª ed.). Wiley. ISBN 978-0-471-00710-4.

[8] Marozzi, M. (2016). "Ensayos multivariados basados en distancias entre puntos con aplicación a la resonancia magnética". Métodos estadísticos en la investigación médica . 25 (6): 2593–2610. doi : 10.1177 / 0962280214529104 . PMID 24740998 .

[9] Marozzi, M. (2015). "Pruebas de multidistancia multivariante para estudios de casos y controles de tamaño de muestra bajo de alta dimensión". Estadística en Medicina . 34 (9): 1511-1526. doi : 10.1002 / sim.6418 . PMID 25630579 .

[1]