En estadística , particularmente en las pruebas de hipótesis , la distribución T- cuadrada de Hotelling ( T 2 ), propuesta por Harold Hotelling , [1] es una distribución de probabilidad multivariante que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas de la muestra que son generalizaciones naturales de las estadísticas subyacentes a la de Student t -distribución .
El estadístico t- cuadrado de Hotelling ( t 2 ) es una generalización del estadístico t de Student que se utiliza en la prueba de hipótesis multivariante . [2]
La distribución surge en la estadística multivariante al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución lleva el nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student. [1]
Si el vector tiene distribución multivariante gaussiana con media cero y matriz de covarianza unitaria y es un matriz con matriz de escala unitaria y m grados de libertad con una distribución de Wishart , luego la forma cuadrática tiene una distribución de Hotelling (con parámetros y ): [3]
Además, si una variable aleatoria X tiene la distribución T- cuadrada de Hotelling ,, luego: [1]
dónde es la distribución F con los parámetros p y m − p + 1 .
Dejar ser la covarianza de la muestra :
donde denotamos transponer por un apóstrofe . Se puede demostrar quees una matriz positiva (semi) definida ysigue una distribución p -variable de Wishart con n -1 grados de libertad. [4] La matriz de covarianza muestral de la media dice.
El estadístico t- cuadrado de Hotelling se define entonces como: [5]
que es proporcional a la distancia entre la media muestral y. Debido a esto, uno debe esperar que la estadística asuma valores bajos siy valores altos si son diferentes.
De la distribución ,
dónde es la distribución F con los parámetros p y n - p .
Para calcular un valor p (no relacionado con la variable p aquí), tenga en cuenta que la distribución de equivale a implicar que
Luego, use la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.
Motivación
Dejar denotar una distribución normal p -variable con ubicación y covarianza conocida . Dejar
ser n variables aleatorias independientes distribuidas de forma idéntica (iid) , que pueden representarse comovectores de columna de números reales. Definir
ser la media muestral con covarianza. Se puede demostrar que
dónde es la distribución chi-cuadrado con p grados de libertad. [6]
Prueba |
---|
Prueba - Para mostrar esto, use el hecho de que y derivar la función característica de la variable aleatoria. Como de costumbre, dejadenotar el determinante del argumento, como en. Por definición de función característica, tenemos: [7]
Hay dos exponenciales dentro de la integral, por lo que al multiplicar los exponenciales sumamos los exponentes, obteniendo:
Ahora toma el término fuera de la integral, y multiplicar todo por una identidad , llevando uno de ellos dentro de la integral:
Pero el término dentro de la integral es precisamente la función de densidad de probabilidad de una distribución normal multivariante con matriz de covarianza. y significa , así que al integrar sobre todo , debe ceder según los axiomas de probabilidad . [ aclaración necesaria ] Por lo tanto, terminamos con:
dónde es una matriz de identidad de dimensión . Finalmente, calculando el determinante, obtenemos:
que es la función característica para una distribución chi-cuadrado con grados de libertad. |
Si y , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos
como significa la muestra, y
como las respectivas matrices de covarianza de muestra. Luego
es la estimación de la matriz de covarianza combinada insesgada (una extensión de la varianza combinada ).
Finalmente, el estadístico t cuadrado de dos muestras de Hotelling es
Conceptos relacionados
Puede estar relacionado con la distribución F por [4]
La distribución no nula de esta estadística es la distribución F no central (la razón de una variable aleatoria chi cuadrado no central y una variable aleatoria chi cuadrado central independiente )
con
dónde es el vector de diferencia entre las medias poblacionales.
En el caso de dos variables, la fórmula se simplifica muy bien y permite apreciar cómo la correlación, , entre las variables afecta . Si definimos
y
luego
Por tanto, si las diferencias en las dos filas del vector son del mismo signo, en general, se vuelve más pequeño a medida que se vuelve más positivo. Si las diferencias son de signo opuesto se vuelve más grande a medida que se vuelve más positivo.
Se puede encontrar un caso especial univariado en la prueba t de Welch .
En la literatura se han propuesto pruebas más robustas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. [8] [9]