Regresión inversa en rodajas

La regresión inversa en rodajas (SIR) es una herramienta para la reducción de dimensiones en el campo de la estadística multivariante .

En estadística , el análisis de regresión es una forma popular de estudiar la relación entre una variable de respuesta y y su variable explicativa. ${\ Displaystyle {\ underline {x}}}$ , que es un vector p -dimensional. Hay varios enfoques que se incluyen en el término de regresión. Por ejemplo, los métodos paramétricos incluyen regresión lineal múltiple; Las técnicas no paramétricas incluyen el suavizado local .

Con datos de alta dimensión (a medida que crece p ), el número de observaciones necesarias para utilizar métodos de suavizado local aumenta exponencialmente. Reducir el número de dimensiones hace que la operación sea computable. La reducción de dimensión tiene como objetivo mostrar solo las direcciones más importantes de los datos. SIR usa la curva de regresión inversa, ${\ Displaystyle E ({\ subrayado {x}} \, | \, y)}$ realizar un análisis ponderado de componentes principales, con el que se identifican las direcciones reductoras de la dimensión efectiva.

Este artículo primero presenta al lector el tema de la reducción de dimensión y cómo se realiza usando el modelo aquí. Luego hay una breve revisión sobre la regresión inversa, que luego reúne estas piezas.

Modelo

Dada una variable de respuesta ${\ Displaystyle \, Y}$ y un vector (aleatorio) ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ de variables explicativas, SIR se basa en el modelo

{\ Displaystyle Y = f (\ beta _ {1} ^ {\ top} X, \ ldots, \ beta _ {k} ^ {\ top} X, \ varepsilon) \ quad \ quad \ quad \ quad \ quad ( 1)}

dónde ${\ Displaystyle \ beta _ {1}, \ ldots, \ beta _ {k}}$ son vectores de proyección desconocidos. ${\ Displaystyle \, k}$ es un número desconocido (la dimensionalidad del espacio al que intentamos reducir nuestros datos) y, por supuesto, como queremos reducir la dimensión, menor que ${\ Displaystyle \, p}$ . ${\ Displaystyle \; f}$ es una función desconocida en ${\ Displaystyle \ mathbb {R} ^ {k + 1}}$ , ya que solo depende de ${\ Displaystyle \, k}$ argumentos, y ${\ Displaystyle \ varepsilon}$ es el error con ${\ Displaystyle E [\ varepsilon | X] = 0}$ y varianza finita ${\ Displaystyle \ sigma ^ {2}}$ . El modelo describe una solución ideal, donde ${\ Displaystyle \, Y}$ depende de ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ solo a través de un ${\ Displaystyle \, k}$ subespacio dimensional; es decir, se puede reducir la dimensión de las variables explicativas de ${\ Displaystyle \, p}$ a un número menor ${\ Displaystyle \, k}$ sin perder ninguna información.

Una versión equivalente de ${\ Displaystyle \, (1)}$ es: la distribución condicional de ${\ Displaystyle \, Y}$ dado ${\ Displaystyle \, X}$ depende de ${\ Displaystyle \, X}$ solo a través del ${\ Displaystyle \, k}$ vector aleatorio dimensional ${\ Displaystyle (\ beta _ {1} ^ {\ top} X, \ ldots, \ beta _ {k} ^ {\ top} X)}$ . Se supone que este vector reducido es tan informativo como el original. ${\ Displaystyle \, X}$ al explicar ${\ Displaystyle \, Y}$ .

El desconocido ${\ Displaystyle \, \ beta _ {i} 's}$ se denominan direcciones de reducción de dimensión efectiva ( direcciones EDR). El espacio atravesado por estos vectores se denota como espacio de reducción de dimensión efectiva ( espacio EDR).

Fondo relevante de álgebra lineal

Para poder visualizar el modelo, tenga en cuenta una breve revisión de los espacios vectoriales:

Para la definición de un espacio vectorial y algunas propiedades adicionales, me referiré al artículo Álgebra lineal y ortogonalización de Gram-Schmidt o cualquier libro de texto de álgebra lineal y mencionaré solo los hechos más importantes para comprender el modelo.

Como el espacio EDR es un ${\ Displaystyle \, k}$ -subespacio dimensional, necesitamos saber qué es un subespacio. Un subespacio de ${\ Displaystyle \ mathbb {R} ^ {n}}$ se define como un subconjunto ${\ Displaystyle U \ in \ mathbb {R} ^ {n}}$ , si sostiene eso

{\ Displaystyle {\ underline {a}}, {\ underline {b}} \ in U \ Rightarrow {\ underline {a}} + {\ underline {b}} \ in U}

{\ Displaystyle {\ underline {a}} \ in U, \ lambda \ in \ mathbb {R} \ Rightarrow \ lambda {\ underline {a}} \ in U}

Dado ${\ Displaystyle {\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r} \ in \ mathbb {R} ^ {n}}$ , luego ${\ Displaystyle V: = L ({\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r})}$ , el conjunto de todas las combinaciones lineales de estos vectores, se denomina subespacio lineal y, por lo tanto, es un espacio vectorial. Uno dice, los vectores ${\ Displaystyle {\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r}}$ lapso ${\ Displaystyle \, V}$ . Pero los vectores que abarcan un espacio ${\ Displaystyle \, V}$ no son únicos. Esto nos lleva al concepto de base y la dimensión de un espacio vectorial:

Un conjunto ${\ Displaystyle B = \ {{\ underline {b}} _ {1}, \ ldots, {\ underline {b}} _ {r} \}}$ de vectores lineales independientes de un espacio vectorial ${\ Displaystyle \, V}$ se llama base de ${\ Displaystyle \, V}$ , si sostiene eso

{\ Displaystyle V: = L ({\ underline {b}} _ {1}, \ ldots, {\ underline {b}} _ {r})}

La dimensión de ${\ Displaystyle \, V (\ in \ mathbb {R} ^ {n})}$ es igual al número máximo de vectores linealmente independientes en ${\ Displaystyle \, V}$ . Un conjunto de ${\ Displaystyle \, n}$ vectores lineales independientes de ${\ Displaystyle \ mathbb {R} ^ {n}}$ establecer una base de ${\ Displaystyle \ mathbb {R} ^ {n}}$ . La dimensión de un espacio vectorial es única, ya que la base en sí misma no lo es. Varias bases pueden abarcar el mismo espacio. Por supuesto, también los vectores dependientes abarcan un espacio, pero las combinaciones lineales de estos últimos solo pueden dar lugar al conjunto de vectores que se encuentran en una línea recta. Mientras buscamos un ${\ Displaystyle \, k}$ subespacio dimensional, estamos interesados en encontrar ${\ Displaystyle \, k}$ vectores linealmente independientes que abarcan el ${\ Displaystyle \, k}$ subespacio dimensional en el que queremos proyectar nuestros datos.

Maldición de dimensionalidad

La razón por la que queremos reducir la dimensión de los datos se debe a la " maldición de la dimensionalidad " y, por supuesto, a los fines gráficos. La maldición de la dimensionalidad se debe al rápido aumento de volumen que agrega más dimensiones a un espacio (matemático). Por ejemplo, considere 100 observaciones de soporte ${\ Displaystyle [0,1]}$ , que cubren bastante bien el intervalo, y lo comparan con 100 observaciones del correspondiente ${\ Displaystyle 10}$ unidad dimensional hipersquare, que son puntos aislados en un vasto espacio vacío. Es fácil hacer inferencias sobre las propiedades subyacentes de los datos en el primer caso, mientras que en el segundo no lo es.

Regresión inversa

Calcular la curva de regresión inversa (IR) significa en lugar de buscar

${\ Displaystyle \, E [Y | X = x]}$ , que es una curva en ${\ Displaystyle \ mathbb {R} ^ {p}}$

nosotros calculamos

${\ Displaystyle \, E [X | Y = y]}$ , que también es una curva en ${\ Displaystyle \ mathbb {R} ^ {p}}$ , pero que consta de ${\ Displaystyle \, p}$ regresiones unidimensionales.

El centro de la curva de regresión inversa se encuentra en ${\ Displaystyle \, E [E [X | Y]] = E [X]}$ . Por lo tanto, la curva de regresión inversa centrada es

${\ Displaystyle \, E [X | Y = y] -E [X]}$

el cual es un ${\ Displaystyle \, p}$ curva dimensional en ${\ Displaystyle \ mathbb {R} ^ {p}}$ . En lo que sigue consideraremos esta curva de regresión inversa centrada y veremos que se encuentra en una ${\ Displaystyle \, k}$ -subespacio dimensional atravesado por ${\ Displaystyle \, \ Sigma _ {xx} \ beta _ {i} \, 's}$ .

Pero antes de ver que esto es cierto, veremos cómo se calcula la curva de regresión inversa dentro del algoritmo SIR, que se introducirá en detalle más adelante. Lo que viene es la parte "cortada" de SIR. Estimamos la curva de regresión inversa dividiendo el rango de ${\ Displaystyle \, Y}$ dentro ${\ Displaystyle \, H}$ Intervalos no superpuestos (cortes), para luego calcular las medias muestrales. ${\ Displaystyle \, {\ hat {m}} _ {h}}$ de cada rebanada. Estas medias muestrales se utilizan como una estimación bruta de la curva IR , denotada como ${\ Displaystyle \, m (y)}$ . Hay varias formas de definir los cortes, ya sea de una manera que en cada corte hay tantas observaciones, o definimos un rango fijo para cada corte, de modo que luego obtengamos diferentes proporciones del ${\ Displaystyle \, y_ {i} \, 's}$ que caen en cada rebanada.

Regresión inversa versus reducción de dimensión

Como se acaba de mencionar, la curva de regresión inversa centrada se encuentra en una ${\ Displaystyle \, k}$ -subespacio dimensional atravesado por ${\ Displaystyle \, \ Sigma _ {xx} \ beta _ {i} \, 's}$ (y por lo tanto también la estimación bruta que calculamos). Esta es la conexión entre nuestro modelo y la regresión inversa. Veremos que esto es cierto, con una sola condición en la distribución del diseño que debe cumplirse. Esta condición es que:

{\ Displaystyle \ forall \, {\ underline {b}} \ in \ mathbb {R} ^ {p}: \, E [b ^ {\ top} X | \ beta _ {1} ^ {\ top} X = \ beta _ {1} ^ {\ top} x, \ ldots, \ beta _ {k} ^ {\ top} X = \ beta _ {k} ^ {\ top} x) = c_ {0} + \ suma _ {i = 1} ^ {k} c_ {i} \ beta _ {i} ^ {\ top} x}

Es decir, la expectativa condicional es lineal en ${\ Displaystyle \ beta _ {1} X, \ ldots, \ beta _ {k} X}$ , es decir, para algunas constantes ${\ Displaystyle c_ {0}, \ ldots, c_ {K}}$ . Esta condición se satisface cuando la distribución de ${\ Displaystyle \, X}$ es elípticamente simétrico (por ejemplo, la distribución normal). Este parece ser un requisito bastante fuerte. Podría ayudar, por ejemplo, a examinar más de cerca la distribución de los datos, de modo que se puedan eliminar los valores atípicos o se puedan separar los conglomerados antes del análisis.

Dada esta condición y ${\ Displaystyle \, (1)}$ , es cierto que la curva de regresión inversa centrada ${\ Displaystyle \, E [X | Y = y] -E [X]}$ está contenido en el subespacio lineal abarcado por ${\ Displaystyle \, \ Sigma _ {xx} \ beta _ {k} (k = 1, \ ldots, K)}$ , dónde ${\ Displaystyle \, \ Sigma _ {xx} = Cov (X)}$ . La prueba la proporcionan Duan y Li en Journal of the American Statistical Association (1991).

Estimación de las direcciones EDR

Después de haber examinado todas las propiedades teóricas, nuestro objetivo ahora es estimar las direcciones EDR. Para ese propósito, llevamos a cabo un análisis (ponderado) de componentes principales para las medias muestrales. ${\ Displaystyle \, {\ hat {m}} _ {h} \, 's}$ , después de haber estandarizado ${\ Displaystyle \, X}$ a ${\ Displaystyle \, Z = \ Sigma _ {xx} ^ {- 1/2} \ {XE (X) \}}$ . De acuerdo con el teorema anterior, la curva IR ${\ Displaystyle \, m_ {1} (y) = E [Z | Y = y]}$ yace en el espacio atravesado por ${\ Displaystyle \, (\ eta _ {1}, \ ldots, \ eta _ {k})}$ , dónde ${\ Displaystyle \, \ eta _ {i} = \ Sigma _ {xx} ^ {1/2} \ beta _ {i}}$ . (Debido a la terminología introducida antes, el ${\ Displaystyle \, \ eta _ {i} \, 's}$ se denominan direcciones reductoras de dimensión efectiva estandarizada .) Como consecuencia, la matriz de covarianza ${\ Displaystyle \, cov [E [Z | Y]]}$ está degenerado en cualquier dirección ortogonal a la ${\ Displaystyle \, \ eta _ {i} \, 's}$ . Por lo tanto, los vectores propios ${\ Displaystyle \, \ eta _ {k} (k = 1, \ ldots, K)}$ asociado con el ${\ Displaystyle \, K}$ los valores propios más grandes son las direcciones EDR estandarizadas.

Volver a PCA. Es decir, calculamos la estimación para ${\ Displaystyle \, Cov \ {m_ {1} (y) \}}$ :

{\ Displaystyle {\ hat {V}} = n ^ {- 1} \ sum _ {i = 1} ^ {S} n_ {s} {\ bar {z}} _ {s} {\ bar {z} } _ {s} ^ {\ top}}

e identificar los valores propios ${\ Displaystyle {\ hat {\ lambda}} _ {i}}$ y los autovectores ${\ Displaystyle {\ hat {\ eta}} _ {i}}$ de ${\ Displaystyle {\ hat {V}}}$ , que son las direcciones EDR estandarizadas. (Para obtener más detalles sobre eso, consulte la siguiente sección: Algoritmo.) Recuerde que la idea principal de la transformación de PC es encontrar las proyecciones más informativas que maximicen la varianza.

Tenga en cuenta que en algunas situaciones SIR no encuentra las direcciones EDR. Se puede superar esta dificultad considerando la covarianza condicional ${\ Displaystyle \, Cov (X | Y)}$ . El principio sigue siendo el mismo que antes, pero se investiga la curva IR con la covarianza condicional en lugar de la expectativa condicional. Para obtener más detalles y un ejemplo de dónde falla el SIR, consulte Härdle y Simar (2003).

Algoritmo

El algoritmo para estimar las direcciones EDR a través de SIR es el siguiente. Está tomado del libro de texto Applied Multivariate Statistical Analysis (Härdle y Simar 2003).

1. Deja ${\ Displaystyle \, \ Sigma _ {xx}}$ ser la matriz de covarianza de ${\ Displaystyle \, X}$ . Estandarizar ${\ Displaystyle \, X}$ a

{\ Displaystyle \, Z = \ Sigma _ {xx} ^ {- 1/2} \ {XE (X) \}}

(Por lo tanto, podemos reescribir ${\ Displaystyle \, (1)}$ como

{\ Displaystyle Y = f (\ eta _ {1} ^ {\ top} Z, \ ldots, \ eta _ {k} ^ {\ top} Z, \ varepsilon)}

dónde ${\ Displaystyle \, \ eta _ {k} = \ beta _ {k} \ Sigma _ {xx} ^ {1/2} \ quad \ forall \; k}$ Para la variable estandarizada Z, sostiene que ${\ Displaystyle \, E [Z] = 0}$ y ${\ Displaystyle \, Cov (Z) = I}$ .)

2. Divida el rango de ${\ Displaystyle \, y_ {i}}$ dentro ${\ Displaystyle \, S}$ rebanadas que no se superponen ${\ Displaystyle \, H_ {s} (s = 1, \ ldots, S). \; n_ {s}}$ es el número de observaciones dentro de cada corte y ${\ Displaystyle \, I_ {H_ {s}}}$ la función de indicador para este segmento:

{\ Displaystyle n_ {s} = \ sum _ {i = 1} ^ {n} I_ {H_ {s}} (y_ {i})}

3. Calcule la media de ${\ Displaystyle \, z_ {i}}$ en todos los cortes, que es una estimación burda ${\ Displaystyle \, {\ hat {m}} _ {1}}$ de la curva de regresión inversa ${\ Displaystyle \, m_ {1}}$ :

{\ Displaystyle \, {\ bar {z}} _ {s} = n_ {s} ^ {- 1} \ sum _ {i = 1} ^ {n} z_ {i} I_ {H_ {s}} ( y_ {i})}

4. Calcule la estimación de ${\ Displaystyle \, Cov \ {m_ {1} (y) \}}$ :

{\ Displaystyle \, {\ hat {V}} = n ^ {- 1} \ sum _ {i = 1} ^ {S} n_ {s} {\ bar {z}} _ {s} {\ bar { z}} _ {s} ^ {\ top}}

5. Identificar los valores propios ${\ Displaystyle \, {\ hat {\ lambda}} _ {i}}$ y los autovectores ${\ Displaystyle \, {\ hat {\ eta}} _ {i}}$ de ${\ Displaystyle \, {\ hat {V}}}$ , que son las direcciones EDR estandarizadas.

6. Transforme las direcciones EDR estandarizadas de nuevo a la escala original. Las estimaciones para las direcciones EDR vienen dadas por:

{\ Displaystyle \, {\ hat {\ beta}} _ {i} = {\ hat {\ Sigma}} _ {xx} ^ {- 1/2} {\ hat {\ eta}} _ {i}}

(que no son necesariamente ortogonales)

Para ver ejemplos, consulte el libro de Härdle y Simar (2003).

Referencias

Li, KC. (1991) "Regresión inversa en rodajas para la reducción de dimensiones", Revista de la Asociación Estadounidense de Estadística , 86, 316-327 Jstor
Cook, RD y Sanford Weisberg, S. (1991) "Regresión inversa en rodajas para reducción de dimensiones: comentario", Revista de la Asociación Estadounidense de Estadística , 86, 328–332 Jstor
Härdle, W. y Simar, L. (2003) Análisis estadístico multivariado aplicado , Springer Verlag. ISBN 3-540-03079-4
Kurzfassung zur Vorlesung Mathematik II im Sommersemester 2005, A. Brandt