La regresión inversa en rodajas (SIR) es una herramienta para la reducción de dimensiones en el campo de la estadística multivariante .
En estadística , el análisis de regresión es una forma popular de estudiar la relación entre una variable de respuesta y y su variable explicativa., que es un vector p -dimensional. Hay varios enfoques que se incluyen en el término de regresión. Por ejemplo, los métodos paramétricos incluyen regresión lineal múltiple; Las técnicas no paramétricas incluyen el suavizado local .
Con datos de alta dimensión (a medida que crece p ), el número de observaciones necesarias para utilizar métodos de suavizado local aumenta exponencialmente. Reducir el número de dimensiones hace que la operación sea computable. La reducción de dimensión tiene como objetivo mostrar solo las direcciones más importantes de los datos. SIR usa la curva de regresión inversa, realizar un análisis ponderado de componentes principales, con el que se identifican las direcciones reductoras de la dimensión efectiva.
Este artículo primero presenta al lector el tema de la reducción de dimensión y cómo se realiza usando el modelo aquí. Luego hay una breve revisión sobre la regresión inversa, que luego reúne estas piezas.
Modelo
Dada una variable de respuesta y un vector (aleatorio) de variables explicativas, SIR se basa en el modelo
dónde son vectores de proyección desconocidos. es un número desconocido (la dimensionalidad del espacio al que intentamos reducir nuestros datos) y, por supuesto, como queremos reducir la dimensión, menor que . es una función desconocida en , ya que solo depende de argumentos, y es el error con y varianza finita . El modelo describe una solución ideal, donde depende de solo a través de un subespacio dimensional; es decir, se puede reducir la dimensión de las variables explicativas de a un número menor sin perder ninguna información.
Una versión equivalente de es: la distribución condicional de dado depende de solo a través del vector aleatorio dimensional . Se supone que este vector reducido es tan informativo como el original. al explicar .
El desconocido se denominan direcciones de reducción de dimensión efectiva ( direcciones EDR). El espacio atravesado por estos vectores se denota como espacio de reducción de dimensión efectiva ( espacio EDR).
Fondo relevante de álgebra lineal
Para poder visualizar el modelo, tenga en cuenta una breve revisión de los espacios vectoriales:
Para la definición de un espacio vectorial y algunas propiedades adicionales, me referiré al artículo Álgebra lineal y ortogonalización de Gram-Schmidt o cualquier libro de texto de álgebra lineal y mencionaré solo los hechos más importantes para comprender el modelo.
Como el espacio EDR es un -subespacio dimensional, necesitamos saber qué es un subespacio. Un subespacio de se define como un subconjunto , si sostiene eso
Dado , luego , el conjunto de todas las combinaciones lineales de estos vectores, se denomina subespacio lineal y, por lo tanto, es un espacio vectorial. Uno dice, los vectores lapso . Pero los vectores que abarcan un espaciono son únicos. Esto nos lleva al concepto de base y la dimensión de un espacio vectorial:
Un conjunto de vectores lineales independientes de un espacio vectorial se llama base de, si sostiene eso
La dimensión de es igual al número máximo de vectores linealmente independientes en . Un conjunto de vectores lineales independientes de establecer una base de . La dimensión de un espacio vectorial es única, ya que la base en sí misma no lo es. Varias bases pueden abarcar el mismo espacio. Por supuesto, también los vectores dependientes abarcan un espacio, pero las combinaciones lineales de estos últimos solo pueden dar lugar al conjunto de vectores que se encuentran en una línea recta. Mientras buscamos unsubespacio dimensional, estamos interesados en encontrar vectores linealmente independientes que abarcan el subespacio dimensional en el que queremos proyectar nuestros datos.
Maldición de dimensionalidad
La razón por la que queremos reducir la dimensión de los datos se debe a la " maldición de la dimensionalidad " y, por supuesto, a los fines gráficos. La maldición de la dimensionalidad se debe al rápido aumento de volumen que agrega más dimensiones a un espacio (matemático). Por ejemplo, considere 100 observaciones de soporte, que cubren bastante bien el intervalo, y lo comparan con 100 observaciones del correspondiente unidad dimensional hipersquare, que son puntos aislados en un vasto espacio vacío. Es fácil hacer inferencias sobre las propiedades subyacentes de los datos en el primer caso, mientras que en el segundo no lo es.
Regresión inversa
Calcular la curva de regresión inversa (IR) significa en lugar de buscar
- , que es una curva en
nosotros calculamos
- , que también es una curva en , pero que consta de regresiones unidimensionales.
El centro de la curva de regresión inversa se encuentra en . Por lo tanto, la curva de regresión inversa centrada es
el cual es un curva dimensional en . En lo que sigue consideraremos esta curva de regresión inversa centrada y veremos que se encuentra en una-subespacio dimensional atravesado por .
Pero antes de ver que esto es cierto, veremos cómo se calcula la curva de regresión inversa dentro del algoritmo SIR, que se introducirá en detalle más adelante. Lo que viene es la parte "cortada" de SIR. Estimamos la curva de regresión inversa dividiendo el rango de dentro Intervalos no superpuestos (cortes), para luego calcular las medias muestrales. de cada rebanada. Estas medias muestrales se utilizan como una estimación bruta de la curva IR , denotada como. Hay varias formas de definir los cortes, ya sea de una manera que en cada corte hay tantas observaciones, o definimos un rango fijo para cada corte, de modo que luego obtengamos diferentes proporciones del que caen en cada rebanada.
Regresión inversa versus reducción de dimensión
Como se acaba de mencionar, la curva de regresión inversa centrada se encuentra en una -subespacio dimensional atravesado por (y por lo tanto también la estimación bruta que calculamos). Esta es la conexión entre nuestro modelo y la regresión inversa. Veremos que esto es cierto, con una sola condición en la distribución del diseño que debe cumplirse. Esta condición es que:
Es decir, la expectativa condicional es lineal en , es decir, para algunas constantes . Esta condición se satisface cuando la distribución dees elípticamente simétrico (por ejemplo, la distribución normal). Este parece ser un requisito bastante fuerte. Podría ayudar, por ejemplo, a examinar más de cerca la distribución de los datos, de modo que se puedan eliminar los valores atípicos o se puedan separar los conglomerados antes del análisis.
Dada esta condición y , es cierto que la curva de regresión inversa centrada está contenido en el subespacio lineal abarcado por , dónde . La prueba la proporcionan Duan y Li en Journal of the American Statistical Association (1991).
Estimación de las direcciones EDR
Después de haber examinado todas las propiedades teóricas, nuestro objetivo ahora es estimar las direcciones EDR. Para ese propósito, llevamos a cabo un análisis (ponderado) de componentes principales para las medias muestrales., después de haber estandarizado a . De acuerdo con el teorema anterior, la curva IR yace en el espacio atravesado por , dónde . (Debido a la terminología introducida antes, else denominan direcciones reductoras de dimensión efectiva estandarizada .) Como consecuencia, la matriz de covarianza está degenerado en cualquier dirección ortogonal a la . Por lo tanto, los vectores propios asociado con el los valores propios más grandes son las direcciones EDR estandarizadas.
Volver a PCA. Es decir, calculamos la estimación para:
e identificar los valores propios y los autovectores de , que son las direcciones EDR estandarizadas. (Para obtener más detalles sobre eso, consulte la siguiente sección: Algoritmo.) Recuerde que la idea principal de la transformación de PC es encontrar las proyecciones más informativas que maximicen la varianza.
Tenga en cuenta que en algunas situaciones SIR no encuentra las direcciones EDR. Se puede superar esta dificultad considerando la covarianza condicional. El principio sigue siendo el mismo que antes, pero se investiga la curva IR con la covarianza condicional en lugar de la expectativa condicional. Para obtener más detalles y un ejemplo de dónde falla el SIR, consulte Härdle y Simar (2003).
Algoritmo
El algoritmo para estimar las direcciones EDR a través de SIR es el siguiente. Está tomado del libro de texto Applied Multivariate Statistical Analysis (Härdle y Simar 2003).
1. Deja ser la matriz de covarianza de . Estandarizar a
(Por lo tanto, podemos reescribir como
dónde Para la variable estandarizada Z, sostiene que y .)
2. Divida el rango de dentro rebanadas que no se superponen es el número de observaciones dentro de cada corte y la función de indicador para este segmento:
3. Calcule la media de en todos los cortes, que es una estimación burda de la curva de regresión inversa :
4. Calcule la estimación de:
5. Identificar los valores propios y los autovectores de , que son las direcciones EDR estandarizadas.
6. Transforme las direcciones EDR estandarizadas de nuevo a la escala original. Las estimaciones para las direcciones EDR vienen dadas por:
(que no son necesariamente ortogonales)
Para ver ejemplos, consulte el libro de Härdle y Simar (2003).
Referencias
- Li, KC. (1991) "Regresión inversa en rodajas para la reducción de dimensiones", Revista de la Asociación Estadounidense de Estadística , 86, 316-327 Jstor
- Cook, RD y Sanford Weisberg, S. (1991) "Regresión inversa en rodajas para reducción de dimensiones: comentario", Revista de la Asociación Estadounidense de Estadística , 86, 328–332 Jstor
- Härdle, W. y Simar, L. (2003) Análisis estadístico multivariado aplicado , Springer Verlag. ISBN 3-540-03079-4
- Kurzfassung zur Vorlesung Mathematik II im Sommersemester 2005, A. Brandt