En teoría estadística , el campo de la estadística de alta dimensión estudia datos cuya dimensión es mayor de lo que normalmente se considera en el análisis multivariado clásico . El área surgió debido a la aparición de muchos conjuntos de datos modernos en los que la dimensión de los vectores de datos puede ser comparable o incluso mayor que el tamaño de la muestra , de modo que la justificación para el uso de técnicas tradicionales, a menudo basada en argumentos asintóticos con faltaba la dimensión que se mantenía fija a medida que aumentaba el tamaño de la muestra. [1]
Ejemplos de
Estimación de parámetros en modelos lineales
El modelo estadístico más básico para la relación entre un vector covariabley una variable de respuesta es el modelo lineal
dónde es un vector de parámetro desconocido, y es ruido aleatorio con media cero y varianza . Dadas respuestas independientes, con covariables correspondientes , a partir de este modelo, podemos formar el vector de respuesta y matriz de diseño . Cuándoy la matriz de diseño tiene rango de columna completo (es decir, sus columnas son linealmente independientes ), el estimador de mínimos cuadrados ordinario de es
Cuándo , se sabe que. Por lo tanto,es un estimador insesgado de, y el teorema de Gauss-Markov nos dice que es el mejor estimador lineal insesgado .
Sin embargo, el sobreajuste es una preocupación cuando es de magnitud comparable a : la matriz en la definición de puede volverse mal condicionado , con un pequeño valor propio mínimo . En tales circunstanciasserá grande (ya que la traza de una matriz es la suma de sus valores propios). Peor aún, cuando, la matriz es singular .
Es importante señalar que el deterioro en el desempeño de la estimación en dimensiones altas observado en el párrafo anterior no se limita al estimador de mínimos cuadrados ordinarios. De hecho, la inferencia estadística en dimensiones altas es intrínsecamente difícil, un fenómeno conocido como la maldición de la dimensionalidad , y se puede demostrar que ningún estimador puede hacerlo mejor en el peor de los casos sin información adicional (ver Ejemplo 15.10 [1] ). Sin embargo, la situación en las estadísticas de alta dimensión puede no ser desesperada cuando los datos poseen alguna estructura de baja dimensión. Un supuesto común para la regresión lineal de alta dimensión es que el vector de coeficientes de regresión es escaso , en el sentido de que la mayoría de las coordenadas deson cero. Se han propuesto muchos procedimientos estadísticos, incluido el Lasso , para ajustar modelos lineales de alta dimensión bajo tales supuestos de escasez.
Estimación de la matriz de covarianza
Otro ejemplo de un fenómeno estadístico de alta dimensión se puede encontrar en el problema de la estimación de la matriz de covarianza . Supongamos que observamos, que son iid extraídos de alguna distribución media cero con una matriz de covarianza desconocida. Un estimador insesgado natural dees la matriz de covarianza de la muestra
En el entorno de baja dimensión donde aumenta y se mantiene fijo, es un estimador consistente deen cualquier norma matricial . Cuándo crece con , por otro lado, este resultado de coherencia puede no mantenerse. Como ilustración, suponga que cada y . Si fueron a estimar consistentemente , entonces los valores propios de debería acercarse a uno como aumenta. Resulta que este no es el caso en este entorno de alta dimensión. De hecho, los valores propios mayores y menores de concentrarse alrededor y , respectivamente, de acuerdo con la distribución límite derivada por Tracy y Widom , y estos se desvían claramente de los valores propios unitarios de. Más información sobre el comportamiento asintótico de los valores propios depuede obtenerse de la ley Marchenko – Pastur . Desde un punto de vista no asintótico, el valor propio máximo de satisface
para cualquier y todas las opciones de pares de . [1]
Nuevamente, se necesita una estructura adicional de baja dimensión para una estimación exitosa de la matriz de covarianza en dimensiones altas. Ejemplos de tales estructuras incluyen escasez , rango bajo y bandas . Se aplican observaciones similares al estimar una matriz de covarianza inversa (matriz de precisión) .
Historia
Desde una perspectiva aplicada, la investigación en estadísticas de alta dimensión estuvo motivada por la constatación de que los avances en la tecnología informática habían aumentado drásticamente la capacidad de recopilar y almacenar datos , y que las técnicas estadísticas tradicionales como las descritas en los ejemplos anteriores a menudo estaban mal equipadas. para manejar los desafíos resultantes. Los avances teóricos en el área se remontan al notable resultado de Charles Stein en 1956, [2] donde demostró que el estimador habitual de una media normal multivariante era inadmisible con respecto a la pérdida de error al cuadrado en tres o más dimensiones. De hecho, el estimador James-Stein [3] proporcionó la idea de que en entornos de alta dimensión, se puede obtener un mejor rendimiento de la estimación a través de la contracción, lo que reduce la varianza a costa de introducir una pequeña cantidad de sesgo. Esta compensación de sesgo-varianza fue explotada aún más en el contexto de modelos lineales de alta dimensión por Hoerl y Kennard en 1970 con la introducción de la regresión de crestas . [4] Otro impulso importante para el campo lo proporcionó el trabajo de Robert Tibshirani en el Lasso en 1996, que utilizóregularización para lograr la selección simultánea de modelos y la estimación de parámetros en regresión lineal dispersa de alta dimensión. [5] Desde entonces, se ha propuesto un gran número de otros estimadores de contracción para explotar diferentes estructuras de baja dimensión en una amplia gama de problemas estadísticos de alta dimensión.
Temas en estadísticas de alta dimensión
Los siguientes son ejemplos de temas que han recibido considerable atención en la literatura estadística de alta dimensión en los últimos años:
- Modelos lineales en grandes dimensiones. Los modelos lineales son una de las herramientas más utilizadas en estadística y sus aplicaciones. Como tal, la regresión lineal dispersa es uno de los temas mejor estudiados en la investigación estadística de alta dimensión. Sobre la base de trabajos anteriores sobre la regresión de crestas y el Lasso , se han propuesto y estudiado varios otros estimadores de contracción en este y otros problemas relacionados. Incluyen
- El selector de Dantzig, que minimiza la correlación covariable-residual máxima, en lugar de la suma de cuadrados residual como en el Lazo, sujeto a un restricción de los coeficientes. [6]
- Red elástica , que combinaregularización del lazo conregularización de la regresión de crestas para permitir la selección simultánea de covariables altamente correlacionadas con coeficientes de regresión similares. [7]
- El Grupo Lasso , que permite a los grupos predefinidos de covariables para ser seleccionados en forma conjunta. [8]
- El lazo fusionado , que regulariza la diferencia entre coeficientes cercanos cuando los coeficientes de regresión reflejan relaciones espaciales o temporales, para reforzar una estructura constante por partes. [9]
- Selección de variables de alta dimensión . Además de estimar el parámetro subyacente en los modelos de regresión, otro tema importante es buscar identificar los coeficientes distintos de cero, ya que estos corresponden a variables que se necesitan en un modelo final. Cada una de las técnicas enumeradas en el encabezado anterior se puede utilizar para este propósito y, a veces, se combinan con ideas como el submuestreo a través de la selección de estabilidad. [10] [11]
- Estimación matricial de precisión y covarianza de alta dimensión. Estos problemas se presentaron anteriormente; ver también estimación de contracción . Los métodos incluyen estimadores de puesta a punto [12] y la restricciónestimador de minimización. [13]
- Análisis escaso de componentes principales . El Análisis de Componentes Principales es otra técnica que se descompone en grandes dimensiones; más precisamente, en condiciones apropiadas, el vector propio principal de la matriz de covarianza muestral es un estimador inconsistente de su contraparte poblacional cuando la razón del número de variables al número de observaciones está delimitado desde cero. [14] Suponiendo que este vector propio principal es escaso (lo que puede ayudar a la interpretación), se puede restaurar la coherencia. [15]
- Finalización de la matriz . Este tema, que se refiere a la tarea de completar las entradas faltantes de una matriz parcialmente observada, se hizo popular en gran parte debido al premio de Netflix por predecir las calificaciones de los usuarios para las películas.
- Clasificación de alta dimensión. El análisis discriminante lineal no se puede utilizar cuando, porque la matriz de covarianza de la muestra es singular . Se han propuesto enfoques alternativos basados en Bayes ingenuo , [16] selección de características [17] y proyecciones aleatorias . [18]
- Modelos gráficos para datos de alta dimensión . Los modelos gráficos se utilizan para codificar la estructura de dependencia condicional entre diferentes variables. Bajo un supuesto de Gaussianity, el problema se reduce al de estimar una matriz de precisión escasa, discutida anteriormente.
Notas
- ↑ a b c Wainwright, Martin J. (2019). Estadísticas de alta dimensión: un punto de vista no asintótico . Prensa de la Universidad de Cambridge. doi : 10.1017 / 9781108627771 . ISBN 9781108498029.
- ^ Stein, C. (1956), "Inadmisibilidad del estimador habitual para la media de una distribución multivariante", Proc. Tercer Berkeley Symp. Matemáticas. Estadístico. Prob. , 1 , págs. 197–206, MR 0084922 , Zbl 0073.35602
- ^ James, W .; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Cuarto Berkeley Symp. Matemáticas. Estadístico. Prob. , 1 , págs. 361–379, MR 0133191
- ^ Hoerl, Arthur E. y Robert W. Kennard. "Regresión de crestas: estimación sesgada para problemas no ortogonales". Technometrics , vol. 12, no. 1, 1970, págs. 55–67. [www.jstor.org/stable/1267351 JSTOR]. Consultado el 13 de marzo de 2021.
- ^ Tibshirani, Robert (1996). "Contracción de regresión y selección a través del lazo". Revista de la Royal Statistical Society . Serie B (metodológica). Wiley. 58 (1): 267–88. JSTOR 2346178 .
- ^ Candes, Emmanuel ; Tao, Terence (2007). "El selector de Dantzig: estimación estadística cuando p es mucho mayor que n ". Annals of Statistics . 35 (6): 2313–2351. arXiv : matemáticas / 0506081 . doi : 10.1214 / 009053606000001523 . Señor 2382644 . S2CID 88524200 .
- ^ Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 67 (2): 301–20. doi : 10.1111 / j.1467-9868.2005.00503.x . JSTOR 3647580 .
- ^ Yuan, Ming; Lin, Yi (2006). "Selección y estimación de modelos en regresión con variables agrupadas". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 68 (1): 49–67. doi : 10.1111 / j.1467-9868.2005.00532.x . JSTOR 3647556 .
- ^ Tibshirani, Robert, Michael Saunders, Saharon Rosset, Ji Zhu y Keith Knight. 2005. “Esparcimiento y suavidad a través del lazo fusionado”. Revista de la Royal Statistical Society. Serie B (Metodología estadística) 67 (1). Wiley: 91-108. https://www.jstor.org/stable/3647602 .
- ^ Meinshausen, Nicolai; Bühlmann, Peter (2010). "Selección de estabilidad" . Revista de la Royal Statistical Society, Serie B (Metodología estadística) . 72 (4): 417–473. doi : 10.1111 / j.1467-9868.2010.00740.x . ISSN 1467-9868 . S2CID 1231300 . Consultado el 6 de abril de 2021 .
- ^ Shah, Rajen D .; Samworth, Richard J. (2013). "Selección de variable con control de errores: otra mirada a la selección de estabilidad" . Revista de la Royal Statistical Society. Serie B (Metodología estadística) . 75 (1): 55–80. doi : 10.1111 / j.1467-9868.2011.01034.x . ISSN 1369-7412 . JSTOR 23361014 . S2CID 18211609 . Consultado el 6 de abril de 2021 .
- ^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (agosto de 2010). "Tasas óptimas de convergencia para la estimación de matrices de covarianza" . The Annals of Statistics . 38 (4): 2118-2144. arXiv : 1010.3866 . doi : 10.1214 / 09-AOS752 . ISSN 2168-8966 0090-5364, 2168-8966 Comprobar
|issn=
valor ( ayuda ) . S2CID 14038500 . Consultado el 6 de abril de 2021 . - ^ Cai, Tony; Liu, Weidong; Luo, Xi (1 de junio de 2011). "Un restringido ℓ 1 {\ Displaystyle \ ell _ {1}} Enfoque de minimización para la estimación de matriz de precisión dispersa " . Revista de la Asociación Estadounidense de Estadística . 106 (494): 594–607. ArXiv : 1102.2233 . Doi : 10.1198 / jasa.2011.tm10155 . ISSN 0162-1459 . S2CID 15900101. Consultado en 2021- 04-06 .
- ^ Johnstone, Iain M .; Lu, Arthur Yu (1 de junio de 2009). "Sobre consistencia y escasez para el análisis de componentes principales en altas dimensiones" . Revista de la Asociación Estadounidense de Estadística . 104 (486): 682–693. doi : 10.1198 / jasa.2009.0121 . ISSN 0162-1459 . PMC 2898454 . PMID 20617121 .
|access-date=
requiere|url=
( ayuda ) - ^ Vu, Vincent Q .; Lei, Jing (diciembre de 2013). "Estimación del subespacio principal disperso Minimax en altas dimensiones" . The Annals of Statistics . 41 (6): 2905-2947. doi : 10.1214 / 13-AOS1151 . ISSN 2168-8966 0090-5364, 2168-8966 Comprobar
|issn=
valor ( ayuda ) . S2CID 562591 . Consultado el 6 de abril de 2021 . - ^ Bickel, Peter J .; Levina, Elizaveta (2004). “Alguna teoría para la función discriminante lineal de Fisher, ingenua de Bayes, y algunas alternativas cuando hay muchas más variables que observaciones” . Bernoulli . 10 (6): 989–1010. doi : 10.3150 / bj / 1106314847 .
- ^ Fan, Jianqing; Fan, Yingying (diciembre de 2008). "Clasificación de alta dimensión utilizando reglas de independencia recocidas de características" . The Annals of Statistics . 36 (6): 2605–2637. doi : 10.1214 / 07-AOS504 . S2CID 2982392 . Consultado el 6 de abril de 2021 .
- ^ Cannings, Timothy I .; Samworth, Richard J. (2017). "Clasificación de conjuntos de proyección aleatoria" . J. Roy. Estadístico. Soc., Ser. B . 79 (4): 959–1035. doi : 10.1111 / rssb.12228 . S2CID 88520328 .
Referencias
- Christophe Giraud (2015). Introducción a las estadísticas de alta dimensión . Filadelfia: Chapman y Hall / CRC.
- T. Tony Cai, Xiaotong Shen, ed. (2011). Análisis de datos de alta dimensión . Fronteras de la estadística. Singapur: World Scientific.
- Peter Bühlmann y Sara van de Geer (2011). Estadística para datos de alta dimensión: métodos, teoría y aplicaciones . Heidelberg; Nueva York: Springer.
- Martin J. Wainwright (2019). Estadísticas de alta dimensión: un punto de vista no asintótico . Cambridge, Reino Unido: Cambridge University Press.