El análisis de datos funcionales (FDA) es una rama de las estadísticas que analiza datos que brindan información sobre curvas, superficies o cualquier otra cosa que varíe en un continuo. En su forma más general, bajo un marco de la FDA, cada elemento de muestra se considera una función. El continuo físico sobre el que se definen estas funciones suele ser el tiempo, pero también puede ser la ubicación espacial, la longitud de onda, la probabilidad, etc.
Historia
El análisis de datos funcionales tiene sus raíces en el trabajo de Grenander y Karhunen en las décadas de 1940 y 1950. [1] [2] [3] Consideraron la descomposición del proceso estocástico de tiempo continuo integrable en cuadrados en componentes propios, ahora conocido como la descomposición de Karhunen-Loève . Kleffe, Dauxois y Pousse realizaron un análisis riguroso del análisis de componentes principales funcionales en la década de 1970, incluidos los resultados sobre la distribución asintótica de los valores propios. [4] [5] [6] Más recientemente, en las décadas de 1990 y 2000, el campo se ha centrado más en la aplicación y la comprensión de los efectos de los esquemas de observaciones densas y dispersas. Las contribuciones fundamentales en esta era fueron realizadas por James O. Ramsay (quien acuñó el término "análisis de datos funcionales" en este período), Bernard Silverman y John Rice. [7] [8] [9]
Formalismo matemático
Las funciones aleatorias pueden verse como elementos aleatorios que toman valores en un espacio de Hilbert o como un proceso estocástico . El primero es matemáticamente conveniente, mientras que el segundo es algo más adecuado desde una perspectiva aplicada. Estos dos enfoques coinciden si las funciones aleatorias son continuas y se satisface una condición llamada continuidad cuadrática media . Para obtener más información sobre los fundamentos probabilísticos del análisis de datos funcionales, consulte el Capítulo 7. [10]
Variables aleatorias de Hilbert
En el punto de vista del espacio de Hilbert, se considera un -Elemento aleatorio valorado , dónde es un espacio de Hilbert separable, como el espacio de funciones integrables al cuadrado . Bajo la condición de integrabilidad que es finito, se puede definir la media de como el elemento único satisfactorio
Esta formulación es la integral de Pettis pero la media también se puede definir comoel sentido de Bochner . Bajo la condición de integrabilidad quees finito, el operador de covarianza dees un operador lineal que está definido de forma única por la relación
o, en forma tensorial ,. El teorema espectral permite descomponercomo la descomposición de Karhunen-Loève
dónde son vectores propios de, correspondiente a los valores propios no negativos de, en un orden no creciente. Truncar esta serie infinita a un orden finito sustenta el análisis de componentes principales funcionales .
Procesos estocásticos
El punto de vista hilbertiano es matemáticamente conveniente, pero abstracto; las consideraciones anteriores no necesariamente ven como una función en absoluto, ya que las elecciones comunes de como y los espacios de Sobolev consisten en clases de equivalencia, no funciones. Las vistas en perspectiva del proceso estocástico como una colección de variables aleatorias
indexado por el intervalo de la unidad (o más generalmente algún espacio métrico compacto ). Las funciones de media y covarianza se definen puntualmente como
(Si para todos ). Podemos esperar ver como un elemento aleatorio en el espacio funcional de Hilbert . Sin embargo, se requieren condiciones adicionales para que tal búsqueda sea fructífera, ya que si permitimosser ruido blanco gaussiano , es decir es gaussiano estándar e independiente de para cualquier , está claro que no tenemos ninguna esperanza de ver esto como una función cuadrática integrable.
Una condición suficiente conveniente es la continuidad cuadrática media , estipulando que y son funciones continuas. En este caso define un operador de covarianza por
El teorema espectral se aplica a , produciendo pares propios , de modo que en la notación del producto tensorial escribe
Además, dado que es continuo para todos , todos son continuos. El teorema de Mercer luego establece que la función de covarianza admite una descomposición análoga
Finalmente, bajo el supuesto adicional de que tiene caminos muestrales continuos , es decir, que con probabilidad uno, la función es continua, la expansión Karhunen-Loève anterior se mantiene para y la maquinaria espacial de Hilbert se puede aplicar posteriormente. La continuidad de las rutas de la muestra se puede mostrar mediante el teorema de continuidad de Kolmogorov .
Métodos de regresión para datos funcionales
Se han desarrollado varios métodos para datos funcionales simples.
Regresión escalar en función
Un modelo bien estudiado para la regresión escalar en función es una generalización de la regresión lineal . La regresión lineal clásica supone que una variable escalar de interés está relacionado con un -vector covariable dimensional a través de la ecuación
para -vector dimensional de coeficientes y una variable de ruido escalar , dónde denota el producto interior estándar en. Si en cambio observamos una variable funcional, que asumimos que es un elemento del espacio de funciones integrables al cuadrado en el intervalo unitario, podemos considerar el mismo modelo de regresión lineal que el anterior usando elproducto Interno. En otras palabras, consideramos el modelo
para una función de coeficiente integrable al cuadrado y como antes (ver Capítulo 13 [7] ).
Regresión de función en escalar
De manera análoga al modelo de regresión escalar en función, podemos considerar un modelo funcional y -vector covariable dimensional y de nuevo inspirarse en el modelo de regresión lineal habitual modelando como una combinación lineal de funciones. En otras palabras, asumimos que la relación entre y es
para funciones y término de error funcional .
Regresión función sobre función
Los dos modelos de regresión anteriores pueden verse como instancias de un modelo lineal general entre espacios de Hilbert. Asumiendo que y son elementos de los espacios de Hilbert y , el modelo lineal de Hilbertian asume que
para un operador de Hilbert-Schmidt y una variable de ruido tomando valores en . Si y , obtenemos el modelo de regresión escalar en función anterior. Del mismo modo, si y luego obtenemos el modelo de regresión de función en escalar anterior. Si dejamos, obtenemos el modelo de regresión lineal función sobre función que se puede escribir de manera equivalente
para una función de coeficiente integrable al cuadrado y variable de ruido funcional .
Consideraciones prácticas
Mientras que la presentación de los modelos anteriormente asume funciones completamente observados, software está disponible para ajustar los modelos con funciones discretamente-observados en software, tales como R . Los paquetes para R incluyen refund [11] y FDboost [12] que utilizan reformulaciones de los modelos funcionales como modelos aditivos generalizados y modelos potenciados , respectivamente.
Ver también
Otras lecturas
- Ramsay, JO y Silverman, BW (2002) Análisis de datos funcionales aplicados: métodos y estudios de casos , serie Springer en estadística, Nueva York; Londres: Springer, ISBN 0-387-95414-7
- Ramsay, JO y Silverman, BW (2005) Análisis funcional de datos , 2a ed., Nueva York: Springer, ISBN 0-387-40080-X
- James O. Ramsay ; Giles Hooker; Spencer Graves (2009). Análisis de datos funcionales con R y Matlab . Springer Science + Business Media . ISBN 978-0-387-98184-0. Wikidata Q105545530 .
- Hsing, T. y Eubank, R. (2015) Fundamentos teóricos del análisis de datos funcionales, con una introducción a los operadores lineales , series de Wiley en probabilidad y estadística, John Wiley & Sons, Ltd, ISBN 978-0-470-01691-6
- Morris, J. (2015) Regresión funcional, Revisión anual de estadísticas y su aplicación, vol. 2, 321 - 359, https://doi.org/10.1146/annurev-statistics-010814-020413
- Wang y col. (2016) Análisis funcional de datos, Revisión anual de estadísticas y su aplicación, vol. 3, 257-295, https://doi.org/10.1146/annurev-statistics-041715-033624
Referencias
- ^ Grenander, Ulf (1950). "Procesos estocásticos e inferencia estadística" . Arkiv för Matematik . 1 (3): 195–277. doi : 10.1007 / BF02590638 . ISSN 0004-2080 . Consultado el 27 de enero de 2021 .
- ^ Müller, Hans-Georg (2016). "Peter Hall, análisis de datos funcionales y objetos aleatorios" . The Annals of Statistics . 44 (5): 1867–1887. doi : 10.1214 / 16-AOS1492 . ISSN 0090-5364 . Consultado el 27 de enero de 2021 .
- ^ Karhunen, Kari (1946). "Zur Spektraltheorie stochastischer Prozesse" . Annales Academiae Scientiarum Fennicae. Serie AI Mathematica-Physica . 1946 (34): 7. ISSN 0365-2300 . Señor 0023012 . Consultado el 27 de enero de 2021 .
- ^ Kleffe, Jürgen (1973). "Componentes principales de variables aleatorias con valores en un espacio hilbert separable" . Operaciones de Mathematischeforschung und Statistik . 4 (5): 391–406. doi : 10.1080 / 02331887308801137 . ISSN 0047-6277 . Consultado el 27 de enero de 2021 .
- ^ Dauxois, J .; Pousse, A. (1976). Les analysis factorielles en calcul des probabilités et en statistique: essai d'étude synthétique .
- ^ Dauxois, J .; Pousse, A .; Romain, Y. (1982). "Teoría asintótica para el análisis de componentes principales de una función aleatoria vectorial: algunas aplicaciones a la inferencia estadística" . Revista de análisis multivariante . 12 (1): 136-154. doi : 10.1016 / 0047-259X (82) 90088-4 . ISSN 0047-259X . Consultado el 27 de enero de 2021 .
- ^ a b Ramsay, James O .; Silverman, Bernard W. (2005). Análisis funcional de datos (2ª ed.). Saltador. ISBN 0-387-40080-X.
- ^ Rice, John A .; Silverman, BW (1991). "Estimación de la estructura de covarianza y media de forma no paramétrica cuando los datos son curvas" . Revista de la Royal Statistical Society, Serie B (Metodológica) . 53 (1): 233–243. doi : 10.1111 / j.2517-6161.1991.tb01821.x . ISSN 2517-6161 . Consultado el 27 de enero de 2021 .
- ^ Rice, John A .; Wu, Colin O. (2001). "Modelos de efectos mixtos no paramétricos para curvas ruidosas muestreadas de manera desigual" . Biometría . 57 (1): 253–259. doi : 10.1111 / j.0006-341X.2001.00253.x . ISSN 0006-341X . PMID 11252607 . Consultado el 27 de enero de 2021 .
- ^ Hsing, Tailen; Eubank, Randall (18 de mayo de 2015). Fundamentos teóricos del análisis de datos funcionales, con una introducción a los operadores lineales: Hsing / Fundamentos teóricos del análisis de datos funcionales, con una introducción a los operadores lineales . Serie de Wiley en Probabilidad y Estadística. Chichester, Reino Unido: John Wiley & Sons, Ltd. doi : 10.1002 / 9781118762547 . ISBN 978-0-470-01691-6. Consultado el 4 de febrero de 2021 .
- ^ "CRAN - Reembolso del paquete" .
- ^ "CRAN - Paquete FDboost" .