Análisis de componentes principales funcionales

El análisis de componentes principales funcionales ( FPCA ) es un método estadístico para investigar los modos dominantes de variación de los datos funcionales . Con este método, se representa una función aleatoria en la base propia, que es una base ortonormal del espacio de Hilbert L ² que consta de las funciones propias del operador de autocovarianza . FPCA representa datos funcionales de la manera más parsimoniosa, en el sentido de que cuando se usa un número fijo de funciones básicas, la base de la función propia explica más variación que cualquier otra expansión de la base. FPCA se puede aplicar para representar funciones aleatorias, ^[1] o en regresión funcional ^[2] y clasificación.

Formulación

Para un proceso estocástico integrable en cuadrado X ( t ), t ∈ 𝒯, sea

{\ Displaystyle \ mu (t) = {\ text {E}} (X (t))}

y

{\ Displaystyle G (s, t) = {\ text {Cov}} (X (s), X (t)) = \ sum _ {k = 1} ^ {\ infty} \ lambda _ {k} \ varphi _ {k} (s) \ varphi _ {k} (t),}

dónde ${\ Displaystyle \ lambda _ {1} \ geq \ lambda _ {2} \ geq ... \ geq 0}$ son los valores propios y ${\ Displaystyle \ varphi _ {1}}$ , ${\ Displaystyle \ varphi _ {2}}$ , ... son las funciones propias ortonormales del operador lineal de Hilbert-Schmidt

{\ Displaystyle G: L ^ {2} ({\ mathcal {T}}) \ rightarrow L ^ {2} ({\ mathcal {T}}), \, G (f) = \ int _ {\ mathcal { T}} G ​​(s, t) f (s) ds.}

Por el teorema de Karhunen-Loève , se puede expresar el proceso centrado en la base propia,

{\ Displaystyle X (t) - \ mu (t) = \ sum _ {k = 1} ^ {\ infty} \ xi _ {k} \ varphi _ {k} (t),}

dónde

{\ Displaystyle \ xi _ {k} = \ int _ {\ mathcal {T}} (X (t) - \ mu (t)) \ varphi _ {k} (t) dt}

es el componente principal asociado con la k -ésima función propia ${\ Displaystyle \ varphi _ {k}}$ , con las propiedades

{\ displaystyle {\ text {E}} (\ xi _ {k}) = 0, {\ text {Var}} (\ xi _ {k}) = \ lambda _ {k} {\ text {y}} {\ text {E}} (\ xi _ {k} \ xi _ {l}) = 0 {\ text {para}} k \ neq l.}

El proceso centrado es entonces equivalente a ξ ₁ , ξ ₂ , .... Una suposición común es que X se puede representar solo por las primeras funciones propias (después de restar la función media), es decir

{\ Displaystyle X (t) \ approx X_ {m} (t) = \ mu (t) + \ sum _ {k = 1} ^ {m} \ xi _ {k} \ varphi _ {k} (t) ,}

dónde

{\ Displaystyle \ mathrm {E} \ left (\ int _ {\ mathcal {T}} \ left (X (t) -X_ {m} (t) \ right) ^ {2} dt \ right) = \ sum _ {j> m} \ lambda _ {j} \ rightarrow 0 {\ text {as}} m \ rightarrow \ infty.}

Interpretación de funciones propias

La primera función propia ${\ Displaystyle \ varphi _ {1}}$ representa el modo dominante de la variación de X .

{\ Displaystyle \ varphi _ {1} = {\ underset {\ Vert \ mathbf {\ varphi} \ Vert = 1} {\ operatorname {arg \, max}}} \ left \ {\ operatorname {Var} (\ int _ {\ mathcal {T}} (X (t) - \ mu (t)) \ varphi (t) dt) \ right \},}

dónde

{\ Displaystyle \ Vert \ mathbf {\ varphi} \ Vert = \ left (\ int _ {\ mathcal {T}} \ varphi (t) ^ {2} dt \ right) ^ {\ frac {1} {2} }.}

La k -ésima función propia ${\ Displaystyle \ varphi _ {k}}$ es el modo de variación dominante ortogonal a ${\ Displaystyle \ varphi _ {1}}$ , ${\ Displaystyle \ varphi _ {2}}$ , ..., ${\ Displaystyle \ varphi _ {k-1}}$ ,

{\ Displaystyle \ varphi _ {k} = {\ underset {\ Vert \ mathbf {\ varphi} \ Vert = 1, \ langle \ varphi, \ varphi _ {j} \ rangle = 0 {\ text {for}} j = 1, \ dots, k-1} {\ operatorname {arg \, max}}} \ left \ {\ operatorname {Var} (\ int _ {\ mathcal {T}} (X (t) - \ mu ( t)) \ varphi (t) dt) \ right \},}

dónde

{\ Displaystyle \ langle \ varphi, \ varphi _ {j} \ rangle = \ int _ {\ mathcal {T}} \ varphi (t) \ varphi _ {j} (t) dt, {\ text {for}} j = 1, \ puntos, k-1.}

Estimacion

Sea Y _ij = X _i ( t _ij ) + ε _ij las observaciones realizadas en ubicaciones (generalmente puntos de tiempo) t _ij , donde X _i es la i -ésima realización del proceso estocástico suave que genera los datos, y ε _ij son Variable aleatoria normal distribuida de forma idéntica e independiente con media 0 y varianza σ ² , j = 1, 2, ..., m _i . Para obtener una estimación de la función media μ ( t _ij ), si se dispone de una muestra densa en una cuadrícula regular, se puede tomar el promedio en cada ubicación t _ij :

{\ Displaystyle {\ hat {\ mu}} (t_ {ij}) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} Y_ {ij}.}

Si las observaciones son escasas, es necesario suavizar los datos agrupados de todas las observaciones para obtener la estimación media, ^[3] utilizando métodos de suavizado como el suavizado lineal local o el suavizado spline .

Entonces la estimación de la función de covarianza ${\ Displaystyle {\ hat {G}} (s, t)}$ se obtiene promediando (en el caso denso) o suavizando (en el caso escaso) las covarianzas brutas

{\ Displaystyle G_ {i} (t_ {ij}, t_ {il}) = (Y_ {ij} - {\ hat {\ mu}} (t_ {ij})) (Y_ {il} - {\ hat { \ mu}} (t_ {il})), j \ neq l, i = 1, \ puntos, n.}

Tenga en cuenta que los elementos diagonales de G _i deben eliminarse porque contienen un error de medición. ^[4]

En la práctica, ${\ Displaystyle {\ hat {G}} (s, t)}$ se discretiza en una cuadrícula densa con espacios iguales, y la estimación de los valores propios λ _k y los vectores propios v _k se lleva a cabo mediante álgebra lineal numérica. ^[5] Las estimaciones de la función propia ${\ Displaystyle {\ hat {\ varphi}} _ {k}}$ luego se puede obtener interpolando los autovectores ${\ Displaystyle {\ hat {v_ {k}}}.}$

La covarianza ajustada debe ser positiva definida y simétrica y luego se obtiene como

{\ Displaystyle {\ tilde {G}} (s, t) = \ sum _ {\ lambda _ {k}> 0} {\ hat {\ lambda}} _ {k} {\ hat {\ varphi}} _ {k} (s) {\ hat {\ varphi}} _ {k} (t).}

Dejar ${\ Displaystyle {\ hat {V}} (t)}$ ser una versión suavizada de los elementos diagonales G _i ( t _ij , t _ij ) de las matrices de covarianza sin procesar. Luego ${\ Displaystyle {\ hat {V}} (t)}$ es una estimación de ( G ( t , t ) + σ ² ). Se obtiene una estimación de σ ² por

{\ Displaystyle {\ hat {\ sigma}} ^ {2} = {\ frac {2} {| {\ mathcal {T}} |}} \ int _ {\ mathcal {T}} ({\ hat {V }} (t) - {\ tilde {G}} (t, t)) dt,}

Si

{\ displaystyle {\ hat {\ sigma}} ^ {2}> 0;}

de lo contrario

{\ displaystyle {\ hat {\ sigma}} ^ {2} = 0.}

Si las observaciones X _ij , j = 1, 2, ..., m _i son densas en 𝒯, entonces el k -ésimo FPC ξ _k puede estimarse mediante integración numérica , implementando

{\ displaystyle {\ hat {\ xi}} _ {k} = \ langle X - {\ hat {\ mu}}, {\ hat {\ varphi}} _ {k} \ rangle.}

Sin embargo, si las observaciones son escasas, este método no funcionará. En su lugar, se pueden utilizar los mejores predictores lineales insesgados , ^[3] produciendo

{\ Displaystyle {\ hat {\ xi}} _ {k} = {\ hat {\ lambda}} _ {k} {\ hat {\ varphi}} _ {k} ^ {T} {\ hat {\ Sigma }} _ {Y_ {i}} ^ {- 1} (Y_ {i} - {\ hat {\ mu}}),}

dónde

{\ displaystyle {\ hat {\ Sigma}} _ {Y_ {i}} = {\ tilde {G}} + {\ hat {\ sigma}} ^ {2} \ mathbf {I} _ {m_ {i} }}

,

y ${\ Displaystyle {\ tilde {G}}}$ se evalúa en los puntos de la cuadrícula generados por t _ij , j = 1, 2, ..., m _i . El algoritmo, PACE, tiene un paquete Matlab disponible ^[6] y un paquete R ^[7]

Se han investigado las propiedades de convergencia asintótica de estas estimaciones. ^[3]^[8]^[9]

Aplicaciones

FPCA se puede aplicar para mostrar los modos de variación funcional , ^[1]^[10] en diagramas de dispersión de FPC entre sí o de respuestas contra FPC, para modelar datos longitudinales escasos , ^[3] o para regresión funcional y clasificación, por ejemplo, funcional regresión lineal. ^[2] Se pueden utilizar gráficas de pantalla y otros métodos para determinar el número de componentes incluidos. El análisis de componentes principales funcionales tiene diversas aplicaciones en el análisis de series de tiempo. En la actualidad, esta metodología se está adaptando de las técnicas tradicionales multivariadas para realizar análisis de conjuntos de datos financieros como índices bursátiles, generación de gráficos de volatilidad implícita, etc. ^[11] Un muy buen ejemplo de las ventajas del enfoque funcional es el FPCA suavizado (SPCA), propuesto por Silverman [1996] y estudiado por Pezzulli y Silverman [1993] que permite la combinación directa del análisis FPCA junto con un suavizado general enfoque que hace posible el uso de la información almacenada en algunos operadores diferenciales lineales. Una aplicación importante del FPCA ya conocida del PCA multivariante, está motivada por la descomposición de Karhunen-Loève de una función aleatoria al conjunto de parámetros funcionales - funciones factoriales y cargas factoriales correspondientes (variables aleatorias escalares). Esta aplicación es mucho más importante que en el PCA multivariado estándar ya que la distribución de la función aleatoria es en general demasiado compleja para ser analizada directamente y la descomposición de Karhunen-Loève reduce el análisis a la interpretación de las funciones factoriales y la distribución de escalares aleatorios. variables. Debido a la reducción de la dimensionalidad, así como a su precisión para representar datos, existe un amplio margen para futuros desarrollos de técnicas de componentes principales funcionales en el campo financiero.

Conexión con el análisis de componentes principales

La siguiente tabla muestra una comparación de varios elementos del análisis de componentes principales (PCA) y FPCA. Ambos métodos se utilizan para la reducción de dimensionalidad . En las implementaciones, FPCA usa un paso de PCA.

Sin embargo, PCA y FPCA difieren en algunos aspectos críticos. Primero, el orden de los datos multivariados en PCA se puede permutar , lo que no tiene ningún efecto en el análisis, pero el orden de los datos funcionales lleva información de tiempo o espacio y no se puede reordenar. En segundo lugar, el espaciamiento de las observaciones en la FPCA es importante, mientras que no hay un problema de espaciamiento en el PCA. En tercer lugar, el PCA normal no funciona para datos de alta dimensión sin regularización , mientras que FPCA tiene una regularización incorporada debido a la fluidez de los datos funcionales y el truncamiento a un número finito de componentes incluidos.

Elemento	En PCA	En FPCA
Datos	${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$	${\ Displaystyle X \ in L ^ {2} ({\ mathcal {T}})}$
Dimensión	${\ Displaystyle p <\ infty}$	${\ Displaystyle \ infty}$
Significar	${\ Displaystyle \ mu = {\ text {E}} (X)}$	${\ Displaystyle \ mu (t) = {\ text {E}} (X (t))}$
Covarianza	${\ Displaystyle {\ text {Cov}} (X) = \ Sigma _ {p \ times p}}$	${\ Displaystyle {\ text {Cov}} (X (s), X (t)) = G (s, t)}$
Autovalores	${\ Displaystyle \ lambda _ {1}, \ lambda _ {2}, \ dots, \ lambda _ {p}}$	${\ Displaystyle \ lambda _ {1}, \ lambda _ {2}, \ dots}$
Vectores propios / funciones propias	${\ Displaystyle \ mathbf {v} _ {1}, \ mathbf {v} _ {2}, \ dots, \ mathbf {v} _ {p}}$	${\ Displaystyle \ varphi _ {1} (t), \ varphi _ {2} (t), \ dots}$
Producto Interno	${\ Displaystyle \ langle \ mathbf {X}, \ mathbf {Y} \ rangle = \ sum _ {k = 1} ^ {p} X_ {k} Y_ {k}}$	${\ Displaystyle \ langle X, Y \ rangle = \ int _ {\ mathcal {T}} X (t) Y (t) dt}$
Componentes principales	${\ Displaystyle z_ {k} = \ langle X- \ mu, \ mathbf {v_ {k}} \ rangle, k = 1,2, \ dots, p}$	${\ Displaystyle \ xi _ {k} = \ langle X- \ mu, \ varphi _ {k} \ rangle, k = 1,2, \ dots}$

Ver también

Análisis de componentes principales

Notas

^ ^a ^b Jones, MC; Rice, JA (1992). "Visualización de las características importantes de grandes colecciones de curvas similares". El estadístico estadounidense . 46 (2): 140. doi : 10.1080 / 00031305.1992.10475870 .
^ a b Yao, F .; Müller, HG; Wang, JL (2005). "Análisis de regresión lineal funcional para datos longitudinales". The Annals of Statistics . 33 (6): 2873. arXiv : math / 0603132 . doi : 10.1214 / 009053605000000660 .
^ a b c d Yao, F .; Müller, HG; Wang, JL (2005). "Análisis de datos funcionales para datos longitudinales escasos". Revista de la Asociación Estadounidense de Estadística . 100 (470): 577. doi : 10.1198 / 016214504000001745 .
^ Staniswalis, JG ; Lee, JJ (1998). "Análisis de regresión no paramétrica de datos longitudinales". Revista de la Asociación Estadounidense de Estadística . 93 (444): 1403. doi : 10.1080 / 01621459.1998.10473801 .
^ Rice, John; Silverman, B. (1991). "Estimación de la estructura de covarianza y media de forma no paramétrica cuando los datos son curvas". Revista de la Royal Statistical Society. Serie B (Metodológica) . 53 (1): 233–243. doi : 10.1111 / j.2517-6161.1991.tb01821.x .
^ "PACE: análisis principal por expectativa condicional" .
^ "fdapace: análisis de datos funcionales y dinámica empírica" . 2018-02-25.
^ Hall, P .; Müller, HG; Wang, JL (2006). "Propiedades de los métodos de componentes principales para el análisis de datos funcionales y longitudinales". The Annals of Statistics . 34 (3): 1493. arXiv : math / 0608022 . doi : 10.1214 / 009053606000000272 .
^ Li, Y .; Hsing, T. (2010). "Tasas de convergencia uniforme para regresión no paramétrica y análisis de componentes principales en datos funcionales / longitudinales". The Annals of Statistics . 38 (6): 3321. arXiv : 1211.2137 . doi : 10.1214 / 10-AOS813 .
^ Madrigal, Pedro; Krajewski, Paweł (2015). "Descubrimiento de la variabilidad correlacionada en conjuntos de datos epigenómicos utilizando la transformada de Karhunen-Loeve" . Minería de Biodatos . 8 : 20. doi : 10.1186 / s13040-015-0051-7 . PMC 4488123 . PMID 26140054 .
^ Análisis de datos funcionales con aplicaciones en finanzas por Michal Benko

Referencias

James O. Ramsay; BW Silverman (8 de junio de 2005). Análisis funcional de datos . Saltador. ISBN 978-0-387-40080-8.

[jones_and_rice_1992-1] Jones, MC; Rice, JA (1992). "Visualización de las características importantes de grandes colecciones de curvas similares". El estadístico estadounidense . 46 (2): 140. doi : 10.1080 / 00031305.1992.10475870 .

[Yao_2005b-2] Yao, F .; Müller, HG; Wang, JL (2005). "Análisis de regresión lineal funcional para datos longitudinales". The Annals of Statistics . 33 (6): 2873. arXiv : math / 0603132 . doi : 10.1214 / 009053605000000660 .

[yao_2005a-3] Yao, F .; Müller, HG; Wang, JL (2005). "Análisis de datos funcionales para datos longitudinales escasos". Revista de la Asociación Estadounidense de Estadística . 100 (470): 577. doi : 10.1198 / 016214504000001745 .

[Staniswalis_and_Lee_1998-4] Staniswalis, JG ; Lee, JJ (1998). "Análisis de regresión no paramétrica de datos longitudinales". Revista de la Asociación Estadounidense de Estadística . 93 (444): 1403. doi : 10.1080 / 01621459.1998.10473801 .

[rice_and_silverman_1991-5] Rice, John; Silverman, B. (1991). "Estimación de la estructura de covarianza y media de forma no paramétrica cuando los datos son curvas". Revista de la Royal Statistical Society. Serie B (Metodológica) . 53 (1): 233–243. doi : 10.1111 / j.2517-6161.1991.tb01821.x .

[pace-6] "PACE: análisis principal por expectativa condicional" .

[Rpace-7] "fdapace: análisis de datos funcionales y dinámica empírica" . 2018-02-25.

[hall_2006-8] Hall, P .; Müller, HG; Wang, JL (2006). "Propiedades de los métodos de componentes principales para el análisis de datos funcionales y longitudinales". The Annals of Statistics . 34 (3): 1493. arXiv : math / 0608022 . doi : 10.1214 / 009053606000000272 .

[li_2010-9] Li, Y .; Hsing, T. (2010). "Tasas de convergencia uniforme para regresión no paramétrica y análisis de componentes principales en datos funcionales / longitudinales". The Annals of Statistics . 38 (6): 3321. arXiv : 1211.2137 . doi : 10.1214 / 10-AOS813 .

[madrigal_and_krajewski_2015-10] Madrigal, Pedro; Krajewski, Paweł (2015). "Descubrimiento de la variabilidad correlacionada en conjuntos de datos epigenómicos utilizando la transformada de Karhunen-Loeve" . Minería de Biodatos . 8 : 20. doi : 10.1186 / s13040-015-0051-7 . PMC 4488123 . PMID 26140054 .

[11] Análisis de datos funcionales con aplicaciones en finanzas por Michal Benko

[1]