Análisis factorial

El análisis factorial es un método estadístico que se utiliza para describir la variabilidad entre las variables correlacionadas observadas en términos de un número potencialmente menor de variables no observadas llamadas factores . Por ejemplo, es posible que las variaciones en seis variables observadas reflejen principalmente las variaciones en dos variables no observadas (subyacentes). El análisis factorial busca tales variaciones conjuntas en respuesta a variables latentes no observadas . Las variables observadas se modelan como combinaciones lineales de los factores potenciales, más términos de " error ".

En pocas palabras, la carga factorial de una variable cuantifica el grado en que la variable está relacionada con un factor dado. ^[1]

Una razón común detrás de los métodos analíticos de factores es que la información obtenida sobre las interdependencias entre las variables observadas se puede utilizar más tarde para reducir el conjunto de variables en un conjunto de datos. El análisis factorial se usa comúnmente en psicometría , teorías de la personalidad , biología, marketing , gestión de productos , investigación de operaciones , finanzas y aprendizaje automático.. Puede ser útil tratar con conjuntos de datos en los que hay un gran número de variables observadas que se cree que reflejan un número menor de variables subyacentes / latentes. Es una de las técnicas de interdependencia más comúnmente utilizadas y se utiliza cuando el conjunto de variables relevantes muestra una interdependencia sistemática y el objetivo es descubrir los factores latentes que crean una comunidad.

El modelo intenta explicar un conjunto de observaciones en cada uno de los individuos con un conjunto de factores comunes ( ) donde hay menos factores por unidad que observaciones por unidad ( ). Cada individuo tiene sus propios factores comunes, y estos se relacionan con las observaciones a través de la matriz de carga factorial ( ), para una sola observación, según ${\ Displaystyle p}$ $n$ $k$ $f_{i,j}$ $k<p$ $k$ $L\in \mathbb {R} ^{p\times k}$

donde la matriz de observación, la matriz de factores, la matriz de términos de error y la matriz media donde el elemento th es simplemente . $X\in \mathbb {R} ^{p\times n}$ $F\in \mathbb {R} ^{k\times n}$ $\varepsilon \in \mathbb {R} ^{p\times n}$ $\mathrm {M} \in \mathbb {R} ^{p\times n}$ $(i,m)$ $\mathrm {M} _{i,m}=\mu _{i}$

También impondremos los siguientes supuestos sobre : $F$

Interpretación geométrica de los parámetros del análisis factorial para que 3 encuestados preguntaran "a". La "respuesta" está representada por el vector unitario , que se proyecta sobre un plano definido por dos vectores ortonormales y . El vector de proyección es y el error es perpendicular al plano, de modo que . El vector de proyección se puede representar en términos de vectores factoriales como . El cuadrado de la longitud del vector de proyección es la comunalidad: . Si se graficara otro vector de datos , el coseno del ángulo entre y sería : la entrada en la matriz de correlación. (Adaptado de Harman Fig. 4.3) ^[2]