En estadística , el análisis factorial de datos mixtos ( FAMD ), o análisis factorial de datos mixtos , es el método factorial dedicado a las tablas de datos en las que un grupo de individuos se describe tanto por variables cuantitativas como cualitativas. Pertenece a los métodos exploratorios desarrollados por la escuela francesa llamada Analyse des données fundada por Jean-Paul Benzécri.
El término mixto se refiere a la presencia simultánea, como elementos activos, de variables cuantitativas y cualitativas. A grandes rasgos, podemos decir que FAMD funciona como análisis de componentes principales (PCA) para variables cuantitativas y como análisis de correspondencia múltiple (MCA) para variables cualitativas.
Alcance
Cuando los datos incluyen ambos tipos de variables pero las variables activas son homogéneas, se puede utilizar PCA o MCA.
De hecho, es fácil incluir variables cuantitativas suplementarias en la ACM mediante los coeficientes de correlación entre las variables y los factores de los individuos (un factor de los individuos es el vector que reúne las coordenadas de los individuos en un eje factorial); la representación obtenida es un círculo de correlación (como en PCA).
Del mismo modo, es fácil incluir variables categóricas complementarias en PCA. [1] Para esto, cada categoría está representada por el centro de gravedad de los individuos que lo tienen (como MCA).
Cuando las variables activas se mezclan, la práctica habitual es realizar una discretización sobre las variables cuantitativas (por ejemplo, normalmente en las encuestas la edad se transforma en clases de edad). Los datos así obtenidos pueden ser procesados por MCA.
Esta práctica llega a sus límites:
- Cuando hay pocas personas (menos de un centenar para arreglar las ideas) en cuyo caso la MCA es inestable;
- Cuando hay pocas variables cualitativas con respecto a las cuantitativas (uno puede ser reacio a discretizar veinte variables cuantitativas para tener en cuenta una sola variable cualitativa).
Criterio
Los datos incluyen variables cuantitativas y variables cualitativas .
es una variable cuantitativa. Nosotros notamos:
- el coeficiente de correlación entre variables y ;
- la relación de correlación al cuadrado entre variables y .
En la PCA de , buscamos la función en (una función en asigna un valor a cada individuo, es el caso de las variables iniciales y componentes principales) la más correlacionada con todas variables en el siguiente sentido:
- máximo.
En MCA de Q , buscamos la función en más relacionado con todos variables en el siguiente sentido:
- máximo.
En FAMD , buscamos la función en el más relacionado con todos variables en el siguiente sentido:
- máximo.
En este criterio, ambos tipos de variables juegan el mismo papel. La contribución de cada variable en este criterio está acotada por 1.
Parcelas
La representación de los individuos se realiza directamente a partir de factores .
La representación de variables cuantitativas se construye como en PCA (círculo de correlación).
La representación de las categorías de variables cualitativas es como en MCA: una categoría está en el centroide de los individuos que la poseen. Tenga en cuenta que tomamos el centroide exacto y no, como es habitual en MCA, el centroide hasta un coeficiente dependiente del eje (en MCA este coeficiente es igual a la inversa de la raíz cuadrada del valor propio; sería inadecuado en FAMD ).
La representación de variables se denomina cuadrado de relación . La coordenada de la variable cualitativa a lo largo del eje es igual a la relación de correlación al cuadrado entre la variable y el factor de rango (denotado ). Las coordenadas de la variable cuantitativa a lo largo del eje es igual al coeficiente de correlación al cuadrado entre la variable y el factor de rango (denotado ).
Ayudas a la interpretación
Los indicadores de relación entre las variables iniciales se combinan en una llamada matriz de relación que contiene, en la intersección de la fila y columna :
- Si las variables y son cuantitativos, el coeficiente de correlación al cuadrado entre las variables y ;
- Si la variable es cualitativo y la variable es cuantitativo, la relación de correlación al cuadrado entre y ;
- Si las variables y son cualitativos, el indicador entre las variables y .
Ejemplo
Un conjunto de datos muy pequeño (Tabla 1) ilustra el funcionamiento y los resultados del FAMD. Seis individuos se describen mediante tres variables cuantitativas y tres variables cualitativas. Los datos se analizaron utilizando la función del paquete R FAMD FactoMineR.
|
|
En la matriz de relaciones, los coeficientes son iguales a (variables cuantitativas), (variables cualitativas) o (una variable de cada tipo).
La matriz muestra un entrelazamiento de las relaciones entre los dos tipos de variables.
La representación de individuos (Figura 1) muestra claramente tres grupos de individuos. El primer eje opone a los individuos 1 y 2 a todos los demás. El segundo eje opone a los individuos 3 y 4 a los individuos 5 y 6.
La representación de variables (cuadrado de relación, Figura 2) muestra que el primer eje () está estrechamente vinculado a variables , y . El círculo de correlación (Figura 3) especifica el signo de la correlación entre, y ; la representación de las categorías (Figura 4) aclara la naturaleza de la relación entre y . Finalmente los individuos 1 y 2, individualizados por el primer eje, se caracterizan por valores altos de y y por las categorias de también.
Este ejemplo ilustra cómo el FAMD analiza simultáneamente variables cuantitativas y cualitativas. Así, muestra, en este ejemplo, una primera dimensión basada en los dos tipos de variables.
Historia
El trabajo original de la FAMD se debe a Brigitte Escofier [2] y Gilbert Saporta. [3] Este trabajo fue reanudado en 2002 por Jérôme Pagès. [4] La presentación más completa de FAMD en inglés está incluida en un libro de Jérôme Pagès. [5]
Software
El método se implementa en el paquete R FactoMineR
Referencias
- ^ Escofier Brigitte y Pagès Jérôme (2008). Analiza factorielles simples y múltiplos. Dunod. París. 318 págs. 27 y siguientes.
- ^ Escofier Brigitte (1979). Traitement simultané de variables quantitatives et qualitatives en factorielle de análisis. Les cahiers de l'analyse des données , 4 , 2, 137-146. http://archive.numdam.org/ARCHIVE/CAD/CAD_1979__4_2/CAD_1979__4_2_137_0/CAD_1979__4_2_137_0.pdf
- ^ Saporta Gilbert (1990). Análisis simultáneo de datos cualitativos y cuantitativos. Atti della XXXV riunione scientifica; società italiana di Statistica , 63–72. http://cedric.cnam.fr/~saporta/SAQQD.pdf
- ^ Pagès Jérôme (2002). Analizar factorielle de données mixtes. Revue de Statistique appliquée , 52 , 4, 93–111 http://archive.numdam.org/ARCHIVE/RSA/RSA_2004__52_4/RSA_2004__52_4_93_0/RSA_2004__52_4_93_0.pdf
- ^ Pagès Jérôme (2014). Análisis Factorial Múltiple por Ejemplo Utilizando R . Chapman & Hall / CRC The R Series London 272 p.