Análisis de factores múltiples

El análisis factorial múltiple (MFA) es un método factorial ^[1] dedicado al estudio de tablas en las que un grupo de individuos es descrito por un conjunto de variables (cuantitativas y / o cualitativas) estructuradas en grupos. Puede verse como una extensión de:

Análisis de componentes principales (PCA) cuando las variables son cuantitativas,
Análisis de correspondencia múltiple (ACM) cuando las variables son cualitativas,
Análisis factorial de datos mixtos (FAMD) cuando las variables activas pertenecen a los dos tipos.

Ejemplo introductorio

¿Por qué introducir varios grupos activos de variables en un mismo análisis factorial?

datos

Considérese el caso de las variables cuantitativas, es decir, en el marco del PCA. Un ejemplo de datos de la investigación ecológica proporciona una ilustración útil. Existen, para 72 estaciones, dos tipos de medidas:

El coeficiente de abundancia-dominancia de 50 especies de plantas (coeficiente que varía de 0 = la planta está ausente, a 9 = la especie cubre más de las tres cuartas partes de la superficie). El conjunto completo de los 50 coeficientes define el perfil florístico de una estación.
Once medidas pedológicas ( Pedología = ciencia del suelo): tamaño de partícula, física, química, etc. El conjunto de estas once medidas define el perfil pedológico de una estación.

Son posibles tres análisis:

PCA de la flora (pedología como complementario): este análisis se centra en la variabilidad de los perfiles florísticos. Dos estaciones están cerca una de la otra si tienen perfiles florísticos similares. En un segundo paso, las principales dimensiones de esta variabilidad (es decir, los componentes principales) se relacionan con las variables pedológicas introducidas como complementarias.
PCA de pedología (flora como complemento): este análisis se centra en la variabilidad de los perfiles del suelo. Dos estaciones están cerca si tienen el mismo perfil de suelo. Las principales dimensiones de esta variabilidad (es decir, los componentes principales) se relacionan entonces con la abundancia de plantas.
PCA de los dos grupos de variables como activas: se puede querer estudiar la variabilidad de las estaciones tanto desde el punto de vista de la flora como del suelo. En este enfoque, dos estaciones deben estar cerca si tienen tanto de flora similares 'y' suelos similares.

Equilibrio entre grupos de variables

Metodología

El tercer análisis del ejemplo introductorio asume implícitamente un equilibrio entre la flora y el suelo. Sin embargo, en este ejemplo, el mero hecho de que la flora esté representada por 50 variables y el suelo por 11 variables implica que el PCA con 61 variables activas estará influenciado principalmente por la flora al menos en el primer eje). Esto no es deseable: no hay razón para desear que un grupo desempeñe un papel más importante en el análisis.

El núcleo del MFA se basa en un análisis factorial (PCA en el caso de variables cuantitativas, MCA en el caso de variables cualitativas) en el que se ponderan las variables. Estos pesos son idénticos para las variables del mismo grupo (y varían de un grupo a otro). Son tales que la inercia axial máxima de un grupo es igual a 1: es decir, aplicando el PCA (o, en su caso, el MCA) a un grupo con esta ponderación, obtenemos un primer valor propio igual a 1. Para obtener esta propiedad, MFA asigna a cada variable del grupo ${\ Displaystyle j}$ un peso igual a la inversa del primer valor propio del análisis (PCA o MCA según el tipo de variable) del grupo ${\ Displaystyle j}$ .

Formalmente, notando ${\ Displaystyle \ lambda _ {1} ^ {j}}$ el primer valor propio del análisis factorial de un grupo ${\ Displaystyle j}$ , el MFA asigna peso ${\ Displaystyle 1 / \ lambda _ {1} ^ {j}}$ para cada variable del grupo ${\ Displaystyle j}$ .

Equilibrar la inercia axial máxima en lugar de la inercia total (= el número de variables en el PCA estándar) le da al MFA varias propiedades importantes para el usuario. Más directamente, su interés aparece en el siguiente ejemplo.

Ejemplo

Dejemos que dos grupos de variables se definan en el mismo conjunto de individuos.

El grupo 1 está compuesto por dos variables A y B no correlacionadas.
El grupo 2 está compuesto por dos variables {C1, C2} idénticas a la misma variable C no correlacionada con las dos primeras.

Este ejemplo no es completamente irreal. A menudo es necesario analizar simultáneamente grupos multidimensionales y (bastante) unidimensionales.

Cada grupo que tiene el mismo número de variables tiene la misma inercia total.

En este ejemplo el primer eje del PCA es casi coincidente con C. De hecho, en el espacio de variables, hay dos variables en la dirección de C: el grupo 2, con toda su inercia concentrada en una dirección, influye predominantemente en el primer eje . Por su parte, el grupo 1, formado por dos variables ortogonales (= no correlacionadas), tiene su inercia uniformemente distribuida en un plano (el plano generado por las dos variables) y apenas pesa sobre el primer eje.

Ejemplo numérico

Cuadro 1. MFA. Datos de prueba. A y B (grupo 1) no están correlacionados. C1 y C2 (grupo 2) son idénticos.
	${\ Displaystyle A}$	${\ Displaystyle B}$	${\ Displaystyle C_ {1}}$	${\ Displaystyle C_ {2}}$
${\ Displaystyle 1}$	1	1	1	1
${\ Displaystyle 2}$	2	3	4	4
${\ Displaystyle 3}$	3	5	2	2
${\ Displaystyle 4}$	4	5	2	2
${\ Displaystyle 5}$	5	3	4	4
${\ Displaystyle 6}$	6	1	2	2

Tabla 2. Datos de prueba. Descomposición de la inercia en el PCA y en el MFA aplicada a los datos de la Tabla 1.
	${\ Displaystyle F_ {1}}$	${\ Displaystyle F_ {2}}$
PCA
Inercia	2,14 (100%)	1
grupo 1	0,24 (11%)	1
Grupo 2	1,91 (89%)	0
MFA
Inercia	1,28 (100%)	1
grupo 1	0,64 (50%)	1
Grupo 2	0,64 (50%)	0

La Tabla 2 resume la inercia de los dos primeros ejes del PCA y del MFA aplicado a la Tabla 1.

Las variables del grupo 2 contribuyen al 88,95% de la inercia del eje 1 del PCA. El primer eje ( ${\ Displaystyle F_ {1}}$ ) es casi coincidente con C: la correlación entre C y ${\ Displaystyle F_ {1}}$ es .976;

El primer eje del MFA (en los datos de la Tabla 1) muestra el equilibrio entre los dos grupos de variables: la contribución de cada grupo a la inercia de este eje es estrictamente igual al 50%.

Mientras tanto, el segundo eje depende solo del grupo 1. Esto es natural ya que este grupo es bidimensional mientras que el segundo grupo, al ser unidimensional, puede estar altamente relacionado con un solo eje (aquí el primer eje).

Conclusión sobre el equilibrio entre grupos

La introducción de varios grupos activos de variables en un análisis factorial supone implícitamente un equilibrio entre estos grupos.

Este equilibrio debe tener en cuenta que un grupo multidimensional influye naturalmente en más ejes que un grupo unidimensional (que puede no estar estrechamente relacionado con un eje).

La ponderación del MFA, que hace que la inercia axial máxima de cada grupo sea igual a 1, juega este papel.

Ejemplos de aplicación

Los cuestionarios de encuestas siempre se estructuran de acuerdo con diferentes temas. Cada tema es un grupo de variables, por ejemplo, preguntas sobre opiniones y preguntas sobre comportamiento. Por lo tanto, en este ejemplo, es posible que deseemos realizar un análisis factorial en el que dos individuos son cercanos si ambos han expresado las mismas opiniones y el mismo comportamiento.

Análisis sensorial Un mismo conjunto de productos ha sido evaluado por un panel de expertos y un panel de consumidores. Para su evaluación, cada jurado utiliza una lista de descriptores (agrio, amargo, etc.). Cada juez puntúa cada descriptor de cada producto en una escala de intensidad que va, por ejemplo, de 0 = nulo o muy bajo a 10 = muy fuerte. En la mesa asociada a un jurado, en la intersección de la fila ${\ Displaystyle i}$ y columna ${\ Displaystyle k}$ , es la puntuación media asignada al producto ${\ Displaystyle i}$ para descriptor ${\ Displaystyle k}$ .

Los individuos son los productos. Cada jurado es un grupo de variables. Queremos lograr un análisis factorial en el que dos productos sean similares si fueron evaluados de la misma manera por ambos jurados.

Series de tiempo multidimensionales ${\ Displaystyle K}$ las variables se miden en ${\ Displaystyle I}$ individuos. Estas medidas se realizan en ${\ Displaystyle J}$ fechas. Hay muchas formas de analizar ese conjunto de datos. Una forma sugerida por MFA es considerar cada día como un grupo de variables en el análisis de las tablas (cada tabla corresponde a una fecha) yuxtapuestas por filas (la tabla analizada así tiene ${\ Displaystyle I}$ filas y ${\ Displaystyle J}$ X ${\ Displaystyle K}$ columnas).

Conclusión : Estos ejemplos muestran que, en la práctica, las variables se organizan muy a menudo en grupos.

Gráficos de MFA

Más allá de la ponderación de variables, el interés en MFA radica en una serie de gráficos e indicadores valiosos en el análisis de una tabla cuyas columnas se organizan en grupos.

Gráficos comunes a todos los análisis factoriales simples (PCA, MCA)

El núcleo de MFA es un análisis factorial ponderado: MFA proporciona en primer lugar los resultados clásicos de los análisis factoriales.

1. Representaciones de individuos en las que dos individuos están mucho más cerca de lo que tienen valores similares para todas las variables en todos los grupos; en la práctica, el usuario estudia particularmente el primer plano factorial.

2. Representaciones de variables cuantitativas como en PCA (círculo de correlación).

Figura 1. MFA. Datos de prueba. Representación de individuos en el primer plano.

Figura 2. MFA. Datos de prueba. Representación de variables en el primer plano.

En el ejemplo:

El primer eje se opone principalmente a los individuos 1 y 5 (Figura 1).
Las cuatro variables tienen una coordenada positiva (Figura 2): el primer eje es un efecto de tamaño. Por lo tanto, el individuo 1 tiene valores bajos para todas las variables y el individuo 5 tiene valores altos para todas las variables.

3. Indicadores de ayuda a la interpretación : inercia proyectada, aportes y calidad de representación. En el ejemplo, la contribución de los individuos 1 y 5 a la inercia del primer eje es del 45,7% + 31,5% = 77,2% lo que justifica la interpretación centrada en estos dos puntos.

4. Representaciones de categorías de variables cualitativas como en MCA (una categoría se encuentra en el centroide de los individuos que la poseen). Sin variables cualitativas en el ejemplo.

Gráficos específicos para este tipo de tabla múltiple

5. Representaciones superpuestas de individuos «vistos» por cada grupo. Un individuo considerado desde el punto de vista de un solo grupo se denomina individuo parcial (en paralelo, un individuo considerado desde el punto de vista de todas las variables se denomina individuo medio porque se encuentra en el centro de gravedad de sus puntos parciales). Nube parcial ${\ Displaystyle N_ {i} ^ {j}}$ reúne el ${\ Displaystyle I}$ individuos desde la perspectiva del grupo único ${\ Displaystyle j}$ (es decir ${\ Displaystyle {i ^ {j}, j = 1, J}}$ ): que es la nube analizada en el análisis factorial separado (PCA o MCA) del grupo ${\ Displaystyle j}$ . La representación superpuesta de la ${\ Displaystyle N_ {i} ^ {j}}$ proporcionado por el MFA es similar en su propósito al proporcionado por el análisis de Procrustes .

Figura 3. MFA. Datos de prueba. Representación superpuesta de nubes medias y parciales.

En el ejemplo (figura 3), el individuo 1 se caracteriza por un tamaño pequeño (es decir, valores pequeños) tanto en términos del grupo 1 como del grupo 2 (los puntos parciales del individuo 1 tienen una coordenada negativa y están próximos entre sí). Por el contrario, el individuo 5 se caracteriza más por valores altos para las variables del grupo 2 que para las variables del grupo 1 (para el individuo 5, el punto parcial del grupo 2 está más lejos del origen que el punto parcial del grupo 1). Esta lectura del gráfico se puede verificar directamente en los datos.

6. Representaciones de grupos de variables como tales. En estos gráficos, cada grupo de variables está representado por un solo punto. Dos grupos de variables son cercanos cuando definen la misma estructura en individuos. Caso extremo: dos grupos de variables que definen nubes homotéticas de individuos ${\ Displaystyle N_ {i} ^ {j}}$ coincidir. La coordenada del grupo ${\ Displaystyle j}$ a lo largo del eje ${\ Displaystyle s}$ es igual a la contribución del grupo ${\ Displaystyle j}$ a la inercia de la dimensión MFA del rango ${\ Displaystyle s}$ . Esta contribución se puede interpretar como un indicador de relación (entre el grupo ${\ Displaystyle j}$ y el eje ${\ Displaystyle s}$ , de ahí el nombre cuadrado de relación que se le da a este tipo de representación). Esta representación también existe en otros métodos factoriales (MCA y FAMD en particular) en cuyo caso los grupos de variables se reducen cada uno a una sola variable.

Figura 4. MFA. Datos de prueba. Representación de grupos de variables.

En el ejemplo (Figura 4), esta representación muestra que el primer eje está relacionado con los dos grupos de variables, mientras que el segundo eje está relacionado con el primer grupo. Esto concuerda con la representación de las variables (figura 2). En la práctica, esta representación es especialmente valiosa cuando los grupos son numerosos e incluyen muchas variables.

Otra cuadrícula de lectura . Los dos grupos de variables tienen en común el efecto tamaño (primer eje) y difieren según el eje 2 ya que este eje es específico del grupo 1 (se opone a las variables A y B).

7. Representaciones de factores de análisis separados de los diferentes grupos. Estos factores se representan como variables cuantitativas complementarias (círculo de correlación).

Figura 5. MFA. Datos de prueba. Representación de los componentes principales de los PCA separados de cada grupo.

En el ejemplo (figura 5), el primer eje del MFA está relativamente fuertemente correlacionado (r = .80) con el primer componente del grupo 2. Este grupo, que consta de dos variables idénticas, posee solo un componente principal (confundido con La variable). El grupo 1 consta de dos variables ortogonales: cualquier dirección del subespacio generado por estas dos variables tiene la misma inercia (igual a 1). Por tanto, existe incertidumbre en la elección de los componentes principales y no hay razón para estar interesado en uno de ellos en particular. Sin embargo, los dos componentes proporcionados por el programa están bien representados: el plano del MFA está cerca del plano abarcado por las dos variables del grupo 1.

Conclusión

El ejemplo numérico ilustra la salida del MFA. Además de equilibrar grupos de variables y además de gráficos habituales de PCA (de MCA en el caso de variables cualitativas), el MFA proporciona resultados específicos de la estructura grupal del conjunto de variables, es decir, en particular:

Una representación superpuesta de individuos parciales para un análisis detallado de los datos;
Una representación de grupos de variables que proporciona una imagen sintética cada vez más valiosa a medida que esos datos incluyen muchos grupos;
Una representación de factores de análisis separados.

El pequeño tamaño y la simplicidad del ejemplo permiten una validación simple de las reglas de interpretación. Pero el método será más valioso cuando el conjunto de datos sea grande y complejo. Se encuentran disponibles otros métodos adecuados para este tipo de datos. El análisis de procrustes se compara con el MFA en. ^[2]

Historia

MFA fue desarrollado por Brigitte Escofier y Jérôme Pagès en la década de 1980. Está en el corazón de dos libros escritos por estos autores: ^[3] y. ^[4] El MFA y sus extensiones (MFA jerárquico, MFA en tablas de contingencia, etc.) son un tema de investigación del laboratorio de matemáticas aplicadas Agrocampus ( LMA ² ) que publicó un libro que presenta métodos básicos de análisis exploratorio multivariado. ^[5]

Software

MFA está disponible en dos paquetes R ( FactoMineR y ADE4 ) y en muchos paquetes de software, incluidos SPAD, Uniwin, XLSTAT , etc. También hay una función SAS ^{[ enlace muerto permanente ]} . Los gráficos de este artículo provienen del paquete R FactoMineR.

Referencias

^ Greenacre, Michael; Blasius, Jorg (23 de junio de 2006). Análisis de correspondencia múltiple y métodos relacionados . Prensa CRC. págs. 352–. ISBN 9781420011319. Consultado el 11 de junio de 2014 .
^ Pagès Jérôme (2014). Análisis de factores múltiples por ejemplo utilizando R. Chapman y Hall / CRC The R Series, Londres. 272p
^ Ibidem
^ Escofier Brigitte y Pagès Jérôme (2008). Analiza factorielles simples y múltiplos; objectifs, méthodes et interprétation. Dunod, París. 318 p. ISBN 978-2-10-051932-3
^ Husson F., Lê S. y Pagès J. (2009). Análisis exploratorio multivariado por ejemplo utilizando R. Chapman y Hall / CRC The R Series, Londres. ISBN 978-2-7535-0938-2

enlaces externos

Software FactoMineR AR dedicado al análisis exploratorio de datos.

[GreenacreBlasius2006-1] Greenacre, Michael; Blasius, Jorg (23 de junio de 2006). Análisis de correspondencia múltiple y métodos relacionados . Prensa CRC. págs. 352–. ISBN 9781420011319. Consultado el 11 de junio de 2014 .

[2] Pagès Jérôme (2014). Análisis de factores múltiples por ejemplo utilizando R. Chapman y Hall / CRC The R Series, Londres. 272p

[3] Ibidem

[4] Escofier Brigitte y Pagès Jérôme (2008). Analiza factorielles simples y múltiplos; objectifs, méthodes et interprétation. Dunod, París. 318 p. ISBN 978-2-10-051932-3

[5] Husson F., Lê S. y Pagès J. (2009). Análisis exploratorio multivariado por ejemplo utilizando R. Chapman y Hall / CRC The R Series, Londres. ISBN 978-2-7535-0938-2

[1]