El análisis de correspondencia ( CA ) o promediado recíproco es una técnica estadística multivariante propuesta [1] por Herman Otto Hartley (Hirschfeld) [2] y posteriormente desarrollada por Jean-Paul Benzécri . [3] Es conceptualmente similar al análisis de componentes principales , pero se aplica a datos categóricos en lugar de continuos. De manera similar al análisis de componentes principales, proporciona un medio para mostrar o resumir un conjunto de datos en forma gráfica bidimensional. Su objetivo es mostrar en biplotcualquier estructura oculta en la configuración multivariante de la tabla de datos. Como tal, es una técnica del campo de la ordenación multivariante . Dado que la variante de CA descrita aquí se puede aplicar con un enfoque en las filas o en las columnas, de hecho debería llamarse análisis de correspondencia simple (simétrico) . [4]
Se aplica tradicionalmente a las tablas de contingencia donde cada celda contiene un recuento o un valor cero. También se puede aplicar a datos binarios dado que la codificación de presencia / ausencia representa datos de recuento simplificados, es decir, un 1 describe un recuento positivo y 0 representa un recuento de cero. Dependiendo de las puntuaciones utilizadas, CA conserva la distancia chi-cuadrado [5] [6] entre las filas o las columnas de la tabla. Debido a que CA es una técnica descriptiva, se puede aplicar a las tablas independientemente de una prueba significativa de chi cuadrado . [7] [8] Aunque elestadística utilizada en la estadística inferencial y la distancia chi-cuadrado están relacionadas computacionalmente, no deben confundirse ya que la última funciona como una medida de distancia estadística multivariante en CA mientras que lala estadística es de hecho un escalar, no una métrica .
Detalles
Al igual que el análisis de componentes principales, el análisis de correspondencia crea componentes ortogonales (o ejes) y, para cada elemento de una tabla, es decir, para cada fila, un conjunto de puntuaciones (a veces denominadas puntuaciones factoriales, consulte Análisis factorial ). El análisis de correspondencia se realiza sobre la tabla de datos, concebida como matriz C de tamaño m × n donde m es el número de filas y n es el número de columnas. En la siguiente descripción matemática del método, las letras mayúsculas en cursiva se refieren a una matriz, mientras que las letras en cursiva se refieren a vectores . Comprender los siguientes cálculos requiere conocimientos de álgebra matricial .
Preprocesamiento
Antes de continuar con el paso de cálculo central del algoritmo, los valores de la matriz C deben transformarse. [9] Primero calcule un conjunto de pesos para las columnas y las filas (a veces llamadas masas ), [10] [11] donde los pesos de las filas y columnas vienen dados por los vectores de columna y fila, respectivamente:
Aquí es la suma de todos los valores de celda en la matriz C , o abreviadamente la suma de C , yes un vector de columna de unos con la dimensión adecuada.
Ponga en palabras simples, es solo un vector cuyos elementos son las sumas de las filas de C divididas por la suma de C , yes un vector cuyos elementos son las sumas de columna de C dividido por la suma de C .
Los pesos se transforman en matrices diagonales.
y
donde los elementos diagonales de están y los de están respectivamente, es decir, los elementos vectoriales son las inversas de las raíces cuadradas de las masas. Los elementos fuera de la diagonal son todos 0.
A continuación, calcula la matriz Dividiendo por su suma
En palabras simples, Matrix es solo la matriz de datos (tabla de contingencia o tabla binaria) transformada en porciones, es decir, cada valor de celda es solo la parte de celda de la suma de toda la tabla.
Finalmente, calcula la matriz , a veces llamada matriz de residuos estandarizados , [12] mediante la multiplicación de matrices como
Nota, los vectores y se combinan en un producto exterior dando como resultado una matriz de las mismas dimensiones que. En palabras, la fórmula dice: matriz se resta de la matriz y la matriz resultante es escalada (ponderada) por las matrices diagonales y . Matriz multiplicadora por las matrices diagonales es equivalente a multiplicar la i-ésima fila (o columna) de por el i-ésimo elemento de la diagonal de y , respectivamente [13] .
Interpretación de preprocesamiento
Los vectores y son las masas de filas y columnas o las probabilidades marginales de las filas y columnas, respectivamente. Matriz de restade la matriz S es la versión de álgebra matricial del doble centrado de los datos. Multiplicar esta diferencia por las matrices de ponderación diagonales da como resultado una matriz que contiene desviaciones ponderadas del origen de un espacio vectorial . Este origen está definido por matriz.
De hecho matriz es idéntica a la matriz de frecuencias esperadas en la prueba de chi-cuadrado . Por lo tantoestá relacionado computacionalmente con el modelo de independencia utilizado en esa prueba. Pero dado que CA no es un método inferencial, el término modelo de independencia es inapropiado aquí.
Componentes ortogonales
La mesa luego se descompone [9] mediante una descomposición de valor singular como
dónde y son los vectores singulares izquierdo y derecho de y es una matriz diagonal cuadrada con los valores singulares de en la diagonal. es de dimensión por eso es de dimensión m × py es de n × p . A s ortonormal vectores y realizar
- .
En otras palabras, la información multivariante contenida en así como en ahora se distribuye en dos matrices (de coordenadas) y y una matriz diagonal (escala) . El espacio vectorial definido por ellos tiene como número de dimensiones p, que es el menor de los dos valores, número de filas y número de columnas, menos 1.
Inercia
Si bien se puede decir que un análisis de componentes principales descompone la (co) varianza y, por lo tanto, su medida de éxito es la cantidad de (co) varianza cubierta por los primeros ejes de PCA, medidos en valor propio, una CA funciona con un valor ponderado. (co-) varianza que se llama inercia . [14] La suma de los valores singulares al cuadrado es la inercia total de la tabla de datos, calculada como
La inercia total de la tabla de datos también se puede calcular directamente desde como
La cantidad de inercia cubierta por el i-ésimo conjunto de vectores singulares es , la principal inercia. Cuanto mayor sea la porción de inercia cubierta por los primeros vectores singulares, es decir, cuanto mayor sea la suma de las inercias principales en comparación con la inercia total, más éxito tendrá una CA. [14] Por lo tanto, todos los valores de inercia principales se expresan como parte de la inercia total
y se presentan en forma de diagrama de pantalla . De hecho, un diagrama de pedregal es solo un diagrama de barras de todas las partes de inercia principales.
Coordenadas
Para transformar los vectores singulares en coordenadas que preserven las distancias de picoscuadrados entre filas o columnas, es necesario un paso de pesaje adicional. Las coordenadas resultantes se denominan coordenadas principales [9] en los libros de texto de CA. Si se utilizan coordenadas principales para las filas, su visualización se denomina escala isométrica [15] de fila en econometría y escala 1 [16] en ecología. Dado que la ponderación incluye los valores singulares de la matriz de residuos estandarizados estas coordenadas a veces se denominan vectores singulares escalados de valor singular o, un poco engañoso, como vectores propios escalados de valor propio. De hecho, los autovectores no triviales deson los vectores singulares de la izquierda de y los de son los vectores singulares correctos de mientras que los valores propios de cualquiera de estas matrices son los cuadrados de los valores singulares . Pero dado que todos los algoritmos modernos para CA se basan en una descomposición de valores singulares, esta terminología debe evitarse. En la tradición francesa de CA, las coordenadas a veces se denominan puntuaciones (factoriales) .
Las puntuaciones de los factores o las coordenadas principales para las filas de la matriz C se calculan mediante
es decir, los vectores singulares de la izquierda se escalan por el inverso de las raíces cuadradas de las masas de las filas y por los valores singulares. Debido a que las coordenadas principales se calculan utilizando valores singulares, contienen la información sobre la distribución entre las filas (o columnas) de la tabla original. El cálculo de las distancias euclidianas entre las entidades en las coordenadas principales da como resultado valores que son iguales a sus distancias chi-cuadradas, razón por la cual se dice que CA "preserva las distancias chi-cuadradas" .
Calcule las coordenadas principales de las columnas mediante
Para representar el resultado de CA en una biplot adecuada , las categorías que no se trazan en coordenadas principales, es decir, en coordenadas de preservación de distancia ji cuadradas, deben trazarse en las llamadas coordenadas estándar . [9] Cuando se calculan las coordenadas estándar, los valores singulares se omiten, lo que es un resultado directo de la aplicación de la regla biplot por la cual uno de los dos conjuntos de matrices vectoriales singulares debe ser escalado por valores singulares elevados a la potencia de cero, es decir, multiplicado por uno, es decir. se calculará omitiendo los valores singulares si el otro conjunto de vectores singulares ha sido escalado por los valores singuar. Esto reafirma la existencia de un producto interno entre los dos conjuntos de coordenadas, es decir, conduce a interpretaciones significativas de sus relaciones espaciales en una biplot.
En términos prácticos, se puede pensar en las coordenadas estándar como los vértices del espacio vectorial en el que "existe" el conjunto de coordenadas principales. Las coordenadas estándar para las filas son
y los de las columnas son
Tenga en cuenta que una escala de 1 [16] biplot en ecología implica que las filas deben estar en principal y las columnas en coordenadas estándar, mientras que la escala 2 implica que las filas están en estándar y las columnas en coordenadas principales. Es decir, la escala 1 implica una biplot deJuntos con mientras que la escala 2 implica una biplot de Juntos con .
Representación gráfica del resultado
La visualización de un resultado de CA siempre comienza con la visualización de un diagrama de pantalla de la inercia principal.
La ordenación real se presenta en un gráfico que, a primera vista, podría confundirse con un diagrama de dispersión complicado . De hecho, consta de dos diagramas de dispersión impresos uno sobre el otro, un conjunto de puntos para las filas y otro para las columnas. Pero al ser una biplot, una regla de interpretación clara relaciona las dos matrices de coordenadas utilizadas.
Por lo general, las dos primeras dimensiones de la solución CA se trazan porque abarcan el máximo de información sobre la tabla de datos que se puede mostrar en 2D, aunque otras combinaciones de dimensiones se pueden investigar mediante un biplot. Un biplot es de hecho un mapeo de baja dimensión de una parte de la información contenida en la tabla original.
Como regla general, ese conjunto (filas o columnas) que debe analizarse con respecto a su composición según lo medido por el otro conjunto se muestra en coordenadas principales, mientras que el otro conjunto se muestra en coordenadas estándar. Por ejemplo, una tabla que muestra los distritos de votación en filas y los partidos políticos en columnas con las celdas que contienen los votos contados puede mostrarse con los distritos (filas) en las coordenadas principales cuando el enfoque está en ordenar distritos de acuerdo con votaciones similares.
Extensiones y aplicaciones
Hay varias variantes de CA disponibles, incluido el análisis de correspondencia sin tendencia (DCA) y el análisis de correspondencia canónica (CCA). El último (CCA) es el método a utilizar, cuando existe información sobre las posibles causas de las similitudes entre las entidades investigadas. La extensión del análisis de correspondencia a muchas variables categóricas se denomina análisis de correspondencia múltiple . Una adaptación del análisis de correspondencia al problema de la discriminación basada en variables cualitativas (es decir, el equivalente del análisis discriminante para datos cualitativos) se denomina análisis de correspondencia discriminante o análisis discriminante baricéntrico.
En las ciencias sociales, el análisis de correspondencias, y en particular su extensión , el análisis de correspondencias múltiples , se dio a conocer fuera de Francia a través de la aplicación del mismo por el sociólogo francés Pierre Bourdieu . [17]
Implementaciones
- El sistema de visualización de datos Orange incluye el módulo: orngCA.
- El sistema estadístico R incluye varios paquetes que ofrecen una función para el análisis de correspondencia (simétrico simple). Usando la notación R [package_name :: function_name] los paquetes y funciones respectivas son:
ade4::dudi.coa()
,ca::ca()
,ExPosition::epCA()
,FactoMineR::CA()
,MASS::corresp()
,vegan::cca()
. El enfoque más fácil para los principiantes esca::ca()
que hay un extenso libro de texto [18] que acompaña a ese paquete.
Ver también
- Análisis de correspondencia sin tendencia
- Análisis de concepto formal
- Análisis de componentes principales
Referencias
- ^ Dodge, Y. (2003) El diccionario de Oxford de términos estadísticos , OUP ISBN 0-19-850994-4
- ^ Hirschfeld, HO (1935) "Una conexión entre correlación y contingencia", Proc. Sociedad Filosófica de Cambridge , 31, 520–524
- ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.
- ^ Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, práctica y nuevas estrategias . Chichester: Wiley. pag. 120. ISBN 978-1-119-95324-1.
- ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica . Boca Ratón: CRC Press. pag. 204. ISBN 9781584886167.
- ^ Legendre, Pierre; Legendre, Louis (2012). Ecología numérica . Amsterdam: Elsevier. pag. 465. ISBN 978-0-444-53868-0.
- ^ Greenacre, Michael (1983). Teoría y aplicaciones del análisis de correspondencias . Londres: Academic Press. ISBN 0-12-299050-1.
- ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica, segunda edición . Londres: Chapman & Hall / CRC.
- ^ a b c d Greenacre, Michael (2007). Análisis de correspondencia en la práctica . Boca Ratón: CRC Press. pag. 202. ISBN 9781584886167.
- ^ Greenacre, Michael (1983). Teoría y aplicaciones del análisis de correspondencias . Londres: Academic Press. ISBN 0-12-299050-1.
- ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica, segunda edición . Londres: Chapman & Hall / CRC. pag. 202.
- ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica . Boca Ratón: CRC Press. pag. 202. ISBN 9781584886167.
- ^ Abadir, Karim; Magnus, enero (2005). Álgebra de matrices . Cambridge: Cambridge University Press. pag. 24. ISBN 9786612394256.
- ^ a b Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, práctica y nuevas estrategias . Chichester: Wiley. págs. 87, 129. ISBN 978-1-119-95324-1.
- ^ Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, práctica y nuevas estrategias . Chichester: Wiley. págs. 132-134. ISBN 978-1-119-95324-1.
- ^ a b Legendre, Pierre; Legendre, Louis (2012). Ecología numérica . Amsterdam: Elsevier. pag. 470. ISBN 978-0-444-53868-0.
- ^ Bourdieu, Pierre (1984). Distinción . Routledge . pp. 41 . ISBN 0674212770.
- ^ Greenacre, Michael (2021). Análisis de correspondencia en la práctica (tercera ed.). Londres: CRC PRESS. ISBN 9780367782511.
enlaces externos
- Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias , Fundación BBVA, Madrid, traducción al español de Correspondence Analysis in Practice , disponible para su descarga gratuita en las publicaciones de la Fundación BBVA
- Greenacre, Michael (2010), Biplots in Practice , Fundación BBVA, Madrid, disponible para descarga gratuita en multivariatestatistics.org