En estadística , la V de Cramér (a veces denominada phi de Cramér y denotada como φ c ) es una medida de asociación entre dos variables nominales , dando un valor entre 0 y +1 (inclusive). Se basa en la estadística de chi-cuadrado de Pearson y fue publicado por Harald Cramér en 1946. [1]
Uso e interpretación
φ c es la intercorrelación de dos variables discretas [2] y puede usarse con variables que tengan dos o más niveles. φ c es una medida simétrica: no importa qué variable coloquemos en las columnas y cuál en las filas. Además, el orden de filas / columnas no importa, por lo que φ c puede usarse con tipos de datos nominales o superiores (en particular, ordenados o numéricos).
La V de Cramér también se puede aplicar a los modelos chi-cuadrado de bondad de ajuste cuando hay una tabla de 1 × k (en este caso r = 1). En este caso, k se toma como el número de resultados opcionales y funciona como una medida de tendencia hacia un único resultado. [ cita requerida ]
La V de Cramér varía de 0 (correspondiente a ninguna asociación entre las variables) a 1 (asociación completa) y puede llegar a 1 solo cuando cada variable está completamente determinada por la otra.
φ c 2 es la correlación canónica cuadrática media entre las variables. [ cita requerida ]
En el caso de una tabla de contingencia de 2 × 2, la V de Cramér es igual al coeficiente Phi .
Tenga en cuenta que como los valores de chi-cuadrado tienden a aumentar con el número de celdas, cuanto mayor sea la diferencia entre r (filas) yc (columnas), es más probable que φ c tienda a 1 sin una fuerte evidencia de una correlación significativa. [ cita requerida ]
V puede verse como la asociación entre dos variables como un porcentaje de su máxima variación posible. V 2 es la correlación canónica cuadrática media entre las variables. [ cita requerida ]
Cálculo
Sea una muestra de tamaño n de las variables distribuidas simultáneamente y por estar dado por las frecuencias
- número de veces los valores fueron observados.
El estadístico chi-cuadrado entonces es:
El V de Cramér se calcula tomando la raíz cuadrada del estadístico chi-cuadrado dividido por el tamaño de la muestra y la dimensión mínima menos 1:
dónde:
- es el coeficiente phi.
- se deriva de la prueba de chi-cuadrado de Pearson
- es el gran total de observaciones y
- siendo el número de columnas.
- siendo el número de filas.
El valor p para la significancia de V es el mismo que se calcula usando la prueba de chi-cuadrado de Pearson . [ cita requerida ]
Se conoce la fórmula para la varianza de V = φ c . [3]
En R, la función cramerV()
del paquete rcompanion
[4] calcula V usando la función chisq.test del paquete stats. A diferencia de la función cramersV()
del paquete lsr
[5] , cramerV()
también ofrece una opción para corregir el sesgo. Aplica la corrección descrita en la siguiente sección.
Corrección de sesgo
La V de Cramér puede ser un estimador muy sesgado de su contraparte poblacional y tenderá a sobrestimar la fuerza de la asociación. Una corrección de sesgo, utilizando la notación anterior, viene dada por [6]
dónde
y
Luego estima la misma cantidad de población que la V de Cramér pero con un error cuadrático medio típicamente mucho menor . El fundamento de la corrección es que, bajo independencia,. [7]
Ver también
Otras medidas de correlación para datos nominales:
- El coeficiente phi
- T de Tschuprow
- El coeficiente de incertidumbre
- El coeficiente Lambda
- El índice Rand
- Índice de Davies-Bouldin
- Índice de Dunn
- Índice de Jaccard
- Índice Fowlkes-Mallows
Otros artículos relacionados:
Referencias
- ^ Cramér, Harald. 1946. Métodos matemáticos de estadística . Princeton: Princeton University Press, página 282 (Capítulo 21. El caso bidimensional). ISBN 0-691-08004-6 ( tabla de contenido Archivado 2016-08-16 en Wayback Machine )
- ^ Sheskin, David J. (1997). Manual de procedimientos estadísticos paramétricos y no paramétricos. Boca Raton, Fl: CRC Press.
- ^ Liebetrau, Albert M. (1983). Medidas de asociación . Newbury Park, CA: Publicaciones Sage. Aplicaciones cuantitativas en la serie de ciencias sociales No. 32. (páginas 15-16)
- ^ "Rcompanion: Funciones de apoyo a la evaluación del programa de educación de extensión" . 2019-01-03.
- ^ "Lsr: compañero de" Estadísticas de aprendizaje con R " " . 2015-03-02.
- ^ Bergsma, Wicher (2013). "Una corrección de sesgo para V de Cramér y T de Tschuprow". Revista de la Sociedad de Estadística de Corea . 42 (3): 323–328. doi : 10.1016 / j.jkss.2012.10.002 .
- ^ Bartlett, Maurice S. (1937). "Propiedades de las pruebas de suficiencia y estadísticas" . Actas de la Royal Society of London . Serie A. 160 (901): 268–282. doi : 10.1098 / rspa.1937.0109 . JSTOR 96803 .
enlaces externos
- Una medida de asociación para estadísticas no paramétricas (Alan C. Acock y Gordon R. Stavig, página 1381 de 1381-1386)
- Asociación nominal: Phi y Cramer's Vl [ enlace muerto ] de la página de inicio de Pat Dattalo.