V de Cramér

En estadística , la V de Cramér (a veces denominada phi de Cramér y denotada como φ _c ) es una medida de asociación entre dos variables nominales , dando un valor entre 0 y +1 (inclusive). Se basa en la estadística de chi-cuadrado de Pearson y fue publicado por Harald Cramér en 1946. ^[1]

Uso e interpretación

φ _c es la intercorrelación de dos variables discretas ^[2] y puede usarse con variables que tengan dos o más niveles. φ _c es una medida simétrica: no importa qué variable coloquemos en las columnas y cuál en las filas. Además, el orden de filas / columnas no importa, por lo que φ _c puede usarse con tipos de datos nominales o superiores (en particular, ordenados o numéricos).

La V de Cramér también se puede aplicar a los modelos chi-cuadrado de bondad de ajuste cuando hay una tabla de 1 × k (en este caso r = 1). En este caso, k se toma como el número de resultados opcionales y funciona como una medida de tendencia hacia un único resultado. ^{[ cita requerida ]}

La V de Cramér varía de 0 (correspondiente a ninguna asociación entre las variables) a 1 (asociación completa) y puede llegar a 1 solo cuando cada variable está completamente determinada por la otra.

φ _c² es la correlación canónica cuadrática media entre las variables. ^{[ cita requerida ]}

En el caso de una tabla de contingencia de 2 × 2, la V de Cramér es igual al coeficiente Phi .

Tenga en cuenta que como los valores de chi-cuadrado tienden a aumentar con el número de celdas, cuanto mayor sea la diferencia entre r (filas) yc (columnas), es más probable que φ _c tienda a 1 sin una fuerte evidencia de una correlación significativa. ^{[ cita requerida ]}

V puede verse como la asociación entre dos variables como un porcentaje de su máxima variación posible. V ² es la correlación canónica cuadrática media entre las variables. ^{[ cita requerida ]}

Cálculo

Sea una muestra de tamaño n de las variables distribuidas simultáneamente ${\ Displaystyle A}$ y ${\ Displaystyle B}$ por ${\ Displaystyle i = 1, \ ldots, r; j = 1, \ ldots, k}$ estar dado por las frecuencias

{\ Displaystyle n_ {ij} =}

número de veces los valores

{\ Displaystyle (A_ {i}, B_ {j})}

fueron observados.

El estadístico chi-cuadrado entonces es:

{\ Displaystyle \ chi ^ {2} = \ sum _ {i, j} {\ frac {(n_ {ij} - {\ frac {n_ {i.} n _ {. j}} {n}}) ^ { 2}} {\ frac {n_ {i.} N _ {. J}} {n}}}}

El V de Cramér se calcula tomando la raíz cuadrada del estadístico chi-cuadrado dividido por el tamaño de la muestra y la dimensión mínima menos 1:

{\ Displaystyle V = {\ sqrt {\ frac {\ varphi ^ {2}} {\ min (k-1, r-1)}}} = {\ sqrt {\ frac {\ chi ^ {2} / n } {\ min (k-1, r-1)}}}}

dónde:

${\ Displaystyle \ varphi}$ es el coeficiente phi.
${\ Displaystyle \ chi ^ {2}}$ se deriva de la prueba de chi-cuadrado de Pearson
${\ Displaystyle n}$ es el gran total de observaciones y
${\ Displaystyle k}$ siendo el número de columnas.
${\ Displaystyle r}$ siendo el número de filas.

El valor p para la significancia de V es el mismo que se calcula usando la prueba de chi-cuadrado de Pearson . ^{[ cita requerida ]}

Se conoce la fórmula para la varianza de V = φ _c . ^[3]

En R, la función cramerV()del paquete rcompanion^[4] calcula V usando la función chisq.test del paquete stats. A diferencia de la función cramersV()del paquete lsr^[5] , cramerV()también ofrece una opción para corregir el sesgo. Aplica la corrección descrita en la siguiente sección.

Corrección de sesgo

La V de Cramér puede ser un estimador muy sesgado de su contraparte poblacional y tenderá a sobrestimar la fuerza de la asociación. Una corrección de sesgo, utilizando la notación anterior, viene dada por ^[6]

{\ Displaystyle {\ tilde {V}} = {\ sqrt {\ frac {{\ tilde {\ varphi}} ^ {2}} {\ min ({\ tilde {k}} - 1, {\ tilde {r }} - 1)}}}}

dónde

{\ displaystyle {\ tilde {\ varphi}} ^ {2} = \ max \ left (0, \ varphi ^ {2} - {\ frac {(k-1) (r-1)} {n-1} }\derecho)}

y

{\ Displaystyle {\ tilde {k}} = k - {\ frac {(k-1) ^ {2}} {n-1}}}

{\ Displaystyle {\ tilde {r}} = r - {\ frac {(r-1) ^ {2}} {n-1}}}

Luego ${\ Displaystyle {\ tilde {V}}}$ estima la misma cantidad de población que la V de Cramér pero con un error cuadrático medio típicamente mucho menor . El fundamento de la corrección es que, bajo independencia, ${\ Displaystyle E [\ varphi ^ {2}] = {\ frac {(k-1) (r-1)} {n-1}}}$ . ^[7]

Ver también

Otras medidas de correlación para datos nominales:

Otros artículos relacionados:

Referencias

^ Cramér, Harald. 1946. Métodos matemáticos de estadística . Princeton: Princeton University Press, página 282 (Capítulo 21. El caso bidimensional). ISBN 0-691-08004-6 ( tabla de contenido Archivado 2016-08-16 en Wayback Machine )
^ Sheskin, David J. (1997). Manual de procedimientos estadísticos paramétricos y no paramétricos. Boca Raton, Fl: CRC Press.
^ Liebetrau, Albert M. (1983). Medidas de asociación . Newbury Park, CA: Publicaciones Sage. Aplicaciones cuantitativas en la serie de ciencias sociales No. 32. (páginas 15-16)
^ "Rcompanion: Funciones de apoyo a la evaluación del programa de educación de extensión" . 2019-01-03.
^ "Lsr: compañero de" Estadísticas de aprendizaje con R " " . 2015-03-02.
^ Bergsma, Wicher (2013). "Una corrección de sesgo para V de Cramér y T de Tschuprow". Revista de la Sociedad de Estadística de Corea . 42 (3): 323–328. doi : 10.1016 / j.jkss.2012.10.002 .
^ Bartlett, Maurice S. (1937). "Propiedades de las pruebas de suficiencia y estadísticas" . Actas de la Royal Society of London . Serie A. 160 (901): 268–282. doi : 10.1098 / rspa.1937.0109 . JSTOR 96803 .

enlaces externos

Una medida de asociación para estadísticas no paramétricas (Alan C. Acock y Gordon R. Stavig, página 1381 de 1381-1386)
Asociación nominal: Phi y Cramer's Vl ^{[ enlace muerto ]} de la página de inicio de Pat Dattalo.

[1] Cramér, Harald. 1946. Métodos matemáticos de estadística . Princeton: Princeton University Press, página 282 (Capítulo 21. El caso bidimensional). ISBN 0-691-08004-6 ( tabla de contenido Archivado 2016-08-16 en Wayback Machine )

[Ref_a-2] Sheskin, David J. (1997). Manual de procedimientos estadísticos paramétricos y no paramétricos. Boca Raton, Fl: CRC Press.

[3] Liebetrau, Albert M. (1983). Medidas de asociación . Newbury Park, CA: Publicaciones Sage. Aplicaciones cuantitativas en la serie de ciencias sociales No. 32. (páginas 15-16)

[4] "Rcompanion: Funciones de apoyo a la evaluación del programa de educación de extensión" . 2019-01-03.

[5] "Lsr: compañero de" Estadísticas de aprendizaje con R " " . 2015-03-02.

[bergsma13-6] Bergsma, Wicher (2013). "Una corrección de sesgo para V de Cramér y T de Tschuprow". Revista de la Sociedad de Estadística de Corea . 42 (3): 323–328. doi : 10.1016 / j.jkss.2012.10.002 .

[7] Bartlett, Maurice S. (1937). "Propiedades de las pruebas de suficiencia y estadísticas" . Actas de la Royal Society of London . Serie A. 160 (901): 268–282. doi : 10.1098 / rspa.1937.0109 . JSTOR 96803 .

[1]