Coeficiente de correlación de rango de Kendall

En estadística , el coeficiente de correlación de rango de Kendall , comúnmente conocido como coeficiente τ de Kendall (después de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.

Es una medida de correlación de rango : la similitud de los ordenamientos de los datos cuando se clasifican por cada una de las cantidades. Lleva el nombre de Maurice Kendall , quien lo desarrolló en 1938, ^[1] aunque Gustav Fechner había propuesto una medida similar en el contexto de las series de tiempo en 1897. ^[2]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre las dos variables, y baja cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.

Ambos de Kendall ${\ Displaystyle \ tau}$ y Spearman ${\ Displaystyle \ rho}$ pueden formularse como casos especiales de un coeficiente de correlación más general .

Definición

Todos los puntos en el área gris son concordantes y todos los puntos en el área blanca son discordantes con respecto al punto

{\ Displaystyle (X_ {1}, Y_ {1})}

. Con

{\ Displaystyle n = 30}

puntos, hay un total de

{\ Displaystyle {\ binom {30} {2}} = 435}

posibles pares de puntos. En este ejemplo, hay 395 pares de puntos concordantes y 40 pares de puntos discordantes, lo que lleva a un coeficiente de correlación de rango de Kendall de 0,816.

Dejar ${\ Displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ ser un conjunto de observaciones de las variables aleatorias conjuntas X e Y , de manera que todos los valores de ( ${\ Displaystyle x_ {i}}$ ) y ( ${\ Displaystyle y_ {i}}$ ) son únicos (los lazos se descuidan por simplicidad). Cualquier par de observaciones ${\ Displaystyle (x_ {i}, y_ {i})}$ y ${\ Displaystyle (x_ {j}, y_ {j})}$ , dónde ${\ Displaystyle i }>$ , se dice que son concordantes si el orden de ${\ Displaystyle (x_ {i}, x_ {j})}$ y ${\ Displaystyle (y_ {i}, y_ {j})}$ está de acuerdo: es decir, si ambos ${\ Displaystyle x_ {i}> x_ {j}}$ y ${\ Displaystyle y_ {i}> y_ {j}}$ sostiene o ambos ${\ Displaystyle x_ {i}$ y ${\ Displaystyle y_ {i}$ ; de lo contrario, se dice que son discordantes .

El coeficiente τ de Kendall se define como:

{\ displaystyle \ tau = {\ frac {({\ text {número de pares concordantes}}) - ({\ text {número de pares discordantes}})} {n \ elige 2}}.}

^[3]

Dónde ${\ Displaystyle {n \ Choose 2} = {n (n-1) \ over 2}}$ es el coeficiente binomial para el número de formas de elegir dos elementos de n elementos.

Propiedades

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1.

Si la concordancia entre las dos clasificaciones es perfecta (es decir, las dos clasificaciones son iguales), el coeficiente tiene valor 1.
Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es la inversa de la otra), el coeficiente tiene valor -1.
Si X e Y son independientes , entonces esperaríamos que el coeficiente fuera aproximadamente cero.
Una expresión explícita para el coeficiente de rango de Kendall es ${\ Displaystyle \ tau = {\ frac {2} {n (n-1)}} \ sum _ {i }>$ .

Prueba de hipotesis

El coeficiente de rango de Kendall se utiliza a menudo como un estadístico de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X , Y ).

Bajo la hipótesis nula de independencia de X e Y , la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no se puede caracterizar en términos de distribuciones comunes, pero se puede calcular exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza

{\ Displaystyle {\ frac {2 (2n + 5)} {9n (n-1)}}}

. ^[4]

Contabilización de los lazos

Un par ${\ Displaystyle \ {(x_ {i}, y_ {i}), (x_ {j}, y_ {j}) \}}$ se dice que está atado si ${\ Displaystyle x_ {i} = x_ {j}}$ o ${\ Displaystyle y_ {i} = y_ {j}}$ ; una pareja empatada no es concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente puede modificarse de varias formas para mantenerlo en el rango [−1, 1]:

Tau-a

La estadística Tau-a prueba la fuerza de asociación de las tabulaciones cruzadas . Ambas variables deben ser ordinales . Tau-a no hará ningún ajuste por las corbatas. Se define como:

{\ Displaystyle \ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}}

donde n _c , n _d y n ₀ se definen como en la siguiente sección.

Tau-b

La estadística Tau-b, a diferencia de Tau-a, hace ajustes para los empates. ^{[5] Los} valores de Tau-b oscilan entre -1 (100% de asociación negativa o inversión perfecta) y +1 (100% de asociación positiva o concordancia perfecta). Un valor de cero indica la ausencia de asociación.

El coeficiente de Kendall Tau-b se define como:

{\ Displaystyle \ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2}) }}}}

dónde

{\ Displaystyle {\ begin {alineado} n_ {0} & = n (n-1) / 2 \\ n_ {1} & = \ sum _ {i} t_ {i} (t_ {i} -1) / 2 \\ n_ {2} & = \ sum _ {j} u_ {j} (u_ {j} -1) / 2 \\ n_ {c} & = {\ text {Número de pares concordantes}} \\ n_ {d} & = {\ text {Número de pares discordantes}} \\ t_ {i} & = {\ text {Número de valores vinculados en el}} i ^ {\ text {th}} {\ text {grupo de empates para la primera cantidad}} \\ u_ {j} & = {\ text {Número de valores empatados en el}} j ^ {\ text {th}} {\ text {grupo de empates para la segunda cantidad}} \ final {alineado}}}

Tenga en cuenta que algunos paquetes estadísticos, por ejemplo, SPSS, utilizan fórmulas alternativas para la eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. ^[6]

Tau-c

Tau-c (también llamado Stuart-Kendall Tau-c) ^[7] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares) . ^[7]^[8] Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable puede puntuarse en una escala de 5 puntos (muy buena, buena, media, mala, muy mala), mientras que la otra puede basarse en una escala más fina de 10 puntos.

El coeficiente de Kendall Tau-c se define como: ^[8]

{\ Displaystyle \ tau _ {C} = {\ frac {2 (n_ {c} -n_ {d})} {n ^ {2} {\ frac {(m-1)} {m}}}}}

dónde

{\ displaystyle {\ begin {alineado} n_ {c} & = {\ text {Número de pares concordantes}} \\ n_ {d} & = {\ text {Número de pares discordantes}} \\ r & = {\ text {Número de filas}} \\ c & = {\ text {Número de columnas}} \\ m & = \ min (r, c) \ end {alineado}}}

Pruebas de significancia

Cuando dos cantidades son estadísticamente independientes, la distribución de ${\ Displaystyle \ tau}$ no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para ${\ Displaystyle \ tau _ {A}}$ la siguiente estadística, ${\ Displaystyle z_ {A}}$ , se distribuye aproximadamente como una normal estándar cuando las variables son estadísticamente independientes:

{\ Displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) \ over {\ sqrt {n (n-1) (2n + 5) / 2}}}}

Por lo tanto, para probar si dos variables son estadísticamente dependientes, se calcula ${\ Displaystyle z_ {A}}$ , y encuentra la probabilidad acumulada para una distribución normal estándar en ${\ Displaystyle - | z_ {A} |}$ . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben agregar numerosos ajustes a ${\ Displaystyle z_ {A}}$ al contabilizar los lazos. La siguiente estadística, ${\ Displaystyle z_ {B}}$ , tiene la misma distribución que el ${\ Displaystyle \ tau _ {B}}$ distribución, y de nuevo es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

{\ Displaystyle z_ {B} = {n_ {c} -n_ {d} \ over {\ sqrt {v}}}}

dónde

{\ Displaystyle {\ begin {array} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} \\ v_ {0} & = & n (n-1) (2n + 5) \\ v_ {t} & = & \ sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) \\ v_ {u} & = & \ sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) \\ v_ {1} & = & \ sum _ {i} t_ {i } (t_ {i} -1) \ sum _ {j} u_ {j} (u_ {j} -1) / (2n (n-1)) \\ v_ {2} & = & \ sum _ {i } t_ {i} (t_ {i} -1) (t_ {i} -2) \ sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n-1) (n-2)) \ end {matriz}}}

Esto a veces se denomina prueba de Mann-Kendall. ^[9]

Algoritmos

El cálculo directo del numerador ${\ Displaystyle n_ {c} -n_ {d}}$ , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:

numer: = 0 para i: = 2..N do  para j: = 1 .. (i - 1) do número: = número + signo (x [i] - x [j]) × signo (y [i] - y [j])retorno numérico

Aunque rápido de implementar, este algoritmo es ${\ Displaystyle O (n ^ {2})}$ en complejidad y se vuelve muy lento en muestras grandes. Un algoritmo más sofisticado ^[10] construido sobre el algoritmo Merge Sort se puede utilizar para calcular el numerador en ${\ Displaystyle O (n \ cdot \ log {n})}$ hora.

Comience ordenando sus puntos de datos clasificando por la primera cantidad, ${\ Displaystyle x}$ , y secundariamente (entre lazos en ${\ Displaystyle x}$ ) por la segunda cantidad, ${\ Displaystyle y}$ . Con este pedido inicial, ${\ Displaystyle y}$ no está ordenada, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una clasificación de burbujas para ordenar esta ${\ Displaystyle y}$ . Un algoritmo mejorado de clasificación por combinación , con ${\ Displaystyle O (n \ log n)}$ complejidad, se puede aplicar para calcular el número de intercambios, ${\ Displaystyle S (y)}$ , que sería requerido por una clasificación de burbujas para ordenar ${\ Displaystyle y_ {i}}$ . Entonces el numerador para ${\ Displaystyle \ tau}$ se calcula como:

{\ Displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y),}

dónde ${\ Displaystyle n_ {3}}$ se calcula como ${\ Displaystyle n_ {1}}$ y ${\ Displaystyle n_ {2}}$ , pero con respecto a los lazos conjuntos en ${\ Displaystyle x}$ y ${\ Displaystyle y}$ .

Un ordenamiento combinado divide los datos que se van a ordenar, ${\ Displaystyle y}$ en dos mitades aproximadamente iguales, ${\ Displaystyle y _ {\ mathrm {izquierda}}}$ y ${\ displaystyle y _ {\ mathrm {derecha}}}$ , luego ordena cada mitad de forma recursiva y luego fusiona las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:

{\ Displaystyle S (y) = S (y _ {\ mathrm {izquierda}}) + S (y _ {\ mathrm {derecha}}) + M (Y _ {\ mathrm {izquierda}}, Y _ {\ mathrm {derecha} })}

dónde ${\ Displaystyle Y _ {\ mathrm {izquierda}}}$ y ${\ displaystyle Y _ {\ mathrm {derecha}}}$ son las versiones ordenadas de ${\ Displaystyle y _ {\ mathrm {izquierda}}}$ y ${\ displaystyle y _ {\ mathrm {derecha}}}$ , y ${\ Displaystyle M (\ cdot, \ cdot)}$ caracteriza el equivalente de intercambio de Bubble Sort para una operación de fusión. ${\ Displaystyle M (\ cdot, \ cdot)}$ se calcula como se muestra en el siguiente pseudocódigo:

la función M (L [1..n], R [1..m]) es yo: = 1 j: = 1 nSwaps: = 0 mientras que i ≤ n y j ≤ m lo hacen  si R [j] entonces nSwaps: = nSwaps + n - i + 1 j: = j + 1 demás yo: = yo + 1 devolver nSwaps

Un efecto secundario de los pasos anteriores es que terminas con una versión ordenada de ${\ Displaystyle x}$ y una versión ordenada de ${\ Displaystyle y}$ . Con estos, los factores ${\ Displaystyle t_ {i}}$ y ${\ Displaystyle u_ {j}}$ utilizado para calcular ${\ Displaystyle \ tau _ {B}}$ se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Implementaciones de software

El paquete base de estadísticas de R implementa la prueba cor.test(x, y, method = "kendall")en su paquete "stats" (también cor(x, y, method = "kendall")funcionará, pero sin devolver el valor p).
Para Python , la biblioteca SciPy implementa el cálculo de ${\ Displaystyle \ tau}$ en scipy.stats.kendalltau

Ver también

Correlación
Distancia de Kendall tau
W de Kendall
Coeficiente de correlación de rango de Spearman
La gamma de Goodman y Kruskal
Estimador de Theil-Sen
Prueba U de Mann-Whitney : es equivalente al coeficiente de correlación tau de Kendall si una de las variables es binaria.

Referencias

^ Kendall, M. (1938). "Una nueva medida de correlación de rango". Biometrika . 30 (1–2): 81–89. doi : 10.1093 / biomet / 30.1-2.81 . JSTOR 2332226 .
^ Kruskal, WH (1958). "Medidas Ordinales de Asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi : 10.2307 / 2281954 . JSTOR 2281954 . Señor 0100941 .
^ Nelsen, RB (2001) [1994], "Kendall tau metric" , Encyclopedia of Mathematics , EMS Press
^ Prokhorov, AV (2001) [1994], "Coeficiente de correlación de rango de Kendall" , Encyclopedia of Mathematics , EMS Press
^ Agresti, A. (2010). Análisis de datos categóricos ordinales (Segunda ed.). Nueva York: John Wiley & Sons. ISBN 978-0-470-08289-8.
^ IBM (2016). Algoritmos de IBM SPSS Statistics 24 . IBM. pag. 168 . Consultado el 31 de agosto de 2017 .
^ a b Berry, KJ; Johnston, JE; Zahran, S .; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para las variables ordinales: algunas consideraciones metodológicas" . Métodos de investigación del comportamiento . 41 (4): 1144-1148. doi : 10.3758 / brm.41.4.1144 . PMID 19897822 .
^ a b Stuart, A. (1953). "La estimación y comparación de fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1-2): 105-110. doi : 10.2307 / 2333101 . JSTOR 2333101 .
^ Glen_b. "Relación entre Mann-Kendall y Kendall Tau-b" .
^ Knight, W. (1966). "Un método informático para calcular la Tau de Kendall con datos desagrupados". Revista de la Asociación Estadounidense de Estadística . 61 (314): 436–439. doi : 10.2307 / 2282833 . JSTOR 2282833 .

Otras lecturas

Abdi, H. (2007). "Correlación de rango de Kendall" (PDF) . En Salkind, Nueva Jersey (ed.). Enciclopedia de Medición y Estadística . Thousand Oaks (CA): salvia.
Daniel, Wayne W. (1990). "Tau de Kendall" . Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 365–377. ISBN 978-0-534-91976-4.
Kendall, Maurice; Gibbons, Jean Dickinson (1990) [Publicado por primera vez en 1948]. Métodos de correlación de rango . Serie de libros de Charles Griffin (5ª ed.). Oxford: Prensa de la Universidad de Oxford. ISBN 978-0195208375.
Bonett, Douglas G .; Wright, Thomas A. (2000). "Requisitos de tamaño de la muestra para estimar las correlaciones de Pearson, Kendall y Spearman". Psychometrika . 65 (1): 23-28. doi : 10.1007 / BF02294183 .

enlaces externos

Cálculo de rango empatado
Software para calcular la tau de Kendall en conjuntos de datos muy grandes
Software en línea: calcula la correlación de rango tau de Kendall
El procedimiento CORR: cálculos estadísticos - McDonough School of Business

[1] Kendall, M. (1938). "Una nueva medida de correlación de rango". Biometrika . 30 (1–2): 81–89. doi : 10.1093 / biomet / 30.1-2.81 . JSTOR 2332226 .

[2] Kruskal, WH (1958). "Medidas Ordinales de Asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi : 10.2307 / 2281954 . JSTOR 2281954 . Señor 0100941 .

[3] Nelsen, RB (2001) [1994], "Kendall tau metric" , Encyclopedia of Mathematics , EMS Press

[4] Prokhorov, AV (2001) [1994], "Coeficiente de correlación de rango de Kendall" , Encyclopedia of Mathematics , EMS Press

[5] Agresti, A. (2010). Análisis de datos categóricos ordinales (Segunda ed.). Nueva York: John Wiley & Sons. ISBN 978-0-470-08289-8.

[IBM-6] IBM (2016). Algoritmos de IBM SPSS Statistics 24 . IBM. pag. 168 . Consultado el 31 de agosto de 2017 .

[Berry-7] Berry, KJ; Johnston, JE; Zahran, S .; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para las variables ordinales: algunas consideraciones metodológicas" . Métodos de investigación del comportamiento . 41 (4): 1144-1148. doi : 10.3758 / brm.41.4.1144 . PMID 19897822 .

[Stuart-8] Stuart, A. (1953). "La estimación y comparación de fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1-2): 105-110. doi : 10.2307 / 2333101 . JSTOR 2333101 .

[9] Glen_b. "Relación entre Mann-Kendall y Kendall Tau-b" .

[10] Knight, W. (1966). "Un método informático para calcular la Tau de Kendall con datos desagrupados". Revista de la Asociación Estadounidense de Estadística . 61 (314): 436–439. doi : 10.2307 / 2282833 . JSTOR 2282833 .

[1]