En estadística , el coeficiente de correlación de rango de Kendall , comúnmente conocido como coeficiente τ de Kendall (después de la letra griega τ , tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.
Es una medida de correlación de rango : la similitud de los ordenamientos de los datos cuando se clasifican por cada una de las cantidades. Lleva el nombre de Maurice Kendall , quien lo desarrolló en 1938, [1] aunque Gustav Fechner había propuesto una medida similar en el contexto de las series de tiempo en 1897. [2]
Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre las dos variables, y baja cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.
Ambos de Kendall y Spearmanpueden formularse como casos especiales de un coeficiente de correlación más general .
Definición
Dejar ser un conjunto de observaciones de las variables aleatorias conjuntas X e Y , de manera que todos los valores de () y () son únicos (los lazos se descuidan por simplicidad). Cualquier par de observaciones y , dónde , se dice que son concordantes si el orden de y está de acuerdo: es decir, si ambos y sostiene o ambos y ; de lo contrario, se dice que son discordantes .
El coeficiente τ de Kendall se define como:
Dónde es el coeficiente binomial para el número de formas de elegir dos elementos de n elementos.
Propiedades
El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1.
- Si la concordancia entre las dos clasificaciones es perfecta (es decir, las dos clasificaciones son iguales), el coeficiente tiene valor 1.
- Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es la inversa de la otra), el coeficiente tiene valor -1.
- Si X e Y son independientes , entonces esperaríamos que el coeficiente fuera aproximadamente cero.
- Una expresión explícita para el coeficiente de rango de Kendall es .
Prueba de hipotesis
El coeficiente de rango de Kendall se utiliza a menudo como un estadístico de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse estadísticamente dependientes. Esta prueba no es paramétrica , ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X , Y ).
Bajo la hipótesis nula de independencia de X e Y , la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no se puede caracterizar en términos de distribuciones comunes, pero se puede calcular exactamente para muestras pequeñas; para muestras más grandes, es común utilizar una aproximación a la distribución normal , con media cero y varianza
- . [4]
Contabilización de los lazos
Un par se dice que está atado si o ; una pareja empatada no es concordante ni discordante. Cuando surgen pares empatados en los datos, el coeficiente puede modificarse de varias formas para mantenerlo en el rango [−1, 1]:
Tau-a
La estadística Tau-a prueba la fuerza de asociación de las tabulaciones cruzadas . Ambas variables deben ser ordinales . Tau-a no hará ningún ajuste por las corbatas. Se define como:
donde n c , n d y n 0 se definen como en la siguiente sección.
Tau-b
La estadística Tau-b, a diferencia de Tau-a, hace ajustes para los empates. [5] Los valores de Tau-b oscilan entre -1 (100% de asociación negativa o inversión perfecta) y +1 (100% de asociación positiva o concordancia perfecta). Un valor de cero indica la ausencia de asociación.
El coeficiente de Kendall Tau-b se define como:
dónde
Tenga en cuenta que algunos paquetes estadísticos, por ejemplo, SPSS, utilizan fórmulas alternativas para la eficiencia computacional, con el doble del número "habitual" de pares concordantes y discordantes. [6]
Tau-c
Tau-c (también llamado Stuart-Kendall Tau-c) [7] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares) . [7] [8] Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable puede puntuarse en una escala de 5 puntos (muy buena, buena, media, mala, muy mala), mientras que la otra puede basarse en una escala más fina de 10 puntos.
El coeficiente de Kendall Tau-c se define como: [8]
dónde
Pruebas de significancia
Cuando dos cantidades son estadísticamente independientes, la distribución de no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como una normal estándar cuando las variables son estadísticamente independientes:
Por lo tanto, para probar si dos variables son estadísticamente dependientes, se calcula , y encuentra la probabilidad acumulada para una distribución normal estándar en . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, se rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.
Se deben agregar numerosos ajustes a al contabilizar los lazos. La siguiente estadística,, tiene la misma distribución que el distribución, y de nuevo es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:
dónde
Esto a veces se denomina prueba de Mann-Kendall. [9]
Algoritmos
El cálculo directo del numerador , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:
numer: = 0 para i: = 2..N do para j: = 1 .. (i - 1) do número: = número + signo (x [i] - x [j]) × signo (y [i] - y [j])retorno numérico
Aunque rápido de implementar, este algoritmo es en complejidad y se vuelve muy lento en muestras grandes. Un algoritmo más sofisticado [10] construido sobre el algoritmo Merge Sort se puede utilizar para calcular el numerador en hora.
Comience ordenando sus puntos de datos clasificando por la primera cantidad, , y secundariamente (entre lazos en ) por la segunda cantidad, . Con este pedido inicial,no está ordenada, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una clasificación de burbujas para ordenar esta. Un algoritmo mejorado de clasificación por combinación , con complejidad, se puede aplicar para calcular el número de intercambios, , que sería requerido por una clasificación de burbujas para ordenar. Entonces el numerador para se calcula como:
dónde se calcula como y , pero con respecto a los lazos conjuntos en y .
Un ordenamiento combinado divide los datos que se van a ordenar, en dos mitades aproximadamente iguales, y , luego ordena cada mitad de forma recursiva y luego fusiona las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:
dónde y son las versiones ordenadas de y , y caracteriza el equivalente de intercambio de Bubble Sort para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:
la función M (L [1..n], R [1..m]) es yo: = 1 j: = 1 nSwaps: = 0 mientras que i ≤ n y j ≤ m lo hacen si R [j]entonces nSwaps: = nSwaps + n - i + 1 j: = j + 1 demás yo: = yo + 1 devolver nSwaps
Un efecto secundario de los pasos anteriores es que terminas con una versión ordenada de y una versión ordenada de . Con estos, los factores y utilizado para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.
Implementaciones de software
- El paquete base de estadísticas de R implementa la prueba cor.test(x, y, method = "kendall")en su paquete "stats" (también
cor(x, y, method = "kendall")
funcionará, pero sin devolver el valor p). - Para Python , la biblioteca SciPy implementa el cálculo de en scipy.stats.kendalltau
Ver también
- Correlación
- Distancia de Kendall tau
- W de Kendall
- Coeficiente de correlación de rango de Spearman
- La gamma de Goodman y Kruskal
- Estimador de Theil-Sen
- Prueba U de Mann-Whitney : es equivalente al coeficiente de correlación tau de Kendall si una de las variables es binaria.
Referencias
- ^ Kendall, M. (1938). "Una nueva medida de correlación de rango". Biometrika . 30 (1–2): 81–89. doi : 10.1093 / biomet / 30.1-2.81 . JSTOR 2332226 .
- ^ Kruskal, WH (1958). "Medidas Ordinales de Asociación". Revista de la Asociación Estadounidense de Estadística . 53 (284): 814–861. doi : 10.2307 / 2281954 . JSTOR 2281954 . Señor 0100941 .
- ^ Nelsen, RB (2001) [1994], "Kendall tau metric" , Encyclopedia of Mathematics , EMS Press
- ^ Prokhorov, AV (2001) [1994], "Coeficiente de correlación de rango de Kendall" , Encyclopedia of Mathematics , EMS Press
- ^ Agresti, A. (2010). Análisis de datos categóricos ordinales (Segunda ed.). Nueva York: John Wiley & Sons. ISBN 978-0-470-08289-8.
- ^ IBM (2016). Algoritmos de IBM SPSS Statistics 24 . IBM. pag. 168 . Consultado el 31 de agosto de 2017 .
- ^ a b Berry, KJ; Johnston, JE; Zahran, S .; Mielke, PW (2009). "Medida tau de Stuart del tamaño del efecto para las variables ordinales: algunas consideraciones metodológicas" . Métodos de investigación del comportamiento . 41 (4): 1144-1148. doi : 10.3758 / brm.41.4.1144 . PMID 19897822 .
- ^ a b Stuart, A. (1953). "La estimación y comparación de fortalezas de asociación en tablas de contingencia". Biometrika . 40 (1-2): 105-110. doi : 10.2307 / 2333101 . JSTOR 2333101 .
- ^ Glen_b. "Relación entre Mann-Kendall y Kendall Tau-b" .
- ^ Knight, W. (1966). "Un método informático para calcular la Tau de Kendall con datos desagrupados". Revista de la Asociación Estadounidense de Estadística . 61 (314): 436–439. doi : 10.2307 / 2282833 . JSTOR 2282833 .
Otras lecturas
- Abdi, H. (2007). "Correlación de rango de Kendall" (PDF) . En Salkind, Nueva Jersey (ed.). Enciclopedia de Medición y Estadística . Thousand Oaks (CA): salvia.
- Daniel, Wayne W. (1990). "Tau de Kendall" . Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 365–377. ISBN 978-0-534-91976-4.
- Kendall, Maurice; Gibbons, Jean Dickinson (1990) [Publicado por primera vez en 1948]. Métodos de correlación de rango . Serie de libros de Charles Griffin (5ª ed.). Oxford: Prensa de la Universidad de Oxford. ISBN 978-0195208375.
- Bonett, Douglas G .; Wright, Thomas A. (2000). "Requisitos de tamaño de la muestra para estimar las correlaciones de Pearson, Kendall y Spearman". Psychometrika . 65 (1): 23-28. doi : 10.1007 / BF02294183 .
enlaces externos
- Cálculo de rango empatado
- Software para calcular la tau de Kendall en conjuntos de datos muy grandes
- Software en línea: calcula la correlación de rango tau de Kendall
- El procedimiento CORR: cálculos estadísticos - McDonough School of Business