En estadística , el coeficiente de correlación de rango de Spearman o ρ de Spearman , llamado así por Charles Spearman y a menudo denotado por la letra griega (rho) o como , es una medida no paramétrica de correlación de rango ( dependencia estadística entre las clasificaciones de dos variables ). Evalúa qué tan bien se puede describir la relación entre dos variables utilizando una función monótona .
La correlación de Spearman entre dos variables es igual a la correlación de Pearson entre los valores de rango de esas dos variables; mientras que la correlación de Pearson evalúa las relaciones lineales, la correlación de Spearman evalúa las relaciones monótonas (ya sean lineales o no). Si no hay valores de datos repetidos, se produce una correlación de Spearman perfecta de +1 o -1 cuando cada una de las variables es una función monótona perfecta de la otra.
Intuitivamente, la correlación de Spearman entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre las dos variables, y baja cuando las observaciones tienen un rango diferente (o totalmente opuesto para una correlación de -1) entre las dos variables.
El coeficiente de Spearman es apropiado tanto para variables ordinales continuas como discretas . [1] [2] Ambos Spearmany Kendall'spueden formularse como casos especiales de un coeficiente de correlación más general .
Definición y cálculo
El coeficiente de correlación de Spearman se define como el coeficiente de correlación de Pearson entre las variables de rango . [3]
Para una muestra de tamaño n , las n puntuaciones brutas se convierten en rangos , y se calcula como
dónde
- denota el coeficiente de correlación de Pearson habitual , pero aplicado a las variables de rango,
- es la covarianza de las variables de rango,
- y son las desviaciones estándar de las variables de rango.
Solo si todos los n rangos son enteros distintos , se puede calcular usando la fórmula popular
dónde
- es la diferencia entre los dos rangos de cada observación,
- n es el número de observaciones.
A los valores idénticos se les suele asignar [4] a cada uno de ellos rangos fraccionarios iguales al promedio de sus posiciones en el orden ascendente de los valores, lo que equivale a promediar todas las permutaciones posibles.
Si hay vínculos en el conjunto de datos, la fórmula simplificada anterior produce resultados incorrectos: solo si en ambas variables todos los rangos son distintos, entonces (calculado según la varianza sesgada). La primera ecuación - normalizada por la desviación estándar - puede usarse incluso cuando los rangos se normalizan a [0, 1] ("rangos relativos") porque es insensible tanto a la traducción como a la escala lineal.
El método simplificado tampoco debe utilizarse en los casos en que el conjunto de datos esté truncado; es decir, cuando se desea el coeficiente de correlación de Spearman para los registros X superiores (ya sea por rango previo al cambio o rango posterior al cambio, o ambos), el usuario debe usar la fórmula del coeficiente de correlación de Pearson dada anteriormente. [5]
Cantidades relacionadas
Hay varias otras medidas numéricas que cuantifican el grado de dependencia estadística entre pares de observaciones. El más común de ellos es el coeficiente de correlación producto-momento de Pearson , que es un método de correlación similar al rango de Spearman, que mide las relaciones "lineales" entre los números brutos en lugar de entre sus rangos.
Un nombre alternativo para la correlación de rango de Spearman es "correlación de grado"; [6] en esto, el "rango" de una observación se reemplaza por el "grado". En distribuciones continuas, la calificación de una observación es, por convención, siempre la mitad menos que el rango y, por lo tanto, las correlaciones de grado y rango son las mismas en este caso. De manera más general, el "grado" de una observación es proporcional a una estimación de la fracción de una población menor que un valor dado, con el ajuste de la mitad de la observación en los valores observados. Por tanto, esto corresponde a un posible tratamiento de los rangos empatados. Aunque es inusual, el término "correlación de calificaciones" todavía se utiliza. [7]
Interpretación
El signo de la correlación de Spearman indica la dirección de asociación entre X (la variable independiente) e Y (la variable dependiente). Si Y tiende a aumentar cuando X aumenta, el coeficiente de correlación de Spearman es positivo. Si Y tiende a disminuir cuando X aumenta, el coeficiente de correlación de Spearman es negativo. Una correlación de Spearman de cero indica que no hay tendencia a que Y aumente o disminuya cuando X aumenta. La correlación de Spearman aumenta en magnitud a medida que X e Y se acercan a ser funciones perfectamente monótonas entre sí. Cuando X e Y están perfectamente relacionados de manera monótona, el coeficiente de correlación de Spearman se convierte en 1. Una relación creciente perfectamente monótona implica que para dos pares cualesquiera de valores de datos X i , Y i y X j , Y j , que X i - X j e Y i - Y j siempre tienen el mismo signo. Una relación decreciente perfectamente monótona implica que estas diferencias siempre tienen signos opuestos.
El coeficiente de correlación de Spearman se describe a menudo como "no paramétrico". Esto puede tener dos significados. Primero, se obtiene una correlación de Spearman perfecta cuando X e Y están relacionados por cualquier función monótona . Compare esto con la correlación de Pearson, que solo da un valor perfecto cuando X e Y están relacionados por una función lineal . El otro sentido en el que la correlación de Spearman no paramétrico es es que su distribución de muestreo exacta se puede obtener sin necesidad de conocimientos (es decir, conociendo los parámetros) de la distribución de probabilidad conjunta de X y Y .
Ejemplo
En este ejemplo, los datos brutos de la siguiente tabla se utilizan para calcular la correlación entre el coeficiente intelectual de una persona y la cantidad de horas que pasa frente a la televisión por semana. [ cita requerida ]
IQ , | Horas de TV por semana, |
---|---|
106 | 7 |
100 | 27 |
86 | 2 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
En primer lugar, evalúe . Para hacerlo, utilice los siguientes pasos, que se reflejan en la tabla siguiente.
- Ordene los datos por la primera columna (). Crea una nueva columnay asígnele los valores clasificados 1, 2, 3, ..., n .
- A continuación, ordene los datos por la segunda columna (). Crea una cuarta columnay de manera similar, asígnele los valores clasificados 1, 2, 3, ..., n .
- Crea una quinta columna para mantener las diferencias entre las dos columnas de rango ( y ).
- Crea una columna final mantener el valor de la columna al cuadrado.
IQ , | Horas de TV por semana, | rango | rango | ||
---|---|---|---|---|---|
86 | 2 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | −4 | dieciséis |
99 | 28 | 3 | 8 | −5 | 25 |
100 | 27 | 4 | 7 | −3 | 9 |
101 | 50 | 5 | 10 | −5 | 25 |
103 | 29 | 6 | 9 | −3 | 9 |
106 | 7 | 7 | 3 | 4 | dieciséis |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
Con encontrado, agréguelos para encontrar . El valor de n es 10. Estos valores ahora se pueden volver a sustituir en la ecuación.
dar
que se evalúa como ρ = −29/165 = −0,175757575 ... con un valor p = 0,627188 (usando la distribución t ).
Que el valor sea cercano a cero muestra que la correlación entre el coeficiente intelectual y las horas dedicadas a ver televisión es muy baja, aunque el valor negativo sugiere que cuanto más tiempo se pasa viendo televisión, menor es el coeficiente intelectual. En el caso de empates en los valores originales, esta fórmula no debe usarse; en cambio, el coeficiente de correlación de Pearson debe calcularse en los rangos (donde los empates se dan rangos, como se describe arriba).
Determinando la importancia
Un enfoque para probar si un valor observado de ρ es significativamente diferente de cero ( r siempre mantendrá −1 ≤ r ≤ 1 ) es calcular la probabilidad de que sea mayor o igual a la r observada , dada la hipótesis nula , mediante el uso de una prueba de permutación . Una ventaja de este enfoque es que tiene en cuenta automáticamente el número de valores de datos vinculados en la muestra y la forma en que se tratan al calcular la correlación de rango.
Otro enfoque es paralelo al uso de la transformación de Fisher en el caso del coeficiente de correlación producto-momento de Pearson. Es decir, los intervalos de confianza y las pruebas de hipótesis relacionadas con el valor poblacional ρ se pueden realizar utilizando la transformación de Fisher:
Si F ( r ) es la transformación de Fisher de r , el coeficiente de correlación de rango de Spearman de la muestra, yn es el tamaño de la muestra, entonces
es una puntuación z para r , que sigue aproximadamente una distribución normal estándar bajo la hipótesis nula de independencia estadística ( ρ = 0 ). [8] [9]
También se puede probar la significancia usando
que se distribuye aproximadamente como de Student t -distribución con n - 2 grados de libertad bajo la hipótesis nula . [10] Una justificación de este resultado se basa en un argumento de permutación. [11]
Una generalización del coeficiente de Spearman es útil en la situación en la que hay tres o más condiciones, se observa un número de sujetos en cada una de ellas y se predice que las observaciones tendrán un orden particular. Por ejemplo, a un número de sujetos se les pueden asignar tres ensayos en la misma tarea, y se predice que el rendimiento mejorará de un ensayo a otro. EB Page [12] desarrolló una prueba de la importancia de la tendencia entre las condiciones en esta situación y generalmente se la denomina prueba de tendencia de Page para las alternativas ordenadas.
Análisis de correspondencia basado en ρ de Spearman
El análisis de correspondencia clásico es un método estadístico que otorga una puntuación a cada valor de dos variables nominales. De esta forma se maximiza el coeficiente de correlación de Pearson entre ellos.
Existe un equivalente de este método, llamado análisis de correspondencia de calificaciones , que maximiza la ρ de Spearman o la τ de Kendall . [13]
Aproximación de la ρ de Spearman de una corriente
Hay dos enfoques existentes para aproximar el coeficiente de correlación de rango de Spearman a partir de la transmisión de datos. [14] [15] El primer enfoque [14] implica engrosar la distribución conjunta de. Para continuo valores: los puntos de corte se seleccionan para y respectivamente, discretizando estas variables aleatorias. Los puntos de corte predeterminados se agregan en y . Una matriz de conteo de tamaño, denotado , luego se construye donde almacena el número de observaciones que caen en la celda bidimensional indexada por . Para la transmisión de datos, cuando llega una nueva observación, else incrementa el elemento. A continuación, se puede calcular la correlación de rango de Spearman, basándose en la matriz de recuento, usando operaciones de álgebra lineal (Algoritmo 2 [14] ). Tenga en cuenta que para las variables aleatorias discretas, no es necesario ningún procedimiento de discretización. Este método es aplicable a la transmisión de datos estacionarios, así como a grandes conjuntos de datos. Para datos de transmisión no estacionarios, donde el coeficiente de correlación de rango de Spearman puede cambiar con el tiempo, se puede aplicar el mismo procedimiento, pero a una ventana móvil de observaciones. Cuando se usa una ventana móvil, los requisitos de memoria crecen linealmente con el tamaño de la ventana elegida.
El segundo enfoque para aproximar el coeficiente de correlación de rangos de Spearman a partir de datos en continuo implica el uso de estimadores basados en series de Hermite. [15] Estos estimadores, basados en polinomios de Hermite , permiten la estimación secuencial de la función de densidad de probabilidad y la función de distribución acumulada en casos univariados y bivariados. Los estimadores de densidad de series de Hermite bivariados y los estimadores de funciones de distribución acumulativa basados en series de Hermite univariantes se conectan a una versión de muestra grande del estimador de coeficiente de correlación de rango de Spearman, para proporcionar un estimador de correlación de Spearman secuencial. Este estimador está redactado en términos de operaciones de álgebra lineal para la eficiencia computacional (ecuación (8) y algoritmo 1 y 2 [15] ). Estos algoritmos solo son aplicables a datos de variables aleatorias continuas, pero tienen ciertas ventajas sobre el enfoque de matriz de recuento en esta configuración. La primera ventaja es la precisión mejorada cuando se aplica a un gran número de observaciones. La segunda ventaja es que el coeficiente de correlación de rango de Spearman se puede calcular en corrientes no estacionarias sin depender de una ventana móvil. En cambio, el estimador basado en la serie de Hermite utiliza un esquema de ponderación exponencial para rastrear la correlación de rango de Spearman variable en el tiempo de los datos de transmisión, que tiene requisitos de memoria constantes con respecto al tamaño de ventana móvil "efectivo".
Implementaciones de software
- El paquete base de estadísticas de R implementa la prueba cor.test(x, y, method = "spearman")en su paquete "stats" (también
cor(x, y, method = "spearman")
funcionará. - Implementación de MATLAB :
[r,p] = corr(x,y,'Type','Spearman')
donder
es el coeficiente de correlación de rango de Spearman,p
es el valor p yx
yy
son vectores. [dieciséis] - Python . Puede ser calculada con la spearmanr función del módulo scipy.stats.
Ver también
- Coeficiente de correlación de rango de Kendall tau
- Suma la desigualdad de Chebyshev , la desigualdad reordenamiento (Estos dos artículos puede arrojar luz sobre las propiedades matemáticas de Spearman ρ ).
- Correlación de distancia
- Correlación policórica
Referencias
- ^ Tipos de escala .
- ^ Lehman, Ann (2005). Jmp para estadísticas básicas univariadas y multivariadas: una guía paso a paso . Cary, Carolina del Norte: SAS Press. pag. 123 . ISBN 978-1-59047-576-8.
- ^ Myers, Jerome L .; Bueno, Arnold D. (2003). Diseño de investigación y análisis estadístico (2ª ed.). Lawrence Erlbaum. págs. 508 . ISBN 978-0-8058-4037-7.
- ^ Dodge, Yadolah (2010). La enciclopedia concisa de estadística . Springer-Verlag Nueva York. pag. 502 . ISBN 978-0-387-31742-7.
- ^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar (2018). Hacia el aseguramiento de la calidad y la excelencia en la educación superior . River Publishers. pag. 284. ISBN 978-87-93609-54-9.
- ^ Yule, GU; Kendall, MG (1968) [1950]. Introducción a la teoría de la estadística (14ª ed.). Charles Griffin & Co. pág. 268.
- ^ Piantadosi, J .; Howlett, P .; Boland, J. (2007). "Coincidencia del coeficiente de correlación de grado mediante cópula con desorden máximo" . Revista de Optimización Industrial y de Gestión . 3 (2): 305–312. doi : 10.3934 / jimo.2007.3.305 .
- ^ Choi, Carolina del Sur (1977). "Pruebas de igualdad de coeficientes de correlación dependientes". Biometrika . 64 (3): 645–647. doi : 10.1093 / biomet / 64.3.645 .
- ^ Fieller, EC; Hartley, HO; Pearson, ES (1957). "Pruebas de coeficientes de correlación de rango. I". Biometrika . 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634 . doi : 10.1093 / biomet / 44.3-4.470 .
- ^ Prensa; Vettering; Teukolsky; Flannery (1992). Recetas numéricas en C: El arte de la informática científica (2ª ed.). Prensa de la Universidad de Cambridge. pag. 640.
- ^ Kendall, MG; Stuart, A. (1973). "Secciones 31.19, 31.21". La Teoría Avanzada de la Estadística, Volumen 2: Inferencia y Relación . Grifo. ISBN 978-0-85264-215-3.
- ^ Page, EB (1963). "Hipótesis ordenadas para tratamientos múltiples: una prueba de significancia para rangos lineales". Revista de la Asociación Estadounidense de Estadística . 58 (301): 216–230. doi : 10.2307 / 2282965 . JSTOR 2282965 .
- ^ Kowalczyk, T .; Pleszczyńska, E .; Ruland, F., eds. (2004). Modelos de calificaciones y métodos para el análisis de datos con aplicaciones para el análisis de poblaciones de datos . Estudios en Fuzziness y Soft Computing. 151 . Berlín Heidelberg Nueva York: Springer Verlag. ISBN 978-3-540-21120-4.
- ^ a b c Xiao, W. (2019). "Nuevos algoritmos en línea para correlaciones no paramétricas con aplicación para analizar datos de sensores". Conferencia internacional IEEE de 2019 sobre Big Data (Big Data) : 404–412. doi : 10.1109 / BigData47090.2019.9006483 . ISBN 978-1-7281-0858-2.
- ^ a b c Stephanou, Michael; Varughese, Melvin (diciembre de 2020). "Estimación secuencial de correlación no paramétrica utilizando estimadores de la serie de Hermite". arXiv : 2012.06287 [ stat.ME ].
- ^ https://www.mathworks.com/help/stats/corr.html
Otras lecturas
- Corder, G. W. y Foreman, D. I. (2014). Estadística no paramétrica: un enfoque paso a paso, Wiley. ISBN 978-1118840313 .
- Daniel, Wayne W. (1990). "Coeficiente de correlación de rango de Spearman" . Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 358–365. ISBN 978-0-534-91976-4.
- Spearman C. (1904). "La prueba y medida de asociación entre dos cosas" . Revista estadounidense de psicología . 15 (1): 72–101. doi : 10.2307 / 1412159 . JSTOR 1412159 .
- Bonett DG, Wright, TA (2000). "Requisitos de tamaño de la muestra para correlaciones de Pearson, Kendall y Spearman". Psychometrika . 65 : 23-28. doi : 10.1007 / bf02294183 .CS1 maint: varios nombres: lista de autores ( enlace )
- Kendall MG (1970). Métodos de correlación de rango (4ª ed.). Londres: Griffin. ISBN 978-0-852-6419-96. OCLC 136868 .
- Hollander M., Wolfe DA (1973). Métodos estadísticos no paramétricos . Nueva York: Wiley. ISBN 978-0-471-40635-8. OCLC 520735 .
- Caruso JC, Cliff N. (1997). "Tamaño empírico, cobertura y poder de los intervalos de confianza para Rho de Spearman". Medición educativa y psicológica . 57 (4): 637–654. doi : 10.1177 / 0013164497057004009 .
enlaces externos
- Tabla de valores críticos de ρ para significancia con muestras pequeñas
- Coeficiente de correlación de rango de Spearman - Guía de Excel : datos de muestra y fórmulas para Excel, desarrollado por la Royal Geographical Society .