En estadística , la correlación intraclase , o el coeficiente de correlación intraclase ( CCI ), [1] es una estadística descriptiva que se puede utilizar cuando se realizan mediciones cuantitativas en unidades que se organizan en grupos. Describe cuán fuertemente se parecen las unidades del mismo grupo. Si bien se considera un tipo de correlación , a diferencia de la mayoría de las otras medidas de correlación, opera sobre datos estructurados como grupos, en lugar de datos estructurados como observaciones pareadas.
La correlación intraclase se usa comúnmente para cuantificar el grado en que los individuos con un grado fijo de parentesco (por ejemplo, hermanos completos) se parecen entre sí en términos de un rasgo cuantitativo (ver heredabilidad ). Otra aplicación destacada es la evaluación de la coherencia o reproducibilidad de las mediciones cuantitativas realizadas por diferentes observadores que miden la misma cantidad.
Definición temprana de ICC: fórmula imparcial pero compleja
El trabajo más temprano sobre las correlaciones intraclase se centró en el caso de medidas emparejadas, y las primeras estadísticas de correlación intraclase (ICC) que se propusieron fueron modificaciones de la correlación interclase (correlación de Pearson).
Consideremos un conjunto de datos que consiste en N emparejado valores de los datos ( x n , 1 , x n , 2 ), para n = 1, ..., N . La correlación intraclase r propuesta originalmente [2] por Ronald Fisher [3] es
dónde
Versiones posteriores de este estadístico [3] utilizaron los grados de libertad 2 N −1 en el denominador para calcular s 2 y N −1 en el denominador para calcular r , de modo que s 2 se vuelve insesgado y r se vuelve insesgado si se conoce s .
La diferencia clave entre este ICC y la correlación entre clases (Pearson) es que los datos se combinan para estimar la media y la varianza. La razón de esto es que en el escenario donde se desea una correlación intraclase, los pares se consideran desordenados. Por ejemplo, si estamos estudiando la semejanza de los gemelos, generalmente no hay una forma significativa de ordenar los valores de los dos individuos dentro de un par de gemelos. Al igual que la correlación entre clases, la correlación entre clases para datos apareados se limitará al intervalo [-1, +1].
La correlación intraclase también se define para conjuntos de datos con grupos que tienen más de 2 valores. Para grupos que constan de tres valores, se define como [3]
dónde
A medida que aumenta el número de elementos por grupo, también aumenta el número de términos de productos cruzados en esta expresión. La siguiente forma equivalente es más sencilla de calcular:
donde K es el número de valores de datos por grupo, yes la media muestral del n- ésimo grupo. [3] Esta forma se suele atribuir a Harris . [4] El término de la izquierda no es negativo; en consecuencia, la correlación intraclase debe satisfacer
Para K grande , este ICC es casi igual a
que puede interpretarse como la fracción de la varianza total que se debe a la variación entre grupos. Ronald Fisher dedica un capítulo completo a la correlación intraclase en su libro clásico Statistical Methods for Research Workers . [3]
Para los datos de una población que es completamente ruidosa, la fórmula de Fisher produce valores de ICC que se distribuyen alrededor de 0, es decir, que a veces son negativos. Esto se debe a que Fisher diseñó la fórmula para que no fuera sesgada y, por lo tanto, sus estimaciones a veces se sobreestiman y a veces se subestiman. Para valores subyacentes pequeños o 0 en la población, el ICC calculado a partir de una muestra puede ser negativo.
Definiciones modernas de la CPI: fórmula más simple pero sesgo positivo
A partir de Ronald Fisher, la correlación intraclase se ha considerado en el marco del análisis de varianza (ANOVA) y, más recientemente, en el marco de modelos de efectos aleatorios . Se han propuesto varios estimadores de ICC. La mayoría de los estimadores se pueden definir en términos del modelo de efectos aleatorios
donde Y ij es la i- ésima observación en el j- ésimo grupo, μ es una media general no observada , α j es un efecto aleatorio no observado compartido por todos los valores del grupo j , y ε ij es un término de ruido no observado. [5] Para que se identifique el modelo, se supone que α j y ε ij tienen un valor esperado de cero y no están correlacionados entre sí. Además, se supone que α j se distribuye de forma idéntica, y se supone que ε ij se distribuye de forma idéntica. La varianza de α j se denota σ2
αy la varianza de ε ij se denota σ2
ε.
La población CPI en este marco es: [6]
Con este marco, el ICC es la correlación de dos observaciones del mismo grupo.
Para un modelo de efectos aleatorios unidireccional:
, , arena s independiente y s son independientes de s.
La varianza de cualquier observación es: La covarianza de dos observaciones del mismo grupo i (para ) es: [7]
En esto, usamos propiedades de la covarianza .
Juntos obtenemos:
Una ventaja de este marco ANOVA es que diferentes grupos pueden tener diferentes números de valores de datos, lo cual es difícil de manejar usando las estadísticas ICC anteriores. Este ICC es siempre no negativo, lo que permite interpretarlo como la proporción de la varianza total que se encuentra "entre grupos". Este ICC puede generalizarse para permitir efectos de covariables, en cuyo caso se interpreta que el ICC captura la similitud dentro de la clase de los valores de los datos ajustados por covariables. [8]
Esta expresión nunca puede ser negativa (a diferencia de la fórmula original de Fisher) y, por lo tanto, en muestras de una población que tiene un ICC de 0, los ICC en las muestras serán más altos que el ICC de la población.
Se han propuesto varias estadísticas de ICC diferentes, no todas las cuales estiman el mismo parámetro de población. Ha habido un debate considerable acerca de qué estadísticas ICC son apropiadas para un uso dado, ya que pueden producir resultados marcadamente diferentes para los mismos datos. [9] [10]
Relación con el coeficiente de correlación de Pearson
En términos de su forma algebraica, el ICC original de Fisher es el ICC que más se parece al coeficiente de correlación de Pearson . Una diferencia clave entre las dos estadísticas es que en el ICC, los datos se centran y se escalan utilizando una media y una desviación estándar agrupadas, mientras que en la correlación de Pearson, cada variable se centra y se escala por su propia media y desviación estándar. Esta escala combinada para el ICC tiene sentido porque todas las medidas son de la misma cantidad (aunque en unidades en diferentes grupos). Por ejemplo, en un conjunto de datos emparejados donde cada "par" es una única medida hecha para cada una de las dos unidades (por ejemplo, el peso de cada gemelo en un par de gemelos idénticos) en lugar de dos medidas diferentes para una sola unidad (por ejemplo, medir la altura y peso para cada individuo), el ICC es una medida de asociación más natural que la correlación de Pearson.
Una propiedad importante de la correlación de Pearson es que es invariante a la aplicación de transformaciones lineales separadas a las dos variables que se comparan. Por lo tanto, si estamos correlacionando X e Y , donde, digamos, Y = 2 X + 1, la correlación de Pearson entre X e Y es 1, una correlación perfecta. Esta propiedad no tiene sentido para el ICC, ya que no hay base para decidir qué transformación se aplica a cada valor en un grupo. Sin embargo, si todos los datos de todos los grupos se someten a la misma transformación lineal, el ICC no cambia.
Uso para evaluar la conformidad entre observadores
El ICC se utiliza para evaluar la consistencia o conformidad de las mediciones realizadas por varios observadores que miden la misma cantidad. [11] Por ejemplo, si se les pide a varios médicos que califiquen los resultados de una tomografía computarizada para detectar signos de progresión del cáncer, podemos preguntar qué tan consistentes son las calificaciones entre sí. Si se conoce la verdad (por ejemplo, si las tomografías computarizadas se realizaron en pacientes que posteriormente se sometieron a una cirugía exploratoria), entonces, en general, la atención se centraría en qué tan bien coincidían las puntuaciones de los médicos con la verdad. Si no se conoce la verdad, solo podemos considerar la similitud entre las puntuaciones. Un aspecto importante de este problema es que existe variabilidad tanto entre observadores como entre observadores. La variabilidad interobservador se refiere a diferencias sistemáticas entre los observadores; por ejemplo, un médico puede puntuar sistemáticamente a los pacientes con un nivel de riesgo más alto que otros médicos. La variabilidad intraobservador se refiere a las desviaciones de la puntuación de un observador en particular en un paciente en particular que no forman parte de una diferencia sistemática.
El ICC está diseñado para aplicarse a mediciones intercambiables , es decir, datos agrupados en los que no existe una forma significativa de ordenar las mediciones dentro de un grupo. Al evaluar la conformidad entre observadores, si los mismos observadores califican cada elemento que se estudia, es probable que existan diferencias sistemáticas entre los observadores, lo que entra en conflicto con la noción de intercambiabilidad. Si el ICC se utiliza en una situación en la que existen diferencias sistemáticas, el resultado es una medida compuesta de variabilidad intraobservador e interobservador. Una situación en la que se podría suponer razonablemente que se cumple la intercambiabilidad sería cuando una muestra que se va a puntuar, por ejemplo una muestra de sangre, se divide en varias alícuotas y las alícuotas se miden por separado en el mismo instrumento. En este caso, la intercambiabilidad se mantendría mientras no existiera ningún efecto debido a la secuencia de análisis de las muestras.
Dado que el coeficiente de correlación intraclase proporciona una combinación de variabilidad intraobservador e interobservador, sus resultados a veces se consideran difíciles de interpretar cuando los observadores no son intercambiables. Se han propuesto medidas alternativas como el estadístico kappa de Cohen , el kappa de Fleiss y el coeficiente de correlación de concordancia [12] como medidas de concordancia más adecuadas entre observadores no intercambiables.
Cálculo en paquetes de software
ICC es compatible con el paquete de software de código abierto R (utilizando la función "icc" con los paquetes psy o irr , o mediante la función "ICC" en el paquete psych .) El paquete rptR [13] proporciona métodos para la estimación de ICC y repetibilidad para datos distribuidos de Gauss, binomial y Poisson en un marco de modelo mixto. En particular, el paquete permite estimar el ICC ajustado (es decir, controlando otras variables) y calcula intervalos de confianza basados en bootstrapping paramétrico y significaciones basadas en la permutación de residuos. El software comercial también es compatible con ICC, por ejemplo, Stata o SPSS [14]
Convención Shrout y Fleiss | Convención de McGraw y Wong [15] | Nombre en SPSS y Stata [16] [17] |
---|---|---|
CPI (1,1) | CCI unidireccional aleatorio, puntuación única (1) | Medidas únicas, aleatorias unidireccionales |
CPI (2,1) | CCI bidireccional aleatorio, de puntuación única (A, 1) | Dos factores aleatorios, medidas simples, concordancia absoluta |
CPI (3,1) | CCI bidireccional mixto, de puntuación única (C, 1) | Mezcla bidireccional, medidas simples, consistencia |
indefinido | CCI bidireccional aleatorio, de puntuación única (C, 1) | Medidas simples, aleatorias bidireccionales, consistencia |
indefinido | CCI bidireccional mixto, de puntuación única (A, 1) | Mixto bidireccional, medidas únicas, concordancia absoluta |
CPI (1, k) | Puntaje promedio aleatorio unidireccional ICC (k) | Medidas promedio, aleatorias unidireccionales |
CPI (2, k) | CCI de puntuación media aleatoria bidireccional (A, k) | Aleatorias bidireccionales, medidas promedio, concordancia absoluta |
CPI (3, k) | Dos vías mixtas, puntuación media ICC (C, k) | Mixto bidireccional, medidas medias, consistencia |
indefinido | CCI de puntuación media aleatoria bidireccional (C, k) | Dos vías aleatorias, medidas promedio, consistencia |
indefinido | Mixto bidireccional, puntuación media ICC (A, k) | Mixto bidireccional, medidas medias, concordancia absoluta |
Los tres modelos son:
- Efectos aleatorios unidireccionales: cada sujeto es medido por un conjunto diferente de k evaluadores seleccionados al azar;
- Aleatorio bidireccional: k evaluadores se seleccionan al azar, luego, cada sujeto es medido por el mismo conjunto de k evaluadores;
- Mixto bidireccional: k se definen evaluadores fijos. Cada sujeto es medido por los k evaluadores.
Numero de medidas:
- Medidas únicas: aunque se toma más de una medida en el experimento, la confiabilidad se aplica a un contexto donde se realizará una sola medida de un solo evaluador;
- Medidas promedio: la confiabilidad se aplica a un contexto donde se promediarán las medidas de k evaluadores para cada tema.
Coherencia o acuerdo absoluto:
- Acuerdo absoluto: el acuerdo entre dos evaluadores es de interés, incluidos los errores sistemáticos de ambos evaluadores y los errores residuales aleatorios;
- Coherencia: en el contexto de mediciones repetidas por el mismo evaluador, los errores sistemáticos del evaluador se cancelan y solo se mantiene el error residual aleatorio.
La consistencia ICC no se puede estimar en el modelo de efectos aleatorios unidireccionales, ya que no hay forma de separar las varianzas entre evaluadores y residuales.
Liljequist et al (2019) también han presentado una descripción general y un nuevo análisis de los tres modelos para las medidas únicas ICC, con una receta alternativa para su uso. [18]
Interpretación
Cicchetti (1994) [19] da las siguientes pautas citadas a menudo para la interpretación de medidas de acuerdo entre evaluadores kappa o ICC:
- Menos de 0,40: pobre.
- Entre 0.40 y 0.59 — regular.
- Entre 0,60 y 0,74, bueno.
- Entre 0,75 y 1,00, excelente.
Koo y Li (2016) dan una directriz diferente: [20]
- por debajo de 0,50: pobre
- entre 0,50 y 0,75: moderado
- entre 0,75 y 0,90: bueno
- por encima de 0,90: excelente
Ver también
- Razón de correlación
- Efecto de diseño
Referencias
- ^ Koch GG (1982). "Coeficiente de correlación intraclase". En Samuel Kotz y Norman L. Johnson (ed.). Enciclopedia de Ciencias Estadísticas . 4 . Nueva York: John Wiley & Sons . págs. 213–217.
- ^ Bartko JJ (agosto de 1966). "El coeficiente de correlación intraclase como medida de fiabilidad". Informes psicológicos . 19 (1): 3-11. doi : 10.2466 / pr0.1966.19.1.3 . PMID 5942109 . S2CID 145480729 .
- ^ a b c d e Fisher RA (1954). Métodos estadísticos para investigadores (duodécima ed.). Edimburgo : Oliver y Boyd . ISBN 978-0-05-002170-5.
- ^ Harris JA (octubre de 1913). "Sobre el cálculo de coeficientes de correlación intraclase e interclase a partir de momentos de clase cuando el número de combinaciones posibles es grande". Biometrika . 9 (3/4): 446–472. doi : 10.1093 / biomet / 9.3-4.446 . JSTOR 2331901 .
- ^ Donner A, Koval JJ (marzo de 1980). "La estimación de la correlación intraclase en el análisis de datos familiares". Biometría . 36 (1): 19-25. doi : 10.2307 / 2530491 . JSTOR 2530491 . PMID 7370372 .
- ^ Prueba de que ICC en el modelo de anova es la correlación de dos elementos: ocram [1] , Comprensión del coeficiente de correlación intraclase, URL (versión: 2012-12-05): [2]
- ^ dsaxton ( https://stats.stackexchange.com/users/78861/dsaxton ), modelo de efectos aleatorios: las observaciones del mismo nivel tienen covarianza $ \ sigma ^ 2 $ ?, URL (versión: 2016-03-22) enlace
- ^ Stanish W, Taylor N (1983). "Estimación del coeficiente de correlación intraclase para el análisis del modelo de covarianza". El estadístico estadounidense . 37 (3): 221–224. doi : 10.2307 / 2683375 . JSTOR 2683375 .
- ^ Müller R, Büttner P (diciembre de 1994). "Una discusión crítica de los coeficientes de correlación intraclase". Estadística en Medicina . 13 (23–24): 2465–76. doi : 10.1002 / sim.4780132310 . PMID 7701147 . Ver también el comentario:
- Vargha P (1997). "Carta al editor". Estadística en Medicina . 16 (7): 821–823. doi : 10.1002 / (SICI) 1097-0258 (19970415) 16: 7 <821 :: AID-SIM558> 3.0.CO; 2-B .
- ^ McGraw KO, Wong SP (1996). "La formación de inferencias sobre algunos coeficientes de correlación intraclase". Métodos psicológicos . 1 : 30–46. doi : 10.1037 / 1082-989X.1.1.30 . Hay varios errores en el artículo:
- McGraw KO, Wong SP (1996). "Corrección de McGraw y Wong (1996)". Métodos psicológicos . 1 (4): 390. doi : 10.1037 / 1082-989x.1.4.390 .
- ^ Shrout PE, Fleiss JL (marzo de 1979). "Correlaciones intraclase: usos en la evaluación de la confiabilidad del evaluador". Boletín psicológico . 86 (2): 420–8. doi : 10.1037 / 0033-2909.86.2.420 . PMID 18839484 .
- ^ Nickerson CA (diciembre de 1997). "Una nota sobre 'un coeficiente de correlación de concordancia para evaluar la reproducibilidad ' ". Biometría . 53 (4): 1503–1507. doi : 10.2307 / 2533516 . JSTOR 2533516 .
- ^ Stoffel MA, Nakagawa S, Schielzeth J (2017). "rptR: estimación de la repetibilidad y descomposición de la varianza por modelos lineales generalizados de efectos mixtos" . Métodos en ecología y evolución . 8 (11): 1639–1644. doi : 10.1111 / 2041-210x.12797 . ISSN 2041-210X .
- ^ MacLennan RN (noviembre de 1993). "Confiabilidad entre evaluadores con SPSS para Windows 5.0". El estadístico estadounidense . 47 (4): 292-296. doi : 10.2307 / 2685289 . JSTOR 2685289 .
- ^ McGraw KO, Wong SP (1996). "La formación de inferencias sobre algunos coeficientes de correlación intraclase". Métodos psicológicos . 1 (1): 30–40. doi : 10.1037 / 1082-989X.1.1.30 .
- ^ Versión 15 de la guía del usuario de Stata (PDF) . College Station, Texas: Stata Press. 2017. págs. 1101–1123. ISBN 978-1-59718-249-2.
- ^ Howell DC. "Coeficientes de correlación intraclase" (PDF) .
- ^ Liljequist D, Elfving B, Skavberg Roaldsen K (2019). "Correlación intraclase - Una discusión y demostración de características básicas" . PLOS ONE . 14 (7): e0219854. doi : 10.1371 / journal.pone.0219854 . PMC 6645485 . PMID 31329615 .
- ^ Cicchetti DV (1994). "Directrices, criterios y reglas generales para evaluar instrumentos de evaluación normalizados y estandarizados en psicología". Evaluación psicológica . 6 (4): 284–290. doi : 10.1037 / 1040-3590.6.4.284 .
- ^ Koo TK, Li MY (junio de 2016). "Una guía para seleccionar y reportar coeficientes de correlación intraclase para la investigación de confiabilidad" . Revista de Medicina Quiropráctica . 15 (2): 155–63. doi : 10.1016 / j.jcm.2016.02.012 . PMC 4913118 . PMID 27330520 .
enlaces externos
- AgreeStat 360: análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1 / AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizado de Fleiss, coeficientes de correlación intraclase
- Una útil herramienta en línea que permite el cálculo de los diferentes tipos de ICC.
- Estudio de ejemplo de Viecelli et al. [1] , donde se utilizó el ICC para determinar la confiabilidad entre evaluadores utilizando el coeficiente de correlación intraclase (ICC 2.1).
- ^ Viecelli C, Graf D, Aguayo D, Hafen E, Füchslin RM (15 de julio de 2020). "Uso de datos de acelerómetro de teléfonos inteligentes para obtener descriptores científicos mecánico-biológicos del entrenamiento con ejercicios de resistencia" . PLOS ONE . 15 (7): e0235156. Código Bib : 2020PLoSO..1535156V . doi : 10.1371 / journal.pone.0235156 . PMC 7363108 . PMID 32667945 .