El coeficiente kappa de Cohen ( κ ) es una estadística que se utiliza para medir la confiabilidad entre evaluadores (y también la confiabilidad entre evaluadores ) para elementos cualitativos (categóricos). [1] En general, se piensa que es una medida más sólida que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta la posibilidad de que la concordancia ocurra por casualidad. Existe controversia en torno a la kappa de Cohen debido a la dificultad para interpretar los índices de concordancia. Algunos investigadores han sugerido que es conceptualmente más sencillo evaluar el desacuerdo entre elementos. [2]
Historia
La primera mención de una estadística de tipo kappa se atribuye a Galton (1892); [3] véase Smeeton (1985). [4]
El artículo fundamental que presenta kappa como una nueva técnica fue publicado por Jacob Cohen en la revista Educational and Psychological Measurement en 1960. [5]
Definición
La kappa de Cohen mide la concordancia entre dos evaluadores, cada uno de los cuales clasifica N elementos en C categorías mutuamente excluyentes. La definición de es:
donde p o es la concordancia relativa observada entre los evaluadores, y p e es la probabilidad hipotética de concordancia al azar, utilizando los datos observados para calcular las probabilidades de que cada observador vea aleatoriamente cada categoría. Si los evaluadores están completamente de acuerdo, entonces. Si no hay acuerdo entre los evaluadores que no sea el que se esperaría por casualidad (como lo indica p e ),. Es posible que la estadística sea negativa, [6] lo que implica que no existe un acuerdo efectivo entre los dos evaluadores o que el acuerdo es peor que aleatorio.
Para k categorías, N observaciones para categorizar yel número de veces evaluador i predijo la categoría k :
Esto se deriva de la siguiente construcción:
Dónde es la probabilidad estimada de que tanto el evaluador 1 como el evaluador 2 clasificarán el mismo elemento como k, mientras que es la probabilidad estimada de que el evaluador 1 clasifique un elemento como k (y de manera similar para el evaluador 2). La relaciónse basa en el supuesto de que la calificación de los dos evaluadores es independiente . El termino se estima utilizando el número de elementos clasificados como k por el evaluador 1 () dividido por el total de elementos a clasificar (): (y de manera similar para el evaluador 2).
Matriz de confusión de clasificación binaria
En la matriz de confusión tradicional 2 × 2 empleada en el aprendizaje automático y las estadísticas para evaluar las clasificaciones binarias , la fórmula Kappa de Cohen se puede escribir como: [7]
donde TP son los verdaderos positivos, FP son los falsos positivos, TN son los verdaderos negativos y FN son los falsos negativos.
Ejemplos de
Ejemplo simple
Suponga que está analizando datos relacionados con un grupo de 50 personas que solicitan una subvención. Cada propuesta de subvención fue leída por dos lectores y cada lector dijo "Sí" o "No" a la propuesta. Suponga que los datos del recuento de desacuerdos fueran los siguientes, donde A y B son lectores, los datos en la diagonal principal de la matriz (ayd) cuentan el número de acuerdos y los datos fuera de la diagonal (byc) cuentan el número de desacuerdos:
B A | sí | No |
---|---|---|
sí | a | B |
No | C | D |
p.ej
B A | sí | No |
---|---|---|
sí | 20 | 5 |
No | 10 | 15 |
El acuerdo proporcional observado es:
Para calcular p e (la probabilidad de concordancia aleatoria) observamos que:
- El lector A dijo "Sí" a 25 solicitantes y "No" a 25 solicitantes. Por lo tanto, el lector A dijo "Sí" el 50% de las veces.
- El lector B dijo "Sí" a 30 solicitantes y "No" a 20 solicitantes. Por lo tanto, el lector B dijo "Sí" el 60% del tiempo.
Entonces, la probabilidad esperada de que ambos digan que sí al azar es:
Similar:
La probabilidad de acuerdo aleatorio general es la probabilidad de que estén de acuerdo en Sí o No, es decir:
Entonces, aplicando nuestra fórmula para Kappa de Cohen obtenemos:
Mismos porcentajes pero números diferentes
Un caso que a veces se considera un problema con el Kappa de Cohen ocurre cuando se compara el Kappa calculado para dos pares de calificadores con los dos calificadores en cada par que tienen el mismo porcentaje de acuerdo, pero un par da un número similar de calificaciones en cada clase mientras que el otro par dar un número muy diferente de calificaciones en cada clase. [8] (En los casos siguientes, el aviso B tiene 70 sí y 30 no, en el primer caso, pero esos números están invertidos en el segundo). Por ejemplo, en los dos casos siguientes hay un acuerdo igual entre A y B ( 60 de 100 en ambos casos) en términos de concordancia en cada clase, por lo que esperaríamos que los valores relativos de Kappa de Cohen reflejen esto. Sin embargo, calculando el Kappa de Cohen para cada uno:
B A | sí | No |
---|---|---|
sí | 45 | 15 |
No | 25 | 15 |
B A | sí | No |
---|---|---|
sí | 25 | 35 |
No | 5 | 35 |
encontramos que muestra una mayor similitud entre A y B en el segundo caso, en comparación con el primero. Esto se debe a que, si bien el porcentaje de concordancia es el mismo, el porcentaje de concordancia que se produciría "por casualidad" es significativamente mayor en el primer caso (0,54 frente a 0,46).
Propiedades
Prueba de hipótesis e intervalo de confianza
El valor de p para kappa rara vez se informa, probablemente porque incluso los valores relativamente bajos de kappa pueden, no obstante, ser significativamente diferentes de cero, pero no de magnitud suficiente para satisfacer a los investigadores. [9] : 66 Aún así, su error estándar ha sido descrito [10] y es calculado por varios programas de computadora. [11]
Se pueden construir intervalos de confianza para Kappa, para los valores esperados de Kappa si tuviéramos un número infinito de elementos marcados, usando la siguiente fórmula: [1]
Dónde es el percentil normal estándar cuando, y
Esto se calcula ignorando que p e se estima a partir de los datos y tratando p o como una probabilidad estimada de una distribución binomial mientras se usa la normalidad asintótica (es decir, asumiendo que el número de elementos es grande y que p o no está cerca de 0 o 1).(y el CI en general) también se pueden estimar utilizando métodos de arranque .
Interpretando la magnitud
Si la significación estadística no es una guía útil, ¿qué magnitud de kappa refleja un acuerdo adecuado? Las pautas serían útiles, pero otros factores además del acuerdo pueden influir en su magnitud, lo que hace que la interpretación de una magnitud determinada sea problemática. Como señalaron Sim y Wright, dos factores importantes son la prevalencia (son los códigos equiprobables o sus probabilidades varían) y el sesgo (son las probabilidades marginales para los dos observadores similares o diferentes). En igualdad de condiciones, los kappas son más altos cuando los códigos son equiprobables. Por otro lado, los Kappas son más altos cuando los códigos se distribuyen asimétricamente por los dos observadores. En contraste con las variaciones de probabilidad, el efecto del sesgo es mayor cuando Kappa es pequeño que cuando es grande. [12] : 261–262
Otro factor es el número de códigos. A medida que aumenta el número de códigos, los kappas aumentan. Basándose en un estudio de simulación, Bakeman y sus colegas concluyeron que para los observadores falibles, los valores de kappa eran más bajos cuando los códigos eran menos. Y, de acuerdo con la declaración de Sim & Wrights sobre la prevalencia, los kappas eran más altos cuando los códigos eran más o menos equiprobables. Por tanto, Bakeman et al. concluyó que "ningún valor de kappa puede considerarse universalmente aceptable". [13] : 357 También proporcionan un programa informático que permite a los usuarios calcular valores para kappa especificando el número de códigos, su probabilidad y la precisión del observador. Por ejemplo, dados los códigos equiprobables y los observadores que tienen una precisión del 85%, el valor de kappa es 0.49, 0.60, 0.66 y 0.69 cuando el número de códigos es 2, 3, 5 y 10, respectivamente.
No obstante, en la literatura han aparecido pautas de magnitud. Quizás el primero fue Landis y Koch, [14] quienes caracterizaron los valores <0 como indicativos de no concordancia y 0-0,20 como leve, 0,21-0,40 como regular, 0,41-0,60 como moderado, 0,61-0,80 como sustancial y 0,81-1 como acuerdo casi perfecto. Sin embargo, este conjunto de directrices no es aceptado universalmente; Landis y Koch no proporcionaron ninguna evidencia que lo respaldara, sino que lo basaron en opiniones personales. Se ha observado que estas pautas pueden ser más perjudiciales que útiles. [15] Fleiss [16] : 218 directrices igualmente arbitrarias caracterizan kappas por encima de 0,75 como excelente, 0,40 a 0,75 como regular a bueno y por debajo de 0,40 como pobre.
Máximo Kappa
Kappa asume su valor máximo teórico de 1 solo cuando ambos observadores distribuyen códigos de la misma manera, es decir, cuando las sumas correspondientes de filas y columnas son idénticas. Cualquier cosa menos es un acuerdo menos que perfecto. Aún así, el valor máximo que kappa podría alcanzar dadas distribuciones desiguales ayuda a interpretar el valor de kappa realmente obtenido. La ecuación para κ máximo es: [17]
dónde , como siempre, ,
k = número de códigos, son las probabilidades de fila, y son las probabilidades de la columna.
Limitaciones
Kappa es un índice que considera la concordancia observada con respecto a una concordancia de línea base. Sin embargo, los investigadores deben considerar cuidadosamente si el acuerdo inicial de Kappa es relevante para la pregunta de investigación en particular. La línea de base de Kappa se describe con frecuencia como el acuerdo debido al azar, que es solo parcialmente correcto. El acuerdo de línea de base de Kappa es el acuerdo que se esperaría debido a la asignación aleatoria, dadas las cantidades especificadas por los totales marginales de la tabla de contingencia cuadrada. Por lo tanto, κ = 0 cuando la asignación observada es aparentemente aleatoria, independientemente de la cantidad de desacuerdo restringida por los totales marginales. Sin embargo, para muchas aplicaciones, los investigadores deberían estar más interesados en el desacuerdo de cantidad en los totales marginales que en el desacuerdo de asignación como se describe en la información adicional en la diagonal de la tabla de contingencia cuadrada. Por lo tanto, para muchas aplicaciones, la línea de base de Kappa distrae más que ilumina. Considere el siguiente ejemplo:
Referencia | |||
---|---|---|---|
GRAMO | R | ||
Comparación | GRAMO | 1 | 14 |
R | 0 | 1 |
La proporción de desacuerdos es 14/16 o 0,875. El desacuerdo se debe a la cantidad porque la asignación es óptima. κ es 0,01.
Referencia | |||
---|---|---|---|
GRAMO | R | ||
Comparación | GRAMO | 0 | 1 |
R | 1 | 14 |
La proporción de desacuerdos es 2/16 o 0,125. El desacuerdo se debe a la asignación porque las cantidades son idénticas. Kappa es −0,07.
Aquí, informar sobre la cantidad y el desacuerdo en la asignación es informativo, mientras que Kappa oculta la información. Además, Kappa presenta algunos desafíos en el cálculo y la interpretación porque Kappa es una proporción. Es posible que la relación de Kappa devuelva un valor indefinido debido a cero en el denominador. Además, una razón no revela su numerador ni su denominador. Es más informativo para los investigadores informar el desacuerdo en dos componentes, cantidad y asignación. Estos dos componentes describen la relación entre las categorías con más claridad que una única estadística de resumen. Cuando el objetivo es la precisión predictiva, los investigadores pueden comenzar a pensar más fácilmente en formas de mejorar una predicción mediante el uso de dos componentes de cantidad y asignación, en lugar de una proporción de Kappa. [2]
Algunos investigadores han expresado su preocupación por la tendencia de κ a tomar las frecuencias de las categorías observadas como dadas, lo que puede hacer que no sea confiable para medir la concordancia en situaciones como el diagnóstico de enfermedades raras. En estas situaciones, κ tiende a subestimar el acuerdo sobre la categoría rara. [18] Por esta razón, κ se considera una medida de acuerdo demasiado conservadora. [19] Otros [20] [ cita requerida ] cuestionan la afirmación de que kappa "toma en cuenta" el acuerdo fortuito. Hacer esto de manera efectiva requeriría un modelo explícito de cómo el azar afecta las decisiones de los evaluadores. El llamado ajuste al azar de las estadísticas kappa supone que, cuando no están completamente seguros, los evaluadores simplemente adivinan, un escenario muy poco realista.
Estadísticas relacionadas
Pi de Scott
Scott (1955) propuso una estadística similar, denominada pi . El kappa de Cohen y el pi de Scott difieren en términos de cómo se calcula p e .
Kappa de Fleiss
Tenga en cuenta que la kappa de Cohen mide la concordancia entre dos evaluadores únicamente. Para una medida similar de concordancia ( kappa de Fleiss ) utilizada cuando hay más de dos evaluadores, véase Fleiss (1971). El Fleiss kappa, sin embargo, es una generalización de varios evaluadores de la estadística pi de Scott , no el kappa de Cohen. Kappa también se usa para comparar el rendimiento en el aprendizaje automático , pero se argumenta que la versión direccional conocida como Informedness o la estadística J de Youden es más apropiada para el aprendizaje supervisado. [21]
Kappa ponderado
El kappa ponderado permite ponderar los desacuerdos de forma diferente [22] y es especialmente útil cuando se ordenan los códigos. [9] : 66 Están involucradas tres matrices, la matriz de puntajes observados, la matriz de puntajes esperados basada en el acuerdo de azar y la matriz de ponderación. Las celdas de la matriz de peso ubicadas en la diagonal (superior izquierda a inferior derecha) representan concordancia y, por lo tanto, contienen ceros. Las celdas fuera de la diagonal contienen pesos que indican la gravedad de ese desacuerdo. A menudo, las celdas de una diagonal se ponderan 1, las dos de 2, etc.
La ecuación para κ ponderada es:
donde k = número de códigos y, , y son elementos en las matrices de peso, observado y esperado, respectivamente. Cuando las celdas diagonales contienen pesos de 0 y todas las celdas fuera de la diagonal tienen pesos de 1, esta fórmula produce el mismo valor de kappa que el cálculo anterior.
Ver también
- B de Bangdiwala
- Correlación intraclase
- Alfa de Krippendorff
Referencias
- ↑ a b McHugh, Mary L. (2012). "Confiabilidad interevaluador: la estadística kappa" . Biochemia Medica . 22 (3): 276–282. doi : 10.11613 / bm.2012.031 . PMC 3900052 . PMID 23092060 .
- ^ a b Poncio, Robert; Millones, Marco (2011). "Muerte a Kappa: nacimiento de desacuerdo de cantidad y desacuerdo de asignación para la evaluación de la precisión" . Revista Internacional de Percepción Remota . 32 (15): 4407–4429. Código Bibliográfico : 2011IJRS ... 32.4407P . doi : 10.1080 / 01431161.2011.552923 . S2CID 62883674 .
- ^ Galton, F. (1892) Huellas digitales Macmillan, Londres.
- ^ Smeeton, Carolina del Norte (1985). "Historia temprana de la estadística Kappa". Biometría . 41 (3): 795. JSTOR 2531300 .
- ^ Cohen, Jacob (1960). "Un coeficiente de acuerdo a las escalas nominales". Medición educativa y psicológica . 20 (1): 37–46. doi : 10.1177 / 001316446002000104 . hdl : 1942/28116 . S2CID 15926286 .
- ^ Sim, Julius; Wright, Chris C. (2005). "La estadística Kappa en estudios de confiabilidad: requisitos de uso, interpretación y tamaño de la muestra" . Fisioterapia . 85 (3): 257–268. doi : 10.1093 / ptj / 85.3.257 . ISSN 1538-6724 . PMID 15733050 .
- ^ Chicco D., Warrens MJ, Jurman G. (junio de 2021). "El coeficiente de correlación de Matthews (MCC) es más informativo que la puntuación Kappa y Brier de Cohen en la evaluación de clasificación binaria" . Acceso IEEE . 9 : 78368 - 78381. doi : 10.1109 / ACCESS.2021.3084050 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Kilem Gwet (mayo de 2002). "Confiabilidad entre evaluadores: dependencia de la prevalencia del rasgo y homogeneidad marginal" (PDF) . Métodos estadísticos para la evaluación de la confiabilidad entre evaluadores . 2 : 1–10. Archivado desde el original (PDF) el 7 de julio de 2011 . Consultado el 2 de febrero de 2011 .
- ^ a b Bakeman, R .; Gottman, JM (1997). Observando la interacción: una introducción al análisis secuencial (2ª ed.). Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-27593-4.
- ^ Fleiss, JL; Cohen, J .; Everitt, BS (1969). "Grandes errores estándar de muestra de kappa y kappa ponderado". Boletín psicológico . 72 (5): 323–327. doi : 10.1037 / h0028106 .
- ^ Robinson, BF; Bakeman, R. (1998). "ComKappa: un programa de Windows 95 para calcular kappa y estadísticas relacionadas" . Métodos, instrumentos y computadoras de investigación del comportamiento . 30 (4): 731–732. doi : 10.3758 / BF03209495 .
- ^ Sim, J; Wright, C. C (2005). "La estadística Kappa en estudios de confiabilidad: requisitos de uso, interpretación y tamaño de la muestra" . Fisioterapia . 85 (3): 257–268. doi : 10.1093 / ptj / 85.3.257 . PMID 15733050 .
- ^ Bakeman, R .; Quera, V .; McArthur, D .; Robinson, BF (1997). "Detectar patrones secuenciales y determinar su confiabilidad con observadores falibles". Métodos psicológicos . 2 (4): 357–370. doi : 10.1037 / 1082-989X.2.4.357 .
- ^ Landis, JR; Koch, GG (1977). "La medición de la concordancia del observador para datos categóricos". Biometría . 33 (1): 159-174. doi : 10.2307 / 2529310 . JSTOR 2529310 . PMID 843571 .
- ^ Gwet, K. (2010). " Manual de confiabilidad entre evaluadores (segunda edición) " ISBN 978-0-9708062-2-2 [ página necesaria ]
- ^ Fleiss, JL (1981). Métodos estadísticos para tasas y proporciones (2ª ed.). Nueva York: John Wiley. ISBN 978-0-471-26370-8.
- ^ Umesh, ONU; Peterson, RA; Sauber MH (1989). "Acuerdo entre jueces y el valor máximo de kappa". Medición educativa y psicológica . 49 (4): 835–850. doi : 10.1177 / 001316448904900407 . S2CID 123306239 .
- ^ Viera, Anthony J .; Garrett, Joanne M. (2005). "Entender el acuerdo interobservador: la estadística kappa". Medicina familiar . 37 (5): 360–363. PMID 15883903 .
- ^ Strijbos, J .; Martens, R .; Prins, F .; Jochems, W. (2006). "Análisis de contenido: ¿de qué están hablando?". Informática y educación . 46 : 29–48. CiteSeerX 10.1.1.397.5780 . doi : 10.1016 / j.compedu.2005.04.002 .
- ^ Uebersax, JS. (1987). "Diversidad de modelos de toma de decisiones y medición del acuerdo entre evaluadores" (PDF) . Boletín psicológico . 101 : 140-146. CiteSeerX 10.1.1.498.4965 . doi : 10.1037 / 0033-2909.101.1.140 . Archivado desde el original (PDF) el 3 de marzo de 2016 . Consultado el 16 de octubre de 2010 .
- ^ Powers, David MW (2012). "El problema con Kappa" (PDF) . Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP . Archivado desde el original (PDF) el 18 de mayo de 2016 . Consultado el 20 de julio de 2012 .
- ^ Cohen, J. (1968). "Kappa ponderado: acuerdo de escala nominal con provisión para desacuerdo escalado o crédito parcial". Boletín psicológico . 70 (4): 213–220. doi : 10.1037 / h0026256 . PMID 19673146 .
Otras lecturas
- Banerjee, M .; Capozzoli, Michelle; McSweeney, Laura; Sinha, Debajyoti (1999). "Más allá de Kappa: una revisión de las medidas del acuerdo entre evaluadores" . La Revista Canadiense de Estadísticas . 27 (1): 3–23. doi : 10.2307 / 3315487 . JSTOR 3315487 .
- Cohen, Jacob (1960). "Un coeficiente de acuerdo a las escalas nominales". Medición educativa y psicológica . 20 (1): 37–46. doi : 10.1177 / 001316446002000104 . hdl : 1942/28116 . S2CID 15926286 .
- Cohen, J. (1968). "Kappa ponderado: acuerdo de escala nominal con provisión para desacuerdo escalado o crédito parcial". Boletín psicológico . 70 (4): 213–220. doi : 10.1037 / h0026256 . PMID 19673146 .
- Fleiss, JL; Cohen, J. (1973). "La equivalencia de kappa ponderado y el coeficiente de correlación intraclase como medidas de fiabilidad". Medición educativa y psicológica . 33 (3): 613–619. doi : 10.1177 / 001316447303300309 . S2CID 145183399 .
- Sim, J .; Wright, CC (2005). "La estadística Kappa en estudios de confiabilidad: requisitos de uso, interpretación y tamaño de la muestra" . Fisioterapia . 85 (3): 257–268. doi : 10.1093 / ptj / 85.3.257 . PMID 15733050 .
- Warrens, J. (2011). "El kappa de Cohen es un promedio ponderado" . Metodología estadística . 8 (6): 473–484. doi : 10.1016 / j.stamet.2011.06.002 .
enlaces externos
- Kappa, su significado, problemas y varias alternativas
- Estadísticas de Kappa: pros y contras
- Implementaciones de software
- Programa de Windows para kappa, kappa ponderado y kappa máximo