El kappa de Fleiss (llamado así por Joseph L. Fleiss ) es una medida estadística para evaluar la confiabilidad del acuerdo entre un número fijo de evaluadores al asignar calificaciones categóricas a un número de elementos o clasificar elementos. Esto contrasta con otros kappas como el kappa de Cohen , que solo funciona cuando se evalúa el acuerdo entre no más de dos evaluadores o la confiabilidad intra-evaluador (para un evaluador frente a ellos mismos). La medida calcula el grado de acuerdo en la clasificación sobre lo que se esperaría por casualidad.
La kappa de Fleiss se puede utilizar con escala binaria o nominal . También se puede aplicar a datos ordinales ( datos clasificados): la documentación en línea de MiniTab [1] ofrece un ejemplo. Sin embargo, este documento señala: "Cuando tiene calificaciones ordinales, como calificaciones de gravedad de defectos en una escala de 1 a 5, los coeficientes de Kendall , que representan el orden, suelen ser estadísticas más apropiadas para determinar la asociación que kappa solo". Sin embargo, tenga en cuenta que los coeficientes de clasificación de Kendall solo son apropiados para los datos de clasificación.
Introducción
La kappa de Fleiss es una generalización del estadístico pi de Scott , [2] una medida estadística de la confiabilidad entre evaluadores . [3] También está relacionado con el estadístico kappa de Cohen y el estadístico J de Youden, que pueden ser más apropiados en ciertos casos [4] [5] . Mientras que el pi de Scott y el kappa de Cohen funcionan solo para dos evaluadores, el kappa de Fleiss funciona para cualquier número de evaluadores que otorguen calificaciones categóricas a un número fijo de elementos. Puede interpretarse como una expresión de la medida en que la cantidad de acuerdo observada entre los evaluadores excede lo que se esperaría si todos los evaluadores hicieran sus calificaciones de forma completamente aleatoria. Es importante tener en cuenta que mientras que la kappa de Cohen asume que los mismos dos evaluadores han calificado un conjunto de elementos, la kappa de Fleiss permite específicamente que, aunque hay un número fijo de evaluadores (por ejemplo, tres), diferentes individuos pueden calificar diferentes elementos ( Fleiss, 1971, pág.378). Es decir, el Ítem 1 es calificado por los Calificadores A, B y C; pero el Ítem 2 podría ser calificado por los Evaluadores D, E y F.
Se puede pensar en el acuerdo de la siguiente manera: si un número fijo de personas asigna calificaciones numéricas a una cantidad de elementos, entonces el kappa dará una medida de cuán consistentes son las calificaciones. El kappa, Puede ser definido como,
(1)
El factor da el grado de acuerdo que es alcanzable por encima del azar, y, da el grado de acuerdo realmente alcanzado por encima del azar. Si los evaluadores están completamente de acuerdo, entonces. Si no hay acuerdo entre los evaluadores (aparte de lo que se esperaría por casualidad) entonces.
Un ejemplo del uso de la kappa de Fleiss puede ser el siguiente: Considere que se les pide a catorce psiquiatras que examinen a diez pacientes. Cada psiquiatra da uno de los posibles cinco diagnósticos a cada paciente. Estos se compilan en una matriz, y la kappa de Fleiss se puede calcular a partir de esta matriz (ver ejemplo a continuación ) para mostrar el grado de acuerdo entre los psiquiatras por encima del nivel de acuerdo esperado por casualidad.
Definición
Sea N el número total de asignaturas, sea n el número de calificaciones por asignatura y sea k el número de categorías en las que se realizan las asignaciones. Los sujetos están indexados por i = 1, ... N y las categorías están indexadas por j = 1, ... k . Sea n ij el número de evaluadores que asignaron la i -ésima asignatura a la j -ésima categoría.
Primero calcule p j , la proporción de todas las asignaciones que estaban en la j -ésima categoría:
(2)
Ahora calcula , la medida en que los evaluadores están de acuerdo para el i -ésimo sujeto (es decir, calcular cuántos pares de evaluador - evaluador están de acuerdo, en relación con el número de todos los pares posibles de evaluador - evaluador):
(3)
Ahora calcula , la media de la 'arena que entran en la fórmula para :
(4)
(5)
Ejemplo resuelto
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1.000 |
2 | 0 | 2 | 6 | 4 | 2 | 0,253 |
3 | 0 | 0 | 3 | 5 | 6 | 0.308 |
4 | 0 | 3 | 9 | 2 | 0 | 0.440 |
5 | 2 | 2 | 8 | 1 | 1 | 0.330 |
6 | 7 | 7 | 0 | 0 | 0 | 0,462 |
7 | 3 | 2 | 6 | 3 | 0 | 0,242 |
8 | 2 | 5 | 3 | 2 | 2 | 0,176 |
9 | 6 | 5 | 2 | 1 | 0 | 0,286 |
10 | 0 | 2 | 2 | 3 | 7 | 0,286 |
Total | 20 | 28 | 39 | 21 | 32 | |
0,143 | 0,200 | 0,279 | 0,150 | 0,229 |
En el siguiente ejemplo, catorce evaluadores () asignar diez "asignaturas" () a un total de cinco categorías (). Las categorías se presentan en las columnas, mientras que los temas se presentan en las filas. Cada celda enumera el número de evaluadores que asignaron el tema indicado (fila) a la categoría indicada (columna).
Datos
Ver tabla a la derecha.
N = 10, n = 14, k = 5
Suma de todas las celdas = 140
Suma de P i = 3.780
Cálculos
El valor es la proporción de todas las asignaciones (, aquí ) que fueron hechos a la a categoría. Por ejemplo, tomando la primera columna,
Y tomando la segunda fila
Para calcular , necesitamos saber la suma de ,
Sobre toda la hoja,
Interpretación
Landis y Koch (1977) proporcionaron la siguiente tabla para interpretar valores. [6] Sin embargo, esta tabla no es aceptada universalmente. No proporcionaron ninguna evidencia que lo respaldara, sino que lo basaron en opiniones personales. Se ha observado que estas pautas pueden ser más perjudiciales que útiles, [7] ya que el número de categorías y temas afectará la magnitud del valor. El kappa será mayor cuando haya menos categorías. [8]
Interpretación | |
---|---|
<0 | Mal acuerdo |
0,01 - 0,20 | Leve acuerdo |
0,21 - 0,40 | Acuerdo justo |
0,41 - 0,60 | Acuerdo moderado |
0,61 - 0,80 | Acuerdo sustancial |
0,81 - 1,00 | Acuerdo casi perfecto |
La documentación de MiniTab citada anteriormente indica que Automotive Industry Action Group (AIAG) "sugiere que un valor kappa de al menos 0,75 indica un buen acuerdo. Sin embargo, se prefieren valores kappa más grandes, como 0,90".
Pruebas de significación
Paquetes estadísticos pueden calcular una puntuación estándar (Z-score) para kappa de Cohen o Kappa de Fleiss, que se puede convertir en un P-valor . Sin embargo, incluso cuando el valor de P alcanza el umbral de significación estadística (normalmente menos de 0,05), solo indica que la concordancia entre los evaluadores es significativamente mejor de lo que cabría esperar por casualidad. El valor p no le dice, por sí solo, si el acuerdo es lo suficientemente bueno como para tener un alto valor predictivo.
Ver también
Referencias
- ^ Estadísticas de MiniTab Inc. Kappa para análisis de acuerdo de atributos. https://support.minitab.com/en-us/minitab/18/help-and-how-to/quality-and-process-improvement/measurement-system-analysis/how-to/attribute-agreement-analysis/ attribute-Agreement-analysis / interpret-the-results / all-statistics-and-graphs / kappa-statistics /Consultado el 22 de enero de 2019.
- ^ Fleiss, JL (1971) "Medir el acuerdo de escala nominal entre muchos evaluadores". Boletín psicológico, vol. 76, núm. 5 págs. 378–382
- ^ Scott, W. (1955). "Fiabilidad del análisis de contenido: el caso de la codificación a escala nominal". Public Opinion Quarterly, vol. 19, núm. 3, págs. 321–325.
- ^ Poderes, DMW (2011). "Evaluación: de precisión, recuperación y medida F a ROC, información, marca y correlación". Journal of Machine Learning Technologies 2 (1): 37–63
- ^ Poderes, David MW (2012). "El problema con Kappa". Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP.
- ^ Landis, JR y Koch, GG (1977) "La medición del acuerdo del observador para datos categóricos" enBiometrics. Vol. 33, págs. 159-174
- ^ Gwet, KL (2014)Manual de confiabilidad entre evaluadores(cuarta edición), Capítulo 6. (Gaithersburg: Advanced Analytics, LLC)ISBN 978-0970806284. http://www.agreestat.com/book4/9780970806284_chap2.pdf
- ^ Sim, J. y Wright, CC (2005) "La estadística Kappa en estudios de confiabilidad: requisitos de uso, interpretación y tamaño de la muestra" enfisioterapia. Vol. 85, núm. 3, págs. 257–268
Otras lecturas
- Fleiss, JL y Cohen, J. (1973) "La equivalencia de kappa ponderado y el coeficiente de correlación intraclase como medidas de confiabilidad" en Educational and Psychological Measurement , vol. 33 págs. 613–619
- Fleiss, JL (1981) Métodos estadísticos para tasas y proporciones . 2ª ed. (Nueva York: John Wiley) págs. 38–46
- Gwet, KL (2008) " Computación de la confiabilidad entre evaluadores y su varianza en presencia de un alto acuerdo ", British Journal of Mathematical and Statistical Psychology , vol. 61, págs. 29–48
enlaces externos
- AgreeStat 360: análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1 / AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizado de Fleiss, coeficientes de correlación intraclase
- Kappa: Pros and Cons contiene una buena bibliografía de artículos sobre el coeficiente.
- La calculadora Kappa en línea calcula una variación del kappa de Fleiss.