Fiabilidad entre

En estadística, la confiabilidad entre evaluadores (también denominada con varios nombres similares, como acuerdo entre evaluadores , concordancia entre evaluadores , confiabilidad entre observadores , confiabilidad entre codificadores , etc.) es el grado de acuerdo entre observadores independientes que calificar, codificar o evaluar el mismo fenómeno.

Las herramientas de evaluación que se basan en calificaciones deben exhibir una buena confiabilidad entre evaluadores; de lo contrario, no son pruebas válidas .

Hay una serie de estadísticas que se pueden utilizar para determinar la fiabilidad entre evaluadores. Diferentes estadísticas son apropiadas para diferentes tipos de medición. Algunas opciones son probabilidad conjunta de concordancia, como kappa de Cohen , pi de Scott y kappa de Fleiss ; o correlación entre evaluadores, coeficiente de correlación de concordancia, correlación intraclase y alfa de Krippendorff .

Hay varias definiciones operativas de "confiabilidad entre evaluadores", que reflejan diferentes puntos de vista sobre lo que es un acuerdo confiable entre evaluadores. ^[1] Hay tres definiciones operativas de acuerdo:

La probabilidad conjunta de acuerdo es la medida más simple y menos robusta. Se estima como el porcentaje de veces que los calificadores están de acuerdo en un sistema de calificación nominal o categórico. No tiene en cuenta el hecho de que el acuerdo puede ocurrir únicamente en función del azar. Existe cierta duda sobre si existe o no la necesidad de 'corregir' el acuerdo al azar; algunos sugieren que, en cualquier caso, dicho ajuste debería basarse en un modelo explícito de cómo el azar y el error afectan las decisiones de los calificadores. ^[3]

Cuando el número de categorías que se utilizan es pequeño (por ejemplo, 2 o 3), la probabilidad de que 2 evaluadores estén de acuerdo por pura casualidad aumenta drásticamente. Esto se debe a que ambos evaluadores deben limitarse al número limitado de opciones disponibles, lo que afecta la tasa de acuerdo general y no necesariamente su propensión a un acuerdo "intrínseco" (un acuerdo se considera "intrínseco" si no se debe al azar).

Cuatro conjuntos de recomendaciones para interpretar el nivel de acuerdo entre evaluadores

Gráfico de Bland-Altman