En las estadísticas, entre los calificadores fiabilidad (también conocida con varios nombres similares, como el acuerdo entre evaluadores , la concordancia entre los calificadores , fiabilidad entre observadores , etc.) es el grado de acuerdo entre evaluadores. Es un puntaje de cuánta homogeneidad o consenso existe en las calificaciones otorgadas por varios jueces.
En contraste, la confiabilidad intra-evaluador es una puntuación de la consistencia en las calificaciones otorgadas por la misma persona en múltiples instancias. Por ejemplo, el clasificador no debe permitir que elementos como la fatiga influyan en su calificación hacia el final, o permitir que un buen papel influya en la calificación del siguiente papel. El evaluador no debe comparar trabajos juntos, pero debe calificar cada trabajo según el estándar.
La confiabilidad entre evaluadores e intraevaluadores son aspectos de la validez de la prueba . Las evaluaciones de ellos son útiles para refinar las herramientas dadas a los jueces humanos, por ejemplo, al determinar si una escala en particular es apropiada para medir una variable en particular. Si varios evaluadores no están de acuerdo, la báscula está defectuosa o los evaluadores deben volver a capacitarse.
Hay una serie de estadísticas que se pueden utilizar para determinar la confiabilidad entre evaluadores. Diferentes estadísticas son apropiadas para diferentes tipos de medición. Algunas opciones son joint-probabilidad de acuerdo, kappa de Cohen , pi de Scott y la relacionada Kappa de Fleiss , la correlación entre los calificadores, la concordancia coeficiente de correlación , correlación intraclase , y el alfa de Krippendorff .
Concepto
Hay varias definiciones operativas de "confiabilidad entre evaluadores", que reflejan diferentes puntos de vista sobre lo que es un acuerdo confiable entre evaluadores. [1] Hay tres definiciones operativas de acuerdo:
- Los evaluadores confiables están de acuerdo con la calificación "oficial" de una actuación.
- Los evaluadores confiables están de acuerdo entre sí sobre las calificaciones exactas que se otorgarán.
- Los evaluadores confiables están de acuerdo sobre qué rendimiento es mejor y cuál es peor.
Estos se combinan con dos definiciones operativas de comportamiento:
- Los evaluadores confiables son autómatas que se comportan como "máquinas de calificación". Esta categoría incluye la calificación de ensayos por computadora [2] Este comportamiento puede ser evaluado por la teoría de la generalización .
- Los evaluadores confiables se comportan como testigos independientes. Demuestran su independencia discrepando levemente. Este comportamiento puede ser evaluado por el modelo de Rasch .
Estadísticas
Probabilidad conjunta de acuerdo
La probabilidad conjunta de acuerdo es la medida más simple y menos robusta. Se estima como el porcentaje de tiempo que los calificadores están de acuerdo en un sistema de calificación nominal o categórica. No tiene en cuenta el hecho de que el acuerdo puede darse únicamente por casualidad. Existe la duda de si es necesario "corregir" por acuerdo casual; algunos sugieren que, en cualquier caso, dicho ajuste debería basarse en un modelo explícito de cómo el azar y el error afectan las decisiones de los evaluadores. [3]
Cuando el número de categorías que se utilizan es pequeño (por ejemplo, 2 o 3), la probabilidad de que 2 evaluadores estén de acuerdo por pura casualidad aumenta drásticamente. Esto se debe a que ambos evaluadores deben limitarse al número limitado de opciones disponibles, lo que afecta la tasa general de acuerdo y no necesariamente su propensión a un acuerdo "intrínseco" (un acuerdo se considera "intrínseco" si no se debe al azar).
Por lo tanto, la probabilidad conjunta de acuerdo seguirá siendo alta incluso en ausencia de un acuerdo "intrínseco" entre los evaluadores. Se espera que un coeficiente de confiabilidad útil entre evaluadores (a) sea cercano a 0, cuando no hay un acuerdo "intrínseco", y (b) que aumente a medida que mejora la tasa de acuerdo "intrínseco". La mayoría de los coeficientes de concordancia corregidos por azar logran el primer objetivo. Sin embargo, el segundo objetivo no se logra con muchas medidas conocidas corregidas por azar. [4]
Estadísticas de Kappa

Kappa es una forma de medir la concordancia o la confiabilidad, corrigiendo la frecuencia con la que las calificaciones pueden coincidir por casualidad. El kappa de Cohen, [5] que funciona para dos evaluadores, y el kappa de Fleiss, [6] una adaptación que funciona para cualquier número fijo de evaluadores, mejoran la probabilidad conjunta en el sentido de que tienen en cuenta la cantidad de acuerdo que podría esperarse. que ocurra por casualidad. Las versiones originales adolecían del mismo problema que la probabilidad conjunta en el sentido de que tratan los datos como nominales y suponen que las calificaciones no tienen un orden natural; si los datos realmente tienen un rango (nivel ordinal de medición), entonces esa información no se considera completamente en las mediciones.
Las extensiones posteriores del enfoque incluyeron versiones que podían manejar escalas ordinales y de "crédito parcial". [7] Estas extensiones convergen con la familia de correlaciones intraclase (ICC), por lo que existe una forma conceptualmente relacionada de estimar la confiabilidad para cada nivel de medición desde nominal (kappa) a ordinal (kappa ordinal o ICC - supuestos de estiramiento) a intervalo (CCI u ordinal kappa, que trata la escala de intervalo como ordinal) y razón (CCI). También hay variantes que pueden ver el acuerdo de los evaluadores en un conjunto de elementos (por ejemplo, ¿dos entrevistadores están de acuerdo sobre las puntuaciones de depresión para todos los elementos en la misma entrevista semiestructurada para un caso?), Así como los evaluadores x casos (p. ej., en qué medida están de acuerdo dos o más evaluadores sobre si 30 casos tienen un diagnóstico de depresión, sí / no, una variable nominal).
Kappa es similar a un coeficiente de correlación en el sentido de que no puede ir por encima de +1,0 ni por debajo de -1,0. Debido a que se usa como una medida de concordancia, solo se esperarían valores positivos en la mayoría de las situaciones; los valores negativos indicarían un desacuerdo sistemático. Kappa solo puede alcanzar valores muy altos cuando ambas concordancias son buenas y la tasa de la condición objetivo está cerca del 50% (porque incluye la tasa base en el cálculo de probabilidades conjuntas). Varias autoridades han ofrecido "reglas generales" para interpretar el nivel de acuerdo, muchas de las cuales coinciden en lo esencial aunque las palabras no sean idénticas. [8] [9] [10] [11]
Coeficientes de correlación
De cualquier Pearson 's, Τ de Kendall o Spearman 'sse puede utilizar para medir la correlación por pares entre evaluadores utilizando una escala ordenada. Pearson asume que la escala de calificación es continua; Las estadísticas de Kendall y Spearman solo asumen que es ordinal. Si se observan más de dos evaluadores, se puede calcular un nivel promedio de acuerdo para el grupo como la media de la, τ , o valores de cada posible par de evaluadores.
Coeficiente de correlación intraclase
Otra forma de realizar pruebas de confiabilidad es utilizar el coeficiente de correlación intraclase (ICC). [12] Hay varios tipos de esto y uno se define como "la proporción de varianza de una observación debido a la variabilidad entre sujetos en las puntuaciones verdaderas". [13] El rango del ICC puede estar entre 0.0 y 1.0 (una definición inicial de ICC podría estar entre -1 y +1). El CCI será alto cuando haya poca variación entre las puntuaciones otorgadas a cada elemento por los evaluadores, por ejemplo, si todos los evaluadores otorgan puntajes iguales o similares a cada uno de los elementos. El ICC es una mejora con respecto a Pearson. y Spearman , ya que toma en cuenta las diferencias en las calificaciones de los segmentos individuales, junto con la correlación entre los calificadores.
Límites del acuerdo

Otro enfoque de acuerdo (útil cuando solo hay dos evaluadores y la escala es continua) es calcular las diferencias entre cada par de observaciones de los dos evaluadores. La media de estas diferencias se denomina sesgo y el intervalo de referencia (media ± 1,96 × desviación estándar ) se denomina límites de acuerdo . Los límites del acuerdo dan una idea de cuánta variación aleatoria puede estar influyendo en las calificaciones.
Si los evaluadores tienden a estar de acuerdo, las diferencias entre las observaciones de los evaluadores serán cercanas a cero. Si un evaluador suele ser más alto o más bajo que el otro en una cantidad constante, el sesgo será diferente de cero. Si los evaluadores tienden a estar en desacuerdo, pero sin un patrón consistente de una calificación más alta que la otra, la media será cercana a cero. Los límites de confianza (generalmente 95%) se pueden calcular tanto para el sesgo como para cada uno de los límites de acuerdo.
Hay varias fórmulas que se pueden utilizar para calcular los límites de acuerdo. La fórmula simple, que se proporcionó en el párrafo anterior y funciona bien para un tamaño de muestra superior a 60, [14] es
Para tamaños de muestra más pequeños, otra simplificación común [15] es
Sin embargo, la fórmula más precisa (que se aplica a todos los tamaños de muestra) [14] es
Bland y Altman [15] han ampliado esta idea al graficar la diferencia de cada punto, la diferencia media y los límites de acuerdo en la vertical contra el promedio de las dos calificaciones en la horizontal. El gráfico de Bland-Altman resultante demuestra no solo el grado general de acuerdo, sino también si el acuerdo está relacionado con el valor subyacente del artículo. Por ejemplo, dos evaluadores pueden estar muy de acuerdo al estimar el tamaño de los artículos pequeños, pero no estar de acuerdo con los artículos más grandes.
Al comparar dos métodos de medición, no solo es interesante estimar tanto el sesgo como los límites de acuerdo entre los dos métodos (acuerdo entre evaluadores), sino también evaluar estas características para cada método en sí mismo. Es muy posible que la concordancia entre dos métodos sea deficiente simplemente porque uno de los métodos tiene amplios límites de concordancia mientras que el otro tiene estrechos. En este caso, el método con los estrechos límites de acuerdo sería superior desde un punto de vista estadístico, mientras que consideraciones prácticas o de otro tipo podrían cambiar esta apreciación. Lo que constituye límites de acuerdo estrechos o amplios o un sesgo grande o pequeño es una cuestión de evaluación práctica en cada caso.
Alfa de Krippendorff
El alfa de Krippendorff [16] [17] es una estadística versátil que evalúa el acuerdo alcanzado entre los observadores que categorizan, evalúan o miden un conjunto dado de objetos en términos de los valores de una variable. Generaliza varios coeficientes de concordancia especializados aceptando cualquier número de observadores, siendo aplicable a niveles de medición nominales, ordinales, de intervalo y de razón, pudiendo manejar datos faltantes y corrigiéndose para tamaños de muestra pequeños.
Alpha surgió en el análisis de contenido donde las unidades textuales son categorizadas por codificadores capacitados y se utiliza en la investigación de encuestas y asesoramiento donde los expertos codifican los datos de entrevistas abiertas en términos analizables, en psicometría donde los atributos individuales se prueban mediante múltiples métodos, en estudios observacionales donde ocurren sucesos no estructurados se registran para su análisis posterior y en lingüística computacional, donde los textos se anotan para varias cualidades sintácticas y semánticas.
Desacuerdo
Para cualquier tarea en la que sean útiles varios evaluadores, se espera que los evaluadores no estén de acuerdo con el objetivo observado. Por el contrario, las situaciones que implican una medición inequívoca, como las tareas de conteo simples (por ejemplo, el número de clientes potenciales que ingresan a una tienda), a menudo no requieren que más de una persona realice la medición.
La medición que implica ambigüedad en las características de interés en el objetivo de calificación generalmente se mejora con múltiples evaluadores capacitados. Estas tareas de medición a menudo implican un juicio subjetivo de calidad. Los ejemplos incluyen calificaciones de la "actitud de cabecera" del médico, evaluación de la credibilidad de los testigos por parte de un jurado y la habilidad de presentación de un orador.
La variación entre los evaluadores en los procedimientos de medición y la variabilidad en la interpretación de los resultados de la medición son dos ejemplos de fuentes de variación del error en las mediciones de calificación. Las pautas claramente establecidas para la representación de calificaciones son necesarias para la confiabilidad en escenarios de medición ambiguos o desafiantes.
Sin pautas de calificación, las calificaciones se ven cada vez más afectadas por el sesgo del experimentador , es decir, una tendencia de los valores de calificación a derivar hacia lo que espera el evaluador. Durante los procesos que involucran mediciones repetidas, la corrección de la desviación del evaluador se puede abordar mediante un reentrenamiento periódico para garantizar que los evaluadores comprendan las pautas y los objetivos de medición.
Ver también
Referencias
- ^ Saal, FE, Downey, RG y Lahey, MA (1980). Calificación de las calificaciones: evaluación de la calidad psicométrica de los datos de calificación. Boletín psicológico, 88 (2), 413.
- ^ Page, EB y Petersen, NS (1995). La computadora pasa a la calificación de ensayos: actualización de la prueba antigua. Phi Delta Kappan, 76 (7), 561.
- ^ Uebersax, JS (1987). Diversidad de modelos de toma de decisiones y medición del acuerdo entre evaluadores. Boletín psicológico, 101 (1), 140.
- ^ "Corrección de la confiabilidad entre evaluadores para el acuerdo de azar: ¿por qué?" . www.agreestat.com . Consultado el 26 de diciembre de 2018 .
- ^ Cohen, J. (1960). Un coeficiente de acuerdo a las escalas nominales. Medición educativa y psicológica, 20 (1), 37-46.
- ^ Fleiss, JL (1971). Medir el acuerdo de escala nominal entre muchos evaluadores. Boletín psicológico, 76 (5), 378.
- ^ Landis, J. Richard; Koch, Gary G. (1977). "La medición de la concordancia del observador para datos categóricos" . Biometría . 33 (1): 159–74. doi : 10.2307 / 2529310 . ISSN 0006-341X . JSTOR 2529310 . PMID 843571 .
- ^ Landis, J. Richard; Koch, Gary G. (1977). "Una aplicación de estadísticas jerárquicas de tipo Kappa en la evaluación de la concordancia de la mayoría entre múltiples observadores". Biometría . 33 (2): 363–74. doi : 10.2307 / 2529786 . ISSN 0006-341X . JSTOR 2529786 . PMID 884196 .
- ^ Cicchetti, DV; Gorrión, SA (1981). "El desarrollo de criterios para establecer la fiabilidad entre evaluadores de elementos específicos: aplicaciones a la evaluación de la conducta adaptativa". Revista Estadounidense de Deficiencia Mental . 86 (2): 127-137. ISSN 0002-9351 . PMID 7315877 .
- ^ Fleiss, JL (21 de abril de 1981). Métodos estadísticos para tasas y proporciones. 2ª ed . ISBN 0-471-06428-9. OCLC 926949980 .
- ^ Regier, Darrel A .; Estrecho, William E .; Clarke, Diana E .; Kraemer, Helena C .; Kuramoto, S. Janet; Kuhl, Emily A .; Kupfer, David J. (2013). "Ensayos de campo del DSM-5 en los Estados Unidos y Canadá, parte II: confiabilidad de prueba y repetición de diagnósticos categóricos seleccionados". Revista Estadounidense de Psiquiatría . 170 (1): 59–70. doi : 10.1176 / appi.ajp.2012.12070999 . ISSN 0002-953X . PMID 23111466 .
- ^ Shrout, PE y Fleiss, JL (1979). Correlaciones intraclase: usos para evaluar la confiabilidad del evaluador. Boletín psicológico, 86 (2), 420.
- ^ Everitt, BS (1996). Dar sentido a la estadística en psicología: un curso de segundo nivel. Nueva York, NY: Oxford University Press.
- ↑ a b Ludbrook, J. (2010). Confianza en los gráficos de Altman-Bland: una revisión crítica del método de las diferencias. Farmacología y fisiología clínica y experimental, 37 (2), 143-149.
- ↑ a b Bland, JM y Altman, D. (1986). Métodos estadísticos para evaluar la concordancia entre dos métodos de medición clínica. The Lancet, 327 (8476), 307-310.
- ^ Krippendorff, Klaus. Análisis de contenido: introducción a su metodología (Cuarta ed.). Los Angeles. ISBN 9781506395661. OCLC 1019840156 .
- ^ Hayes, AF y Krippendorff, K. (2007). Respondiendo al llamado de una medida estándar de confiabilidad para codificar datos. Métodos y medidas de comunicación, 1 (1), 77-89.
Otras lecturas
- Gwet, Kilem L. (2014) Manual de confiabilidad entre evaluadores, cuarta edición , (Gaithersburg: Advanced Analytics, LLC) ISBN 978-0970806284
- Gwet, KL (2008). " Calcular la confiabilidad entre evaluadores y su variación en presencia de un alto acuerdo ". Revista británica de psicología matemática y estadística, 61, 29–48
- Johnson, R., Penny, J. y Gordon, B. (2009). Evaluación del desempeño: desarrollo, puntuación y validación de tareas de desempeño. Nueva York: Publicaciones de Guilford. ISBN 978-1-59385-988-6
- Shoukri, MM (2010) Medidas de concordancia y confiabilidad entre observadores (segunda edición) . Boca Raton, FL: Chapman & Hall / CRC Press, ISBN 978-1-4398-1080-4
enlaces externos
- AgreeStat 360: análisis de confiabilidad entre evaluadores basado en la nube, kappa de Cohen, AC1 / AC2 de Gwet, alfa de Krippendorff, Brennan-Prediger, kappa generalizado de Fleiss, coeficientes de correlación intraclase
- Métodos estadísticos para el acuerdo de los calificadores por John Uebersax
- Calculadora de confiabilidad entre evaluadores de Medical Education Online
- Calculadora Kappa en línea (multisectorial)
- Calculadora en línea para el acuerdo entre evaluadores