En el análisis estadístico de la clasificación binaria , la puntuación F o la medida F es una medida de la precisión de una prueba . Se calcula a partir de la precisión y el recuerdo de la prueba, donde la precisión es el número de resultados positivos verdaderos dividido por el número de todos los resultados positivos, incluidos los que no se identificaron correctamente, y el recuerdo es el número de resultados positivos verdaderos dividido por el número de todas las muestras que deberían haber sido identificadas como positivas. La precisión también se conoce como valor predictivo positivo y la recuperación también se conoce como sensibilidad en la clasificación binaria de diagnóstico.
La puntuación F 1 es la media armónica de la precisión y la recuperación. El mas genérico Score aplica pesos adicionales, valorando uno de precisión o recuerdo más que el otro.
El valor más alto posible de una puntuación F es 1.0, lo que indica una precisión y recuperación perfectas, y el valor más bajo posible es 0, si la precisión o la recuperación es cero. La puntuación F 1 también se conoce como coeficiente de Sørensen-Dice o coeficiente de similitud de dados (DSC). [ cita requerida ]
Etimología
Se cree que el nombre de la medida F lleva el nombre de una función F diferente en el libro de Van Rijsbergen, cuando se presentó a la Fourth Message Understanding Conference (MUC-4, 1992). [1]
Definición
El F-medida tradicional o equilibrada F-Resultado ( F 1 puntuación ) es la media armónica de precisión y la recuperación:
- .
Una puntuación F más general, , que usa un factor real positivo β, donde β se elige de manera que el recuerdo se considere β veces tan importante como la precisión, es:
- .
En términos de errores tipo I y tipo II, esto se convierte en:
- .
Dos valores de uso común para β son 2, que pesa más que la precisión, y 0.5, que pesa menos que la precisión.
La medida F se derivó de modo que "mide la eficacia de la recuperación con respecto a un usuario que concede β veces más importancia a recordar que precisión". [2] Se basa en la medida de eficacia de Van Rijsbergen .
- .
Su relación es dónde .
Pruebas de diagnóstico
Esto está relacionado con el campo de la clasificación binaria, donde el recuerdo se denomina a menudo "sensibilidad".
Condición prevista | Fuentes: [3] [4] [5] [6] [7] [8] [9] [10] | |||||
Población total = P + N | Condición prevista positiva (PP) | Condición prevista negativa (NP) | Información, información de la casa de apuestas (BM) = TPR + TNR - 1 | Umbral de prevalencia (PT) =√ TPR · FPR - FPR/TPR - FPR | ||
Condición real positiva (P) | Verdadero positivo (TP) , golpe | Falso negativo (FN) , error de tipo II , error , subestimación | Tasa de verdaderos positivos (TPR), recuperación , sensibilidad (SEN), probabilidad de detección, tasa de aciertos, potencia = TP/PAG = 1 - FNR | Tasa de falsos negativos (FNR), tasa de fallas = FN/PAG = 1 - TPR | ||
Condición real negativa (N) | Falso positivo (FP) , error de tipo I , falsa alarma, sobreestimación | Verdadero negativo (TN) , rechazo correcto | Tasa de falsos positivos (FPR), probabilidad de falsa alarma, caída = FP/norte = 1 - TNR | Tasa de verdaderos negativos (TNR), especificidad (SPC), selectividad = Tennesse/norte = 1 - FPR | ||
Prevalencia = PAG/P + N | Valor predictivo positivo (VPP), precisión = TP/PÁGINAS = 1 - FDR | Tasa de falsas omisiones (FOR) = FN/PN = 1 - VPN | Razón de probabilidad positiva (LR +) = TPR/FPR | Razón de verosimilitud negativa (LR−) = FNR/TNR | ||
Precisión (ACC) = TP + TN/P + N | Tasa de descubrimiento falso (FDR) = FP/PÁGINAS = 1 - PPV | Valor predictivo negativo (VPN) = Tennesse/PN = 1 - PARA | Marcado (MK), deltaP (Δp) = PPV + NPV - 1 | Razón de posibilidades de diagnóstico (DOR) = LR +/LR− | ||
Precisión equilibrada (BA) = TPR + TNR/2 | Puntuación F 1 =2 · PPV · TPR/PPV + TPR = 2TP/2TP + FP + FN | Índice de aves de corral-malvas (FM) = √ PPV · TPR | Coeficiente de correlación de Matthews (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · FOR · FDR | Puntuación de amenaza (TS), índice de éxito crítico (CSI) = TP/TP + FN + FP |
Dependencia del puntaje F del desequilibrio de clases
Williams [11] ha demostrado la dependencia explícita de la curva de recuperación de precisión y, por lo tanto, la puntuación, en la proporción de casos de prueba positivos a negativos. Esto significa que la comparación del puntaje F en diferentes problemas con diferentes proporciones de clases es problemática. Una forma de abordar este problema (ver, por ejemplo, Siblini et al, 2020 [12] ) es utilizar una proporción estándar de clases. al hacer tales comparaciones.
Aplicaciones
La puntuación F se utiliza a menudo en el campo de la recuperación de información para medir el rendimiento de la búsqueda , clasificación de documentos y clasificación de consultas . [13] Los trabajos anteriores se centraron principalmente en la puntuación F 1 , pero con la proliferación de motores de búsqueda a gran escala, los objetivos de rendimiento cambiaron para poner más énfasis en la precisión o la memoria [14] y así se ve en una amplia aplicación.
La puntuación F también se utiliza en el aprendizaje automático . [15] Sin embargo, el F-medidas no se toman verdaderos negativos en cuenta, por lo tanto, medidas como el coeficiente de correlación Matthews , Informedness o de Cohen kappa puede ser preferido para evaluar el rendimiento de un clasificador binario. [dieciséis]
El puntaje F se ha utilizado ampliamente en la literatura sobre procesamiento del lenguaje natural, [17] como en la evaluación del reconocimiento de entidades nombradas y la segmentación de palabras .
Crítica
David Hand y otros critican el uso generalizado de la puntuación F 1 ya que le da la misma importancia a la precisión y la memoria. En la práctica, los diferentes tipos de clasificaciones erróneas conllevan costos diferentes. En otras palabras, la importancia relativa de la precisión y el recuerdo es un aspecto del problema. [18]
Según Davide Chicco y Giuseppe Jurman, la puntuación F 1 es menos veraz e informativa que el coeficiente de correlación de Matthews (MCC) en la clasificación de evaluación binaria. [19]
David Powers ha señalado que F 1 ignora los Negativos Verdaderos y, por lo tanto, es engañoso para las clases desequilibradas, mientras que las medidas kappa y de correlación son simétricas y evalúan ambas direcciones de predictibilidad: el clasificador predice la clase verdadera y la clase verdadera predice la predicción del clasificador, proponiendo separe las medidas multiclase de Informedness y Markedness para las dos direcciones, notando que su media geométrica es la correlación. [20]
Diferencia con el índice de Fowlkes-Mallows
Mientras que la medida F es la media armónica de recuerdo y precisión, el índice de Fowlkes-Mallows es su media geométrica . [21]
Extensión a la clasificación de clases múltiples
La puntuación F también se utiliza para evaluar problemas de clasificación con más de dos clases ( clasificación multiclase ). En esta configuración, la puntuación final se obtiene mediante un micropromedio (sesgado por la frecuencia de la clase) o un macropromedio (tomando todas las clases como igualmente importantes). Para el macropromedio, los solicitantes han utilizado dos fórmulas diferentes: el puntaje F de precisión (aritmética) por clase y las medias de recuperación o la media aritmética de los puntajes F por clase, donde este último presenta propiedades más deseables. [22]
Ver también
- BLEU
- Matriz de confusión
- Pruebas de hipótesis para la precisión
- METEORITO
- NIST (métrico)
- Característica Operativa del Receptor
- ROUGE (métrico)
- Coeficiente de incertidumbre , también conocido como competencia
- Tasa de error de palabra
Referencias
- ^ Sasaki, Y. (2007). "La verdad de la medida F" (PDF) .
- ^ Van Rijsbergen, CJ (1979). Recuperación de información (2ª ed.). Butterworth-Heinemann.
- ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Cartas de reconocimiento de patrones . 27 (8): 861–874. doi : 10.1016 / j.patrec.2005.10.010 .
- ^ Piryonesi S. Madeh; El-Diraby Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Revista de sistemas de infraestructura . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
- ^ Powers, David MW (2011). "Evaluación: de precisión, recuperación y medida F a ROC, información, marca y correlación" . Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP / WGNE sobre investigación de verificación de pronósticos" . Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
- ^ Chicco D., Jurman G. (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de clasificación binaria" . BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Chicco D., Toetsch N., Jurman G. (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases" . Minería de Biodatos . 14 (13): 1-22. doi : 10.1186 / s13040-021-00244-z . PMC 7863449 . PMID 33541410 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación" . Informática y Computación Aplicada . doi : 10.1016 / j.aci.2018.08.003 .
- ^ Williams, Christopher KI (2021). "El efecto del desequilibrio de clase en las curvas de recuperación de precisión" . Computación neuronal . 33 (4): 853–857. doi : 10.1162 / neco_a_01362 .
- ^ Siblini, W .; Fréry, J .; He-Guelton, L .; Oblé, F .; Wang, YQ (2020). "Domina tus métricas con calibración" . En M. Berthold, A. Feelders y G. Krempl (ed.). Avances en el análisis inteligente de datos XVIII . Saltador. págs. 457–469. doi : 10.1007 / 978-3-030-44584-3_36 .CS1 maint: varios nombres: lista de editores ( enlace )
- ^ Beitzel., Steven M. (2006). Sobre la comprensión y clasificación de consultas web (tesis doctoral). IIT. CiteSeerX 10.1.1.127.634 .
- ^ X. Li; Y.-Y. Wang; A. Acero (julio de 2008). Aprender la intención de la consulta a partir de gráficos de clics regularizados . Actas de la 31ª Conferencia SIGIR . doi : 10.1145 / 1390334.1390393 . S2CID 8482989 .
- ^ Véase, por ejemplo, la evaluación de [1] .
- ^ Poderes, David M. W (2015). "Lo que no mide la medida F". arXiv : 1503.06410 [ cs.IR ].
- ^ Derczynski, L. (2016). Complementariedad, puntaje F y evaluación de PNL . Actas de la Conferencia Internacional sobre Recursos y Evaluación del Lenguaje .
- ^ Mano, David. "Una nota sobre el uso de la medida F para evaluar algoritmos de vinculación de registros - Dimensiones" . app.dimensions.ai . doi : 10.1007 / s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Consultado el 8 de diciembre de 2018 .
- ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de clasificación binaria" . BMC Genomics . 21 (6): 6. doi : 10.1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
- ^ Powers, David MW (2011). "Evaluación: de precisión, recuerdo y F-Score a ROC, información, puntuación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. hdl : 2328/27165 .
- ^ Tharwat A (agosto de 2018). "Métodos de evaluación de clasificación" . Computación aplicada e informática (antes de la impresión). doi : 10.1016 / j.aci.2018.08.003 .
- ^ J. Opitz; S. Burst (2019). "Macro F1 y Macro F1". arXiv : 1911.03347 [ stat.ML ].