La paradoja de la precisión es el hallazgo paradójico de que la precisión no es una buena métrica para los modelos predictivos al clasificar en análisis predictivo . Esto se debe a que un modelo simple puede tener un alto nivel de precisión pero ser demasiado tosco para ser útil. Por ejemplo, si la incidencia de la categoría A es dominante, se encuentra en el 99% de los casos, entonces predecir que cada caso es de la categoría A tendrá una precisión del 99%. La precisión y la memoria son mejores medidas en tales casos. [1] [2] El problema subyacente es que existe un desequilibrio de clase entre la clase positiva y la clase negativa. [3]Las probabilidades previas para estas clases deben tenerse en cuenta en el análisis de errores. La precisión y la recuperación ayudan, pero la precisión también puede estar sesgada por antecedentes de clase muy desequilibrados en los conjuntos de prueba.
Clase prevista Clase real | Terrorista | No terrorista | Suma | |
---|---|---|---|---|
Terrorista | 10 | 0 | 10 | |
No terrorista | 990 | 999000 | 999990 | |
Suma | 1000 | 999000 | 1000000 |
Por ejemplo, una ciudad de 1 millón de habitantes tiene diez terroristas. Un sistema de elaboración de perfiles da como resultado la matriz de confusión anterior. Aunque la precisión es10 + 999000/1000000≈ 99,9%, 990 de las 1000 predicciones positivas son incorrectas. La precisión de 10/10 + 990= 1% revela su pobre desempeño. Como las clases están tan desequilibradas, una mejor métrica es la puntuación F1 = 2 × 0,01 × 1/0.01 + 1 ≈ 2% (el recuerdo es 10 + 0/10 = 1).
Referencias
- ^ Abma, BJM (10 de septiembre de 2009), Evaluación de herramientas de gestión de requisitos con soporte para análisis de impacto de cambio basado en trazabilidad (PDF) , Universidad de Twente, págs. 86-87
- ^ Valverde-Albacete; Carillo-de-Albornoz; Peláez-Moreno (2013), "Propuesta de nuevas métricas de evaluación y técnica de visualización de resultados para tareas de análisis de sentimiento", Evaluación de acceso a la información. Multilingüismo, multimodalidad y visualización , Springer, ISBN 9783642408021
- ^ Afonja, Tejumade (8 de diciembre de 2017). "Paradoja de la precisión" . Hacia la ciencia de datos . Consultado el 15 de marzo de 2019 .