Precisión y recuperación


En el reconocimiento de patrones , la recuperación y clasificación de información (aprendizaje automático) , la precisión y la recuperación son métricas de rendimiento que se aplican a los datos recuperados de una colección , un corpus o un espacio de muestra .

La precisión (también denominada valor predictivo positivo ) es la fracción de instancias relevantes entre las instancias recuperadas, mientras que la recuperación (también conocida como sensibilidad ) es la fracción de instancias relevantes que se recuperaron. Por lo tanto, tanto la precisión como la recuperación se basan en la relevancia .

Considere un programa de computadora para reconocer perros (el elemento relevante ) en una fotografía digital. Al procesar una imagen que contiene diez gatos y doce perros, el programa identifica ocho perros. De los ocho elementos identificados como perros, solo cinco son realmente perros (verdaderos positivos), mientras que los otros tres son gatos (falsos positivos). Se pasaron por alto siete perros (falsos negativos) y siete gatos se excluyeron correctamente (verdaderos negativos). La precisión del programa es entonces 5/8 (verdaderos positivos/elementos seleccionados) mientras que su recuperación es 5/12 (verdaderos positivos/elementos relevantes).

Cuando un motor de búsqueda devuelve 30 páginas, de las cuales solo 20 son relevantes, y no devuelve 40 páginas relevantes adicionales, su precisión es 20/30 = 2/3, lo que nos dice qué tan válidos son los resultados, mientras que su recuperación es 20/ 60 = 1/3, que nos dice qué tan completos son los resultados.

Adoptar un enfoque de prueba de hipótesis a partir de las estadísticas , en el que, en este caso, la hipótesis nula es que un elemento determinado es irrelevante , es decir, no es un perro, ausencia de errores de tipo I y tipo II (es decir, especificidad perfecta y sensibilidad del 100 % ). cada uno) corresponde respectivamente a la precisión perfecta (sin falsos positivos) y al recuerdo perfecto (sin falsos negativos).

En términos más generales, la recuperación es simplemente el complemento de la tasa de error de tipo II, es decir, uno menos la tasa de error de tipo II. La precisión está relacionada con la tasa de error tipo I, pero de una manera un poco más complicada, ya que también depende de la distribución previa de ver un elemento relevante frente a uno irrelevante.


Precisión y recuperación