Clasificación binaria


La clasificación binaria es la tarea de clasificar los elementos de un conjunto en dos grupos sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:

La clasificación binaria es la dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, es de interés la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).

La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado , un método de aprendizaje automático donde las categorías están predefinidas y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando solo hay dos categorías, el problema se conoce como clasificación estadística binaria.

Cada clasificador es mejor solo en un dominio seleccionado en función del número de observaciones, la dimensionalidad del vector de características , el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D. [1] [2]

Hay muchas métricas que se pueden usar para medir el desempeño de un clasificador o predictor; diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina, la sensibilidad y la especificidad se utilizan a menudo, mientras que en la recuperación de información se prefieren la precisión y el recuerdo . Una distinción importante es entre métricas que son independientes de la frecuencia con la que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Dada una clasificación de un conjunto de datos específico, hay cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas) y falsos negativos FN (asignaciones negativas incorrectas).


En este conjunto de instancias probadas, las instancias que quedan del divisor tienen la condición que se está probando; la mitad derecha no. El óvalo limita las instancias que un algoritmo de prueba clasifica como que tienen la condición. Las áreas verdes resaltan las instancias que el algoritmo de prueba clasificó correctamente. Las etiquetas se refieren a:
TP = verdadero positivo; TN = verdadero negativo; FP = falso positivo (error tipo I); FN = falso negativo (error tipo II); TPR = conjunto de instancias para determinar la tasa de verdaderos positivos; FPR = conjunto de instancias para determinar la tasa de falsos positivos; PPV = valor predictivo positivo; VPN = valor predictivo negativo.