Clasificación binaria

La clasificación binaria es la tarea de clasificar los elementos de un conjunto en dos grupos sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:

Pruebas médicas para determinar si un paciente tiene cierta enfermedad o no;
Control de calidad en la industria, decidiendo si se ha cumplido una especificación;
En la recuperación de información , decidir si una página debe estar en el conjunto de resultados de una búsqueda o no.

La clasificación binaria es la dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, es de interés la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).

Clasificación estadística binaria

La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado , un método de aprendizaje automático donde las categorías están predefinidas y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando solo hay dos categorías, el problema se conoce como clasificación estadística binaria.

Algunos de los métodos comúnmente utilizados para la clasificación binaria son:

Cada clasificador es mejor solo en un dominio seleccionado en función del número de observaciones, la dimensionalidad del vector de características , el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D. ^[1]^[2]

Evaluación de clasificadores binarios

En este conjunto de instancias probadas, las instancias que quedan del divisor tienen la condición que se está probando; la mitad derecha no. El óvalo limita las instancias que un algoritmo de prueba clasifica como que tienen la condición. Las áreas verdes resaltan las instancias que el algoritmo de prueba clasificó correctamente. Las etiquetas se refieren a:
TP = verdadero positivo; TN = verdadero negativo; FP = falso positivo (error tipo I); FN = falso negativo (error tipo II); TPR = conjunto de instancias para determinar la tasa de verdaderos positivos; FPR = conjunto de instancias para determinar la tasa de falsos positivos; VPP = valor predictivo positivo; VPN = valor predictivo negativo.

Hay muchas métricas que pueden usarse para medir el desempeño de un clasificador o predictor; diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina, la sensibilidad y la especificidad se utilizan a menudo, mientras que en la recuperación de información se prefieren la precisión y el recuerdo . Una distinción importante es entre métricas que son independientes de la frecuencia con la que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Dada una clasificación de un conjunto de datos específico, hay cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas) y falsos negativos FN (asignaciones negativas incorrectas).

Asignado Real	Resultado de la prueba positivo	Resultado de la prueba negativo
Condición positiva	Verdadero positivo	Falso negativo
Condición negativa	Falso positivo	Verdadero negativo

Estos se pueden organizar en una tabla de contingencia de 2 × 2 , con columnas correspondientes al valor real - condición positiva o condición negativa - y filas correspondientes al valor de clasificación - resultado de prueba positivo o resultado de prueba negativo.

Las ocho proporciones básicas

Hay ocho razones básicas que se pueden calcular a partir de esta tabla, que vienen en cuatro pares complementarios (cada par suma 1). Estos se obtienen dividiendo cada uno de los cuatro números por la suma de su fila o columna, lo que da ocho números, que se pueden denominar genéricamente en la forma "proporción de fila positiva verdadera" o "proporción de columna de falso negativo".

Por lo tanto, hay dos pares de razones de columnas y dos pares de razones de filas, y se pueden resumir con cuatro números eligiendo una razón de cada par; los otros cuatro números son los complementos.

Las proporciones de las columnas son:

tasa positiva verdadera (TPR) = (TP / (TP + FN)), también conocida como sensibilidad o recuperación . Éstos son la proporción de la población con la condición para la cual la prueba es correcta.
- con complemento la tasa de falsos negativos (FNR) = (FN / (TP + FN))
tasa negativa verdadera (TNR) = (TN / (TN + FP), también conocida como especificidad (SPC),
- con tasa complementaria de falsos positivos (FPR) = (FP / (TN + FP)), también llamado independiente de la prevalencia

Las proporciones de filas son:

valor predictivo positivo (PPV, también conocido como precisión ) (TP / (TP + FP)). Estos son la proporción de la población con un resultado de prueba dado para el cual la prueba es correcta.
- con complemento de la tasa de falsos descubrimientos (FDR) (FP / (TP + FP))
valor predictivo negativo (VPN) (TN / (TN + FN))
- con complemento la tasa de omisiones falsas (FOR) (FN / (TN + FN)), también llamada dependencia de la prevalencia.

En las pruebas de diagnóstico, las principales razones utilizadas son las verdaderas razones de la columna (tasa de verdaderos positivos y verdadera tasa de negativos), donde se conocen como sensibilidad y especificidad . En la recuperación de información, las razones principales son las verdaderas razones positivas (fila y columna) - valor predictivo positivo y tasa verdadera positiva - donde se conocen como precisión y recuperación .

Se pueden tomar proporciones de un par de proporciones complementarias, lo que produce cuatro proporciones de probabilidad (proporción de proporciones de dos columnas, proporción de proporciones de dos filas). Esto se hace principalmente para las relaciones de la columna (condición), lo que produce relaciones de probabilidad en las pruebas de diagnóstico . Al tomar la razón de uno de estos grupos de razones se obtiene una razón final, la razón de probabilidades de diagnóstico (DOR). Esto también se puede definir directamente como (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN); esto tiene una interpretación útil, como una razón de probabilidades , y es independiente de la prevalencia.

Hay una serie de otras métricas, la mayoría simplemente la precisión o Fraction Correct (FC), que mide la fracción de todas las instancias que están categorizadas correctamente; el complemento es la Fracción Incorrecta (FiC). El puntaje F combina precisión y recuperación en un solo número a través de una opción de ponderación, la mayoría simplemente igual, como el puntaje F equilibrado ( puntaje F1 ). Algunas métricas provienen de coeficientes de regresión : la marcación y la información , y su media geométrica , el coeficiente de correlación de Matthews . Otras métricas incluyen el estadístico J de Youden , el coeficiente de incertidumbre , el coeficiente phi y el kappa de Cohen .

Conversión de valores continuos a binarios

Las pruebas cuyos resultados son de valores continuos, como la mayoría de los valores sanguíneos , pueden hacerse binarios artificialmente definiendo un valor de corte , y los resultados de las pruebas se designan como positivos o negativos dependiendo de si el valor resultante es mayor o menor que el límite.

Sin embargo, dicha conversión provoca una pérdida de información, ya que la clasificación binaria resultante no indica cuánto por encima o por debajo del límite está un valor. Como resultado, cuando se convierte un valor continuo cercano al límite en uno binario, el valor predictivo positivo o negativo resultante es generalmente más alto que el valor predictivo dado directamente del valor continuo. En tales casos, la designación de la prueba como positiva o negativa da la apariencia de una certeza inapropiadamente alta, mientras que el valor está de hecho en un intervalo de incertidumbre. Por ejemplo, con la concentración urinaria de hCG como valor continuo, una prueba de embarazo en orina que midió 52 mUI / ml de hCG puede mostrar un resultado "positivo" con 50 mUI / ml como límite, pero de hecho se encuentra en un intervalo de incertidumbre. que puede ser aparente sólo conociendo el valor continuo original. Por otro lado, un resultado de prueba muy lejos del límite generalmente tiene un valor predictivo positivo o negativo resultante que es menor que el valor predictivo dado a partir del valor continuo. Por ejemplo, un valor de hCG en orina de 200.000 mUI / ml confiere una probabilidad muy alta de embarazo, pero la conversión a valores binarios da como resultado que se muestre tan "positivo" como el de 52 mUI / ml.

Ver también

Ejemplos de inferencia bayesiana
Regla de clasificación
Matriz de confusión
Teoría de la detección
Métodos de kernel
Clasificación multiclase
Clasificación de etiquetas múltiples
Clasificación de una clase
Falacia del fiscal
Característica Operativa del Receptor
Umbral (procesamiento de imágenes)
Coeficiente de incertidumbre , también conocido como competencia
Propiedad cualitativa

Referencias

^ Zhang y Zakhor, Richard y Avideh (2014). "Identificación automática de regiones de ventana en nubes de puntos interiores utilizando LiDAR y cámaras". Publicaciones de VIP Lab . CiteSeerX 10.1.1.649.303 .
^ Y. Lu y C. Rasmussen (2012). "Campos aleatorios de Markov simplificados para un etiquetado semántico eficiente de nubes de puntos 3D" (PDF) . IROS .

Bibliografía

Nello Cristianini y John Shawe-Taylor . Una introducción a Support Vector Machines y otros métodos de aprendizaje basados en kernel . Prensa de la Universidad de Cambridge, 2000. ISBN 0-521-78019-5 ( [1] Libro SVM)
John Shawe-Taylor y Nello Cristianini. Métodos de kernel para análisis de patrones . Prensa de la Universidad de Cambridge, 2004. ISBN 0-521-81397-2 ( sitio web del libro )
Bernhard Schölkopf y AJ Smola: Aprendiendo con Kernels . MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9

[1] Zhang y Zakhor, Richard y Avideh (2014). "Identificación automática de regiones de ventana en nubes de puntos interiores utilizando LiDAR y cámaras". Publicaciones de VIP Lab . CiteSeerX 10.1.1.649.303 .

[2] Y. Lu y C. Rasmussen (2012). "Campos aleatorios de Markov simplificados para un etiquetado semántico eficiente de nubes de puntos 3D" (PDF) . IROS .

[1]