De Wikipedia, la enciclopedia libre
Ir a navegaciónSaltar a buscar

La clasificación binaria es la tarea de clasificar los elementos de un conjunto en dos grupos sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:

La clasificación binaria es la dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, es de interés la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).

Clasificación estadística binaria

La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado , un método de aprendizaje automático donde las categorías están predefinidas y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando solo hay dos categorías, el problema se conoce como clasificación estadística binaria.

Algunos de los métodos comúnmente utilizados para la clasificación binaria son:

Cada clasificador es mejor solo en un dominio seleccionado en función del número de observaciones, la dimensionalidad del vector de características , el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D. [1] [2]

Evaluación de clasificadores binarios

En este conjunto de instancias probadas, las instancias que quedan del divisor tienen la condición que se está probando; la mitad derecha no. El óvalo limita las instancias que un algoritmo de prueba clasifica como que tienen la condición. Las áreas verdes resaltan las instancias que el algoritmo de prueba clasificó correctamente. Las etiquetas se refieren a:
TP = verdadero positivo; TN = verdadero negativo; FP = falso positivo (error tipo I); FN = falso negativo (error tipo II); TPR = conjunto de instancias para determinar la tasa de verdaderos positivos; FPR = conjunto de instancias para determinar la tasa de falsos positivos; VPP = valor predictivo positivo; VPN = valor predictivo negativo.

Hay muchas métricas que pueden usarse para medir el desempeño de un clasificador o predictor; diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina, la sensibilidad y la especificidad se utilizan a menudo, mientras que en la recuperación de información se prefieren la precisión y el recuerdo . Una distinción importante es entre métricas que son independientes de la frecuencia con la que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Dada una clasificación de un conjunto de datos específico, hay cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas) y falsos negativos FN (asignaciones negativas incorrectas).

Estos se pueden organizar en una tabla de contingencia de 2 × 2 , con columnas correspondientes al valor real - condición positiva o condición negativa - y filas correspondientes al valor de clasificación - resultado de prueba positivo o resultado de prueba negativo.

Las ocho proporciones básicas

Hay ocho razones básicas que se pueden calcular a partir de esta tabla, que vienen en cuatro pares complementarios (cada par suma 1). Estos se obtienen dividiendo cada uno de los cuatro números por la suma de su fila o columna, lo que da ocho números, a los que se puede hacer referencia genéricamente en la forma "proporción de filas positivas verdaderas" o "proporción de columnas negativas falsas".

Por lo tanto, hay dos pares de razones de columnas y dos pares de razones de filas, y se pueden resumir con cuatro números eligiendo una razón de cada par; los otros cuatro números son los complementos.

Las proporciones de las columnas son:

Las proporciones de filas son:

En las pruebas de diagnóstico, las principales razones utilizadas son las verdaderas razones de la columna (tasa de verdaderos positivos y verdadera tasa de negativos), donde se conocen como sensibilidad y especificidad . En la recuperación de información, las razones principales son las verdaderas razones positivas (fila y columna) - valor predictivo positivo y tasa verdadera positiva - donde se conocen como precisión y recuperación .

Se pueden tomar proporciones de un par de proporciones complementarias, lo que produce cuatro proporciones de probabilidad (proporción de proporciones de dos columnas, proporción de proporciones de dos filas). Esto se hace principalmente para las relaciones de la columna (condición), lo que produce relaciones de probabilidad en las pruebas de diagnóstico . Al tomar la razón de uno de estos grupos de razones se obtiene una razón final, la razón de probabilidades de diagnóstico (DOR). Esto también se puede definir directamente como (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN); esto tiene una interpretación útil, como una razón de probabilidades , y es independiente de la prevalencia.

Hay una serie de otras métricas, la mayoría simplemente la precisión o Fraction Correct (FC), que mide la fracción de todas las instancias que están categorizadas correctamente; el complemento es la Fracción Incorrecta (FiC). El puntaje F combina precisión y recuperación en un solo número a través de una opción de ponderación, la mayoría simplemente igual, como el puntaje F equilibrado ( puntaje F1 ). Algunas métricas provienen de coeficientes de regresión : la marcación y la información , y su media geométrica , el coeficiente de correlación de Matthews . Otras métricas incluyen el estadístico J de Youden , el coeficiente de incertidumbre , elcoeficiente phi y kappa de Cohen .

Conversión de valores continuos a binarios

Las pruebas cuyos resultados son de valores continuos, como la mayoría de los valores sanguíneos , pueden hacerse binarios artificialmente definiendo un valor de corte , y los resultados de las pruebas se designan como positivos o negativos dependiendo de si el valor resultante es mayor o menor que el límite.

Sin embargo, dicha conversión provoca una pérdida de información, ya que la clasificación binaria resultante no indica cuánto por encima o por debajo del límite está un valor. Como resultado, cuando se convierte un valor continuo cercano al límite en uno binario, el valor predictivo positivo o negativo resultante es generalmente más alto que el valor predictivo dado directamente del valor continuo. En tales casos, la designación de la prueba como positiva o negativa da la apariencia de una certeza inapropiadamente alta, mientras que el valor está de hecho en un intervalo de incertidumbre. Por ejemplo, con la concentración de hCG en orina como valor continuo, una prueba de embarazo en orinala medida de 52 mIU / ml de hCG puede mostrarse como "positiva" con 50 mIU / ml como punto de corte, pero de hecho se encuentra en un intervalo de incertidumbre, que puede ser aparente sólo si se conoce el valor continuo original. Por otro lado, un resultado de prueba muy lejos del límite generalmente tiene un valor predictivo positivo o negativo resultante que es menor que el valor predictivo dado a partir del valor continuo. Por ejemplo, un valor de hCG en orina de 200.000 mUI / ml confiere una probabilidad muy alta de embarazo, pero la conversión a valores binarios da como resultado que se muestre tan "positivo" como el de 52 mUI / ml.

Ver también

  • Ejemplos de inferencia bayesiana
  • Regla de clasificación
  • Matriz de confusión
  • Teoría de la detección
  • Métodos de kernel
  • Clasificación multiclase
  • Clasificación de etiquetas múltiples
  • Clasificación de una clase
  • Falacia del fiscal
  • Característica Operativa del Receptor
  • Umbral (procesamiento de imágenes)
  • Coeficiente de incertidumbre , también conocido como competencia
  • Propiedad cualitativa

Referencias

  1. ^ Zhang y Zakhor, Richard y Avideh (2014). "Identificación automática de regiones de ventana en nubes de puntos interiores utilizando LiDAR y cámaras". Publicaciones de VIP Lab . CiteSeerX  10.1.1.649.303 .
  2. ^ Y. Lu y C. Rasmussen (2012). "Campos aleatorios de Markov simplificados para un etiquetado semántico eficiente de nubes de puntos 3D" (PDF) . IROS .

Bibliografía

  • Nello Cristianini y John Shawe-Taylor . Una introducción a Support Vector Machines y otros métodos de aprendizaje basados ​​en kernel . Cambridge University Press, 2000. ISBN 0-521-78019-5 ( [1] Libro SVM) 
  • John Shawe-Taylor y Nello Cristianini. Métodos de kernel para análisis de patrones . Cambridge University Press, 2004. ISBN 0-521-81397-2 ( sitio web del libro ) 
  • Bernhard Schölkopf y AJ Smola: Aprendiendo con Kernels . MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9