En el campo del aprendizaje automático , el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece. Un clasificador lineal logra esto tomando una decisión de clasificación basada en el valor de una combinación lineal de las características. Las características de un objeto también se conocen como valores de características y normalmente se presentan a la máquina en un vector llamado vector de características . Estos clasificadores funcionan bien para problemas prácticos como la clasificación de documentos y, en general, para problemas con muchas variables ( características), alcanzando niveles de precisión comparables a los de los clasificadores no lineales con menos tiempo de entrenamiento y uso. [1]
Definición
Si el vector de características de entrada al clasificador es un vector real, entonces la puntuación de salida es
dónde es un vector real de pesos denota la transposición yf es una función que convierte el producto escalar de los dos vectores en la salida deseada. (En otras palabras,es un mapeo funcional lineal o de una formasobre R. ) El vector de pesose aprende de un conjunto de muestras de formación etiquetadas. A menudo, f es una función de umbral , que mapea todos los valores depor encima de un cierto umbral a la primera clase y todos los demás valores a la segunda clase; p.ej,
El superíndice T indica la transposición y es un umbral escalar. Una f más compleja podría dar la probabilidad de que un artículo pertenezca a una determinada clase.
Para un problema de clasificación de dos clases, se puede visualizar el funcionamiento de un clasificador lineal dividiendo un espacio de entrada de alta dimensión con un hiperplano : todos los puntos en un lado del hiperplano se clasifican como "sí", mientras que los otros se clasifican como "No".
Un clasificador lineal se usa a menudo en situaciones donde la velocidad de clasificación es un problema, ya que a menudo es el clasificador más rápido, especialmente cuando es escaso. Además, los clasificadores lineales a menudo funcionan muy bien cuando el número de dimensiones enes grande, como en la clasificación de documentos , donde cada elemento ensuele ser el número de apariciones de una palabra en un documento (consulte la matriz documento-término ). En tales casos, el clasificador debe estar bien regularizado .
Modelos generativos vs modelos discriminativos
Hay dos amplias clases de métodos para determinar los parámetros de un clasificador lineal. . Pueden ser modelos generativos y discriminativos . [2] [3] Métodos de las funciones de densidad condicionales del modelo de primera clase . Ejemplos de tales algoritmos incluyen:
- Análisis discriminante lineal (LDA): asume modelos de densidad condicional gaussianos
- Clasificador Naive Bayes con modelos de eventos de Bernoulli multinomiales o multivariados.
El segundo conjunto de métodos incluye modelos discriminativos , que intentan maximizar la calidad del resultado en un conjunto de entrenamiento . Los términos adicionales en la función de costo de capacitación pueden realizar fácilmente la regularización del modelo final. Ejemplos de entrenamiento discriminativo de clasificadores lineales incluyen:
- Regresión logística : estimación de probabilidad máxima de asumiendo que el conjunto de entrenamiento observado fue generado por un modelo binomial que depende de la salida del clasificador.
- Perceptron: un algoritmo que intenta corregir todos los errores encontrados en el conjunto de entrenamiento.
- Análisis discriminante lineal de Fisher: un algoritmo (diferente de "LDA") que maximiza la relación entre la dispersión entre clases y la dispersión dentro de la clase, sin ningún otro supuesto. Es, en esencia, un método de reducción de dimensionalidad para clasificación binaria. [4]
- Máquina de vectores de soporte: un algoritmo que maximiza el margen entre el hiperplano de decisión y los ejemplos del conjunto de entrenamiento.
Nota: A pesar de su nombre, LDA no pertenece a la clase de modelos discriminativos en esta taxonomía. Sin embargo, su nombre tiene sentido cuando comparamos LDA con el otro algoritmo principal de reducción de dimensionalidad lineal : análisis de componentes principales (PCA). LDA es un algoritmo de aprendizaje supervisado que utiliza las etiquetas de los datos, mientras que PCA es un algoritmo de aprendizaje no supervisado que ignora las etiquetas. Para resumir, el nombre es un artefacto histórico. [5] : 117
El entrenamiento discriminativo a menudo produce una mayor precisión que el modelado de las funciones de densidad condicionales [ cita requerida ] . Sin embargo, el manejo de los datos faltantes es a menudo más fácil con modelos de densidad condicional [ cita requerida ] .
Todos los algoritmos de clasificador lineal enumerados anteriormente se pueden convertir en algoritmos no lineales que operan en un espacio de entrada diferente , usando el truco del kernel .
Entrenamiento discriminativo
El entrenamiento discriminativo de clasificadores lineales generalmente se realiza de forma supervisada , mediante un algoritmo de optimización al que se le da un conjunto de entrenamiento con salidas deseadas y una función de pérdida que mide la discrepancia entre las salidas del clasificador y las salidas deseadas. Por tanto, el algoritmo de aprendizaje resuelve un problema de optimización de la forma [1]
dónde
- w es un vector de parámetros de clasificador,
- L ( y i , w T x i ) es una función de pérdida que mide la discrepancia entre la predicción del clasificador y la salida real y i para el i 'ésimo ejemplo de entrenamiento,
- R ( w ) es unafunción de regularización que evita que los parámetros aumenten demasiado (provocando un sobreajuste ) y
- C es una constante escalar (establecida por el usuario del algoritmo de aprendizaje) que controla el equilibrio entre la regularización y la función de pérdida.
Las funciones de pérdida populares incluyen la pérdida de bisagra (para SVM lineales) y la pérdida logarítmica (para regresión logística lineal). Si la función de regularización R es convexa , entonces lo anterior es un problema convexo . [1] Existen muchos algoritmos para resolver este tipo de problemas; los más populares para la clasificación lineal incluyen descenso de gradiente ( estocástico ) , L-BFGS , descenso de coordenadas y métodos de Newton .
Ver también
- Retropropagación
- Regresión lineal
- Perceptrón
- Clasificador cuadrático
- Máquinas de vectores de soporte
- Aventar (algoritmo)
Notas
- ^ a b c Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "Avances recientes de la clasificación lineal a gran escala" (PDF) . Proc. IEEE . 100 (9).
- ^ T. Mitchell, clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística. Versión preliminar, 2005
- ^ AY Ng y MI Jordan. Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo. en NIPS 14, 2002.
- ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3
- ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3
Otras lecturas
- Y. Yang, X. Liu, "Un reexamen de la categorización del texto", Proc. Conferencia ACM SIGIR, págs. 42–49, (1999). paper @ citeseer
- R. Herbrich, "Clasificadores de kernel de aprendizaje: teoría y algoritmos", MIT Press, (2001). ISBN 0-262-08306-X