Clasificación multiclase

En el aprendizaje automático , la clasificación multiclase o multinomial es el problema de clasificar instancias en una de tres o más clases (clasificar instancias en una de dos clases se denomina clasificación binaria ).

Si bien muchos algoritmos de clasificación (en particular, la regresión logística multinomial ) permiten naturalmente el uso de más de dos clases, algunos son por naturaleza algoritmos binarios ; sin embargo, estos pueden convertirse en clasificadores multinomiales mediante una variedad de estrategias.

La clasificación multiclase no debe confundirse con la clasificación de múltiples etiquetas, donde se deben predecir múltiples etiquetas para cada instancia.

Estrategias generales

Las técnicas de clasificación de clases múltiples existentes se pueden clasificar en (i) transformación a binario (ii) extensión de binario y (iii) clasificación jerárquica. ^[1]

Transformación a binario

Esta sección analiza las estrategias para reducir el problema de la clasificación multiclase a varios problemas de clasificación binaria. Se puede clasificar en uno frente al resto y uno frente a uno . Las técnicas desarrolladas en base a la reducción del problema de clases múltiples en problemas binarios múltiples también pueden denominarse técnicas de transformación de problemas.

Uno versus descanso

La estrategia de uno contra el resto ^[2]^{: 182, 338} (OvR o uno contra todos , OvA o uno contra todos , OAA) implica entrenar a un solo clasificador por clase, con las muestras de esa clase como positivas muestras y todas las demás muestras como negativas. Esta estrategia requiere que los clasificadores base produzcan una puntuación de confianza con valor real para su decisión, en lugar de solo una etiqueta de clase; Las etiquetas de clases discretas por sí solas pueden dar lugar a ambigüedades, donde se predicen varias clases para una sola muestra. ^[2]^{: 182}^{[nota 1]}

En pseudocódigo, el algoritmo de entrenamiento para un alumno de OvR construido a partir de un alumno de clasificación binaria $L$ es el siguiente:

Entradas:

$L$ , un alumno (algoritmo de entrenamiento para clasificadores binarios)
muestras $X$
etiquetas $y$ donde $y i$ ∈ {1,… $K$ } es la etiqueta de la muestra $X i$

Producción:

una lista de clasificadores $f k$ para $k$ ∈ {1,…, $K$ }

Procedimiento:

Para cada k en {1,…, K }
- Construya un nuevo vector de etiqueta $z$ donde $z i$ = $y i$ si $y i = k$ y $z i = 0 en$ caso contrario
- Aplicar $L$ a $X$ , $z$ para obtener $f k$

Tomar decisiones significa aplicar todos los clasificadores a una muestra $x$ invisible y predecir la etiqueta $k$ para la cual el clasificador correspondiente reporta la puntuación de confianza más alta:

{\ Displaystyle {\ hat {y}} = {\ underset {k \ in \ {1 \ ldots K \}} {\ arg \! \ max}} \; f_ {k} (x)}

Aunque esta estrategia es popular, es una heurística que adolece de varios problemas. En primer lugar, la escala de los valores de confianza puede diferir entre los clasificadores binarios. En segundo lugar, incluso si la distribución de clases está equilibrada en el conjunto de entrenamiento, los alumnos de clasificación binaria ven distribuciones desequilibradas porque normalmente el conjunto de negativos que ven es mucho mayor que el conjunto de positivos. ^[2]^{: 338}

Uno contra uno

En la reducción uno contra uno (OvO), uno entrena clasificadores binarios $K (K - 1) / 2$ para un problema multiclase de vías $K$ ; cada uno recibe las muestras de un par de clases del conjunto de entrenamiento original y debe aprender a distinguir estas dos clases. En el momento de la predicción, se aplica un esquema de votación: todos los clasificadores $K (K - 1) / 2$ se aplican a una muestra invisible y el clasificador combinado predice la clase que obtuvo el mayor número de predicciones "+1". ^[2]^{: 339}

Al igual que OvR, OvO adolece de ambigüedades, ya que algunas regiones de su espacio de entrada pueden recibir el mismo número de votos. ^[2]^{: 183}

Extensión de binario

Esta sección discute estrategias para extender los clasificadores binarios existentes para resolver problemas de clasificación de clases múltiples. Se han desarrollado varios algoritmos basados en redes neuronales , árboles de decisión , vecinos k-más cercanos , Bayes ingenuos , máquinas de vectores de soporte y máquinas de aprendizaje extremo para abordar problemas de clasificación de clases múltiples. Este tipo de técnicas también se pueden denominar técnicas de adaptación de algoritmos.

Redes neuronales

Los perceptrones multiclase proporcionan una extensión natural al problema multiclase. En lugar de tener solo una neurona en la capa de salida, con salida binaria, se podrían tener N neuronas binarias que conducen a una clasificación de clases múltiples. En la práctica, la última capa de una red neuronal suele ser una capa de función softmax , que es la simplificación algebraica de N clasificadores logísticos, normalizados por clase por la suma de los otros N-1 clasificadores logísticos.

Máquinas de aprendizaje extremo

Las máquinas de aprendizaje extremo (ELM) son un caso especial de redes neuronales de retroalimentación directa (SLFN) de una sola capa oculta en las que los pesos de entrada y los sesgos de los nodos ocultos se pueden elegir al azar. Se realizan muchas variantes y desarrollos al ELM para la clasificación multiclase.

k vecinos más cercanos

k vecinos más cercanos kNN se considera uno de los algoritmos de clasificación no paramétricos más antiguos. Para clasificar un ejemplo desconocido, se mide la distancia de ese ejemplo a todos los demás ejemplos de entrenamiento. Se identifican las k distancias más pequeñas y la clase más representada por estos k vecinos más cercanos se considera la etiqueta de clase de salida.

Bayes ingenuo

Naive Bayes es un clasificador exitoso basado en el principio de máximo a posteriori (MAP). Este enfoque es naturalmente extensible al caso de tener más de dos clases, y se demostró que funciona bien a pesar del supuesto simplificador subyacente de la independencia condicional .

Árboles de decisión

El aprendizaje del árbol de decisiones es una poderosa técnica de clasificación. El árbol intenta inferir una división de los datos de entrenamiento basándose en los valores de las características disponibles para producir una buena generalización. El algoritmo puede manejar naturalmente problemas de clasificación binarios o multiclase. Los nodos hoja pueden referirse a cualquiera de las clases K en cuestión.

Máquinas de vectores de soporte

Las máquinas de vectores de soporte se basan en la idea de maximizar el margen, es decir, maximizar la distancia mínima desde el hiperplano de separación hasta el ejemplo más cercano. La SVM básica solo admite la clasificación binaria, pero también se han propuesto extensiones para manejar el caso de clasificación multiclase. En estas extensiones, se agregan parámetros y restricciones adicionales al problema de optimización para manejar la separación de las diferentes clases.

Clasificación jerárquica

La clasificación jerárquica aborda el problema de clasificación de clases múltiples dividiendo el espacio de salida, es decir, en un árbol . Cada nodo principal se divide en varios nodos secundarios y el proceso continúa hasta que cada nodo secundario representa solo una clase. Se han propuesto varios métodos basados en la clasificación jerárquica.

Paradigmas de aprendizaje

Basándose en paradigmas de aprendizaje, las técnicas de clasificación de clases múltiples existentes se pueden clasificar en aprendizaje por lotes y aprendizaje en línea . Los algoritmos de aprendizaje por lotes requieren que todas las muestras de datos estén disponibles de antemano. Entrena el modelo usando todos los datos de entrenamiento y luego predice la muestra de prueba usando la relación encontrada. Los algoritmos de aprendizaje en línea, por otro lado, construyen incrementalmente sus modelos en iteraciones secuenciales. En la iteración t, un algoritmo en línea recibe una muestra, x _t y predice su etiqueta ŷ _t usando el modelo actual; el algoritmo recibe entonces y _t , la verdadera etiqueta de x _t y actualiza su modelo en función del par muestra-etiqueta: (x _t , y _t ). Recientemente, se ha desarrollado un nuevo paradigma de aprendizaje llamado técnica de aprendizaje progresivo. ^[3] La técnica de aprendizaje progresivo es capaz no solo de aprender de nuevas muestras, sino también de aprender nuevas clases de datos y, sin embargo, retener el conocimiento aprendido hasta el momento. ^[4]

Ver también

Notas

^ En la clasificación de múltiples etiquetas , OvR se conoce como relevancia binaria y la predicción de múltiples clases se considera una característica, no un problema.

Referencias

^ Mohamed, Aly (2005). "Encuesta sobre métodos de clasificación multiclase" (PDF) . Informe técnico, Caltech .
^ ^a ^b ^c ^d ^e Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.
^ Venkatesan, Rajasekar; Meng Joo, Er (2016). "Una novedosa técnica de aprendizaje progresivo para la clasificación de clases múltiples". Neurocomputación . 207 : 310–321. arXiv : 1609.00085 . doi : 10.1016 / j.neucom.2016.05.006 .
^ Venkatesan, Rajasekar. "Técnica de aprendizaje progresivo" .

[3] En la clasificación de múltiples etiquetas , OvR se conoce como relevancia binaria y la predicción de múltiples clases se considera una característica, no un problema.

[1] Mohamed, Aly (2005). "Encuesta sobre métodos de clasificación multiclase" (PDF) . Informe técnico, Caltech .

[bishop-2] Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.

[4] Venkatesan, Rajasekar; Meng Joo, Er (2016). "Una novedosa técnica de aprendizaje progresivo para la clasificación de clases múltiples". Neurocomputación . 207 : 310–321. arXiv : 1609.00085 . doi : 10.1016 / j.neucom.2016.05.006 .

[5] Venkatesan, Rajasekar. "Técnica de aprendizaje progresivo" .

[1]