Algoritmo C4.5


C4.5 es un algoritmo utilizado para generar un árbol de decisión desarrollado por Ross Quinlan . [1] C4.5 es una extensión del algoritmo ID3 anterior de Quinlan . Los árboles de decisión generados por C4.5 se pueden usar para la clasificación y, por esta razón, C4.5 a menudo se denomina clasificador estadístico . En 2011, los autores del software de aprendizaje automático Weka describieron el algoritmo C4.5 como "un programa de árbol de decisiones histórico que es probablemente el caballo de batalla del aprendizaje automático más utilizado en la práctica hasta la fecha". [2]

Se hizo bastante popular después de ocupar el puesto número 1 en el artículo preeminente Top 10 Algorithms in Data Mining publicado por Springer LNCS en 2008. [3]

C4.5 construye árboles de decisión a partir de un conjunto de datos de entrenamiento de la misma manera que ID3 , utilizando el concepto de entropía de la información . Los datos de entrenamiento son un conjunto de muestras ya clasificadas. Cada muestra consta de un vector p-dimensional , donde representan los valores de los atributos o características de la muestra, así como la clase en la que se enmarca.

En cada nodo del árbol, C4.5 elige el atributo de los datos que más efectivamente divide su conjunto de muestras en subconjuntos enriquecidos en una clase u otra. El criterio de división es la ganancia de información normalizada (diferencia en entropía ). El atributo con la ganancia de información normalizada más alta se elige para tomar la decisión. Luego, el algoritmo C4.5 recurre en las sublistas particionadas .

Quinlan pasó a crear C5.0 y See5 (C5.0 para Unix/Linux, See5 para Windows) que comercializa comercialmente. C5.0 ofrece una serie de mejoras en C4.5. Algunos de estos son: [6] [7]