Poda de árboles de decisión


La poda es una técnica de compresión de datos en el aprendizaje automático y los algoritmos de búsqueda que reduce el tamaño de los árboles de decisión al eliminar secciones del árbol que no son críticas y son redundantes para clasificar instancias. La poda reduce la complejidad del clasificador final y, por lo tanto, mejora la precisión predictiva al reducir el sobreajuste .

Una de las preguntas que surge en un algoritmo de árbol de decisión es el tamaño óptimo del árbol final. Un árbol que es demasiado grande corre el riesgo de sobreajustar los datos de entrenamiento y de generalizar mal a nuevas muestras. Es posible que un árbol pequeño no capture información estructural importante sobre el espacio muestral. Sin embargo, es difícil saber cuándo debe detenerse un algoritmo de árbol porque es imposible saber si la adición de un solo nodo adicional reducirá drásticamente el error. Este problema se conoce como efecto horizonte . Una estrategia común es hacer crecer el árbol hasta que cada nodo contenga una pequeña cantidad de instancias y luego usar la poda para eliminar los nodos que no brindan información adicional. [1]

La poda debería reducir el tamaño de un árbol de aprendizaje sin reducir la precisión predictiva medida por un conjunto de validación cruzada . Existen muchas técnicas para la poda de árboles que difieren en la medición que se utiliza para optimizar el rendimiento.

Los procedimientos previos a la poda evitan una inducción completa del conjunto de entrenamiento reemplazando un criterio stop () en el algoritmo de inducción (por ejemplo, profundidad máxima del árbol o ganancia de información (Attr)> minGain). Los métodos de prepoda se consideran más eficientes porque no inducen un conjunto completo, sino que los árboles permanecen pequeños desde el principio. Los métodos de prepoda comparten un problema común, el efecto horizonte. Esto debe entenderse como la terminación prematura no deseada de la inducción por el criterio de parada ().

La poda posterior (o simplemente la poda) es la forma más común de simplificar los árboles. Aquí, los nodos y subárboles se reemplazan con hojas para reducir la complejidad. La poda no solo puede reducir significativamente el tamaño, sino también mejorar la precisión de clasificación de los objetos invisibles. Puede darse el caso de que la precisión de la asignación en el conjunto de trenes se deteriore, pero la precisión de las propiedades de clasificación del árbol aumente en general.

Los procedimientos se diferencian en función de su enfoque en el árbol (de arriba hacia abajo o de abajo hacia arriba).


Antes y después de la poda