En el aprendizaje del árbol de decisiones , la relación de ganancia de información es una relación entre la ganancia de información y la información intrínseca. Fue propuesto por Ross Quinlan , [1] para reducir el sesgo hacia los atributos de valores múltiples teniendo en cuenta el número y el tamaño de las ramas al elegir un atributo. [2]
La ganancia de información también se conoce como información mutua . [3]
Cálculo de ganancia de información
Dejar ser el conjunto de todos los atributos y el conjunto de todos los ejemplos de formación, con define el valor de un ejemplo específico por atributo , especifica la entropía . La función denota el conjunto de todos los valores posibles de atributo . La ganancia de información para un atributo se define de la siguiente manera:
La ganancia de información es igual a la entropía total de un atributo si para cada uno de los valores de atributo se puede hacer una clasificación única para el atributo de resultado. En este caso, las entropías relativas restadas de la entropía total son 0.
Cálculo de valor intrínseco
El valor intrínseco de una prueba se define de la siguiente manera:
Cálculo de la relación de ganancia de información
La relación de ganancia de información es solo la relación entre la ganancia de información y el valor intrínseco:
Ventajas
El índice de ganancia de información predispone al árbol de decisiones en contra de considerar atributos con un gran número de valores distintos. Por lo tanto, resuelve el inconveniente de la ganancia de información, es decir, la ganancia de información aplicada a atributos que pueden asumir una gran cantidad de valores distintos podría aprender demasiado bien el conjunto de entrenamiento . Por ejemplo, suponga que estamos creando un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La obtención de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que puedan probarse cerca de la raíz del árbol. Uno de los atributos de entrada puede ser el número de tarjeta de crédito del cliente . Este atributo tiene una gran ganancia de información, porque identifica de manera única a cada cliente, pero no queremos incluirlo en el árbol de decisiones: es poco probable que decidir cómo tratar a un cliente en función de su número de tarjeta de crédito se generalice a los clientes que no tenemos visto antes.