En teoría de la información y aprendizaje automático , la obtención de información es sinónimo de divergencia Kullback-Leibler ; la cantidad de información obtenida sobre una variable o señal aleatoria al observar otra variable aleatoria. Sin embargo, en el contexto de los árboles de decisión, el término a veces se usa como sinónimo de información mutua , que es el valor esperado condicional de la divergencia Kullback-Leibler de la distribución de probabilidad univariante de una variable de la distribución condicional de esta variable dada la otra. .
La ganancia de información de una variable aleatoria X obtenida de una observación de una variable aleatoria A tomando valor se define
El valor esperado de la ganancia de información es la información mutua de X y A - es decir, la reducción de la entropía de X consigue mediante el aprendizaje del estado de la variable aleatoria A .
En el aprendizaje de máquina, este concepto puede utilizarse para definir una secuencia preferida de atributos para investigar a reducir más rápidamente por el estado de X . Esta secuencia (que depende del resultado de la investigación de atributos previos en cada etapa) se denomina árbol de decisión y se aplica en el área del aprendizaje automático conocida como aprendizaje del árbol de decisión . Por lo general, se debe preferir un atributo con mucha información mutua a otros atributos. [ ¿por qué? ]
Definición general
En términos generales, la ganancia de información esperada es el cambio en la entropía de la información Η de un estado anterior a un estado que toma cierta información como dada:
dónde es la entropía condicional dedado el valor del atributo .
Definicion formal
Dejar denotar un conjunto de ejemplos de formación , cada uno de la forma dónde es el valor de la atributo o característica del ejemplo e y es la etiqueta de clase correspondiente. La ganancia de información para un atributose define en términos de entropía de Shannon como sigue. Por un valor tomado por atributo , dejar
La información mutua es igual a la entropía total de un atributo si para cada uno de los valores de atributo se puede hacer una clasificación única para el atributo de resultado. En este caso, las entropías relativas restadas de la entropía total son 0. En particular, los valoresdefine una partición de los datos del conjunto de entrenamientoen subconjuntos mutuamente excluyentes e inclusivos , induciendo una distribución de probabilidad categórica en los valores de atributo . La distribución se da. En esta representación, la ganancia de información de dado puede definirse como la diferencia entre la entropía incondicional de Shannon de y la entropía esperada de condicionado en , donde el valor esperado se toma con respecto a la distribución inducida sobre los valores de.
Inconvenientes
Aunque la obtención de información suele ser una buena medida para decidir la relevancia de un atributo, no es perfecta. Un problema notable ocurre cuando la ganancia de información se aplica a atributos que pueden asumir una gran cantidad de valores distintos. Por ejemplo, suponga que se está construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La obtención de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que puedan probarse cerca de la raíz del árbol. Uno de los atributos de entrada puede ser el número de tarjeta de crédito del cliente. Este atributo tiene una alta información mutua, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisiones: es poco probable que decidir cómo tratar a un cliente en función de su número de tarjeta de crédito se generalice a los clientes que no tenemos. visto antes ( sobreajuste ).
Para contrarrestar este problema, Ross Quinlan propuso, en cambio, elegir el atributo con el índice de ganancia de información más alto entre los atributos cuya ganancia de información es promedio o superior. [1] Esto predispone al árbol de decisiones en contra de considerar atributos con un gran número de valores distintos, sin dar una ventaja injusta a los atributos con un valor de información muy bajo, ya que el valor de la información es mayor o igual a la ganancia de información. [2]
Ejemplo
Usemos esta tabla como un conjunto de datos y usemos la ganancia de información para clasificar si un paciente está enfermo con una enfermedad. Los pacientes clasificados como Verdadero (T) están enfermos y los pacientes clasificados como Falso (F) no están enfermos. Actualmente estamos en el nodo raíz del árbol y debemos considerar todas las posibles divisiones utilizando los datos.
Paciente | Síntoma A | Síntoma B | Síntoma C | Clasificación |
---|---|---|---|---|
1 | T | T | T | F |
2 | T | F | T | T |
3 | F | F | T | T |
4 | F | T | T | F |
5 | F | T | F | T |
Las divisiones de candidatos se determinan observando cada variable que compone a un paciente y cuáles pueden ser sus estados. En este ejemplo, todos los síntomas pueden ser Verdadero (V) o Falso (F).
Separar | Nodos secundarios |
---|---|
1 | Síntoma A = T, síntoma A = F |
2 | Síntoma B = T, síntoma B = F |
3 | Síntoma C = T, síntoma C = F |
Ahora para la división # 1, determinamos la entropía antes de la división que se encuentra usando la clasificación de cada paciente.
La entropía condicional de la división # 1 se determina encontrando la entropía de cada estado del síntoma A y combinándolos.
La ganancia de información puede entonces determinarse encontrando la diferencia entre la entropía previa y la entropía condicional.
Estos pasos se repiten para todas las divisiones de candidatos para obtener su información. Todas las divisiones candidatas para un nodo utilizan el mismo valor para.
Separar | Ganancia de información |
---|---|
1 | 0,020 |
2 | 0,419 |
3 | 0,171 |
Candidate Split # 2 tiene la mayor ganancia de información, por lo que será la división más favorable para el nodo raíz. Dependiendo de la confianza de las clasificaciones de los nodos secundarios, la ganancia de información se puede aplicar a los nodos secundarios, pero no se puede usar la misma división candidata.
Ver también
- La información gana de manera más amplia
- Aprendizaje del árbol de decisiones
- El contenido de la información , el punto de partida de la teoría de la información y la base de la entropía de Shannon
- Relación de ganancia de información
- Algoritmo ID3
- Algoritmo C4.5
- Análisis sorpresa
Referencias
- ^ Quinlan, J. Ross (1986). "Inducción de árboles de decisión" . Aprendizaje automático . 1 (1): 81–106. doi : 10.1007 / BF00116251 .
- ^ Milman, Oren (6 de agosto de 2018). "¿Cuál es el rango de la relación de ganancia de información?" . Stack Exchange . Consultado el 9 de octubre de 2018 .
Otras lecturas
- Mitchell, Tom M. (1997). Aprendizaje automático . The Mc-Graw-Hill Companies, Inc. ISBN 978-0070428072.