Ganancia de información en árboles de decisión

En teoría de la información y aprendizaje automático , la obtención de información es sinónimo de divergencia Kullback-Leibler ; la cantidad de información obtenida sobre una variable o señal aleatoria al observar otra variable aleatoria. Sin embargo, en el contexto de los árboles de decisión, el término a veces se usa como sinónimo de información mutua , que es el valor esperado condicional de la divergencia Kullback-Leibler de la distribución de probabilidad univariante de una variable de la distribución condicional de esta variable dada la otra. .

La ganancia de información de una variable aleatoria X obtenida de una observación de una variable aleatoria A tomando valor ${\ Displaystyle A = a}$ se define

{\ Displaystyle IG_ {X, A} {(X, a)} = D _ {\ text {KL}} {\ left (P_ {X} {(x | a)} \ | P_ {X} {(x | I)} \ right)},}

la divergencia de Kullback-Leibler de la distribución anterior

{\ Displaystyle P_ {X} {(x | I)}}

para x de la distribución posterior

{\ Displaystyle P_ {X | A} {(x | a)}}

para x dado a .

El valor esperado de la ganancia de información es la información mutua ${\ Displaystyle I (X; A)}$ de X y A - es decir, la reducción de la entropía de X consigue mediante el aprendizaje del estado de la variable aleatoria A .

En el aprendizaje de máquina, este concepto puede utilizarse para definir una secuencia preferida de atributos para investigar a reducir más rápidamente por el estado de X . Esta secuencia (que depende del resultado de la investigación de atributos previos en cada etapa) se denomina árbol de decisión y se aplica en el área del aprendizaje automático conocida como aprendizaje del árbol de decisión . Por lo general, se debe preferir un atributo con mucha información mutua a otros atributos. ^{[ ¿por qué? ]}

Definición general

En términos generales, la ganancia de información esperada es el cambio en la entropía de la información $Η$ de un estado anterior a un estado que toma cierta información como dada:

{\ Displaystyle IG (T, a) = \ mathrm {H} {(T)} - \ mathrm {H} {(T | a)},}

dónde ${\ Displaystyle \ mathrm {H} {(T | a)}}$ es la entropía condicional de ${\ Displaystyle T}$ dado el valor del atributo ${\ Displaystyle a}$ .

Definicion formal

Dejar ${\ Displaystyle T}$ denotar un conjunto de ejemplos de formación , cada uno de la forma ${\ Displaystyle ({\ textbf {x}}, y) = (x_ {1}, x_ {2}, x_ {3}, ..., x_ {k}, y)}$ dónde ${\ displaystyle x_ {a} \ in vals (a)}$ es el valor de la ${\ Displaystyle a ^ {\ text {th}}}$ atributo o característica del ejemplo ${\ Displaystyle {\ textbf {x}}}$ e $y$ es la etiqueta de clase correspondiente. La ganancia de información para un atributo ${\ Displaystyle a}$ se define en términos de entropía de Shannon ${\ Displaystyle \ mathrm {H} (-)}$ como sigue. Por un valor ${\ Displaystyle v}$ tomado por atributo ${\ Displaystyle a}$ , dejar

{\ Displaystyle S_ {a} {(v)} = \ {{\ textbf {x}} \ in T | x_ {a} = v \}}

definirse como el conjunto de insumos de formación de

{\ Displaystyle T}

para que atributo

{\ Displaystyle a}

es igual a

{\ Displaystyle v}

. Entonces la ganancia de información de

{\ Displaystyle T}

por atributo

{\ Displaystyle a}

es la diferencia entre la entropía a priori de Shannon

{\ Displaystyle \ mathrm {H} (T)}

del conjunto de entrenamiento y la entropía condicional

{\ Displaystyle \ mathrm {H} {(T | a)}}

.

{\ Displaystyle \ mathrm {H} (T | a) = \ sum _ {v \ in vals (a)} {{\ frac {| S_ {a} {(v)} |} {| T |}} \ cdot \ mathrm {H} \ left (S_ {a} {\ left (v \ right)} \ right)}.}

{\ Displaystyle IG (T, a) = \ mathrm {H} (T) - \ mathrm {H} (T | a)}

La información mutua es igual a la entropía total de un atributo si para cada uno de los valores de atributo se puede hacer una clasificación única para el atributo de resultado. En este caso, las entropías relativas restadas de la entropía total son 0. En particular, los valores ${\ Displaystyle v \ in vals (a)}$ define una partición de los datos del conjunto de entrenamiento ${\ Displaystyle T}$ en subconjuntos mutuamente excluyentes e inclusivos , induciendo una distribución de probabilidad categórica ${\ textstyle P_ {a} {(v)}}$ en los valores ${\ textstyle v \ in vals (a)}$ de atributo ${\ Displaystyle a}$ . La distribución se da ${\ textstyle P_ {a} {(v)}: = {\ frac {| S_ {a} {(v)} |} {| T |}}}$ . En esta representación, la ganancia de información de ${\ Displaystyle T}$ dado ${\ Displaystyle a}$ puede definirse como la diferencia entre la entropía incondicional de Shannon de ${\ Displaystyle T}$ y la entropía esperada de ${\ Displaystyle T}$ condicionado en ${\ Displaystyle a}$ , donde el valor esperado se toma con respecto a la distribución inducida sobre los valores de ${\ Displaystyle a}$ .

{\ displaystyle {\ begin {alignedat} {2} IG (T, a) & = \ mathrm {H} (T) - \ sum _ {v \ in vals (a)} {P_ {a} {(v) } \ mathrm {H} \ left (S_ {a} {(v)} \ right)} \\ & = \ mathrm {H} (T) - \ mathbb {E} _ {P_ {a}} {\ left [\ mathrm {H} {(S_ {a} {(v)})} \ right]} \\ & = \ mathrm {H} (T) - \ mathrm {H} {(T | a)}. \ end {alignedat}}}

Inconvenientes

Aunque la obtención de información suele ser una buena medida para decidir la relevancia de un atributo, no es perfecta. Un problema notable ocurre cuando la ganancia de información se aplica a atributos que pueden asumir una gran cantidad de valores distintos. Por ejemplo, suponga que se está construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La obtención de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que puedan probarse cerca de la raíz del árbol. Uno de los atributos de entrada puede ser el número de tarjeta de crédito del cliente. Este atributo tiene una alta información mutua, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisiones: es poco probable que decidir cómo tratar a un cliente en función de su número de tarjeta de crédito se generalice a los clientes que no tenemos. visto antes ( sobreajuste ).

Para contrarrestar este problema, Ross Quinlan propuso, en cambio, elegir el atributo con el índice de ganancia de información más alto entre los atributos cuya ganancia de información es promedio o superior. ^[1] Esto predispone al árbol de decisiones en contra de considerar atributos con un gran número de valores distintos, sin dar una ventaja injusta a los atributos con un valor de información muy bajo, ya que el valor de la información es mayor o igual a la ganancia de información. ^[2]

Ejemplo

Usemos esta tabla como un conjunto de datos y usemos la ganancia de información para clasificar si un paciente está enfermo con una enfermedad. Los pacientes clasificados como Verdadero (T) están enfermos y los pacientes clasificados como Falso (F) no están enfermos. Actualmente estamos en el nodo raíz del árbol y debemos considerar todas las posibles divisiones utilizando los datos.

Conjunto de datos de entrenamiento
Paciente	Síntoma A	Síntoma B	Síntoma C	Clasificación
1	T	T	T	F
2	T	F	T	T
3	F	F	T	T
4	F	T	T	F
5	F	T	F	T

Las divisiones de candidatos se determinan observando cada variable que compone a un paciente y cuáles pueden ser sus estados. En este ejemplo, todos los síntomas pueden ser Verdadero (V) o Falso (F).

Divisiones de candidatos
Separar	Nodos secundarios
1	Síntoma A = T, síntoma A = F
2	Síntoma B = T, síntoma B = F
3	Síntoma C = T, síntoma C = F

Ahora para la división # 1, determinamos la entropía antes de la división que se encuentra usando la clasificación de cada paciente.

${\ Displaystyle H (T) = - 3/5 \ log _ {2} (3/5) -2/5 \ log _ {2} (2/5) = 0.971}$

La entropía condicional de la división # 1 se determina encontrando la entropía de cada estado del síntoma A y combinándolos.

${\ Displaystyle H (T | a) = 2/5 (-1/2 \ log _ {2} (1/2) -1/2 \ log _ {2} (1/2)) + 3/5 ( -2/3 \ log _ {2} (2/3) -1/3 \ log _ {2} (1/3)) = 2/5 (1) +3/5 (0.918) = 0.951}$

La ganancia de información puede entonces determinarse encontrando la diferencia entre la entropía previa y la entropía condicional.

${\ Displaystyle IG (T, a) = H (T) -H (T | a) = 0.971-0.951 = 0.02}$

Ejemplo de división del nodo raíz

Estos pasos se repiten para todas las divisiones de candidatos para obtener su información. Todas las divisiones candidatas para un nodo utilizan el mismo valor para ${\ Displaystyle H (T)}$ .

Ganancias de información dividida de candidatos
Separar	Ganancia de información
1	0,020
2	0,419
3	0,171

Candidate Split # 2 tiene la mayor ganancia de información, por lo que será la división más favorable para el nodo raíz. Dependiendo de la confianza de las clasificaciones de los nodos secundarios, la ganancia de información se puede aplicar a los nodos secundarios, pero no se puede usar la misma división candidata.

Ver también

La información gana de manera más amplia
Aprendizaje del árbol de decisiones
El contenido de la información , el punto de partida de la teoría de la información y la base de la entropía de Shannon
Relación de ganancia de información
Algoritmo ID3
- Algoritmo C4.5
Análisis sorpresa

Referencias

^ Quinlan, J. Ross (1986). "Inducción de árboles de decisión" . Aprendizaje automático . 1 (1): 81–106. doi : 10.1007 / BF00116251 .
^ Milman, Oren (6 de agosto de 2018). "¿Cuál es el rango de la relación de ganancia de información?" . Stack Exchange . Consultado el 9 de octubre de 2018 .

Otras lecturas

Mitchell, Tom M. (1997). Aprendizaje automático . The Mc-Graw-Hill Companies, Inc. ISBN 978-0070428072.

[1] Quinlan, J. Ross (1986). "Inducción de árboles de decisión" . Aprendizaje automático . 1 (1): 81–106. doi : 10.1007 / BF00116251 .

[2] Milman, Oren (6 de agosto de 2018). "¿Cuál es el rango de la relación de ganancia de información?" . Stack Exchange . Consultado el 9 de octubre de 2018 .

[1]