Entropía cruzada

En teoría de la información , la entropía cruzada entre dos distribuciones de probabilidad ${\ Displaystyle p}$ y ${\ Displaystyle q}$ sobre el mismo conjunto subyacente de eventos mide el número promedio de bits necesarios para identificar un evento extraído del conjunto si un esquema de codificación utilizado para el conjunto está optimizado para una distribución de probabilidad estimada ${\ Displaystyle q}$ , en lugar de la verdadera distribución ${\ Displaystyle p}$ .

Definición

La entropía cruzada de la distribución ${\ Displaystyle q}$ relativo a una distribución ${\ Displaystyle p}$ sobre un conjunto dado se define de la siguiente manera:

{\ Displaystyle H (p, q) = - \ operatorname {E} _ {p} [\ log q]}

,

dónde ${\ Displaystyle E_ {p} [\ cdot]}$ es el operador de valor esperado con respecto a la distribución ${\ Displaystyle p}$ .

La definición puede formularse utilizando la divergencia Kullback-Leibler. ${\ Displaystyle D _ {\ mathrm {KL}} (p \ | q)}$ , divergencia de ${\ Displaystyle p}$ de ${\ Displaystyle q}$ (también conocida como la entropía relativa de ${\ Displaystyle p}$ con respecto a ${\ Displaystyle q}$ ).

{\ Displaystyle H (p, q) = H (p) + D _ {\ mathrm {KL}} (p \ | q)}

,

dónde ${\ Displaystyle H (p)}$ es la entropía de ${\ Displaystyle p}$ .

Para distribuciones de probabilidad discretas ${\ Displaystyle p}$ y ${\ Displaystyle q}$ con el mismo apoyo ${\ Displaystyle {\ mathcal {X}}}$ esto significa

{\ Displaystyle H (p, q) = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \, \ log q (x)}

( Ecuación 1 )

La situación de las distribuciones continuas es análoga. Tenemos que asumir que ${\ Displaystyle p}$ y ${\ Displaystyle q}$ son absolutamente continuos con respecto a alguna medida de referencia ${\ Displaystyle r}$ (por lo general ${\ Displaystyle r}$ es una medida de Lebesgue en un σ-álgebra de Borel ). Dejar ${\ Displaystyle P}$ y ${\ displaystyle Q}$ ser funciones de densidad de probabilidad de ${\ Displaystyle p}$ y ${\ Displaystyle q}$ con respecto a ${\ Displaystyle r}$ . Luego

{\ Displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}

y por lo tanto

{\ Displaystyle H (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}

( Ecuación 2 )

NB: La notación ${\ Displaystyle H (p, q)}$ también se utiliza para un concepto diferente, la entropía conjunta de ${\ Displaystyle p}$ y ${\ Displaystyle q}$ .

Motivación

En teoría de la información , el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor ${\ Displaystyle x_ {i}}$ fuera de un conjunto de posibilidades ${\ Displaystyle \ {x_ {1}, ..., x_ {n} \}}$ puede verse como una representación de una distribución de probabilidad implícita ${\ Displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}}$ encima ${\ Displaystyle \ {x_ {1}, ..., x_ {n} \}}$ , dónde ${\ Displaystyle l_ {i}}$ es la longitud del código para ${\ Displaystyle x_ {i}}$ en bits. Por lo tanto, la entropía cruzada se puede interpretar como la longitud esperada del mensaje por dato cuando una distribución incorrecta ${\ Displaystyle q}$ se asume mientras que los datos siguen realmente una distribución ${\ Displaystyle p}$ . Es por eso que la expectativa se toma sobre la verdadera distribución de probabilidad. ${\ Displaystyle p}$ y no ${\ Displaystyle q}$ . De hecho, la longitud esperada del mensaje bajo la distribución real ${\ Displaystyle p}$ es,

{\ Displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ {i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}

Estimacion

Hay muchas situaciones en las que es necesario medir la entropía cruzada, pero la distribución de ${\ Displaystyle p}$ es desconocido. Un ejemplo es el modelado de lenguaje , donde se crea un modelo basado en un conjunto de entrenamiento. ${\ Displaystyle T}$ , y luego se mide su entropía cruzada en un conjunto de prueba para evaluar qué tan preciso es el modelo en la predicción de los datos de prueba. En este ejemplo, ${\ Displaystyle p}$ es la verdadera distribución de palabras en cualquier corpus, y ${\ Displaystyle q}$ es la distribución de palabras según lo predice el modelo. Dado que se desconoce la distribución real, la entropía cruzada no se puede calcular directamente. En estos casos, se calcula una estimación de la entropía cruzada mediante la siguiente fórmula:

{\ Displaystyle H (T, q) = - \ sum _ {i = 1} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})}

dónde ${\ Displaystyle N}$ es el tamaño del equipo de prueba, y ${\ Displaystyle q (x)}$ es la probabilidad de evento ${\ Displaystyle x}$ estimado a partir del conjunto de entrenamiento. En otras palabras, ${\ Displaystyle q (x_ {i})}$ es la estimación de probabilidad del modelo de que la i-ésima palabra del texto es ${\ Displaystyle x_ {i}}$ . La suma se promedia sobre el ${\ Displaystyle N}$ palabras de la prueba. Esta es una estimación de Monte Carlo de la verdadera entropía cruzada, donde el conjunto de prueba se trata como muestras de ${\ Displaystyle p (x)}$ ^{[ cita requerida ]} .

Relación con la probabilidad logarítmica

En los problemas de clasificación queremos estimar la probabilidad de diferentes resultados. Sea la probabilidad estimada de resultado ${\ Displaystyle i}$ ser ${\ Displaystyle q _ {\ theta} (X = i)}$ con parámetros a optimizar ${\ Displaystyle \ theta}$ y deje que la frecuencia (probabilidad empírica) del resultado ${\ Displaystyle i}$ en el conjunto de entrenamiento ser ${\ Displaystyle p (X = i)}$ . Dadas N muestras condicionalmente independientes en el conjunto de entrenamiento, entonces la probabilidad de los parámetros ${\ Displaystyle \ theta}$ del modelo ${\ Displaystyle q _ {\ theta} (X = x)}$ en el set de entrenamiento es

{\ displaystyle {\ mathcal {L}} (\ theta) = \ prod _ {i \ in X} ({\ mbox {probabilidad est. de}} i) ^ {{\ mbox {número de apariciones de}} i } = \ prod _ {i} q _ {\ theta} (X = i) ^ {Np (X = i)}}

por lo que la probabilidad logarítmica, dividida por ${\ Displaystyle N}$ es

{\ Displaystyle {\ frac {1} {N}} \ log ({\ mathcal {L}} (\ theta)) = {\ frac {1} {N}} \ log \ prod _ {i} q _ {\ theta} (X = i) ^ {Np (X = i)} = \ sum _ {i} p (X = i) \ log q _ {\ theta} (X = i) = - H (p, q)}

de modo que maximizando la probabilidad con respecto a los parámetros ${\ Displaystyle \ theta}$ es lo mismo que minimizar la entropía cruzada.

Minimización de entropía cruzada

La minimización de entropía cruzada se utiliza con frecuencia en la optimización y la estimación de probabilidad de eventos raros. Al comparar una distribución ${\ Displaystyle q}$ contra una distribución de referencia fija ${\ Displaystyle p}$ , la entropía cruzada y la divergencia KL son idénticas hasta una constante aditiva (ya que ${\ Displaystyle p}$ es fijo): ambos adoptan sus valores mínimos cuando ${\ Displaystyle p = q}$ , cual es ${\ Displaystyle 0}$ para la divergencia KL, y ${\ Displaystyle \ mathrm {H} (p)}$ para la entropía cruzada. ^{[ cita requerida ]} En la literatura de ingeniería, el principio de minimizar la divergencia de KL (" Principio de información mínima de discriminación " de Kullback ) a menudo se denomina Principio de entropía cruzada mínima (MCE) o Minxent .

Sin embargo, como se discutió en el artículo divergencia Kullback-Leibler , a veces la distribución ${\ Displaystyle q}$ es la distribución de referencia previa fija, y la distribución ${\ Displaystyle p}$ está optimizado para estar lo más cerca posible de ${\ Displaystyle q}$ como sea posible, sujeto a alguna restricción. En este caso, las dos minimizaciones no son equivalentes. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia redefiniendo la entropía cruzada como ${\ Displaystyle D _ {\ mathrm {KL}} (p \ | q)}$ , en vez de ${\ Displaystyle H (p, q)}$ .

Función de pérdida de entropía cruzada y regresión logística

La entropía cruzada se puede utilizar para definir una función de pérdida en el aprendizaje automático y la optimización . La verdadera probabilidad ${\ Displaystyle p_ {i}}$ es la etiqueta verdadera, y la distribución dada ${\ Displaystyle q_ {i}}$ es el valor predicho del modelo actual.

Más específicamente, considere la regresión logística , que (entre otras cosas) se puede utilizar para clasificar las observaciones en dos clases posibles (a menudo simplemente etiquetadas ${\ Displaystyle 0}$ y ${\ Displaystyle 1}$ ). La salida del modelo para una observación dada, dado un vector de características de entrada ${\ Displaystyle x}$ , se puede interpretar como una probabilidad, que sirve como base para clasificar la observación. La probabilidad se modela utilizando la función logística ${\ Displaystyle g (z) = 1 / (1 + e ^ {- z})}$ dónde ${\ Displaystyle z}$ es alguna función del vector de entrada ${\ Displaystyle x}$ , comúnmente solo una función lineal. La probabilidad de la salida ${\ Displaystyle y = 1}$ es dado por

{\ Displaystyle q_ {y = 1} \ = \ {\ hat {y}} \ \ equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}

donde el vector de pesos ${\ Displaystyle \ mathbf {w}}$ se optimiza mediante algún algoritmo apropiado, como el descenso de gradiente . De manera similar, la probabilidad complementaria de encontrar la salida ${\ Displaystyle y = 0}$ es simplemente dado por

{\ Displaystyle q_ {y = 0} \ = \ 1 - {\ hat {y}}}

Habiendo configurado nuestra notación, ${\ Displaystyle p \ in \ {y, 1-y \}}$ y ${\ Displaystyle q \ in \ {{\ hat {y}}, 1 - {\ hat {y}} \}}$ , podemos usar la entropía cruzada para obtener una medida de disimilitud entre ${\ Displaystyle p}$ y ${\ Displaystyle q}$ :

{\ Displaystyle H (p, q) \ = \ - \ sum _ {i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ log (1 - {\ hat {y}})}

La regresión logística generalmente optimiza la pérdida de registro para todas las observaciones en las que se entrena, que es lo mismo que optimizar la entropía cruzada promedio en la muestra. Por ejemplo, supongamos que tenemos ${\ Displaystyle N}$ muestras con cada muestra indexada por ${\ Displaystyle n = 1, \ dots, N}$ . El promedio de la función de pérdida viene dado por:

{\ Displaystyle {\ begin {alineado} J (\ mathbf {w}) \ & = \ {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ {\ bigg [} y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \ ,, \ end {alineado}}}

dónde ${\ Displaystyle {\ hat {y}} _ {n} \ equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})}$ , con ${\ Displaystyle g (z)}$ la función logística como antes.

La pérdida logística a veces se denomina pérdida de entropía cruzada. También se conoce como pérdida de registro (en este caso, la etiqueta binaria a menudo se indica con {-1, + 1}). ^[1]

Observación: El gradiente de la pérdida de entropía cruzada para la regresión logística es el mismo que el gradiente de la pérdida de error al cuadrado para la regresión lineal . Es decir, definir

${\ displaystyle X ^ {T} = {\ begin {pmatrix} 1 & x_ {11} & \ dots & x_ {1p} \\ 1 & x_ {21} & \ dots & x_ {2p} \\ && \ dots \\ 1 & x_ {n1} & \ dots & x_ {np} \\\ end {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}$

${\ Displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac {1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}}$

${\ Displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1 -y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}$

Entonces tenemos el resultado

${\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}$

La prueba es como sigue. Para cualquier ${\ Displaystyle {\ hat {y}} ^ {i}}$ , tenemos

${\ estilo de visualización {\ frac {\ parcial} {\ parcial \ beta _ {0}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

${\ displaystyle {\ frac {\ parcial} {\ parcial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ { 0}}}} \ right) = {\ frac {-1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

${\ Displaystyle {\ begin {alineado} {\ frac {\ parcial} {\ parcial \ beta _ {0}}} L ({\ overrightarrow {\ beta}}) & = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ { 0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right] \\ & = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ sum _ {i = 1} ^ {N} ({\ hat {y }} ^ {i} -y ^ {i}) \ end {alineado}}}$

${\ estilo de visualización {\ frac {\ parcial} {\ parcial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1 }}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$

${\ Displaystyle {\ frac {\ parcial} {\ parcial \ beta _ {1}}} \ ln \ left [1 - {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1 } + k_ {1}}}} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1 }} + e ^ {k_ {1}}}}}$

${\ Displaystyle {\ frac {\ parcial} {\ parcial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y}} ^ {i} -y ^ {i})}$

De manera similar, eventualmente obtenemos el resultado deseado.

Ver también

Referencias

^ Murphy, Kevin (2012). Aprendizaje automático: una perspectiva probabilística . MIT. ISBN 978-0262018029.

enlaces externos

Entropía cruzada

[1] Murphy, Kevin (2012). Aprendizaje automático: una perspectiva probabilística . MIT. ISBN 978-0262018029.

[1]