En teoría de la información , la entropía cruzada entre dos distribuciones de probabilidad y sobre el mismo conjunto subyacente de eventos mide el número promedio de bits necesarios para identificar un evento extraído del conjunto si un esquema de codificación utilizado para el conjunto está optimizado para una distribución de probabilidad estimada, en lugar de la verdadera distribución .
Definición
La entropía cruzada de la distribución relativo a una distribución sobre un conjunto dado se define de la siguiente manera:
- ,
dónde es el operador de valor esperado con respecto a la distribución.
La definición puede formularse utilizando la divergencia Kullback-Leibler. , divergencia de de (también conocida como la entropía relativa de con respecto a ).
- ,
dónde es la entropía de.
Para distribuciones de probabilidad discretas y con el mismo apoyo esto significa
| ( Ecuación 1 ) |
La situación de las distribuciones continuas es análoga. Tenemos que asumir que y son absolutamente continuos con respecto a alguna medida de referencia (por lo general es una medida de Lebesgue en un σ-álgebra de Borel ). Dejar y ser funciones de densidad de probabilidad de y con respecto a . Luego
y por lo tanto
| ( Ecuación 2 ) |
NB: La notación también se utiliza para un concepto diferente, la entropía conjunta de y .
Motivación
En teoría de la información , el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor fuera de un conjunto de posibilidades puede verse como una representación de una distribución de probabilidad implícita encima , dónde es la longitud del código para en bits. Por lo tanto, la entropía cruzada se puede interpretar como la longitud esperada del mensaje por dato cuando una distribución incorrecta se asume mientras que los datos siguen realmente una distribución . Es por eso que la expectativa se toma sobre la verdadera distribución de probabilidad. y no . De hecho, la longitud esperada del mensaje bajo la distribución real es,
Estimacion
Hay muchas situaciones en las que es necesario medir la entropía cruzada, pero la distribución de es desconocido. Un ejemplo es el modelado de lenguaje , donde se crea un modelo basado en un conjunto de entrenamiento., y luego se mide su entropía cruzada en un conjunto de prueba para evaluar qué tan preciso es el modelo en la predicción de los datos de prueba. En este ejemplo, es la verdadera distribución de palabras en cualquier corpus, y es la distribución de palabras según lo predice el modelo. Dado que se desconoce la distribución real, la entropía cruzada no se puede calcular directamente. En estos casos, se calcula una estimación de la entropía cruzada mediante la siguiente fórmula:
dónde es el tamaño del equipo de prueba, y es la probabilidad de evento estimado a partir del conjunto de entrenamiento. En otras palabras, es la estimación de probabilidad del modelo de que la i-ésima palabra del texto es . La suma se promedia sobre elpalabras de la prueba. Esta es una estimación de Monte Carlo de la verdadera entropía cruzada, donde el conjunto de prueba se trata como muestras de[ cita requerida ] .
Relación con la probabilidad logarítmica
En los problemas de clasificación queremos estimar la probabilidad de diferentes resultados. Sea la probabilidad estimada de resultado ser con parámetros a optimizar y deje que la frecuencia (probabilidad empírica) del resultado en el conjunto de entrenamiento ser . Dadas N muestras condicionalmente independientes en el conjunto de entrenamiento, entonces la probabilidad de los parámetros del modelo en el set de entrenamiento es
por lo que la probabilidad logarítmica, dividida por es
de modo que maximizando la probabilidad con respecto a los parámetros es lo mismo que minimizar la entropía cruzada.
Minimización de entropía cruzada
La minimización de entropía cruzada se utiliza con frecuencia en la optimización y la estimación de probabilidad de eventos raros. Al comparar una distribución contra una distribución de referencia fija , la entropía cruzada y la divergencia KL son idénticas hasta una constante aditiva (ya que es fijo): ambos adoptan sus valores mínimos cuando , cual es para la divergencia KL, y para la entropía cruzada. [ cita requerida ] En la literatura de ingeniería, el principio de minimizar la divergencia de KL (" Principio de información mínima de discriminación " de Kullback ) a menudo se denomina Principio de entropía cruzada mínima (MCE) o Minxent .
Sin embargo, como se discutió en el artículo divergencia Kullback-Leibler , a veces la distribución es la distribución de referencia previa fija, y la distribución está optimizado para estar lo más cerca posible de como sea posible, sujeto a alguna restricción. En este caso, las dos minimizaciones no son equivalentes. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia redefiniendo la entropía cruzada como, en vez de .
Función de pérdida de entropía cruzada y regresión logística
La entropía cruzada se puede utilizar para definir una función de pérdida en el aprendizaje automático y la optimización . La verdadera probabilidad es la etiqueta verdadera, y la distribución dada es el valor predicho del modelo actual.
Más específicamente, considere la regresión logística , que (entre otras cosas) se puede utilizar para clasificar las observaciones en dos clases posibles (a menudo simplemente etiquetadas y ). La salida del modelo para una observación dada, dado un vector de características de entrada, se puede interpretar como una probabilidad, que sirve como base para clasificar la observación. La probabilidad se modela utilizando la función logística dónde es alguna función del vector de entrada , comúnmente solo una función lineal. La probabilidad de la salida es dado por
donde el vector de pesos se optimiza mediante algún algoritmo apropiado, como el descenso de gradiente . De manera similar, la probabilidad complementaria de encontrar la salida es simplemente dado por
Habiendo configurado nuestra notación, y , podemos usar la entropía cruzada para obtener una medida de disimilitud entre y :
La regresión logística generalmente optimiza la pérdida de registro para todas las observaciones en las que se entrena, que es lo mismo que optimizar la entropía cruzada promedio en la muestra. Por ejemplo, supongamos que tenemos muestras con cada muestra indexada por . El promedio de la función de pérdida viene dado por:
dónde , con la función logística como antes.
La pérdida logística a veces se denomina pérdida de entropía cruzada. También se conoce como pérdida de registro (en este caso, la etiqueta binaria a menudo se indica con {-1, + 1}). [1]
Observación: El gradiente de la pérdida de entropía cruzada para la regresión logística es el mismo que el gradiente de la pérdida de error al cuadrado para la regresión lineal . Es decir, definir
Entonces tenemos el resultado
La prueba es como sigue. Para cualquier, tenemos
De manera similar, eventualmente obtenemos el resultado deseado.