En la teoría de la información , la perplejidad es una medida de qué tan bien una distribución de probabilidad o un modelo de probabilidad predice una muestra. Puede usarse para comparar modelos de probabilidad. Una perplejidad baja indica que la distribución de probabilidad es buena para predecir la muestra.
Perplejidad de una distribución de probabilidad
La perplejidad PP de una distribución de probabilidad discreta p se define como
donde H ( p ) es la entropía (en bits) de la distribución yx se extiende a lo largo de los eventos. (No es necesario que la base sea 2: la perplejidad es independiente de la base, siempre que la entropía y la potenciación utilicen la misma base). Esta medida también se conoce en algunos dominios como diversidad (orden 1 verdadero) .
La perplejidad de una variable aleatoria X puede definirse como la perplejidad de la distribución sobre sus posibles valores x .
En el caso especial en el que p modela un dado de lados k justo (una distribución uniforme sobre k eventos discretos), su perplejidad es k . Una variable aleatoria con perplejidad k tiene la misma incertidumbre que un dado de lados k regular, y se dice que uno está " k -siempre perplejo" sobre el valor de la variable aleatoria. (A menos que sea un dado de lados k justo , serán posibles más de k valores, pero la incertidumbre general no es mayor porque algunos de estos valores tendrán una probabilidad mayor que 1 / k , disminuyendo el valor general al sumar).
La perplejidad se utiliza a veces como una medida de la dificultad de un problema de predicción. Esto no siempre es exacto. Si tiene dos opciones, una con probabilidad de 0.9, entonces sus posibilidades de adivinar correctamente son del 90 por ciento usando la estrategia óptima. La perplejidad es 2 −0,9 log 2 0,9 - 0,1 log 2 0,1 = 1,38. La inversa de la perplejidad (que, en el caso del dado de lados k normal, representa la probabilidad de adivinar correctamente), es 1 / 1,38 = 0,72, no 0,9.
La perplejidad es la exponenciación de la entropía, que es una cantidad más clara. La entropía es una medida del número esperado, o "promedio", de bits necesarios para codificar el resultado de la variable aleatoria, utilizando un código de longitud variable óptimo teórico, por ejemplo, puede considerarse de manera equivalente como la ganancia de información esperada al aprender el resultado de la variable aleatoria.
Perplejidad de un modelo de probabilidad
Se puede proponer un modelo de distribución de probabilidad desconocida p , basado en una muestra de entrenamiento extraída de p . Dado un modelo de probabilidad propuesto q , uno puede evaluar q preguntando qué tan bien predice una muestra de prueba separada x 1 , x 2 , ..., x N también extraída de p . La perplejidad del modelo q se define como
dónde es habitualmente 2. Mejores modelos q de la distribución desconocida p tenderán a asignar mayores probabilidades q ( x i ) a los eventos de prueba. Por lo tanto, tienen menor perplejidad: se sorprenden menos con la muestra de prueba.
El exponente anterior puede considerarse como el número promedio de bits necesarios para representar un evento de prueba x i si se usa un código óptimo basado en q . Los modelos de baja perplejidad hacen un mejor trabajo al comprimir la muestra de prueba, requiriendo pocos bits por elemento de prueba en promedio porque q ( x i ) tiende a ser alta.
El exponente también se puede considerar como una entropía cruzada ,
dónde denota la distribución empírica de la muestra de prueba (es decir,si x apareció n veces en la muestra de prueba de tamaño N ).
Perplejidad por palabra
En el procesamiento del lenguaje natural , la perplejidad es una forma de evaluar los modelos del lenguaje . Un modelo de lenguaje es una distribución de probabilidad sobre oraciones o textos completos.
Usando la definición de perplejidad para un modelo de probabilidad, uno podría encontrar, por ejemplo, que la oración promedio x i en la muestra de prueba podría codificarse en 190 bits (es decir, las oraciones de prueba tenían una probabilidad logarítmica promedio de -190). Esto daría una enorme perplejidad modelo de 2 190 por frase. Sin embargo, es más común normalizar la longitud de la oración y considerar solo el número de bits por palabra. Por lo tanto, si las oraciones de la muestra de prueba comprenden un total de 1,000 palabras y pueden codificarse usando un total de 7,95 bits por palabra, se podría informar una perplejidad del modelo de 27,95 = 247 por palabra. En otras palabras, el modelo es tan confuso en los datos de prueba como si tuviera que elegir de manera uniforme e independiente entre 247 posibilidades para cada palabra.
La perplejidad más bajo que se ha publicado en el Brown Corpus (1 millón de palabras de American Inglés de diferentes temas y géneros) a partir de 1992 es de hecho sobre 247 por palabra, lo que corresponde a una entropía cruzada de registro 2 247 = 7,95 bits por palabra o 1,75 bits por letra [1] utilizando un modelo de trigrama . A menudo es posible lograr una menor perplejidad en los cuerpos más especializados , ya que son más predecibles.
Nuevamente, simplemente adivinar que la siguiente palabra en el corpus de Brown es la palabra "el" tendrá una precisión del 7 por ciento, no 1/247 = 0,4 por ciento, ya que un uso ingenuo de la perplejidad como medida de predicción podría llevar a uno a creer . Esta suposición se basa en las estadísticas de unigrama del corpus de Brown, no en las estadísticas de los triagramas, lo que produjo la palabra perplejidad 247. El uso de las estadísticas de los triagramas mejoraría aún más las posibilidades de una suposición correcta.
Referencias
- ^ Brown, Peter F .; et al. (Marzo de 1992). "Una estimación de un límite superior para la entropía del inglés" (PDF) . Lingüística computacional . 18 (1) . Consultado el 7 de febrero de 2007 .