Alisado aditivo

En estadística , el suavizado aditivo , también llamado suavizado de Laplace ^[1] (que no debe confundirse con el suavizado laplaciano como se usa en el procesamiento de imágenes ), o suavizado de Lidstone , es una técnica utilizada para suavizar datos categóricos . Dada una observación ${\ textstyle \ textstyle {\ mathbf {x} \ = \ \ left \ langle x_ {1}, \, x_ {2}, \, \ ldots, \, x_ {d} \ right \ rangle}}$ de una distribución multinomial con ${\ estilo de texto \ estilo de texto {N}}$ ensayos, una versión "suavizada" de los datos proporciona al estimador :

{\ displaystyle {\ hat {\ theta}} _ {i} = {\ frac {x_ {i} + \ alpha} {N + \ alpha d}} \ qquad (i = 1, \ ldots, d),}

donde la "pseudocuenta" α > 0 es un parámetro de suavizado . α = 0 corresponde a ningún suavizado. (Este parámetro se explica en el § Pseudocuenta a continuación). El suavizado aditivo es un tipo de estimador de contracción , ya que la estimación resultante estará entre la probabilidad empírica ( frecuencia relativa ) ${\ textstyle \ textstyle {x_ {i} / N}}$ , y la probabilidad uniforme ${\ textstyle \ textstyle {1 / d}}$ . Invocando la regla de sucesión de Laplace , algunos autores han argumentado ^{[ cita requerida ]} que α debería ser 1 (en cuyo caso también se usa el término suavizado de adición uno ^[2]^[3] ) ^{[ se necesita más explicación ]} , aunque en la práctica una menor Por lo general, se elige el valor.

Desde un punto de vista bayesiano , esto corresponde al valor esperado de la distribución posterior , utilizando una distribución de Dirichlet simétrica con el parámetro α como distribución previa . En el caso especial donde el número de categorías es 2, esto equivale a usar una distribución Beta como el conjugado previo para los parámetros de distribución Binomial .

Historia

A Laplace se le ocurrió esta técnica de suavizado cuando trató de estimar la probabilidad de que el sol salga mañana. Su razón fundamental fue que incluso teniendo en cuenta una gran muestra de días con el sol naciente, todavía no podemos estar completamente seguros de que el sol seguirá saliendo mañana (conocido como el problema del amanecer ). ^[4]

Pseudocuenta

Una pseudocuenta es una cantidad (generalmente no un número entero, a pesar de su nombre) que se agrega al número de casos observados para cambiar la probabilidad esperada en un modelo de esos datos, cuando no se sabe que sea cero . Se llama así porque, en términos generales, es un pseudo recuento de valor ${\ estilo de texto \ estilo de texto {\ alpha}}$ pesa en la distribución posterior de manera similar a cada categoría que tiene un recuento adicional de ${\ estilo de texto \ estilo de texto {\ alpha}}$ . Si la frecuencia de cada elemento ${\ estilo de texto \ estilo de texto {i}}$ es ${\ Displaystyle \ textstyle {x_ {i}}}$ fuera de ${\ estilo de texto \ estilo de texto {N}}$ muestras, la probabilidad empírica de evento ${\ estilo de texto \ estilo de texto {i}}$ es

${\ Displaystyle p_ {i, \ \ mathrm {empirical}} = {\ frac {x_ {i}} {N}}}$

pero la probabilidad posterior cuando se suaviza aditivamente es

${\ Displaystyle p_ {i, \ \ alpha {\ text {-smoothed}}} = {\ frac {x_ {i} + \ alpha} {N + \ alpha d}},}$

como para aumentar cada cuenta ${\ Displaystyle \ textstyle {x_ {i}}}$ por ${\ Displaystyle \ textstyle {\ alpha}}$ a priori.

Dependiendo del conocimiento previo, que a veces es un valor subjetivo, un pseudocontento puede tener cualquier valor finito no negativo. Solo puede ser cero (o la posibilidad ignorada) si es imposible por definición, como la posibilidad de que un dígito decimal de pi sea una letra, o una posibilidad física que sería rechazada y, por lo tanto, no contada, como una computadora que imprime una letra. cuando se ejecuta un programa válido para pi, o se excluye y no se cuenta porque no tiene interés, como si solo estuviera interesado en los ceros y unos. Generalmente, también existe la posibilidad de que ningún valor pueda ser calculable u observable en un tiempo finito (ver el problema de la detención ). Pero al menos una posibilidad debe tener una pseudocuenta distinta de cero; de lo contrario, no se podría calcular ninguna predicción antes de la primera observación. Los valores relativos de pseudocuentas representan las probabilidades previas esperadas relativas de sus posibilidades. La suma de los pseudocuentas, que pueden ser muy grandes, representa el peso estimado del conocimiento previo en comparación con todas las observaciones reales (una para cada una) al determinar la probabilidad esperada.

En cualquier conjunto o muestra de datos observados existe la posibilidad, especialmente con eventos de baja probabilidad y con conjuntos de datos pequeños, de que no ocurra un posible evento. Por lo tanto, su frecuencia observada es cero, lo que aparentemente implica una probabilidad de cero. Esta simplificación excesiva es inexacta y, a menudo, inútil, particularmente en técnicas de aprendizaje automático basadas en la probabilidad , como las redes neuronales artificiales y los modelos ocultos de Markov . Al ajustar artificialmente la probabilidad de eventos raros (pero no imposibles) para que esas probabilidades no sean exactamente cero, se evitan los problemas de frecuencia cero . Consulte también la regla de Cromwell .

El enfoque más simple es agregar uno a cada número observado de eventos, incluidas las posibilidades de conteo cero. A esto a veces se le llama regla de sucesión de Laplace . Este enfoque es equivalente a asumir una distribución previa uniforme sobre las probabilidades para cada posible evento (abarcando el simplex donde cada probabilidad está entre 0 y 1, y todas suman 1).

Utilizando el enfoque anterior de Jeffreys , se debe agregar un pseudo recuento de la mitad a cada resultado posible.

Los pseudocuentas deben establecerse en uno solo cuando no hay ningún conocimiento previo: consulte el principio de indiferencia . Sin embargo, dado el conocimiento previo apropiado, la suma debe ajustarse en proporción a la expectativa de que las probabilidades previas se consideren correctas, a pesar de la evidencia en contrario - ver análisis adicional . Los valores más altos son apropiados en la medida en que existe un conocimiento previo de los valores verdaderos (para una moneda en perfecto estado, por ejemplo); valores más bajos en la medida en que existe conocimiento previo de que existe un sesgo probable, pero de grado desconocido (para una moneda doblada, por ejemplo).

Un enfoque más complejo es estimar la probabilidad de los eventos a partir de otros factores y ajustar en consecuencia.

Ejemplos de

Una forma de motivar pseudocuentas, particularmente para datos binomiales, es mediante una fórmula para el punto medio de una estimación de intervalo , particularmente un intervalo de confianza de proporción binomial . El más conocido se debe a Edwin Bidwell Wilson , en Wilson (1927) : el punto medio del intervalo de puntuación de Wilson correspondiente a ${\ Displaystyle z}$ las desviaciones estándar en cualquier lado es:

{\ Displaystyle {\ frac {n_ {S} + z} {n + 2z}}.}

Tomando ${\ Displaystyle \ textstyle z = 2}$ desviaciones estándar para aproximar un intervalo de confianza del 95% ( ${\ Displaystyle z \ aproximadamente 1,96}$ ) produce un pseudo recuento de 2 para cada resultado, por lo que 4 en total, conocido coloquialmente como la "regla más cuatro":

{\ Displaystyle {\ frac {n_ {S} +2} {n + 4}}.}

Este es también el punto medio del intervalo Agresti-Coull ( Agresti y Coull 1998 ).

Generalizado al caso de tasas de incidencia conocidas

A menudo, está probando el sesgo de una población de ensayo desconocida frente a una población de control con parámetros conocidos (tasas de incidencia) ${\ textstyle \ textstyle {\ mathbf {\ mu} \ = \ \ left \ langle \ mu _ {1}, \, \ mu _ {2}, \, \ ldots, \, \ mu _ {d} \ right \ rangle}}$ . En este caso, la probabilidad uniforme ${\ estilo de texto \ estilo de texto {\ frac {1} {d}}}$ debe ser reemplazado por la tasa de incidencia conocida de la población de control ${\ Displaystyle \ textstyle {\ mu _ {i}}}$ para calcular el estimador suavizado:

{\ Displaystyle {\ hat {\ theta}} _ {i} = {\ frac {x_ {i} + \ mu _ {i} \ alpha d} {N + \ alpha d}} \ qquad (i = 1, \ ldots, d),}

Como comprobación de coherencia, si el estimador empírico es igual a la tasa de incidencia, es decir, ${\ Displaystyle \ textstyle {\ mu _ {i}} = {\ frac {x_ {i}} {N}}}$ , el estimador suavizado es independiente de ${\ estilo de texto \ estilo de texto {\ alpha}}$ y también es igual a la tasa de incidencia.

Aplicaciones

Clasificación

El suavizado aditivo suele ser un componente de los clasificadores de Bayes ingenuos .

Modelado de lenguaje estadístico

En un modelo de bolsa de palabras de procesamiento del lenguaje natural y recuperación de información, los datos consisten en el número de ocurrencias de cada palabra en un documento. El suavizado aditivo permite la asignación de probabilidades distintas de cero a palabras que no aparecen en la muestra. Estudios recientes han demostrado que el suavizado aditivo es más eficaz que otros métodos de suavizado de probabilidad en varias tareas de recuperación, como los sistemas de recomendación y retroalimentación de pseudo-relevancia basados en modelos de lenguaje . ^[5]^[6]

Ver también

Promedio bayesiano
Predicción por coincidencia parcial
Distribución categórica

Referencias

^ CD Manning, P. Raghavan y H. Schütze (2008). Introducción a la recuperación de información . Cambridge University Press, pág. 260.
^ Jurafsky, Daniel; Martin, James H. (junio de 2008). Procesamiento del habla y el lenguaje (2ª ed.). Prentice Hall. pag. 132. ISBN 978-0-13-187321-6.
^ Russell, Stuart; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (2ª ed.). Pearson Education, Inc. pág. 863.
^ Conferencia 5 | Aprendizaje automático (Stanford) a las 1h10m de la conferencia
^ Hazimeh, Hussein; Zhai, ChengXiang. "Análisis axiomático de métodos de suavizado en modelos de lenguaje para retroalimentación de pseudo-relevancia" . ICTIR '15 Actas de la Conferencia Internacional de 2015 sobre la Teoría de la Recuperación de Información .
^ Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Suavizado aditivo para el modelado de lenguajes basados en la relevancia de sistemas de recomendación" . CERI '16 Actas de las IV Jornadas Españolas de Recuperación de Información .

Fuentes

Wilson, EB (1927). "Inferencia probable, ley de sucesión e inferencia estadística". Revista de la Asociación Estadounidense de Estadística . 22 (158): 209–212. doi : 10.1080 / 01621459.1927.10502953 . JSTOR 2276774 .
Agresti, Alan; Coull, Brent A. (1998). "Aproximado es mejor que 'exacto' para la estimación de intervalo de proporciones binomiales". El estadístico estadounidense . 52 (2): 119-126. doi : 10.2307 / 2685469 . JSTOR 2685469 . Señor 1628435 .

enlaces externos

SF Chen, J Goodman (1996). " Un estudio empírico de técnicas de suavizado para modelado de lenguajes ". Actas de la 34ª reunión anual de la Asociación de Lingüística Computacional .
Pseudocuentas
- Interpretación bayesiana de regularizadores de pseudocuenta

[1] CD Manning, P. Raghavan y H. Schütze (2008). Introducción a la recuperación de información . Cambridge University Press, pág. 260.

[2] Jurafsky, Daniel; Martin, James H. (junio de 2008). Procesamiento del habla y el lenguaje (2ª ed.). Prentice Hall. pag. 132. ISBN 978-0-13-187321-6.

[3] Russell, Stuart; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (2ª ed.). Pearson Education, Inc. pág. 863.

[lec5-4] Conferencia 5 | Aprendizaje automático (Stanford) a las 1h10m de la conferencia

[5] Hazimeh, Hussein; Zhai, ChengXiang. "Análisis axiomático de métodos de suavizado en modelos de lenguaje para retroalimentación de pseudo-relevancia" . ICTIR '15 Actas de la Conferencia Internacional de 2015 sobre la Teoría de la Recuperación de Información .

[6] Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Suavizado aditivo para el modelado de lenguajes basados en la relevancia de sistemas de recomendación" . CERI '16 Actas de las IV Jornadas Españolas de Recuperación de Información .

[1]