De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En la estadística bayesiana , una estimación de probabilidad máxima a posteriori ( MAP ) es una estimación de una cantidad desconocida, que es igual a la moda de la distribución posterior . El MAP se puede utilizar para obtener una estimación puntual de una cantidad no observada sobre la base de datos empíricos. Está estrechamente relacionado con el método de estimación de máxima verosimilitud (ML), pero emplea un objetivo de optimización aumentado que incorpora una distribución previa.(que cuantifica la información adicional disponible a través del conocimiento previo de un evento relacionado) sobre la cantidad que se desea estimar. Por tanto, la estimación MAP puede verse como una regularización de la estimación de máxima verosimilitud.

Descripción [ editar ]

Suponga que queremos estimar un parámetro de población no observado sobre la base de observaciones . Sea la distribución muestral de , por lo que es la probabilidad de que el parámetro de población subyacente sea . Entonces la función:

se conoce como función de verosimilitud y estimación:

es la estimación de máxima verosimilitud de .

Ahora supongamos que una distribución a priori sobre existe. Esto nos permite tratarlo como una variable aleatoria como en la estadística bayesiana . Podemos calcular la distribución posterior de usar el teorema de Bayes :

donde es función de densidad de , es el dominio de .

El método de estimación máxima a posteriori estima entonces como la moda de la distribución posterior de esta variable aleatoria:

El denominador de la distribución posterior (la denominada probabilidad marginal ) es siempre positivo y no depende y, por tanto, no juega ningún papel en la optimización. Observe que la estimación de MAP de coincide con la estimación de ML cuando el anterior es uniforme (es decir, es una función constante ).

Cuando la función de pérdida tiene la forma

cuando va a 0, el estimador de Bayes se aproxima al estimador MAP, siempre que la distribución de sea ​​cuasi cóncava. [1] Pero, en general, un estimador MAP no es un estimador de Bayes a menos que sea discreto .

Computación [ editar ]

Las estimaciones de MAP se pueden calcular de varias formas:

  1. Analíticamente, cuando el modo (s) de la distribución posterior se puede dar en forma cerrada . Este es el caso cuando se utilizan previos conjugados .
  2. Mediante optimización numérica como el método de gradiente conjugado o el método de Newton . Esto generalmente requiere una primera o segunda derivada , que debe evaluarse analítica o numéricamente.
  3. Mediante una modificación de un algoritmo de maximización de expectativas . Esto no requiere derivadas de la densidad posterior.
  4. A través de un método de Monte Carlo usando recocido simulado

Limitaciones [ editar ]

Si bien solo se requieren condiciones suaves para que la estimación de MAP sea un caso límite de la estimación de Bayes (bajo la función de pérdida 0-1), [1] no es muy representativa de los métodos Bayesianos en general. Esto se debe a que las estimaciones de MAP son estimaciones puntuales, mientras que los métodos bayesianos se caracterizan por el uso de distribuciones para resumir datos y extraer inferencias: por lo tanto, los métodos bayesianos tienden a informar la media posterior o la mediana , junto con intervalos creíbles . Esto se debe a que estos estimadores son óptimos bajo pérdida de error cuadrado y error lineal respectivamente, que son más representativos de las funciones de pérdida típicas .—Y para una distribución posterior continua no hay función de pérdida, lo que sugiere que el MAP es el estimador puntual óptimo. Además, la distribución posterior a menudo puede no tener una forma analítica simple: en este caso, la distribución se puede simular utilizando técnicas de Monte Carlo en cadena de Markov , mientras que la optimización para encontrar su modo (s) puede ser difícil o imposible. [ cita requerida ]

Un ejemplo de una densidad de una distribución bimodal en la que el modo más alto no es característico de la mayoría de la distribución.

En muchos tipos de modelos, como los modelos mixtos , la parte posterior puede ser multimodal . En tal caso, la recomendación habitual es elegir el modo más alto: esto no siempre es factible ( la optimización global es un problema difícil), ni en algunos casos incluso posible (como cuando surgen problemas de identificabilidad ). Además, el modo más alto puede no ser característico de la mayoría de la parte posterior.

Finalmente, a diferencia de los estimadores de ML, la estimación de MAP no es invariante bajo reparametrización . Pasar de una parametrización a otra implica introducir un jacobiano que incide en la ubicación del máximo. [2]

Como ejemplo de la diferencia entre los estimadores de Bayes mencionados anteriormente (estimadores de media y mediana) y el uso de una estimación de MAP, considere el caso en el que es necesario clasificar los insumos como positivos o negativos (por ejemplo, préstamos como riesgosos o seguros). Supongamos que solo hay tres posibles hipótesis sobre el método correcto de clasificación , y con posteriores 0.4, 0.3 y 0.3 respectivamente. Supongamos dado un nuevo ejemplo, , la clasifica como positiva, mientras que los otros dos lo clasifican como negativo. Utilizando la estimación MAP para el clasificador correcta , se clasifica como positiva, mientras que los estimadores de Bayes serían, en promedio sobre todas las hipótesis y clasificar como negativos.

Ejemplo [ editar ]

Supongamos que se nos da una secuencia de variables aleatorias IID y una distribución previa de está dada por . Deseamos encontrar la estimación MAP de . Tenga en cuenta que la distribución normal es su propio conjugado previo , por lo que podremos encontrar una solución de forma cerrada analíticamente.

La función a maximizar está dada por

lo que equivale a minimizar la siguiente función de :

Por tanto, vemos que el estimador MAP para μ viene dado por

que resulta ser una interpolación lineal entre la media anterior y la media muestral ponderada por sus respectivas covarianzas.

El caso de se denomina a priori no informativo y conduce a una distribución de probabilidad a priori mal definida; en este caso

Referencias [ editar ]

  1. ^ a b Bassett, Robert; Deride, Julio (30 de enero de 2018). "Estimadores máximos a posteriori como límite de los estimadores de Bayes". Programación matemática : 1–16. arXiv : 1611.05917 . doi : 10.1007 / s10107-018-1241-0 . ISSN  0025-5610 .
  2. ^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística . Cambridge, Massachusetts: MIT Press. págs. 151-152. ISBN 978-0-262-01802-9.
  • DeGroot, M. (1970). Decisiones estadísticas óptimas . McGraw-Hill. ISBN 0-07-016242-5.
  • Sorenson, Harold W. (1980). Estimación de parámetros: principios y problemas . Marcel Dekker. ISBN 0-8247-6987-2.
  • Hald, Anders (2007). "Derivación de Gauss de la distribución normal y el método de mínimos cuadrados, 1809". Una historia de la inferencia estadística paramétrica de Bernoulli a Fisher, 1713-1935 . Nueva York: Springer. págs. 55–61. ISBN 978-0-387-46409-1.