Estimación de máxima verosimilitud

En estadística, la estimación de máxima probabilidad ( MLE ) es un método de estimación de los parámetros de una distribución de probabilidad por la maximización de una función de probabilidad , de modo que bajo la supone modelo estadístico el datos observados es más probable. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. ^[1] La lógica de la máxima verosimilitud es intuitiva y flexible y, como tal, el método se ha convertido en un medio dominante de inferencia estadística .^[2]^[3]^[4]

Si la función de verosimilitud es diferenciable , se puede aplicar la prueba de la derivada para determinar los máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud pueden resolverse explícitamente; por ejemplo, el estimador de mínimos cuadrados ordinario maximiza la probabilidad del modelo de regresión lineal . ^[5] En la mayoría de las circunstancias, sin embargo, serán necesarios métodos numéricos para encontrar el máximo de la función de verosimilitud.

Desde el punto de vista de la inferencia bayesiana , MLE es un caso especial de estimación máxima a posteriori (MAP) que asume una distribución previa uniforme de los parámetros. En la inferencia frecuentista , MLE es un caso especial de un estimador de extremos , siendo la función objetivo la probabilidad.

Principios

Desde un punto de vista estadístico, un conjunto dado de observaciones es una muestra aleatoria de una población desconocida . El objetivo de la estimación de máxima verosimilitud es hacer inferencias sobre la población que es más probable que haya generado la muestra, ^[6] específicamente la distribución de probabilidad conjunta de las variables aleatorias. ${\ Displaystyle \ left \ {y_ {1}, y_ {2}, \ ldots \ right \}}$ , no necesariamente independientes e idénticamente distribuidos. Asociado con cada distribución de probabilidad hay un vector único ${\ Displaystyle \ theta = \ left [\ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {k} \ right] ^ {\ mathsf {T}}}$ de parámetros que indexan la distribución de probabilidad dentro de una familia paramétrica ${\ Displaystyle \ {f (\ cdot \,; \ theta) \ mid \ theta \ in \ Theta \}}$ , dónde ${\ Displaystyle \ Theta}$ se llama espacio de parámetros , un subconjunto de dimensión finita del espacio euclidiano . Evaluación de la densidad articular en la muestra de datos observada ${\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ da una función de valor real,

{\ Displaystyle L_ {n} (\ theta) = L_ {n} (\ theta; \ mathbf {y}) = f_ {n} (\ mathbf {y}; \ theta)}

que se llama función de verosimilitud . Para variables aleatorias independientes e idénticamente distribuidas , ${\ Displaystyle f_ {n} (\ mathbf {y}; \ theta)}$ será el producto de funciones de densidad univariadas .

El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud sobre el espacio de parámetros, ^[6] es decir

{\ Displaystyle {\ hat {\ theta}} = {\ underset {\ theta \ in \ Theta} {\ operatorname {arg \; max}}} \, {\ widehat {L}} _ {n} (\ theta \,; \ mathbf {y})}

Intuitivamente, esto selecciona los valores de los parámetros que hacen que los datos observados sean más probables. El valor específico ${\ Displaystyle {\ hat {\ theta}} = {\ hat {\ theta}} _ {n} (\ mathbf {y}) \ in \ Theta}$ que maximiza la función de verosimilitud ${\ Displaystyle L_ {n}}$ se llama estimación de máxima verosimilitud. Además, si la función ${\ Displaystyle {\ hat {\ theta}} _ {n}: \ mathbb {R} ^ {n} \ to \ Theta}$ así definido es medible , entonces se llama estimador de máxima verosimilitud . Generalmente es una función definida sobre el espacio muestral , es decir, tomando una muestra dada como argumento. Una condición suficiente pero no necesaria para su existencia es que la función de verosimilitud sea continua en un espacio de parámetros ${\ Displaystyle \ Theta}$ eso es compacto . ^[7] Para una abierto ${\ Displaystyle \ Theta}$ la función de verosimilitud puede aumentar sin alcanzar nunca un valor superior.

En la práctica, a menudo es conveniente trabajar con el logaritmo natural de la función de verosimilitud, llamado logaritmo de verosimilitud :

{\ Displaystyle \ ell (\ theta \,; \ mathbf {y}) = \ ln L_ {n} (\ theta \,; \ mathbf {y}).}

Dado que el logaritmo es una función monótona , el máximo de ${\ Displaystyle \ ell (\ theta \,; \ mathbf {y})}$ ocurre al mismo valor de ${\ Displaystyle \ theta}$ como lo hace el máximo de ${\ Displaystyle L_ {n}}$ . ^[8] Si ${\ Displaystyle \ ell (\ theta \,; \ mathbf {y})}$ es diferenciable en ${\ Displaystyle \ theta}$ , las condiciones necesarias para la ocurrencia de un máximo (o un mínimo) son

{\ Displaystyle {\ frac {\ parcial \ ell} {\ parcial \ theta _ {1}}} = 0, \ quad {\ frac {\ parcial \ ell} {\ parcial \ theta _ {2}}} = 0 , \ quad \ ldots, \ quad {\ frac {\ parcial \ ell} {\ parcial \ theta _ {k}}} = 0,}

conocidas como ecuaciones de verosimilitud. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente para ${\ Displaystyle {\ widehat {\ theta \,}}}$ , pero en general no se conoce ni está disponible una solución de forma cerrada para el problema de maximización, y un MLE solo se puede encontrar a través de la optimización numérica . Otro problema es que en muestras finitas, pueden existir múltiples raíces para las ecuaciones de verosimilitud. ^[9] Si la raíz identificada ${\ Displaystyle {\ widehat {\ theta \,}}}$ de las ecuaciones de verosimilitud es de hecho un máximo (local) depende de si la matriz de derivadas parciales y parciales cruzadas de segundo orden, la llamada matriz de Hesse

{\ Displaystyle \ mathbf {H} \ left ({\ widehat {\ theta \,}} \ right) = {\ begin {bmatrix} \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ left. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {1} \, \ parcial \ theta _ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ dots & \ left. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {1} \, \ parcial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\ \ izquierda. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {2} \, \ parcial \ theta _ {1}}} \ derecha | _ {\ theta = {\ widehat {\ theta \,}}} & \ izquierda. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {2} ^ {2}}} \ right | _ {\ theta = {\ widehat { \ theta \,}}} & \ dots & \ left. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {2} \, \ parcial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\\ vdots & \ vdots & \ ddots & \ vdots \\\ left. {\ frac {\ partial ^ {2} \ ell} {\ parcial \ theta _ {k} \, \ parcial \ theta _ {1}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ left. {\ frac {\ partial ^ { 2} \ ell} {\ parcial \ theta _ {k} \, \ parcial \ theta _ {2 }}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ dots & \ left. {\ frac {\ parcial ^ {2} \ ell} {\ parcial \ theta _ {k } ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \ end {bmatrix}},}

es semi-definido negativo en ${\ Displaystyle {\ widehat {\ theta \,}}}$ , ya que esto indica concavidad local . Convenientemente, las distribuciones de probabilidad más comunes, en particular la familia exponencial, son logarítmicamente cóncavas . ^[10]^[11]

Espacio de parámetros restringido

Si bien el dominio de la función de verosimilitud, el espacio de parámetros, es generalmente un subconjunto de dimensión finita del espacio euclidiano , a veces es necesario incorporar restricciones adicionales en el proceso de estimación. El espacio de parámetros se puede expresar como

{\ Displaystyle \ Theta = \ left \ {\ theta: \ theta \ in \ mathbb {R} ^ {k}, \; h (\ theta) = 0 \ right \}}

,

dónde ${\ Displaystyle h (\ theta) = \ left [h_ {1} (\ theta), h_ {2} (\ theta), \ ldots, h_ {r} (\ theta) \ right]}$ es un mapeo de funciones con valores vectoriales ${\ Displaystyle \ mathbb {R} ^ {k}}$ dentro ${\ Displaystyle \ mathbb {R} ^ {r}}$ . Estimando el verdadero parámetro ${\ Displaystyle \ theta}$ perteneciendo a ${\ Displaystyle \ Theta}$ entonces, como cuestión práctica, significa encontrar el máximo de la función de verosimilitud sujeta a la restricción ${\ Displaystyle h (\ theta) = 0}$ .

En teoría, el enfoque más natural para este problema de optimización restringida es el método de sustitución, es decir, "completar" las restricciones ${\ Displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}}$ a un conjunto ${\ Displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}, h_ {r + 1}, \ ldots, h_ {k}}$ de una manera que ${\ Displaystyle h ^ {\ ast} = \ left [h_ {1}, h_ {2}, \ ldots, h_ {k} \ right]}$ es una función uno a uno de ${\ Displaystyle \ mathbb {R} ^ {k}}$ consigo mismo, y reparametrizar la funcin de verosimilitud estableciendo ${\ Displaystyle \ phi _ {i} = h_ {i} (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {k})}$ . ^[12] Debido a la invariancia del estimador de máxima verosimilitud, las propiedades del MLE se aplican también a las estimaciones restringidas. ^[13] Por ejemplo, en una distribución normal multivariante, la matriz de covarianza ${\ Displaystyle \ Sigma}$ debe ser positivo-definido ; esta restricción se puede imponer reemplazando ${\ Displaystyle \ Sigma = \ Gamma ^ {\ mathsf {T}} \ Gamma}$ , dónde ${\ Displaystyle \ Gamma}$ es una matriz triangular superior real y ${\ Displaystyle \ Gamma ^ {\ mathsf {T}}}$ es su transposición . ^[14]

En la práctica, las restricciones se imponen generalmente utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a las ecuaciones de probabilidad restringida

{\ estilo de visualización {\ frac {\ parcial \ ell} {\ parcial \ theta}} - {\ frac {\ parcial h (\ theta) ^ {\ mathsf {T}}} {\ parcial \ theta}} \ lambda = 0}

y

{\ Displaystyle h (\ theta) = 0}

,

dónde ${\ Displaystyle \ lambda = \ left [\ lambda _ {1}, \ lambda _ {2}, \ ldots, \ lambda _ {r} \ right] ^ {\ mathsf {T}}}$ es un vector columna de multiplicadores de Lagrange y ${\ Displaystyle {\ frac {\ h parcial (\ theta) ^ {\ mathsf {T}}} {\ parcial \ theta}}}$ es la matriz jacobiana k × r de derivadas parciales. ^[12] Naturalmente, si las restricciones no son vinculantes en el máximo, los multiplicadores de Lagrange deberían ser cero. ^[15] Esto a su vez permite una prueba estadística de la "validez" de la restricción, conocida como prueba del multiplicador de Lagrange .

Propiedades

Un estimador de máxima verosimilitud es un estimador de extremos obtenido maximizando, en función de θ , la función objetivo ${\ Displaystyle {\ widehat {\ ell \,}} (\ theta \ ,; x)}$ . Si los datos son independientes y están distribuidos de manera idéntica , entonces tenemos

{\ Displaystyle {\ widehat {\ ell \,}} (\ theta \ ,; x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ ln f (x_ { i} \ mid \ theta),}

siendo este el análogo muestral de la probabilidad logarítmica esperada ${\ Displaystyle \ ell (\ theta) = \ operatorname {\ mathbb {E}} [\, \ ln f (x_ {i} \ mid \ theta) \,]}$ , donde se toma esta expectativa con respecto a la densidad real.

Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración alrededor del verdadero valor del parámetro. ^[16] Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de atractivas propiedades limitantes : a medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:

Consistencia : la secuencia de MLEs converge en probabilidad con el valor que se está estimando.
Invarianza funcional: si ${\ Displaystyle {\ hat {\ theta}}}$ es el estimador de máxima verosimilitud para ${\ Displaystyle \ theta}$ , y si ${\ Displaystyle g (\ theta)}$ es cualquier transformación de ${\ Displaystyle \ theta}$ , entonces el estimador de máxima verosimilitud para ${\ Displaystyle \ alpha = g (\ theta)}$ es ${\ Displaystyle {\ hat {\ alpha}} = g ({\ hat {\ theta}})}$ .
Eficiencia , es decir, alcanza el límite inferior de Cramér-Rao cuando el tamaño de la muestra tiende a infinito. Esto significa que ningún estimador consistente tiene un error cuadrático medio asintótico más bajo que el MLE (u otros estimadores que alcanzan este límite), lo que también significa que MLE tiene normalidad asintótica .
Eficiencia de segundo orden después de la corrección por sesgo.

Consistencia

En las condiciones que se describen a continuación, el estimador de máxima verosimilitud es consistente . La consistencia significa que si los datos fueron generados por ${\ Displaystyle f (\ cdot \,; \ theta _ {0})}$ y tenemos un número suficientemente grande de observaciones n , entonces es posible encontrar el valor de θ ₀ con precisión arbitraria. En términos matemáticos, esto significa que cuando n va al infinito, el estimador ${\ Displaystyle {\ widehat {\ theta \,}}}$ converge en probabilidad a su valor real:

{\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {p}}} \ \ theta _ {0}.}

En condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente ):

{\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {as}}} \ \ theta _ {0}.}

En aplicaciones prácticas, los datos nunca son generados por ${\ Displaystyle f (\ cdot \,; \ theta _ {0})}$ . Bastante, ${\ Displaystyle f (\ cdot \,; \ theta _ {0})}$ es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en estadística que todos los modelos están equivocados . Por lo tanto, la verdadera consistencia no ocurre en aplicaciones prácticas. No obstante, a menudo se considera que la coherencia es una propiedad deseable para un estimador.

Para establecer la coherencia, las siguientes condiciones son suficientes. ^[17]

Identificación del modelo:
${\ Displaystyle \ theta \ neq \ theta _ {0} \ quad \ Leftrightarrow \ quad f (\ cdot \ mid \ theta) \ neq f (\ cdot \ mid \ theta _ {0}).}$
En otras palabras, diferentes valores de parámetros θ corresponden a diferentes distribuciones dentro del modelo. Si esta condición no se cumpliera, habría algún valor θ ₁ tal que θ ₀ y θ ₁ generan una distribución idéntica de los datos observables. Entonces no podríamos distinguir entre estos dos parámetros incluso con una cantidad infinita de datos; estos parámetros habrían sido observacionalmente equivalentes .
La condición de identificación es absolutamente necesaria para que el estimador de ML sea consistente. Cuando se cumple esta condición, la función de probabilidad límite ℓ ( θ | ·) tiene un máximo global único en θ ₀ .
Compacidad: el espacio de parámetros Θ del modelo es compacto .

La condición de identificación establece que la probabilidad logarítmica tiene un máximo global único. La compacidad implica que la probabilidad no puede acercarse al valor máximo cercano arbitrariamente en algún otro punto (como se demuestra, por ejemplo, en la imagen de la derecha).
La compacidad es solo una condición suficiente y no una condición necesaria. La compacidad puede ser reemplazada por algunas otras condiciones, como:
- tanto la concavidad de la función de verosimilitud logarítmica como la compacidad de algunos conjuntos de nivel superior (no vacíos) de la función de verosimilitud logarítmica, o
- existencia de una vecindad compacta $N$ de $θ$ ₀ tal que fuera de $N$ la función logarítmica de verosimilitud es menor que el máximo en al menos algunos $ε$ > 0 .
Continuidad: la función $ln f (x | θ)$ es continua en $θ$ para casi todos los valores de $x$ :
${\ Displaystyle \ operatorname {\ mathbb {P}} {\ Bigl [} \; \ ln f (x \ mid \ theta) \; \ in \; C ^ {0} (\ Theta) \; {\ Bigr] } = 1.}$
La continuidad aquí se puede reemplazar con una condición ligeramente más débil de semicontinuidad superior .
Dominancia: existe $D (x)$ integrable con respecto a la distribución $f (x | θ 0)$ tal que
${\ Displaystyle {\ Bigl |} \ ln f (x \ mid \ theta) {\ Bigr |}$
Por la ley uniforme de los grandes números , la condición de dominancia junto con la continuidad establecen la convergencia uniforme en la probabilidad de la probabilidad logarítmica:
${\ Displaystyle \ sup _ {\ theta \ in \ Theta} \ left | {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \, \ right | \ {\ xrightarrow {\ text {p}}} \ 0.}$

La condición de dominancia se puede emplear en el caso de observaciones iid . En el caso no iid, la convergencia uniforme en probabilidad se puede verificar mostrando que la secuencia ${\ Displaystyle {\ widehat {\ ell \,}} (\ theta \ mid x)}$ es estocásticamente equicontinuo . Si se quiere demostrar que el estimador de ML ${\ Displaystyle {\ widehat {\ theta \,}}}$ converge a θ ₀ casi con seguridad , entonces es casi seguro que se deba imponer una condición más fuerte de convergencia uniforme:

{\ Displaystyle \ sup _ {\ theta \ in \ Theta} \ left \ | \; {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \; \ right \ | \ \ xrightarrow {\ text {as}} \ 0.}

Además, si (como se supuso anteriormente) los datos fueron generados por ${\ Displaystyle f (\ cdot \,; \ theta _ {0})}$ , luego, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. En concreto, ^[18]

{\ displaystyle {\ sqrt {n}} \ left ({\ widehat {\ theta \,}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) \ \ xrightarrow {d} \ {\ mathcal {N}} \ left (0, \, I ^ {- 1} \ right)}

donde $I$ es la matriz de información de Fisher .

Invariancia funcional

El estimador de máxima verosimilitud selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consta de varios componentes, entonces definimos sus estimadores de máxima verosimilitud separados, como el componente correspondiente del MLE del parámetro completo. De acuerdo con esto, si ${\ Displaystyle {\ widehat {\ theta \,}}}$ es el MLE para ${\ Displaystyle \ theta}$ , y si ${\ Displaystyle g (\ theta)}$ es cualquier transformación de ${\ Displaystyle \ theta}$ , luego el MLE para ${\ Displaystyle \ alpha = g (\ theta)}$ es por definición ^[19]

{\ Displaystyle {\ widehat {\ alpha}} = g (\, {\ widehat {\ theta \,}} \,). \,}

Maximiza la denominada probabilidad de perfil :

{\ Displaystyle {\ bar {L}} (\ alpha) = \ sup _ {\ theta: \ alpha = g (\ theta)} L (\ theta). \,}

El MLE también es invariante con respecto a ciertas transformaciones de los datos. Si ${\ Displaystyle y = g (x)}$ dónde ${\ Displaystyle g}$ es uno a uno y no depende de los parámetros a estimar, entonces las funciones de densidad satisfacen

{\ Displaystyle f_ {Y} (y) = {\ frac {f_ {X} (x)} {| g '(x) |}}}

y, por tanto, las funciones de probabilidad para ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ difieren solo por un factor que no depende de los parámetros del modelo.

Por ejemplo, los parámetros MLE de la distribución logarítmica normal son los mismos que los de la distribución normal ajustados al logaritmo de los datos.

Eficiencia

Como se supuso anteriormente, los datos fueron generados por ${\ Displaystyle ~ f (\ cdot \,; \ theta _ {0}) ~,}$ luego, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Es √ n- consistente y asintóticamente eficiente, lo que significa que alcanza el límite Cramér-Rao . En concreto, ^[18]

{\ displaystyle {\ sqrt {n \,}} \, \ left ({\ widehat {\ theta \,}} _ {\ text {mle}} - \ theta _ {0} \ right) \ \ \ xrightarrow { d} \ \ {\ mathcal {N}} \ left (0, \ {\ mathcal {I}} ^ {- 1} \ right) ~,}

dónde ${\ Displaystyle ~ {\ mathcal {I}} ~}$ es la matriz de información de Fisher :

{\ Displaystyle {\ mathcal {I}} _ {jk} = \ operatorname {\ mathbb {E}} \, {\ biggl [} \; - {\ frac {\ partial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ parcial \ theta _ {j} \, \ parcial \ theta _ {k}}} \; {\ biggr]} ~.}

En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden1/√ $n$ .

Eficiencia de segundo orden después de la corrección por sesgo

Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que $θ mle$ tiene un sesgo de orden 1 ⁄ $n$ . Este sesgo es igual a (por componentes) ^[20]

{\ Displaystyle b_ {h} \; \ equiv \; \ operatorname {\ mathbb {E}} {\ biggl [} \; \ left ({\ widehat {\ theta}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) _ {h} \; {\ biggr]} \; = \; {\ frac {1} {\, n \,}} \, \ sum _ {i, j, k = 1} ^ {m} \; {\ mathcal {I}} ^ {hola} \; {\ mathcal {I}} ^ {jk} \ left ({\ frac {1} {\, 2 \,}} \ , K_ {ijk} \; + \; J_ {j, ik} \ right)}

dónde ${\ Displaystyle {\ mathcal {I}} ^ {jk}}$ (con superíndices) denota el ( j, k ) -ésimo componente de la matriz de información de Fisher inversa ${\ Displaystyle {\ mathcal {I}} ^ {- 1}}$ , y

{\ Displaystyle {\ frac {1} {\, 2 \,}} \, K_ {ijk} \; + \; J_ {j, ik} \; = \; \ operatorname {\ mathbb {E}} \, {\ biggl [} \; {\ frac {1} {2}} {\ frac {\ parcial ^ {3} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ parcial \ theta _ {i} \; \ parcial \ theta _ {j} \; \ parcial \ theta _ {k}}} + {\ frac {\; \ parcial \ ln f _ {\ theta _ {0}} (X_ {t }) \;} {\ parcial \ theta _ {j}}} \, {\ frac {\; \ parcial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t}) \;} {\ parcial \ theta _ {i} \, \ parcial \ theta _ {k}}} \; {\ biggr]} ~.}

Usando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:

{\ displaystyle {\ widehat {\ theta \,}} _ {\ text {mle}} ^ {*} = {\ widehat {\ theta \,}} _ {\ text {mle}} - {\ widehat {b \,}} ~.}

Este estimador es imparcial hasta los términos del pedido. 1/ $norte$ , y se denomina estimador de máxima verosimilitud con corrección de sesgo.

Este estimador con corrección de sesgo es eficiente de segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores de segundo orden con corrección de sesgo, hasta los términos del orden. 1/ $n$ ² . Es posible continuar este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente de tercer orden. ^[21]

Relación con la inferencia bayesiana

Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme de los parámetros . De hecho, la estimación máxima a posteriori es el parámetro $θ$ que maximiza la probabilidad de $θ$ dados los datos, dados por el teorema de Bayes:

{\ Displaystyle \ operatorname {\ mathbb {P}} (\ theta \ mid x_ {1}, x_ {2}, \ ldots, x_ {n}) = {\ frac {f (x_ {1}, x_ {2 }, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)} {\ operatorname {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})}}}

dónde ${\ Displaystyle \ operatorname {\ mathbb {P}} (\ theta)}$ es la distribución previa para el parámetro $θ$ y donde ${\ Displaystyle \ operatorname {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})}$ es la probabilidad de que los datos se promedien sobre todos los parámetros. Dado que el denominador es independiente de $θ$ , el estimador bayesiano se obtiene maximizando ${\ Displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)}$ con respecto a $θ$ . Si asumimos además que el anterior ${\ Displaystyle \ operatorname {\ mathbb {P}} (\ theta)}$ es una distribución uniforme, el estimador bayesiano se obtiene maximizando la función de verosimilitud ${\ Displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta)}$ . Por tanto, el estimador bayesiano coincide con el estimador de máxima verosimilitud para una distribución previa uniforme ${\ Displaystyle \ operatorname {\ mathbb {P}} (\ theta)}$ .

Aplicación de la estimación de máxima verosimilitud en la teoría de decisiones de Bayes

En muchas aplicaciones prácticas del aprendizaje automático , la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.

La teoría de la decisión bayesiana trata de diseñar un clasificador que minimice el riesgo total esperado, especialmente, cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución. ^[22]

Por lo tanto, la regla de decisión de Bayes se establece como

"decidir

{\ Displaystyle \; w_ {1} \;}

Si

{\ Displaystyle ~ \ operatorname {\ mathbb {P}} (w_ {1} | x) \;> \; \ operatorname {\ mathbb {P}} (w_ {2} | x) ~; ~}

de lo contrario decidir

{\ Displaystyle \; w_ {2} \;}

"

dónde ${\ Displaystyle \; w_ {1} \ ,, w_ {2} \;}$ son predicciones de diferentes clases. Desde una perspectiva de minimizar el error, también se puede establecer como

{\ Displaystyle w = {\ underset {w} {\ operatorname {arg \; max}}} \; \ int _ {- \ infty} ^ {\ infty} \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) \ operatorname {\ mathbb {P}} (x) \, \ operatorname {d} x ~}

dónde

{\ Displaystyle \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {1} \ mid x) ~}

si decidimos ${\ Displaystyle \; w_ {2} \;}$ y ${\ Displaystyle \; \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {2} | x) \;}$ si decidimos ${\ Displaystyle \; w_ {1} \ ;.}$

Aplicando el teorema de Bayes

{\ Displaystyle \ operatorname {\ mathbb {P}} (w_ {i} \ mid x) = {\ frac {\ operatorname {\ mathbb {P}} (x \ mid w_ {i}) \ operatorname {\ mathbb { P}} (w_ {i})} {\ operatorname {\ mathbb {P}} (x)}}}

,

y si asumimos además la función de pérdida cero o uno, que es una misma pérdida para todos los errores, la regla de decisión de Bayes se puede reformular como:

{\ Displaystyle h _ {\ text {Bayes}} = {\ underset {w} {\ operatorname {arg \; max}}} \, {\ bigl [} \, \ operatorname {\ mathbb {P}} (x \ mid w) \, \ operatorname {\ mathbb {P}} (w) \, {\ bigr]} \ ;,}

dónde ${\ Displaystyle h _ {\ text {Bayes}}}$ es la predicción y ${\ Displaystyle \; \ operatorname {\ mathbb {P}} (w) \;}$ es la probabilidad previa .

Relación para minimizar la divergencia de Kullback-Leibler y la entropía cruzada

Hallazgo ${\ Displaystyle {\ hat {\ theta}}}$ que maximiza la probabilidad es asintóticamente equivalente a encontrar la ${\ Displaystyle {\ hat {\ theta}}}$ que define una distribución de probabilidad ( ${\ Displaystyle Q _ {\ hat {\ theta}}}$ ) que tiene una distancia mínima, en términos de divergencia Kullback-Leibler , a la distribución de probabilidad real a partir de la cual se generaron nuestros datos (es decir, generados por ${\ Displaystyle P _ {\ theta _ {0}}}$ ). ^[23] En un mundo ideal, P y Q son iguales (y lo único desconocido es ${\ Displaystyle \ theta}$ que define P), pero incluso si no lo son y el modelo que usamos está mal especificado, el MLE nos dará la distribución "más cercana" (dentro de la restricción de un modelo Q que depende de ${\ Displaystyle {\ hat {\ theta}}}$ ) a la distribución real ${\ Displaystyle P _ {\ theta _ {0}}}$ . ^[24]

Prueba.

Para simplificar la notación, supongamos que P = Q. Que no haya n i.id muestra de datos ${\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ de alguna probabilidad ${\ Displaystyle y \ sim P _ {\ theta _ {0}}}$ , que intentamos estimar encontrando ${\ Displaystyle {\ hat {\ theta}}}$ que maximizará la probabilidad de usar ${\ Displaystyle P _ {\ theta}}$ , luego:

{\ Displaystyle {\ begin {alineado} {\ hat {\ theta}} & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, L_ {P _ {\ theta}} (\ mathbf {y}) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, P _ {\ theta} (\ mathbf {y}) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, P (\ mathbf {y} | \ theta) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ prod _ {i = 1 } ^ {n} P (y_ {i} | \ theta) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ left (\ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta) - \ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta _ {0}) \ right) = {\ underset {\ theta } {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ left (\ log P (y_ {i} | \ theta) - \ log P (y_ {i} | \ theta _ {0}) \ right) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ log { \ frac {P (y_ {i} | \ theta)} {P (y_ {i} | \ theta _ {0})}} = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ sum _ {i = 1} ^ {n} \ log {\ frac {P (y_ {i} | \ theta _ {0})} {P (y_ {i} | \ theta)}} = { \ underset {\ theta} {\ operatorname {a rg \, min}}} \, {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ log {\ frac {P (y_ {i} | \ theta _ {0} )} {P (y_ {i} | \ theta)}} \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, {\ frac {1} {n}} \ suma _ {i = 1} ^ {n} h _ {\ theta} (y_ {i}) \ quad {\ underset {n \ to \ infty} {\ longrightarrow}} \ quad {\ underset {\ theta} {\ nombre de operador {arg \, min}}} \, E [h _ {\ theta} (y)] \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ int P_ { \ theta _ {0}} (y) h (y) dy = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ int P _ {\ theta _ {0}} (y) \ log {\ frac {P (y | \ theta _ {0})} {P (y | \ theta)}} dy \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}} } \, D _ {\ text {KL}} (P _ {\ theta _ {0}} \ paralelo P _ {\ theta}) \ end {alineado}}}

Dónde ${\ Displaystyle h _ {\ theta} (x) = \ log {\ frac {P (x | \ theta _ {0})} {P (x | \ theta)}}}$ . El uso de h ayuda a ver cómo estamos usando la ley de los grandes números para pasar del promedio de h (x) a la expectativa usando la ley del estadístico inconsciente . Las primeras transiciones tienen que ver con las leyes del logaritmo y ese hallazgo ${\ Displaystyle {\ hat {\ theta}}}$ que maximiza alguna función también será la que maximiza alguna transformación monótona de esa función (es decir, sumar / multiplicar por una constante).

Dado que la entropía cruzada es solo la entropía de Shannon más la divergencia KL, y dado que la entropía de ${\ Displaystyle P _ {\ theta _ {0}}}$ es constante, entonces el MLE también minimiza asintóticamente la entropía cruzada. ^[25]

Ejemplos de

Distribución uniforme discreta

Considere un caso en el que se colocan n boletos numerados del 1 al n en una caja y se selecciona uno al azar ( ver distribución uniforme ); por lo tanto, el tamaño de la muestra es 1. Si n es desconocido, entonces el estimador de máxima verosimilitud ${\ Displaystyle {\ widehat {n}}}$ de n es el número m en el boleto sorteado. (La probabilidad es 0 para n < m , 1 ⁄ n para n ≥ m , y esto es mayor cuando n = m . Tenga en cuenta que la estimación de máxima verosimilitud de n ocurre en el extremo inferior de los valores posibles { m , m + 1, ...}, en lugar de en algún lugar en el "medio" del rango de valores posibles, lo que resultaría en menos sesgo. ) El valor esperado del número m en el boleto sorteado y, por lo tanto, el valor esperado de ${\ Displaystyle {\ widehat {n}}}$ , es ( n + 1) / 2. Como resultado, con un tamaño de muestra de 1, el estimador de máxima verosimilitud para n subestimará sistemáticamente n en ( n - 1) / 2.

Distribución discreta, espacio de parámetros finito

Supongamos que uno desea determinar cuán sesgada es una moneda injusta . Llame a la probabilidad de lanzar una ' cara ' p . Entonces, el objetivo es determinar p .

Suponga que la moneda se lanza 80 veces: es decir, la muestra puede ser algo como x ₁ = H, x ₂ = T, ..., x ₈₀ = T, y se observa el recuento del número de caras "H".

La probabilidad de sacar cruz es 1 - p (por lo que aquí p es θ arriba). Suponga que el resultado es 49 caras y 31 cruces , y suponga que la moneda fue sacada de una caja que contiene tres monedas: una que da cara con probabilidad p = 1 ⁄ 3 , uno que da cara con probabilidad p = 1 ⁄ 2 y otro que da cara con probabilidad p = 2 ⁄ 3 . Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Utilizando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos que se observaron. Al usar la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80, el número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la función de probabilidad (definida a continuación) toma uno de tres valores:

{\ Displaystyle {\ begin {alineado} \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {3}} \; {\ bigr]} & = {\ binom {80} {49}} ({\ tfrac {1} {3}}) ^ {49} (1 - {\ tfrac {1} {3}}) ^ {31} \ aproximadamente 0.000, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {2}} \; {\ bigr ]} & = {\ binom {80} {49}} ({\ tfrac {1} {2}}) ^ {49} (1 - {\ tfrac {1} {2}}) ^ {31} \ approx 0.012, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {2} {3}} \; {\ bigr] } & = {\ binom {80} {49}} ({\ tfrac {2} {3}}) ^ {49} (1 - {\ tfrac {2} {3}}) ^ {31} \ approx 0.054 ~. \ end {alineado}}}

La probabilidad se maximiza cuando $p$ = 2 ⁄ 3 , por lo que esta es la estimación de máxima verosimilitud para $p$ .

Distribución discreta, espacio de parámetros continuo

Ahora suponga que solo hay una moneda, pero su $p$ podría haber sido cualquier valor 0 ≤ $p$ ≤ 1. La función de probabilidad que se maximiza es

{\ Displaystyle L (p) = f_ {D} (\ mathrm {H} = 49 \ mid p) = {\ binom {80} {49}} p ^ {49} (1-p) ^ {31} ~ ,}

y la maximización es sobre todos los valores posibles 0 ≤ $p$ ≤ 1.

función de verosimilitud para el valor de la proporción de un proceso binomial (

n

= 10)

Una forma de maximizar esta función es diferenciando con respecto $ap$ y estableciendo en cero:

{\ displaystyle {\ begin {alineado} 0 & = {\ frac {\ partial} {\ partial p}} \ left ({\ binom {80} {49}} p ^ {49} (1-p) ^ {31 } \ right) ~, \\ [8pt] 0 & = 49p ^ {48} (1-p) ^ {31} -31p ^ {49} (1-p) ^ {30} \\ [8pt] & = p ^ {48} (1-p) ^ {30} \ left [49 (1-p) -31p \ right] \\ [8pt] & = p ^ {48} (1-p) ^ {30} \ left [49-80p \ right] ~. \ End {alineado}}}

Este es un producto de tres términos. El primer término es 0 cuando $p$ = 0. El segundo es 0 cuando $p$ = 1. El tercero es cero cuando $p$ = 49 ⁄ 80 . La solución que maximiza la probabilidad es claramente $p$ = 49 ⁄ 80 (dado que $p$ = 0 y $p$ = 1 dan como resultado una probabilidad de 0). Por tanto, el estimador de máxima verosimilitud para $p$ es 49 ⁄ 80 .

Este resultado se generaliza fácilmente sustituyendo una letra como $s$ en lugar de 49 para representar el número observado de "éxitos" de nuestros ensayos de Bernoulli , y una letra como $n$ en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce $s$ ⁄ $n$ que es el estimador de máxima verosimilitud para cualquier secuencia de $n$ ensayos de Bernoulli que resulten en $s$ 'éxitos'.

Distribución continua, espacio de parámetros continuo

Para la distribución normal ${\ Displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}$ que tiene función de densidad de probabilidad

{\ Displaystyle f (x \ mid \ mu, \ sigma ^ {2}) = {\ frac {1} {{\ sqrt {2 \ pi \ sigma ^ {2}}} \}} \ exp \ left (- {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right),}

la función de densidad de probabilidad correspondiente para una muestra de $n$ variables aleatorias normales independientes distribuidas de manera idéntica (la probabilidad) es

{\ Displaystyle f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right).}

Esta familia de distribuciones tiene dos parámetros: $θ = (μ, σ)$ ; por lo que maximizamos la probabilidad, ${\ Displaystyle {\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)}$ , sobre ambos parámetros simultáneamente, o si es posible, individualmente.

Dado que la función de logaritmo en sí es una función continua estrictamente creciente sobre el rango de probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (la probabilidad logarítmica en sí misma no es necesariamente estrictamente creciente). La probabilidad logarítmica se puede escribir de la siguiente manera:

{\ Displaystyle \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr)} = - {\ frac {\, n \,} {2}} \ log (2 \ pi \ sigma ^ {2}) - {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}}

(Nota: la probabilidad logarítmica está estrechamente relacionada con la entropía de la información y la información de Fisher ).

Ahora calculamos las derivadas de esta probabilidad logarítmica de la siguiente manera.

{\ estilo de visualización {\ begin {alineado} 0 & = {\ frac {\ parcial} {\ parcial \ mu}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = 0 - {\ frac {\; - 2 \! N ({\ bar {x}} - \ mu) \;} {2 \ sigma ^ {2}}}. \ End {alineado}}}

dónde ${\ displaystyle {\ bar {x}}}$ es la media muestral . Esto se resuelve por

{\ Displaystyle {\ widehat {\ mu}} = {\ bar {x}} = \ sum _ {i = 1} ^ {n} {\ frac {\, x_ {i} \,} {n}}. }

De hecho, este es el máximo de la función, ya que es el único punto de inflexión en $μ$ y la segunda derivada es estrictamente menor que cero. Su valor esperado es igual al parámetro $μ$ de la distribución dada,

{\ Displaystyle \ operatorname {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ mu}} \; {\ bigr]} = \ mu, \,}

lo que significa que el estimador de máxima verosimilitud ${\ Displaystyle {\ widehat {\ mu}}}$ es imparcial.

De manera similar, diferenciamos la verosimilitud logarítmica con respecto a $σ$ y la igualamos a cero:

{\ Displaystyle {\ begin {alineado} 0 & = {\ frac {\ partial} {\ partial \ sigma}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = - {\ frac {\, n \,} {\ sigma}} + {\ frac {1} {\ sigma ^ {3}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}. \ end {alineado}}}

que se resuelve por

{\ Displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2 }.}

Insertar el presupuesto ${\ Displaystyle \ mu = {\ widehat {\ mu}}}$ obtenemos

{\ Displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x} }) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ frac {1} {n ^ {2} }} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} x_ {i} x_ {j}.}

Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de media cero ( error estadístico ) ${\ Displaystyle \ delta _ {i} \ equiv \ mu -x_ {i}}$ . Expresando la estimación en estas variables se obtiene

{\ Displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (\ mu - \ delta _ {i}) ^ {2} - {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} (\ mu - \ delta _ { i}) (\ mu - \ delta _ {j}).}

Simplificando la expresión anterior, utilizando los hechos que ${\ Displaystyle \ operatorname {\ mathbb {E}} {\ bigl [} \; \ delta _ {i} \; {\ bigr]} = 0}$ y ${\ Displaystyle \ operatorname {E} {\ bigl [} \; \ delta _ {i} ^ {2} \; {\ bigr]} = \ sigma ^ {2}}$ , nos permite obtener

{\ Displaystyle \ operatorname {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ sigma}} ^ {2} \; {\ bigr]} = {\ frac {\, n-1 \, } {n}} \ sigma ^ {2}.}

Esto significa que el estimador ${\ Displaystyle {\ widehat {\ sigma}} ^ {2}}$ está sesgado por ${\ Displaystyle \ sigma ^ {2}}$ . También se puede demostrar que ${\ Displaystyle {\ widehat {\ sigma}}}$ está sesgado por ${\ Displaystyle \ sigma}$ , pero que ambos ${\ Displaystyle {\ widehat {\ sigma}} ^ {2}}$ y ${\ Displaystyle {\ widehat {\ sigma}}}$ son consistentes.

Formalmente decimos que el estimador de máxima verosimilitud para ${\ Displaystyle \ theta = (\ mu, \ sigma ^ {2})}$ es

{\ displaystyle {\ widehat {\ theta \,}} = \ left ({\ widehat {\ mu}}, {\ widehat {\ sigma}} ^ {2} \ right).}

En este caso, los MLE podrían obtenerse individualmente. En general, este puede no ser el caso, y los MLE tendrían que obtenerse simultáneamente.

La probabilidad logarítmica normal en su máximo toma una forma particularmente simple:

{\ Displaystyle \ log {\ Bigl (} {\ mathcal {L}} ({\ widehat {\ mu}}, {\ widehat {\ sigma}}) {\ Bigr)} = {\ frac {\, - n \; \;} {2}} {\ bigl (} \, \ log (2 \ pi {\ widehat {\ sigma}} ^ {2}) + 1 \, {\ bigr)}}

Se puede demostrar que esta probabilidad logarítmica máxima es la misma para mínimos cuadrados más generales , incluso para mínimos cuadrados no lineales . Esto se usa a menudo para determinar los intervalos de confianza aproximados basados en la probabilidad y las regiones de confianza , que generalmente son más precisas que las que usan la normalidad asintótica discutida anteriormente.

Variables no independientes

Puede darse el caso de que las variables estén correlacionadas, es decir, que no sean independientes. Dos variables aleatorias ${\ Displaystyle y_ {1}}$ y ${\ Displaystyle y_ {2}}$ son independientes solo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir

{\ Displaystyle f (y_ {1}, y_ {2}) = f (y_ {1}) f (y_ {2}) \,}

Suponga que se construye un vector gaussiano de orden n a partir de variables aleatorias ${\ Displaystyle (y_ {1}, \ ldots, y_ {n})}$ , donde cada variable tiene medias dadas por ${\ Displaystyle (\ mu _ {1}, \ ldots, \ mu _ {n})}$ . Además, denotemos la matriz de covarianza por ${\ Displaystyle {\ mathit {\ Sigma}}}$ . La función de densidad de probabilidad conjunta de estas n variables aleatorias sigue una distribución normal multivariante dada por:

{\ Displaystyle f (y_ {1}, \ ldots, y_ {n}) = {\ frac {1} {(2 \ pi) ^ {n / 2} {\ sqrt {\ det ({\ mathit {\ Sigma }})}}}} \ exp \ left (- {\ frac {1} {2}} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ { n} \ right] {\ mathit {\ Sigma}} ^ {- 1} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ {n} \ right] ^ {\ mathrm {T}} \ right)}

En el caso bivariado , la función de densidad de probabilidad conjunta viene dada por:

{\ Displaystyle f (y_ {1}, y_ {2}) = {\ frac {1} {2 \ pi \ sigma _ {1} \ sigma _ {2} {\ sqrt {1- \ rho ^ {2} }}}} \ exp \ left [- {\ frac {1} {2 (1- \ rho ^ {2})}} \ left ({\ frac {(y_ {1} - \ mu _ {1}) ^ {2}} {\ sigma _ {1} ^ {2}}} - {\ frac {2 \ rho (y_ {1} - \ mu _ {1}) (y_ {2} - \ mu _ {2 })} {\ sigma _ {1} \ sigma _ {2}}} + {\ frac {(y_ {2} - \ mu _ {2}) ^ {2}} {\ sigma _ {2} ^ { 2}}} \ derecha) \ derecha]}

En este y otros casos en los que existe una función de densidad conjunta, la función de verosimilitud se define como anteriormente, en la sección " principios ", utilizando esta densidad.

Ejemplo

${\ Displaystyle X_ {1}, \ X_ {2}, \ ldots, \ X_ {m}}$ son recuentos en celdas / cajas 1 hasta m; cada caja tiene una probabilidad diferente (piense en que las cajas son más grandes o más pequeñas) y fijamos el número de bolas que caen para que sea ${\ Displaystyle n}$ : ${\ Displaystyle x_ {1} + x_ {2} + \ cdots + x_ {m} = n}$ . La probabilidad de cada caja es ${\ Displaystyle p_ {i}}$ , con una restricción: ${\ Displaystyle p_ {1} + p_ {2} + \ cdots + p_ {m} = 1}$ . Este es un caso en el que el ${\ Displaystyle X_ {i}}$ s no son independientes, la probabilidad conjunta de un vector ${\ Displaystyle x_ {1}, \ x_ {2}, \ ldots, x_ {m}}$ se llama multinomio y tiene la forma:

{\ Displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {m} \ mid p_ {1}, p_ {2}, \ ldots, p_ {m}) = {\ frac {n!} {\ Pi x_ {i}!}} \ Pi p_ {i} ^ {x_ {i}} = {\ binom {n} {x_ {1}, x_ {2}, \ ldots, x_ {m}}} p_ {1} ^ {x_ {1}} p_ {2} ^ {x_ {2}} \ cdots p_ {m} ^ {x_ {m}}}

Cada caja tomada por separado frente a todas las demás cajas es un binomio y esta es una extensión del mismo.

La probabilidad logarítmica de esto es:

{\ Displaystyle \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) = \ log n! - \ sum _ {i = 1} ^ {m} \ log x_ {i}! + \ sum _ {i = 1} ^ {m} x_ {i} \ log p_ {i}}

La restricción debe tenerse en cuenta y utilizar los multiplicadores de Lagrange:

{\ Displaystyle L (p_ {1}, p_ {2}, \ ldots, p_ {m}, \ lambda) = \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) + \ lambda \ left (1- \ sum _ {i = 1} ^ {m} p_ {i} \ right)}

Al plantear todas las derivadas como 0, se obtiene la estimación más natural

{\ Displaystyle {\ hat {p}} _ {i} = {\ frac {x_ {i}} {n}}}

Maximizar la probabilidad logarítmica, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que usar procedimientos iterativos.

Procedimientos iterativos

Excepto en casos especiales, las ecuaciones de verosimilitud

{\ Displaystyle {\ frac {\ parcial \ ell (\ theta; \ mathbf {y})} {\ parcial \ theta}} = 0}

no se puede resolver explícitamente para un estimador ${\ displaystyle {\ widehat {\ theta}} = {\ widehat {\ theta}} (\ mathbf {y})}$ . En cambio, deben resolverse de forma iterativa : partiendo de una suposición inicial de ${\ Displaystyle \ theta}$ (decir ${\ Displaystyle {\ widehat {\ theta}} _ {1}}$ ), se busca obtener una secuencia convergente ${\ Displaystyle \ left \ {{\ widehat {\ theta}} _ {r} \ right \}}$ . Hay muchos métodos disponibles para este tipo de problema de optimización , ^[26]^[27] pero los más utilizados son los algoritmos basados en una fórmula de actualización de la forma

{\ displaystyle {\ widehat {\ theta}} _ {r + 1} = {\ widehat {\ theta}} _ {r} + \ eta _ {r} \ mathbf {d} _ {r} \ left ({ \ widehat {\ theta}} \ right)}

donde el vector ${\ Displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right)}$ indica la dirección de descenso del r- ésimo "paso" y el escalar ${\ Displaystyle \ eta _ {r}}$ captura la "longitud del paso", ^[28]^[29] también conocida como tasa de aprendizaje . ^[30]

Método de descenso de gradiente

(Nota: aquí es un problema de maximización, por lo que el signo antes del gradiente se invierte)

{\ Displaystyle \ eta _ {r} \ in \ mathbb {R} ^ {+}}

que sea lo suficientemente pequeño para la convergencia y

{\ Displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = \ nabla \ ell \ left ({\ widehat {\ theta}} _ {r}; \ mathbf { y} \ right)}

El método de descenso de gradiente requiere calcular el gradiente en la-ésima iteración, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz de Hesse. Por lo tanto, es computacionalmente más rápido que el método de Newton-Raphson.

Método de Newton-Raphson

{\ Displaystyle \ eta _ {r} = 1}

y

{\ Displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right) \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right)}

dónde ${\ Displaystyle \ mathbf {s} _ {r} ({\ widehat {\ theta}})}$ es la puntuación y ${\ Displaystyle \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right)}$ es la inversa de la matriz hessiana de la función logarítmica de verosimilitud, ambas evaluaron la r- ésima iteración. ^[31]^[32] Pero debido a que el cálculo de la matriz de Hesse es computacionalmente costoso , se han propuesto numerosas alternativas. El popular algoritmo de Berndt-Hall-Hall-Hausman aproxima el hessiano con el producto exterior del gradiente esperado, de modo que

{\ Displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ left [{\ frac {1} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ parcial \ ell (\ theta; \ mathbf {y})} {\ parcial \ theta}} \ izquierda ({\ frac {\ parcial \ ell (\ theta; \ mathbf {y}) } {\ parcial \ theta}} \ right) ^ {\ mathsf {T}} \ right] ^ {- 1} \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right) }

Métodos cuasi-Newton

Otros métodos de cuasi-Newton utilizan actualizaciones de secantes más elaboradas para dar una aproximación de la matriz de Hesse.

Fórmula de Davidon-Fletcher-Powell

La fórmula de DFP encuentra una solución simétrica, definida positiva y más cercana al valor aproximado actual de la derivada de segundo orden:

{\ Displaystyle \ mathbf {H} _ {k + 1} = \ left (I- \ gamma _ {k} y_ {k} s_ {k} ^ {\ mathsf {T}} \ right) \ mathbf {H} _ {k} \ left (I- \ gamma _ {k} s_ {k} y_ {k} ^ {\ mathsf {T}} \ right) + \ gamma _ {k} y_ {k} y_ {k} ^ {\ mathsf {T}},}

dónde

{\ Displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}

{\ Displaystyle \ gamma _ {k} = {\ frac {1} {y_ {k} ^ {T} s_ {k}}},}

{\ Displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno

BFGS también da una solución que es simétrica y definida positiva:

{\ Displaystyle B_ {k + 1} = B_ {k} + {\ frac {y_ {k} y_ {k} ^ {\ mathsf {T}}} {y_ {k} ^ {\ mathsf {T}} s_ {k}}} - {\ frac {B_ {k} s_ {k} s_ {k} ^ {\ mathsf {T}} B_ {k} ^ {\ mathsf {T}}} {s_ {k} ^ { \ mathsf {T}} B_ {k} s_ {k}}} \,}

dónde

{\ Displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}

{\ Displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

No se garantiza que el método BFGS converja a menos que la función tenga una expansión de Taylor cuadrática cercana a un óptimo. Sin embargo, BFGS puede tener un rendimiento aceptable incluso para instancias de optimización que no son fluidas

Puntuación de Fisher

Otro método popular es reemplazar el hessiano con la matriz de información de Fisher , ${\ Displaystyle {\ mathcal {I}} (\ theta) = \ operatorname {\ mathbb {E}} \ left [\ mathbf {H} _ {r} \ left ({\ widehat {\ theta}} \ right) \derecho]}$ , dándonos el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como los modelos lineales generalizados .

Aunque son populares, los métodos cuasi-Newton pueden converger a un punto estacionario que no es necesariamente un máximo local o global, ^[33] sino más bien un mínimo local o un punto silla . Por lo tanto, es importante evaluar la validez de la solución obtenida de las ecuaciones de verosimilitud, verificando que el hessiano, evaluado en la solución, sea tanto negativo definido como bien condicionado . ^[34]

Historia

Ronald Fisher en 1913

Los primeros usuarios de máxima probabilidad fueron Carl Friedrich Gauss , Pierre-Simon Laplace , Thorvald N. Thiele y Francis Ysidro Edgeworth . ^[35]^[36] Sin embargo, su uso generalizado aumentó entre 1912 y 1922 cuando Ronald Fisher recomendó, popularizó ampliamente y analizó cuidadosamente la estimación de máxima verosimilitud (con intentos infructuosos de pruebas ). ^[37]

La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una demostración publicada por Samuel S. Wilks en 1938, ahora llamada teorema de Wilks . ^[38] El teorema muestra que el error en el logaritmo de los valores de verosimilitud para estimaciones de múltiples observaciones independientes está distribuido asintóticamente χ 2 , lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la demostración de Wilks depende del valor esperado de la matriz de información de Fisher , que es proporcionada por un teorema probado por Fisher . ^[39] Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, con su demostración más general publicada en 1962. ^[40]

Varios autores han proporcionado revisiones del desarrollo de la estimación de máxima verosimilitud. ^[41]^[42]^[43]^[44]^[45]^[46]^[47]^[48]

Ver también

Conceptos relacionados

Criterio de información de Akaike , un criterio para comparar modelos estadísticos, basado en MLE
Estimador de extremos , una clase más general de estimadores a los que pertenece MLE
Información de Fisher , matriz de información, su relación con la matriz de covarianza de las estimaciones de ML
Error cuadrático medio , una medida de cuán 'bueno' es un estimador de un parámetro distributivo (ya sea el estimador de máxima verosimilitud o algún otro estimador)
RANSAC , un método para estimar parámetros de un modelo matemático dados datos que contienen valores atípicos
Teorema de Rao-Blackwell , que produce un proceso para encontrar el mejor estimador insesgado posible (en el sentido de tener un error cuadrático medio mínimo ); El MLE es a menudo un buen punto de partida para el proceso.
El teorema de Wilks proporciona un medio para estimar el tamaño y la forma de la región de estimaciones aproximadamente igualmente probables para los valores de los parámetros de la población, utilizando la información de una sola muestra, utilizando una distribución chi-cuadrado.

Otros métodos de estimación

El método generalizado de momentos son métodos relacionados con la ecuación de verosimilitud en la estimación de máxima verosimilitud
Estimador M , un enfoque utilizado en estadísticas robustas
Estimador máximo a posteriori (MAP), para un contraste en la forma de calcular estimadores cuando se postulan conocimientos previos
Estimación de espaciado máximo , un método relacionado que es más robusto en muchas situaciones
Estimación máxima de entropía
Método de momentos (estadísticas) , otro método popular para encontrar parámetros de distribuciones
Método de apoyo , una variación de la técnica de máxima verosimilitud
Estimación de distancia mínima
Métodos de verosimilitud parcial para datos de panel
Estimador de verosimilitud cuasimáxima, un estimador MLE que está mal especificado, pero que sigue siendo consistente
Probabilidad máxima restringida , una variación que utiliza una función de probabilidad calculada a partir de un conjunto de datos transformado

Referencias

^ Rossi, Richard J. (2018). Estadística matemática: una introducción a la inferencia basada en verosimilitud . Nueva York: John Wiley & Sons. pag. 227. ISBN 978-1-118-77104-4.
^ Hendry, David F .; Nielsen, Bent (2007). Modelado econométrico: un enfoque de verosimilitud . Princeton: Prensa de la Universidad de Princeton. ISBN 978-0-691-13128-3.
^ Chambers, Raymond L .; Steel, David G .; Wang, Suojin; Galés, Alan (2012). Estimación de máxima verosimilitud para encuestas por muestreo . Boca Ratón: CRC Press. ISBN 978-1-58488-632-7.
^ Ward, Michael Don ; Ahlquist, John S. (2018). Máxima probabilidad para las ciencias sociales: estrategias para el análisis . Nueva York: Cambridge University Press. ISBN 978-1-107-18582-1.
^ Presione, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). "Mínimos cuadrados como estimador de máxima verosimilitud" . Recetas numéricas en FORTRAN: El arte de la informática científica (2ª ed.). Cambridge: Cambridge University Press. págs. 651–655. ISBN 0-521-43064-X.
^ a b Myung, IJ (2003). "Tutorial sobre estimación de máxima verosimilitud". Revista de Psicología Matemática . 47 (1): 90–100. doi : 10.1016 / S0022-2496 (02) 00028-7 .
^ Gourieroux, Christian; Monfort, Alain (1995). Modelos estadísticos y econométricos . Prensa de la Universidad de Cambridge. pag. 161 . ISBN 0-521-40551-3.
^ Kane, Edward J. (1968). Estadística Económica y Econometría . Nueva York: Harper & Row. pag. 179 .
^ Pequeño, Christoper G .; Wang, Jinfang (2003). "Trabajar con raíces" . Métodos numéricos para ecuaciones de estimación no lineales . Prensa de la Universidad de Oxford. págs. 74-124. ISBN 0-19-850688-0.
^ Kass, Robert E .; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica . Nueva York, NY: John Wiley & Sons. pag. 14. ISBN 0-471-82668-5.
^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log () antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?" . Stack Exchange .
^ a b Silvey, SD (1975). Inferencia estadística . Londres: Chapman y Hall. pag. 79. ISBN 0-412-13820-4.
^ Oliva, David (2004). "¿El MLE maximiza la probabilidad?" (PDF) . Cite journal requiere |journal=( ayuda )
^ Schwallie, Daniel P. (1985). "Estimadores de covarianza de máxima probabilidad definida positiva". Cartas económicas . 17 (1–2): 115-117. doi : 10.1016 / 0165-1765 (85) 90139-9 .
^ Magnus, Jan R. (2017). Introducción a la Teoría de la Econometría . Ámsterdam: VU University Press. págs. 64–65. ISBN 978-90-8659-766-6.
^ Pfanzagl (1994 , p. 206)
^ Por el teorema 2.5 en Newey, Whitney K .; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y pruebas de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Manual de Econometría, Vol 4 . Ciencia de Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplica el valor predeterminado ( enlace )
^ a b Según el teorema 3.3 en Newey, Whitney K .; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y pruebas de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Manual de Econometría, Vol 4 . Ciencia de Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Zacks, Shelemyahu (1971). La teoría de la inferencia estadística . Nueva York: John Wiley & Sons. pag. 223. ISBN 0-471-98103-6.
^ Ver fórmula 20 en Cox, David R .; Snell, E. Joyce (1968). "Una definición general de residuos". Revista de la Sociedad Real de Estadística, Serie B . 30 (2): 248-275. JSTOR 2984505 .CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Kano, Yutaka (1996). "La eficiencia de tercer orden implica una eficiencia de cuarto orden" . Revista de la Sociedad de Estadística de Japón . 26 : 101-117. doi : 10.14490 / jjss1995.26.101 .
^ Christensen, Henrikt I. "Reconocimiento de patrones" (PDF) (conferencia). Teoría de la decisión bayesiana - CS 7616. Georgia Tech.
^ cmplx96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), divergencia de Kullback-Leibler, URL (versión: 2017-11-18): https://stats.stackexchange.com/q/314472 ( en el video de youtube, mira los minutos 13 a 25)
^ Introducción a la inferencia estadística | Stanford (Clase 16 - MLE bajo especificación incorrecta del modelo)
^ Sycorax dice Reinstate Monica ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), la relación entre maximizar la probabilidad y minimizar la entropía cruzada, URL (versión: 2019-11- 06): https://stats.stackexchange.com/q/364237
^ Fletcher, R. (1987). Métodos prácticos de optimización (Segunda ed.). Nueva York, NY: John Wiley & Sons. ISBN 0-471-91547-5.
^ Nocedal, Jorge ; Wright, Stephen J. (2006). Optimización numérica (Segunda ed.). Nueva York, NY: Springer. ISBN 0-387-30303-0.
^ Daganzo, Carlos (1979). Probit multinomial: la teoría y su aplicación al pronóstico de la demanda . Nueva York: Academic Press. págs. 61–78. ISBN 0-12-201150-3.
^ Gould, William; Pitblado, Jeffrey; Poi, Brian (2010). Estimación de máxima verosimilitud con Stata (Cuarta ed.). College Station: Stata Press. págs. 13-20. ISBN 978-1-59718-078-8.
^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística . Cambridge: MIT Press. pag. 247. ISBN 978-0-262-01802-9.
^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 137-138 . ISBN 0-674-00560-0.
^ Sargan, Denis (1988). "Métodos de optimización numérica". Notas de la conferencia sobre teoría econométrica avanzada . Oxford: Basil Blackwell. págs. 161-169. ISBN 0-631-14956-2.
^ Ver teorema 10.1 en Avriel, Mordecai (1976). Programación no lineal: análisis y métodos . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 293-294. ISBN 9780486432274.
^ Gill, Philip E .; Murray, Walter; Wright, Margaret H. (1981). Optimización práctica . Londres, Reino Unido: Academic Press. págs. 312 –313. ISBN 0-12-283950-1.
^ Edgeworth, Francis Y. (septiembre de 1908). "Sobre los probables errores de las constantes de frecuencia" . Revista de la Royal Statistical Society . 71 (3): 499–512. doi : 10.2307 / 2339293 . JSTOR 2339293 .
^ Edgeworth, Francis Y. (diciembre de 1908). "Sobre los probables errores de las constantes de frecuencia" . Revista de la Royal Statistical Society . 71 (4): 651–678. doi : 10.2307 / 2339378 . JSTOR 2339378 .
^ Pfanzagl, Johann; Hamböker, R. (1994). Teoría estadística paramétrica . Walter de Gruyter . págs. 207–208. ISBN 978-3-11-013863-4.
^ Wilks, SS (1938). "La distribución de muestra grande de la razón de verosimilitud para probar hipótesis compuestas" . Anales de estadística matemática . 9 : 60–62. doi : 10.1214 / aoms / 1177732360 .
^ Owen, Art B. (2001). Probabilidad empírica . Londres, Reino Unido; Boca Raton, FL: Chapman & Hall; Prensa CRC. ISBN 978-1584880714.
^ Wilks, Samuel S. (1962). Estadística matemática . Nueva York, NY: John Wiley & Sons. ISBN 978-0471946502.
^ Salvaje, Leonard J. (1976). "Al releer RA Fisher" . The Annals of Statistics . 4 (3): 441–500. doi : 10.1214 / aos / 1176343456 . JSTOR 2958221 .CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Pratt, John W. (1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud" . The Annals of Statistics . 4 (3): 501–514. doi : 10.1214 / aos / 1176343457 . JSTOR 2958222 .CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, estadístico". Revista de la Sociedad Real de Estadística, Serie A . 141 (3): 287–322. doi : 10.2307 / 2344804 . JSTOR 2344804 .CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. ISBN 978-0-674-40340-6.CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Stigler, Stephen M. (1999). Estadísticas sobre la mesa: la historia de los conceptos y métodos estadísticos . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Hald, Anders (1998). Una historia de la estadística matemática desde 1750 hasta 1930 . Nueva York, NY: Wiley. ISBN 978-0-471-17912-2.CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Hald, Anders (1999). "Sobre la historia de máxima verosimilitud en relación a la probabilidad inversa y mínimos cuadrados" . Ciencia estadística . 14 (2): 214-222. doi : 10.1214 / ss / 1009212248 . JSTOR 2676741 .CS1 maint: ref duplica el valor predeterminado ( enlace )
^ Aldrich, John (1997). "RA Fisher y la realización de máxima verosimilitud 1912-1922" . Ciencia estadística . 12 (3): 162-176. doi : 10.1214 / ss / 1030037906 . Señor 1617519 .CS1 maint: ref duplica el valor predeterminado ( enlace )

Otras lecturas

Cramer, JS (1986). Aplicaciones econométricas de los métodos de máxima verosimilitud . Nueva York, NY: Cambridge University Press. ISBN 0-521-25317-9.
Eliason, Scott R. (1993). Estimación de máxima verosimilitud: lógica y práctica . Newbury Park: Sage. ISBN 0-8039-4107-2.
King, Gary (1989). Metodología política unificadora: la teoría de la semejanza de la inferencia estadística . Prensa de la Universidad de Cambridge. ISBN 0-521-36697-6.
Le Cam, Lucien (1990). "Máxima probabilidad: una introducción". Revisión de ISI . 58 (2): 153-171. JSTOR 1403464 .
Magnus, Jan R. (2017). "Máxima verosimilitud". Introducción a la Teoría de la Econometría . Amsterdam, NL: VU University Press. págs. 53–68. ISBN 978-90-8659-766-6.
Millar, Russell B. (2011). Estimación e inferencia de máxima verosimilitud . Hoboken, Nueva Jersey: Wiley. ISBN 978-0-470-09482-2.
Pickles, Andrew (1986). Introducción al análisis de verosimilitud . Norwich: WH Hutchins & Sons. ISBN 0-86094-190-6.
Severini, Thomas A. (2000). Métodos de verosimilitud en estadística . Nueva York, NY: Oxford University Press. ISBN 0-19-850650-3.
Ward, Michael D .; Ahlquist, John S. (2018). Máxima probabilidad para las ciencias sociales: estrategias para el análisis . Prensa de la Universidad de Cambridge. ISBN 978-1-316-63682-4.

enlaces externos

Menor, Lawrence M. (2007). " Letra de la canción ' MLE'" . Ciencias Matemáticas / Facultad de Ciencias. math.utep.edu . El Paso, TX: Universidad de Texas . Consultado el 6 de marzo de 2021 .
"Método de máxima verosimilitud" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]
Purcell, S. "Estimación de máxima verosimilitud" .
Sargent, Thomas ; Stachurski, John. "Estimación de máxima verosimilitud" . Economía cuantitativa con Python .
Toomet, Ott; Henningsen, Arne (19 de mayo de 2019). "maxLik: un paquete para la estimación de máxima verosimilitud en R" .

[1] Rossi, Richard J. (2018). Estadística matemática: una introducción a la inferencia basada en verosimilitud . Nueva York: John Wiley & Sons. pag. 227. ISBN 978-1-118-77104-4.

[2] Hendry, David F .; Nielsen, Bent (2007). Modelado econométrico: un enfoque de verosimilitud . Princeton: Prensa de la Universidad de Princeton. ISBN 978-0-691-13128-3.

[3] Chambers, Raymond L .; Steel, David G .; Wang, Suojin; Galés, Alan (2012). Estimación de máxima verosimilitud para encuestas por muestreo . Boca Ratón: CRC Press. ISBN 978-1-58488-632-7.

[4] Ward, Michael Don ; Ahlquist, John S. (2018). Máxima probabilidad para las ciencias sociales: estrategias para el análisis . Nueva York: Cambridge University Press. ISBN 978-1-107-18582-1.

[5] Presione, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). "Mínimos cuadrados como estimador de máxima verosimilitud" . Recetas numéricas en FORTRAN: El arte de la informática científica (2ª ed.). Cambridge: Cambridge University Press. págs. 651–655. ISBN 0-521-43064-X.

[:0-6] Myung, IJ (2003). "Tutorial sobre estimación de máxima verosimilitud". Revista de Psicología Matemática . 47 (1): 90–100. doi : 10.1016 / S0022-2496 (02) 00028-7 .

[7] Gourieroux, Christian; Monfort, Alain (1995). Modelos estadísticos y econométricos . Prensa de la Universidad de Cambridge. pag. 161 . ISBN 0-521-40551-3.

[8] Kane, Edward J. (1968). Estadística Económica y Econometría . Nueva York: Harper & Row. pag. 179 .

[9] Pequeño, Christoper G .; Wang, Jinfang (2003). "Trabajar con raíces" . Métodos numéricos para ecuaciones de estimación no lineales . Prensa de la Universidad de Oxford. págs. 74-124. ISBN 0-19-850688-0.

[10] Kass, Robert E .; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica . Nueva York, NY: John Wiley & Sons. pag. 14. ISBN 0-471-82668-5.

[11] Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log () antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?" . Stack Exchange .

[Silvey_p79-12] Silvey, SD (1975). Inferencia estadística . Londres: Chapman y Hall. pag. 79. ISBN 0-412-13820-4.

[13] Oliva, David (2004). "¿El MLE maximiza la probabilidad?" (PDF) . Cite journal requiere |journal=( ayuda )

[14] Schwallie, Daniel P. (1985). "Estimadores de covarianza de máxima probabilidad definida positiva". Cartas económicas . 17 (1–2): 115-117. doi : 10.1016 / 0165-1765 (85) 90139-9 .

[15] Magnus, Jan R. (2017). Introducción a la Teoría de la Econometría . Ámsterdam: VU University Press. págs. 64–65. ISBN 978-90-8659-766-6.

[16] Pfanzagl (1994 , p. 206)

[17] Por el teorema 2.5 en Newey, Whitney K .; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y pruebas de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Manual de Econometría, Vol 4 . Ciencia de Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplica el valor predeterminado ( enlace )

[:1-18] Según el teorema 3.3 en Newey, Whitney K .; McFadden, Daniel (1994). "Capítulo 36: Estimación de muestras grandes y pruebas de hipótesis". En Engle, Robert; McFadden, Dan (eds.). Manual de Econometría, Vol 4 . Ciencia de Elsevier. págs. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplica el valor predeterminado ( enlace )

[19] Zacks, Shelemyahu (1971). La teoría de la inferencia estadística . Nueva York: John Wiley & Sons. pag. 223. ISBN 0-471-98103-6.

[20] Ver fórmula 20 en Cox, David R .; Snell, E. Joyce (1968). "Una definición general de residuos". Revista de la Sociedad Real de Estadística, Serie B . 30 (2): 248-275. JSTOR 2984505 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[21] Kano, Yutaka (1996). "La eficiencia de tercer orden implica una eficiencia de cuarto orden" . Revista de la Sociedad de Estadística de Japón . 26 : 101-117. doi : 10.14490 / jjss1995.26.101 .

[22] Christensen, Henrikt I. "Reconocimiento de patrones" (PDF) (conferencia). Teoría de la decisión bayesiana - CS 7616. Georgia Tech.

[23] x96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), divergencia de Kullback-Leibler, URL (versión: 2017-11-18): https://stats.stackexchange.com/q/314472 ( en el video de youtube, mira los minutos 13 a 25)

[24] Introducción a la inferencia estadística | Stanford (Clase 16 - MLE bajo especificación incorrecta del modelo)

[25] Sycorax dice Reinstate Monica ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), la relación entre maximizar la probabilidad y minimizar la entropía cruzada, URL (versión: 2019-11- 06): https://stats.stackexchange.com/q/364237

[26] Fletcher, R. (1987). Métodos prácticos de optimización (Segunda ed.). Nueva York, NY: John Wiley & Sons. ISBN 0-471-91547-5.

[27] Nocedal, Jorge ; Wright, Stephen J. (2006). Optimización numérica (Segunda ed.). Nueva York, NY: Springer. ISBN 0-387-30303-0.

[28] Daganzo, Carlos (1979). Probit multinomial: la teoría y su aplicación al pronóstico de la demanda . Nueva York: Academic Press. págs. 61–78. ISBN 0-12-201150-3.

[29] Gould, William; Pitblado, Jeffrey; Poi, Brian (2010). Estimación de máxima verosimilitud con Stata (Cuarta ed.). College Station: Stata Press. págs. 13-20. ISBN 978-1-59718-078-8.

[30] Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística . Cambridge: MIT Press. pag. 247. ISBN 978-0-262-01802-9.

[31] Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 137-138 . ISBN 0-674-00560-0.

[32] Sargan, Denis (1988). "Métodos de optimización numérica". Notas de la conferencia sobre teoría econométrica avanzada . Oxford: Basil Blackwell. págs. 161-169. ISBN 0-631-14956-2.

[33] Ver teorema 10.1 en Avriel, Mordecai (1976). Programación no lineal: análisis y métodos . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 293-294. ISBN 9780486432274.

[34] Gill, Philip E .; Murray, Walter; Wright, Margaret H. (1981). Optimización práctica . Londres, Reino Unido: Academic Press. págs. 312 –313. ISBN 0-12-283950-1.

[35] Edgeworth, Francis Y. (septiembre de 1908). "Sobre los probables errores de las constantes de frecuencia" . Revista de la Royal Statistical Society . 71 (3): 499–512. doi : 10.2307 / 2339293 . JSTOR 2339293 .

[36] Edgeworth, Francis Y. (diciembre de 1908). "Sobre los probables errores de las constantes de frecuencia" . Revista de la Royal Statistical Society . 71 (4): 651–678. doi : 10.2307 / 2339378 . JSTOR 2339378 .

[Pfanzagl-37] Pfanzagl, Johann; Hamböker, R. (1994). Teoría estadística paramétrica . Walter de Gruyter . págs. 207–208. ISBN 978-3-11-013863-4.

[38] Wilks, SS (1938). "La distribución de muestra grande de la razón de verosimilitud para probar hipótesis compuestas" . Anales de estadística matemática . 9 : 60–62. doi : 10.1214 / aoms / 1177732360 .

[39] Owen, Art B. (2001). Probabilidad empírica . Londres, Reino Unido; Boca Raton, FL: Chapman & Hall; Prensa CRC. ISBN 978-1584880714.

[40] Wilks, Samuel S. (1962). Estadística matemática . Nueva York, NY: John Wiley & Sons. ISBN 978-0471946502.

[41] Salvaje, Leonard J. (1976). "Al releer RA Fisher" . The Annals of Statistics . 4 (3): 441–500. doi : 10.1214 / aos / 1176343456 . JSTOR 2958221 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[42] Pratt, John W. (1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud" . The Annals of Statistics . 4 (3): 501–514. doi : 10.1214 / aos / 1176343457 . JSTOR 2958222 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[43] Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, estadístico". Revista de la Sociedad Real de Estadística, Serie A . 141 (3): 287–322. doi : 10.2307 / 2344804 . JSTOR 2344804 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[44] Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. ISBN 978-0-674-40340-6.CS1 maint: ref duplica el valor predeterminado ( enlace )

[45] Stigler, Stephen M. (1999). Estadísticas sobre la mesa: la historia de los conceptos y métodos estadísticos . Prensa de la Universidad de Harvard. ISBN 978-0-674-83601-3.CS1 maint: ref duplica el valor predeterminado ( enlace )

[46] Hald, Anders (1998). Una historia de la estadística matemática desde 1750 hasta 1930 . Nueva York, NY: Wiley. ISBN 978-0-471-17912-2.CS1 maint: ref duplica el valor predeterminado ( enlace )

[47] Hald, Anders (1999). "Sobre la historia de máxima verosimilitud en relación a la probabilidad inversa y mínimos cuadrados" . Ciencia estadística . 14 (2): 214-222. doi : 10.1214 / ss / 1009212248 . JSTOR 2676741 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[48] Aldrich, John (1997). "RA Fisher y la realización de máxima verosimilitud 1912-1922" . Ciencia estadística . 12 (3): 162-176. doi : 10.1214 / ss / 1030037906 . Señor 1617519 .CS1 maint: ref duplica el valor predeterminado ( enlace )

[1]