Método generalizado de momentos

En econometría y estadística , el método generalizado de momentos ( GMM ) es un método genérico para estimar parámetros en modelos estadísticos . Por lo general, se aplica en el contexto de modelos semiparamétricos , donde el parámetro de interés es de dimensión finita, mientras que es posible que no se conozca la forma completa de la función de distribución de los datos y, por lo tanto, la estimación de máxima verosimilitud no es aplicable.

El método requiere que se especifique un cierto número de condiciones de momento para el modelo. Estas condiciones de momento son funciones de los parámetros del modelo y los datos, de modo que su expectativa es cero en los valores verdaderos de los parámetros. El método GMM luego minimiza una cierta norma de los promedios muestrales de las condiciones de momento y, por lo tanto, puede considerarse como un caso especial de estimación de distancia mínima . ^[1]

Se sabe que los estimadores GMM son consistentes , asintóticamente normales y eficientes en la clase de todos los estimadores que no utilizan ninguna información adicional aparte de la contenida en las condiciones de momento. Los GMM fueron defendidos por Lars Peter Hansen en 1982 como una generalización del método de momentos , ^[2] introducido por Karl Pearson en 1894. Sin embargo, estos estimadores son matemáticamente equivalentes a los basados en "condiciones de ortogonalidad" (Sargan, 1958, 1959). o "ecuaciones de estimación insesgadas" (Huber, 1967; Wang et al., 1997).

Descripción

Suponga que los datos disponibles consisten en T observaciones { Y _t } _t_{= 1, ...,}_T , donde cada observación Y _t es una variable aleatoria multivariante n- dimensional . Suponemos que los datos provienen de un determinado modelo estadístico , definido hasta un parámetro desconocido θ ∈ Θ . El objetivo del problema de estimación es encontrar el valor "verdadero" de este parámetro, θ ₀ , o al menos una estimación razonablemente cercana.

Una suposición general de GMM es que los datos Y _t serán generados por un proceso estocástico ergódico débilmente estacionario . (El caso de variables independientes e idénticamente distribuidas (iid) Y _t es un caso especial de esta condición).

Para aplicar GMM, necesitamos tener "condiciones de momento", es decir, necesitamos conocer una función de valor vectorial g ( Y , θ ) tal que

{\ Displaystyle m (\ theta _ {0}) \ equiv \ operatorname {E} [\, g (Y_ {t}, \ theta _ {0}) \,] = 0,}

donde E denota expectativa e Y _t es una observación genérica. Además, la función m ( θ ) debe diferir de cero para θ ≠ θ ₀ , de lo contrario, el parámetro θ no se identificará como punto .

La idea básica detrás de GMM es reemplazar el valor esperado teórico E [⋅] con su análogo empírico: promedio de la muestra:

{\ Displaystyle {\ hat {m}} (\ theta) \ equiv {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta)}

y luego minimizar la norma de esta expresión con respecto a θ . El valor minimizador de θ es nuestra estimación de θ ₀ .

Por la ley de los grandes números , ${\ Displaystyle \ scriptstyle {\ hat {m}} (\ theta) \, \ approx \; \ operatorname {E} [g (Y_ {t}, \ theta)] \, = \, m (\ theta)}$ para valores grandes de T , y por lo tanto esperamos que ${\ Displaystyle \ scriptstyle {\ hat {m}} (\ theta _ {0}) \; \ approx \; m (\ theta _ {0}) \; = \; 0}$ . El método generalizado de momentos busca un número ${\ Displaystyle \ scriptstyle {\ hat {\ theta}}}$ que haría ${\ Displaystyle \ scriptstyle {\ hat {m}} (\; \! {\ hat {\ theta}} \; \!)}$ tan cerca de cero como sea posible. Matemáticamente, esto equivale a minimizar una cierta norma de ${\ Displaystyle \ scriptstyle {\ hat {m}} (\ theta)}$ (la norma de m , denotada como || m ||, mide la distancia entre my cero). Las propiedades del estimador resultante dependerán de la elección particular de la función norma, y por lo tanto la teoría de GMM considera una familia completa de normas, definidas como

{\ Displaystyle \ | {\ hat {m}} (\ theta) \ | _ {W} ^ {2} = {\ hat {m}} (\ theta) ^ {\ mathsf {T}} \, W { \ hat {m}} (\ theta),}

donde W es una matriz de ponderación definida positiva, y ${\ Displaystyle m ^ {\ mathsf {T}}}$ denota transposición . En la práctica, la matriz de ponderación W se calcula con base en el conjunto de datos disponibles, que se indicará como ${\ Displaystyle \ scriptstyle {\ hat {W}}}$ . Por tanto, el estimador GMM se puede escribir como

{\ Displaystyle {\ hat {\ theta}} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1 } ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}

En condiciones adecuadas, este estimador es consistente , asintóticamente normal y con la elección correcta de la matriz de ponderación. ${\ Displaystyle \ scriptstyle {\ hat {W}}}$ también asintóticamente eficiente .

Propiedades

Consistencia

La consistencia es una propiedad estadística de un estimador que indica que, teniendo un número suficiente de observaciones, el estimador convergerá en probabilidad al valor verdadero del parámetro:

{\ displaystyle {\ hat {\ theta}} {\ xrightarrow {p}} \ theta _ {0} \ {\ text {as}} \ T \ to \ infty.}

Las condiciones suficientes para que un estimador GMM sea consistente son las siguientes:

${\ Displaystyle {\ hat {W}} _ {T} {\ xrightarrow {p}} W,}$ donde W es una matriz semidefinida positiva ,
${\ Displaystyle \, W \ operatorname {E} [\, g (Y_ {t}, \ theta) \,] = 0}$ solo para ${\ Displaystyle \, \ theta = \ theta _ {0},}$
El espacio de posibles parámetros ${\ Displaystyle \ Theta \ subset \ mathbb {R} ^ {k}}$ es compacto ,
${\ Displaystyle \, g (Y, \ theta)}$ es continua en cada θ con probabilidad uno,
${\ Displaystyle \ operatorname {E} [\, \ textstyle \ sup _ {\ theta \ in \ Theta} \ lVert g (Y, \ theta) \ rVert \,] <\ infty.}$

La segunda condición aquí (la llamada condición de identificación global ) es a menudo particularmente difícil de verificar. Existen condiciones más simples necesarias pero no suficientes, que pueden usarse para detectar problemas de no identificación:

Condición de pedido . La dimensión de la función de momento m (θ) debe ser al menos tan grande como la dimensión del vector de parámetros θ .
Identificación local . Si g (Y, θ) es continuamente diferenciable en una vecindad de ${\ Displaystyle \ theta _ {0}}$ , luego matriz ${\ Displaystyle W \ operatorname {E} [\ nabla _ {\ theta} g (Y_ {t}, \ theta _ {0})]}$ debe tener rango de columna completo .

En la práctica, los econometristas aplicados a menudo simplemente asumen que la identificación global es válida, sin probarlo realmente. ^[3]^{: 2127}

Normalidad asintótica

La normalidad asintótica es una propiedad útil, ya que nos permite construir bandas de confianza para el estimador y realizar diferentes pruebas. Antes de poder hacer una declaración sobre la distribución asintótica del estimador GMM, necesitamos definir dos matrices auxiliares:

{\ Displaystyle G = \ operatorname {E} [\, \ nabla _ {\! \ theta} \, g (Y_ {t}, \ theta _ {0}) \,], \ qquad \ Omega = \ operatorname { E} [\, g (Y_ {t}, \ theta _ {0}) g (Y_ {t}, \ theta _ {0}) ^ {\ mathsf {T}} \,]}

Luego, en las condiciones 1 a 6 que se enumeran a continuación, el estimador GMM será asintóticamente normal con distribución limitante :

${\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal {N} } {\ big [} 0, (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega W ^ {\ mathsf {T}} G (G ^ {\ mathsf {T}} W ^ {\ mathsf {T}} G) ^ {- 1} {\ big]}.}$

Condiciones:

${\ Displaystyle {\ hat {\ theta}}}$ es consistente (ver sección anterior),
El conjunto de posibles parámetros ${\ Displaystyle \ Theta \ subset \ mathbb {R} ^ {k}}$ es compacto ,
${\ Displaystyle \, g (Y, \ theta)}$ es continuamente diferenciable en alguna vecindad N de ${\ Displaystyle \ theta _ {0}}$ con probabilidad uno,
${\ Displaystyle \ operatorname {E} [\, \ lVert g (Y_ {t}, \ theta) \ rVert ^ {2} \,] <\ infty,}$
${\ Displaystyle \ operatorname {E} [\, \ textstyle \ sup _ {\ theta \ in N} \ lVert \ nabla _ {\ theta} g (Y_ {t}, \ theta) \ rVert \,] <\ infty ,}$
la matriz ${\ displaystyle G'WG}$ no es singular.

Eficiencia

Hasta ahora no hemos dicho nada sobre la elección de la matriz W , excepto que debe ser semidefinida positiva. De hecho, cualquier matriz de este tipo producirá un estimador GMM consistente y asintóticamente normal, la única diferencia estará en la varianza asintótica de ese estimador. Se puede demostrar que tomando

{\ Displaystyle W \ propto \ \ Omega ^ {- 1}}

resultará en el estimador más eficiente en la clase de todos los estimadores asintóticamente normales. En este caso, la eficiencia significa que dicho estimador tendrá la varianza más pequeña posible (decimos que la matriz A es más pequeña que la matriz B si B – A es semidefinida positiva).

En este caso, la fórmula para la distribución asintótica del estimador GMM se simplifica a

{\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal {N} } {\ big [} 0, (G ^ {\ mathsf {T}} \, \ Omega ^ {- 1} G) ^ {- 1} {\ big]}}

La prueba de que tal elección de matriz de ponderación es realmente óptima se adopta a menudo con ligeras modificaciones al establecer la eficiencia de otros estimadores. Como regla general, una matriz de ponderación es óptima siempre que haga que la "fórmula sándwich" para la varianza se colapse en una expresión más simple.

Prueba . Consideraremos la diferencia entre la varianza asintótica con W arbitrariay la varianza asintótica con ${\ Displaystyle W = \ Omega ^ {- 1}}$ . Si podemos factorizar esta diferencia en un producto simétrico de la forma CC ' para alguna matriz C , entonces garantizará que esta diferencia no es negativa-definida, y por lo tanto ${\ Displaystyle W = \ Omega ^ {- 1}}$ será óptimo por definición.
${\ Displaystyle \, V (W) -V (\ Omega ^ {- 1})}$	${\ Displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega WG (G ^ {\ mathsf {T}} WG) ^ { -1} - (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1}}$
	${\ Displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} {\ Big (} G ^ {\ mathsf {T}} W \ Omega WG-G ^ {\ mathsf {T} } WG (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} WG {\ Big)} (G ^ {\ mathsf {T} } WG) ^ {- 1}}$
	${\ Displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega ^ {1/2} {\ Big (} I- \ Omega ^ {- 1/2} G (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} \ Omega ^ {- 1/2} {\ Big)} \ Omega ^ {1/2} WG (G ^ {\ mathsf {T}} WG) ^ {- 1}}$
	${\ Displaystyle \, = A (IB) A ^ {\ mathsf {T}},}$
donde introdujimos las matrices A y B para simplificar ligeramente la notación; Yo es una matriz de identidad . Podemos ver que la matriz B aquí es simétrica e idempotente : ${\ Displaystyle B ^ {2} = B}$ . Esto significa que I − B es simétrico e idempotente también: ${\ Displaystyle IB = (IB) (IB) ^ {\ mathsf {T}}}$ . Por lo tanto, podemos continuar factorizando la expresión anterior como
	${\ Displaystyle \, = A (IB) (IB) ^ {\ mathsf {T}} A ^ {\ mathsf {T}} = {\ Big (} A (IB) {\ Big)} {\ Big (} A (IB) {\ Big)} ^ {\ mathsf {T}} \ geq 0}$

Implementación

Una dificultad con la implementación del método descrito es que no podemos tomar W = Ω ⁻¹ porque, según la definición de la matriz Ω, necesitamos conocer el valor de θ ₀ para calcular esta matriz, y θ ₀ es precisamente la cantidad que no lo sé y están tratando de estimar en primer lugar. En el caso de que Y _t sea iid, podemos estimar W como

{\ Displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta}}) = {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ { T} g (Y_ {t}, {\ hat {\ theta}}) g (Y_ {t}, {\ hat {\ theta}}) ^ {\ mathsf {T}} {\ bigg)} ^ {- 1}.}

Existen varios enfoques para abordar este problema, siendo el primero el más popular:

MMG factible de dos pasos :
- Paso 1 : tome W = I (la matriz de identidad ) o alguna otra matriz definida positiva, y calcule la estimación GMM preliminar ${\ Displaystyle \ scriptstyle {\ hat {\ theta}} _ {(1)}}$ . Este estimador es consistente para θ ₀ , aunque no es eficiente.
- Paso 2 : ${\ Displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta}} _ {(1)})}$ converge en probabilidad a Ω ⁻¹ y, por lo tanto, si calculamos ${\ Displaystyle \ scriptstyle {\ hat {\ theta}}}$ con esta matriz de ponderación, el estimador será asintóticamente eficiente .
GMM iterado . Esencialmente el mismo procedimiento que GMM de 2 pasos, excepto que la matriz ${\ Displaystyle {\ hat {W}} _ {T}}$ se recalcula varias veces. Es decir, la estimación obtenida en el paso 2 se utiliza para calcular la matriz de ponderación para el paso 3, y así sucesivamente hasta que se cumpla algún criterio de convergencia.
${\ Displaystyle {\ hat {\ theta}} _ {(i + 1)} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T} } \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} ({\ sombrero {\ theta}} _ {(i)}) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$
Asintóticamente, no se puede lograr ninguna mejora a través de tales iteraciones, aunque ciertos experimentos de Monte-Carlo sugieren que las propiedades de muestra finita de este estimador son ligeramente mejores. ^{[ cita requerida ]}
Actualización continua de GMM (CUGMM o CUE). Estimados ${\ Displaystyle \ scriptstyle {\ hat {\ theta}}}$ simultáneamente con la estimación de la matriz de ponderación W :
${\ Displaystyle {\ hat {\ theta}} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1 } ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} (\ theta) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$
En los experimentos de Monte-Carlo, este método demostró un mejor rendimiento que el MMG tradicional de dos pasos: el estimador tiene un sesgo medio más pequeño (aunque colas más gruesas), y la prueba J para las restricciones de identificación excesiva en muchos casos fue más confiable. ^[4]

Otro tema importante en la implementación del procedimiento de minimización es que se supone que la función debe buscar a través del espacio de parámetros (posiblemente de alta dimensión) Θ y encontrar el valor de θ que minimiza la función objetivo. No existe ninguna recomendación genérica para tal procedimiento, es un tema de su propio campo, la optimización numérica .

Sargan-Hansen J -test

Cuando el número de condiciones de momento es mayor que la dimensión del vector de parámetros θ , se dice que el modelo está sobreidentificado . Sargan (1958) propuso pruebas para las restricciones de sobreidentificación basadas en estimadores de variables instrumentales que se distribuyen en muestras grandes como variables Chi-cuadrado con grados de libertad que dependen del número de restricciones de sobreidentificación. Posteriormente, Hansen (1982) aplicó esta prueba a la formulación matemáticamente equivalente de estimadores GMM. Sin embargo, tenga en cuenta que tales estadísticas pueden ser negativas en aplicaciones empíricas en las que los modelos están mal especificados, y las pruebas de razón de verosimilitud pueden proporcionar información, ya que los modelos se estiman bajo hipótesis nulas y alternativas (Bhargava y Sargan, 1983).

Conceptualmente podemos comprobar si ${\ Displaystyle {\ hat {m}} ({\ hat {\ theta}})}$ está lo suficientemente cerca de cero para sugerir que el modelo se ajusta bien a los datos. El método GMM ha reemplazado el problema de resolver la ecuación ${\ Displaystyle {\ hat {m}} (\ theta) = 0}$ , que elige ${\ Displaystyle \ theta}$ para hacer coincidir las restricciones exactamente, mediante un cálculo de minimización. La minimización siempre se puede realizar incluso cuando no ${\ Displaystyle \ theta _ {0}}$ existe tal que ${\ Displaystyle m (\ theta _ {0}) = 0}$ . Esto es lo que hace J-test. La prueba J también se denomina prueba de restricciones de sobreidentificación .

Formalmente consideramos dos hipótesis :

${\ Displaystyle H_ {0}: \ m (\ theta _ {0}) = 0}$ (la hipótesis nula de que el modelo es "válido"), y
${\ Displaystyle H_ {1}: \ m (\ theta) \ neq 0, \ \ forall \ theta \ in \ Theta}$ (la hipótesis alternativa de que el modelo es "inválido"; los datos no se acercan a cumplir las restricciones)

Bajo hipótesis ${\ Displaystyle H_ {0}}$ , el siguiente estadístico llamado J es asintóticamente chi-cuadrado distribuido con k – l grados de libertad. Defina J como:

{\ Displaystyle J \ equiv T \ cdot {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta} }) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta}}) {\ bigg)} \ {\ xrightarrow {d}} \ \ chi _ {k- \ ell} ^ {2}}

debajo

{\ Displaystyle H_ {0},}

dónde ${\ Displaystyle {\ hat {\ theta}}}$ es el estimador GMM del parámetro ${\ Displaystyle \ theta _ {0}}$ , k es el número de condiciones de momento (dimensión del vector g ), y l es el número de parámetros estimados (dimensión del vector θ ). Matriz ${\ Displaystyle {\ hat {W}} _ {T}}$ debe converger en probabilidad para ${\ Displaystyle \ Omega ^ {- 1}}$ , la matriz de ponderación eficiente (tenga en cuenta que anteriormente solo requeríamos que W fuera proporcional a ${\ Displaystyle \ Omega ^ {- 1}}$ para que el estimador sea eficiente; sin embargo, para realizar la prueba J, W debe ser exactamente igual a ${\ Displaystyle \ Omega ^ {- 1}}$ , no simplemente proporcional).

Bajo la hipótesis alternativa ${\ Displaystyle H_ {1}}$ , el estadístico J es asintóticamente ilimitado:

{\ Displaystyle J \ {\ xrightarrow {p}} \ \ infty}

debajo

{\ Displaystyle H_ {1}}

Para realizar la prueba, calculamos el valor de J a partir de los datos. Es un número no negativo. Lo comparamos con (por ejemplo) el cuantil 0,95 del ${\ Displaystyle \ chi _ {k- \ ell} ^ {2}}$ distribución:

${\ Displaystyle H_ {0}}$ se rechaza con un nivel de confianza del 95% si ${\ Displaystyle J> q_ {0,95} ^ {\ chi _ {k- \ ell} ^ {2}}}$
${\ Displaystyle H_ {0}}$ no se puede rechazar con un nivel de confianza del 95% si ${\ Displaystyle J$

Alcance

Muchas otras técnicas de estimación populares se pueden utilizar en términos de optimización de GMM:

Mínimos cuadrados ordinarios (OLS) es equivalente a GMM con condiciones de momento:
${\ Displaystyle \ operatorname {E} [\, x_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) \,] = 0}$
Mínimos cuadrados ponderados (WLS)
${\ Displaystyle \ operatorname {E} [\, x_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) / \ sigma ^ {2} (x_ {t}) \ ,] = 0}$
Regresión de variables instrumentales (IV)
${\ Displaystyle \ operatorname {E} [\, z_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) \,] = 0}$
Mínimos cuadrados no lineales (NLLS):
${\ Displaystyle \ operatorname {E} [\, \ nabla _ {\! \ beta} \, g (x_ {t}, \ beta) \ cdot (y_ {t} -g (x_ {t}, \ beta) ) \,] = 0}$
Estimación de máxima verosimilitud (MLE):
${\ Displaystyle \ operatorname {E} [\, \ nabla _ {\! \ theta} \ ln f (x_ {t}, \ theta) \,] = 0}$

Implementaciones

Wikilibro de programación R, Método de los momentos
R
Stata
EViews
SAS
Gretl

Ver también

Método de máxima verosimilitud
Probabilidad empírica generalizada
Estimador Arellano-Bond

Referencias

^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 206. ISBN 0-691-01018-8.
^ Hansen, Lars Peter (1982). "Propiedades de la muestra grande del método generalizado de estimadores de momentos". Econometrica . 50 (4): 1029–1054. doi : 10.2307 / 1912775 . JSTOR 1912775 .
^ Newey, W .; McFadden, D. (1994). "Estimación de muestras grandes y pruebas de hipótesis". Manual de Econometría . 4 . Ciencia de Elsevier. págs. 2111–2245. CiteSeerX 10.1.1.724.4480 . doi : 10.1016 / S1573-4412 (05) 80005-4 . ISBN 9780444887665.
^ Hansen, Lars Peter; Heaton, John; Yaron, Amir (1996). "Propiedades de muestra finita de algunos estimadores alternativos de GMM" (PDF) . Revista de Estadísticas Económicas y Empresariales . 14 (3): 262–280. doi : 10.1080 / 07350015.1996.10524656 . hdl : 1721,1 / 47970 . JSTOR 1392442 .

Otras lecturas

Huber, P. (1967). El comportamiento de las estimaciones de máxima verosimilitud en condiciones no estándar. Actas del Quinto Simposio de Berkeley sobre Estadística Matemática y Probabilidad 1, 221-233.

Newey W., McFadden D. (1994). Prueba de hipótesis y estimación de muestras grandes , en Handbook of Econometrics, Capítulo 36. Ciencia de Elsevier.

Imbens, Guido W .; Spady, Richard H .; Johnson, Phillip (1998). "Enfoques teóricos de la información para la inferencia en modelos de condiciones de momento" (PDF) . Econometrica . 66 (2): 333–357. doi : 10.2307 / 2998561 . JSTOR 2998561 .

Sargan, JD (1958). La estimación de relaciones económicas mediante variables instrumentales. Econometrica, 26, 393-415.

Sargan, JD (1959). La estimación de relaciones con residuos autocorrelacionados mediante el uso de variables instrumentales. Revista de la Royal Statistical Society B, 21, 91-105.

Wang, CY, Wang, S. y Carroll, R. (1997). Estimación en muestreo basado en elecciones con error de medición y análisis bootstrap. Revista de Econometría, 77, 65-86.

Bhargava, A. y Sargan, JD (1983). Estimación de efectos aleatorios dinámicos a partir de datos de panel que cubren períodos de tiempo cortos. Econometrica, 51, 6, 1635-1659.

Hayashi, Fumio (2000). Econometría . Princeton: Prensa de la Universidad de Princeton. ISBN 0-691-01018-8.
Hansen, Lars Peter (2002). "Método de los momentos". En Smelser, Nueva Jersey ; Bates, PB (eds.). Enciclopedia Internacional de Ciencias Sociales y del Comportamiento . Oxford: Pérgamo.
Hall, Alastair R. (2005). Método generalizado de momentos . Textos avanzados en econometría. Prensa de la Universidad de Oxford. ISBN 0-19-877520-2.
Faciane, Kirby Adam Jr. (2006). Estadísticas para finanzas empíricas y cuantitativas . Estadísticas para finanzas empíricas y cuantitativas. HC Baird. ISBN 0-9788208-9-4.
Números especiales de Journal of Business and Economic Statistics: vol. 14, no. 3 y vol. 20, no. 4 .

Breve introducción al método generalizado de los momentos

[1] Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 206. ISBN 0-691-01018-8.

[2] Hansen, Lars Peter (1982). "Propiedades de la muestra grande del método generalizado de estimadores de momentos". Econometrica . 50 (4): 1029–1054. doi : 10.2307 / 1912775 . JSTOR 1912775 .

[3] Newey, W .; McFadden, D. (1994). "Estimación de muestras grandes y pruebas de hipótesis". Manual de Econometría . 4 . Ciencia de Elsevier. págs. 2111–2245. CiteSeerX 10.1.1.724.4480 . doi : 10.1016 / S1573-4412 (05) 80005-4 . ISBN 9780444887665.

[4] Hansen, Lars Peter; Heaton, John; Yaron, Amir (1996). "Propiedades de muestra finita de algunos estimadores alternativos de GMM" (PDF) . Revista de Estadísticas Económicas y Empresariales . 14 (3): 262–280. doi : 10.1080 / 07350015.1996.10524656 . hdl : 1721,1 / 47970 . JSTOR 1392442 .

[1]