Especificación del modelo estadístico

En estadística , la especificación del modelo es parte del proceso de construcción de un modelo estadístico : la especificación consiste en seleccionar una forma funcional apropiada para el modelo y elegir qué variables incluir. Por ejemplo, dados los ingresos personales ${\ Displaystyle y}$ junto con años de escolarización ${\ Displaystyle s}$ y experiencia en el trabajo ${\ Displaystyle x}$ , podríamos especificar una relación funcional ${\ Displaystyle y = f (s, x)}$ como sigue: ^[1]

{\ Displaystyle \ ln y = \ ln y_ {0} + \ rho s + \ beta _ {1} x + \ beta _ {2} x ^ {2} + \ varepsilon}

dónde ${\ Displaystyle \ varepsilon}$ es el término de error inexplicable que se supone que comprende variables gaussianas independientes e idénticamente distribuidas .

El estadístico Sir David Cox ha dicho: "La forma en que se hace [la] traducción del problema del tema al modelo estadístico es a menudo la parte más crítica de un análisis". ^[2]

Error y sesgo de especificación

El error de especificación ocurre cuando la forma funcional o la elección de variables independientes representan pobremente aspectos relevantes del verdadero proceso de generación de datos. En particular, el sesgo (el valor esperado de la diferencia de un parámetro estimado y el verdadero valor subyacente) ocurre si una variable independiente está correlacionada con los errores inherentes al proceso subyacente. Hay varias causas posibles de error de especificación; algunos se enumeran a continuación.

Podría emplearse una forma funcional inapropiada.
Una variable omitida del modelo puede tener una relación tanto con la variable dependiente como con una o más de las variables independientes (lo que provoca un sesgo de variable omitida ). ^[3]
Se puede incluir una variable irrelevante en el modelo (aunque esto no crea sesgo, implica un ajuste excesivo y, por lo tanto, puede conducir a un rendimiento predictivo deficiente).
La variable dependiente puede ser parte de un sistema de ecuaciones simultáneas (dando sesgo de simultaneidad).

Además, los errores de medición pueden afectar las variables independientes: si bien esto no es un error de especificación, puede crear un sesgo estadístico.

Tenga en cuenta que todos los modelos tendrán algún error de especificación. De hecho, en estadística existe un aforismo común de que " todos los modelos están equivocados ". En palabras de Burnham & Anderson, "El modelado es un arte además de una ciencia y está dirigido a encontrar un buen modelo de aproximación ... como base para la inferencia estadística". ^[4]

Detección de errores de especificación

La prueba RESET de Ramsey puede ayudar a probar el error de especificación en el análisis de regresión .

En el ejemplo anterior que relaciona el ingreso personal con la escolaridad y la experiencia laboral, si los supuestos del modelo son correctos, entonces las estimaciones de mínimos cuadrados de los parámetros ${\ Displaystyle \ rho}$ y ${\ Displaystyle \ beta}$ será eficiente e imparcial . Por lo tanto, los diagnósticos de especificación generalmente implican probar el primer al cuarto momento de los residuales . ^[5]

Construcción del modelo

La construcción de un modelo implica encontrar un conjunto de relaciones para representar el proceso que genera los datos. Esto requiere evitar todas las fuentes de especificación errónea mencionadas anteriormente.

Un enfoque es comenzar con un modelo en forma general que se base en una comprensión teórica del proceso de generación de datos. Luego, el modelo se puede ajustar a los datos y verificar las diversas fuentes de especificación incorrecta, en una tarea llamada validación del modelo estadístico . La comprensión teórica puede entonces guiar la modificación del modelo de tal manera que se mantenga la validez teórica al tiempo que se eliminan las fuentes de especificación errónea. Pero si resulta imposible encontrar una especificación teóricamente aceptable que se ajuste a los datos, es posible que el modelo teórico deba ser rechazado y reemplazado por otro.

Una cita de Karl Popper es apropiada aquí: "Siempre que una teoría le aparezca como la única posible, tómelo como una señal de que no ha entendido la teoría ni el problema que se pretendía resolver". ^[6]

Otro enfoque para la construcción de modelos es especificar varios modelos diferentes como candidatos y luego comparar esos modelos candidatos entre sí. El propósito de la comparación es determinar qué modelo candidato es el más apropiado para la inferencia estadística. Los criterios comunes para comparar modelos incluyen los siguientes: R ² , factor de Bayes y la prueba de razón de verosimilitud junto con su probabilidad relativa de generalización . Para obtener más información sobre este tema, consulte la selección de modelos estadísticos .

Ver también

Notas

^ Este ejemplo en particular se conoce como función de ganancias de Mincer .
^ Cox, DR (2006), Principios de inferencia estadística , Cambridge University Press , p. 197.
^ " Métodos cuantitativos II: Econometría ", Colegio de William & Mary .
^ Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2a ed.), Springer-Verlag , §1.1.
^ Long, J. Scott ; Trivedi, Pravin K. (1993). "Algunas pruebas de especificación para el modelo de regresión lineal". En Bollen, Kenneth A .; Long, J. Scott (eds.). Prueba de modelos de ecuaciones estructurales . Editorial SAGE . págs. 66-110.
^ Popper, Karl (1972), Conocimiento objetivo: un enfoque evolutivo , Oxford University Press.

Otras lecturas

Akaike, Hirotugu (1994), "Implications of informational point of view on the development of Statistical science", en Bozdogan, H. (ed.), Proceedings of the First US / JAPAN Conference on The Frontiers of Statistical Modelling: An Informational Approach —Volumen 3 , Kluwer Academic Publishers , págs. 27–38.
Asteriou, Dimitrios; Hall, Stephen G. (2011). "Especificación incorrecta: regresores incorrectos, errores de medición y formas funcionales incorrectas". Econometría aplicada (Segunda ed.). Palgrave Macmillan . págs. 172-197.
Colegrave, N .; Ruxton, GD (2017). "Potencia y especificación del modelo estadístico: recomendaciones sobre el uso de agrupación calificada por prueba en el análisis de datos experimentales" . Proceedings of the Royal Society B . 284 (1851): 20161850. doi : 10.1098 / rspb.2016.1850 . PMC 5378071 . PMID 28330912 .
Gujarati, Damodar N .; Porter, Dawn C. (2009). "Modelización econométrica: especificación de modelos y pruebas de diagnóstico". Econometría básica (Quinta ed.). McGraw-Hill / Irwin . págs. 467–522. ISBN 978-0-07-337577-9.
Harrell, Frank (2001), Estrategias de modelado de regresión , Springer.
Kmenta, Jan (1986). Elementos de Econometría (Segunda ed.). Nueva York: Macmillan Publishers. págs. 442–455 . ISBN 0-02-365070-2.
Lehmann, EL (1990). "Especificación del modelo: las opiniones de Fisher y Neyman, y desarrollos posteriores" . Ciencia estadística . 5 (2): 160–168. doi : 10.1214 / ss / 1177012164 .
MacKinnon, James G. (1992). "Pruebas de especificación de modelos y regresiones artificiales". Revista de Literatura Económica . 30 (1): 102-146. JSTOR 2727880 .
Maddala, GS ; Lahiri, Kajal (2009). "Comprobación de diagnóstico, selección de modelos y pruebas de especificación". Introducción a la econometría (Cuarta ed.). Wiley . págs. 401–449. ISBN 978-0-470-01512-4.
Sapra, Sunil (2005). "Una prueba de especificación de error de regresión (RESET) para modelos lineales generalizados" (PDF) . Boletín de Economía . 3 (1): 1–6.

[1] Este ejemplo en particular se conoce como función de ganancias de Mincer .

[2] Cox, DR (2006), Principios de inferencia estadística , Cambridge University Press , p. 197.

[3] " Métodos cuantitativos II: Econometría ", Colegio de William & Mary .

[4] Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2a ed.), Springer-Verlag , §1.1.

[5] Long, J. Scott ; Trivedi, Pravin K. (1993). "Algunas pruebas de especificación para el modelo de regresión lineal". En Bollen, Kenneth A .; Long, J. Scott (eds.). Prueba de modelos de ecuaciones estructurales . Editorial SAGE . págs. 66-110.

[6] Popper, Karl (1972), Conocimiento objetivo: un enfoque evolutivo , Oxford University Press.

[1]