En estadística , los modelos de errores en las variables o los modelos de errores de medición [1] [2] [3] son modelos de regresión que tienen en cuenta los errores de medición en las variables independientes . Por el contrario, los modelos de regresión estándar asumen que esos regresores se han medido con exactitud o se han observado sin error; como tal, esos modelos solo tienen en cuenta los errores en las variables dependientes o respuestas. [ cita requerida ]
En el caso de que algunos regresores se hayan medido con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores reales incluso en muestras muy grandes. Para la regresión lineal simple, el efecto es una subestimación del coeficiente, conocido como sesgo de atenuación . En modelos no lineales, es probable que la dirección del sesgo sea más complicada. [4] [5]
Ejemplo motivador
Considere un modelo de regresión lineal simple de la forma
dónde denota el regresor verdadero pero no observado . En cambio, observamos este valor con un error:
donde el error de medición se supone que es independiente del valor real .
Si el Simplemente se retroceden en el ′ S (ver regresión lineal simple ), entonces el estimador del coeficiente de pendiente es
que converge a medida que el tamaño de la muestra aumenta sin límite:
Las varianzas no son negativas, por lo que en el límite la estimación es menor en magnitud que el valor real de , un efecto que los estadísticos llaman atenuación o dilución de regresión . [6] Por lo tanto, el estimador de mínimos cuadrados "ingenuo" es inconsistente en este contexto. Sin embargo, el estimador es un estimador consistente del parámetro requerido para un mejor predictor lineal de dado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión 'verdadero', aunque eso supondría que la varianza de los errores al observar permanece fijo. Esto se deriva directamente del resultado citado inmediatamente arriba, y del hecho de que el coeficiente de regresión que relaciona la′ S al realmente observado ′ S, en una regresión lineal simple, está dado por
Es este coeficiente, en lugar de , eso sería necesario para construir un predictor de basado en un observado que está sujeto a ruido.
Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de diferente naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariante la dirección del sesgo es ambigua [7] ). Jerry Hausman ve esto como una ley férrea de la econometría : "La magnitud de la estimación suele ser menor de lo esperado". [8]
Especificación
Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable de respuesta y son valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional "verdadera" del modelo , y tal que las cantidades observadas sean sus ruidosas observaciones:
dónde es el parámetro del modelo yson aquellos regresores que se supone que están libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores libres de errores pueden o no ser tratados por separado; en el último caso, simplemente se asume que las entradas correspondientes en la matriz de varianza deson cero.
Las variables , , son todos observados , lo que significa que el estadístico posee un conjunto de datos de unidades estadísticas que siguen el proceso de generación de datos descrito anteriormente; las variables latentes, , , y sin embargo, no se observan.
Esta especificación no abarca todos los modelos de errores en variables existentes. Por ejemplo en algunos de ellos funcionanpuede ser no paramétrico o semiparamétrico. Otros enfoques modelan la relación entre y como distributivo en lugar de funcional, es decir, asumen que condicionalmente en sigue una cierta distribución (generalmente paramétrica).
Terminología y supuestos
- La variable observada puede denominarse manifiesto , indicador o variable proxy .
- La variable no observada puede llamarse la variable latente o verdadera . Puede considerarse como una constante desconocida (en cuyo caso el modelo se denomina modelo funcional ) o como una variable aleatoria (correspondientemente un modelo estructural ). [9]
- La relación entre el error de medición y la variable latente se puede modelar de diferentes formas:
- Errores clásicos :los errores son independientes de la variable latente. Esta es la suposición más común, implica que los errores son introducidos por el dispositivo de medición y su magnitud no depende del valor que se esté midiendo.
- Independencia media :los errores tienen una media de cero para cada valor del regresor latente. Este es un supuesto menos restrictivo que el clásico, [10] ya que permite la presencia de heterocedasticidad u otros efectos en los errores de medición.
- Errores de Berkson :los errores son independientes del regresor x observado . Esta suposición tiene una aplicabilidad muy limitada. Un ejemplo son los errores de redondeo: por ejemplo, si la edad * de una persona es una variable aleatoria continua , mientras que la edad observada se trunca al siguiente entero más pequeño, entonces el error de truncamiento es aproximadamente independiente de la edad observada . Otra posibilidad es con el experimento de diseño fijo: por ejemplo, si un científico decide realizar una medición en un determinado momento predeterminado., di en , entonces la medición real puede ocurrir en algún otro valor de (por ejemplo, debido a su tiempo de reacción finito) y dicho error de medición será generalmente independiente del valor "observado" del regresor.
- Errores de clasificación errónea : caso especial utilizado para los regresores ficticios . Sies un indicador de un determinado evento o condición (como la persona es hombre / mujer, algún tratamiento médico dado / no, etc.), entonces el error de medición en dicho regresor corresponderá a la clasificación incorrecta similar a los errores tipo I y tipo II en pruebas estadísticas. En este caso el error puede tomar solo 3 valores posibles, y su distribución está condicionada a se modela con dos parámetros: , y . La condición necesaria para la identificación es que, esa clasificación errónea no debería ocurrir "con demasiada frecuencia". (Esta idea se puede generalizar a variables discretas con más de dos valores posibles).
Modelo lineal
Los modelos de errores lineales en variables se estudiaron primero, probablemente porque los modelos lineales se usaban mucho y son más fáciles que los no lineales. A diferencia de la regresión por mínimos cuadrados estándar (MCO), extender los errores en la regresión de variables (EiV) del caso simple al multivariable no es sencillo.
Modelo lineal simple
El modelo simple de errores lineales en variables ya se presentó en la sección "motivación":
donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η —desviaciones estándar de los términos de error— son los parámetros molestos . El regresor "verdadero" x * se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).
Este modelo es identificable en dos casos: (1) o el regresor latente x * no está distribuido normalmente , (2) o x * tiene distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. [11] Es decir, los parámetros α , β se pueden estimar consistentemente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.
Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud asumiendo que todas las variables son normales y luego concluyeron que el modelo no está identificado. El remedio sugerido fue asumir que algunos de los parámetros del modelo son conocidos o pueden estimarse a partir de una fuente externa. Estos métodos de estimación incluyen [12]
- Regresión de Deming : se supone que se conoce la relación δ = σ² ε / σ² η . Esto podría ser apropiado, por ejemplo cuando los errores en y y x son causados por las mediciones, y se conocen la precisión de los dispositivos o procedimientos de medición. El caso en el que δ = 1 también se conoce como regresión ortogonal .
- Regresión con razón de confiabilidad conocida λ = σ² ∗ / ( σ² η + σ² ∗ ), donde σ² ∗ es la varianza del regresor latente. Este enfoque puede ser aplicable, por ejemplo, cuando se dispone de mediciones repetidas de la misma unidad o cuando se conoce el índice de fiabilidad a partir del estudio independiente. En este caso, la estimación constante de la pendiente es igual a la estimación de mínimos cuadrados dividida por λ .
- La regresión con σ² η conocido puede ocurrir cuando se conoce la fuente de los errores en x y se puede calcular su varianza. Esto podría incluir errores de redondeo o errores introducidos por el dispositivo de medición. Cuando se conoce σ² η podemos calcular la relación de confiabilidad como λ = ( σ² x - σ² η ) / σ² x y reducir el problema al caso anterior.
Los métodos de estimación más nuevos que no asumen el conocimiento de algunos de los parámetros del modelo, incluyen
- Método de momentos: el estimador GMM basado en acumuladores conjuntos de tercer (o superior) orden de variables observables. El coeficiente de pendiente se puede estimar a partir de [13]
donde ( n 1 , n 2 ) son tales que K ( n 1 +1, n 2 ) - el conjunto acumulativo de ( x , y ) - no es cero. En el caso de que el tercer momento central del regresor latente x * sea distinto de cero, la fórmula se reduce a
- Variables instrumentales : una regresión que requiere que estén disponibles ciertas variables de datos adicionales z , llamadas instrumentos . Estas variables no deben estar correlacionadas con los errores en la ecuación para la variable dependiente (resultado) ( válida ), y también deben estar correlacionadas ( relevantes ) con los regresores verdaderos x * . Si se pueden encontrar tales variables, entonces el estimador toma la forma
Modelo lineal multivariable
El modelo multivariable se ve exactamente como el modelo lineal simple, solo que esta vez β , η t , x t y x * t son k × 1 vectores.
En el caso de que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y solo si hay una matriz de bloques k × k no singular [ a A ], donde a es un vector k × 1 tal que a′x * se distribuye normalmente e independientemente de A′x * . En el caso de que ε t , η t1 , ..., η tk sean mutuamente independientes, el parámetro β no se identifica si y solo si, además de las condiciones anteriores, algunos de los errores se pueden escribir como la suma de dos variables independientes uno de los cuales es normal. [14]
Algunos de los métodos de estimación para modelos lineales multivariables son
- Los mínimos cuadrados totales son una extensión de la regresión de Deming al entorno multivariable. Cuando todos los componentes k +1 del vector ( ε , η ) tienen varianzas iguales y son independientes, esto equivale a ejecutar la regresión ortogonal de y en el vector x , es decir, la regresión que minimiza la suma de las distancias al cuadrado entre puntos ( y t , x t ) y el hiperplano k -dimensional de "mejor ajuste".
- El estimador del método de momentos [15] se puede construir con base en las condiciones de momento E [ z t · ( y t - α - β'x t )] = 0, donde el vector (5 k +3) -dimensional de los instrumentos z t se define como
dónde designa el producto de matrices de Hadamard , y las variables x t , y t se han reducido de manera preliminar. Los autores del método sugieren utilizar el estimador IV modificado de Fuller. [dieciséis]
Este método puede ampliarse para utilizar momentos superiores al tercer orden, si es necesario, y para acomodar variables medidas sin error. [17] - El enfoque de variables instrumentales requiere encontrar variables de datos adicionales z t que servirían como instrumentos para los regresores x t mal medidos . Este método es el más simple desde el punto de vista de la implementación, sin embargo, su desventaja es que requiere recolectar datos adicionales, lo que puede ser costoso o incluso imposible. Cuando se pueden encontrar los instrumentos, el estimador toma forma estándar
Modelos no lineales
Se forma un modelo genérico de error de medición no lineal
Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica, se escribirá como g (x *, β) .
Para un regresor general con valores vectoriales x *, se desconocen las condiciones para la identificabilidad del modelo . Sin embargo, en el caso del escalar x *, el modelo se identifica a menos que la función g sea de la forma "log-exponencial" [18]
y el regresor latente x * tiene densidad
donde las constantes A, B, C, D, E, F pueden depender de a, b, c, d .
A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos de errores en variables no lineales sin información ajena. Sin embargo, hay varias técnicas que hacen uso de algunos datos adicionales: las variables instrumentales o las observaciones repetidas.
Métodos de variables instrumentales
- El método de momentos simulados de Newey [19] para modelos paramétricos - requiere que haya un conjunto adicional de variables predictoras observadas z t , de modo que el regresor verdadero se pueda expresar como
donde π 0 y σ 0 son matrices constantes (desconocidas), y ζ t ⊥ z t . El coeficiente π 0 se puede estimar utilizando la regresión estándar de mínimos cuadrados de x sobre z . La distribución de ζ t es desconocida, sin embargo, podemos modelarla como perteneciente a una familia paramétrica flexible: la serie de Edgeworth :
donde ϕ es la distribución normal estándar .
Los momentos simulados se pueden calcular utilizando el algoritmo de muestreo de importancia : primero generamos varias variables aleatorias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir de la distribución normal estándar, luego calculamos los momentos en t -ésima observación como
donde θ = ( β , σ , γ ), A es solo una función de las variables instrumentales z , y H es un vector de momentos de dos componentes
Observaciones repetidas
En este enfoque se encuentran disponibles dos (o quizás más) observaciones repetidas del regresor x * . Ambas observaciones contienen sus propios errores de medición, sin embargo, se requiere que esos errores sean independientes:
donde x * ⊥ η 1 ⊥ η 2 . Las variables η 1 , η 2 no necesitan estar distribuidas de manera idéntica (aunque si son, la eficiencia del estimador puede mejorarse ligeramente). Con solo estas dos observaciones es posible estimar consistentemente la función de densidad de x * usando la técnica de deconvolución de Kotlarski . [20]
- Método de densidad condicional de Li para modelos paramétricos. [21] La ecuación de regresión se puede escribir en términos de las variables observables como
donde sería posible calcular la integral si conociéramos la función de densidad condicional ƒ x * | x . Si esta función pudiera conocerse o estimarse, entonces el problema se convierte en una regresión no lineal estándar, que puede estimarse, por ejemplo, utilizando el método NLLS .
Suponiendo, por simplicidad, que η 1 , η 2 se distribuyen de forma idéntica, esta densidad condicional se puede calcular comodonde con un ligero abuso de la notación x j denota el j -ésimo componente de un vector.
Todas las densidades de esta fórmula se pueden estimar mediante la inversión de las funciones características empíricas . En particular,Para invertir esta función característica, se debe aplicar la transformada de Fourier inversa, con un parámetro de recorte C necesario para asegurar la estabilidad numérica. Por ejemplo:
- Estimador de Schennach para un modelo paramétrico lineal en parámetros no lineal en variables. [22] Este es un modelo del formulario
donde w t representa variables medidas sin errores. El regresor x * aquí es escalar (el método también se puede extender al caso del vector x * ).
Si no fuera por los errores de medición, este habría sido un modelo lineal estándar con el estimadordónde
Resulta que todos los valores esperados en esta fórmula son estimables usando el mismo truco de deconvolución. En particular, para un observable genérico w t (que podría ser 1, w 1 t ,…, w ℓ t , o y t ) y alguna función h (que podría representar cualquier g j o g i g j ) tenemos
donde φ h es la transformada de Fourier de h ( x * ), pero usando la misma convención que para las funciones características ,
- ,
y
- Estimador de Schennach para un modelo no paramétrico. [23] El estimador estándar de Nadaraya-Watson para un modelo no paramétrico toma forma
Referencias
- ^ Carroll, Raymond J .; Ruppert, David; Stefanski, Leonard A .; Crainiceanu, Ciprian (2006). Error de medición en modelos no lineales: una perspectiva moderna (segunda ed.). ISBN 978-1-58488-633-4.
- ^ Schennach, Susanne (2016). "Avances recientes en la literatura de errores de medición" . Revisión anual de economía . 8 (1): 341–377. doi : 10.1146 / annurev-economics-080315-015058 .
- ^ Koul, Hira; Canción, Weixing (2008). "Comprobación del modelo de regresión con errores de medición de Berkson". Revista de Planificación e Inferencia Estadística . 138 (6): 1615-1628. doi : 10.1016 / j.jspi.2007.05.048 .
- ^ Griliches, Zvi; Ringstad, Vidar (1970). "Sesgo de errores en las variables en contextos no lineales". Econometrica . 38 (2): 368–370. doi : 10.2307 / 1913020 . JSTOR 1913020 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- ^ Chesher, Andrew (1991). "El efecto del error de medición". Biometrika . 78 (3): 451–462. doi : 10.1093 / biomet / 78.3.451 . JSTOR 2337015 .
- ^ Greene, William H. (2003). Análisis econométrico (5ª ed.). Nueva Jersey: Prentice Hall. Capítulo 5.6.1. ISBN 978-0-13-066189-0.
- ^ Wansbeek, T .; Meijer, E. (2000). "Error de medida y variables latentes" . En Baltagi, BH (ed.). Un compañero de la econometría teórica . Blackwell. págs. 162-179. doi : 10.1111 / b.9781405106764.2003.00013.x . ISBN 9781405106764.
- ^ Hausman, Jerry A. (2001). "Variables mal medidas en el análisis econométrico: problemas de la derecha y problemas de la izquierda" . Revista de perspectivas económicas . 15 (4): 57–67 [pág. 58]. doi : 10.1257 / jep.15.4.57 . JSTOR 2696516 .
- ^ Fuller, Wayne A. (1987). Modelos de error de medición . John Wiley e hijos. pag. 2. ISBN 978-0-471-86187-4.
- ^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. págs. 7-8. ISBN 978-1400823833.
- ^ Reiersøl, Olav (1950). "Identificabilidad de una relación lineal entre variables sujetas a error". Econometrica . 18 (4): 375–389 [pág. 383]. doi : 10.2307 / 1907835 . JSTOR 1907835 . Un resultado algo más restrictivo fue establecido anteriormente por Geary, RC (1942). "Relaciones inherentes entre variables aleatorias". Actas de la Real Academia Irlandesa . 47 : 63–76. JSTOR 20488436 .Mostró que bajo el supuesto adicional de que ( ε, η ) son conjuntamente normales, el modelo no se identifica si y solo si x * s son normales.
- ^ Fuller, Wayne A. (1987). "Una sola variable explicativa" . Modelos de error de medición . John Wiley e hijos. págs. 1–99. ISBN 978-0-471-86187-4.
- ^ Pal, Manoranjan (1980). "Estimadores de momento consistente de coeficientes de regresión en presencia de errores en las variables". Revista de Econometría . 14 (3): 349–364 [págs. 360-1]. doi : 10.1016 / 0304-4076 (80) 90032-9 .
- ^ Ben-Moshe, Dan (2020). "Identificación de regresiones lineales con errores en todas las variables". Teoría econométrica : 1–31. arXiv : 1404.1473 . doi : 10.1017 / S0266466620000250 .
- ^ Dagenais, Marcel G .; Dagenais, Denyse L. (1997). "Estimadores de momento superior para modelos de regresión lineal con errores en las variables". Revista de Econometría . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi : 10.1016 / 0304-4076 (95) 01789-5 .CS1 maint: ref duplica el valor predeterminado ( enlace )En el artículo anterior, Pal (1980) consideró un caso más simple cuando todos los componentes del vector ( ε , η ) son independientes y están distribuidos simétricamente.
- ^ Fuller, Wayne A. (1987). Modelos de error de medición . John Wiley e hijos. pag. 184. ISBN 978-0-471-86187-4.
- ^ Erickson, Timothy; Whited, Toni M. (2002). "Estimación GMM de dos pasos del modelo de errores en variables utilizando momentos de orden superior". Teoría econométrica . 18 (3): 776–799. doi : 10.1017 / s0266466602183101 . JSTOR 3533649 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- ^ Schennach, S .; Hu, Y .; Lewbel, A. (2007). "Identificación no paramétrica del modelo clásico de errores en variables sin información secundaria" . Documento de trabajo .CS1 maint: ref duplica el valor predeterminado ( enlace )
- ^ Newey, Whitney K. (2001). "Modelo flexible de estimación de momentos simulados de errores en variables no lineales". Revisión de Economía y Estadística . 83 (4): 616–627. doi : 10.1162 / 003465301753237704 . hdl : 1721,1 / 63613 . JSTOR 3211757 .
- ^ Li, Tong; Vuong, Quang (1998). "Estimación no paramétrica del modelo de error de medición utilizando múltiples indicadores". Revista de análisis multivariante . 65 (2): 139-165. doi : 10.1006 / jmva.1998.1741 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- ^ Li, Tong (2002). "Estimación robusta y consistente de modelos de errores en variables no lineales". Revista de Econometría . 110 (1): 1–26. doi : 10.1016 / S0304-4076 (02) 00120-3 .
- ^ Schennach, Susanne M. (2004). "Estimación de modelos no lineales con error de medida". Econometrica . 72 (1): 33–75. doi : 10.1111 / j.1468-0262.2004.00477.x . JSTOR 3598849 .
- ^ Schennach, Susanne M. (2004). "Regresión no paramétrica en presencia de error de medición". Teoría econométrica . 20 (6): 1046–1093. doi : 10.1017 / S0266466604206028 .
Otras lecturas
- Dougherty, Christopher (2011). "Regresores estocásticos y errores de medición" . Introducción a la econometría (Cuarta ed.). Prensa de la Universidad de Oxford. págs. 300–330. ISBN 978-0-19-956708-9.
- Kmenta, Jan (1986). "Estimación con datos deficientes" . Elements of Econometrics (Segunda ed.). Nueva York: Macmillan. págs. 346–391 . ISBN 978-0-02-365070-3.
- Schennach, Susanne . "Error de medición en modelos no lineales - una revisión" . Serie de documentos de trabajo de Cemmap . Cemmap . Consultado el 6 de febrero de 2018 .
enlaces externos
- Una descripción histórica de la regresión lineal con errores en ambas variables , JW Gillard 2006
- Conferencia sobre Econometría (tema: Regresores estocásticos y error de medición) en YouTube a cargo de Mark Thoma .