En estadística aplicada , el total de mínimos cuadrados es un tipo de regresión de errores en las variables , una técnica de modelado de datos de mínimos cuadrados en la que se tienen en cuenta los errores de observación en las variables dependientes e independientes. Es una generalización de la regresión de Deming y también de la regresión ortogonal , y se puede aplicar tanto a modelos lineales como no lineales.
La aproximación de mínimos cuadrados totales de los datos es genéricamente equivalente a la mejor, en la norma de Frobenius , aproximación de rango bajo de la matriz de datos. [1]
Modelo lineal
Fondo
En el método de mínimos cuadrados de modelado de datos, la función objetivo , S ,
se minimiza, donde r es el vector de residuos y W es una matriz de ponderación. En mínimos cuadrados lineales, el modelo contiene ecuaciones que son lineales en los parámetros que aparecen en el vector de parámetros., por lo que los residuos están dados por
Hay m observaciones en y y n parámetros en β con m > n . X es una matriz m × n cuyos elementos son constantes o funciones de las variables independientes, x . La matriz de ponderaciones W es, idealmente, la inversa de la matriz de varianza-covarianza de las observaciones y . Se supone que las variables independientes están libres de errores. Las estimaciones de los parámetros se encuentran estableciendo las ecuaciones de gradiente en cero, lo que da como resultado las ecuaciones normales [nota 1]
Permitir errores de observación en todas las variables
Ahora, suponga que tanto x como y se observan sujetos a error, con matrices de varianza-covarianza y respectivamente. En este caso, la función objetivo se puede escribir como
dónde y son los residuos en x y y respectivamente. Claramente [ se necesitan más explicaciones ] estos residuos no pueden ser independientes entre sí, pero deben estar limitados por algún tipo de relación. Escribiendo la función modelo como, las restricciones se expresan mediante m ecuaciones de condición . [2]
Por tanto, el problema es minimizar la función objetivo sujeta a las restricciones m . Se resuelve mediante el uso de multiplicadores de Lagrange . Después de algunas manipulaciones algebraicas, [3] se obtiene el resultado.
o alternativamente donde M es la matriz de varianza-covarianza relativa a las variables independientes y dependientes.
Ejemplo
Cuando los errores de datos no están correlacionados, todas las matrices M y W son diagonales. Luego, tome el ejemplo de ajuste en línea recta.
en este caso
mostrando cómo la varianza en el i- ésimo punto está determinada por las varianzas de las variables independientes y dependientes y por el modelo que se utiliza para ajustar los datos. La expresión se puede generalizar observando que el parámetro es la pendiente de la recta.
Una expresión de este tipo se utiliza para ajustar los datos de titulación de pH donde un pequeño error en x se traduce en un gran error en y cuando la pendiente es grande.
Punto de vista algebraico
Como demostraron Golub y Van Loan en 1980, el problema de TLS no tiene solución en general. [4] A continuación se considera el caso simple en el que existe una solución única sin hacer suposiciones particulares.
El cálculo del TLS mediante la descomposición de valores singulares (SVD) se describe en textos estándar. [5] Podemos resolver la ecuación
para B donde X es m -por- n e Y es m -por- k . [nota 2]
Es decir, buscamos encontrar B que minimice las matrices de error E y F para X e Y respectivamente. Es decir,
dónde es la matriz aumentada con E y F lado a lado yes la norma de Frobenius , la raíz cuadrada de la suma de los cuadrados de todas las entradas en una matriz y, de manera equivalente, la raíz cuadrada de la suma de los cuadrados de las longitudes de las filas o columnas de la matriz.
Esto se puede reescribir como
dónde es el matriz de identidad. El objetivo es entonces encontrar que reduce el rango de por k . Definir para ser la descomposición del valor singular de la matriz aumentada .
donde V se divide en bloques correspondientes a la forma de X y Y .
Usando el teorema de Eckart-Young , la aproximación que minimiza la norma del error es tal que las matrices y no cambian, mientras que el más pequeño los valores singulares se reemplazan por ceros. Es decir, queremos
así que por linealidad,
Luego podemos eliminar bloques de las matrices U y Σ, simplificando a
Esto proporciona E y F para que
Ahora si no es singular, lo cual no siempre es el caso (tenga en cuenta que el comportamiento de TLS cuando es singular aún no se entiende bien), entonces podemos multiplicar ambos lados por para llevar el bloque inferior de la matriz derecha a la identidad negativa, dando [6]
y entonces
Una implementación ingenua de GNU Octave de esto es:
función B = tls ( X, Y ) [ m n ] = tamaño ( X ); % n es el ancho de X (X es m por n) Z = [ X Y ]; % Z es X aumentado con Y. [ U S V ] = svd ( Z , 0 ); % encuentra la SVD de Z. VXY = V ( 1 : n , 1 + n : fin ); % Tome el bloque de V que consta de las primeras n filas y la n + 1 a la última columna VYY = V ( 1 + n : final , 1 + n : final ); % Tome el bloque inferior derecho de V. B = - VXY / VYY ; final
La forma descrita anteriormente de resolver el problema, que requiere que la matriz no es singular, puede ampliarse ligeramente mediante el denominado algoritmo TLS clásico . [7]
Cálculo
La implementación estándar del algoritmo TLS clásico está disponible a través de Netlib , consulte también. [8] [9] Todas las implementaciones modernas basadas, por ejemplo, en resolver una secuencia de problemas de mínimos cuadrados ordinarios, se aproximan a la matriz (denotado en la literatura), como lo introdujeron Van Huffel y Vandewalle. Vale la pena señalar que esteSin embargo, no es la solución TLS en muchos casos. [10] [11]
Modelo no lineal
Para sistemas no lineales, un razonamiento similar muestra que las ecuaciones normales para un ciclo de iteración se pueden escribir como
dónde es la matriz jacobiana .
Interpretación geométrica
Cuando la variable independiente está libre de errores, un residual representa la distancia "vertical" entre el punto de datos observado y la curva ajustada (o superficie). En mínimos cuadrados totales, un residual representa la distancia entre un punto de datos y la curva ajustada medida a lo largo de alguna dirección. De hecho, si ambas variables se miden en las mismas unidades y los errores en ambas variables son los mismos, entonces el residual representa la distancia más corta entre el punto de datos y la curva ajustada , es decir, el vector residual es perpendicular a la tangente de La curva. Por esta razón, este tipo de regresión a veces se denomina regresión euclidiana bidimensional (Stein, 1983) [12] o regresión ortogonal .
Métodos invariantes de escala
Surge una seria dificultad si las variables no se miden en las mismas unidades. Primero, considere medir la distancia entre un punto de datos y la línea: ¿cuáles son las unidades de medida para esta distancia? Si consideramos medir la distancia según el teorema de Pitágoras, entonces está claro que agregaremos cantidades medidas en diferentes unidades, lo cual no tiene sentido. En segundo lugar, si cambiamos la escala de una de las variables, por ejemplo, medimos en gramos en lugar de kilogramos, obtendremos resultados diferentes (una línea diferente). Para evitar estos problemas, a veces se sugiere convertir a variables adimensionales; esto puede llamarse normalización o estandarización. Sin embargo, hay varias formas de hacer esto, y estas conducen a modelos ajustados que no son equivalentes entre sí. Un enfoque es normalizar mediante precisión de medición conocida (o estimada), minimizando así la distancia de Mahalanobis desde los puntos a la línea, proporcionando una solución de máxima verosimilitud ; [ cita requerida ] las precisiones desconocidas se pueden encontrar a través del análisis de varianza .
En resumen, el total de mínimos cuadrados no tiene la propiedad de invariancia de unidades, es decir, no es invariante de escala . Para un modelo significativo, necesitamos que esta propiedad se mantenga. Una forma de avanzar es darse cuenta de que los residuos (distancias) medidos en diferentes unidades se pueden combinar si se usa la multiplicación en lugar de la suma. Considere ajustar una línea: para cada punto de datos, el producto de los residuales vertical y horizontal es igual al doble del área del triángulo formado por las líneas residuales y la línea ajustada. Elegimos la línea que minimiza la suma de estas áreas. El premio Nobel Paul Samuelson demostró en 1942 que, en dos dimensiones, es la única línea expresable únicamente en términos de las relaciones de desviaciones estándar y el coeficiente de correlación que (1) se ajusta a la ecuación correcta cuando las observaciones caen en una línea recta, ( 2) exhibe invariancia de escala y (3) exhibe invariancia bajo intercambio de variables. [13] Esta solución ha sido redescubierta en diferentes disciplinas y se conoce como eje mayor estandarizado (Ricker 1975, Warton et al., 2006), [14] [15] el eje mayor reducido , la relación funcional media geométrica (Draper y Smith, 1998), [16] menos productos de regresión , regresión diagonal , línea de correlación orgánica , y la línea áreas menos (Tofallis, 2002). [17] Tofallis (2015) [18] ha ampliado este enfoque para abordar múltiples variables.
Ver también
- Regresión de Deming , un caso especial con dos predictores y errores independientes.
- Modelo de errores en variables
- Modelo de Gauss-Helmert
- Regresión lineal
- Mínimos cuadrados
Notas
- ^ Una forma alternativa es, dónde es el cambio de parámetro de alguna estimación inicial de y es la diferencia entre yy el valor calculado utilizando el valor inicial de
- ^ La notación XB ≈ Y se usa aquí para reflejar la notación usada en la parte anterior del artículo. En la literatura computacional, el problema se ha presentado más comúnmente como AX ≈ B , es decir, con la letra X utilizada para lamatriz n- por- k de coeficientes de regresión desconocidos.
Referencias
- ^ I. Markovsky y S. Van Huffel , Resumen de los métodos de mínimos cuadrados totales. Procesamiento de señales, vol. 87, págs. 2283-2302, 2007. preprint
- ^ WE Deming, ajuste estadístico de datos, Wiley, 1943
- ^ Gans, Peter (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 9780471934127. Consultado el 4 de diciembre de 2012 .
- ^ GH Golub y CF Van Loan, un análisis del problema de mínimos cuadrados totales. Numer. Anal., 17, 1980, págs. 883-893.
- ^ Golub, Gene H .; Van Loan, Charles F. (1996). Cálculos matriciales (3ª ed.). Prensa de la Universidad Johns Hopkins . págs. 596.
- ^ Bjõrck, Ake (1996) Métodos numéricos para problemas de mínimos cuadrados , Sociedad de matemáticas industriales y aplicadas. ISBN 978-0898713602 [ página necesaria ]
- ^ S. Van Huffel y J. Vandewalle (1991) Los problemas de mínimos cuadrados totales: análisis y aspectos computacionales . Publicaciones SIAM, Filadelfia PA.
- ^ S. Van Huffel , Documentado Fortran 77 programas del algoritmo clásico extendido de mínimos cuadrados totales, el algoritmo de descomposición de valor singular parcial y el algoritmo de mínimos cuadrados totales parciales, Informe interno ESAT-KUL 88/1, ESAT Lab., Dept. of Electrical Ingeniería, Katholieke Universiteit Leuven, 1988.
- ^ S. Van Huffel , El algoritmo clásico extendido de mínimos cuadrados totales, J. Comput. Apl. Math., 25, págs. 111-119, 1989.
- ^ M. Plešinger, El problema de los mínimos cuadrados totales y la reducción de datos en AX ≈ B. Tesis doctoral, TU de Liberec e Instituto de Ciencias de la Computación, AS CR Praga, 2008. Ph.D. Tesis
- ^ I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš y S. Van Huffel , El problema de mínimos cuadrados totales en AX ≈ B. Una nueva clasificación con la relación con las obras clásicas. SIMAX vol. 32 número 3 (2011), págs. 748–770.
- ^ Stein, Yaakov J. "Regresión euclidiana bidimensional" (PDF) . Cite journal requiere
|journal=
( ayuda ) - ^ Samuelson, Paul A. (1942). "Una nota sobre regresiones alternativas". Econometrica . 10 (1): 80–83. doi : 10.2307 / 1907024 . JSTOR 1907024 .
- ^ Ricker, WE (1975). "Una nota sobre los comentarios del profesor Jolicoeur". Revista de la Junta de Investigación Pesquera de Canadá . 32 (8): 1494–1498. doi : 10.1139 / f75-172 .
- ^ Warton, David I .; Wright, Ian J .; Falster, Daniel S .; Westoby, Mark (2006). "Métodos de ajuste de línea bivariados para alometría". Revisiones biológicas . 81 (2): 259–291. CiteSeerX 10.1.1.461.9154 . doi : 10.1017 / S1464793106007007 . PMID 16573844 . S2CID 16462731 .
- ^ Draper, NR y Smith, H. Applied Regression Analysis , 3ª edición, págs. 92–96. 1998
- ^ Tofallis, Chris (2002). "Ajuste del modelo para múltiples variables minimizando la desviación media geométrica". En Van Huffel, Sabine ; Lemmerling, P. (eds.). Modelado de mínimos cuadrados totales y errores en variables: análisis, algoritmos y aplicaciones . Dordrecht: Kluwer Academic Publ. ISBN 978-1402004766. SSRN 1077322 .
- ^ Tofallis, Chris (2015). "Ajuste de ecuaciones a datos con la relación de correlación perfecta". SSRN 2707593 . Cite journal requiere
|journal=
( ayuda )
Otros
- I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš y S. Van Huffel , El problema de mínimos cuadrados totales en AX ≈ B. Una nueva clasificación con la relación con las obras clásicas. SIMAX vol. 32 número 3 (2011), págs. 748–770. Disponible como preimpresión .
- M. Plešinger, El problema de los mínimos cuadrados totales y la reducción de datos en AX ≈ B. Tesis doctoral, TU de Liberec e Instituto de Ciencias de la Computación, AS CR Praga, 2008. Ph.D. Tesis
- CC Paige, Z. Strakoš, Problemas centrales en sistemas algebraicos lineales. SIAM J. Matrix Anal. Apl. 27, 2006, págs. 861–875. doi : 10.1137 / 040616991
- S. Van Huffel y P. Lemmerling, Modelado de mínimos cuadrados totales y errores en variables: análisis, algoritmos y aplicaciones . Dordrecht, Países Bajos: Kluwer Academic Publishers, 2002.
- S. Jo y SW Kim, filtrado de mínimos cuadrados medios normalizados consistentes con matriz de datos ruidosa. IEEE Trans. Proceso de señal., Vol. 53, no. 6, págs. 2112–2123, junio de 2005.
- RD DeGroat y EM Dowling, el problema de los mínimos cuadrados de datos y la ecualización de canales. IEEE Trans. Proceso de señal., Vol. 41, no. 1, págs. 407–411, enero de 1993.
- S. Van Huffel y J. Vandewalle, The Total Least Squares Problems: Computational Aspects and Analysis. Publicaciones SIAM, Filadelfia PA, 1991. doi : 10.1137 / 1.9781611971002
- T. Abatzoglou y J. Mendel, mínimos cuadrados totales restringidos , en Proc. IEEE Int. Conf. Acoust., Habla, proceso de señal. (ICASSP'87), abril de 1987, vol. 12, págs. 1485-1488.
- P. de Groen Una introducción a los mínimos cuadrados totales , en Nieuw Archief voor Wiskunde, serie Vierde, deel 14, 1996, págs. 237-253 arxiv.org .
- GH Golub y CF Van Loan, un análisis del problema de mínimos cuadrados totales. SIAM J. sobre Numer. Anal., 17, 1980, págs. 883-893. doi : 10.1137 / 0717073
- Regresión perpendicular de una línea en MathPages
- AR Amiri-Simkooei y S. Jazaeri Mínimos cuadrados totales ponderados formulados por la teoría de mínimos cuadrados estándar , en Journal of Geodetic Science, 2 (2): 113-124, 2012 [1] .