Mínimos cuadrados

El método de mínimos cuadrados es un enfoque estándar en el análisis de regresión para aproximar la solución de sistemas sobredeterminados (conjuntos de ecuaciones en las que hay más ecuaciones que incógnitas) minimizando la suma de los cuadrados de los residuos obtenidos en los resultados de cada ecuación. .

El resultado de ajustar un conjunto de puntos de datos con una función cuadrática

Ajuste cónico de un conjunto de puntos mediante aproximación por mínimos cuadrados

La aplicación más importante es el ajuste de datos . El mejor ajuste en el sentido de mínimos cuadrados minimiza la suma de los residuos al cuadrado (un ser residual: la diferencia entre un valor observado y el valor ajustado proporcionado por un modelo). Cuando el problema tiene incertidumbres sustanciales en la variable independiente (la variable x ), entonces los métodos de regresión simple y mínimos cuadrados tienen problemas; en tales casos, se puede considerar la metodología requerida para ajustar modelos de errores en variables en lugar de la de mínimos cuadrados.

Problemas de mínimos cuadrados se dividen en dos categorías: o lineales de mínimos cuadrados ordinarios y no lineal de mínimos cuadrados , dependiendo de si o no los residuos son lineales en todas las incógnitas. El problema de mínimos cuadrados lineales ocurre en el análisis de regresión estadística ; tiene una solución de forma cerrada . El problema no lineal generalmente se resuelve mediante un refinamiento iterativo; en cada iteración, el sistema se aproxima por uno lineal y, por lo tanto, el cálculo del núcleo es similar en ambos casos.

Los mínimos cuadrados polinomiales describen la varianza en una predicción de la variable dependiente como una función de la variable independiente y las desviaciones de la curva ajustada.

Cuando las observaciones provienen de una familia exponencial y se satisfacen las condiciones suaves, las estimaciones de mínimos cuadrados y las estimaciones de máxima verosimilitud son idénticas. ^[1] El método de mínimos cuadrados también se puede derivar como un método de estimador de momentos .

La siguiente discusión se presenta principalmente en términos de funciones lineales , pero el uso de mínimos cuadrados es válido y práctico para familias de funciones más generales. Además, aplicando iterativamente la aproximación cuadrática local a la probabilidad (a través de la información de Fisher ), se puede utilizar el método de mínimos cuadrados para ajustar un modelo lineal generalizado .

El método de mínimos cuadrados fue descubierto y publicado oficialmente por Adrien-Marie Legendre (1805), ^[2] aunque generalmente también se le atribuye a Carl Friedrich Gauss (1795) ^[3]^[4], quien contribuyó con avances teóricos significativos a la método y puede haberlo utilizado previamente en su trabajo. ^[5]^[6]

Historia

Establecimiento

El método de los mínimos cuadrados surgió de los campos de la astronomía y la geodesia , ya que los científicos y matemáticos buscaron brindar soluciones a los desafíos de navegar por los océanos de la Tierra durante la Era de la Exploración . La descripción precisa del comportamiento de los cuerpos celestes fue la clave para permitir a los barcos navegar en mar abierto, donde los marineros ya no podían confiar en los avistamientos terrestres para la navegación.

El método fue la culminación de varios avances que tuvieron lugar durante el transcurso del siglo XVIII: ^[7]

La combinación de diferentes observaciones como la mejor estimación del valor real; los errores disminuyen con la agregación en lugar de aumentar, quizás expresados por primera vez por Roger Cotes en 1722.
La combinación de diferentes observaciones tomadas en las mismas condiciones contrariamente a simplemente hacer todo lo posible por observar y registrar una sola observación con precisión. El enfoque se conoció como el método de promedios. Este enfoque fue utilizado notablemente por Tobias Mayer mientras estudiaba las libraciones de la luna en 1750, y por Pierre-Simon Laplace en su trabajo para explicar las diferencias en el movimiento de Júpiter y Saturno en 1788.
La combinación de diferentes observaciones tomadas en diferentes condiciones. El método llegó a conocerse como el método de la mínima desviación absoluta. Fue ejecutado notablemente por Roger Joseph Boscovich en su trabajo sobre la forma de la tierra en 1757 y por Pierre-Simon Laplace para el mismo problema en 1799.
El desarrollo de un criterio que pueda evaluarse para determinar cuándo se ha logrado la solución con el mínimo error. Laplace intentó especificar una forma matemática de la densidad de probabilidad para los errores y definir un método de estimación que minimiza el error de estimación. Para este propósito, Laplace usó una distribución exponencial de dos lados simétrica que ahora llamamos distribución de Laplace para modelar la distribución del error, y usó la suma de la desviación absoluta como error de estimación. Consideraba que estas eran las suposiciones más simples que podía hacer y esperaba obtener la media aritmética como la mejor estimación. En cambio, su estimador fue la mediana posterior.

El método

Carl Friedrich Gauss

La primera exposición clara y concisa del método de mínimos cuadrados fue publicada por Legendre en 1805. ^[8] La técnica se describe como un procedimiento algebraico para ajustar ecuaciones lineales a datos y Legendre demuestra el nuevo método analizando los mismos datos que Laplace para la forma de la tierra. El valor del método de mínimos cuadrados de Legendre fue inmediatamente reconocido por los principales astrónomos y geodesistas de la época. ^{[ cita requerida ]}

En 1809 Carl Friedrich Gauss publicó su método para calcular las órbitas de los cuerpos celestes. En ese trabajo afirmó haber estado en posesión del método de mínimos cuadrados desde 1795. Esto naturalmente llevó a una disputa de prioridad con Legendre. Sin embargo, para crédito de Gauss, fue más allá de Legendre y logró conectar el método de los mínimos cuadrados con los principios de probabilidad y con la distribución normal . Había logrado completar el programa de Laplace de especificar una forma matemática de la densidad de probabilidad para las observaciones, dependiendo de un número finito de parámetros desconocidos, y definir un método de estimación que minimiza el error de estimación. Gauss demostró que la media aritmética es de hecho la mejor estimación del parámetro de ubicación al cambiar tanto la densidad de probabilidad como el método de estimación. Luego dio la vuelta al problema preguntando qué forma debería tener la densidad y qué método de estimación debería usarse para obtener la media aritmética como estimación del parámetro de ubicación. En este intento, inventó la distribución normal.

Una primera demostración de la fuerza del método de Gauss se produjo cuando se utilizó para predecir la ubicación futura del asteroide recién descubierto Ceres . El 1 de enero de 1801, el astrónomo italiano Giuseppe Piazzi descubrió Ceres y pudo seguir su trayectoria durante 40 días antes de que se perdiera en el resplandor del sol. Basándose en estos datos, los astrónomos deseaban determinar la ubicación de Ceres después de que emergiera detrás del sol sin resolver las complicadas ecuaciones no lineales de Kepler del movimiento planetario. Las únicas predicciones que permitieron con éxito al astrónomo húngaro Franz Xaver von Zach reubicar Ceres fueron las realizadas por Gauss, de 24 años, utilizando análisis de mínimos cuadrados.

En 1810, después de leer el trabajo de Gauss, Laplace, después de probar el teorema del límite central , lo utilizó para dar una gran justificación muestral para el método de los mínimos cuadrados y la distribución normal. En 1822, Gauss pudo afirmar que el enfoque de mínimos cuadrados para el análisis de regresión es óptimo en el sentido de que en un modelo lineal donde los errores tienen una media de cero, no están correlacionados y tienen varianzas iguales, el mejor estimador lineal insesgado de los coeficientes es el estimador de mínimos cuadrados. Este resultado se conoce como el teorema de Gauss-Markov .

La idea del análisis de mínimos cuadrados también fue formulada independientemente por el estadounidense Robert Adrain en 1808. En los dos siglos siguientes, los investigadores de la teoría de los errores y de la estadística encontraron muchas formas diferentes de implementar los mínimos cuadrados. ^[9]

Planteamiento del problema

El objetivo consiste en ajustar los parámetros de una función del modelo para que se ajusten mejor a un conjunto de datos. Un conjunto de datos simple consta de n puntos (pares de datos) ${\ Displaystyle (x_ {i}, y_ {i}) \!}$ , i = 1,…, n , donde ${\ Displaystyle x_ {i} \!}$ es una variable independiente y ${\ Displaystyle y_ {i} \!}$ es una variable dependiente cuyo valor se encuentra por observación. La función modelo tiene la forma ${\ displaystyle f (x, {\ boldsymbol {\ beta}})}$ , donde m parámetros ajustables se mantienen en el vector ${\ displaystyle {\ boldsymbol {\ beta}}}$ . El objetivo es encontrar los valores de los parámetros del modelo que "mejor" se ajusta a los datos. El ajuste de un modelo a un punto de datos se mide por su residual , definido como la diferencia entre el valor real de la variable dependiente y el valor predicho por el modelo:

{\ Displaystyle r_ {i} = y_ {i} -f (x_ {i}, {\ boldsymbol {\ beta}}).}

Los residuos se grafican contra los correspondientes

{\ Displaystyle x}

valores. Las fluctuaciones aleatorias sobre

{\ Displaystyle r_ {i} = 0}

indican que un modelo lineal es apropiado.

El método de mínimos cuadrados encuentra los valores óptimos de los parámetros minimizando la suma de los residuos cuadrados , ${\ Displaystyle S}$ : ^[10]

{\ Displaystyle S = \ sum _ {i = 1} ^ {n} r_ {i} ^ {2}.}

Un ejemplo de modelo en dos dimensiones es el de la línea recta. Denotando la intersección con el eje y como ${\ Displaystyle \ beta _ {0}}$ y la pendiente como ${\ Displaystyle \ beta _ {1}}$ , la función modelo viene dada por ${\ Displaystyle f (x, {\ boldsymbol {\ beta}}) = \ beta _ {0} + \ beta _ {1} x}$ . Consulte mínimos cuadrados lineales para ver un ejemplo completamente elaborado de este modelo.

Un punto de datos puede constar de más de una variable independiente. Por ejemplo, cuando se ajusta un plano a un conjunto de medidas de altura, el plano es una función de dos variables independientes , por ejemplo , x y z . En el caso más general, puede haber una o más variables independientes y una o más variables dependientes en cada punto de datos.

A la derecha hay un gráfico residual que ilustra fluctuaciones aleatorias sobre ${\ Displaystyle r_ {i} = 0}$ , lo que indica que un modelo lineal ${\ Displaystyle (Y_ {i} = \ alpha + \ beta x_ {i} + U_ {i})}$ es apropiado. ${\ Displaystyle U_ {i}}$ es una variable aleatoria independiente. ^[10]

Los residuos se grafican contra el correspondiente

{\ Displaystyle x}

valores. La forma parabólica de las fluctuaciones sobre

{\ Displaystyle r_ {i} = 0}

indican que un modelo parabólico es apropiado.

Si los puntos residuales tuvieran algún tipo de forma y no fluctuaran al azar, un modelo lineal no sería apropiado. Por ejemplo, si la gráfica residual tiene una forma parabólica como se ve a la derecha, un modelo parabólico ${\ Displaystyle (Y_ {i} = \ alpha + \ beta x_ {i} + \ gamma x_ {i} ^ {2} + U_ {i})}$ sería apropiado para los datos. Los residuos de un modelo parabólico se pueden calcular mediante ${\ Displaystyle r_ {i} = y_ {i} - {\ hat {\ alpha}} - {\ hat {\ beta}} x_ {i} - {\ widehat {\ gamma}} x_ {i} ^ {2 }}$ . ^[10]

Limitaciones

Esta formulación de regresión considera solo los errores de observación en la variable dependiente (pero la regresión alternativa de mínimos cuadrados totales puede tener en cuenta los errores en ambas variables). Hay dos contextos bastante diferentes con diferentes implicaciones:

Regresión para predicción. Aquí se ajusta un modelo para proporcionar una regla de predicción para su aplicación en una situación similar a la que se aplican los datos utilizados para el ajuste. Aquí, las variables dependientes correspondientes a dicha aplicación futura estarían sujetas a los mismos tipos de errores de observación que los de los datos utilizados para el ajuste. Por tanto, es lógicamente coherente utilizar la regla de predicción de mínimos cuadrados para tales datos.
Regresión para encajar una "verdadera relación". En el análisis de regresión estándar que conduce a un ajuste por mínimos cuadrados, hay una suposición implícita de que los errores en la variable independiente son cero o están estrictamente controlados para que sean insignificantes. Cuando los errores en la variable independiente no son insignificantes, se pueden utilizar modelos de error de medición ; Dichos métodos pueden conducir a estimaciones de parámetros , pruebas de hipótesis e intervalos de confianza que tienen en cuenta la presencia de errores de observación en las variables independientes. ^[11] Un enfoque alternativo es ajustar un modelo por mínimos cuadrados totales ; esto puede verse como un enfoque pragmático para equilibrar los efectos de las diferentes fuentes de error en la formulación de una función objetivo para su uso en el ajuste de modelos.

Resolver el problema de mínimos cuadrados

El mínimo de la suma de cuadrados se encuentra estableciendo el gradiente en cero. Dado que el modelo contiene m parámetros, hay m ecuaciones de gradiente:

{\ Displaystyle {\ frac {\ parcial S} {\ parcial \ beta _ {j}}} = 2 \ suma _ {i} r_ {i} {\ frac {\ parcial r_ {i}} {\ parcial \ beta _ {j}}} = 0, \ j = 1, \ ldots, m,}

y desde ${\ Displaystyle r_ {i} = y_ {i} -f (x_ {i}, {\ boldsymbol {\ beta}})}$ , las ecuaciones de gradiente se vuelven

{\ Displaystyle -2 \ sum _ {i} r_ {i} {\ frac {\ parcial f (x_ {i}, {\ boldsymbol {\ beta}})} {\ parcial \ beta _ {j}}} = 0, \ j = 1, \ ldots, m.}

Las ecuaciones de gradiente se aplican a todos los problemas de mínimos cuadrados. Cada problema particular requiere expresiones particulares para el modelo y sus derivadas parciales. ^[12]

Mínimos cuadrados lineales

Un modelo de regresión es lineal cuando el modelo comprende una combinación lineal de los parámetros, es decir,

{\ Displaystyle f (x, {\ boldsymbol {\ beta}}) = \ sum _ {j = 1} ^ {m} \ beta _ {j} \ phi _ {j} (x),}

donde la funcion ${\ Displaystyle \ phi _ {j}}$ es una función de ${\ Displaystyle x}$ . ^[12]

Dejando ${\ Displaystyle X_ {ij} = \ phi _ {j} (x_ {i})}$ y poner las variables independientes y dependientes en matrices ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ podemos calcular los mínimos cuadrados de la siguiente manera, tenga en cuenta que ${\ Displaystyle D}$ es el conjunto de todos los datos. ^[12]^[13]

{\ displaystyle L (D, {\ boldsymbol {\ beta}}) = \ left \ | X {\ boldsymbol {\ beta}} - Y \ right \ | ^ {2} = (X {\ boldsymbol {\ beta} } -Y) ^ {\ mathsf {T}} (X {\ boldsymbol {\ beta}} - Y) = Y ^ {\ mathsf {T}} YY ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}} - {\ boldsymbol {\ beta}} ^ {\ mathsf {T}} X ^ {\ mathsf {T}} Y + {\ boldsymbol {\ beta}} ^ {\ mathsf {T}} X ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}}}

Encontrar el mínimo se puede lograr estableciendo el gradiente de la pérdida en cero y resolviendo para ${\ Displaystyle {\ vec {\ beta}}}$

{\ Displaystyle {\ frac {\ L parcial (D, {\ Boldsymbol {\ beta}})} {\ Parcial {\ Boldsymbol {\ beta}}}} = {\ frac {\ Parcial \ left (Y ^ {\ mathsf {T}} YY ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}} - {\ boldsymbol {\ beta}} ^ {\ mathsf {T}} X ^ {\ mathsf {T}} Y + {\ boldsymbol {\ beta}} ^ {\ mathsf {T}} X ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}} \ right)} {\ partial {\ boldsymbol {\ beta}}} } = - 2X ^ {\ mathsf {T}} Y + 2X ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}}}

Finalmente, estableciendo el gradiente de la pérdida a cero y resolviendo para ${\ displaystyle {\ boldsymbol {\ beta}}}$ obtenemos: ^[13]^[12]

{\ displaystyle -2X ^ {\ mathsf {T}} Y + 2X ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}} = 0 \ Rightarrow X ^ {\ mathsf {T}} Y = X ^ {\ mathsf {T}} X {\ boldsymbol {\ beta}} \ Rightarrow {\ boldsymbol {\ hat {\ beta}}} = \ left (X ^ {\ mathsf {T}} X \ right) ^ {- 1} X ^ {\ mathsf {T}} Y}

Mínimos cuadrados no lineales

En algunos casos, existe una solución de forma cerrada para un problema de mínimos cuadrados no lineales, pero en general no la hay. En el caso de una solución sin forma cerrada, se utilizan algoritmos numéricos para encontrar el valor de los parámetros ${\ Displaystyle \ beta}$ que minimiza el objetivo. La mayoría de los algoritmos implican elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximaciones sucesivas:

{\ Displaystyle {\ beta _ {j}} ^ {k + 1} = {\ beta _ {j}} ^ {k} + \ Delta \ beta _ {j},}

donde un superíndice k es un número de iteración y el vector de incrementos ${\ Displaystyle \ Delta \ beta _ {j}}$ se llama vector de desplazamiento. En algunos algoritmos de uso común, en cada iteración el modelo puede linealizarse por aproximación a una expansión de la serie de Taylor de primer orden sobre ${\ displaystyle {\ boldsymbol {\ beta}} ^ {k}}$ :

{\ displaystyle {\ begin {alineado} f (x_ {i}, {\ boldsymbol {\ beta}}) & = f ^ {k} (x_ {i}, {\ boldsymbol {\ beta}}) + \ sum _ {j} {\ frac {\ parcial f (x_ {i}, {\ boldsymbol {\ beta}})} {\ parcial \ beta _ {j}}} \ izquierda (\ beta _ {j} - {\ beta _ {j}} ^ {k} \ right) \\ & = f ^ {k} (x_ {i}, {\ boldsymbol {\ beta}}) + \ sum _ {j} J_ {ij} \, \ Delta \ beta _ {j}. \ End {alineado}}}

El jacobiano J es una función de las constantes, la variable independiente y los parámetros, por lo que cambia de una iteración a la siguiente. Los residuales están dados por

{\ Displaystyle r_ {i} = y_ {i} -f ^ {k} (x_ {i}, {\ boldsymbol {\ beta}}) - \ sum _ {k = 1} ^ {m} J_ {ik} \, \ Delta \ beta _ {k} = \ Delta y_ {i} - \ sum _ {j = 1} ^ {m} J_ {ij} \, \ Delta \ beta _ {j}.}

Para minimizar la suma de cuadrados de ${\ Displaystyle r_ {i}}$ , la ecuación de gradiente se establece en cero y se resuelve para ${\ Displaystyle \ Delta \ beta _ {j}}$ :

{\ Displaystyle -2 \ sum _ {i = 1} ^ {n} J_ {ij} \ left (\ Delta y_ {i} - \ sum _ {k = 1} ^ {m} J_ {ik} \, \ Delta \ beta _ {k} \ right) = 0,}

que, en el reordenamiento, se convierten en m ecuaciones lineales simultáneas, las ecuaciones normales :

{\ Displaystyle \ sum _ {i = 1} ^ {n} \ sum _ {k = 1} ^ {m} J_ {ij} J_ {ik} \, \ Delta \ beta _ {k} = \ sum _ { i = 1} ^ {n} J_ {ij} \, \ Delta y_ {i} \ qquad (j = 1, \ ldots, m).}

Las ecuaciones normales se escriben en notación matricial como

{\ Displaystyle \ left (\ mathbf {J} ^ {\ mathsf {T}} \ mathbf {J} \ right) \ Delta {\ boldsymbol {\ beta}} = \ mathbf {J} ^ {\ mathsf {T} } \ Delta \ mathbf {y}.}

Estas son las ecuaciones que definen el algoritmo de Gauss-Newton .

Diferencias entre mínimos cuadrados lineales y no lineales

La función del modelo, f , en LLSQ (mínimos cuadrados lineales) es una combinación lineal de parámetros de la forma ${\ Displaystyle f = X_ {i1} \ beta _ {1} + X_ {i2} \ beta _ {2} + \ cdots}$ El modelo puede representar una línea recta, una parábola o cualquier otra combinación lineal de funciones. En NLLSQ (mínimos cuadrados no lineales) los parámetros aparecen como funciones, como ${\ Displaystyle \ beta ^ {2}, e ^ {\ beta x}}$ Etcétera. Si los derivados ${\ Displaystyle \ parcial f / \ parcial \ beta _ {j}}$ son constantes o dependen solo de los valores de la variable independiente, el modelo es lineal en los parámetros. De lo contrario, el modelo no es lineal.
Necesita valores iniciales para los parámetros para encontrar la solución a un problema NLLSQ; LLSQ no los requiere.
Los algoritmos de solución para NLLSQ a menudo requieren que el jacobiano se pueda calcular de manera similar a LLSQ. Las expresiones analíticas para las derivadas parciales pueden resultar complicadas. Si es imposible obtener expresiones analíticas, las derivadas parciales deben calcularse por aproximación numérica o debe hacerse una estimación del jacobiano, a menudo mediante diferencias finitas .
La no convergencia (falla del algoritmo para encontrar un mínimo) es un fenómeno común en NLLSQ.
LLSQ es cóncava globalmente, por lo que la no convergencia no es un problema.
La resolución de NLLSQ suele ser un proceso iterativo que debe terminarse cuando se satisface un criterio de convergencia. Las soluciones LLSQ se pueden calcular utilizando métodos directos, aunque los problemas con un gran número de parámetros se resuelven normalmente con métodos iterativos, como el método Gauss-Seidel .
En LLSQ la solución es única, pero en NLLSQ puede haber múltiples mínimos en la suma de cuadrados.
Bajo la condición de que los errores no estén correlacionados con las variables predictoras, LLSQ produce estimaciones no sesgadas, pero incluso bajo esa condición, las estimaciones de NLLSQ generalmente están sesgadas.

Estas diferencias deben considerarse siempre que se busque la solución a un problema de mínimos cuadrados no lineales. ^[12]

Ejemplo

Considere un ejemplo sencillo extraído de la física. Un resorte debe obedecer la ley de Hooke que establece que la extensión de un resorte $y$ es proporcional a la fuerza, F , que se le aplica.

{\ Displaystyle y = f (F, k) = kF \!}

constituye el modelo, donde F es la variable independiente. Para estimar la constante de fuerza , k , realizamos una serie de n mediciones con diferentes fuerzas para producir un conjunto de datos, ${\ Displaystyle (F_ {i}, y_ {i}), \ i = 1, \ dots, n \!}$ , donde y _i es una extensión de resorte medida. ^[14] Cada observación experimental contendrá algún error, ${\ Displaystyle \ varepsilon}$ , por lo que podemos especificar un modelo empírico para nuestras observaciones,

{\ Displaystyle y_ {i} = kF_ {i} + \ varepsilon _ {i}. \,}

Hay muchos métodos que podemos usar para estimar el parámetro desconocido k . Dado que las n ecuaciones en las m variables en nuestros datos comprenden un sistema sobredeterminado con una incógnita yn ecuaciones, estimamos k usando mínimos cuadrados. La suma de cuadrados a minimizar es

{\ Displaystyle S = \ sum _ {i = 1} ^ {n} (y_ {i} -kF_ {i}) ^ {2}.}

^[12]

La estimación de mínimos cuadrados de la constante de fuerza, k , viene dada por

{\ Displaystyle {\ hat {k}} = {\ frac {\ sum _ {i} F_ {i} y_ {i}} {\ sum _ {i} F_ {i} ^ {2}}}.}

Suponemos que la aplicación de fuerza hace que el resorte se expanda. Después de haber derivado la constante de fuerza por ajuste de mínimos cuadrados, predecimos la extensión a partir de la ley de Hooke.

Cuantificación de la incertidumbre

En un cálculo de mínimos cuadrados con pesos unitarios, o en regresión lineal, la varianza en el j- ésimo parámetro, denotado ${\ Displaystyle \ operatorname {var} ({\ hat {\ beta}} _ {j})}$ , generalmente se estima con

{\ Displaystyle \ operatorname {var} ({\ hat {\ beta}} _ {j}) = \ sigma ^ {2} \ left (\ left [X ^ {\ mathsf {T}} X \ right] ^ { -1} \ right) _ {jj} \ approx {\ hat {\ sigma}} ^ {2} C_ {jj},}

{\ Displaystyle {\ hat {\ sigma}} ^ {2} \ approx {\ frac {S} {nm}}}

{\ Displaystyle C = \ left (X ^ {\ mathsf {T}} X \ right) ^ {- 1},}

donde la verdadera varianza del error σ ² se sustituye por una estimación, la reducción estadística de chi-cuadrado , basado en el valor reducido al mínimo de la suma residual de cuadrados (función objetivo), S . El denominador, n - m , son los grados estadísticos de libertad ; ver grados de libertad efectivos para generalizaciones. ^[12] C es la matriz de covarianza .

Prueba estadística

Si se conoce la distribución de probabilidad de los parámetros o se hace una aproximación asintótica, se pueden encontrar límites de confianza . De manera similar, se pueden realizar pruebas estadísticas sobre los residuos si se conoce o se asume la distribución de probabilidad de los residuos. Podemos derivar la distribución de probabilidad de cualquier combinación lineal de las variables dependientes si se conoce o se supone la distribución de probabilidad de los errores experimentales. Inferir es fácil cuando se asume que los errores siguen una distribución normal, lo que implica que las estimaciones de los parámetros y los residuos también se distribuirán normalmente de acuerdo con los valores de las variables independientes. ^[12]

Es necesario hacer suposiciones sobre la naturaleza de los errores experimentales para probar los resultados estadísticamente. Una suposición común es que los errores pertenecen a una distribución normal. El teorema del límite central apoya la idea de que esta es una buena aproximación en muchos casos.

El teorema de Gauss-Markov . En un modelo lineal en el que los errores tienen una expectativa cero condicionada a las variables independientes, no están correlacionados y tienen varianzas iguales , el mejor estimador lineal insesgado de cualquier combinación lineal de las observaciones es su estimador de mínimos cuadrados. "Mejor" significa que los estimadores de mínimos cuadrados de los parámetros tienen una varianza mínima. El supuesto de igual varianza es válido cuando todos los errores pertenecen a la misma distribución.
Si los errores pertenecen a una distribución normal, los estimadores de mínimos cuadrados también son los estimadores de máxima verosimilitud en un modelo lineal.

Sin embargo, suponga que los errores no se distribuyen normalmente. En ese caso, un teorema del límite central a menudo implica, no obstante, que las estimaciones de los parámetros se distribuirán aproximadamente normalmente siempre que la muestra sea razonablemente grande. Por esta razón, dada la propiedad importante de que la media del error es independiente de las variables independientes, la distribución del término de error no es un tema importante en el análisis de regresión. Específicamente, no suele ser importante si el término de error sigue una distribución normal.

Mínimos cuadrados ponderados

Efecto "abanico" de la heterocedasticidad

Un caso especial de mínimos cuadrados generalizados llamados mínimos cuadrados ponderados ocurre cuando todas las entradas fuera de la diagonal de Ω (la matriz de correlación de los residuos) son nulas; las varianzas de las observaciones (a lo largo de la diagonal de la matriz de covarianza) pueden seguir siendo desiguales ( heterocedasticidad ). En términos más simples, la heterocedasticidad es cuando la varianza de ${\ Displaystyle Y_ {i}}$ depende del valor de ${\ Displaystyle x_ {i}}$ lo que hace que la gráfica residual cree un efecto de "abanico" hacia una mayor ${\ Displaystyle Y_ {i}}$ valores como se ve en el gráfico de residuos a la derecha. Por otro lado, la homocedasticidad supone que la varianza de ${\ Displaystyle Y_ {i}}$ y ${\ Displaystyle U_ {i}}$ es igual. ^[10]

Relación con los componentes principales

El primer componente principal de la media de un conjunto de puntos se puede representar mediante la línea que se acerca más a los puntos de datos (medida por la distancia al cuadrado de la aproximación más cercana, es decir, perpendicular a la línea). Por el contrario, los mínimos cuadrados lineales intentan minimizar la distancia en el ${\ Displaystyle y}$ dirección solamente. Por lo tanto, aunque los dos usan una métrica de error similar, los mínimos cuadrados lineales es un método que trata una dimensión de los datos de manera preferencial, mientras que PCA trata todas las dimensiones por igual.

Regularización

Regularización de Tikhonov

En algunos contextos , puede ser preferible una versión regularizada de la solución de mínimos cuadrados. La regularización de Tikhonov (o regresión de la cresta ) agrega una restricción que ${\ Displaystyle \ | \ beta \ | ^ {2}}$ , la norma L 2 del vector de parámetros, no es mayor que un valor dado. ^{[ cita requerida ] De manera} equivalente, ^{[ dudoso - discutir ]} puede resolver una minimización sin restricciones de la penalización por mínimos cuadrados con ${\ Displaystyle \ alpha \ | \ beta \ | ^ {2}}$ agregado, donde ${\ Displaystyle \ alpha}$ es una constante (esta es la forma lagrangiana del problema restringido). En un contexto bayesiano , esto equivale a colocar una media cero normalmente distribuida antes en el vector de parámetros.

Método de lazo

Una versión regularizada alternativa de mínimos cuadrados es Lasso (operador de selección y contracción mínima absoluta), que usa la restricción que ${\ Displaystyle \ | \ beta \ |}$ , la norma L 1 del vector de parámetros, no es mayor que un valor dado. ^[15]^[16]^[17] (Como arriba, esto es equivalente ^{[ dudoso - discutir ]} a una minimización sin restricciones de la penalización por mínimos cuadrados con ${\ Displaystyle \ alpha \ | \ beta \ |}$ agregado.) En un contexto bayesiano , esto equivale a colocar una distribución previa de Laplace de media cero en el vector de parámetros. ^[18] El problema de optimización puede resolverse utilizando programación cuadrática o métodos de optimización convexa más generales , así como mediante algoritmos específicos como el algoritmo de regresión de ángulo mínimo .

Una de las principales diferencias entre Lasso y la regresión de cresta es que en la regresión de cresta, a medida que aumenta la penalización, todos los parámetros se reducen sin dejar de ser cero, mientras que en Lasso, aumentar la penalización hará que más y más parámetros sean conducido a cero. Esta es una ventaja de Lasso sobre la regresión de cresta, ya que la conducción de los parámetros a cero anula la selección de las características de la regresión. Por lo tanto, Lasso selecciona automáticamente las características más relevantes y descarta las demás, mientras que la regresión de Ridge nunca descarta por completo ninguna característica. Algunas técnicas de selección de características se desarrollan basadas en LASSO, incluido Bolasso, que arranca muestras, ^[19] y FeaLect, que analiza los coeficientes de regresión correspondientes a diferentes valores de ${\ Displaystyle \ alpha}$ para puntuar todas las características. ^[20]

La formulación regularizada en L ¹ es útil en algunos contextos debido a su tendencia a preferir soluciones donde más parámetros son cero, lo que da soluciones que dependen de menos variables. ^[15] Por esta razón, el Lasso y sus variantes son fundamentales para el campo de la detección comprimida . Una extensión de este enfoque es la regularización neta elástica .

Ver también

Ajuste de observaciones
Estimador bayesiano MMSE
Mejor estimador lineal insesgado (AZUL)
Mejor predicción lineal insesgada (BLUP)
Teorema de Gauss-Markov
L 2 norma
Desviación mínima absoluta
Análisis espectral de mínimos cuadrados
Incertidumbre de medicion
Proyección ortogonal
Métodos de gradiente proximal para el aprendizaje.
Función de pérdida cuadrática
Media cuadrática
Desviaciones cuadradas

Referencias

^ Charnes, A .; Frome, EL; Yu, PL (1976). "La equivalencia de mínimos cuadrados generalizados y estimaciones de máxima verosimilitud en la familia exponencial". Revista de la Asociación Estadounidense de Estadística . 71 (353): 169-171. doi : 10.1080 / 01621459.1976.10481508 .
^ Mansfield Merriman, "Una lista de escritos relacionados con el método de mínimos cuadrados"
^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ Stigler, Stephen M. (1981). "Gauss y la invención de mínimos cuadrados" . Ana. Stat . 9 (3): 465–474. doi : 10.1214 / aos / 1176345451 .
^ Britannica, "Método de mínimos cuadrados"
^ Estudios de historia de probabilidad y estadística. XXIX: El descubrimiento del método de los mínimos cuadrados RL Plackett
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, MA: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.
^ Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [ Nuevos métodos para la determinación de las órbitas de los cometas ] (en francés), París: F. Didot, hdl : 2027 / nyp.33433069112559
^ Aldrich, J. (1998). "Haciendo mínimos cuadrados: perspectivas de Gauss y Yule". Revista Estadística Internacional . 66 (1): 61–81. doi : 10.1111 / j.1751-5823.1998.tb00406.x .
^ a b c d Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588 .CS1 maint: otros ( enlace )
^ Para obtener una buena introducción a los errores en las variables, consulte Fuller, WA (1987). Modelos de error de medición . John Wiley e hijos. ISBN 978-0-471-86187-4.
^ a b c d e f g h Williams, Jeffrey H. (Jeffrey Huw), 1956- (noviembre de 2016). Cuantificar la medida: la tiranía de los números . Morgan & Claypool Publishers, Instituto de Física (Gran Bretaña). San Rafael [California] (40 Oak Drive, San Rafael, CA, 94903, EE. UU.). ISBN 978-1-68174-433-9. OCLC 962422324 .CS1 maint: varios nombres: lista de autores ( enlace ) CS1 maint: ubicación ( enlace )
^ a b Rencher, Alvin C .; Christensen, William F. (15 de agosto de 2012). Métodos de análisis multivariante . John Wiley e hijos. pag. 155. ISBN 978-1-118-39167-9.
^ Gere, James M. (2013). Mecánica de materiales . Goodno, Barry J. (8ª ed.). Stamford, Connecticut: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348 .
^ a b Tibshirani, R. (1996). "Contracción de regresión y selección a través del lazo". Revista de la Sociedad Real de Estadística, Serie B . 58 (1): 267–288. JSTOR 2346178 .
^ Hastie, Trevor ; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico (segunda ed.). Springer-Verlag. ISBN 978-0-387-84858-7. Archivado desde el original el 10 de noviembre de 2009.
^ Bühlmann, Peter; van de Geer, Sara (2011). Estadísticas para datos de alta dimensión: métodos, teoría y aplicaciones . Saltador. ISBN 9783642201929.
^ Park, Trevor; Casella, George (2008). "El Lazo Bayesiano". Revista de la Asociación Estadounidense de Estadística . 103 (482): 681–686. doi : 10.1198 / 016214508000000337 . S2CID 11797924 .
^ Bach, Francis R (2008). "Bolasso: modelo de estimación de lazo consistente a través del bootstrap" . Actas de la 25ª Conferencia Internacional sobre Aprendizaje Automático : 33–40. arXiv : 0804.1302 . Código bibliográfico : 2008arXiv0804.1302B . doi : 10.1145 / 1390156.1390161 . ISBN 9781605582054. S2CID 609778 .
^ Zare, Habil (2013). "Puntuación de relevancia de características basadas en análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma" . BMC Genomics . 14 : S14. doi : 10.1186 / 1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194 .

Otras lecturas

Björck, Å. (1996). Métodos numéricos para problemas de mínimos cuadrados . SIAM. ISBN 978-0-89871-360-2.
Kariya, T .; Kurata, H. (2004). Mínimos cuadrados generalizados . Hoboken: Wiley. ISBN 978-0-470-86697-9.
Luenberger, DG (1997) [1969]. "Estimación de mínimos cuadrados" . Optimización por métodos de espacio vectorial . Nueva York: John Wiley & Sons. págs. 78-102. ISBN 978-0-471-18117-0.
Rao, CR ; Toutenburg, H .; et al. (2008). Modelos lineales: mínimos cuadrados y alternativas . Springer Series in Statistics (3ª ed.). Berlín: Springer. ISBN 978-3-540-74226-5.
Van de moortel, Koen (abril de 2021). "Análisis de regresión multidireccional" .
Wolberg, J. (2005). Análisis de datos mediante el método de mínimos cuadrados: extracción de la mayor cantidad de información de experimentos . Berlín: Springer. ISBN 978-3-540-25674-8.

enlaces externos

Medios relacionados con mínimos cuadrados en Wikimedia Commons

[1] Charnes, A .; Frome, EL; Yu, PL (1976). "La equivalencia de mínimos cuadrados generalizados y estimaciones de máxima verosimilitud en la familia exponencial". Revista de la Asociación Estadounidense de Estadística . 71 (353): 169-171. doi : 10.1080 / 01621459.1976.10481508 .

[2] Mansfield Merriman, "Una lista de escritos relacionados con el método de mínimos cuadrados"

[brertscher-3] Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.

[4] Stigler, Stephen M. (1981). "Gauss y la invención de mínimos cuadrados" . Ana. Stat . 9 (3): 465–474. doi : 10.1214 / aos / 1176345451 .

[5] Britannica, "Método de mínimos cuadrados"

[6] Estudios de historia de probabilidad y estadística. XXIX: El descubrimiento del método de los mínimos cuadrados RL Plackett

[stigler-7] Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, MA: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.

[8] Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [ Nuevos métodos para la determinación de las órbitas de los cometas ] (en francés), París: F. Didot, hdl : 2027 / nyp.33433069112559

[9] Aldrich, J. (1998). "Haciendo mínimos cuadrados: perspectivas de Gauss y Yule". Revista Estadística Internacional . 66 (1): 61–81. doi : 10.1111 / j.1751-5823.1998.tb00406.x .

[:0-10] Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588 .CS1 maint: otros ( enlace )

[11] Para obtener una buena introducción a los errores en las variables, consulte Fuller, WA (1987). Modelos de error de medición . John Wiley e hijos. ISBN 978-0-471-86187-4.

[:1-12] Williams, Jeffrey H. (Jeffrey Huw), 1956- (noviembre de 2016). Cuantificar la medida: la tiranía de los números . Morgan & Claypool Publishers, Instituto de Física (Gran Bretaña). San Rafael [California] (40 Oak Drive, San Rafael, CA, 94903, EE. UU.). ISBN 978-1-68174-433-9. OCLC 962422324 .CS1 maint: varios nombres: lista de autores ( enlace ) CS1 maint: ubicación ( enlace )

[:2-13] Rencher, Alvin C .; Christensen, William F. (15 de agosto de 2012). Métodos de análisis multivariante . John Wiley e hijos. pag. 155. ISBN 978-1-118-39167-9.

[14] Gere, James M. (2013). Mecánica de materiales . Goodno, Barry J. (8ª ed.). Stamford, Connecticut: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348 .

[tibsh-15] Tibshirani, R. (1996). "Contracción de regresión y selección a través del lazo". Revista de la Sociedad Real de Estadística, Serie B . 58 (1): 267–288. JSTOR 2346178 .

[ElementsStatLearn-16] Hastie, Trevor ; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico (segunda ed.). Springer-Verlag. ISBN 978-0-387-84858-7. Archivado desde el original el 10 de noviembre de 2009.

[17] Bühlmann, Peter; van de Geer, Sara (2011). Estadísticas para datos de alta dimensión: métodos, teoría y aplicaciones . Saltador. ISBN 9783642201929.

[18] Park, Trevor; Casella, George (2008). "El Lazo Bayesiano". Revista de la Asociación Estadounidense de Estadística . 103 (482): 681–686. doi : 10.1198 / 016214508000000337 . S2CID 11797924 .

[Bolasso-19] Bach, Francis R (2008). "Bolasso: modelo de estimación de lazo consistente a través del bootstrap" . Actas de la 25ª Conferencia Internacional sobre Aprendizaje Automático : 33–40. arXiv : 0804.1302 . Código bibliográfico : 2008arXiv0804.1302B . doi : 10.1145 / 1390156.1390161 . ISBN 9781605582054. S2CID 609778 .

[FeaLect-20] Zare, Habil (2013). "Puntuación de relevancia de características basadas en análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma" . BMC Genomics . 14 : S14. doi : 10.1186 / 1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194 .

[1]