Desviaciones mínimas absolutas

Las desviaciones mínimas absolutas ( LAD ), también conocidas como errores mínimos absolutos ( LAE ), el valor mínimo absoluto ( LAV ), el residuo mínimo absoluto ( LAR ), la suma de las desviaciones absolutas o la condición de la norma L ₁ , es un criterio de optimización estadística y el técnica de optimización estadística que se basa en ella. Similar a la técnica de mínimos cuadrados , intenta encontrar una función que se aproxime mucho a un conjunto de datos. En el caso simple de un conjunto de ( x ,y ) datos, la función de aproximación es una simple "línea de tendencia" en coordenadas cartesianas bidimensionales . El método minimiza la suma de errores absolutos (SAE) (la suma de los valores absolutos de los "residuales" verticales entre los puntos generados por la función y los puntos correspondientes en los datos). La estimación de las desviaciones mínimas absolutas también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace . Fue introducido en 1757 por Roger Joseph Boscovich . ^[1]

Formulación

Suponga que el conjunto de datos consta de los puntos ( x _i , y _i ) con i = 1, 2, ..., n . Queremos encontrar una función f tal que ${\ Displaystyle f (x_ {i}) \ approx y_ {i}.}$

Para lograr este objetivo, suponemos que la función f tiene una forma particular que contiene algunos parámetros que deben determinarse. Por ejemplo, la forma más simple sería lineal: f ( x ) = bx + c , donde b y c son parámetros cuyos valores no son conocidos, pero que nos gustaría estimar. Menos simplemente, supongamos que f ( x ) es cuadrática , lo que significa que f ( x ) = ax ² + bx + c , donde a , b y c no se conocen aún. (De manera más general, podría haber no solo un explicador x , sino múltiples explicadores, todos apareciendo como argumentos de la función f ).

Ahora buscamos valores estimados de los parámetros desconocidos que minimizan la suma de los valores absolutos de los residuos:

{\ Displaystyle S = \ sum _ {i = 1} ^ {n} | y_ {i} -f (x_ {i}) |.}

Solución

Aunque la idea de la regresión de desviaciones mínimas absolutas es tan sencilla como la de la regresión de mínimos cuadrados, la línea de desviaciones mínimas absolutas no es tan simple de calcular de manera eficiente. A diferencia de la regresión de mínimos cuadrados, la regresión de desviaciones mínimas absolutas no tiene un método de resolución analítico. Por lo tanto, se requiere un enfoque iterativo. La siguiente es una enumeración de algunos métodos de resolución de desviaciones mínimas absolutas.

Métodos basados en simplex (como el algoritmo de Barrodale-Roberts ^[2] )
- Debido a que el problema es un programa lineal , se puede aplicar cualquiera de las muchas técnicas de programación lineal (incluido el método simplex y otros).
Mínimos cuadrados ponderados repetidamente ^[3]
Método de descenso directo de Wesolowsky ^[4]
Enfoque de máxima verosimilitud de Li-Arce ^[5]
Enfoque de reducción recursiva de dimensionalidad ^[6]
Verifique todas las combinaciones de líneas de punto a punto para la suma mínima de errores

Los métodos basados en simplex son la forma "preferida" de resolver el problema de desviaciones mínimas absolutas. ^[7] Un método Simplex es un método para resolver un problema de programación lineal. El algoritmo más popular es el algoritmo Simplex modificado de Barrodale-Roberts. Los algoritmos para IRLS, el método de Wesolowsky y el método de Li se pueden encontrar en el Apéndice A de ^[7], entre otros métodos. Verificar todas las combinaciones de líneas que atraviesan dos puntos de datos (x, y) es otro método para encontrar la línea de desviaciones mínimas absolutas. Dado que se sabe que al menos una línea de desviación absoluta mínima atraviesa al menos dos puntos de datos, este método encontrará una línea comparando el SAE (Error absoluto más pequeño sobre los puntos de datos) de cada línea y eligiendo la línea con el SAE más pequeño. Además, si varias líneas tienen el mismo SAE más pequeño, las líneas delinean la región de múltiples soluciones. Aunque simple, este método final es ineficaz para grandes conjuntos de datos.

Usando programación lineal

El problema se puede resolver utilizando cualquier técnica de programación lineal en la siguiente especificación del problema. Deseamos

{\ Displaystyle {\ text {Minimizar}} \ sum _ {i = 1} ^ {n} | y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} |}

con respecto a la elección de los valores de los parámetros ${\ Displaystyle a_ {0}, \ ldots, a_ {k}}$ , donde y _i es el valor de la i- ^ésima observación de la variable dependiente, y x _ij es el valor de la i- ^ésima observación de la j- ^ésima variable independiente ( j = 1, ..., k ). Reescribimos este problema en términos de variables artificiales u _i como

{\ Displaystyle {\ text {Minimizar}} \ sum _ {i = 1} ^ {n} u_ {i}}

con respecto a

{\ Displaystyle a_ {0}, \ ldots, a_ {k}}

y

{\ Displaystyle u_ {1}, \ ldots, u_ {n}}

sujeto a

{\ Displaystyle u_ {i} \ geq y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} \, \ \, \ \, \ \, \ \, \ {\ text {para}} i = 1, \ ldots, n}

{\ Displaystyle u_ {i} \ geq - [y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} " ] \, \ \, \ {\ text {para}} i = 1, \ ldots, n.}

Estas restricciones tienen el efecto de forzar cada ${\ Displaystyle u_ {i}}$ A igual ${\ Displaystyle | y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} |}$ una vez minimizada, la función objetivo es equivalente a la función objetivo original. Dado que esta versión del enunciado del problema no contiene el operador de valor absoluto, está en un formato que puede resolverse con cualquier paquete de programación lineal.

Propiedades

Existen otras propiedades únicas de la línea de desviaciones mínimas absolutas. En el caso de un conjunto de datos ( x , y ), la línea de desviaciones mínimas absolutas siempre pasará por al menos dos de los puntos de datos, a menos que haya múltiples soluciones. Si existen múltiples soluciones, entonces la región de soluciones válidas de desviaciones mínimas absolutas estará delimitada por al menos dos líneas, cada una de las cuales pasa por al menos dos puntos de datos. De manera más general, si hay k regresores (incluida la constante), entonces al menos una superficie de regresión óptima pasará por k de los puntos de datos. ^[8]^{: pág . 936}

Este "enganche" de la línea a los puntos de datos puede ayudar a comprender la propiedad de "inestabilidad": si la línea siempre se engancha en al menos dos puntos, entonces la línea saltará entre diferentes conjuntos de puntos a medida que se alteren los puntos de datos. El "enganche" también ayuda a comprender la propiedad de "robustez": si existe un valor atípico, y una línea de desviación mínima absoluta debe engancharse a dos puntos de datos, el valor atípico probablemente no será uno de esos dos puntos porque eso no minimizará la suma de las desviaciones absolutas en la mayoría de los casos.

Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétricos alrededor de una línea horizontal, como se muestra en la Figura A a continuación.

Figura A: un conjunto de puntos de datos con simetría de reflexión y múltiples soluciones de desviaciones mínimas absolutas. El "área de solución" se muestra en verde. Las líneas verticales azules representan los errores absolutos desde la línea rosada hasta cada punto de datos. La línea rosa es una de las infinitas soluciones dentro del área verde.

Para comprender por qué hay múltiples soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es un valor S. Si uno inclinara la línea ligeramente hacia arriba, mientras se mantiene dentro de la región verde, la suma de errores aún sería S. No cambiaría porque la distancia de cada punto al la línea crece en un lado de la línea, mientras que la distancia a cada punto en el lado opuesto de la línea disminuye exactamente en la misma cantidad. Por tanto, la suma de los errores absolutos sigue siendo la misma. Además, dado que se puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay infinitas soluciones.

Ventajas y desventajas

La siguiente es una tabla que contrasta algunas propiedades del método de las desviaciones mínimas absolutas con las del método de los mínimos cuadrados (para problemas no singulares). ^[9]^[10]

Regresión ordinaria de mínimos cuadrados	Regresión de desviaciones mínimas absolutas
No muy robusto	Robusto
Solución estable	Solución inestable
Una solución*	Posiblemente múltiples soluciones

* Siempre que el número de puntos de datos sea mayor o igual al número de entidades.

El método de las desviaciones mínimas absolutas encuentra aplicaciones en muchas áreas, debido a su robustez en comparación con el método de los mínimos cuadrados. Las desviaciones mínimas absolutas son robustas porque son resistentes a valores atípicos en los datos. LAD da igual énfasis a todas las observaciones, en contraste con los mínimos cuadrados ordinarios (MCO) que, al elevar al cuadrado los residuos, da más peso a los residuos grandes, es decir, valores atípicos en los que los valores predichos están lejos de las observaciones reales. Esto puede ser útil en estudios donde los valores atípicos no necesitan tener mayor peso que otras observaciones. Si es importante dar mayor peso a los valores atípicos, el método de mínimos cuadrados es una mejor opción.

Variaciones, ampliaciones, especializaciones

Si en la suma de los valores absolutos de los residuos se generaliza la función de valor absoluto a una función de valor absoluto inclinado, que en la mitad de la línea izquierda tiene pendiente ${\ Displaystyle \ tau -1}$ y en la mitad derecha tiene pendiente ${\ Displaystyle \ tau}$ , dónde ${\ Displaystyle 0 <\ tau <1}$ , se obtiene la regresión por cuantiles . El caso de ${\ Displaystyle \ tau = 1/2}$ da la regresión estándar por las desviaciones mínimas absolutas y también se conoce como regresión mediana.

El problema de la desviación mínima absoluta puede extenderse para incluir múltiples explicadores, restricciones y regularización , por ejemplo, un modelo lineal con restricciones lineales: ^[11]

minimizar

{\ Displaystyle S (\ mathbf {\ beta}, b) = \ sum _ {i} | \ mathbf {x} '_ {i} \ mathbf {\ beta} + b-y_ {i} |}

sujeto a, por ejemplo,

{\ Displaystyle \ mathbf {x} '_ {1} \ mathbf {\ beta} + b-y_ {1} \ leq k}

dónde ${\ Displaystyle \ mathbf {\ beta}}$ es un vector de columna de coeficientes a estimar, b es una intersección a estimar, x _i es un vector de columna de las i- ^ésimas observaciones sobre los diversos explicadores, y _i es la i- ^ésima observación de la variable dependiente, y k es una constante conocida.

La regularización con LASSO también se puede combinar con LAD. ^[12]

Ver también

Referencias

^ "Regresión de la desviación mínima absoluta". La enciclopedia concisa de estadística . Saltador. 2008. pp. 299 -302. doi : 10.1007 / 978-0-387-32833-1_225 . ISBN 9780387328331.
^ I. Barrodale y FDK Roberts (1973). "Un algoritmo mejorado para la aproximación lineal discreta L ₁ ". Revista SIAM de Análisis Numérico . 10 (5): 839–848. Código Bibliográfico : 1973SJNA ... 10..839B . doi : 10.1137 / 0710069 . hdl : 1828/11491 . JSTOR 2156318 .
^ EJ Schlossmacher (diciembre de 1973). "Una técnica iterativa para el ajuste de curvas de desviaciones absolutas". Revista de la Asociación Estadounidense de Estadística . 68 (344): 857–859. doi : 10.2307 / 2284512 . JSTOR 2284512 .
^ Vaya Wesolowsky (1981). "Un nuevo algoritmo de descenso para el problema de regresión de valor mínimo absoluto". Comunicaciones en Estadística - Simulación y Computación . B10 (5): 479–491. doi : 10.1080 / 03610918108812224 .
^ Yinbo Li y Gonzalo R. Arce (2004). "Un enfoque de máxima verosimilitud para la regresión de la desviación mínima absoluta" . Revista EURASIP sobre procesamiento de señales aplicadas . 2004 (12): 1762-1769. Código bibliográfico : 2004EJASP2004 ... 61L . doi : 10.1155 / S1110865704401139 .^{[ enlace muerto permanente ]}
^ Ana Sovic Krzic y Damir Sersic (2018). "Minimización L1 mediante reducción recursiva de dimensionalidad". Procesamiento de señales . 151 : 119-129. doi : 10.1016 / j.sigpro.2018.05.002 .
^ a b William A. Pfeil, Ayudas didácticas estadísticas , tesis de licenciatura en ciencias, Instituto Politécnico de Worcester , 2006
^ Branham, RL, Jr., "Alternativas a mínimos cuadrados", Astronomical Journal 87, junio de 1982, 928-937. [1] en SAO / NASA Astrophysics Data System (ADS)
^ Para obtener un conjunto de subprogramas que demuestran estas diferencias, consulte el siguiente sitio: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html
^ Para una discusión de LAD versus OLS, vea estos artículos e informes académicos: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf y https://www.leeds.ac.uk /educol/documents/00003759.htm
^ Mingren Shi ; Mark A., Lukas (marzo de 2002). "Un algoritmo de estimación L 1 con degeneración y restricciones lineales" . Estadística computacional y análisis de datos . 39 (1): 35–55. doi : 10.1016 / S0167-9473 (01) 00049-4 .
^ Li Wang, Michael D. Gordon y Ji Zhu (diciembre de 2006). "Regresión regularizada de desviaciones mínimas absolutas y un algoritmo eficiente para el ajuste de parámetros". Actas de la Sexta Conferencia Internacional sobre Minería de Datos . págs. 690–700. doi : 10.1109 / ICDM.2006.134 .

Otras lecturas

Peter Bloomfield y William Steiger (1980). "Ajuste de curvas de desviaciones mínimas absolutas". Revista SIAM de Computación Científica . 1 (2): 290–301. doi : 10.1137 / 0901019 .
Subhash C. Narula y John F. Wellington (1982). "La regresión de la suma mínima de errores absolutos: una encuesta de vanguardia". Revista Estadística Internacional . 50 (3): 317–326. doi : 10.2307 / 1402501 . JSTOR 1402501 .
Robert F. Phillips (julio de 2002). "Estimación de las desviaciones mínimas absolutas mediante el algoritmo EM". Estadística y Computación . 12 (3): 281-285. doi : 10.1023 / A: 1020759012226 .
Enno Siemsen y Kenneth A. Bollen (2007). "Estimación de la desviación mínima absoluta en el modelado de ecuaciones estructurales". Métodos e investigación sociológicos . 36 (2): 227–265. doi : 10.1177 / 0049124107301946 .

[1] "Regresión de la desviación mínima absoluta". La enciclopedia concisa de estadística . Saltador. 2008. pp. 299 -302. doi : 10.1007 / 978-0-387-32833-1_225 . ISBN 9780387328331.

[2] I. Barrodale y FDK Roberts (1973). "Un algoritmo mejorado para la aproximación lineal discreta L ₁ ". Revista SIAM de Análisis Numérico . 10 (5): 839–848. Código Bibliográfico : 1973SJNA ... 10..839B . doi : 10.1137 / 0710069 . hdl : 1828/11491 . JSTOR 2156318 .

[3] EJ Schlossmacher (diciembre de 1973). "Una técnica iterativa para el ajuste de curvas de desviaciones absolutas". Revista de la Asociación Estadounidense de Estadística . 68 (344): 857–859. doi : 10.2307 / 2284512 . JSTOR 2284512 .

[4] Vaya Wesolowsky (1981). "Un nuevo algoritmo de descenso para el problema de regresión de valor mínimo absoluto". Comunicaciones en Estadística - Simulación y Computación . B10 (5): 479–491. doi : 10.1080 / 03610918108812224 .

[5] Yinbo Li y Gonzalo R. Arce (2004). "Un enfoque de máxima verosimilitud para la regresión de la desviación mínima absoluta" . Revista EURASIP sobre procesamiento de señales aplicadas . 2004 (12): 1762-1769. Código bibliográfico : 2004EJASP2004 ... 61L . doi : 10.1155 / S1110865704401139 .^{[ enlace muerto permanente ]}

[6] Ana Sovic Krzic y Damir Sersic (2018). "Minimización L1 mediante reducción recursiva de dimensionalidad". Procesamiento de señales . 151 : 119-129. doi : 10.1016 / j.sigpro.2018.05.002 .

[Pfeil-7] William A. Pfeil, Ayudas didácticas estadísticas , tesis de licenciatura en ciencias, Instituto Politécnico de Worcester , 2006

[8] Branham, RL, Jr., "Alternativas a mínimos cuadrados", Astronomical Journal 87, junio de 1982, 928-937. [1] en SAO / NASA Astrophysics Data System (ADS)

[9] Para obtener un conjunto de subprogramas que demuestran estas diferencias, consulte el siguiente sitio: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html

[10] Para una discusión de LAD versus OLS, vea estos artículos e informes académicos: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf y https://www.leeds.ac.uk /educol/documents/00003759.htm

[11] Mingren Shi ; Mark A., Lukas (marzo de 2002). "Un algoritmo de estimación L 1 con degeneración y restricciones lineales" . Estadística computacional y análisis de datos . 39 (1): 35–55. doi : 10.1016 / S0167-9473 (01) 00049-4 .

[12] Li Wang, Michael D. Gordon y Ji Zhu (diciembre de 2006). "Regresión regularizada de desviaciones mínimas absolutas y un algoritmo eficiente para el ajuste de parámetros". Actas de la Sexta Conferencia Internacional sobre Minería de Datos . págs. 690–700. doi : 10.1109 / ICDM.2006.134 .

[1]