Pérdida de Huber

En estadística , la pérdida de Huber es una función de pérdida utilizada en regresión robusta , que es menos sensible a los valores atípicos en los datos que la pérdida por error al cuadrado . A veces también se utiliza una variante de clasificación.

Definición

Pérdida de Huber (verde,

{\ Displaystyle \ delta = 1}

) y la pérdida de error al cuadrado (azul) en función de

{\ Displaystyle yf (x)}

La función de pérdida de Huber describe la penalización incurrida por un procedimiento de estimación $f$ . Huber (1964) define la función de pérdida por partes mediante ^[1]

{\ Displaystyle L _ {\ delta} (a) = {\ begin {cases} {\ frac {1} {2}} {a ^ {2}} & {\ text {para}} | a | \ leq \ delta , \\\ delta (| a | - {\ frac {1} {2}} \ delta), & {\ text {de lo contrario.}} \ end {cases}}}

Esta función es cuadrática para valores pequeños de $a$ , y lineal para valores grandes, con iguales valores y pendientes de las diferentes secciones en los dos puntos donde ${\ Displaystyle | a | = \ delta}$ . La variable a $a$ menudo se refiere a los residuos, es decir, a la diferencia entre los valores observados y predichos. ${\ Displaystyle a = yf (x)}$ , por lo que el primero se puede expandir a ^[2]

{\ displaystyle L _ {\ delta} (y, f (x)) = {\ begin {cases} {\ frac {1} {2}} (yf (x)) ^ {2} & {\ textrm {for} } | yf (x) | \ leq \ delta, \\\ delta \, (| yf (x) | - {\ frac {1} {2}} \ delta), & {\ textrm {de lo contrario.}} \ finalizar {casos}}}

Motivación

Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado , ${\ Displaystyle L (a) = a ^ {2}}$ , y la perdida absoluta , ${\ Displaystyle L (a) = | a |}$ . Los resultados cuadrado función de pérdida en una media aritmética - estimador insesgado , y los de valor absoluto resultados de la función de pérdida en una mediana estimador -unbiased (en el caso unidimensional, y una mediana geométrica estimador -unbiased para el caso multi-dimensional). La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos, cuando se suma un conjunto de ${\ Displaystyle a}$ 's (como en ${\ textstyle \ sum _ {i = 1} ^ {n} L (a_ {i})}$ ), la media muestral está demasiado influenciada por unos pocos ${\ Displaystyle a}$ -valores cuando la distribución es de cola pesada: en términos de la teoría de estimación , la eficiencia relativa asintótica de la media es pobre para distribuciones de cola pesada.

Como se definió anteriormente, la función de pérdida de Huber es fuertemente convexa en una vecindad uniforme de su mínimo ${\ Displaystyle a = 0}$ ; en el límite de esta vecindad uniforme, la función de pérdida de Huber tiene una extensión diferenciable a una función afín en los puntos ${\ Displaystyle a = - \ delta}$ y ${\ Displaystyle a = \ delta}$ . Estas propiedades le permiten combinar gran parte de la sensibilidad del estimador de varianza mínima y media insesgada de la media (utilizando la función de pérdida cuadrática) y la solidez del estimador de mediana insesgado (utilizando la función de valor absoluto).

Función de pérdida de pseudo-Huber

La función de pérdida de Pseudo-Huber se puede utilizar como una aproximación suave de la función de pérdida de Huber. Combina las mejores propiedades de la pérdida al cuadrado de L2 y la pérdida absoluta de L1 al ser fuertemente convexa cuando está cerca del objetivo / mínimo y menos pronunciada para los valores extremos. La escala a la que la función de pérdida de Pseudo-Huber pasa de la pérdida L2 para valores cercanos al mínimo a la pérdida L1 para valores extremos y la inclinación en valores extremos puede controlarse mediante el ${\ Displaystyle \ delta}$ valor. La función de pérdida de Pseudo-Huber asegura que las derivadas sean continuas para todos los grados. Se define como ^[3]^[4]

{\ Displaystyle L _ {\ delta} (a) = \ delta ^ {2} \ left ({\ sqrt {1+ (a / \ delta) ^ {2}}} - 1 \ right).}

Como tal, esta función se aproxima ${\ Displaystyle a ^ {2} / 2}$ para valores pequeños de ${\ Displaystyle a}$ , y se aproxima a una línea recta con pendiente ${\ Displaystyle \ delta}$ para grandes valores de ${\ Displaystyle a}$ .

Si bien lo anterior es la forma más común, también existen otras aproximaciones suaves de la función de pérdida de Huber. ^[5]

Variante de clasificación

Para fines de clasificación , a veces se usa una variante de la pérdida de Huber llamada Huber modificado . Dada una predicción ${\ Displaystyle f (x)}$ (una puntuación de clasificador de valor real) y una etiqueta de clase binaria verdadera ${\ Displaystyle y \ in \ {+ 1, -1 \}}$ , la pérdida de Huber modificada se define como ^[6]

{\ Displaystyle L (y, f (x)) = {\ begin {cases} \ max (0,1-y \, f (x)) ^ {2} & {\ textrm {para}} \, \, y \, f (x) \ geq -1, \\ - 4y \, f (x) & {\ textrm {de lo contrario.}} \ end {cases}}}

El termino ${\ Displaystyle \ max (0,1-y \, f (x))}$ es la pérdida de bisagra utilizada por las máquinas de vectores de soporte ; la pérdida de bisagra cuadráticamente suavizada es una generalización de ${\ Displaystyle L}$ . ^[6]

Aplicaciones

La función de pérdida de Huber se utiliza en estadísticas sólidas , estimación M y modelado aditivo . ^[7]

Ver también

Referencias

^ Huber, Peter J. (1964). "Estimación robusta de un parámetro de ubicación" . Annals of Statistics . 53 (1): 73–101. doi : 10.1214 / aoms / 1177703732 . JSTOR 2238020 .
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico . pag. 349. Archivado desde el original el 26 de enero de 2015.En comparación con Hastie et al. , la pérdida se escala en un factor de ½, para ser consistente con la definición original de Huber dada anteriormente.
^ Charbonnier, P .; Blanc-Feraud, L .; Aubert, G .; Barlaud, M. (1997). "Regularización determinista de conservación de bordes en imágenes computarizadas". IEEE Trans. Procesamiento de imágenes . 6 (2): 298–311. CiteSeerX 10.1.1.64.7521 . doi : 10.1109 / 83.551699 . PMID 18282924 .
^ Hartley, R .; Zisserman, A. (2003). Geometría de vista múltiple en visión artificial (2ª ed.). Prensa de la Universidad de Cambridge. pag. 619 . ISBN 978-0-521-54051-3.
^ Lange, K. (1990). "Convergencia de algoritmos de reconstrucción de imágenes con suavizado de Gibbs". IEEE Trans. Medicina. Imágenes . 9 (4): 439–446. doi : 10.1109 / 42.61759 . PMID 18222791 .
^ a b Zhang, Tong (2004). Resolver problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradientes estocásticos . ICML.
^ Friedman, JH (2001). "Aproximación de función codiciosa: una máquina de aumento de gradiente" . Annals of Statistics . 26 (5): 1189-1232. doi : 10.1214 / aos / 1013203451 . JSTOR 2699986 .

[1] Huber, Peter J. (1964). "Estimación robusta de un parámetro de ubicación" . Annals of Statistics . 53 (1): 73–101. doi : 10.1214 / aoms / 1177703732 . JSTOR 2238020 .

[2] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico . pag. 349. Archivado desde el original el 26 de enero de 2015.En comparación con Hastie et al. , la pérdida se escala en un factor de ½, para ser consistente con la definición original de Huber dada anteriormente.

[3] Charbonnier, P .; Blanc-Feraud, L .; Aubert, G .; Barlaud, M. (1997). "Regularización determinista de conservación de bordes en imágenes computarizadas". IEEE Trans. Procesamiento de imágenes . 6 (2): 298–311. CiteSeerX 10.1.1.64.7521 . doi : 10.1109 / 83.551699 . PMID 18282924 .

[4] Hartley, R .; Zisserman, A. (2003). Geometría de vista múltiple en visión artificial (2ª ed.). Prensa de la Universidad de Cambridge. pag. 619 . ISBN 978-0-521-54051-3.

[5] Lange, K. (1990). "Convergencia de algoritmos de reconstrucción de imágenes con suavizado de Gibbs". IEEE Trans. Medicina. Imágenes . 9 (4): 439–446. doi : 10.1109 / 42.61759 . PMID 18222791 .

[zhang-6] Zhang, Tong (2004). Resolver problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradientes estocásticos . ICML.

[7] Friedman, JH (2001). "Aproximación de función codiciosa: una máquina de aumento de gradiente" . Annals of Statistics . 26 (5): 1189-1232. doi : 10.1214 / aos / 1013203451 . JSTOR 2699986 .

[1]