Error absoluto medio

En estadística , el error absoluto medio ( MAE ) es una medida de errores entre observaciones emparejadas que expresan el mismo fenómeno. Los ejemplos de Y versus X incluyen comparaciones de tiempo predicho versus observado, tiempo subsiguiente versus tiempo inicial, y una técnica de medición versus una técnica alternativa de medición. MAE se calcula como:

{\ Displaystyle \ mathrm {MAE} = {\ frac {\ sum _ {i = 1} ^ {n} \ left | y_ {i} -x_ {i} \ right |} {n}} = {\ frac { \ sum _ {i = 1} ^ {n} \ left | e_ {i} \ right |} {n}}.}

^[1]

Por tanto, es un promedio aritmético de los errores absolutos ${\ Displaystyle | e_ {i} | = | y_ {i} -x_ {i} |}$ , dónde ${\ Displaystyle y_ {i}}$ es la predicción y ${\ Displaystyle x_ {i}}$ el verdadero valor. Tenga en cuenta que las formulaciones alternativas pueden incluir frecuencias relativas como factores de peso. El error absoluto medio utiliza la misma escala que los datos que se miden. Esto se conoce como una medida de precisión dependiente de la escala y, por lo tanto, no se puede utilizar para realizar comparaciones entre series que utilizan diferentes escalas. ^[2] El error absoluto medio es una medida común de error de pronóstico en el análisis de series de tiempo , ^{[3] a} veces se utiliza en confusión con la definición más estándar de desviación absoluta media . La misma confusión existe de manera más general.

Desacuerdo de cantidad y desacuerdo de asignación

2 puntos de datos para los cuales el desacuerdo de cantidad es 0 y el desacuerdo de asignación es 2 para MAE y RMSE

Es posible expresar MAE como la suma de dos componentes: desacuerdo de cantidad y desacuerdo de asignación. El desacuerdo de cantidad es el valor absoluto del error medio dado por:

${\ Displaystyle \ mathrm {ME} = {\ frac {\ sum _ {i = 1} ^ {n} y_ {i} -x_ {i}} {n}}.}$ ^[4]

El desacuerdo de asignación es MAE menos el desacuerdo de cantidad.

También es posible identificar los tipos de diferencia observando un ${\ Displaystyle (x, y)}$ gráfico. La diferencia de cantidad existe cuando el promedio de los valores de X no es igual al promedio de los valores de Y. La diferencia de asignación existe si y solo si los puntos residen en ambos lados de la línea de identidad. ^[4]^[5]

Medidas relacionadas

El error absoluto medio es una de las diversas formas de comparar los pronósticos con sus resultados finales. Las alternativas bien establecidas son el error medio absoluto escalado (MASE) y el error cuadrático medio . Todos ellos resumen el desempeño de maneras que ignoran la dirección de la predicción excesiva o insuficiente; una medida que pone énfasis en esto es la diferencia media con signo .

Cuando se va a ajustar un modelo de predicción utilizando una medida de rendimiento seleccionada, en el sentido de que el enfoque de mínimos cuadrados está relacionado con el error cuadrático medio , el equivalente para el error absoluto medio es la desviación mínima absoluta .

MAE no es idéntico al error cuadrático medio (RMSE), aunque algunos investigadores lo informan e interpretan de esa manera. MAE es conceptualmente más simple y también más fácil de interpretar que RMSE: es simplemente la distancia vertical u horizontal absoluta promedio entre cada punto en un diagrama de dispersión y la línea Y = X. En otras palabras, MAE es la diferencia absoluta promedio entre X e Y. Además, cada error contribuye a MAE en proporción al valor absoluto del error. Esto contrasta con RMSE, que implica cuadrar las diferencias, de modo que unas pocas diferencias grandes aumentarán el RMSE en mayor grado que el MAE. ^[4] Consulte el ejemplo anterior para ver una ilustración de estas diferencias.

Propiedad de optimalidad

El error absoluto medio de una variable real c con respecto a la variable aleatoria X es

{\ Displaystyle E (\ izquierda | Xc \ derecha |) \,}

A condición de que la distribución de probabilidad de X es tal que existe la expectativa de arriba, entonces m es un medio de X si y sólo si m es un minimizador del error absoluto medio con respecto a X . ^[6] En particular, m es una mediana muestral si y solo si m minimiza la media aritmética de las desviaciones absolutas. ^[7]

De manera más general, una mediana se define como un mínimo de

{\ Displaystyle E (| Xc | - | X |),}

como se discutió en Mediana multivariante (y específicamente en Mediana espacial ).

Esta definición de la mediana basada en la optimización es útil en el análisis de datos estadísticos, por ejemplo, en la agrupación de k -medians .

Prueba de optimalidad

Declaración: El clasificador minimizando ${\ Displaystyle \ mathbb {E} | y - {\ hat {y}} |}$ es ${\ displaystyle {\ hat {f}} (x) = {\ text {Mediana}} (y | X = x)}$ .

Prueba:

Las funciones de pérdida para la clasificación son

${\ Displaystyle {\ begin {alineado} L & = \ mathbb {E} [| ya || X = x] \\ & = \ int _ {- \ infty} ^ {\ infty} | ya | f_ {Y | X } (y) \, dy \\ & = \ int _ {- \ infty} ^ {a} (ay) f_ {Y | X} (y) \, dy + \ int _ {a} ^ {\ infty} ( ya) f_ {Y | X} (y) \, dy \\\ end {alineado}}}$

Diferenciando wrt a da

${\ estilo de visualización {\ frac {\ parcial} {\ parcial a}} L = \ int _ {- \ infty} ^ {a} f_ {Y | X} (y) \, dy + \ int _ {a} ^ { \ infty} -f_ {Y | X} (y) \, dy = 0}$

Esto significa

${\ Displaystyle \ int _ {- \ infty} ^ {a} f (y) \, dy = \ int _ {a} ^ {\ infty} f (y) \, dy}$

Por eso

${\ Displaystyle F_ {Y | X} (a) = 0.5}$

Ver también

Referencias

^ Willmott, Cort J .; Matsuura, Kenji (19 de diciembre de 2005). "Ventajas del error medio absoluto (MAE) sobre la raíz del error cuadrático medio (RMSE) en la evaluación del rendimiento medio del modelo" . Investigación climática . 30 : 79–82. doi : 10.3354 / cr030079 .
^ "2.5 Evaluación de la precisión del pronóstico | OTexts" . www.otexts.org . Consultado el 18 de mayo de 2016 .
^ Hyndman, R. y Koehler A. (2005). "Otro vistazo a las medidas de precisión del pronóstico" [1]
^ ^a ^b ^c Pontius Jr., Robert Gilmore; Thontteh, Olufunmilayo; Chen, Hao (2008). "Componentes de información para la comparación de múltiples resoluciones entre mapas que comparten una variable real". Estadísticas ambientales y ecológicas . 15 (2): 111-142. doi : 10.1007 / s10651-007-0043-y .
^ Willmott, CJ; Matsuura, K. (enero de 2006). "Sobre el uso de medidas de error dimensionadas para evaluar el desempeño de interpoladores espaciales". Revista Internacional de Ciencias de la Información Geográfica . 20 : 89-102. doi : 10.1080 / 13658810500286976 .
^ Stroock, Daniel (2011). Teoría de la probabilidad . Prensa de la Universidad de Cambridge. pp. 43 . ISBN 978-0-521-13250-3.
^ Nicolas, André (25 de febrero de 2012). "La mediana minimiza la suma de las desviaciones absolutas (la norma $ {L} _ {1} $)" . StackExchange .

[:0-1] Willmott, Cort J .; Matsuura, Kenji (19 de diciembre de 2005). "Ventajas del error medio absoluto (MAE) sobre la raíz del error cuadrático medio (RMSE) en la evaluación del rendimiento medio del modelo" . Investigación climática . 30 : 79–82. doi : 10.3354 / cr030079 .

[2] "2.5 Evaluación de la precisión del pronóstico | OTexts" . www.otexts.org . Consultado el 18 de mayo de 2016 .

[Hyndman2005-3] Hyndman, R. y Koehler A. (2005). "Otro vistazo a las medidas de precisión del pronóstico" [1]

[:1-4] Pontius Jr., Robert Gilmore; Thontteh, Olufunmilayo; Chen, Hao (2008). "Componentes de información para la comparación de múltiples resoluciones entre mapas que comparten una variable real". Estadísticas ambientales y ecológicas . 15 (2): 111-142. doi : 10.1007 / s10651-007-0043-y .

[:2-5] Willmott, CJ; Matsuura, K. (enero de 2006). "Sobre el uso de medidas de error dimensionadas para evaluar el desempeño de interpoladores espaciales". Revista Internacional de Ciencias de la Información Geográfica . 20 : 89-102. doi : 10.1080 / 13658810500286976 .

[6] Stroock, Daniel (2011). Teoría de la probabilidad . Prensa de la Universidad de Cambridge. pp. 43 . ISBN 978-0-521-13250-3.

[7] Nicolas, André (25 de febrero de 2012). "La mediana minimiza la suma de las desviaciones absolutas (la norma $ {L} _ {1} $)" . StackExchange .

[1]