En la optimización matemática y la teoría de decisiones , una función de pérdida o función de costo (a veces también llamada función de error ) [1] es una función que mapea un evento o valores de una o más variables en un número real que representa intuitivamente algún "costo" asociado con el evento. Un problema de optimización busca minimizar una función de pérdida. Una función objetivo es una función de pérdida o su función negativa (en dominios específicos, denominada de forma diversa función de recompensa , función de beneficio , función de utilidad ,función de fitness , etc.), en cuyo caso debe maximizarse.
En estadística, normalmente se utiliza una función de pérdida para la estimación de parámetros , y el evento en cuestión es una función de la diferencia entre los valores estimados y verdaderos para una instancia de datos. El concepto, tan antiguo como Laplace , fue reintroducido en las estadísticas por Abraham Wald a mediados del siglo XX. [2] En el contexto de la economía , por ejemplo, esto suele ser un costo económico o un arrepentimiento . En clasificación , es la sanción por una clasificación incorrecta de un ejemplo. En la ciencia actuarial , se utiliza en un contexto de seguros para modelar los beneficios pagados sobre las primas, particularmente desde los trabajos de Harald Cramér en la década de 1920. [3] En un control óptimo , la pérdida es la penalización por no lograr el valor deseado. En la gestión de riesgos financieros , la función se asigna a una pérdida monetaria.
En la estadística clásica (tanto frecuentista como bayesiana), una función de pérdida se trata típicamente como una especie de convención matemática de fondo [se necesita aclaración ] [¿ según quién? ] .
Ejemplos de
Arrepentirse
Leonard J. Savage argumentó que al usar métodos no bayesianos como minimax , la función de pérdida debe basarse en la idea de arrepentimiento , es decir, la pérdida asociada con una decisión debe ser la diferencia entre las consecuencias de la mejor decisión que podría haber sido si se hubieran conocido las circunstancias subyacentes y la decisión que de hecho se tomó antes de que se conocieran.
Función de pérdida cuadrática
El uso de una función de pérdida cuadrática es común, por ejemplo, cuando se usan técnicas de mínimos cuadrados . A menudo es más manejable matemáticamente que otras funciones de pérdida debido a las propiedades de las variaciones , además de ser simétrico: un error por encima del objetivo causa la misma pérdida que la misma magnitud de error por debajo del objetivo. Si el objetivo es t , entonces una función de pérdida cuadrática es
para alguna constante C ; el valor de la constante no hace ninguna diferencia en una decisión y se puede ignorar estableciéndolo igual a 1.
Muchas estadísticas comunes , incluidas las pruebas t , los modelos de regresión , el diseño de experimentos y mucho más, utilizan métodos de mínimos cuadrados aplicados mediante la teoría de la regresión lineal , que se basa en la función de pérdida cuadrática.
La función de pérdida cuadrática también se utiliza en problemas de control óptimo lineal-cuadrático . En estos problemas, incluso en ausencia de incertidumbre, puede que no sea posible lograr los valores deseados de todas las variables objetivo. A menudo, la pérdida se expresa como una forma cuadrática en las desviaciones de las variables de interés de sus valores deseados; este enfoque es manejable porque da como resultado condiciones lineales de primer orden . En el contexto del control estocástico , se utiliza el valor esperado de la forma cuadrática.
Función de pérdida 0-1
En estadística y teoría de decisiones , una función de pérdida de uso frecuente es la función de pérdida 0-1
Construcción de funciones objetivas y de pérdida
En muchas aplicaciones, las funciones objetivas, incluidas las funciones de pérdida como un caso particular, están determinadas por la formulación del problema. En otras situaciones, la preferencia de quien toma las decisiones debe ser obtenida y representada por una función de valor escalar (también llamada función de utilidad ) en una forma adecuada para la optimización, el problema que Ragnar Frisch ha destacado en su conferencia del Premio Nobel. [4] Los métodos existentes para construir funciones objetivas se recogen en las actas de dos conferencias especializadas. [5] [6] En particular, Andranik Tangian mostró que las funciones objetivas más utilizables, cuadráticas y aditivas, están determinadas por unos pocos puntos de indiferencia. Usó esta propiedad en los modelos para construir estas funciones objetivas a partir de datos ordinales o cardinales que se obtuvieron a través de entrevistas asistidas por computadora con tomadores de decisiones. [7] [8] Entre otras cosas, construyó funciones objetivas para distribuir de manera óptima los presupuestos de 16 universidades de Westfalia [9] y los subsidios europeos para igualar las tasas de desempleo entre 271 regiones alemanas. [10]
Pérdida esperada
En algunos contextos, el valor de la función de pérdida en sí es una variable aleatoria, ya que depende del resultado de una variable aleatoria X .
Estadísticas
Tanto la teoría estadística frecuentista como la bayesiana implican tomar una decisión basada en el valor esperado de la función de pérdida; sin embargo, esta cantidad se define de manera diferente bajo los dos paradigmas.
Pérdida esperada frecuentista
Primero definimos la pérdida esperada en el contexto frecuentista. Se obtiene tomando el valor esperado con respecto a la distribución de probabilidad, P θ , de los datos observados, X . Esto también se conoce como la función de riesgo [11] [12] [13] [14] de la regla de decisión δ y el parámetro θ . Aquí la regla de decisión depende del resultado de la X . La función de riesgo viene dada por:
Aquí, θ es un estado de naturaleza fijo pero posiblemente desconocido, X es un vector de observaciones extraídas estocásticamente de una población ,es la expectativa sobre todos los valores de población de X , dP θ es una medida de probabilidad sobre el espacio caso de X (parametrizada por θ ) y la integral se evalúa sobre todo el apoyo de X .
Pérdida esperada bayesiana
En un enfoque bayesiano, la expectativa se calcula utilizando la distribución posterior π * del parámetro θ :
Luego, se debe elegir la acción a * que minimiza la pérdida esperada. Aunque esto resultará en elegir la misma acción que se elegiría usando el riesgo frecuentista, el énfasis del enfoque bayesiano es que uno solo está interesado en elegir la acción óptima bajo los datos observados reales, mientras que elegir la regla de decisión óptima frecuentista real, que es una función de todas las posibles observaciones, es un problema mucho más difícil.
Ejemplos en estadística
- Para un parámetro escalar θ , una función de decisión cuya salidaes una estimación de θ , y una función de pérdida cuadrática ( pérdida de error al cuadrado )
- la función de riesgo se convierte en el error cuadrático medio de la estimación,
- En la estimación de densidad , el parámetro desconocido es la propia densidad de probabilidad . La función de pérdida se elige típicamente para que sea una norma en un espacio funcional apropiado . Por ejemplo, para la norma L 2 ,
- la función de riesgo se convierte en el error cuadrático integrado medio
Elección económica bajo incertidumbre
En economía, la toma de decisiones en condiciones de incertidumbre a menudo se modela utilizando la función de utilidad de von Neumann-Morgenstern de la variable incierta de interés, como la riqueza al final del período. Dado que el valor de esta variable es incierto, también lo es el valor de la función de utilidad; es el valor esperado de utilidad que se maximiza.
Reglas de decisión
Una regla de decisión toma una decisión utilizando un criterio de optimalidad. Algunos criterios de uso común son:
- Minimax : elija la regla de decisión con la peor pérdida más baja, es decir, minimice la pérdida del peor caso (máxima posible):
- Invarianza : elija la regla de decisión óptima que satisfaga un requisito de invariancia.
- Elija la regla de decisión con la pérdida promedio más baja (es decir, minimice el valor esperado de la función de pérdida):
Seleccionar una función de pérdida
Una práctica estadística sólida requiere seleccionar un estimador consistente con la variación aceptable real experimentada en el contexto de un problema aplicado particular. Por lo tanto, en el uso aplicado de funciones de pérdida, la selección del método estadístico que se utilizará para modelar un problema aplicado depende de conocer las pérdidas que se experimentarán por estar equivocado en las circunstancias particulares del problema. [15]
Un ejemplo común implica estimar la " ubicación ". Bajo supuestos estadísticos típicos, la media o promedio es la estadística para estimar la ubicación que minimiza la pérdida esperada experimentada bajo la función de pérdida de error al cuadrado , mientras que la mediana es el estimador que minimiza la pérdida esperada experimentada bajo la función de pérdida de diferencia absoluta. Los estimadores aún diferentes serían óptimos en otras circunstancias menos comunes.
En economía, cuando un agente es neutral al riesgo , la función objetivo se expresa simplemente como el valor esperado de una cantidad monetaria, como ganancias, ingresos o riqueza al final del período. Para los agentes reacios al riesgo o amantes del riesgo , la pérdida se mide como el valor negativo de una función de utilidad , y la función objetivo a optimizar es el valor esperado de utilidad.
Son posibles otras medidas de costo, por ejemplo, la mortalidad o la morbilidad en el campo de la salud pública o la ingeniería de seguridad .
Para la mayoría de los algoritmos de optimización , es deseable tener una función de pérdida que sea globalmente continua y diferenciable .
Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado ,, y la perdida absoluta ,. Sin embargo, la pérdida absoluta tiene la desventaja de que no es diferenciable en. La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos, cuando se suma un conjunto de's (como en ), La suma final tiende a ser el resultado de unos pocos particularmente grande un -valores, en lugar de una expresión de la media de un valor P.
La elección de una función de pérdida no es arbitraria. Es muy restrictivo y, a veces, la función de pérdida puede caracterizarse por sus propiedades deseables. [16] Entre los principios de elección se encuentran, por ejemplo, el requisito de integridad de la clase de estadísticas simétricas en el caso de observaciones iid , el principio de información completa y algunos otros.
W. Edwards Deming y Nassim Nicholas Taleb argumentan que la realidad empírica, no las buenas propiedades matemáticas, debería ser la única base para seleccionar las funciones de pérdida, y las pérdidas reales a menudo no son matemáticamente agradables y no son diferenciables, continuas, simétricas, etc. Por ejemplo, una persona que llega antes del cierre de la puerta de un avión todavía puede hacer el avión, pero una persona que llega después no puede, una discontinuidad y asimetría que hace que llegar un poco tarde sea mucho más costoso que llegar un poco antes. En la dosificación de medicamentos, el costo de muy poco medicamento puede ser la falta de eficacia, mientras que el costo de demasiado puede ser una toxicidad tolerable, otro ejemplo de asimetría. El tráfico, las tuberías, las vigas, las ecologías, los climas, etc. pueden tolerar un aumento de la carga o el estrés con pocos cambios notables hasta cierto punto, y luego retroceder o romperse catastróficamente. Estas situaciones, argumentan Deming y Taleb, son comunes en los problemas de la vida real, quizás más comunes que los casos clásicos de diferenciales suaves, continuos, simétricos. [17]
Ver también
- Arrepentimiento bayesiano
- Funciones de pérdida para clasificación
- Pérdida máxima descontada
- Pérdida de bisagra
- Regla de puntuación
- Riesgo estadístico
Referencias
- ↑ Raschka, Sebastian (2019). Aprendizaje automático de Python: aprendizaje automático y aprendizaje profundo con python, scikit-learn y tensorflow 2 . Birmingham: Packt Publishing, Limited. pag. 37 - 38. ISBN 1-78995-829-6. OCLC 1135663723 .
- ^ Wald, A. (1950). Funciones de decisión estadística . Wiley.
- ^ Cramér, H. (1930). Sobre la teoría matemática del riesgo . Centraltryckeriet .
- ^ Frisch, Ragnar (1969). "De la teoría utópica a las aplicaciones prácticas: el caso de la econometría". La conferencia del Premio Nobel . Consultado el 15 de febrero de 2021 .
- ^ Tangian, Andranik; Gruber, Josef (1997). Construcción de funciones objetivas con valores escalares. Actas de la Tercera Conferencia Internacional sobre Modelos Econométricos de Decisión: Construcción de Funciones Objetivo con Valor Escalar, Universidad de Hagen, celebrada en Katholische Akademie Schwerte del 5 al 8 de septiembre de 1995 . Apuntes de clases en Economía y Sistemas Matemáticos. 453 . Berlín: Springer. doi : 10.1007 / 978-3-642-48773-6 . ISBN 978-3-540-63061-6.
- ^ Tangian, Andranik; Gruber, Josef (2002). Construcción y aplicación de funciones objetivas. Actas de la Cuarta Conferencia Internacional sobre Modelos Econométricos de Decisión Construyendo y Aplicando Funciones Objetivas, Universidad de Hagen, celebrada en Haus Nordhelle, del 28 al 31 de agosto de 2000 . Apuntes de clases en Economía y Sistemas Matemáticos. 510 . Berlín: Springer. doi : 10.1007 / 978-3-642-56038-5 . ISBN 978-3-540-42669-1.
- ^ Tangian, Andranik (2002). "Construcción de una función objetivo cuadrática cuasi-cóncava de entrevistar a un tomador de decisiones". Revista europea de investigación operativa . 141 (3): 608–640. doi : 10.1016 / S0377-2217 (01) 00185-0 . S2CID 39623350 .
- ^ Tangian, Andranik (2004). "Un modelo para la construcción ordinal de funciones objetivo aditivas". Revista europea de investigación operativa . 159 (2): 476–512. doi : 10.1016 / S0377-2217 (03) 00413-2 . S2CID 31019036 .
- ^ Tangian, Andranik (2004). "Redistribución de los presupuestos universitarios con respecto al statu quo". Revista europea de investigación operativa . 157 (2): 409–428. doi : 10.1016 / S0377-2217 (03) 00271-6 .
- ^ Tangian, Andranik (2008). "Optimización multicriterio de la política de empleo regional: un análisis de simulación para Alemania" . Revisión de Desarrollo Urbano y Regional . 20 (2): 103-122. doi : 10.1111 / j.1467-940X.2008.00144.x .
- ^ Nikulin, MS (2001) [1994], "Riesgo de un procedimiento estadístico" , Enciclopedia de Matemáticas , EMS Press
- ^ Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Nueva York: Springer-Verlag. Bibcode : 1985sdtb.book ..... B . ISBN 978-0-387-96098-2. Señor 0804611 .
- ^ DeGroot, Morris (2004) [1970]. Decisiones estadísticas óptimas . Biblioteca de clásicos de Wiley. ISBN 978-0-471-68029-1. Señor 2288194 .
- ^ Robert, Christian P. (2007). La elección bayesiana . Springer Texts in Statistics (2ª ed.). Nueva York: Springer. doi : 10.1007 / 0-387-71599-1 . ISBN 978-0-387-95231-4. Señor 1835885 .
- ^ Pfanzagl, J. (1994). Teoría estadística paramétrica . Berlín: Walter de Gruyter. ISBN 978-3-11-013863-4.
- ^ En el capítulo 2 del libro se ofrece información detallada sobre los principios matemáticos de la elección de la función de pérdida. Klebanov, B .; Rachev, Svetlozat T .; Fabozzi, Frank J. (2009). Modelos robustos y no robustos en estadística . Nueva York: Nova Scientific Publishers, Inc. (y referencias allí).
- ^ Deming, W. Edwards (2000). Fuera de la crisis . La prensa del MIT. ISBN 9780262541152.
Otras lecturas
- Aretz, Kevin; Bartram, Söhnke M .; Pope, Peter F. (abril-junio de 2011). "Funciones de pérdida asimétrica y la racionalidad de los rendimientos esperados de las acciones". Revista Internacional de Pronósticos . 27 (2): 413–437. doi : 10.1016 / j.ijforecast.2009.10.008 . SSRN 889323 .
- Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Nueva York: Springer-Verlag. Bibcode : 1985sdtb.book ..... B . ISBN 978-0-387-96098-2. Señor 0804611 .
- Cecchetti, S. (2000). "Haciendo política monetaria: objetivos y reglas" . Oxford Review of Economic Policy . 16 (4): 43–59. doi : 10.1093 / oxrep / 16.4.43 .
- Horowitz, Ann R. (1987). "Pérdida de funciones y políticas públicas". Revista de Macroeconomía . 9 (4): 489–504. doi : 10.1016 / 0164-0704 (87) 90016-4 .
- Waud, Roger N. (1976). "Funciones de utilidad asimétricas de Policymaker y política óptima bajo incertidumbre". Econometrica . 44 (1): 53–66. doi : 10.2307 / 1911380 . JSTOR 1911380 .