De Wikipedia, la enciclopedia libre
Ir a navegaciónSaltar a buscar

Las distribuciones parametrizadas por cuantiles (QPD) son distribuciones de probabilidad que están directamente parametrizadas por datos. Estaban motivados por la necesidad de distribuciones de probabilidad continua fáciles de usar lo suficientemente flexibles para representar una amplia gama de incertidumbres, como las que se encuentran comúnmente en los negocios, la economía, la ingeniería y la ciencia. Dado que los QPD se parametrizan directamente mediante datos, tienen la ventaja práctica de evitar el paso intermedio de la estimación de parámetros , un proceso que requiere mucho tiempo y que normalmente requiere métodos iterativos no lineales para estimar los parámetros de distribución de probabilidad a partir de los datos. Algunos QPD tienen una flexibilidad de forma virtualmente ilimitada y también momentos de forma cerrada.

Historia

El desarrollo de distribuciones parametrizadas por cuantiles se inspiró en la necesidad práctica de distribuciones de probabilidad continuas flexibles que sean fáciles de ajustar a los datos. Históricamente, las familias de distribuciones de Pearson [1] y Johnson [2] [3] se han utilizado cuando se necesita flexibilidad de forma. Esto se debe a que ambas familias pueden coincidir con los primeros cuatro momentos (media, varianza, asimetría y curtosis) de cualquier conjunto de datos. En muchos casos, sin embargo, estas distribuciones son difíciles de ajustar a los datos o no son lo suficientemente flexibles para ajustarse a los datos de manera adecuada.

Por ejemplo, la distribución beta es una distribución de Pearson flexible que se utiliza con frecuencia para modelar los porcentajes de una población. Sin embargo, si las características de esta población son tales que la función de distribución acumulativa (CDF) deseada debe ejecutarse a través de ciertos puntos CDF específicos, es posible que no haya una distribución beta que satisfaga esta necesidad. Debido a que la distribución beta tiene solo dos parámetros de forma, no puede, en general, igualar ni siquiera tres puntos CDF especificados. Además, los parámetros beta que mejor se ajustan a dichos datos solo se pueden encontrar mediante métodos iterativos no lineales.

Los profesionales del análisis de decisiones , que necesitan distribuciones parametrizadas fácilmente por tres o más puntos CDF (por ejemplo, porque tales puntos se especificaron como resultado de un proceso de obtención de expertos ), originalmente inventaron distribuciones parametrizadas por cuantiles para este propósito. Keelin y Powley (2011) [4] proporcionaron la definición original. Posteriormente, Keelin (2016) [5] desarrolló las distribuciones metalog , una familia de distribuciones parametrizadas por cuantiles que tiene una flexibilidad de forma virtualmente ilimitada, ecuaciones simples y momentos de forma cerrada.

Definición

Keelin y Powley [4] definen una distribución parametrizada por cuantiles como aquella cuya función cuantílica (CDF inversa) se puede escribir en la forma

donde

y las funciones son funciones de base continuamente diferenciables y linealmente independientes. Aquí, esencialmente, y son los límites inferior y superior (si existen) de una variable aleatoria con función de cuantiles . Estas distribuciones se denominan parametrizadas por cuantiles porque para un conjunto dado de pares de cuantiles, donde y un conjunto de funciones de base , los coeficientes se puede determinar resolviendo un conjunto de ecuaciones lineales. [4] Si se desea utilizar más pares de cuantiles que funciones base, entonces los coeficientes se puede elegir para minimizar la suma de errores cuadrados entre los cuantiles establecidos y . Keelin y Powley [4] ilustran este concepto para una elección específica de funciones base que es una generalización de la función cuantílica de la distribución normal ,, por lo cual la media y desviación estándar son funciones lineales de probabilidad acumulada :

El resultado es una distribución de cuatro parámetros que se puede ajustar exactamente a un conjunto de cuatro pares cuantil / probabilidad, oa cualquier número de tales pares por mínimos cuadrados lineales . Keelin y Powley [4] llaman a esto la distribución simple Q-Normal. En las figuras siguientes se muestran algunos PDF sencillos Q-Normal sesgados y simétricos.

PDFs Q-Normal simétricos simples
PDF Simétricos Simples Q-Normal
PDF Q-Normal simples sesgados

Propiedades

Los QPD que cumplen con la definición de Keelin y Powley tienen las siguientes propiedades.

Función de densidad de probabilidad

Diferenciando con respecto a rendimientos . El recíproco de esta cantidad,, es la función de densidad de probabilidad (PDF)

donde . Tenga en cuenta que esta PDF se expresa en función de la probabilidad acumulada en vez de . Para trazarlo, como se muestra en las figuras, varíeparamétricamente. Trama en el eje horizontal y en el eje vertical.

Viabilidad

Una función de la forma de es una distribución de probabilidad factible si y solo si para todos . [4] Esto implica una restricción de viabilidad en el conjunto de coeficientes.:

para todos

En aplicaciones prácticas, la viabilidad generalmente debe verificarse en lugar de asumirse.

Convexidad

Conjunto de coeficientes factibles de un QPD para todos es convexo . Debido a que la optimización convexa requiere conjuntos factibles convexos, esta propiedad simplifica las aplicaciones de optimización que involucran QPD.

Ajustando a los datos

Los coeficientes se puede determinar a partir de datos mediante mínimos cuadrados lineales . Dado puntos de datos que pretenden caracterizar la CDF de un QPD, y matriz cuyos elementos consisten en , entonces, siempre que es invertible, vector de columna de coeficientes se puede determinar como , donde y vector de columna . Si, esta ecuación se reduce a , donde el CDF resultante pasa exactamente por todos los puntos de datos. Un método alternativo, implementado como un programa lineal, determina los coeficientes minimizando la suma de distancias absolutas entre la CDF y los datos sujetos a restricciones de viabilidad. [6]

Flexibilidad de forma

Un QPD con términos, donde , posee parámetros de forma. Por lo tanto, los QPD pueden ser mucho más flexibles que las distribuciones de Pearson , que tienen como máximo dos parámetros de forma. Por ejemplo, se ha demostrado que las distribuciones de metalog de diez términos parametrizadas por 105 puntos CDF de 30 distribuciones de fuentes tradicionales (incluidas normal, student-t, lognormal, gamma, beta y valor extremo) se aproximan a cada una de estas distribuciones de fuentes dentro de un K-S distancia de 0,001 o menos. [7]

Transformaciones

Las transformaciones QPD se rigen por una propiedad general de las funciones cuantílicas: para cualquier función cuantílica y función creciente es una función de cuantiles . [8] Por ejemplo, la función cuantil de la distribución normal ,, es un QPD según la definición de Keelin y Powley. El logaritmo natural,, es una función creciente, por lo que es la función cuantil de la distribución logarítmica normal con límite inferior. Es importante destacar que esta transformación convierte un QPD ilimitado en un QPD semilimitado. De manera similar, la aplicación de esta transformación logarítmica a la distribución de metalog no delimitada [9] produce la distribución de metalog semi-acotada (log) ; [10] asimismo, aplicando la transformación logit,, produce la distribución de metalog acotada (logit) [10] con límites superior e inferior y , respectivamente. Además, al considerar ser - estar distribuido, donde es cualquier QPD que cumple con la definición de Keelin y Powley, la variable transformada mantiene las propiedades anteriores de factibilidad, convexidad y ajuste a los datos. Dichos QPD transformados tienen mayor flexibilidad de forma que los subyacentes., que tiene parámetros de forma; la transformación logarítmica tiene parámetros de forma, y ​​la transformación logit tiene parámetros de forma. Además, dichos QPD transformados comparten el mismo conjunto de coeficientes factibles que el QPD subyacente no transformado. [11]


Momentos

El momento de un QPD es: [4]

Si tales momentos existen en forma cerrada depende de la elección de las funciones base QPD . La distribución ilimitada de metalog y los QPD polinomiales son ejemplos de QPD para los que existen momentos en forma cerrada como funciones de los coeficientes..

Simulación

Dado que la función cuantil se expresa en forma cerrada, los QPD de Keelin y Powley facilitan la simulación de Monte Carlo . Sustituyendo en muestras aleatorias distribuidas uniformemente de produce muestras aleatorias de en forma cerrada, eliminando así la necesidad de invertir un CDF expresado como .

Distribuciones relacionadas

Las siguientes distribuciones de probabilidad son QPD según la definición de Keelin y Powley:

  • La función cuantil de la distribución normal ,.
  • La función cuantílica de la distribución de Gumbel ,.
  • La función cuantil de la distribución de Cauchy ,.
  • La función cuantílica de la distribución logística ,.
  • La distribución ilimitada de metalog , que es una expansión en serie de potencia de la y parámetros de la función cuantílica logística.
  • Las distribuciones de metalog semilimitadas y limitadas , que son las transformaciones log y logit, respectivamente, de la distribución de metalog ilimitada.
  • Las distribuciones de metalog de SPT (triplete de percentil simétrico) ilimitado, semilimitado y acotado , que se parametrizan mediante tres puntos CDF y límites superior e inferior opcionales.
  • La distribución simple Q-Normal [12]
  • Las metadistribuciones, incluida la metanormal [13]
  • Funciones cuantiles expresadas como funciones polinomiales de probabilidad acumulativa, incluidas las funciones polinomiales de Chebyshev .

Al igual que las distribuciones de metalog de SPT, las distribuciones parametrizadas por cuantiles de Johnson [14] [15] (JQPD) están parametrizadas por tres cuantiles. Los JQPD no cumplen con la definición de QPD de Keelin y Powley, sino que tienen sus propias propiedades. Los JQPD son factibles para todos los conjuntos de parámetros de SPT que son consistentes con las reglas de probabilidad .

Aplicaciones

Las aplicaciones originales de las QPD fueron realizadas por analistas de decisiones que deseaban convertir convenientemente los cuantiles evaluados por expertos (por ejemplo, los cuantiles 10, 50 y 90) en distribuciones de probabilidad continuas y uniformes. Los QPD también se han utilizado para ajustar los datos de salida de las simulaciones a fin de representar esos resultados (tanto CDF como PDF) como distribuciones continuas de forma cerrada. [16] Usados ​​de esta manera, suelen ser más estables y suaves que los histogramas. De manera similar, dado que los QPD pueden imponer menos restricciones de forma que las distribuciones tradicionales, se han utilizado para ajustar una amplia gama de datos empíricos a fin de representar esos conjuntos de datos como distribuciones continuas (por ejemplo, reflejando la bimodalidad que puede existir en los datos de una manera sencilla [17]). La parametrización de cuantiles permite una representación QPD de forma cerrada de distribuciones conocidas cuyas CDF, de otro modo, no tienen expresión de forma cerrada. Keelin y col. (2019) [18] aplican esto a la suma de distribuciones logarítmicas normales independientes distribuidas de forma idéntica, donde los cuantiles de la suma se pueden determinar mediante un gran número de simulaciones. Nueve de esos cuantiles se utilizan para parametrizar una distribución de metalogs semilimitada que atraviesa exactamente cada uno de estos nueve cuantiles. También se han aplicado QPD para evaluar los riesgos de impacto de asteroides, [19] ciberseguridad, [6] [20] sesgos en las proyecciones de la producción de yacimientos petrolíferos en comparación con la producción observada después del hecho, [21]y proyecciones futuras de la población canadiense basadas en la combinación de puntos de vista probabilísticos de múltiples expertos. [22] Ver distribuciones de metalog y Keelin (2016) [5] para aplicaciones adicionales de la distribución de metalog.


Enlaces externos

  • Las distribuciones de Metalog, www.metalogs.org

Referencias

  1. ^ Johnson NL, Kotz S, Balakrishnan N. Distribuciones univariadas continuas, Vol 1, Segunda edición, John Wiley & Sons, Ltd, 1994, págs. 15-25.
  2. ^ Johnson, NL (1949). "Sistemas de curvas de frecuencia generadas por métodos de traducción". Biometrika. 36 (1/2): 149-176. doi: 10.2307 / 2332539.
  3. ^ Tadikamalla, PR y Johnson, NL (1982). “Sistemas de curvas de frecuencia generadas por transformaciones de variables logísticas”. Biometrika. 69 (2): 461–465.
  4. ↑ a b c d e f g Keelin, TW y Powley, BW (2011). "Distribuciones parametrizadas por cuantiles". Análisis de decisión. 8 (3): 206–219.
  5. ↑ a b Keelin, TW (2016). "Las distribuciones de Metalog". Análisis de decisión. 13 (4): 243–277.
  6. ↑ a b Faber, IJ (2019). Gestión de riesgos cibernéticos: advertencias de amenazas generadas por IA (tesis doctoral, Universidad de Stanford).
  7. ^ Keelin, TW (2016), tabla 8
  8. ^ Gilchrist, W., 2000. Modelado estadístico con funciones de cuantiles. Prensa CRC.
  9. ^ Keelin, TW (2016), sección 3, págs. 249-257.
  10. ^ a b Keelin, TW (2016), Sección 4.
  11. ^ Powley, BW (2013). “Métodos de función cuantílica para análisis de decisiones”. Corolario 12, p. 30. Tesis doctoral, Universidad de Stanford
  12. ^ Keelin, TW y Powley, BW (2011), págs. 208-210
  13. ^ Keelin, TW (2016), p. 253.
  14. ^ Hadlock, CC y Bickel, JE, 2017. Distribuciones de Johnson parametrizadas por cuantiles. Análisis de decisiones, 14 (1), págs. 35–64.
  15. ^ Hadlock, CC y Bickel, JE, 2019. El sistema de distribución generalizado con parámetros de cuantiles de Johnson. Análisis de decisiones, 14 (1), págs. 333.
  16. ^ Keelin, TW (2016), sección 6.2.2, págs. 271–274.
  17. ^ Keelin, TW (2016), sección 6.1.1, figura 10, págs. 266-267.
  18. ^ Keelin, TW, Chrisman, L. y Savage, SL (2019). "Las distribuciones de metalog y sumas extremadamente precisas de lognormales en forma cerrada". WSC '19: Actas de la Conferencia de simulación de invierno. 3074–3085.
  19. ^ Reinhardt, JD, Chen, X., Liu, W., Manchev, P. y Pate-Cornell, ME (2016). "Evaluación del riesgo de asteroides: un enfoque probabilístico". Análisis de riesgo. 36 (2): 244–261
  20. ^ Wang, J., Neil, M. y Fenton, N. (2020). "Un enfoque de red bayesiana para la evaluación de riesgos de ciberseguridad que implementa y extiende el modelo FAIR". Computadoras y seguridad. 89: 101659.
  21. ^ Bratvold, RB, Mohus, E., Petutschnig, D. y Bickel, E. (2020). "Previsión de producción: optimista y con exceso de confianza, una y otra vez". Sociedad de Ingenieros Petroleros. doi: 10.2118 / 195914-PA.
  22. ^ Dion, P., Galbraith, N., Sirag, E. (2020). "Uso de la elicitación de expertos para construir suposiciones de proyección a largo plazo". En Desarrollos en la predicción demográfica, capítulo 3, págs. 43–62. Saltador