Cópula de vid

Una vid es una herramienta gráfica para etiquetar restricciones en distribuciones de probabilidad de alta dimensión . Una vid regular es un caso especial en el que todas las restricciones son bidimensionales o bidimensionales condicionales. Las vides regulares generalizan los árboles y son en sí mismas especializaciones del árbol de Cantor . ^[1]

En combinación con cópulas bivariadas , las vides regulares han demostrado ser una herramienta flexible en el modelado de dependencia de alta dimensión. Las cópulas ^[2]^[3] son distribuciones multivariadas con márgenes univariados uniformes. Representar una distribución conjunta como márgenes univariados más cópulas permite separar los problemas de estimación de distribuciones univariadas de los problemas de estimación de dependencia. Esto es útil en la medida en que las distribuciones univariadas en muchos casos se pueden estimar adecuadamente a partir de los datos, mientras que la información de dependencia es conocida en forma aproximada e incluye indicadores resumidos y juicios. ^[4]^[5]Aunque el número de familias de cópulas paramétricas multivariadas con dependencia flexible es limitado, existen muchas familias paramétricas de cópulas bivariadas. Las vides regulares deben su creciente popularidad al hecho de que aprovechan las cópulas bivariadas y permiten extensiones a dimensiones arbitrarias. La teoría del muestreo y la teoría de la estimación para las vides regulares están bien desarrolladas ^[6]^[7] y la inferencia del modelo ha dejado el puesto. ^[8]^[9]^[7] Las vides regulares han demostrado ser útiles en otros problemas como el muestreo (restringido) de matrices de correlación, ^[10]^{[11] la} construcción de redes bayesianas continuas no paramétricas . ^[12]^[13]

Por ejemplo, en finanzas, se ha demostrado que las cópulas enredaderas modelan eficazmente el riesgo de cola en aplicaciones de optimización de carteras. ^[14]

La primera vid regular, avant la lettre, fue presentada por Harry Joe. ^[15] El motivo fue extender las familias de cópulas de valores extremos bivariados paramétricos a dimensiones más altas. Con este fin, introdujo lo que más tarde se llamaría D-vine . Joe ^[16] estaba interesado en una clase de distribuciones n-variables con márgenes unidimensionales dados y n ( n - 1) parámetros de dependencia, donde n - 1 parámetros corresponden a márgenes bivariados, y los otros corresponden a márgenes bivariados condicionales. En el caso de distribuciones normales multivariadas, los parámetros serían n - 1 correlaciones y ( n - 1) ( n - 2) / 2correlaciones parciales , que se observó que eran algebraicamente independientes en (-1, 1).

Una motivación completamente diferente subyace en la primera definición formal de vides en Cooke. ^{[17] Los} análisis de incertidumbre de grandes modelos de riesgo, como los realizados para la Unión Europea y la Comisión Reguladora Nuclear de los Estados Unidos para accidentes en centrales nucleares, implican cuantificar y propagar la incertidumbre sobre cientos de variables.^[18]^[19]^[20] La información de dependencia para tales estudios se había capturado con árboles de Markov , ^[21] que son árboles construidos con nodos como variables aleatorias univariadas y bordes como cópulas bivariadas. Para n variables, hay como máximo n- 1 aristas para las que se puede especificar la dependencia. Las nuevas técnicas en ese momento implicaban la obtención de distribuciones de incertidumbre en los parámetros de modelado obteniendo incertidumbres de los expertos sobre otras variables que son predichas por los modelos. Estas distribuciones de incertidumbre se recuperan en los parámetros del modelo mediante un proceso conocido como inversión probabilística. ^[8]^[18] Las distribuciones resultantes a menudo mostraban una estructura de dependencia que no podía capturarse como un árbol de Markov.

En ^[1]^[8]^[17] se introdujeron modelos gráficos llamados vides ^. Una característica importante de las vides es que pueden agregar dependencias condicionales entre variables en la parte superior de un árbol de Markov, lo que generalmente es demasiado parsimonioso para resumir la dependencia entre variables.

C-vine en 4 variables

D-vine en 4 variables

R-vine en 5 variables