Bootstrapping poblaciones

Comenzando con una muestra ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}$ observado a partir de una variable aleatoria X que tiene una ley de distribución dada con un conjunto de parámetros no fijos que denotamos con un vector ${\ displaystyle {\ boldsymbol {\ theta}}}$ , un problema de inferencia paramétrica consiste en calcular valores adecuados, llamémoslos estimaciones , de estos parámetros precisamente sobre la base de la muestra. Una estimación es adecuada si reemplazarla con el parámetro desconocido no causa un daño importante en los próximos cálculos. En la inferencia algorítmica , la idoneidad de una estimación se lee en términos de compatibilidad con la muestra observada.

En este marco, los métodos de remuestreo tienen como objetivo generar un conjunto de valores candidatos para reemplazar los parámetros desconocidos que leemos como réplicas compatibles de ellos. Representan una población de especificaciones de un vector aleatorio. ${\ Displaystyle {\ boldsymbol {\ Theta}}}$ ^[1] compatible con una muestra observada, donde la compatibilidad de sus valores tiene las propiedades de una distribución de probabilidad. Al introducir parámetros en la expresión de la ley de distribución cuestionada, arrancamos poblaciones enteras de variables aleatorias compatibles con la muestra observada.

El fundamento de los algoritmos que calculan las réplicas, que denominamos procedimientos de arranque de población , es identificar un conjunto de estadísticas. ${\ Displaystyle \ {s_ {1}, \ ldots, s_ {k} \}}$ exhibiendo propiedades específicas, denotando un buen comportamiento , con los parámetros desconocidos. Las estadísticas se expresan en función de los valores observados. ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}$ , por definición. La ${\ Displaystyle x_ {i}}$ puede expresarse como una función de los parámetros desconocidos y una especificación de semilla aleatoria ${\ Displaystyle z_ {i}}$ a través del mecanismo de muestreo ${\ Displaystyle (g _ {\ boldsymbol {\ theta}}, Z)}$ , en turno. Luego, sustituyendo la segunda expresión en la primera, obtenemos ${\ Displaystyle s_ {j}}$ expresiones en función de semillas y parámetros - las ecuaciones maestras - que invertimos para encontrar valores de estas últimas en función de: i) las estadísticas, cuyos valores a su vez se fijan en los observados; y ii) las semillas, que son aleatorias según su propia distribución. Por lo tanto, de un conjunto de muestras de semillas obtenemos un conjunto de réplicas de parámetros.

Método

Dado un ${\ Displaystyle {\ boldsymbol {x}} = \ {x_ {1}, \ ldots, x_ {m} \}}$ de una variable aleatoria X y un mecanismo de muestreo ${\ Displaystyle (g _ {\ boldsymbol {\ theta}}, Z)}$ para X , la realización x viene dada por ${\ displaystyle {\ boldsymbol {x}} = \ {g _ {\ boldsymbol {\ theta}} (z_ {1}), \ ldots, g _ {\ boldsymbol {\ theta}} (z_ {m}) \}}$ , con ${\ displaystyle {\ boldsymbol {\ theta}} = (\ theta _ {1}, \ ldots, \ theta _ {k})}$ . Centrándose en estadísticas de buen comportamiento ,

{\ Displaystyle s_ {1} = h_ {1} (x_ {1}, \ ldots, x_ {m}),}

{\ Displaystyle \ vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ vdots}

{\ Displaystyle s_ {k} = h_ {k} (x_ {1}, \ ldots, x_ {m}),}

para sus parámetros, las ecuaciones maestras leen

${\ Displaystyle s_ {1} = h_ {1} (g _ {\ boldsymbol {\ theta}} (z_ {1}), \ ldots, g _ {\ boldsymbol {\ theta}} (z_ {m})) = \ rho _ {1} ({\ boldsymbol {\ theta}}; z_ {1}, \ ldots, z_ {m})}$
${\ Displaystyle \ vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ vdots}$	(1)
${\ Displaystyle s_ {k} = h_ {k} (g _ {\ boldsymbol {\ theta}} (z_ {1}), \ ldots, g _ {\ boldsymbol {\ theta}} (z_ {m})) = \ rho _ {k} ({\ boldsymbol {\ theta}}; z_ {1}, \ ldots, z_ {m}).}$

Para cada semilla de muestra ${\ Displaystyle \ {z_ {1}, \ ldots, z_ {m} \}}$ un vector de parámetros ${\ displaystyle {\ boldsymbol {\ theta}}}$ se obtiene de la solución del sistema anterior con ${\ Displaystyle s_ {i}}$ fijado a los valores observados. Habiendo calculado un enorme conjunto de vectores compatibles, digamos N , la distribución marginal empírica de ${\ Displaystyle \ Theta _ {j}}$ se obtiene por:

{\ Displaystyle {\ widehat {F}} _ {\ Theta _ {j}} (\ theta) = \ sum _ {i = 1} ^ {N} {\ frac {1} {N}} I _ {(- \ infty, \ theta]} ({\ breve {\ theta}} _ {j, i})}

(2)

dónde ${\ Displaystyle {\ breve {\ theta}} _ {j, i}}$ es el j-ésimo componente de la solución genérica de (1) y donde ${\ Displaystyle I _ {(- \ infty, \ theta]} ({\ breve {\ theta}} _ {j, i})}$ es la función indicadora de ${\ Displaystyle {\ breve {\ theta}} _ {j, i}}$ en el intervalo ${\ Displaystyle (- \ infty, \ theta].}$ Quedan algunas indeterminaciones si X es discreto y esto lo consideraremos en breve. Todo el procedimiento se puede resumir en la forma del siguiente algoritmo, donde el índice ${\ Displaystyle {\ boldsymbol {\ Theta}}}$ de ${\ displaystyle {\ boldsymbol {s}} _ {\ boldsymbol {\ Theta}}}$ denota el vector de parámetros del que se deriva el vector de estadísticas.

Algoritmo

Generación de poblaciones de parámetros a través de un bootstrap

Dada una muestra

{\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}

de una variable aleatoria con vector de parámetros

{\ displaystyle {\ boldsymbol {\ theta}}}

desconocido,

Identificar un vector de estadísticas de buen comportamiento. ${\ displaystyle {\ boldsymbol {S}}}$ por ${\ Displaystyle {\ boldsymbol {\ Theta}}}$ ;
calcular una especificación ${\ displaystyle {\ boldsymbol {s}} _ {\ boldsymbol {\ Theta}}}$ de ${\ displaystyle {\ boldsymbol {S}}}$ de la muestra;
repita para un número satisfactorio N de iteraciones:
- sacar una semilla de muestra ${\ displaystyle {\ breve {\ boldsymbol {z}}} _ {i}}$ de tamaño m de la variable aleatoria semilla;
- obtener ${\ displaystyle {\ breve {\ boldsymbol {\ theta}}} _ {i} = \ mathrm {Inv} ({\ boldsymbol {s}}, {\ boldsymbol {z}} _ {i})}$ como una solución de (1) en θ con ${\ displaystyle {\ boldsymbol {s}} = {\ boldsymbol {s}} _ {\ boldsymbol {\ Theta}}}$ y ${\ displaystyle {\ boldsymbol {z}} _ {i} = \ {{\ breve {z}} _ {1}, \ ldots, {\ breve {z}} _ {m} \}}$ ;
- agregar ${\ displaystyle {\ breve {\ boldsymbol {\ theta}}} _ {i}}$ a ${\ Displaystyle {\ boldsymbol {\ Theta}}}$ ; población.

Función de distribución acumulativa del parámetro Λ de una variable aleatoria exponencial cuando estadístico

{\ Displaystyle s _ {\ Lambda} = 6.36}

Función de distribución acumulada del parámetro A de una variable aleatoria continua uniforme cuando el estadístico

{\ Displaystyle s_ {A} = 9,91}

Puede ver fácilmente en una tabla de estadísticas suficientes que obtenemos la curva en la imagen de la izquierda al calcular la distribución empírica (2) en la población obtenida a través del algoritmo anterior cuando: i) X es una variable aleatoria exponencial, ii) ${\ Displaystyle s _ {\ Lambda} = \ sum _ {j = 1} ^ {m} x_ {j}}$ , y

{\ Displaystyle {\ text {iii) Inv}} (s _ {\ Lambda}, {\ boldsymbol {u}} _ {i}) = \ sum _ {j = 1} ^ {m} (- \ log u_ { ij}) / s _ {\ Lambda}}

,

y la curva en la imagen de la derecha cuando: i) X es una variable aleatoria uniforme en ${\ Displaystyle [0, a]}$ , ii) ${\ Displaystyle s_ {A} = \ max _ {j = 1, \ ldots, m} x_ {j}}$ , y

{\ Displaystyle {\ text {iii) Inv}} (s_ {A}, {\ boldsymbol {u}} _ {i}) = s_ {A} / \ max _ {j = 1, \ ldots, m} \ {u_ {ij} \}}

.

Observación

Tenga en cuenta que la precisión con la que se obtiene una ley de distribución de parámetros de poblaciones compatibles con una muestra no es una función del tamaño de la muestra. En cambio, es una función del número de semillas que extraemos. A su vez, este número es puramente una cuestión de tiempo computacional, pero no requiere ninguna extensión de los datos observados. Con otros métodos de arranque que se centran en una generación de réplicas de muestra (como las propuestas por ( Efron y Tibshirani 1993 )) la precisión de las distribuciones estimadas depende del tamaño de la muestra.

Ejemplo

Para ${\ displaystyle {\ boldsymbol {x}}}$ se espera que represente una distribución de Pareto , cuya especificación requiere valores para los parámetros ${\ Displaystyle a}$ y k , ^[2] se tiene que la función de distribución acumulativa dice lo siguiente:

Función de distribución acumulativa empírica conjunta de parámetros

{\ Displaystyle (A, K)}

de una variable aleatoria de Pareto cuando

{\ Displaystyle m = 30, s_ {1} = 83,24}

y

{\ Displaystyle s_ {2} = 8,37}

basado en 5,000 réplicas.

{\ Displaystyle F_ {X} (x) = 1- \ left ({\ frac {k} {x}} \ right) ^ {a}}

.

Un mecanismo de muestreo ${\ Displaystyle (g _ {(a, k)}, U)}$ posee ${\ Displaystyle [0,1]}$ U semilla uniforme y función explicativa ${\ Displaystyle g _ {(a, k)}}$ descrito por:

{\ Displaystyle x = g _ {(a, k)} = (1-u) ^ {- {\ frac {1} {a}}} k}

Una estadística relevante ${\ displaystyle {\ boldsymbol {s}} _ {\ boldsymbol {\ Theta}}}$ está constituido por el par de estadísticas conjuntas suficientes para ${\ Displaystyle A}$ y K , respectivamente ${\ Displaystyle s_ {1} = \ sum _ {i = 1} ^ {m} \ log x_ {i}, s_ {2} = \ min \ {x_ {i} \}}$ . Las ecuaciones maestras leídas

{\ Displaystyle s_ {1} = \ sum _ {i = 1} ^ {m} - {\ frac {1} {a}} \ log (1-u_ {i}) + m \ log k}

{\ Displaystyle s_ {2} = (1-u _ {\ min}) ^ {- {\ frac {1} {a}}} k}

con ${\ Displaystyle u _ {\ min} = \ min \ {u_ {i} \}}$ .

La figura de la derecha informa la gráfica tridimensional de la función de distribución acumulativa empírica (2) de ${\ Displaystyle (A, K)}$ .

Notas

^ De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus realizaciones correspondientes.
^ Denotamos aquí con símbolos de una y k los parámetros de Pareto en otros lugares indicados a través de k y ${\ Displaystyle x _ {\ mathrm {min}}}$ .

Referencias

Efron, B. y Tibshirani, R. (1993). Una introducción al Bootsrap . Freeman, Nueva York: Chapman y Hall.
Apolloni, B .; Malchiodi, D .; Gaito, S. (2006). Inferencia algorítmica en el aprendizaje automático . Serie internacional sobre inteligencia avanzada. 5 (2ª ed.). Adelaida: Magill. Conocimiento avanzado internacional
Apolloni, B .; Bassis, S .; Gaito. S.; Malchiodi, D. (2007). "Apreciación de los tratamientos médicos mediante el aprendizaje de las funciones subyacentes con buena confianza". Diseño Farmacéutico Actual . 13 (15): 1545-1570. doi : 10.2174 / 138161207780765891 . PMID 17504150 .

[1] De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus realizaciones correspondientes.

[2] Denotamos aquí con símbolos de una y k los parámetros de Pareto en otros lugares indicados a través de k y ${\ Displaystyle x _ {\ mathrm {min}}}$ .

[1]