Comenzando con una muestra observado a partir de una variable aleatoria X que tiene una ley de distribución dada con un conjunto de parámetros no fijos que denotamos con un vector, un problema de inferencia paramétrica consiste en calcular valores adecuados, llamémoslos estimaciones , de estos parámetros precisamente sobre la base de la muestra. Una estimación es adecuada si reemplazarla con el parámetro desconocido no causa un daño importante en los próximos cálculos. En la inferencia algorítmica , la idoneidad de una estimación se lee en términos de compatibilidad con la muestra observada.
En este marco, los métodos de remuestreo tienen como objetivo generar un conjunto de valores candidatos para reemplazar los parámetros desconocidos que leemos como réplicas compatibles de ellos. Representan una población de especificaciones de un vector aleatorio. [1] compatible con una muestra observada, donde la compatibilidad de sus valores tiene las propiedades de una distribución de probabilidad. Al introducir parámetros en la expresión de la ley de distribución cuestionada, arrancamos poblaciones enteras de variables aleatorias compatibles con la muestra observada.
El fundamento de los algoritmos que calculan las réplicas, que denominamos procedimientos de arranque de población , es identificar un conjunto de estadísticas.exhibiendo propiedades específicas, denotando un buen comportamiento , con los parámetros desconocidos. Las estadísticas se expresan en función de los valores observados., por definición. La puede expresarse como una función de los parámetros desconocidos y una especificación de semilla aleatoria a través del mecanismo de muestreo , en turno. Luego, sustituyendo la segunda expresión en la primera, obtenemosexpresiones en función de semillas y parámetros - las ecuaciones maestras - que invertimos para encontrar valores de estas últimas en función de: i) las estadísticas, cuyos valores a su vez se fijan en los observados; y ii) las semillas, que son aleatorias según su propia distribución. Por lo tanto, de un conjunto de muestras de semillas obtenemos un conjunto de réplicas de parámetros.
Método
Dado un de una variable aleatoria X y un mecanismo de muestreo para X , la realización x viene dada por, con . Centrándose en estadísticas de buen comportamiento ,
para sus parámetros, las ecuaciones maestras leen
(1)
Para cada semilla de muestra un vector de parámetros se obtiene de la solución del sistema anterior con fijado a los valores observados. Habiendo calculado un enorme conjunto de vectores compatibles, digamos N , la distribución marginal empírica de se obtiene por:
(2)
dónde es el j-ésimo componente de la solución genérica de (1) y donde es la función indicadora de en el intervalo Quedan algunas indeterminaciones si X es discreto y esto lo consideraremos en breve. Todo el procedimiento se puede resumir en la forma del siguiente algoritmo, donde el índice de denota el vector de parámetros del que se deriva el vector de estadísticas.
Algoritmo
Generación de poblaciones de parámetros a través de un bootstrap |
---|
Dada una muestra de una variable aleatoria con vector de parámetros desconocido,
|
Puede ver fácilmente en una tabla de estadísticas suficientes que obtenemos la curva en la imagen de la izquierda al calcular la distribución empírica (2) en la población obtenida a través del algoritmo anterior cuando: i) X es una variable aleatoria exponencial, ii), y
- ,
y la curva en la imagen de la derecha cuando: i) X es una variable aleatoria uniforme en, ii) , y
- .
Observación
Tenga en cuenta que la precisión con la que se obtiene una ley de distribución de parámetros de poblaciones compatibles con una muestra no es una función del tamaño de la muestra. En cambio, es una función del número de semillas que extraemos. A su vez, este número es puramente una cuestión de tiempo computacional, pero no requiere ninguna extensión de los datos observados. Con otros métodos de arranque que se centran en una generación de réplicas de muestra (como las propuestas por ( Efron y Tibshirani 1993 ) ) la precisión de las distribuciones estimadas depende del tamaño de la muestra.
Ejemplo
Para se espera que represente una distribución de Pareto , cuya especificación requiere valores para los parámetrosy k , [2] se tiene que la función de distribución acumulativa dice lo siguiente:
- .
Un mecanismo de muestreo posee U semilla uniforme y función explicativa descrito por:
Una estadística relevante está constituido por el par de estadísticas conjuntas suficientes paray K , respectivamente. Las ecuaciones maestras leídas
con .
La figura de la derecha informa la gráfica tridimensional de la función de distribución acumulativa empírica (2) de .
Notas
- ^ De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus realizaciones correspondientes.
- ^ Denotamos aquí con símbolos de una y k los parámetros de Pareto en otros lugares indicados a través de k y.
Referencias
- Efron, B. y Tibshirani, R. (1993). Una introducción al Bootsrap . Freeman, Nueva York: Chapman y Hall.
- Apolloni, B .; Malchiodi, D .; Gaito, S. (2006). Inferencia algorítmica en el aprendizaje automático . Serie internacional sobre inteligencia avanzada. 5 (2ª ed.). Adelaida: Magill.
Conocimiento avanzado internacional
- Apolloni, B .; Bassis, S .; Gaito. S.; Malchiodi, D. (2007). "Apreciación de los tratamientos médicos mediante el aprendizaje de las funciones subyacentes con buena confianza". Diseño Farmacéutico Actual . 13 (15): 1545-1570. doi : 10.2174 / 138161207780765891 . PMID 17504150 .