Propiedades de torsión

Las propiedades de torsión en términos generales están asociadas con las propiedades de las muestras que se identifican con estadísticas que son adecuadas para el intercambio.

Descripción

Comenzando con una muestra ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}$ observado a partir de una variable aleatoria X que tiene una ley de distribución dada con un parámetro no establecido, un problema de inferencia paramétrica consiste en calcular los valores adecuados, llamémoslos estimaciones , de este parámetro precisamente sobre la base de la muestra. Una estimación es adecuada si reemplazarla con el parámetro desconocido no causa un daño importante en los próximos cálculos. En la inferencia algorítmica , la idoneidad de una estimación se lee en términos de compatibilidad con la muestra observada.

A su vez, la compatibilidad de parámetros es una medida de probabilidad que derivamos de la distribución de probabilidad de la variable aleatoria a la que se refiere el parámetro. De esta forma identificamos un parámetro aleatorio Θ compatible con una muestra observada. Dado un mecanismo de muestreo ${\ Displaystyle M_ {X} = (g _ {\ theta}, Z)}$ , el fundamento de esta operación radica en el uso de la ley de distribución de semillas Z para determinar tanto la ley de distribución X para el dado como la ley de distribución Θ dada una muestra X. Por tanto, podemos derivar la última distribución directamente de la primera si somos capaces de relacionar los dominios del espacio muestral con subconjuntos de soporte Θ . En términos más abstractos, hablamos de propiedades de torsión de muestras con propiedades de parámetros e identificamos las primeras con estadísticas adecuadas para este intercambio, lo que denota un buen comportamiento con los parámetros desconocidos. El objetivo operativo es escribir la expresión analítica de la función de distribución acumulativa ${\ Displaystyle F _ {\ Theta} (\ theta)}$ , a la luz de los valores observados s de un estadístico S , en función de la ley de distribución S cuando el parámetro X es exactamente θ.

Método

Dado un mecanismo de muestreo ${\ Displaystyle M_ {X} = (g _ {\ theta}, Z)}$ para la variable aleatoria X , modelamos ${\ displaystyle {\ boldsymbol {X}} = \ {X_ {1}, \ ldots, X_ {m} \}}$ ser igual a ${\ Displaystyle \ {g _ {\ theta} (Z_ {1}), \ ldots, g _ {\ theta} (Z_ {m}) \}}$ . Centrándose en una estadística relevante ${\ Displaystyle S = h_ {1} (X_ {1}, \ ldots, X_ {m})}$ para el parámetro θ , la ecuación maestra dice

{\ Displaystyle s = h (g _ {\ theta} (z_ {1}), \ ldots, g _ {\ theta} (z_ {m})) = \ rho (\ theta; z_ {1}, \ ldots, z_ {metro}).}

Cuando s es una estadística de buen comportamiento con el parámetro, estamos seguros de que existe una relación monótona para cada ${\ Displaystyle {\ boldsymbol {z}} = \ {z_ {1}, \ ldots, z_ {m} \}}$ entre sy θ. También se nos asegura que Θ, en función de ${\ displaystyle {\ boldsymbol {Z}}}$ para s dados , es una variable aleatoria ya que la ecuación maestra proporciona soluciones que son factibles e independientes de otros parámetros (ocultos). ^[1]

La dirección de la monotonía determina para cualquier ${\ Displaystyle {\ boldsymbol {z}}}$ una relación entre eventos del tipo ${\ Displaystyle s \ geq s '\ leftrightarrow \ theta \ geq \ theta'}$ o viceversa ${\ Displaystyle s \ geq s '\ leftrightarrow \ theta \ leq \ theta'}$ , dónde ${\ Displaystyle s '}$ es calculado por la ecuación maestra con ${\ Displaystyle \ theta '}$ . En el caso de que s asume valores discretos, la primera relación cambia a ${\ displaystyle s \ geq s '\ rightarrow \ theta \ geq \ theta' \ rightarrow s \ geq s '+ \ ell}$ dónde ${\ Displaystyle \ ell> 0}$ es el tamaño del grano de discretización s , ídem con la tendencia de monotonía opuesta. Reanudando estas relaciones en todas las semillas, para s continuas tenemos o

{\ Displaystyle F _ {\ Theta \ mid S = s} (\ theta) = F_ {S \ mid \ Theta = \ theta} (s)}

o

{\ Displaystyle F _ {\ Theta \ mid S = s} (\ theta) = 1-F_ {S \ mid \ Theta = \ theta} (s)}

Para s discreto tenemos un intervalo donde ${\ Displaystyle F _ {\ Theta \ mid S = s} (\ theta)}$ mentiras, debido a ${\ Displaystyle \ ell> 0}$ . Todo el artificio lógico se llama argumento retorcido . Un procedimiento que lo implementa es el siguiente.

Algoritmo

Generando una ley de distribución de parámetros a través de un argumento retorcido

Dada una muestra

{\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}

de una variable aleatoria con parámetro parameter desconocido,

Identifique una estadística S que se comporte bien para el parámetro θ y su grano de discretización ${\ Displaystyle \ ell}$ (Si alguna);
decidir la monotonía versus;
calcular ${\ Displaystyle F _ {\ Theta} (\ theta) \ in \ left (q_ {1} (F_ {S | \ Theta = \ theta} (s)), q_ {2} (F_ {S | \ Theta = \ theta} (s)) \ right)}$ dónde:
- si S es continuo ${\ Displaystyle q_ {1} = q_ {2}}$
- si S es discreto
  1. ${\ Displaystyle q_ {2} (F_ {S} (s)) = q_ {1} (F_ {S} (s- \ ell)}$ si s no disminuye con θ
  2. ${\ Displaystyle q_ {1} (F_ {S} (s)) = q_ {2} (F_ {S} (s- \ ell)}$ si s no aumenta con θ y
  3. ${\ Displaystyle q_ {i} (F_ {S}) = 1-F_ {S}}$ si s no disminuye con θ y ${\ Displaystyle q_ {i} (F_ {S}) = F_ {S}}$ si s no aumenta con θ para ${\ Displaystyle i = 1,2}$ .

Observación

La lógica detrás de los argumentos retorcidos no cambia cuando los parámetros son vectores, aunque surgen algunas complicaciones del manejo de las desigualdades conjuntas. En cambio, la dificultad de tratar con un vector de parámetros resultó ser el talón de Aquiles del enfoque de Fisher para la distribución fiducial de parámetros ( Fisher 1935 ). Además, las probabilidades constructivas de Fraser ( Fraser 1966 ) diseñadas con el mismo propósito no tratan este punto por completo.

Ejemplo

Para ${\ displaystyle {\ boldsymbol {x}}}$ extraído de una distribución gamma , cuya especificación requiere valores para los parámetros λ y k , se puede establecer un argumento de torsión siguiendo el procedimiento siguiente. Dado el significado de estos parámetros sabemos que

{\ displaystyle (k \ leq k ') \ leftrightarrow (s_ {k} \ leq s_ {k'}) {\ text {para fijo}} \ lambda,}

{\ displaystyle (\ lambda \ leq \ lambda ') \ leftrightarrow (s _ {\ lambda'} \ leq s _ {\ lambda}) {\ text {para fijo}} k,}

dónde ${\ Displaystyle s_ {k} = \ prod _ {i = 1} ^ {m} x_ {i}}$ y ${\ Displaystyle s _ {\ lambda} = \ sum _ {i = 1} ^ {m} x_ {i}}$ . Esto conduce a una función de distribución acumulativa conjunta

{\ Displaystyle F _ {\ Lambda, K} (\ lambda, k) = F _ {\ Lambda \, \ mid \, K = k} (\ lambda) F_ {K} (k) = F_ {K \, \ mid \, \ Lambda = \ lambda} (k) F _ {\ Lambda} (\ lambda).}

Usando la primera factorización y reemplazando ${\ Displaystyle s_ {k}}$ con ${\ Displaystyle r_ {k} = {\ frac {s_ {k}} {s _ {\ lambda} ^ {m}}}}$ para tener una distribución de ${\ Displaystyle K}$ que es independiente de ${\ Displaystyle \ Lambda}$ , tenemos

{\ Displaystyle F _ {\ Lambda \, \ mid \, K = k} (\ lambda) = 1 - {\ frac {\ Gamma (km, \ lambda s _ {\ Lambda})} {\ Gamma (km)}} }

{\ Displaystyle F_ {K} (k) = 1-F_ {R_ {k}} (r_ {K})}

donde m denota el tamaño de la muestra, ${\ Displaystyle s _ {\ Lambda}}$ y ${\ Displaystyle r_ {K}}$ son las estadísticas observadas (por lo tanto, con índices indicados con letras mayúsculas), ${\ Displaystyle \ Gamma (a, b)}$ la función gamma incompleta y ${\ Displaystyle F_ {R_ {k}} (r_ {K})}$ la función H de Fox que se puede aproximar con una distribución gamma nuevamente con los parámetros adecuados (por ejemplo, estimados mediante el método de momentos ) como una función de k y m .

Función de densidad de probabilidad conjunta de parámetros

{\ Displaystyle (K, \ Lambda)}

de una variable aleatoria Gamma.

Función de distribución marginal acumulada del parámetro K de una variable aleatoria Gamma.

Con un tamaño de muestra ${\ Displaystyle m = 30, s _ {\ Lambda} = 72,82}$ y ${\ Displaystyle r_ {K} =}$ ${\ Displaystyle 4.5 \ times 10 ^ {- 46}}$ , puede encontrar el pdf conjunto de los parámetros Gamma K y ${\ Displaystyle \ Lambda}$ a la izquierda. La distribución marginal de K se muestra en la imagen de la derecha.

Notas

^ De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus realizaciones correspondientes.

Referencias

Fisher, MA (1935). "El argumento fiducial en la inferencia estadística". Anales de la eugenesia . 6 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
Fraser, DAS (1966). "Probabilidad estructural y generalización". Biometrika . 53 (1/2): 1–9. doi : 10.2307 / 2334048 . JSTOR 2334048 .
Apolloni, B; Malchiodi, D .; Gaito, S. (2006). Inferencia algorítmica en el aprendizaje automático . Serie internacional sobre inteligencia avanzada. 5 (2ª ed.). Adelaida: Magill. Conocimiento avanzado internacional

[1] De forma predeterminada, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las letras minúsculas ( u , x ) sus realizaciones correspondientes.

[1]