Estadística de buen comportamiento

Aunque el término estadística de buen comportamiento a menudo parece ser utilizado en la literatura científica en un tanto de la misma manera como es de buen comportamiento en matemáticas (es decir, en el sentido de "no patológico " ^[1]^[2] ) también puede ser asignado un significado matemático preciso, y de más de una manera. En el primer caso, el significado de este término variará de un contexto a otro. En el último caso, las condiciones matemáticas se pueden utilizar para derivar clases de combinaciones de distribuciones con estadísticas que se comporten bien en cada sentido.

Primera definición: La varianza de un estimador estadístico de buen comportamiento es finita y una condición de su media es que sea diferenciable en el parámetro que se está estimando. ^[3]

Segunda definición: la estadística es monótona, bien definida y suficiente a nivel local. ^[4]

Condiciones para una estadística de buen comportamiento: primera definición

Más formalmente, las condiciones se pueden expresar de esta manera. ${\ textstyle T}$ es una estadística para ${\ textstyle \ theta}$ que es una función de la muestra, ${\ textstyle {X} _ {1}, ..., {X} _ {n}}$ . Para ${\ textstyle T}$ para comportarse bien necesitamos:

${\ textstyle {Var} _ {\ theta} \ left [T \ left ({X} _ {1}, ..., {X} _ {n} \ right) \ right] <\ infty \ quad \ forall \ quad \ theta \ in \ Theta}$ : Condición 1

${\ textstyle {E} _ {\ theta} \ left (T \ right)}$ diferenciable en ${\ estilo de texto \ theta \ quad \ forall \ quad \ theta \ in \ Theta}$ , y la derivada satisface:

${\ textstyle {\ frac {d} {d \ theta}} \ int {T \ left ({X} _ {1}, ..., {X} _ {n} \ right)} \ prod _ {i = 1} ^ {n} {f \ left ({x} _ {i} | \ theta \ right)} d {x} _ {1} ... d {x} _ {n} = \ int {T \ izquierda ({X} _ {1}, ..., {X} _ {n} \ derecha) \ izquierda [{\ frac {\ parcial} {\ parcial \ theta}} \ prod _ {i = 1} ^ {n} {f \ left ({x} _ {i} | \ theta \ right)} \ right]} d {x} _ {1} ... d {x} _ {n}}$ : Condición 2

Condiciones para una estadística de buen comportamiento: segunda definición

Para derivar la ley de distribución del parámetro T , compatible con ${\ displaystyle {\ boldsymbol {x}}}$ , la estadística debe obedecer a algunas propiedades técnicas. Es decir, se dice que una estadística s se comporta bien si satisface las siguientes tres afirmaciones:

monotonicidad . Existe una relación uniformemente monótona entre s y? para cualquier semilla fija ${\ Displaystyle \ {z_ {1}, \ ldots, z_ {m} \}}$ - para tener una solución única de (1);
bien definido . En cada s observado , la estadística está bien definida para cada valor de?, Es decir, cualquier especificación de muestra ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \} \ in {\ mathfrak {X}} ^ {m}}$ tal que ${\ Displaystyle \ rho (x_ {1}, \ ldots, x_ {m}) = s}$ tiene una densidad de probabilidad diferente de 0 - para evitar considerar un mapeo no sobreyectivo de ${\ Displaystyle {\ mathfrak {X}} ^ {m}}$ a ${\ Displaystyle {\ mathfrak {S}}}$ , es decir, asociar a través de ${\ Displaystyle s}$ a una muestra ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}$ a ? que no pudo generar la muestra en sí;
suficiencia local . ${\ Displaystyle \ {{\ breve {\ theta}} _ {1}, \ ldots, {\ breve {\ theta}} _ {N} \}}$ constituye una muestra T verdadera para los s observados , de modo que se puede atribuir la misma distribución de probabilidad a cada valor muestreado. Ahora, ${\ Displaystyle {\ breve {\ theta}} _ {j} = h ^ {- 1} (s, {\ breve {z}} _ {1} ^ {j}, \ ldots, {\ breve {z} } _ {m} ^ {j})}$ es una solución de (1) con la semilla ${\ Displaystyle \ {{\ breve {z}} _ {1} ^ {j}, \ ldots, {\ breve {z}} _ {m} ^ {j} \}}$ . Dado que las semillas se distribuyen por igual, la única salvedad proviene de su independencia o, a la inversa, de su dependencia de? sí mismo. Este control puede restringirse a las semillas involucradas por s , es decir, este inconveniente puede evitarse requiriendo que la distribución de ${\ Displaystyle \ {Z_ {1}, \ ldots, Z_ {m} | S = s \}}$ es independiente de?. Una forma sencilla de comprobar esta propiedad es mapear las especificaciones de semillas en ${\ Displaystyle x_ {i}}$ s especificaciones. El mapeo, por supuesto, depende de?, Pero la distribución de ${\ Displaystyle \ {X_ {1}, \ ldots, X_ {m} | S = s \}}$ no dependerá de si la independencia de siembra anterior tiene - una condición que parece un local de la suficiencia de la estadística S .

El resto del presente artículo se ocupa principalmente del contexto de los procedimientos de minería de datos aplicados a la inferencia estadística y, en particular, al grupo de procedimientos computacionalmente intensivos que se han denominado inferencia algorítmica .

Inferencia algorítmica

En la inferencia algorítmica , la propiedad de un estadístico que es de mayor relevancia es el paso pivotante que permite transferir las consideraciones de probabilidad de la distribución de la muestra a la distribución de los parámetros que representan la distribución de la población de tal manera que la conclusión de este estadístico El paso de inferencia es compatible con la muestra realmente observada.

Por defecto, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las minúsculas ( u , x ) sus realizaciones correspondientes y con letras góticas (como ${\ Displaystyle {\ mathfrak {U}}, {\ mathfrak {X}}}$ ) el dominio donde la variable toma especificaciones. Frente a una muestra ${\ Displaystyle {\ boldsymbol {x}} = \ {x_ {1}, \ ldots, x_ {m} \}}$ , dado un mecanismo de muestreo ${\ Displaystyle (g _ {\ theta}, Z)}$ , con ${\ Displaystyle \ theta}$ escalar, para la variable aleatoria X , tenemos

{\ Displaystyle {\ boldsymbol {x}} = \ {g _ {\ theta} (z_ {1}), \ ldots, g _ {\ theta} (z_ {m}) \}.}

El mecanismo de muestreo ${\ Displaystyle (g _ {\ theta}, {\ boldsymbol {z}})}$ , de la estadística s , en función? de ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {m} \}}$ con especificaciones en ${\ Displaystyle {\ mathfrak {S}}}$ , tiene una función explicativa definida por la ecuación maestra:

{\ Displaystyle s = \ rho (x_ {1}, \ ldots, x_ {m}) = \ rho (g _ {\ theta} (z_ {1}), \ ldots, g _ {\ theta} (z_ {m} )) = h (\ theta, z_ {1}, \ ldots, z_ {m}), \ qquad \ qquad \ qquad (1)}

para semillas adecuadas ${\ Displaystyle {\ boldsymbol {z}} = \ {z_ {1}, \ ldots, z_ {m} \}}$ y parámetro?

Ejemplo

Por ejemplo, tanto para la distribución de Bernoulli con parámetro p como para la distribución exponencial con parámetro? la estadística ${\ Displaystyle \ sum _ {i = 1} ^ {m} x_ {i}}$ se porta bien. La satisfacción de las tres propiedades anteriores es sencilla cuando se observan ambas funciones explicativas: ${\ Displaystyle g_ {p} (u) = 1}$ Si ${\ Displaystyle u \ leq p}$ , 0 en caso contrario en el caso de la variable aleatoria de Bernoulli, y ${\ Displaystyle g _ {\ lambda} (u) = - \ log u / \ lambda}$ para la variable aleatoria exponencial, dando lugar a estadísticas

{\ Displaystyle s_ {p} = \ sum _ {i = 1} ^ {m} I _ {[0, p]} (u_ {i})}

y

{\ Displaystyle s _ {\ lambda} = - {\ frac {1} {\ lambda}} \ sum _ {i = 1} ^ {m} \ log u_ {i}.}

Viceversa , en el caso de X siguiendo una distribución uniforme continua en ${\ Displaystyle [0, A]}$ las mismas estadísticas no cumplen el segundo requisito. Por ejemplo, la muestra observada ${\ Displaystyle \ {c, c / 2, c / 3 \}}$ da ${\ displaystyle s '_ {A} = 11 / 6c}$ . Pero la función explicativa de esta X es ${\ Displaystyle g_ {a} (u) = ua}$ . De ahí una ecuación maestra ${\ Displaystyle s_ {A} = \ sum _ {i = 1} ^ {m} u_ {i} a}$ produciría con una muestra de U ${\ Displaystyle \ {0.8,0.8,0.8 \}}$ y una solucion ${\ displaystyle {\ breve {a}} = 0,76c}$ . Esto entra en conflicto con la muestra observada, ya que el primer valor observado debería resultar mayor que el extremo derecho del rango X. La estadística ${\ Displaystyle s_ {A} = \ max \ {x_ {1}, \ ldots, x_ {m} \}}$ se porta bien en este caso.

De manera análoga, para una variable aleatoria X que sigue la distribución de Pareto con los parámetros K y A (consulte el ejemplo de Pareto para obtener más detalles de este caso),

{\ Displaystyle s_ {1} = \ sum _ {i = 1} ^ {m} \ log x_ {i}}

y

{\ Displaystyle s_ {2} = \ min _ {i = 1, \ ldots, m} \ {x_ {i} \}}

pueden utilizarse como estadísticas conjuntas para estos parámetros.

Como afirmación general que se mantiene en condiciones débiles, las estadísticas suficientes se comportan bien con respecto a los parámetros relacionados. La siguiente tabla proporciona estadísticas suficientes / de buen comportamiento para los parámetros de algunas de las distribuciones de probabilidad más utilizadas.

Leyes comunes de distribución junto con estadísticas relacionadas suficientes y de buen comportamiento.
Distribución	Definición de función de densidad	Estadística suficiente / de buen comportamiento
Uniforme discreto	${\ Displaystyle f (x; n) = 1 / nI _ {\ {1,2, \ ldots, n \}} (x)}$	${\ Displaystyle s_ {n} = \ max _ {i} x_ {i}}$
Bernoulli	${\ Displaystyle f (x; p) = p ^ {x} (1-p) ^ {1-x} I _ {\ {0,1 \}} (x)}$	${\ Displaystyle s_ {P} = \ sum _ {i = 1} ^ {m} x_ {i}}$
Binomio	${\ Displaystyle f (x; n, p) = {\ binom {n} {x}} p ^ {x} (1-p) ^ {nx} I_ {0,1, \ ldots, n} (x) }$	${\ Displaystyle s_ {P} = \ sum _ {i = 1} ^ {m} x_ {i}}$
Geométrico	${\ Displaystyle f (x; p) = p (1-p) ^ {x} I _ {\ {0,1, \ ldots \}} (x)}$	${\ Displaystyle s_ {P} = \ sum _ {i = 1} ^ {m} x_ {i}}$
Poisson	${\ Displaystyle f (x; \ mu) = \ mathrm {e} ^ {- \ mu x} \ mu ^ {x} / x! I _ {\ {0,1, \ ldots \}} (x)}$	${\ Displaystyle s_ {M} = \ sum _ {i = 1} ^ {m} x_ {i}}$
Uniforme continuo	${\ Displaystyle f (x; a, b) = 1 / (ba) I _ {[a, b]} (x)}$	${\ Displaystyle s_ {A} = \ min _ {i} x_ {i}; s_ {B} = \ max _ {i} x_ {i}}$
Exponencial negativo	${\ Displaystyle f (x; \ lambda) = \ lambda \ mathrm {e} ^ {- \ lambda x} I _ {[0, \ infty]} (x)}$	${\ Displaystyle s _ {\ Lambda} = \ sum _ {i = 1} ^ {m} x_ {i}}$
Pareto	${\ Displaystyle f (x; a, k) = {\ frac {a} {k}} \ left ({\ frac {x} {k}} \ right) ^ {- a-1} I _ {[k, \ infty]} (x)}$	${\ Displaystyle s_ {A} = \ sum _ {i = 1} ^ {m} \ log x_ {i}; s_ {K} = \ min _ {i} x_ {i}}$
Gaussiano	${\ Displaystyle f (x, \ mu, \ sigma) = 1 / ({\ sqrt {2 \ pi}} \ sigma) \ mathrm {e} ^ {- (x- \ mu ^ {2}) / (2 \ sigma ^ {2})}}$	${\ Displaystyle s_ {M} = \ sum _ {i = 1} ^ {m} x_ {i}; s _ {\ Sigma} = {\ sqrt {\ sum _ {i = 1} ^ {m} (x_ { i} - {\ bar {x}}) ^ {2}}}}$
Gama	${\ Displaystyle f (x; r, \ lambda) = \ lambda / \ Gamma (r) (\ lambda x) ^ {r-1} \ mathrm {e} ^ {- \ lambda x} I _ {[0, \ infty]} (x)}$	${\ Displaystyle s _ {\ Lambda} = \ sum _ {i = 1} ^ {m} x_ {i}; s_ {K} = \ prod _ {i = 1} ^ {m} x_ {i}}$

Referencias

^ Amanecer Iacobucci. "Análisis de mediación y variables categóricas: La última frontera" (PDF) . Consultado el 7 de febrero de 2017 .
^ John DiNardo y Jason Winfree. "La ley de la genialidad y los jonrones refutados" (PDF) . Consultado el 7 de febrero de 2017 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Un DasGupta. "(sin título)" (PDF) . Consultado el 7 de febrero de 2017 . Citar utiliza un título genérico ( ayuda )
^ Apolloni, B; Bassis, S .; Malchiodi, D .; Witold, P. (2008). El rompecabezas de la computación granular . Estudios en Inteligencia Computacional. 138 . Berlín: Springer.

Bahadur, RR ; Lehmann, EL (1955). "Dos comentarios sobre suficiencia y funciones de decisión estadística" . Anales de estadística matemática . 26 : 139-142. doi : 10.1214 / aoms / 1177728604 .

[1] Amanecer Iacobucci. "Análisis de mediación y variables categóricas: La última frontera" (PDF) . Consultado el 7 de febrero de 2017 .

[2] John DiNardo y Jason Winfree. "La ley de la genialidad y los jonrones refutados" (PDF) . Consultado el 7 de febrero de 2017 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[dasgupta-3] Un DasGupta. "(sin título)" (PDF) . Consultado el 7 de febrero de 2017 . Citar utiliza un título genérico ( ayuda )

[4] Apolloni, B; Bassis, S .; Malchiodi, D .; Witold, P. (2008). El rompecabezas de la computación granular . Estudios en Inteligencia Computacional. 138 . Berlín: Springer.

[1]