Cantidad fundamental

En estadística , una cantidad fundamental o pivote es una función de observaciones y parámetros no observables, de modo que la distribución de probabilidad de la función no depende de los parámetros desconocidos (incluidos los parámetros de molestia ). ^[1] No es necesario que una cantidad pivote sea una estadística ; la función y su valor pueden depender de los parámetros del modelo, pero su distribución no debe hacerlo. Si es una estadística, entonces se conoce como estadística auxiliar .

Más formalmente, ^[2] deja ${\ Displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ ser una muestra aleatoria de una distribución que depende de un parámetro (o vector de parámetros) ${\ Displaystyle \ theta}$ . Dejar ${\ Displaystyle g (X, \ theta)}$ ser una variable aleatoria cuya distribución sea la misma para todos ${\ Displaystyle \ theta}$ . Luego ${\ Displaystyle g}$ se llama una cantidad fundamental (o simplemente un pivote ).

Las cantidades fundamentales se utilizan comúnmente para la normalización para permitir la comparación de datos de diferentes conjuntos de datos. Es relativamente fácil construir pivotes para la ubicación y los parámetros de escala: para los primeros formamos diferencias para que la ubicación se cancele, para los segundos proporciones para que la escala se cancele.

Las cantidades fundamentales son fundamentales para la construcción de estadísticos de prueba , ya que permiten que el estadístico no dependa de parámetros; por ejemplo, el estadístico t de Student es para una distribución normal con varianza desconocida (y media). También proporcionan un método para construir intervalos de confianza , y el uso de cantidades fundamentales mejora el rendimiento del bootstrap . En forma de estadísticas auxiliares, se pueden utilizar para construir intervalos de predicción frecuentista (intervalos de confianza predictivos).

Ejemplos de

Distribución normal

Una de las cantidades fundamentales más simples es la puntuación z ; dada una distribución normal con media ${\ Displaystyle \ mu}$ y varianza ${\ Displaystyle \ sigma ^ {2}}$ y una observación x, la puntuación z:

{\ Displaystyle z = {\ frac {x- \ mu} {\ sigma}},}

tiene distribución ${\ Displaystyle N (0,1)}$ - una distribución normal con media 0 y varianza 1. De manera similar, dado que la media muestral de n muestras tiene una distribución muestral ${\ Displaystyle N (\ mu, \ sigma ^ {2} / n),}$ la puntuación z de la media

{\ Displaystyle z = {\ frac {{\ overline {X}} - \ mu} {\ sigma / {\ sqrt {n}}}}}

tambien tiene distribucion ${\ Displaystyle N (0,1).}$ Tenga en cuenta que si bien estas funciones dependen de los parámetros, y por lo tanto, solo se pueden calcular si se conocen los parámetros (no son estadísticas), la distribución es independiente de los parámetros.

Dado ${\ Displaystyle n}$ observaciones independientes distribuidas de forma idéntica (iid) ${\ Displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ de la distribución normal con media desconocida ${\ Displaystyle \ mu}$ y varianza ${\ Displaystyle \ sigma ^ {2}}$ , se puede obtener una cantidad fundamental de la función:

{\ Displaystyle g (x, X) = {\ sqrt {n}} {\ frac {x - {\ overline {X}}} {s}}}

dónde

{\ Displaystyle {\ overline {X}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {X_ {i}}}

y

{\ Displaystyle s ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} {(X_ {i} - {\ overline {X}}) ^ { 2}}}

son estimaciones no sesgadas de ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ sigma ^ {2}}$ , respectivamente. La función ${\ Displaystyle g (x, X)}$ es el estadístico t de Student para un nuevo valor ${\ Displaystyle x}$ , extraído de la misma población que el conjunto de valores ya observado ${\ Displaystyle X}$ .

Utilizando ${\ Displaystyle x = \ mu}$ la función ${\ Displaystyle g (\ mu, X)}$ se convierte en una cantidad fundamental, que también se distribuye mediante la distribución t de Student con ${\ Displaystyle \ nu = n-1}$ grados de libertad. Según sea necesario, aunque ${\ Displaystyle \ mu}$ aparece como un argumento de la función ${\ Displaystyle g}$ , la distribución de ${\ Displaystyle g (\ mu, X)}$ no depende de los parámetros ${\ Displaystyle \ mu}$ o ${\ Displaystyle \ sigma}$ de la distribución de probabilidad normal que gobierna las observaciones ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ .

Esto se puede utilizar para calcular un intervalo de predicción para la siguiente observación. ${\ Displaystyle X_ {n + 1};}$ ver Intervalo de predicción: distribución normal .

Distribución normal bivariada

En casos más complicados, es imposible construir pivotes exactos. Sin embargo, tener pivotes aproximados mejora la convergencia a la normalidad asintótica .

Suponga una muestra de tamaño ${\ Displaystyle n}$ de vectores ${\ Displaystyle (X_ {i}, Y_ {i}) '}$ se toma de una distribución normal bivariada con correlación desconocida ${\ Displaystyle \ rho}$ .

Un estimador de ${\ Displaystyle \ rho}$ es la correlación muestral (Pearson, momento)

{\ Displaystyle r = {\ frac {{\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) (Y_ { i} - {\ overline {Y}})} {s_ {X} s_ {Y}}}}

dónde ${\ Displaystyle s_ {X} ^ {2}, s_ {Y} ^ {2}}$ son variaciones de muestra de ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ . La estadística de muestra ${\ Displaystyle r}$ tiene una distribución asintóticamente normal:

{\ Displaystyle {\ sqrt {n}} {\ frac {r- \ rho} {1- \ rho ^ {2}}} \ Rightarrow N (0,1)}

.

Sin embargo, una transformación estabilizadora de la varianza

{\ Displaystyle z = {\ rm {{tanh} ^ {- 1} r = {\ frac {1} {2}} \ ln {\ frac {1 + r} {1-r}}}}}

conocida como transformación z de Fisher del coeficiente de correlación permite crear la distribución de ${\ Displaystyle z}$ asintóticamente independiente de parámetros desconocidos:

{\ Displaystyle {\ sqrt {n}} (z- \ zeta) \ Rightarrow N (0,1)}

dónde ${\ Displaystyle \ zeta = {\ rm {tanh}} ^ {- 1} \ rho}$ es el parámetro de distribución correspondiente. Para tamaños de muestra finitos ${\ Displaystyle n}$ , la variable aleatoria ${\ Displaystyle z}$ tendrá una distribución más cercana a la normal que la de ${\ Displaystyle r}$ . Se obtiene una aproximación aún más cercana a la distribución normal estándar utilizando una mejor aproximación para la varianza exacta: la forma habitual es

{\ Displaystyle \ operatorname {Var} (z) \ approx {\ frac {1} {n-3}}.}

Robustez

Desde el punto de vista de las estadísticas robustas , las cantidades fundamentales son resistentes a los cambios en los parámetros, de hecho, independientes de los parámetros, pero no en general a los cambios en el modelo, como las violaciones del supuesto de normalidad. Esto es fundamental para la crítica sólida de las estadísticas no sólidas, a menudo derivadas de cantidades fundamentales: tales estadísticas pueden ser sólidas dentro de la familia, pero no lo son fuera de ella.

Ver también

Normalización (estadísticas)

Referencias

^ Shao, J. (2008). "Cantidades fundamentales" . Estadística matemática (2ª ed.). Nueva York: Springer. págs. 471–477. ISBN 978-0-387-21718-5.
^ DeGroot, Morris H .; Schervish, Mark J. (2011). Probabilidad y estadística (4ª ed.). Pearson. pag. 489. ISBN 978-0-321-70970-7.

[1] Shao, J. (2008). "Cantidades fundamentales" . Estadística matemática (2ª ed.). Nueva York: Springer. págs. 471–477. ISBN 978-0-387-21718-5.

[2] DeGroot, Morris H .; Schervish, Mark J. (2011). Probabilidad y estadística (4ª ed.). Pearson. pag. 489. ISBN 978-0-321-70970-7.

[1]