Puntuación (estadísticas)

En estadística , la puntuación (o informante ^[1] ) es el gradiente de la función logarítmica de verosimilitud con respecto al vector de parámetros . Evaluada en un punto particular del vector de parámetros, la puntuación indica la inclinación de la función logarítmica de verosimilitud y, por lo tanto, la sensibilidad a cambios infinitesimales en los valores de los parámetros. Si la función logarítmica de verosimilitud es continua en el espacio de parámetros , la puntuación desaparecerá en un máximo o mínimo local ; este hecho se utiliza en la estimación de máxima verosimilitud para encontrar los valores de los parámetros que maximizan la función de verosimilitud.

Dado que la puntuación es una función de las observaciones que están sujetas a error de muestreo , se presta a una estadística de prueba conocida como prueba de puntuación en la que el parámetro se mantiene en un valor particular. Además, la relación de dos funciones de verosimilitud evaluadas en dos valores de parámetros distintos puede entenderse como una integral definida de la función de puntuación. ^[2]

Definición

La puntuación es el gradiente (el vector de derivadas parciales ) de ${\ Displaystyle \ log {\ mathcal {L}} (\ theta)}$ , el logaritmo natural de la función de verosimilitud , con respecto a un vector de parámetro m -dimensional ${\ Displaystyle \ theta}$ .

{\ Displaystyle s (\ theta) \ equiv {\ frac {\ parcial \ log {\ mathcal {L}} (\ theta)} {\ parcial \ theta}}}

Así, la diferenciación produce una ${\ Displaystyle (1 \ times m)}$ vector de fila, e indica la sensibilidad de la probabilidad (su derivada normalizada por su valor).

En la literatura más antigua, ^{[ cita requerida ]} "puntuación lineal" puede referirse a la puntuación con respecto a la traducción infinitesimal de una densidad dada. Esta convención surge de una época en la que el parámetro principal de interés era la media o mediana de una distribución. En este caso, la probabilidad de una observación viene dada por una densidad de la forma ${\ Displaystyle {\ mathcal {L}} (\ theta; X) = f (X + \ theta)}$ . La "puntuación lineal" se define entonces como

{\ Displaystyle s _ {\ rm {lineal}} = {\ frac {\ parcial} {\ parcial X}} \ log f (X)}

Propiedades

Significar

Si bien la puntuación es una función de ${\ Displaystyle \ theta}$ , también depende de las observaciones ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots x_ {T})}$ en el que se evalúa la función de verosimilitud, y en vista del carácter aleatorio del muestreo, se puede tomar su valor esperado en el espacio muestral . Bajo ciertas condiciones de regularidad en las funciones de densidad de las variables aleatorias, ^[3]^[4] el valor esperado de la puntuación, evaluado en el valor verdadero del parámetro. ${\ Displaystyle \ theta}$ , es cero. Para ver esto, reescriba la función de verosimilitud ${\ Displaystyle {\ mathcal {L}}}$ como una función de densidad de probabilidad ${\ Displaystyle {\ mathcal {L}} (\ theta; x) = f (x; \ theta)}$ y denotar el espacio muestral ${\ Displaystyle {\ mathcal {X}}}$ . Luego:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} (s \ mid \ theta) & = \ int _ {\ mathcal {X}} f (x; \ theta) {\ frac {\ parcial} {\ parcial \ theta}} \ log {\ mathcal {L}} (\ theta; x) \, dx \\ [6pt] & = \ int _ {\ mathcal {X}} f (x; \ theta) {\ frac { 1} {f (x; \ theta)}} {\ frac {\ parcial f (x; \ theta)} {\ parcial \ theta}} \, dx = \ int _ {\ mathcal {X}} {\ frac {\ Partical F (x; \ Theta)} {\ Particular \ Theta}} \, dx \ end {Alineado}}}

Las condiciones de regularidad asumidas permiten el intercambio de derivada e integral (ver la regla integral de Leibniz ), por lo tanto, la expresión anterior se puede reescribir como

{\ estilo de visualización {\ frac {\ parcial} {\ parcial \ theta}} \ int _ {\ mathcal {X}} f (x; \ theta) \, dx = {\ frac {\ parcial} {\ parcial \ theta }} 1 = 0.}

Vale la pena reiterar el resultado anterior en palabras: el valor esperado de la puntuación es cero. Por lo tanto, si uno tomara muestras repetidas de alguna distribución y calculara repetidamente la puntuación, entonces el valor medio de las puntuaciones tendería a cero de forma asintótica .

Diferencia

La varianza de la puntuación, ${\ Displaystyle \ operatorname {Var} (s (\ theta)) = \ operatorname {E} (s (\ theta) s (\ theta) ^ {\ mathsf {T}})}$ , se puede derivar de la expresión anterior para el valor esperado.

{\ displaystyle {\ begin {alineado} 0 & = {\ frac {\ partial} {\ partial \ theta ^ {\ mathsf {T}}}} \ operatorname {E} (s \ mid \ theta) \\ [6pt] & = {\ frac {\ parcial} {\ parcial \ theta ^ {\ mathsf {T}}}} \ int _ {\ mathcal {X}} {\ frac {\ parcial \ log {\ mathcal {L}} ( \ theta; X)} {\ parcial \ theta}} f (x; \ theta) \, dx \\ [6pt] & = \ int _ {\ mathcal {X}} {\ frac {\ parcial} {\ parcial \ theta ^ {\ mathsf {T}}}} \ left \ {{\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta}} f (x; \ theta) \ right \} \, dx \\ [6pt] & = \ int _ {\ mathcal {X}} \ left \ {{\ frac {\ parcial ^ {2} \ log {\ mathcal {L}} ( \ theta; X)} {\ parcial \ theta \ parcial \ theta ^ {\ mathsf {T}}}} f (x; \ theta) + {\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta}} {\ frac {\ parcial f (x; \ theta)} {\ parcial \ theta ^ {\ mathsf {T}}}} \ right \} \, dx \\ [6pt] & = \ int _ {\ mathcal {X}} {\ frac {\ parcial ^ {2} \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta \ parcial \ theta ^ {\ mathsf {T}}}} f (x; \ theta) \, dx + \ int _ {\ mathcal {X}} {\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X )} {\ parcial \ theta}} {\ frac {\ partia l {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta ^ {\ mathsf {T}}}} \, dx \\ [6pt] & = \ int _ {\ mathcal {X}} {\ frac {\ parcial ^ {2} \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta \ parcial \ theta ^ {\ mathsf {T}}}} f (x; \ theta) \, dx + \ int _ {\ mathcal {X}} {\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta}} {\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta ^ {\ mathsf {T}}}} f (x; \ theta) \, dx \\ [6pt] & = \ nombre del operador {E} \ left ({\ frac {\ parcial ^ {2} \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta \ parcial \ theta ^ {\ mathsf {T}}} } \ right) + \ operatorname {E} \ left ({\ frac {\ partial \ log {\ mathcal {L}} (\ theta; X)} {\ partial \ theta}} \ left [{\ frac {\ parcial \ log {\ mathcal {L}} (\ theta; X)} {\ parcial \ theta}} \ derecha] ^ {\ mathsf {T}} \ derecha) \ end {alineado}}}

Por tanto, la varianza de la puntuación es igual al valor esperado negativo de la matriz hessiana de la probabilidad logarítmica. ^[5]

{\ Displaystyle \ operatorname {E} (s (\ theta) s (\ theta) ^ {\ mathsf {T}}) = - \ operatorname {E} \ left ({\ frac {\ parcial ^ {2} \ log {\ mathcal {L}}} {\ parcial \ theta \ parcial \ theta ^ {\ mathsf {T}}}} \ right)}

Este último se conoce como información de Fisher y está escrito ${\ Displaystyle {\ mathcal {I}} (\ theta)}$ . Tenga en cuenta que la información de Fisher no es una función de ninguna observación en particular, ya que la variable aleatoria ${\ Displaystyle X}$ ha sido promediado. Este concepto de información es útil cuando se comparan dos métodos de observación de algún proceso aleatorio .

Ejemplos de

Proceso de Bernoulli

Considere observar los primeros n ensayos de un proceso de Bernoulli y ver que A de ellos son éxitos y los B restantes son fracasos, donde la probabilidad de éxito es θ .

Entonces la probabilidad ${\ Displaystyle {\ mathcal {L}}}$ es

{\ displaystyle {\ mathcal {L}} (\ theta; A, B) = {\ frac {(A + B)!} {A! B!}} \ theta ^ {A} (1- \ theta) ^ {B},}

entonces la puntuación s es

{\ Displaystyle s = {\ frac {1} {\ mathcal {L}}} {\ frac {\ parcial {\ mathcal {L}}} {\ parcial \ theta}} = {\ frac {A} {\ theta }} - {\ frac {B} {1- \ theta}}.}

Ahora podemos verificar que la expectativa del puntaje es cero. Observando que la expectativa de A es nθ y la expectativa de B es n (1 - θ ) [recuerde que A y B son variables aleatorias], podemos ver que la expectativa de s es

{\ Displaystyle E (s) = {\ frac {n \ theta} {\ theta}} - {\ frac {n (1- \ theta)} {1- \ theta}} = nn = 0.}

También podemos comprobar la varianza de ${\ Displaystyle s}$ . Sabemos que A + B = n (entonces B = n - A ) y la varianza de A es nθ (1 - θ ) entonces la varianza de s es

{\ Displaystyle {\ begin {alineado} \ operatorname {var} (s) & = \ operatorname {var} \ left ({\ frac {A} {\ theta}} - {\ frac {nA} {1- \ theta }} \ right) = \ operatorname {var} \ left (A \ left ({\ frac {1} {\ theta}} + {\ frac {1} {1- \ theta}} \ right) \ right) \ \ & = \ left ({\ frac {1} {\ theta}} + {\ frac {1} {1- \ theta}} \ right) ^ {2} \ operatorname {var} (A) = {\ frac {n} {\ theta (1- \ theta)}}. \ end {alineado}}}

Modelo de resultado binario

Para modelos con resultados binarios ( Y = 1 o 0), el modelo puede puntuarse con el logaritmo de las predicciones.

{\ Displaystyle S = Y \ log (p) + (1-Y) (\ log (1-p))}

donde p es la probabilidad en el modelo que se va a estimar y S es la puntuación. ^[6]

Aplicaciones

Algoritmo de puntuación

El algoritmo de puntuación es un método iterativo para determinar numéricamente el estimador de máxima verosimilitud .

Prueba de puntuación

Tenga en cuenta que ${\ Displaystyle s}$ es una función de ${\ Displaystyle \ theta}$ y la observación ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots x_ {T})}$ , por lo que, en general, no es una estadística . Sin embargo, en ciertas aplicaciones, como la prueba de puntuación , la puntuación se evalúa con un valor específico de ${\ Displaystyle \ theta}$ (como un valor de hipótesis nula), en cuyo caso el resultado es una estadística. Intuitivamente, si el estimador restringido está cerca del máximo de la función de verosimilitud, la puntuación no debería diferir de cero en más que el error de muestreo . En 1948, CR Rao demostró por primera vez que el cuadrado del puntaje dividido por la matriz de información sigue una distribución asintótica χ ² bajo la hipótesis nula. ^[7]

Además, tenga en cuenta que la prueba de razón de verosimilitud viene dada por

{\ Displaystyle -2 \ left [\ log {\ mathcal {L}} (\ theta _ {0}) - \ log {\ mathcal {L}} ({\ hat {\ theta}}) \ right] = 2 \ int _ {\ theta _ {0}} ^ {\ hat {\ theta}} {\ frac {d \, \ log {\ mathcal {L}} (\ theta)} {d \ theta}} \, d \ theta = 2 \ int _ {\ theta _ {0}} ^ {\ hat {\ theta}} s (\ theta) \, d \ theta}

lo que significa que la prueba de razón de verosimilitud puede entenderse como el área bajo la función de puntuación entre ${\ Displaystyle \ theta _ {0}}$ y ${\ Displaystyle {\ hat {\ theta}}}$ . ^[8]

Ver también

Información de Fisher
Teoría de la información
Prueba de puntuación
Algoritmo de puntuación
Puntuación estándar
Curva de soporte

Notas

^ Informante en enciclopedia de matemáticas
^ Pickles, Andrew (1985). Introducción al análisis de verosimilitud . Norwich: WH Hutchins & Sons. págs. 24-29 . ISBN 0-86094-190-6.
^ Serfling, Robert J. (1980). Teoremas de aproximación de la estadística matemática . Nueva York: John Wiley & Sons. pag. 145 . ISBN 0-471-02403-1.
^ Greenberg, Edward; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente a la literatura . Nueva York: John Wiley & Sons. pag. 25. ISBN 0-471-09077-8.
^ Sargan, Denis (1988). Conferencias sobre Econometría Avanzada . Oxford: Basil Blackwell. págs. 16-18. ISBN 0-631-14956-2.
^ Steyerberg, EW; Vickers, AJ; Cook, NR; Gerds, T .; Gonen, M .; Obuchowski, N .; Pencina, MJ; Kattan, MW (2010). "Evaluación del rendimiento de modelos de predicción. Un marco para medidas tradicionales y novedosas" . Epidemiología . 21 (1): 128-138. doi : 10.1097 / EDE.0b013e3181c30fb2 . PMC 3575184 . PMID 20010215 .
^ Rao, C. Radhakrishna (1948). "Ensayos de gran muestra de hipótesis estadísticas relativas a varios parámetros con aplicaciones a problemas de estimación". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 44 (1): 50–57. doi : 10.1017 / S0305004100023987 .
^ Buse, A. (1982). "La razón de verosimilitud, Wald y pruebas de multiplicador de Lagrange: una nota expositiva". El estadístico estadounidense . 36 (3a): 153-157. doi : 10.1080 / 00031305.1982.10482817 .

Referencias

Chentsov, NN (2001) [1994], "Informante" , Enciclopedia de Matemáticas , EMS Press
Cox, RD; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. ISBN 0-412-12420-3.
Schervish, Mark J. (1995). Teoría de la Estadística . Nueva York: Springer. Sección 2.3.1. ISBN 0-387-94546-6.

[1] Informante en enciclopedia de matemáticas

[2] Pickles, Andrew (1985). Introducción al análisis de verosimilitud . Norwich: WH Hutchins & Sons. págs. 24-29 . ISBN 0-86094-190-6.

[3] Serfling, Robert J. (1980). Teoremas de aproximación de la estadística matemática . Nueva York: John Wiley & Sons. pag. 145 . ISBN 0-471-02403-1.

[4] Greenberg, Edward; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente a la literatura . Nueva York: John Wiley & Sons. pag. 25. ISBN 0-471-09077-8.

[5] Sargan, Denis (1988). Conferencias sobre Econometría Avanzada . Oxford: Basil Blackwell. págs. 16-18. ISBN 0-631-14956-2.

[Steyerberg2010-6] Steyerberg, EW; Vickers, AJ; Cook, NR; Gerds, T .; Gonen, M .; Obuchowski, N .; Pencina, MJ; Kattan, MW (2010). "Evaluación del rendimiento de modelos de predicción. Un marco para medidas tradicionales y novedosas" . Epidemiología . 21 (1): 128-138. doi : 10.1097 / EDE.0b013e3181c30fb2 . PMC 3575184 . PMID 20010215 .

[7] Rao, C. Radhakrishna (1948). "Ensayos de gran muestra de hipótesis estadísticas relativas a varios parámetros con aplicaciones a problemas de estimación". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 44 (1): 50–57. doi : 10.1017 / S0305004100023987 .

[8] Buse, A. (1982). "La razón de verosimilitud, Wald y pruebas de multiplicador de Lagrange: una nota expositiva". El estadístico estadounidense . 36 (3a): 153-157. doi : 10.1080 / 00031305.1982.10482817 .

[1]