De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística , la función de verosimilitud (a menudo llamada simplemente verosimilitud ) mide la bondad de ajuste de un modelo estadístico a una muestra de datos para valores dados de los parámetros desconocidos . Se forma a partir de la distribución de probabilidad conjunta de la muestra, pero se considera y se utiliza como una función de los parámetros únicamente, por lo que se tratan las variables aleatorias como fijas en los valores observados. [a]

La función de verosimilitud describe una hipersuperficie cuyo pico, si existe, representa la combinación de valores de los parámetros del modelo que maximizan la probabilidad de extraer la muestra obtenida. [1] El procedimiento para obtener estos argumentos del máximo de la función de verosimilitud se conoce como estimación de máxima verosimilitud , que por conveniencia computacional se suele realizar utilizando el logaritmo natural de la verosimilitud, conocido como función logarítmica de verosimilitud . Además, la forma y la curvatura de la superficie de probabilidad representan información sobre la estabilidadde las estimaciones, por lo que la función de verosimilitud a menudo se representa como parte de un análisis estadístico. [2]

El caso para el uso de la verosimilitud fue presentado por primera vez por RA Fisher , [3] quien creía que era un marco autónomo para el modelado estadístico y la inferencia. Más tarde, Barnard y Birnbaum dirigieron una escuela de pensamiento que defendía el principio de verosimilitud , postulando que toda la información relevante para la inferencia está contenida en la función de verosimilitud. [4] [5] Pero tanto en la estadística frecuentista como en la bayesiana , la función de verosimilitud juega un papel fundamental. [6]

Definición [ editar ]

La función de verosimilitud generalmente se define de manera diferente para distribuciones de probabilidad discretas y continuas . También es posible una definición general, como se analiza a continuación.

Distribución de probabilidad discreta [ editar ]

Sea una variable aleatoria discreta con función de masa de probabilidad en función de un parámetro . Entonces la función

considerada como una función de , es la función de verosimilitud , dado el resultado de la variable aleatoria . A veces, la probabilidad de "el valor de para el valor del parámetro " se escribe como P ( X = x | θ ) o P ( X = x ; θ ) . no debe confundirse con ; la probabilidad es igual a la probabilidad de que se observe un resultado particular cuando el valor verdadero del parámetro es , y por lo tanto es igual a una densidad de probabilidad sobre el resultado  , no por encima del parámetro .

Ejemplo [ editar ]

Figura 1. La función de verosimilitud ( ) para la probabilidad de que una moneda caiga cara arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HH.
Figura 2. La función de probabilidad ( ) para la probabilidad de que una moneda caiga cara arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HHT.

Considere un modelo estadístico simple del lanzamiento de una moneda: un único parámetro que expresa la "equidad" de la moneda. El parámetro es la probabilidad de que una moneda caiga cara ("H") cuando se lanza. puede tomar cualquier valor dentro del rango de 0.0 a 1.0. Para una perfecta moneda al aire , .

Imagínese lanzar una moneda al aire dos veces y observar los siguientes datos: dos caras en dos lanzamientos ("HH"). Suponiendo que cada lanzamiento de moneda sucesivo es iid , entonces la probabilidad de observar HH es

Por lo tanto, dados los datos observados HH, la probabilidad de que el parámetro del modelo sea igual a 0,5 es 0,25. Matemáticamente, esto se escribe como

Esto no es lo mismo que decir que la probabilidad de que , dada la observación HH, sea 0,25. (Para eso, podríamos aplicar el teorema de Bayes , que implica que la probabilidad posterior es proporcional a la probabilidad multiplicada por la probabilidad anterior).

Supongamos que la moneda no es una moneda justa, sino que lo es . Entonces la probabilidad de obtener dos caras es

Por eso

De manera más general, para cada valor de , podemos calcular la probabilidad correspondiente. El resultado de tales cálculos se muestra en la Figura 1.

En la Figura 2, la integral de la probabilidad en el intervalo [0, 1] es 1/3. Eso ilustra un aspecto importante de las probabilidades: las probabilidades no tienen que integrarse (o sumar) a 1, a diferencia de las probabilidades.

Distribución de probabilidad continua [ editar ]

Sea una variable aleatoria que sigue una distribución de probabilidad absolutamente continua con la función de densidad (una función de ) que depende de un parámetro . Entonces la función

considerado como una función de , es la función de verosimilitud (de , dado el resultado de ). A veces, la función de densidad para "el valor de dado el valor del parámetro " se escribe como . La función de verosimilitud`` no debe confundirse con ; la probabilidad es igual a la densidad de probabilidad del resultado observado , cuando el valor verdadero del parámetro es , y por lo tanto es igual a una densidad de probabilidad sobre el resultado , es decir, la función de probabilidad no es una densidad sobre el parámetro . En pocas palabras, es para probar hipótesis  , encontrar la probabilidad de resultados variables dado un conjunto de parámetros definidos en la hipótesis nula ; como en la inferencia, encontrar los parámetros probables dado un resultado específico.

En general [ editar ]

En la teoría de la probabilidad de la teoría de la medida , la función de densidad se define como la derivada Radon-Nikodym de la distribución de probabilidad relativa a una medida dominante común. [7] La función de probabilidad es que la densidad se interpreta como una función del parámetro (posiblemente un vector), en lugar de los posibles resultados. [8] Esto proporciona una función de verosimilitud para cualquier modelo estadístico con todas las distribuciones, ya sean discretas, absolutamente continuas, una mezcla o algo más. (Las probabilidades serán comparables, por ejemplo, para la estimación de parámetros, solo si son derivados de Radon-Nikodym con respecto a la misma medida dominante).

La discusión anterior sobre la probabilidad con probabilidades discretas es un caso especial de esto usando la medida de conteo , que hace que la probabilidad de cualquier resultado individual sea igual a la densidad de probabilidad para ese resultado.

Dado que no hay ningún evento (sin datos), la probabilidad y, por tanto, la probabilidad es 1; [ cita requerida ] cualquier evento no trivial tendrá una probabilidad menor.

Función de verosimilitud de un modelo parametrizado [ editar ]

Entre muchas aplicaciones, consideramos aquí una de gran importancia teórica y práctica. Dada una familia parametrizada de funciones de densidad de probabilidad (o funciones de masa de probabilidad en el caso de distribuciones discretas)

donde es el parámetro, la función de verosimilitud es

escrito

donde es el resultado observado de un experimento. En otras palabras, cuando se ve como una función de con fijo, es una función de densidad de probabilidad, y cuando se ve como una función de con fijo, es una función de verosimilitud.

Esto no es lo mismo que la probabilidad de que esos parámetros sean los correctos, dada la muestra observada. Intentar interpretar la probabilidad de una hipótesis dada la evidencia observada como la probabilidad de la hipótesis es un error común, con consecuencias potencialmente desastrosas. Vea la falacia del fiscal para ver un ejemplo de esto.

Desde un punto de vista geométrico, si consideramos como una función de dos variables, entonces la familia de distribuciones de probabilidad puede verse como una familia de curvas paralelas al eje-, mientras que la familia de funciones de verosimilitud son las curvas ortogonales paralelas al eje-.

Probabilidades de distribuciones continuas [ editar ]

El uso de la densidad de probabilidad para especificar la función de probabilidad anterior se justifica de la siguiente manera. Dada una observación , la probabilidad del intervalo , donde es una constante, viene dada por . Observa eso

,

ya que es positivo y constante. Porque

donde es la función de densidad de probabilidad, se sigue que

.

El primer teorema fundamental del cálculo y la regla de l'Hôpital juntos establecen que

Luego

Por lo tanto,

y así maximizar la densidad de probabilidad equivale a maximizar la probabilidad de la observación específica .

Probabilidades de distribuciones mixtas continuas-discretas [ editar ]

Lo anterior se puede ampliar de una manera sencilla para permitir la consideración de distribuciones que contienen componentes tanto discretos como continuos. Suponga que la distribución consta de un número de masas de probabilidad discretas y una densidad , donde la suma de todos los sumados a la integral de es siempre uno. Suponiendo que es posible distinguir una observación correspondiente a una de las masas de probabilidad discretas de una que corresponde al componente de densidad, la función de verosimilitud para una observación del componente continuo puede tratarse de la manera mostrada anteriormente. Para una observación del componente discreto, la función de verosimilitud para una observación del componente discreto es simplemente

donde es el índice de la masa de probabilidad discreta correspondiente a la observación , porque maximizar la masa de probabilidad (o probabilidad) en equivale a maximizar la probabilidad de la observación específica.

El hecho de que la función de verosimilitud pueda definirse de manera que incluya contribuciones que no son conmensurables (la densidad y la masa de probabilidad) surge de la forma en que se define la función de verosimilitud hasta una constante de proporcionalidad, donde esta "constante" puede cambiar con la observación , pero no con el parámetro .

Condiciones de regularidad [ editar ]

En el contexto de la estimación de parámetros, generalmente se supone que la función de verosimilitud obedece a ciertas condiciones, conocidas como condiciones de regularidad. Estas condiciones se asumen en varias pruebas que involucran funciones de verosimilitud y deben verificarse en cada aplicación en particular. Para la estimación de máxima verosimilitud, la existencia de un máximo global de la función de verosimilitud es de suma importancia. Según el teorema del valor extremo , es suficiente que la función de verosimilitud sea continua en un espacio de parámetros compacto para que exista el estimador de máxima verosimilitud. [9]Si bien el supuesto de continuidad generalmente se cumple, el supuesto de compacidad sobre el espacio de parámetros a menudo no lo es, ya que se desconocen los límites de los valores verdaderos de los parámetros. En ese caso, la concavidad de la función de verosimilitud juega un papel clave.

Más específicamente, si la función de verosimilitud es dos veces diferenciable continuamente en el espacio de parámetros k -dimensional que se supone que es un subconjunto abierto conectado de , existe un máximo único si

es negativo definido en cada uno de los cuales el gradiente desaparece, y
, es decir, la función de verosimilitud se aproxima a una constante en el límite del espacio de parámetros, que puede incluir los puntos en el infinito si no está acotado.

Mäkeläinen y col. demuestre este resultado utilizando la teoría de Morse mientras apela informalmente a una propiedad de paso de montaña. [10] Mascarenhas reafirma su demostración usando el teorema del paso de montaña . [11]

En las pruebas de consistencia y normalidad asintótica del estimador de máxima verosimilitud, se realizan supuestos adicionales sobre las densidades de probabilidad que forman la base de una función de verosimilitud particular. Estas condiciones fueron establecidas por primera vez por Chanda. [12] En particular, para casi todos y para todos ,

existen para todos con el fin de garantizar la existencia de una expansión de Taylor . En segundo lugar, para casi todos y para todos debe ser que

donde es tal que . Esta acotación de las derivadas es necesaria para permitir la diferenciación bajo el signo integral . Y por último, se asume que la matriz de información ,

es positivo definido y es finito. Esto asegura que la puntuación tenga una varianza finita. [13]

Las condiciones anteriores son suficientes, pero no necesarias. Es decir, un modelo que no cumpla con estas condiciones de regularidad puede tener o no un estimador de máxima verosimilitud de las propiedades mencionadas anteriormente. Además, en el caso de observaciones distribuidas de forma no independiente o no idéntica, es posible que sea necesario suponer propiedades adicionales.

Razón de verosimilitud y probabilidad relativa [ editar ]

Razón de verosimilitud [ editar ]

Una razón de verosimilitud es la razón de cualesquiera dos probabilidades especificadas, frecuentemente escrito como:

La razón de verosimilitud es fundamental para las estadísticas de verosimilitud : la ley de verosimilitud establece que el grado en que los datos (considerados como evidencia) respaldan un valor de parámetro frente a otro se mide mediante la razón de verosimilitud.

En la inferencia frecuentista , la razón de verosimilitud es la base para un estadístico de prueba , la llamada prueba de razón de verosimilitud . Según el lema de Neyman-Pearson , esta es la prueba más poderosa para comparar dos hipótesis simples a un nivel de significancia dado . Muchas otras pruebas pueden verse como pruebas de razón de verosimilitud o aproximaciones de las mismas. [14] La distribución asintótica de la razón logarítmica de verosimilitud, considerada como un estadístico de prueba, viene dada por el teorema de Wilks .

La razón de verosimilitud también es de importancia central en la inferencia bayesiana , donde se conoce como el factor de Bayes y se utiliza en la regla de Bayes . Expresada en términos de probabilidades , la regla de Bayes es que las probabilidades posteriores de dos alternativas y , dado un evento , son las probabilidades anteriores , multiplicadas por la razón de probabilidad. Como ecuación:

La razón de verosimilitud no se utiliza directamente en las estadísticas basadas en AIC. En cambio, lo que se utiliza es la probabilidad relativa de los modelos (ver más abajo).

Distinción a la razón de posibilidades [ editar ]

La razón de verosimilitud de dos modelos, dado el mismo evento, puede contrastarse con las probabilidades de dos eventos, dado el mismo modelo. En términos de una función de masa de probabilidad parametrizada , la razón de verosimilitud de dos valores del parámetro y , dado un resultado, es:

mientras que las probabilidades de dos resultados y , dado un valor del parámetro , es:

Esto resalta la diferencia entre probabilidad y probabilidades: en la probabilidad, uno compara modelos (parámetros), manteniendo los datos fijos; mientras que en las probabilidades, uno compara eventos (resultados, datos), manteniendo fijo el modelo.

La razón de probabilidades es una relación de dos probabilidades condicionales (de un evento, dado que otro evento está presente o ausente). Sin embargo, la razón de posibilidades también se puede interpretar como una razón de dos razones de probabilidad, si se considera que uno de los eventos es más fácilmente observable que el otro. Consulte la razón de probabilidades de diagnóstico , donde el resultado de una prueba de diagnóstico es más fácil de observar que la presencia o ausencia de una afección médica subyacente .

Función de probabilidad relativa [ editar ]

Dado que el valor real de la función de verosimilitud depende de la muestra, a menudo es conveniente trabajar con una medida estandarizada. Suponga que la estimación de máxima verosimilitud para el parámetro θ es . Se pueden encontrar plausibilidades relativas de otros valores θ comparando las probabilidades de esos otros valores con la probabilidad de . La probabilidad relativa de θ se define como [15] [16] [17] [18] [19]

Por lo tanto, la probabilidad relativa es la razón de verosimilitud (discutida anteriormente) con el denominador fijo . Esto corresponde a estandarizar la probabilidad de tener un máximo de 1.

Región de probabilidad [ editar ]

Una región de probabilidad es el conjunto de todos los valores de θ cuya probabilidad relativa es mayor o igual que un umbral dado. En términos de porcentajes, una región de probabilidad p % para θ se define como [15] [17] [20]

Si θ es un único parámetro real, una región de probabilidad p % generalmente comprenderá un intervalo de valores reales. Si la región comprende un intervalo, entonces se denomina intervalo de probabilidad . [15] [17] [21]

Los intervalos de verosimilitud, y más generalmente las regiones de verosimilitud, se utilizan para la estimación de intervalos dentro de las estadísticas de verosimilitud: son similares a los intervalos de confianza en las estadísticas frecuentistas e intervalos creíbles en las estadísticas bayesianas. Los intervalos de probabilidad se interpretan directamente en términos de probabilidad relativa, no en términos de probabilidad de cobertura (frecuentismo) o probabilidad posterior (bayesianismo).

Dado un modelo, los intervalos de probabilidad se pueden comparar con los intervalos de confianza. Si θ es un único parámetro real, entonces, bajo ciertas condiciones, un intervalo de probabilidad del 14,65% (probabilidad de aproximadamente 1: 7) para θ será lo mismo que un intervalo de confianza del 95% (probabilidad de cobertura 19/20). [15] [20] En una formulación ligeramente diferente adecuadas para el uso de las verosimilitudes log (véase el teorema Wilks' ), la estadística de prueba es el doble de la diferencia en el diario de probabilidades y la distribución de probabilidad de la estadística de prueba es aproximadamente un chi- distribución al cuadrado con grados de libertad (gl) igual a la diferencia en gl entre los dos modelos (por lo tanto, la e −2el intervalo de probabilidad es el mismo que el intervalo de confianza de 0,954; asumiendo que la diferencia en gl es 1). [20] [21]

Probabilidades que eliminan los parámetros molestos [ editar ]

En muchos casos, la verosimilitud es función de más de un parámetro, pero el interés se centra en la estimación de solo uno, o como mucho, algunos de ellos, considerándose los demás como parámetros de molestia . Se han desarrollado varios enfoques alternativos para eliminar estos parámetros molestos, de modo que una probabilidad se pueda escribir en función únicamente del parámetro (o parámetros) de interés: los enfoques principales son las probabilidades de perfil, condicionales y marginales. [22] [23] Estos enfoques también son útiles cuando una superficie de alta probabilidad dimensional necesita reducirse a uno o dos parámetros de interés para permitir un gráfico .

Probabilidad del perfil [ editar ]

Es posible reducir las dimensiones concentrando la función de verosimilitud para un subconjunto de parámetros expresando los parámetros molestos como funciones de los parámetros de interés y reemplazándolos en la función de verosimilitud. [24] [25] En general, para una función de verosimilitud que depende del vector de parámetros en el que se puede dividir , y donde se puede determinar explícitamente una correspondencia , la concentración reduce la carga computacional del problema de maximización original. [26]

Por ejemplo, en una regresión lineal con errores distribuidos normalmente , el vector de coeficientes podría dividirse en (y, en consecuencia, la matriz de diseño ). Maximizar con respecto a rinde una función de valor óptima . Usando este resultado, el estimador de máxima verosimilitud para se puede derivar como

donde es la matriz de proyección de . Este resultado se conoce como el teorema de Frisch-Waugh-Lovell .

Dado que gráficamente el procedimiento de concentración es equivalente a cortar la superficie de verosimilitud a lo largo de la cresta de valores del parámetro de molestia que maximiza la función de verosimilitud, creando un perfil isométrico de la función de verosimilitud para un determinado , el resultado de este procedimiento también se conoce como perfil probabilidad . [27] [28] Además de ser graficado, el perfil de verosimilitud también se puede usar para calcular intervalos de confianza que a menudo tienen mejores propiedades de muestra pequeña que aquellos basados ​​en errores estándar asintóticos calculados a partir de la verosimilitud total. [29] [30]

Probabilidad condicional [ editar ]

A veces es posible encontrar una estadística suficiente para los parámetros de molestia, y el condicionamiento de esta estadística da como resultado una probabilidad que no depende de los parámetros de molestia. [31]

Un ejemplo ocurre en tablas de 2 × 2, donde el condicionamiento de los cuatro totales marginales conduce a una probabilidad condicional basada en la distribución hipergeométrica no central . Esta forma de condicionamiento también es la base de la prueba exacta de Fisher .

Probabilidad marginal [ editar ]

A veces, podemos eliminar los parámetros molestos considerando una probabilidad basada solo en parte de la información de los datos, por ejemplo, utilizando el conjunto de rangos en lugar de los valores numéricos. Otro ejemplo ocurre en modelos lineales mixtos , donde considerar una probabilidad para los residuales solo después de ajustar los efectos fijos conduce a una estimación de máxima verosimilitud residual de los componentes de la varianza.

Probabilidad parcial [ editar ]

Una probabilidad parcial es una adaptación de la probabilidad total de modo que solo una parte de los parámetros (los parámetros de interés) ocurran en ella. [32] Es un componente clave del modelo de peligros proporcionales : al utilizar una restricción en la función de peligro, la probabilidad no contiene la forma del peligro a lo largo del tiempo.

Productos de probabilidades [ editar ]

La probabilidad, dados dos o más eventos independientes , es el producto de las probabilidades de cada uno de los eventos individuales:

Esto se sigue de la definición de independencia en probabilidad: las probabilidades de que sucedan dos eventos independientes, dado un modelo, es el producto de las probabilidades.

Esto es particularmente importante cuando los eventos provienen de variables aleatorias independientes e idénticamente distribuidas , como observaciones independientes o muestreo con reemplazo . En tal situación, la función de verosimilitud se convierte en un producto de las funciones de verosimilitud individuales.

El producto vacío tiene el valor 1, que corresponde a la probabilidad, dado que no hay evento, que es 1: antes de cualquier dato, la probabilidad es siempre 1. Esto es similar a un previo uniforme en las estadísticas bayesianas, pero en las estadísticas verosimilistas no es incorrecto. anterior porque las probabilidades no están integradas.

Probabilidad logarítmica [ editar ]

Función de probabilidad logarítmica es una transformación logarítmica de la función de probabilidad, a menudo denotado por una minúscula l o , a diferencia de la mayúscula L o de la probabilidad. Debido a que los logaritmos son funciones estrictamente crecientes , maximizar la probabilidad es equivalente a maximizar la probabilidad logarítmica. Pero para fines prácticos, es más conveniente trabajar con la función logarítmica de verosimilitud en la estimación de máxima verosimilitud , en particular porque las distribuciones de probabilidad más comunes, en particular la familia exponencial, son solo logarítmicamente cóncavas , [33] [34] y concavidades.de la función objetivo juega un papel clave en la maximización .

Dada la independencia de cada evento, la probabilidad logarítmica general de la intersección es igual a la suma de las probabilidades logarítmicas de los eventos individuales. Esto es análogo al hecho de que la probabilidad logarítmica general es la suma de la probabilidad logarítmica de los eventos individuales. Además de la conveniencia matemática de esto, el proceso de adición de log-verosimilitud tiene una interpretación intuitiva, a menudo expresada como "apoyo" de los datos. Cuando los parámetros se estiman utilizando el log-verosimilitud para la estimación de máxima verosimilitud , cada punto de datos se usa agregándose al log-verosimilitud total. Como los datos pueden verse como una evidencia que respalda los parámetros estimados, este proceso se puede interpretar como "el respaldo de la evidencia independiente agrega",y la probabilidad logarítmica es el "peso de la evidencia". Al interpretar la probabilidad logarítmica negativa como contenido de información o sorpresa , el soporte (probabilidad logarítmica) de un modelo, dado un evento, es lo negativo de la sorpresa del evento, dado el modelo: un modelo está respaldado por un evento en la medida en que que el evento no es sorprendente, dado el modelo.

Un logaritmo de una razón de verosimilitud es igual a la diferencia de las verosimilitudes logarítmicas:

Así como la probabilidad, dado que no hay evento, es 1, la probabilidad logarítmica, dado que no hay evento, es 0, que corresponde al valor de la suma vacía: sin ningún dato, no hay soporte para ningún modelo.

Ecuaciones de verosimilitud [ editar ]

Si la función logarítmica de verosimilitud es uniforme , su gradiente con respecto al parámetro, conocido como puntuación y escrito , existe y permite la aplicación del cálculo diferencial . La forma básica de maximizar una función diferenciable es encontrar los puntos estacionarios (los puntos donde la derivada es cero); dado que la derivada de una suma es solo la suma de las derivadas, pero la derivada de un producto requiere la regla del producto , es más fácil calcular los puntos estacionarios de la probabilidad logarítmica de eventos independientes que para la probabilidad de eventos independientes.

Las ecuaciones definidas por el punto estacionario de la función de puntuación sirven como ecuaciones de estimación para el estimador de máxima verosimilitud.

En ese sentido, el estimador de máxima verosimilitud se define implícitamente por el valor at de la función inversa , donde es el espacio euclidiano d- dimensional . Usando el teorema de la función inversa , se puede demostrar que está bien definido en un entorno abierto sobre con probabilidad de ir a uno, y es una estimación consistente de . Como consecuencia, existe una secuencia tal que asintóticamente casi con seguridad , y . [35] Se puede establecer un resultado similar utilizando el teorema de Rolle . [36] [37]

La segunda derivada evaluada en , conocida como información de Fisher , determina la curvatura de la superficie de verosimilitud, [38] y por lo tanto indica la precisión de la estimación. [39]

Familias exponenciales [ editar ]

La probabilidad logarítmica también es particularmente útil para familias exponenciales de distribuciones, que incluyen muchas de las distribuciones de probabilidad paramétricas comunes . La función de distribución de probabilidad (y por lo tanto la función de verosimilitud) para familias exponenciales contienen productos de factores que involucran exponenciación . El logaritmo de dicha función es una suma de productos, nuevamente más fácil de diferenciar que la función original.

Una familia exponencial es aquella cuya función de densidad de probabilidad tiene la forma (para algunas funciones, escribiendo para el producto interno ):

Cada uno de estos términos tiene una interpretación, [b] pero simplemente cambiando de probabilidad a verosimilitud y tomando logaritmos se obtiene la suma:

El y cada uno corresponde a un cambio de coordenadas , por lo que en estas coordenadas, la probabilidad logarítmica de una familia exponencial viene dada por la fórmula simple:

En palabras, la probabilidad logarítmica de una familia exponencial es el producto interno del parámetro natural y la estadística suficiente , menos el factor de normalización ( función de partición logarítmica ) . Así, por ejemplo la estimación de probabilidad máxima se puede calcular mediante la adopción de los derivados de la estadística suficiente T y la función de log-partición A .

Ejemplo: la distribución gamma [ editar ]

La distribución gamma es una familia exponencial con dos parámetros y . La función de probabilidad es

Encontrar la estimación de máxima verosimilitud de para un único valor observado parece bastante abrumador. Su logaritmo es mucho más sencillo de trabajar:

Para maximizar la probabilidad logarítmica, primero tomamos la derivada parcial con respecto a :

Si hay varias observaciones independientes , entonces la probabilidad logarítmica conjunta será la suma de las probabilidades logarítmicas individuales, y la derivada de esta suma será una suma de las derivadas de cada probabilidad logarítmica individual:

Para completar el procedimiento de maximización de la probabilidad logarítmica conjunta, la ecuación se establece en cero y se resuelve para :

Aquí denota la estimación de máxima verosimilitud y es la media muestral de las observaciones.

Antecedentes e interpretación [ editar ]

Comentarios históricos [ editar ]

El término "verosimilitud" se ha utilizado en inglés desde al menos el inglés medio tardío . [40] Su uso formal para referirse a una función específica en estadística matemática fue propuesto por Ronald Fisher , [41] en dos artículos de investigación publicados en 1921 [42] y 1922. [43] El artículo de 1921 introdujo lo que hoy se llama un " intervalo de probabilidad "; el documento de 1922 introdujo el término " método de máxima verosimilitud ". Citando a Fisher:

[E] n 1922, propuse el término 'verosimilitud', en vista del hecho de que, con respecto al [parámetro], no es una probabilidad, y no obedece las leyes de la probabilidad, mientras que al mismo tiempo lleva al problema de la elección racional entre los posibles valores de [el parámetro] una relación similar a la que tiene la probabilidad con el problema de predecir eventos en los juegos de azar. . . Sin embargo, mientras que en relación con el juicio psicológico, la probabilidad tiene cierta semejanza con la probabilidad, los dos conceptos son completamente distintos. . . . " [44]

El concepto de verosimilitud no debe confundirse con el de probabilidad mencionado por Sir Ronald Fisher.

Hago hincapié en esto porque, a pesar del énfasis que siempre he puesto en la diferencia entre probabilidad y verosimilitud, todavía existe una tendencia a tratar la probabilidad como si fuera una especie de probabilidad. El primer resultado es, por tanto, que hay dos medidas diferentes de creencia racional apropiadas para diferentes casos. Conociendo la población, podemos expresar nuestro conocimiento incompleto o nuestras expectativas de la muestra en términos de probabilidad; conociendo la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de probabilidad. [45]

La invención de Fisher de la probabilidad estadística fue una reacción contra una forma anterior de razonamiento llamada probabilidad inversa . [46] Su uso del término "probabilidad" fijó el significado del término dentro de la estadística matemática.

AWF Edwards (1972) estableció la base axiomática para el uso de la razón logarítmica de verosimilitud como una medida de apoyo relativo de una hipótesis frente a otra. La función de soporte es entonces el logaritmo natural de la función de verosimilitud. Ambos términos se utilizan en filogenia , pero no se adoptaron en un tratamiento general del tema de la evidencia estadística. [47]

Interpretaciones bajo diferentes fundamentos [ editar ]

Entre los estadísticos, no hay consenso sobre cuál debería ser la base de las estadísticas . Hay cuatro paradigmas principales que se han propuesto para la fundación: frecuentismo , bayesianismo , verosimilismo y basado en AIC . [6] Para cada uno de los fundamentos propuestos, la interpretación de probabilidad es diferente. Las cuatro interpretaciones se describen en las subsecciones siguientes.

Interpretación frecuentista [ editar ]

Interpretación bayesiana [ editar ]

En la inferencia bayesiana , aunque se puede hablar de la probabilidad de cualquier proposición o variable aleatoria dada otra variable aleatoria: por ejemplo, la probabilidad de un valor de parámetro o de un modelo estadístico (ver probabilidad marginal ), dados datos específicos u otra evidencia, [48 ] [49] [50] [51] la función de verosimilitud sigue siendo la misma entidad, con las interpretaciones adicionales de (i) una densidad condicional de los datos dado el parámetro (dado que el parámetro es entonces una variable aleatoria) y (ii) una medida o cantidad de información aportada por los datos sobre el valor del parámetro o incluso el modelo. [48] [49] [50][51] [52] Debido a la introducción de una estructura de probabilidad en el espacio de parámetros o en la colección de modelos, es posible que un valor de parámetro o un modelo estadístico tengan un valor de probabilidad grande para datos dados y, sin embargo, tengan un valor bajo. probabilidad , o viceversa. [50] [52] Este suele ser el caso en contextos médicos. [53] Siguiendo la regla de Bayes , la probabilidad cuando se ve como una densidad condicional se puede multiplicar por ladensidad de probabilidad previa del parámetro y luego normalizar, para dar unadensidad de probabilidad posterior . [48] [49] [50] [51] [52]De manera más general, la probabilidad de una cantidad desconocida dada otra cantidad desconocida es proporcional a la probabilidad de dada . [48] [49] [50] [51] [52]

Interpretación verosimilista [ editar ]

En la estadística frecuentista, la función de verosimilitud es en sí misma una estadística que resume una sola muestra de una población, cuyo valor calculado depende de la elección de varios parámetros θ 1 ... θ p , donde p es el recuento de parámetros en algunos parámetros ya seleccionados. modelo estadístico . El valor de la probabilidad sirve como una figura de mérito para la elección utilizada para los parámetros, y el conjunto de parámetros con máxima probabilidad es la mejor opción, dados los datos disponibles.

El cálculo específico de la probabilidad es la probabilidad de que se asigne la muestra observada, asumiendo que el modelo elegido y los valores de los diversos parámetros θ dan una aproximación precisa de la distribución de frecuencias de la población de la que se extrajo la muestra observada. Heurísticamente, tiene sentido que una buena elección de parámetros sean aquellos que hagan que la muestra realmente observada tenga la máxima probabilidad post-hoc posible de haber sucedido. Teorema de Wilkscuantifica la regla heurística mostrando que la diferencia en el logaritmo de la probabilidad generada por los valores de los parámetros estimados y el logaritmo de la probabilidad generada por los valores de los parámetros "verdaderos" (pero desconocidos) de la población está distribuida asintóticamente χ 2 .

La estimación de máxima verosimilitud de cada muestra independiente es una estimación separada del conjunto de parámetros "verdadero" que describe la población muestreada. Las estimaciones sucesivas de muchas muestras independientes se agruparán junto con el conjunto "verdadero" de valores de parámetros de la población ocultos en algún lugar entre ellos. La diferencia en los logaritmos de verosimilitud máxima y verosimilitudes de conjuntos de parámetros adyacentes se puede utilizar para dibujar una región de confianza en una gráfica cuyas coordenadas son los parámetros θ 1 ... θ p . La región rodea la estimación de máxima verosimilitud, y todos los puntos (conjuntos de parámetros) dentro de esa región difieren a lo sumo en logaritmo de verosimilitud por algún valor fijo.La distribución χ 2 dada porEl teorema de Wilks convierte las diferencias de probabilidad logarítmica de la región en la "confianza" de que el conjunto de parámetros "verdadero" de la población se encuentra dentro. El arte de elegir la diferencia de probabilidad logarítmica fija es hacer que la confianza sea aceptablemente alta mientras se mantiene la región aceptablemente pequeña (rango estrecho de estimaciones).

A medida que se observan más datos, en lugar de usarse para hacer estimaciones independientes, se pueden combinar con las muestras anteriores para hacer una sola muestra combinada, y esa muestra grande se puede usar para una nueva estimación de máxima verosimilitud. A medida que aumenta el tamaño de la muestra combinada, se reduce el tamaño de la región de probabilidad con la misma confianza. Eventualmente, o el tamaño de la región de confianza es casi un solo punto, o se ha muestreado toda la población; en ambos casos, el conjunto de parámetros estimados es esencialmente el mismo que el conjunto de parámetros de población.

Interpretación basada en AIC [ editar ]

Bajo el paradigma AIC , la probabilidad se interpreta dentro del contexto de la teoría de la información . [54] [55] [56]

Ver también [ editar ]

  • Factor de Bayes
  • Entropía condicional
  • La probabilidad condicional
  • Probabilidad empírica
  • Principio de verosimilitud
  • Prueba de razón de verosimilitud
  • Estadísticas de verosimilismo
  • Máxima verosimilitud
  • Principio de máxima entropía
  • Pseudolikelihood
  • Puntuación (estadísticas)

Notas [ editar ]

  1. ^ Aunque a menudo se usan como sinónimos en el habla común, los términos " verosimilitud " y " probabilidad " tienen distintos significados en estadística. La probabilidad es una propiedad de la muestra, específicamente qué tan probable es obtener una muestra particular para un valor dado de los parámetros de la distribución; La probabilidad es una propiedad de los valores de los parámetros. Véase Valavanis, Stefan (1959). "Probabilidad y verosimilitud". Econometría: Introducción a los métodos de máxima verosimilitud . Nueva York: McGraw-Hill. págs. 24-28. OCLC  6257066 .
  2. ^ Ver Familia exponencial § Interpretación

Referencias [ editar ]

  1. ^ Myung, In Jae (2003). "Tutorial sobre estimación de máxima verosimilitud". Revista de Psicología Matemática . 47 (1): 90–100. doi : 10.1016 / S0022-2496 (02) 00028-7 .
  2. ^ Caja, George EP ; Jenkins, Gwilym M. (1976), Análisis de series de tiempo: pronóstico y control , San Francisco: Holden-Day, p. 224, ISBN 0-8162-1104-3
  3. ^ Fisher, métodos estadísticos de RA para investigadores . §1.2.
  4. ^ Edwards, AWF (1992). Probabilidad . Prensa de la Universidad Johns Hopkins . ISBN 9780521318716.
  5. Berger, James O .; Wolpert, Robert L. (1988). El principio de probabilidad . Hayward: Instituto de Estadística Matemática. pag. 19. ISBN 0-940600-13-7.
  6. ^ a b Bandyopadhyay, PS; Forster, MR, eds. (2011). Filosofía de la Estadística . Editorial de Holanda Septentrional .
  7. ^ Billingsley, Patrick (1995). Probabilidad y medida (tercera ed.). John Wiley e hijos . págs. 422–423.
  8. Shao, junio (2003). Estadística matemática (2ª ed.). Saltador. §4.4.1.
  9. ^ Gouriéroux, Christian ; Monfort, Alain (1995). Estadística y modelos econométricos . Nueva York: Cambridge University Press. pag. 161. ISBN 0-521-40551-3.
  10. ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George PH (1981). "Sobre la existencia y unicidad de la estimación de máxima verosimilitud de un parámetro con valores vectoriales en muestras de tamaño fijo" . Annals of Statistics . 9 (4): 758–767. doi : 10.1214 / aos / 1176345516 . JSTOR 2240844 . 
  11. ^ Mascarenhas, WF (2011). "Un lema de paso de montaña y sus implicaciones con respecto a la singularidad de los minimizadores restringidos". Optimización . 60 (8–9): 1121–1159. doi : 10.1080 / 02331934.2010.527973 . S2CID 15896597 . 
  12. ^ Chanda, KC (1954). "Una nota sobre la consistencia y los máximos de las raíces de las ecuaciones de verosimilitud". Biometrika . 41 (1–2): 56–61. doi : 10.2307 / 2333005 . JSTOR 2333005 . 
  13. ^ Greenberg, Edward; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente a la literatura . Nueva York: John Wiley & Sons. págs. 24-25. ISBN 0-471-09077-8.
  14. ^ Buse, A. (1982). "La razón de verosimilitud, Wald y pruebas de multiplicador de Lagrange: una nota expositiva". El estadístico estadounidense . 36 (3a): 153-157. doi : 10.1080 / 00031305.1982.10482817 .
  15. ^ a b c d Kalbfleisch, JG (1985), Probabilidad e inferencia estadística , Springer (§9.3).
  16. ^ Azzalini, A. (1996), Inferencia estadística: basada en la probabilidad , Chapman & Hall , ISBN 9780412606502 (§1.4.2).
  17. ↑ a b c Sprott, DA (2000), Inferencia estadística en ciencia , Springer (capítulo 2).
  18. ^ Davison, AC (2008), Modelos estadísticos , Cambridge University Press (§4.1.2).
  19. ^ Celebrada, L .; Sabanés Bové, DS (2014), Inferencia estadística aplicada: verosimilitud y Bayes , Springer (§2.1).
  20. ↑ a b c Rossi, RJ (2018), Estadística matemática , Wiley , p. 267.
  21. ^ a b Hudson, DJ (1971), "Estimación de intervalo de la función de verosimilitud", Revista de la Royal Statistical Society, Serie B , 33 (2): 256-262.
  22. ^ Pawitan, Yudi (2001). En toda verosimilitud: modelado estadístico e inferencia usando verosimilitud . Prensa de la Universidad de Oxford .
  23. ^ Wen Hsiang Wei. "Modelo lineal generalizado - notas del curso" . Taichung, Taiwán: Universidad de Tunghai . pp.Capítulo 5 . Consultado el 1 de octubre de 2017 .
  24. ^ Amemiya, Takeshi (1985). "Función de probabilidad concentrada" . Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs.  125-127 . ISBN 978-0-674-00560-0.
  25. ^ Davidson, Russell; MacKinnon, James G. (1993). "Concentración de la función de loglikelihood". Estimación e Inferencia en Econometría . Nueva York: Oxford University Press. págs. 267–269. ISBN 978-0-19-506011-9.
  26. ^ Gourieroux, Christian; Monfort, Alain (1995). "Función de probabilidad concentrada" . Estadística y modelos econométricos . Nueva York: Cambridge University Press. págs. 170-175. ISBN 978-0-521-40551-5.
  27. ^ Encurtidos, Andrew (1985). Introducción al análisis de verosimilitud . Norwich: WH Hutchins & Sons. págs.  21-24 . ISBN 0-86094-190-6.
  28. ^ Bolker, Benjamin M. (2008). Modelos ecológicos y de datos en I . Prensa de la Universidad de Princeton. págs. 187–189. ISBN 978-0-691-12522-0.
  29. ^ Aitkin, Murray (1982). "Inferencia de probabilidad directa". GLIM 82: Actas de la Conferencia Internacional sobre Modelos Lineales Generalizados . Saltador. págs. 76–86. ISBN 0-387-90777-7.
  30. ^ Venzon, DJ; Moolgavkar, SH (1988). "Un método para calcular los intervalos de confianza basados ​​en el perfil-verosimilitud". Revista de la Royal Statistical Society . Serie C (Estadística aplicada). 37 (1): 87–94. doi : 10.2307 / 2347496 . JSTOR 2347496 . 
  31. ^ Kalbfleisch, JD; Sprott, DA (1973). "Probabilidades marginales y condicionales". Sankhyā: The Indian Journal of Statistics . Serie A. 35 (3): 311–328. JSTOR 25049882 . 
  32. ^ Cox, DR (1975). "Probabilidad parcial". Biometrika . 62 (2): 269–276. doi : 10.1093 / biomet / 62.2.269 . Señor 0400509 . 
  33. ^ Kass, Robert E .; Vos, Paul W. (1997). Fundamentos geométricos de la inferencia asintótica . Nueva York: John Wiley & Sons. pag. 14. ISBN 0-471-82668-5.
  34. ^ Papadopoulos, Alecos (25 de septiembre de 2013). "¿Por qué siempre ponemos log () antes del pdf conjunto cuando usamos MLE (Estimación de máxima verosimilitud)?" . Stack Exchange .
  35. ^ Foutz, Robert V. (1977). "Sobre la solución coherente única a las ecuaciones de verosimilitud". Revista de la Asociación Estadounidense de Estadística . 72 (357): 147-148. doi : 10.1080 / 01621459.1977.10479926 .
  36. ^ Tarone, Robert E .; Gruenhage, Gary (1975). "Una nota sobre la unicidad de las raíces de las ecuaciones de verosimilitud para parámetros con valores vectoriales". Revista de la Asociación Estadounidense de Estadística . 70 (352): 903–904. doi : 10.1080 / 01621459.1975.10480321 .
  37. ^ Rai, Kamta; Van Ryzin, John (1982). "Una nota sobre una versión multivariante del teorema de Rolle y la unicidad de las raíces de máxima verosimilitud". Comunicaciones en Estadística . Teoría y métodos. 11 (13): 1505-1510. doi : 10.1080 / 03610928208828325 .
  38. ^ Rao, B. Raja (1960). "Una fórmula para la curvatura de la superficie de verosimilitud de una muestra extraída de una distribución que admite estadísticas suficientes". Biometrika . 47 (1–2): 203–207. doi : 10.1093 / biomet / 47.1-2.203 .
  39. ^ Ward, Michael D .; Ahlquist, John S. (2018). Máxima probabilidad para las ciencias sociales: estrategias para el análisis . Prensa de la Universidad de Cambridge . págs. 25-27.
  40. ^ "probabilidad", Diccionario de inglés Oxford más corto (2007).
  41. ^ Hald, A. (1999). "Sobre la historia de máxima verosimilitud en relación a la probabilidad inversa y mínimos cuadrados" . Ciencia estadística . 14 (2): 214-222. doi : 10.1214 / ss / 1009212248 . JSTOR 2676741 . 
  42. ^ Fisher, RA (1921). "Sobre el" error probable "de un coeficiente de correlación deducido de una pequeña muestra". Metron . 1 : 3-32.
  43. ^ Fisher, RA (1922). "Sobre los fundamentos matemáticos de la estadística teórica" . Philosophical Transactions de la Royal Society A . 222 (594–604): 309–368. Código bibliográfico : 1922RSPTA.222..309F . doi : 10.1098 / rsta.1922.0009 . JFM 48.1280.02 . JSTOR 91208 .  
  44. ^ Klemens, Ben (2008). Modelado con datos: herramientas y técnicas para la informática científica . Prensa de la Universidad de Princeton . pag. 329.
  45. ^ Fisher, Ronald (1930). "Probabilidad inversa". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 26 (4): 528–535. Código Bibliográfico : 1930PCPS ... 26..528F . doi : 10.1017 / S0305004100016297 .
  46. ^ Fienberg, Stephen E (1997). "Introducción a RA Fisher sobre probabilidad inversa y verosimilitud". Ciencia estadística . 12 (3): 161. doi : 10.1214 / ss / 1030037905 .
  47. ^ Royall, R. (1997). Evidencia estadística . Chapman y Hall .
  48. ^ a b c d I. J. Good: Probabilidad y ponderación de la evidencia (Griffin 1950), §6.1
  49. ^ a b c d H. Jeffreys: Teoría de la probabilidad (3.a ed., Oxford University Press 1983), §1.22
  50. ^ a b c d e E. T. Jaynes: Teoría de la probabilidad: la lógica de la ciencia (Cambridge University Press 2003), §4.1
  51. ^ a b c d D. V. Lindley: Introducción a la probabilidad y la estadística desde un punto de vista bayesiano. Parte 1: Probabilidad (Cambridge University Press 1980), §1.6
  52. ^ a b c d A. Gelman, JB Carlin, HS Stern, DB Dunson, A. Vehtari, DB Rubin: Análisis de datos bayesianos (3.a ed., Chapman y Hall / CRC 2014), §1.3
  53. ^ Medias, HC; Higgins, MC; Owens, DK (2013), Medical Decision Making (2.a ed.), Wiley, capítulos 3 a 4, doi : 10.1002 / 9781118341544 , ISBN 9781118341544
  54. ^ Akaike, H. (1985). "Predicción y entropía". En Atkinson, AC; Fienberg, SE (eds.). Una celebración de las estadísticas . Saltador. págs. 1–24.
  55. ^ Sakamoto, Y .; Ishiguro, M .; Kitagawa, G. (1986). Estadísticas de criterios de información de Akaike . D. Reidel . Parte I.
  56. ^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información (2ª ed.). Springer-Verlag . Cap. 7.

Lectura adicional [ editar ]

  • Azzalini, Adelchi (1996). "Probabilidad". Inferencia estadística basada en la probabilidad . Chapman y Hall. págs. 17–50. ISBN 0-412-60650-X.
  • Boos, Dennis D .; Stefanski, LA (2013). "Construcción y estimación de verosimilitud". Inferencia estadística esencial: teoría y métodos . Nueva York: Springer. págs. 27-124. doi : 10.1007 / 978-1-4614-4818-1_2 . ISBN 978-1-4614-4817-4.
  • Edwards, AWF (1992) [1972]. Probabilidad (edición ampliada). Prensa de la Universidad Johns Hopkins . ISBN 0-8018-4443-6.
  • King, Gary (1989). "El modelo de inferencia de verosimilitud" . Metodología política unificadora: la teoría de la semejanza de la inferencia estadística . Prensa de la Universidad de Cambridge. págs. 59–94. ISBN 0-521-36697-6.
  • Lindsey, JK (1996). "Probabilidad" . Inferencia estadística paramétrica . Prensa de la Universidad de Oxford. págs. 69-139. ISBN 0-19-852359-9.
  • Rohde, Charles A. (2014). Inferencia estadística introductoria con la función de verosimilitud . Berlín: Springer. ISBN 978-3-319-10460-7.
  • Royall, Richard (1997). Evidencia estadística: un paradigma de verosimilitud . Londres: Chapman & Hall. ISBN 0-412-04411-0.
  • Ward, Michael D .; Ahlquist, John S. (2018). "La función de probabilidad: una inmersión más profunda" . Máxima probabilidad para las ciencias sociales: estrategias para el análisis . Prensa de la Universidad de Cambridge . págs. 21-28. ISBN 978-1-316-63682-4.

Enlaces externos [ editar ]

  • Función de verosimilitud en Planetmath
  • "Log-verosimilitud" . Statlect .