El cálculo bayesiano aproximado ( ABC ) constituye una clase de métodos computacionales arraigados en las estadísticas bayesianas que se pueden utilizar para estimar las distribuciones posteriores de los parámetros del modelo.
En toda inferencia estadística basada en modelos , la función de verosimilitud es de importancia central, ya que expresa la probabilidad de los datos observados bajo un modelo estadístico particular y, por lo tanto, cuantifica los datos de apoyo que se prestan a valores particulares de parámetros y a elecciones entre diferentes modelos. Para modelos simples, normalmente se puede derivar una fórmula analítica para la función de verosimilitud. Sin embargo, para modelos más complejos, una fórmula analítica puede ser difícil de alcanzar o la función de probabilidad puede ser computacionalmente muy costosa de evaluar.
Los métodos ABC evitan la evaluación de la función de verosimilitud. De esta manera, los métodos ABC amplían el ámbito de los modelos para los que se puede considerar la inferencia estadística. Los métodos ABC están bien fundamentados matemáticamente, pero inevitablemente hacen suposiciones y aproximaciones cuyo impacto debe evaluarse cuidadosamente. Además, el dominio de aplicación más amplio de ABC exacerba los desafíos de la estimación de parámetros y la selección de modelos .
ABC ha ganado rápidamente popularidad en los últimos años y en particular para el análisis de problemas complejos que surgen en las ciencias biológicas , por ejemplo, en genética de poblaciones , ecología , epidemiología y biología de sistemas .
Historia
Las primeras ideas relacionadas con ABC se remontan a la década de 1980. Donald Rubin , al discutir la interpretación de las declaraciones bayesianas en 1984, [1] describió un mecanismo de muestreo hipotético que produce una muestra de la distribución posterior . Este esquema fue más un experimento de pensamiento conceptual para demostrar qué tipo de manipulaciones se realizan al inferir las distribuciones posteriores de los parámetros. La descripción del mecanismo de muestreo coincide exactamente con la del esquema de rechazo ABC , y este artículo puede considerarse el primero en describir el cálculo bayesiano aproximado. Sin embargo, Francis Galton construyó un quincunx de dos etapas a fines del siglo XIX que puede verse como una implementación física de un esquema de rechazo ABC para una sola desconocida (parámetro) y una sola observación. [2] Otro punto profético fue hecho por Rubin cuando argumentó que en la inferencia bayesiana, los estadísticos aplicados no deberían conformarse con modelos analíticamente manejables, sino considerar métodos computacionales que les permitan estimar la distribución posterior de interés. De esta forma, se puede considerar una gama más amplia de modelos. Estos argumentos son particularmente relevantes en el contexto de ABC.
En 1984, Peter Diggle y Richard Gratton [3] sugirieron el uso de un esquema de simulación sistemático para aproximar la función de verosimilitud en situaciones donde su forma analítica es intratable . Su método se basaba en definir una cuadrícula en el espacio de parámetros y usarla para aproximar la probabilidad mediante la ejecución de varias simulaciones para cada punto de la cuadrícula. Luego se mejoró la aproximación aplicando técnicas de suavizado a los resultados de las simulaciones. Si bien la idea de usar la simulación para probar hipótesis no era nueva, [4] [5] Diggle y Gratton aparentemente introdujeron el primer procedimiento que usa la simulación para hacer inferencias estadísticas en una circunstancia en la que la probabilidad es intratable.
Aunque el enfoque de Diggle y Gratton había abierto una nueva frontera, su método aún no era exactamente idéntico a lo que ahora se conoce como ABC, ya que apuntaba a aproximar la probabilidad en lugar de la distribución posterior. Un artículo de Simon Tavaré et al. [6] fue el primero en proponer un algoritmo ABC para la inferencia posterior. En su trabajo fundamental, se consideró la inferencia sobre la genealogía de los datos de la secuencia de ADN y, en particular, el problema de decidir la distribución posterior del tiempo hasta el ancestro común más reciente de los individuos muestreados. Tal inferencia es analíticamente intratable para muchos modelos demográficos, pero los autores presentaron formas de simular árboles coalescentes bajo los modelos putativos. Se obtuvo una muestra de la parte posterior de los parámetros del modelo aceptando / rechazando propuestas basadas en la comparación del número de sitios segregantes en los datos sintéticos y reales. Este trabajo fue seguido por un estudio aplicado sobre el modelado de la variación en el cromosoma Y humano por Jonathan K. Pritchard et al. [7] utilizando el método ABC. Finalmente, el término cálculo bayesiano aproximado fue establecido por Mark Beaumont et al. , [8] ampliando aún más la metodología ABC y discutiendo la idoneidad del enfoque ABC más específicamente para problemas en genética de poblaciones. Desde entonces, ABC se ha extendido a aplicaciones fuera de la genética de poblaciones, como biología de sistemas, epidemiología y filogeografía .
Método
Motivación
Una encarnación común del teorema de Bayes relaciona la probabilidad (o densidad) condicional de un valor de parámetro particular datos dados a la probabilidad de dado por la regla
- ,
dónde denota el posterior, la probabilidad, el anterior, y la evidencia (también denominada probabilidad marginal o probabilidad predictiva previa de los datos). Tenga en cuenta que el denominador está normalizando la probabilidad total de la densidad posterior a uno y se puede calcular de esa manera.
El a priori representa creencias o conocimientos (como por ejemplo, limitaciones físicas) sobre antes de está disponible. Dado que el anterior reduce la incertidumbre, las estimaciones posteriores tienen menos varianza, pero pueden estar sesgadas. Por conveniencia, el a priori a menudo se especifica eligiendo una distribución particular entre un conjunto de familias de distribuciones bien conocidas y tratables, de modo que tanto la evaluación de probabilidades previas como la generación aleatoria de valores deson relativamente sencillos. Para ciertos tipos de modelos, es más pragmático especificar la utilizando una factorización de la distribución conjunta de todos los elementos de en términos de una secuencia de sus distribuciones condicionales. Si uno sólo está interesado en las plausibilidades posteriores relativas de diferentes valores de, la evidencia puede ignorarse, ya que constituye una constante de normalización , que se cancela para cualquier razón de probabilidades posteriores. Sin embargo, sigue siendo necesario evaluar la probabilidad y el anterior . Para numerosas aplicaciones, es computacionalmente costoso , o incluso completamente inviable, evaluar la probabilidad, [9] lo que motiva el uso de ABC para eludir este problema.
El algoritmo de rechazo ABC
Todos los métodos basados en ABC aproximan la función de verosimilitud mediante simulaciones, cuyos resultados se comparan con los datos observados. [10] [11] [12] Más específicamente, con el algoritmo de rechazo ABC, la forma más básica de ABC, primero se muestrea un conjunto de puntos de parámetros de la distribución anterior. Dado un punto de parámetro muestreado, un conjunto de datos luego se simula bajo el modelo estadístico especificado por . Si el generado es demasiado diferente de los datos observados , el valor del parámetro muestreado se descarta. En términos precisos, se acepta con tolerancia Si:
- ,
donde la distancia mide determina el nivel de discrepancia entre y basado en una métrica dada (por ejemplo, distancia euclidiana ). Generalmente es necesaria una tolerancia estrictamente positiva, ya que la probabilidad de que el resultado de la simulación coincida exactamente con los datos (evento) es insignificante para todas las aplicaciones de ABC salvo triviales, lo que en la práctica conduciría al rechazo de casi todos los puntos de parámetros muestreados. El resultado del algoritmo de rechazo ABC es una muestra de valores de parámetros distribuidos aproximadamente de acuerdo con la distribución posterior deseada y, de manera crucial, obtenidos sin la necesidad de evaluar explícitamente la función de verosimilitud.
Resumen estadístico
La probabilidad de generar un conjunto de datos. con una pequeña distancia a normalmente disminuye a medida que aumenta la dimensionalidad de los datos. Esto conduce a una disminución sustancial en la eficiencia computacional del algoritmo de rechazo ABC básico anterior. Un enfoque común para reducir este problema es reemplazarcon un conjunto de estadísticas resumidas de dimensiones inferiores , que se seleccionan para capturar la información relevante en . El criterio de aceptación en el algoritmo de rechazo ABC se convierte en:
- .
Si las estadísticas de resumen son suficientes con respecto a los parámetros del modelo, el aumento de eficiencia obtenido de esta forma no introduce ningún error. [13] De hecho, por definición, la suficiencia implica que toda la información en acerca de es capturado por .
Como se explica a continuación , normalmente es imposible, fuera de la familia exponencial de distribuciones , identificar un conjunto de dimensiones finitas de estadísticas suficientes. No obstante, las estadísticas de resumen informativas, pero posiblemente insuficientes, se utilizan a menudo en aplicaciones en las que la inferencia se realiza con métodos ABC.
Ejemplo
Un ejemplo ilustrativo es un sistema biestable que puede caracterizarse por un modelo de Markov oculto (HMM) sujeto a ruido de medición. Estos modelos se emplean para muchos sistemas biológicos: se han utilizado, por ejemplo, en desarrollo, señalización celular , activación / desactivación, procesamiento lógico y termodinámica de desequilibrio . Por ejemplo, el comportamiento del factor de transcripción Sonic hedgehog (Shh) en Drosophila melanogaster se puede modelar con un HMM. [14] El modelo dinámico (biológico) consta de dos estados: A y B. Si la probabilidad de una transición de un estado a otro se define como en ambas direcciones, entonces la probabilidad de permanecer en el mismo estado en cada paso de tiempo es . La probabilidad de medir el estado correctamente es (y a la inversa, la probabilidad de una medición incorrecta es ).
Debido a las dependencias condicionales entre estados en diferentes puntos de tiempo, el cálculo de la probabilidad de datos de series de tiempo es algo tedioso, lo que ilustra la motivación para usar ABC. Un problema computacional para ABC básico es la gran dimensionalidad de los datos en una aplicación como esta. La dimensionalidad se puede reducir utilizando la estadística de resumen., que es la frecuencia de los cambios entre los dos estados. La diferencia absoluta se utiliza como medida de distancia. con tolerancia . La inferencia posterior sobre el parámetro se puede realizar siguiendo los cinco pasos presentados en.
Paso 1: Suponga que los datos observados forman la secuencia de estado AAAABAABBAAAAAABAAAA, que se genera utilizando y . La estadística de resumen asociada (el número de cambios entre los estados en los datos experimentales) es.
Paso 2: suponiendo que no se sepa nada, un uniforme previo en el intervalo está empleado. El parámetro se supone que es conocido y fijado al valor generador de datos , pero en general también podría estimarse a partir de las observaciones. Un total de los puntos de parámetro se extraen del anterior, y el modelo se simula para cada uno de los puntos de parámetro , lo que resulta en secuencias de datos simulados. En este ejemplo,, con cada parámetro dibujado y conjunto de datos simulados registrados en la Tabla 1, columnas 2-3 . En la práctica, necesitaría ser mucho mayor para obtener una aproximación adecuada.
I | Conjuntos de datos simulados (paso 2) | Estadística de resumen (paso 3) | Distancia (paso 4) | Resultado (paso 4) | |
---|---|---|---|---|---|
1 | 0,08 | AABAAAABAABAAABAAAAA | 8 | 2 | aceptado |
2 | 0,68 | AABBABABAAABBABABBAB | 13 | 7 | rechazado |
3 | 0,87 | BBBABBABBBBABABBBBBA | 9 | 3 | rechazado |
4 | 0,43 | AABAAAAABBABBBBBBBBA | 6 | 0 | aceptado |
5 | 0,53 | ABBBBBAABBABBABAABBB | 9 | 3 | rechazado |
Paso 3: la estadística de resumen se calcula para cada secuencia de datos simulados.
Paso 4: la distancia entre las frecuencias de transición observadas y simuladasse calcula para todos los puntos de parámetro. Puntos de parámetro para los que la distancia es menor o igual que se aceptan como muestras aproximadas del posterior.
Paso 5: La distribución posterior se aproxima con los puntos de parámetros aceptados. La distribución posterior debe tener una probabilidad no despreciable para los valores de los parámetros en una región alrededor del valor real deen el sistema si los datos son suficientemente informativos. En este ejemplo, la masa de probabilidad posterior se divide uniformemente entre los valores 0.08 y 0.43.
Las probabilidades posteriores se obtienen mediante ABC con grandes utilizando la estadística de resumen (con y ) y la secuencia de datos completa (con ). Estos se comparan con el verdadero posterior, que se puede calcular de manera exacta y eficiente utilizando el algoritmo de Viterbi . La estadística de resumen utilizada en este ejemplo no es suficiente, ya que la desviación de la teórica posterior es significativa incluso bajo el estricto requisito de. Se necesitaría una secuencia de datos observada mucho más larga para obtener un posterior concentrado alrededor, el verdadero valor de .
Esta aplicación de ejemplo de ABC utiliza simplificaciones con fines ilustrativos. Las aplicaciones más realistas de ABC están disponibles en un número creciente de artículos revisados por pares. [10] [11] [12] [15]
Comparación de modelo con ABC
Fuera de la estimación de parámetros, el marco ABC se puede utilizar para calcular las probabilidades posteriores de diferentes modelos candidatos. [16] [17] [18] En tales aplicaciones, una posibilidad es utilizar el muestreo de rechazo de manera jerárquica. Primero, se toma una muestra de un modelo de la distribución anterior para los modelos. Luego, se toman muestras de los parámetros de la distribución anterior asignada a ese modelo. Finalmente, se realiza una simulación como en ABC de un solo modelo. Las frecuencias de aceptación relativas para los diferentes modelos ahora se aproximan a la distribución posterior de estos modelos. Nuevamente, se han propuesto mejoras computacionales para ABC en el espacio de modelos, como la construcción de un filtro de partículas en el espacio conjunto de modelos y parámetros. [18]
Una vez estimadas las probabilidades posteriores de los modelos, se pueden hacer pleno uso de las técnicas de comparación de modelos bayesianos . Por ejemplo, para comparar las plausibilidades relativas de dos modelos y , se puede calcular su relación posterior, que está relacionada con el factor de Bayes :
- .
Si los modelos a priori son iguales, es decir, —El factor de Bayes es igual a la razón posterior.
En la práctica, como se analiza a continuación , estas medidas pueden ser muy sensibles a la elección de las distribuciones previas de los parámetros y las estadísticas de resumen, por lo que las conclusiones de la comparación de modelos deben extraerse con cautela.
Escollos y remedios
Fuente de error | Posible problema | Solución | Subsección |
---|---|---|---|
Tolerancia distinta de cero | La inexactitud introduce sesgo en la distribución posterior calculada. | Estudios teórico-prácticos de la sensibilidad de la distribución posterior a la tolerancia. ABC ruidoso. | # Aproximación de la parte posterior |
Estadísticas de resumen insuficientes | La pérdida de información provoca intervalos creíbles inflados. | Selección automática / identificación semiautomática de estadísticas suficientes. Comprobaciones de validación de modelos (por ejemplo, Templeton 2009 [19] ). | # Elección y suficiencia de estadísticas resumidas |
Número reducido de modelos / modelos especificados incorrectamente | Los modelos investigados no son representativos / carecen de poder predictivo. | Cuidada selección de modelos. Evaluación del poder predictivo. | # Pequeño número de modelos |
Priores y rangos de parámetros | Las conclusiones pueden ser sensibles a la elección de los antecedentes. La elección del modelo puede no tener sentido. | Compruebe la sensibilidad de los factores de Bayes a la elección de los antecedentes. Se encuentran disponibles algunos resultados teóricos con respecto a la elección de los antecedentes. Utilice métodos alternativos para la validación del modelo. | #Distribución previa y rangos de parámetros |
Maldición de dimensionalidad | Tasas de aceptación de parámetros bajas. Los errores del modelo no se pueden distinguir de una exploración insuficiente del espacio de parámetros. Riesgo de sobreajuste. | Métodos para la reducción del modelo, si corresponde. Métodos para acelerar la exploración de parámetros. Controles de calidad para detectar sobreajustes. | #Maldición de dimensionalidad |
Clasificación del modelo con estadísticas resumidas | El cálculo de los factores de Bayes en las estadísticas de resumen puede no estar relacionado con los factores de Bayes en los datos originales, lo que, por lo tanto, puede hacer que los resultados no tengan sentido. | Utilice únicamente estadísticos de resumen que cumplan las condiciones necesarias y suficientes para producir una elección de modelo bayesiano coherente. Utilice métodos alternativos para la validación del modelo. | Factor #Bayes con ABC y estadísticas resumidas |
Implementación | Baja protección a supuestos comunes en la simulación y el proceso de inferencia. | Comprobaciones de cordura de los resultados. Estandarización de software. | #Controles de calidad indispensables |
Como para todos los métodos estadísticos, se requieren inherentemente una serie de suposiciones y aproximaciones para la aplicación de métodos basados en ABC a problemas de modelado reales. Por ejemplo, configurar el parámetro de tolerancia ϵ {\ Displaystyle \ epsilon} a cero asegura un resultado exacto, pero normalmente hace que los cálculos sean prohibitivamente costosos. Por tanto, los valores demayores que cero se utilizan en la práctica, lo que introduce un sesgo. Asimismo, normalmente no se dispone de estadísticas suficientes y, en su lugar, se utilizan otras estadísticas resumidas, lo que introduce un sesgo adicional debido a la pérdida de información. Las fuentes adicionales de sesgo, por ejemplo, en el contexto de la selección del modelo, pueden ser más sutiles. [13] [20]
Al mismo tiempo, algunas de las críticas que se han dirigido a los métodos ABC, en particular dentro del campo de la filogeografía , [19] [21] [22] no son específicas de ABC y se aplican a todos los métodos bayesianos o incluso a todos los estadísticos. métodos (por ejemplo, la elección de la distribución previa y los rangos de parámetros). [10] [23] Sin embargo, debido a la capacidad de los métodos ABC para manejar modelos mucho más complejos, algunos de estos errores generales son de particular relevancia en el contexto de los análisis ABC.
En esta sección se analizan estos riesgos potenciales y se revisan las posibles formas de abordarlos.
Aproximación de la parte posterior
No despreciable viene con el precio que uno muestra en lugar del verdadero posterior . Con una tolerancia suficientemente pequeña y una medida de distancia sensible, la distribución resultante a menudo debe aproximarse a la distribución objetivo real razonablemente bien. Por otro lado, una tolerancia que sea lo suficientemente grande como para que todos los puntos del espacio de parámetros sean aceptados producirá una réplica de la distribución anterior. Existen estudios empíricos sobre la diferencia entre y como una función de , [24] y resultados teóricos para un nivel superior-Cota dependiente del error en las estimaciones de los parámetros. [25] La precisión de la parte posterior (definida como la pérdida cuadrática esperada) entregada por ABC en función detambién ha sido investigado. [26] Sin embargo, la convergencia de las distribuciones cuandose aproxima a cero, y cómo depende de la medida de distancia utilizada, es un tema importante que aún no se ha investigado con mayor detalle. En particular, sigue siendo difícil separar los errores introducidos por esta aproximación de los errores debidos a la especificación incorrecta del modelo. [10]
Como un intento de corregir algunos de los errores debidos a un valor distinto de cero , se ha sugerido el uso de regresión lineal ponderada local con ABC para reducir la varianza de las estimaciones posteriores. [8] El método asigna ponderaciones a los parámetros de acuerdo con qué tan bien los resúmenes simulados se adhieren a los observados y realiza una regresión lineal entre los resúmenes y los parámetros ponderados en las proximidades de los resúmenes observados. Los coeficientes de regresión obtenidos se utilizan para corregir los parámetros muestreados en la dirección de los resúmenes observados. Se sugirió una mejora en forma de regresión no lineal utilizando un modelo de red neuronal de retroalimentación. [27] Sin embargo, se ha demostrado que las distribuciones posteriores obtenidas con estos enfoques no siempre son consistentes con la distribución previa, lo que condujo a una reformulación del ajuste de regresión que respeta la distribución previa. [28]
Finalmente, inferencia estadística usando ABC con una tolerancia distinta de cero no es inherentemente defectuoso: bajo el supuesto de errores de medición, la de hecho, se puede demostrar que no es cero. [26] [29] De hecho, el sesgo causado por una tolerancia distinta de cero se puede caracterizar y compensar introduciendo una forma específica de ruido en las estadísticas de resumen. Se ha establecido la consistencia asintótica para tal “ABC ruidoso”, junto con fórmulas para la varianza asintótica de las estimaciones de los parámetros para una tolerancia fija. [26]
Elección y suficiencia de estadísticas resumidas
Se pueden usar estadísticas de resumen para aumentar la tasa de aceptación de ABC para datos de alta dimensión. Las estadísticas suficientes de baja dimensión son óptimas para este propósito, ya que capturan toda la información relevante presente en los datos en la forma más simple posible. [12] Sin embargo, las estadísticas suficientes de baja dimensión suelen ser inalcanzables para los modelos estadísticos en los que la inferencia basada en ABC es más relevante y, en consecuencia, suele ser necesaria alguna heurística para identificar estadísticas resumidas útiles de baja dimensión. El uso de un conjunto de estadísticas resumidas mal elegidas a menudo conducirá a intervalos creíbles inflados debido a la pérdida implícita de información, [12] que también puede sesgar la discriminación entre modelos. Se dispone de una revisión de los métodos para elegir estadísticas resumidas [30], que pueden proporcionar una valiosa orientación en la práctica.
Un enfoque para capturar la mayor parte de la información presente en los datos sería utilizar muchas estadísticas, pero la precisión y estabilidad de ABC parece disminuir rápidamente con un número creciente de estadísticas resumidas. [10] [12] En cambio, una mejor estrategia es centrarse únicamente en las estadísticas relevantes; la relevancia depende de todo el problema de inferencia, del modelo utilizado y de los datos disponibles. [31]
Se ha propuesto un algoritmo para identificar un subconjunto representativo de estadísticas de resumen, evaluando iterativamente si una estadística adicional introduce una modificación significativa de la posterior. [32] Uno de los desafíos aquí es que un gran error de aproximación ABC puede influir mucho en las conclusiones sobre la utilidad de una estadística en cualquier etapa del procedimiento. Otro método [31] se descompone en dos pasos principales. Primero, se construye una aproximación de referencia de la parte posterior minimizando la entropía . A continuación, se evalúan conjuntos de resúmenes candidatos comparando los posteriores aproximados de ABC con el posterior de referencia.
Con ambas estrategias, se selecciona un subconjunto de estadísticas de un gran conjunto de estadísticas candidatas. En cambio, el método de regresión de mínimos cuadrados parciales utiliza información de todas las estadísticas candidatas, cada una ponderada de forma adecuada. [33] Recientemente, un método para construir resúmenes de manera semiautomática ha alcanzado un interés considerable. [26] Este método se basa en la observación de que la elección óptima de estadísticos de resumen, al minimizar la pérdida cuadrática de las estimaciones puntuales de los parámetros, se puede obtener mediante la media posterior de los parámetros, que se aproxima realizando una regresión lineal basada en los datos simulados.
Los métodos para la identificación de estadísticas resumidas que también pudieran evaluar simultáneamente la influencia en la aproximación del posterior serían de gran valor. [34] Esto se debe a que la elección de las estadísticas de resumen y la elección de la tolerancia constituyen dos fuentes de error en la distribución posterior resultante. Estos errores pueden corromper la clasificación de los modelos y también pueden dar lugar a predicciones de modelos incorrectas. De hecho, ninguno de los métodos anteriores evalúa la elección de resúmenes a los efectos de la selección del modelo.
Factor de Bayes con ABC y estadísticas resumidas
Se ha demostrado que la combinación de estadísticas de resumen insuficientes y ABC para la selección del modelo puede ser problemática. [13] [20] De hecho, si uno deja que el factor de Bayes basado en la estadística de resumen ser denotado por , la relación entre y toma la forma: [13]
- .
Por tanto, una estadística resumida es suficiente para comparar dos modelos y si y solo si:
- ,
lo que da como resultado que . También se desprende de la ecuación anterior que puede haber una gran diferencia entre y si no se cumple la condición, como se puede demostrar con ejemplos de juguetes. [13] [17] [20] Fundamentalmente, se demostró que la suficiencia para o solo, o para ambos modelos, no garantiza la suficiencia para clasificar los modelos. [13] Sin embargo, también se demostró que cualquier estadística de resumen suficiente para un modelo en el que ambos y están anidados es válido para clasificar los modelos anidados . [13]
El cálculo de los factores de Bayes en por lo tanto, puede ser engañoso para propósitos de selección de modelo, a menos que la relación entre los factores de y estaría disponible, o al menos podría aproximarse razonablemente bien. Alternativamente, recientemente se han derivado las condiciones necesarias y suficientes sobre las estadísticas resumidas para una elección consistente del modelo bayesiano, [35] que pueden proporcionar una guía útil.
Sin embargo, este problema solo es relevante para la selección del modelo cuando la dimensión de los datos se ha reducido. La inferencia basada en ABC, en la que los conjuntos de datos reales se comparan directamente, como es el caso de algunas aplicaciones de biología de sistemas (por ejemplo, ver [36] ), evita este problema.
Controles de calidad indispensables
Como deja en claro la discusión anterior, cualquier análisis ABC requiere opciones y compensaciones que pueden tener un impacto considerable en sus resultados. Específicamente, la elección de modelos / hipótesis en competencia, el número de simulaciones, la elección de estadísticas resumidas o el umbral de aceptación no pueden basarse actualmente en reglas generales, pero el efecto de estas elecciones debe evaluarse y probarse en cada estudio. [11]
Se han propuesto varios enfoques heurísticos para el control de calidad de ABC, como la cuantificación de la fracción de la varianza de los parámetros explicada por las estadísticas de resumen. [11] Una clase común de métodos tiene como objetivo evaluar si la inferencia produce o no resultados válidos, independientemente de los datos realmente observados. Por ejemplo, dado un conjunto de valores de parámetros, que normalmente se extraen de las distribuciones anterior o posterior de un modelo, se puede generar una gran cantidad de conjuntos de datos artificiales. De esta manera, la calidad y solidez de la inferencia ABC se puede evaluar en un entorno controlado, midiendo qué tan bien el método de inferencia ABC elegido recupera los valores verdaderos de los parámetros, y también modela si se consideran simultáneamente múltiples modelos estructuralmente diferentes.
Otra clase de métodos evalúa si la inferencia fue exitosa a la luz de los datos observados dados, por ejemplo, comparando la distribución predictiva posterior de las estadísticas de resumen con las estadísticas de resumen observadas. [11] Más allá de eso, las técnicas de validación cruzada [37] y las comprobaciones predictivas [38] [39] representan estrategias futuras prometedoras para evaluar la estabilidad y la validez predictiva fuera de la muestra de las inferencias ABC. Esto es particularmente importante al modelar grandes conjuntos de datos, porque entonces el respaldo posterior de un modelo particular puede parecer abrumadoramente concluyente, incluso si todos los modelos propuestos son, de hecho, representaciones deficientes del sistema estocástico subyacente a los datos de observación. Las verificaciones predictivas fuera de la muestra pueden revelar posibles sesgos sistemáticos dentro de un modelo y proporcionar pistas sobre cómo mejorar su estructura o parametrización.
Recientemente se han propuesto enfoques fundamentalmente novedosos para la elección de modelos que incorporan el control de calidad como un paso integral en el proceso. ABC permite, por construcción, la estimación de las discrepancias entre los datos observados y las predicciones del modelo, con respecto a un conjunto completo de estadísticas. Estas estadísticas no son necesariamente las mismas que las utilizadas en el criterio de aceptación. Las distribuciones de discrepancia resultantes se han utilizado para seleccionar modelos que están de acuerdo con muchos aspectos de los datos simultáneamente, [40] y la inconsistencia del modelo se detecta a partir de resúmenes contradictorios y codependientes. Otro método basado en el control de calidad para la selección de modelos emplea ABC para aproximar el número efectivo de parámetros del modelo y la desviación de las distribuciones predictivas posteriores de resúmenes y parámetros. [41] El criterio de información de desviación se utiliza luego como medida del ajuste del modelo. También se ha demostrado que los modelos preferidos basados en este criterio pueden entrar en conflicto con los apoyados por factores de Bayes . Por esta razón, es útil combinar diferentes métodos de selección de modelos para obtener conclusiones correctas.
Los controles de calidad se pueden lograr y de hecho se realizan en muchos trabajos basados en ABC, pero para ciertos problemas, la evaluación del impacto de los parámetros relacionados con el método puede ser un desafío. Sin embargo, se puede esperar que el uso cada vez mayor de ABC proporcione una comprensión más completa de las limitaciones y aplicabilidad del método.
Riesgos generales en la inferencia estadística exacerbados en ABC
Esta sección revisa los riesgos que, estrictamente hablando, no son específicos de ABC, pero que también son relevantes para otros métodos estadísticos. Sin embargo, la flexibilidad que ofrece ABC para analizar modelos muy complejos hace que sea muy relevante discutirlos aquí.
Distribución previa y rangos de parámetros
La especificación del rango y la distribución previa de los parámetros se beneficia enormemente del conocimiento previo sobre las propiedades del sistema. Una crítica ha sido que en algunos estudios los “rangos y distribuciones de los parámetros solo se adivinan sobre la base de la opinión subjetiva de los investigadores”, [42] lo cual está conectado con las objeciones clásicas de los enfoques bayesianos. [43]
Con cualquier método computacional, normalmente es necesario restringir los rangos de parámetros investigados. Si es posible, los rangos de parámetros deberían definirse basándose en propiedades conocidas del sistema estudiado, pero para aplicaciones prácticas pueden necesitar una conjetura. Sin embargo, se dispone de resultados teóricos con respecto a los previos objetivos , que pueden, por ejemplo, basarse en el principio de indiferencia o en el principio de máxima entropía . [44] [45] Por otro lado, los métodos automatizados o semiautomatizados para elegir una distribución previa a menudo producen densidades inadecuadas . Como la mayoría de los procedimientos ABC requieren generar muestras a partir del anterior, los anteriores incorrectos no son directamente aplicables a ABC.
También se debe tener en cuenta el propósito del análisis al elegir la distribución previa. En principio, los antecedentes poco informativos y planos, que exageran nuestra ignorancia subjetiva acerca de los parámetros, aún pueden producir estimaciones de parámetros razonables. Sin embargo, los factores de Bayes son muy sensibles a la distribución previa de parámetros. Las conclusiones sobre la elección del modelo basadas en el factor de Bayes pueden ser engañosas a menos que se considere cuidadosamente la sensibilidad de las conclusiones a la elección de los antecedentes.
Pequeño número de modelos
Los métodos basados en modelos han sido criticados por no cubrir exhaustivamente el espacio de hipótesis. [22] De hecho, los estudios basados en modelos a menudo giran en torno a una pequeña cantidad de modelos, y debido al alto costo computacional para evaluar un solo modelo en algunos casos, puede ser difícil cubrir una gran parte del espacio de hipótesis.
Un límite superior para el número de modelos candidatos considerados generalmente se establece mediante el esfuerzo sustancial requerido para definir los modelos y elegir entre muchas opciones alternativas. [11] No existe un procedimiento específico de ABC comúnmente aceptado para la construcción de modelos, por lo que en su lugar se utilizan la experiencia y los conocimientos previos. [12] Aunque serían beneficiosos procedimientos más sólidos para la elección y formulación de modelos a priori , no existe una estrategia única para el desarrollo de modelos en estadística: la caracterización sensata de sistemas complejos siempre requerirá una gran cantidad de trabajo de detective y uso del conocimiento experto del dominio del problema.
Algunos oponentes de ABC sostienen que, dado que solo unos pocos modelos, elegidos subjetivamente y probablemente todos erróneos, pueden considerarse de manera realista, los análisis de ABC proporcionan solo una comprensión limitada. [22] Sin embargo, existe una distinción importante entre identificar una hipótesis nula plausible y evaluar el ajuste relativo de hipótesis alternativas. [10] Dado que las hipótesis nulas útiles, que potencialmente son verdaderas, rara vez pueden plantearse en el contexto de modelos complejos, la capacidad predictiva de los modelos estadísticos como explicaciones de fenómenos complejos es mucho más importante que la prueba de una hipótesis nula estadística en este contexto. También es común promediar los modelos investigados, ponderados según su plausibilidad relativa, para inferir características del modelo (por ejemplo, valores de parámetros) y hacer predicciones.
Grandes conjuntos de datos
Los grandes conjuntos de datos pueden constituir un cuello de botella computacional para los métodos basados en modelos. Por ejemplo, se señaló que en algunos análisis basados en ABC, parte de los datos deben omitirse. [22] Varios autores han argumentado que los grandes conjuntos de datos no son una limitación práctica, [11] [43] aunque la gravedad de este problema depende en gran medida de las características de los modelos. Varios aspectos de un problema de modelado pueden contribuir a la complejidad computacional, como el tamaño de la muestra, el número de variables o características observadas, la resolución temporal o espacial, etc. Sin embargo, con el aumento de la potencia informática, este problema será potencialmente menos importante.
En lugar de muestrear parámetros para cada simulación de la anterior, se ha propuesto alternativamente combinar el algoritmo Metropolis-Hastings con ABC, que se informó que da como resultado una tasa de aceptación más alta que para ABC simple. [34] Naturalmente, este enfoque hereda las cargas generales de los métodos MCMC, como la dificultad para evaluar la convergencia, la correlación entre las muestras de la parte posterior, [24] y una paralelización relativamente baja. [11]
Asimismo, las ideas de los métodos secuenciales de Monte Carlo (SMC) y de población de Monte Carlo (PMC) se han adaptado al entorno ABC. [24] [46] La idea general es abordar iterativamente el posterior desde el anterior a través de una secuencia de distribuciones objetivo. Una ventaja de estos métodos, en comparación con ABC-MCMC, es que las muestras del posterior resultante son independientes. Además, con los métodos secuenciales, los niveles de tolerancia no deben especificarse antes del análisis, sino que se ajustan de forma adaptativa. [47]
Es relativamente sencillo paralelizar una serie de pasos en los algoritmos ABC basados en el muestreo de rechazo y los métodos secuenciales de Monte Carlo . También se ha demostrado que los algoritmos paralelos pueden producir aceleraciones significativas para la inferencia basada en MCMC en filogenética, [48] que puede ser un enfoque manejable también para métodos basados en ABC. Sin embargo, es muy probable que un modelo adecuado para un sistema complejo requiera un cálculo intensivo independientemente del método de inferencia elegido, y es el usuario quien debe seleccionar un método que sea adecuado para la aplicación particular en cuestión.
Maldición de dimensionalidad
Los conjuntos de datos de alta dimensión y los espacios de parámetros de alta dimensión pueden requerir que se simule un número extremadamente grande de puntos de parámetros en estudios basados en ABC para obtener un nivel razonable de precisión para las inferencias posteriores. En tales situaciones, el costo computacional aumenta considerablemente y, en el peor de los casos, puede hacer que el análisis computacional sea intratable. Estos son ejemplos de fenómenos bien conocidos, a los que generalmente se hace referencia con el término general maldición de la dimensionalidad . [49]
Para evaluar cuán severamente la dimensionalidad de un conjunto de datos afecta el análisis dentro del contexto de ABC, se han derivado fórmulas analíticas para el error de los estimadores ABC como funciones de la dimensión de las estadísticas de resumen. [50] [51] Además, Blum y François han investigado cómo se relaciona la dimensión de las estadísticas de resumen con el error cuadrático medio para diferentes ajustes de corrección del error de los estimadores ABC. También se argumentó que las técnicas de reducción de dimensiones son útiles para evitar la maldición de la dimensionalidad, debido a una estructura subyacente potencialmente de menor dimensión de las estadísticas resumidas. [50] Motivados por minimizar la pérdida cuadrática de los estimadores ABC, Fearnhead y Prangle han propuesto un esquema para proyectar datos (posiblemente de alta dimensión) en estimaciones de las medias posteriores de los parámetros; estos medios, que ahora tienen la misma dimensión que los parámetros, se utilizan como estadísticas de resumen para ABC. [51]
ABC se puede utilizar para inferir problemas en espacios de parámetros de alta dimensión, aunque se debe tener en cuenta la posibilidad de sobreajuste (por ejemplo, consulte los métodos de selección del modelo en [40] y [41] ). Sin embargo, la probabilidad de aceptar los valores simulados para los parámetros bajo una tolerancia dada con el algoritmo de rechazo ABC normalmente disminuye exponencialmente al aumentar la dimensionalidad del espacio de parámetros (debido al criterio de aceptación global). [12] Aunque ningún método computacional (basado en ABC o no) parece ser capaz de romper la maldición de la dimensionalidad, recientemente se han desarrollado métodos para manejar espacios de parámetros de alta dimensión bajo ciertos supuestos (p. Ej., Basados en aproximaciones polinómicas en cuadrículas dispersas, [52] que potencialmente podrían reducir en gran medida los tiempos de simulación para ABC). Sin embargo, la aplicabilidad de tales métodos depende del problema y, en general, no debe subestimarse la dificultad de explorar espacios de parámetros. Por ejemplo, la introducción de la estimación determinista de parámetros globales dio lugar a informes de que los óptimos globales obtenidos en varios estudios previos de problemas de baja dimensión eran incorrectos. [53] Para ciertos problemas, por lo tanto, podría ser difícil saber si el modelo es incorrecto o, como se discutió anteriormente , si la región explorada del espacio de parámetros es inapropiada. [22] Los enfoques más pragmáticos consisten en reducir el alcance del problema mediante la reducción del modelo, [12] la discretización de las variables y el uso de modelos canónicos como los modelos ruidosos. Los modelos ruidosos aprovechan la información sobre la independencia condicional entre variables. [54]
Software
Actualmente se encuentran disponibles varios paquetes de software para la aplicación de ABC a clases particulares de modelos estadísticos.
Software | Palabras clave y características | Referencia |
---|---|---|
pyABC | Marco de Python para ABC-SMC (Sequential Monte Carlo) distribuido eficientemente. | [55] |
DIY-ABC | Software para la adecuación de datos genéticos a situaciones complejas. Comparación de modelos competidores. Estimación de parámetros. Cálculo de sesgos y medidas de precisión para un modelo dado y valores de parámetros conocidos. | [56] |
paquete abc R | Varios algoritmos ABC para realizar estimaciones de parámetros y selección de modelos. Métodos de regresión heterocedástica no lineal para ABC. Herramienta de validación cruzada. | [57] [58] |
Paquete EasyABC R | Varios algoritmos para realizar esquemas de muestreo ABC eficientes, incluidos 4 esquemas de muestreo secuencial y 3 esquemas MCMC. | [59] [60] |
ABC-SysBio | Paquete de Python. Inferencia de parámetros y selección de modelos para sistemas dinámicos. Combina el muestreador de rechazo ABC, ABC SMC para la inferencia de parámetros y ABC SMC para la selección del modelo. Compatible con modelos escritos en Systems Biology Markup Language (SBML). Modelos deterministas y estocásticos. | [61] |
ABCtoolbox | Programas de código abierto para varios algoritmos ABC que incluyen muestreo de rechazo, MCMC sin probabilidad, un muestreador basado en partículas y ABC-GLM. Compatibilidad con la mayoría de los programas de cálculo de estadísticas resumidas y de simulación. | [62] |
msBayes | Paquete de software de código abierto que consta de varios programas C y R que se ejecutan con un "front-end" de Perl. Modelos coalescentes jerárquicos. Datos genéticos poblacionales de múltiples especies co-distribuidas. | [63] |
PopABC | Paquete de software para la inferencia del patrón de divergencia demográfica. Simulación coalescente. Elección del modelo bayesiano. | [64] |
ONeSAMP | Programa basado en web para estimar el tamaño de población efectivo a partir de una muestra de genotipos de microsatélites. Estimaciones del tamaño efectivo de la población, junto con límites creíbles del 95%. | [sesenta y cinco] |
ABC4F | Software para la estimación de estadísticas F para datos dominantes. | [66] |
2 MALO | Mezcla Bayesiana de 2 eventos. Software que permite hasta dos eventos de mezcla independientes con hasta tres poblaciones parentales. Estimación de varios parámetros (mezcla, tamaños efectivos, etc.). Comparación de pares de modelos de aditivos. | [67] |
ELFI | Motor para inferencia libre de verosimilitud. ELFI es un paquete de software estadístico escrito en Python para la Computación Bayesiana Aproximada (ABC), también conocido, por ejemplo, como inferencia libre de verosimilitud, inferencia basada en simuladores, inferencia bayesiana aproximada, etc. | [68] |
ABCpy | Paquete de Python para ABC y otros esquemas de inferencia sin probabilidad. Varios algoritmos de última generación disponibles. Proporciona una forma rápida de integrar generativo existente (desde C ++, R, etc.), paralelización fácil de usar usando MPI o Spark y aprendizaje de estadísticas resumidas (con red neuronal o regresión lineal). | [69] |
La idoneidad de los paquetes de software individuales depende de la aplicación específica en cuestión, el entorno del sistema informático y los algoritmos requeridos.
Ver también
- Cadena de Markov Monte Carlo
- Bayes empírico
Referencias
Este artículo fue adaptado de la siguiente fuente bajo una licencia CC BY 4.0 ( 2013 ) ( informes de los revisores ): Mikael Sunnåker; Alberto Giovanni Busetto; Elina Numminen; Jukka Corander; Matthieu Foll; Christophe Dessimoz (2013). "Cálculo bayesiano aproximado" . PLOS Biología Computacional . 9 (1): e1002803. doi : 10.1371 / JOURNAL.PCBI.1002803 . ISSN 1553-734X . PMC 3547661 . PMID 23341757 . Wikidata Q4781761 .
- ^ Rubin, DB (1984). "Cálculos de frecuencia bayesianamente justificables y relevantes para el estadístico aplicado" . The Annals of Statistics . 12 (4): 1151-1172. doi : 10.1214 / aos / 1176346785 .
- ^ ver figura 5 en Stigler, Stephen M. (2010). "Darwin, Galton y la ilustración estadística". Revista de la Royal Statistical Society. Serie A (Estadísticas en la sociedad) . 173 (3): 469–482. doi : 10.1111 / j.1467-985X.2010.00643.x . ISSN 0964-1998 .
- ^ Diggle, PJ (1984). "Métodos de inferencia de Monte Carlo para modelos estadísticos implícitos". Revista de la Sociedad Real de Estadística, Serie B . 46 : 193-227.
- ^ Bartlett, MS (1963). "El análisis espectral de procesos puntuales". Revista de la Sociedad Real de Estadística, Serie B . 25 : 264-296.
- ^ Hoel, DG; Mitchell, TJ (1971). "La simulación, ajuste y prueba de un modelo de proliferación celular estocástico". Biometría . 27 (1): 191-199. doi : 10.2307 / 2528937 . JSTOR 2528937 . PMID 4926451 .
- ^ Tavaré, S; Calvicie, DJ; Griffiths, RC; Donnelly, P (1997). "Inferir tiempos de coalescencia a partir de datos de secuencia de ADN" . Genética . 145 (2): 505–518. doi : 10.1093 / genetics / 145.2.505 . PMC 1207814 . PMID 9071603 .
- ^ Pritchard, JK; Seielstad, MT; Pérez-Lezaun, A; et al. (1999). "Crecimiento de la población de cromosomas Y humanos: un estudio de microsatélites del cromosoma Y" . Biología Molecular y Evolución . 16 (12): 1791-1798. doi : 10.1093 / oxfordjournals.molbev.a026091 . PMID 10605120 .
- ^ a b Beaumont, MA; Zhang, W; Calvicie, DJ (2002). "Computación bayesiana aproximada en genética de poblaciones" . Genética . 162 (4): 2025-2035. doi : 10.1093 / genetics / 162.4.2025 . PMC 1462356 . PMID 12524368 .
- ^ Busetto AG, Buhmann J. Estimación de parámetros bayesianos estables para sistemas dinámicos biológicos.; 2009. IEEE Computer Society Press págs. 148-157.
- ^ a b c d e f Beaumont, MA (2010). "Computación Bayesiana Aproximada en Evolución y Ecología". Revisión anual de ecología, evolución y sistemática . 41 : 379–406. doi : 10.1146 / annurev-ecolsys-102209-144621 .
- ^ a b c d e f g h Bertorelle, G; Benazzo, A; Mona, S (2010). "ABC como un marco flexible para estimar la demografía en el espacio y el tiempo: algunos contras, muchos pros" . Ecología molecular . 19 (13): 2609–2625. doi : 10.1111 / j.1365-294x.2010.04690.x . PMID 20561199 . S2CID 12129604 .
- ^ a b c d e f g h Csilléry, K; Blum, MGB; Gaggiotti, OE; François, O (2010). "Computación Bayesiana Aproximada (ABC) en la práctica". Tendencias en Ecología y Evolución . 25 (7): 410–418. doi : 10.1016 / j.tree.2010.04.001 . PMID 20488578 .
- ^ a b c d e f g Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Estimación libre de verosimilitud de la evidencia del modelo" . Análisis bayesiano . 6 : 49–76. doi : 10.1214 / 11-ba602 .
- ^ Lai, K; Robertson, MJ; Schaffer, DV (2004). "El sistema de señalización del erizo sónico como un interruptor genético biestable" . Biophys. J . 86 (5): 2748–2757. Código Bibliográfico : 2004BpJ .... 86.2748L . doi : 10.1016 / s0006-3495 (04) 74328-3 . PMC 1304145 . PMID 15111393 .
- ^ Marin, JM; Pudlo, P; Robert, CP; Ryder, RJ (2012). "Métodos computacionales bayesianos aproximados". Estadística y Computación . 22 (6): 1167-1180. arXiv : 1101.0955 . doi : 10.1007 / s11222-011-9288-2 . S2CID 40304979 .
- ^ Wilkinson, RG (2007). Estimación bayesiana de los tiempos de divergencia de primates, Ph.D. tesis, Universidad de Cambridge.
- ^ a b Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). "Métodos libres de probabilidad para la elección del modelo en campos aleatorios de Gibbs". Análisis bayesiano . 3 : 427–442.
- ↑ a b Toni T, Stumpf MPH (2010). Selección de modelos basados en simulación para sistemas dinámicos en biología de sistemas y poblaciones, Bioinformatics '26 (1): 104–10.
- ^ a b Templeton, AR (2009). "¿Por qué se sigue utilizando un método que falla? La respuesta" . Evolución . 63 (4): 807–812. doi : 10.1111 / j.1558-5646.2008.00600.x . PMC 2693665 . PMID 19335340 .
- ^ a b c Robert, CP; Cornuet, JM; Marin, JM; Pillai, NS (2011). "Falta de confianza en la elección del modelo de cálculo bayesiano aproximado" . Proc Natl Acad Sci USA . 108 (37): 15112-15117. Código Bibliográfico : 2011PNAS..10815112R . doi : 10.1073 / pnas.1102900108 . PMC 3174657 . PMID 21876135 .
- ^ Templeton, AR (2008). "Análisis de clado anidado: un método ampliamente validado para una fuerte inferencia filogeográfica" . Ecología molecular . 17 (8): 1877–1880. doi : 10.1111 / j.1365-294x.2008.03731.x . PMC 2746708 . PMID 18346121 .
- ^ a b c d e Templeton, AR (2009). "Prueba de hipótesis estadística en filogeografía intraespecífica: análisis filogeográfico de clado anidado frente a cálculo bayesiano aproximado" . Ecología molecular . 18 (2): 319–331. doi : 10.1111 / j.1365-294x.2008.04026.x . PMC 2696056 . PMID 19192182 .
- ^ Berger, JO; Fienberg, SE; Raftery, AE; Robert, CP (2010). "Inferencia filogeográfica incoherente" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 107 (41): E157. Código bibliográfico : 2010PNAS..107E.157B . doi : 10.1073 / pnas.1008762107 . PMC 2955098 . PMID 20870964 .
- ^ a b c Sisson, SA; Fan, Y; Tanaka, MM (2007). "Monte Carlo secuencial sin probabilidades" . Proc Natl Acad Sci USA . 104 (6): 1760-1765. Código Bibliográfico : 2007PNAS..104.1760S . doi : 10.1073 / pnas.0607208104 . PMC 1794282 . PMID 17264216 .
- ^ Dean TA, Singh SS, Jasra A, Peters GW (2011) Estimación de parámetros para modelos de markov ocultos con probabilidades intratables. arXiv: 11035399v1 [mathST] 28 de marzo de 2011.
- ^ a b c d Fearnhead P, Prangle D (2011) Construcción de estadísticas resumidas para el cálculo bayesiano aproximado: ABC semiautomático. ArXiv: 10041112v2 [statME] 13 de abril de 2011.
- ^ Blum, M; Francois, O (2010). "Modelos de regresión no lineal para cálculo bayesiano aproximado". Stat Comp . 20 : 63–73. arXiv : 0809.4178 . doi : 10.1007 / s11222-009-9116-0 . S2CID 2403203 .
- ^ Leuenberger, C; Wegmann, D (2009). "Selección de modelos y computación bayesiana sin verosimilitudes" . Genética . 184 (1): 243–252. doi : 10.1534 / genetics.109.109058 . PMC 2815920 . PMID 19786619 .
- ^ Wilkinson RD (2009) El cálculo bayesiano aproximado (ABC) da resultados exactos bajo el supuesto de error del modelo. arXiv: 08113355.
- ^ Blum MGB, Nunes MA, Prangle D, Sisson SA (2012) Una revisión comparativa de los métodos de reducción de dimensiones en el cálculo bayesiano aproximado. arxiv.org/abs/1202.3819
- ^ a b Nunes, MA; Calvicie, DJ (2010). "Sobre la selección óptima de estadísticas de resumen para el cálculo bayesiano aproximado". Stat Appl Genet Mol Biol . 9 : Artículo 34. doi : 10.2202 / 1544-6115.1576 . PMID 20887273 . S2CID 207319754 .
- ^ Joyce, P; Mejorana, P (2008). "Aproximadamente suficiente estadística y computación bayesiana". Stat Appl Genet Mol Biol . 7 (1): Artículo 26. doi : 10.2202 / 1544-6115.1389 . PMID 18764775 . S2CID 38232110 .
- ^ Wegmann, D; Leuenberger, C; Excoffier, L (2009). "Cálculo bayesiano aproximado eficiente junto con la cadena de Markov Monte Carlo sin probabilidad" . Genética . 182 (4): 1207–1218. doi : 10.1534 / genetics.109.102509 . PMC 2728860 . PMID 19506307 .
- ^ a b Mejorana, P; Molitor, J; Plagnol, V; Tavare, S (2003). "Markov encadena Monte Carlo sin probabilidades" . Proc Natl Acad Sci USA . 100 (26): 15324-15328. Código bibliográfico : 2003PNAS..10015324M . doi : 10.1073 / pnas.0306899100 . PMC 307566 . PMID 14663152 .
- ^ Marin JM, Pillai NS, Robert CP, Rousseau J (2011) Estadísticas relevantes para la elección del modelo bayesiano. ArXiv: 11104700v1 [mathST] 21 de octubre de 2011: 1-24.
- ^ Toni, T; Welch, D; Strelkowa, N; Ipsen, A; Stumpf, M (2007). "Esquema de cálculo bayesiano aproximado para la inferencia de parámetros y la selección de modelos en sistemas dinámicos" . Interfaz JR Soc . 6 (31): 187–202. doi : 10.1098 / rsif.2008.0172 . PMC 2658655 . PMID 19205079 .
- ^ Arlot, S; Celisse, A (2010). "Una encuesta de procedimientos de validación cruzada para la selección de modelos". Encuestas estadísticas . 4 : 40–79. arXiv : 0907.4728 . doi : 10.1214 / 09-ss054 . S2CID 14332192 .
- ^ Dawid, A. "Posición actual y desarrollos potenciales: Algunas opiniones personales: Teoría estadística: El enfoque precuente". Revista de la Sociedad Real de Estadística, Serie A . 1984 : 278-292.
- ^ Vehtari, A; Lampinen, J (2002). "Evaluación y comparación del modelo bayesiano utilizando densidades predictivas de validación cruzada". Computación neuronal . 14 (10): 2439–2468. CiteSeerX 10.1.1.16.3206 . doi : 10.1162 / 08997660260293292 . PMID 12396570 . S2CID 366285 .
- ^ a b Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). "Modelo de crítica basada en inferencia libre de verosimilitud, con una aplicación a la evolución de la red de proteínas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (26): 10576–10581. Código bibliográfico : 2009PNAS..10610576R . doi : 10.1073 / pnas.0807882106 . PMC 2695753 . PMID 19525398 .
- ^ a b Francois, O; Laval, G (2011). "Criterios de información de desviación para la selección del modelo en el cálculo bayesiano aproximado". Stat Appl Genet Mol Biol . 10 : Artículo 33. arXiv : 1105.0269 . Código Bibliográfico : 2011arXiv1105.0269F . doi : 10.2202 / 1544-6115.1678 . S2CID 11143942 .
- ^ Templeton, AR (2010). "Inferencia coherente e incoherente en filogeografía y evolución humana" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 107 (14): 6376–6381. Código bibliográfico : 2010PNAS..107.6376T . doi : 10.1073 / pnas.0910647107 . PMC 2851988 . PMID 20308555 .
- ^ a b Beaumont, MA; Nielsen, R; Robert, C; Oye, J; Gaggiotti, O; et al. (2010). "En defensa de la inferencia basada en modelos en filogeografía" . Ecología molecular . 19 (3): 436–446. doi : 10.1111 / j.1365-294x.2009.04515.x . PMC 5743441 . PMID 29284924 .
- ^ Jaynes ET (1968) Probabilidades previas. Transacciones IEEE sobre ciencia de sistemas y cibernética 4.
- ^ Berger, JO (2006). "El caso del análisis bayesiano objetivo" . Análisis bayesiano . 1 (páginas 385–402 y 457–464): 385–402. doi : 10.1214 / 06-BA115 .
- ^ Beaumont, MA; Cornuet, JM; Marin, JM; Robert, CP (2009). "Computación Bayesiana aproximada adaptativa". Biometrika . 96 (4): 983–990. arXiv : 0805.2256 . doi : 10.1093 / biomet / asp052 . S2CID 16579245 .
- ^ Del Moral P, Doucet A, Jasra A (2011) Un método de Monte Carlo secuencial adaptativo para el cálculo bayesiano aproximado. Estadística e informática.
- ^ Feng, X; Buell, DA; Rose, JR; Waddellb, PJ (2003). "Algoritmos paralelos para inferencia filogenética bayesiana". Revista de Computación Paralela y Distribuida . 63 (7–8): 707–718. CiteSeerX 10.1.1.109.7764 . doi : 10.1016 / s0743-7315 (03) 00079-0 .
- ^ Bellman R (1961) Procesos de control adaptativo: una visita guiada: Princeton University Press.
- ^ a b Blum MGB (2010) Computación bayesiana aproximada: una perspectiva no paramétrica, Revista de la Asociación Estadounidense de Estadística (105): 1178-1187
- ^ a b Fearnhead, P; Prangle, D (2012). "Construcción de estadísticas de resumen para el cálculo bayesiano aproximado: cálculo bayesiano aproximado semiautomático". Revista de la Sociedad Real de Estadística, Serie B . 74 (3): 419–474. CiteSeerX 10.1.1.760.7753 . doi : 10.1111 / j.1467-9868.2011.01010.x .
- ^ Gerstner, T; Griebel, M (2003). "Cuadratura de producto-tensor adaptable a la dimensión". Computación . 71 : 65–87. CiteSeerX 10.1.1.16.2434 . doi : 10.1007 / s00607-003-0015-5 . S2CID 16184111 .
- ^ Singer, AB; Taylor, JW; Barton, PI; Green, WH (2006). "Optimización dinámica global para la estimación de parámetros en cinética química". J Phys Chem A . 110 (3): 971–976. Código Bibliográfico : 2006JPCA..110..971S . doi : 10.1021 / jp0548873 . PMID 16419997 .
- ^ Cárdenas, IC (2019). "Sobre el uso de redes bayesianas como enfoque de metamodelado para analizar incertidumbres en el análisis de estabilidad de taludes". Georisk: Evaluación y gestión de riesgos para sistemas de ingeniería y geopeligros . 13 (1): 53–65. doi : 10.1080 / 17499518.2018.1498524 . S2CID 216590427 .
- ^ Klinger, E .; Rickert, D .; Hasenauer, J. (2017). pyABC: inferencia distribuida, libre de verosimilitud.
- ^ Cornuet, JM; Santos, F; Beaumont, M; et al. (2008). "Inferir la historia de la población con DIY ABC: un enfoque fácil de usar para aproximar el cálculo bayesiano" . Bioinformática . 24 (23): 2713–2719. doi : 10.1093 / bioinformatics / btn514 . PMC 2639274 . PMID 18842597 .
- ^ Csilléry, K; François, O; Blum, MGB (2012). "abc: un paquete R para cálculo bayesiano aproximado (ABC)". Métodos en ecología y evolución . 3 (3): 475–479. arXiv : 1106.2793 . doi : 10.1111 / j.2041-210x.2011.00179.x . S2CID 16679366 .
- ^ Csillery, K; Francois, O; Blum, MGB (21 de febrero de 2012). "Aproximación de cálculo bayesiano (ABC) en R: una viñeta" (PDF) . Consultado el 10 de mayo de 2013 .
- ^ Jabot, F; Faure, T; Dumoulin, N (2013). "EasyABC: realización de esquemas de muestreo de cálculo bayesiano aproximado eficientes utilizando R." Métodos en ecología y evolución . 4 (7): 684–687. doi : 10.1111 / 2041-210X.12050 .
- ^ Jabot, F; Faure, T; Dumoulin, N (3 de junio de 2013). "EasyABC: una viñeta" (PDF) .
- ^ Liepe, J; Barnes, C; Cule, E; Erguler, K; Kirk, P; Toni, T; Stumpf, MP (2010). "ABC-SysBio: cálculo bayesiano aproximado en Python con soporte de GPU" . Bioinformática . 26 (14): 1797-1799. doi : 10.1093 / bioinformatics / btq278 . PMC 2894518 . PMID 20591907 .
- ^ Wegmann, D; Leuenberger, C; Neuenschwander, S; Excoffier, L (2010). "ABCtoolbox: un conjunto de herramientas versátil para cálculos bayesianos aproximados" . BMC Bioinformática . 11 : 116. doi : 10.1186 / 1471-2105-11-116 . PMC 2848233 . PMID 20202215 .
- ^ Hickerson, MJ; Stahl, E; Takebayashi, N (2007). "msBayes: tubería para probar historias filogeográficas comparativas utilizando cálculo bayesiano aproximado jerárquico" . BMC Bioinformática . 8 (268): 1471–2105. doi : 10.1186 / 1471-2105-8-268 . PMC 1949838 . PMID 17655753 .
- ^ Lopes, JS; Calvicie, D; Beaumont, MA (2009). "PopABC: un programa para inferir parámetros demográficos históricos" . Bioinformática . 25 (20): 2747–2749. doi : 10.1093 / bioinformatics / btp487 . PMID 19679678 .
- ^ Tallmon, DA; Koyuk, A; Luikart, G; Beaumont, MA (2008). "PROGRAMAS DE COMPUTADORA: onesamp: un programa para estimar el tamaño efectivo de la población utilizando el cálculo bayesiano aproximado". Recursos de ecología molecular . 8 (2): 299-301. doi : 10.1111 / j.1471-8286.2007.01997.x . PMID 21585773 . S2CID 9848290 .
- ^ Foll, M; Baumont, MA; Gaggiotti, EO (2008). "Un enfoque de cálculo bayesiano aproximado para superar los sesgos que surgen cuando se utilizan marcadores AFLP para estudiar la estructura de la población" . Genética . 179 (2): 927–939. doi : 10.1534 / genetics.107.084541 . PMC 2429886 . PMID 18505879 .
- ^ Bray, TC; Sousa, VC; Parreira, B; Bruford, MW; Chikhi, L (2010). "2BAD: una aplicación para estimar las contribuciones de los padres durante dos eventos de admiración independientes". Recursos de ecología molecular . 10 (3): 538–541. doi : 10.1111 / j.1755-0998.2009.02766.x . hdl : 10400,7 / 205 . PMID 21565053 . S2CID 6528668 .
- ^ Kangasrääsiö, Antti; Lintusaari, Jarno; Skytén, Kusti; Järvenpää, Marko; Vuollekoski, Henri; Gutmann, Michael; Vehtari, Aki; Corander, Jukka; Kaski, Samuel (2016). "ELFI: motor de inferencia libre de verosimilitud" (PDF) . Taller NIPS 2016 sobre avances en la inferencia bayesiana aproximada . arXiv : 1708.00707 . Código bibliográfico : 2017arXiv170800707L .
- ^ Dutta, R; Schoengens, M; Pacchiardi, L; Ummadisingu, A; Widmer, N; Onnela, JP; Mira, A (2020). "ABCpy: una perspectiva informática de alto rendimiento para calcular el cálculo bayesiano aproximado". arXiv : 1711.04694 [ stat.CO ].
enlaces externos
- Darren Wilkinson (31 de marzo de 2013). "Introducción a la computación bayesiana aproximada" . Consultado el 31 de marzo de 2013 .
- Rasmus Bååth (20 de octubre de 2014). "Datos diminutos, cálculo bayesiano aproximado y los calcetines de Karl Broman" . Consultado el 22 de enero de 2015 .