ProbOnto

ProbOnto es una base de conocimientos y una ontología de distribuciones de probabilidad . ^[1]^[2] ProbOnto 2,5 (publicado el 16 de enero 2017) contiene más de 150 uni - y distribuciones multivariadas y parametrizaciones alternativas, más de 220 relaciones y fórmulas re-parametrización, el apoyo también la codificación de empíricos y univariados distribuciones de mezcla .

ProbOnto

Palabras clave	Estadística , distribución de probabilidad
Objetivo	Diseñar, implementar y mantener la base de conocimientos y la ontología de distribuciones de probabilidad.
Duración	2015 -
Sitio web	probonto .org

Introducción

ProbOnto fue diseñado inicialmente para facilitar la codificación de modelos de efectos mixtos no lineales y su anotación en Pharmacometrics Markup Language (PharmML) ^[3]^[4] desarrollado por DDMoRe, ^[5]^[6] un proyecto de Innovative Medicines Initiative . Sin embargo, ProbOnto, debido a su estructura genérica, se puede aplicar en otras plataformas y herramientas de modelado para la codificación y anotación de diversos modelos aplicables a datos discretos (por ejemplo , de conteo , categóricos y tiempo hasta el evento ) y continuos.

Base de conocimientos

Descripción general de las distribuciones admitidas en ProbOnto, versión 2.5, y relaciones entre distribuciones de probabilidad univariadas.

La base de conocimientos almacena para cada distribución:

Funciones de densidad o masa de probabilidad y, cuando estén disponibles , funciones de distribución acumulativa , riesgo y supervivencia .
Cantidades relacionadas como media, mediana, moda y varianza.
Definiciones de parámetros y soporte / rango y tipo de distribución.
Código LaTeX y R para funciones matemáticas.
Definición y referencias del modelo.

Relaciones

ProbOnto almacena en la Versión 2.5 más de 220 relaciones entre distribuciones univariadas con re-parametrizaciones como un caso especial, ver figura. Si bien esta forma de relaciones a menudo se descuida en la literatura, y los autores concentran una forma particular para cada distribución, son cruciales desde el punto de vista de la interoperabilidad. ProbOnto se centra en este aspecto y presenta más de 15 distribuciones con parametrizaciones alternativas.

Parametrizaciones alternativas

Muchas distribuciones se definen con fórmulas matemáticamente equivalentes pero algebraicamente diferentes. Esto conduce a problemas al intercambiar modelos entre herramientas de software. ^[7] Los siguientes ejemplos lo ilustran.

Distribución normal

La distribución normal se puede definir de al menos tres formas

Normal1 (μ, σ) con media , μ y desviación estándar , σ ^[8]

{\ Displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {\ sigma}}) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \ exp {\ Grande [} - {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} {\ Big]}}

Normal2 (μ, υ) con media, μ y varianza , υ = σ ^ 2 ^[9] o

{\ displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {v}}) = {\ frac {1} {{\ sqrt {v}} {\ sqrt {2 \ pi}}}} \ exp {\ Big [} - {\ frac {(x- \ mu) ^ {2}} {2v}} {\ Big]}}

Normal3 (μ, τ) con media, μ y precisión , τ = 1 / υ = 1 / σ ^ 2. ^[10]^[11]

{\ displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {\ tau}}) = {\ sqrt {\ frac {\ tau} {2 \ pi}}} {\ Big [} - { \ frac {\ tau} {2}} (x- \ mu) ^ {2} {\ Big]}}

Fórmulas de re-parametrización

Las siguientes fórmulas se pueden utilizar para volver a calcular las tres formas diferentes de la distribución normal (utilizamos abreviaturas, es decir, ${\ Displaystyle N1}$ en vez de ${\ Displaystyle Normal1}$ etc.)

${\ Displaystyle N1 (\ mu, \ sigma) \ rightarrow N2 (\ mu, v): v = \ sigma ^ {2} {\ mbox {y}} N2 (\ mu, v) \ rightarrow N1 (\ mu, \ sigma): \ sigma = {\ sqrt {v}};}$

${\ Displaystyle N1 (\ mu, \ sigma) \ rightarrow N3 (\ mu, \ tau): \ tau = 1 / \ sigma ^ {2} {\ mbox {y}} N3 (\ mu, \ tau) \ rightarrow N1 (\ mu, \ sigma): \ sigma = 1 / {\ sqrt {\ tau}};}$

${\ Displaystyle N2 (\ mu, v) \ rightarrow N3 (\ mu, \ tau): \ tau = 1 / v {\ mbox {y}} N3 (\ mu, \ tau) \ rightarrow N2 (\ mu, v ): v = 1 / \ tau.}$

Distribución logarítmica normal

En el caso de la distribución logarítmica normal, existen más opciones. Esto se debe al hecho de que se puede parametrizar en términos de parámetros en la escala natural y logarítmica, ver figura.

Resumen de parametrizaciones de las distribuciones log-normales.

Soporte de diferentes parametrizaciones de las distribuciones log-normales en varias herramientas y sus conexiones, consulte el texto para ver ejemplos. Las herramientas visualizadas son Matlab (compatible con LN1), MCSim (LN6), Monolix (LN2 y LN3), PFIM (LN2 y LN3), Phoenix NLME (LN1, LN3 y LN6), PopED (LN7), R (lenguaje de programación) (LN1 ), Simcyp Simulator (LN1), Simulx (LN1) y winBUGS (LN5)

Los formularios disponibles en ProbOnto 2.0 son

LogNormal1 (μ, σ) con media, μ y desviación estándar, σ, ambas en la escala logarítmica ^[8]

{\ Displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {\ sigma}}) = {\ frac {1} {x \ sigma {\ sqrt {2 \ pi}}}} \ exp { \ Big [} {\ frac {- (\ log x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} {\ Big]}}

LogNormal2 (μ, υ) con media, μ y varianza, υ, ambos en la escala logarítmica

{\ displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {v}}) = {\ frac {1} {x {\ sqrt {v}} {\ sqrt {2 \ pi}}} } \ exp {\ Big [} {\ frac {- (\ log x- \ mu) ^ {2}} {2v}} {\ Big]}}

LogNormal3 (m, σ) con mediana , m, en la escala natural y desviación estándar, σ, en la escala logarítmica ^[8]

{\ Displaystyle P (x; {\ boldsymbol {m}}, {\ boldsymbol {\ sigma}}) = {\ frac {1} {x \ sigma {\ sqrt {2 \ pi}}}} \ exp {\ Grande [} {\ frac {- [\ log (x / m)] ^ {2}} {2 \ sigma ^ {2}}} {\ Big]}}

LogNormal4 (m, cv) con mediana, m y coeficiente de variación , cv, ambos en la escala natural

{\ displaystyle P (x; {\ boldsymbol {m}}, {\ boldsymbol {cv}}) = {\ frac {1} {x {\ sqrt {\ log (cv ^ {2} +1)}} { \ sqrt {2 \ pi}}}} \ exp {\ Big [} {\ frac {- [\ log (x / m)] ^ {2}} {2 \ log (cv ^ {2} +1)} }{\Grande ]}}

LogNormal5 (μ, τ) con media, μ y precisión, τ, ambos en la escala logarítmica ^[12]

{\ displaystyle P (x; {\ boldsymbol {\ mu}}, {\ boldsymbol {\ tau}}) = {\ sqrt {\ frac {\ tau} {2 \ pi}}} {\ frac {1} { x}} \ exp {\ Big [} {- {\ frac {\ tau} {2}} (\ log x- \ mu) ^ {2}} {\ Big]}}

LogNormal6 (m, σ _g ) con mediana, m, y desviación estándar geométrica , σ _g , ambas en la escala natural ^[13]

{\ Displaystyle P (x; {\ boldsymbol {m}}, {\ boldsymbol {\ sigma _ {g}}}) = {\ frac {1} {x \ log (\ sigma _ {g}) {\ sqrt {2 \ pi}}}} \ exp {\ Big [} {\ frac {- [\ log (x / m)] ^ {2}} {2 \ log ^ {2} (\ sigma _ {g}) }}{\Grande ]}}

LogNormal7 (μ _N , σ _N ) con media, μ _N y desviación estándar, σ _N , ambas en la escala natural ^[14]

{\ Displaystyle P (x; {\ boldsymbol {\ mu _ {N}}}, {\ boldsymbol {\ sigma _ {N}}}) = {\ frac {1} {x {\ sqrt {2 \ pi \ log {\ Big (} 1+ \ sigma _ {N} ^ {2} / \ mu _ {N} ^ {2} {\ Big)}}}}} \ exp {\ Bigg (} {\ frac {- {\ Big [} \ log (x) - \ log {\ Big (} {\ frac {\ mu _ {N}} {\ sqrt {1+ \ sigma _ {N} ^ {2} / \ mu _ { N} ^ {2}}}} {\ Big)} {\ Big]} ^ {2}} {2 \ log {\ Big (} 1+ \ sigma _ {N} ^ {2} / \ mu _ { N} ^ {2} {\ Big)}}} {\ Bigg)}}

La base de conocimientos de ProbOnto almacena dichas fórmulas de re-parametrización para permitir una traducción correcta de modelos entre herramientas.

Ejemplos de re-parametrización

Considere la situación en la que a uno le gustaría ejecutar un modelo utilizando dos herramientas de diseño óptimas diferentes, por ejemplo, PFIM ^[15] y PopED. ^[16] El primero admite la parametrización LN2, el último LN7, respectivamente. Por lo tanto, se requiere la nueva parametrización, de lo contrario las dos herramientas producirían resultados diferentes.

Para la transición ${\ Displaystyle LN2 (\ mu, v) \ rightarrow LN7 (\ mu _ {N}, \ sigma _ {N})}$ las siguientes fórmulas se mantienen ${\ Displaystyle \ mu _ {N} = \ exp (\ mu + v / 2) {\ text {y}} \ sigma _ {N} = \ exp (\ mu + v / 2) {\ sqrt {\ exp (v) -1}}}$ .

Para la transición ${\ Displaystyle LN7 (\ mu _ {N}, \ sigma _ {N}) \ rightarrow LN2 (\ mu, v)}$ las siguientes fórmulas se mantienen ${\ Displaystyle \ mu = \ log {\ Big (} \ mu _ {N} / {\ sqrt {1+ \ sigma _ {N} ^ {2} / \ mu _ {N} ^ {2}}} { \ Big)} {\ text {y}} v = \ log (1+ \ sigma _ {N} ^ {2} / \ mu _ {N} ^ {2})}$ .

Todas las fórmulas de re-parametrización restantes se pueden encontrar en el documento de especificaciones en el sitio web del proyecto. ^[2]

Ontología

La base de conocimientos se construye a partir de un modelo ontológico simple. En esencia, una distribución de probabilidad es una instancia de su clase, una especialización de la clase de objetos matemáticos. Una distribución se relaciona con varios otros individuos, que son instancias de varias categorías en la ontología. Por ejemplo, estos son parámetros y funciones relacionadas asociadas con una distribución de probabilidad dada. Esta estrategia permite una rica representación de atributos y relaciones entre objetos de dominio. La ontología puede verse como un esquema conceptual en el dominio de las matemáticas y se ha implementado como una base de conocimiento de PowerLoom. ^[17] Se genera una versión de OWL mediante programación utilizando la API de Jena. ^[18]

Los resultados de ProbOnto se proporcionan como materiales complementarios y se publican o se vinculan desde el sitio web probonto.org. La versión OWL de ProbOnto está disponible a través de Ontology Lookup Service (OLS) ^[19] para facilitar la búsqueda y visualización del contenido. Además, la API OLS proporciona métodos para acceder mediante programación a ProbOnto e integrarlo en aplicaciones. ProbOnto también está registrado en el portal BioSharing. ^[20]

ProbOnto en PharmML

Se proporciona una interfaz PharmML en forma de esquema XML genérico para la definición de las distribuciones y sus parámetros. Se puede acceder a las funciones de definición, como la función de densidad de probabilidad (PDF), la función de masa de probabilidad (PMF), la función de riesgo (HF) y la función de supervivencia (SF), a través de métodos proporcionados en el esquema PharmML.

Ejemplo de uso

Este ejemplo muestra cómo se codifica la distribución de Poisson inflada a cero utilizando su nombre en clave y declarando el de sus parámetros ('tasa' y 'probabilidad de cero '). Los parámetros del modelo Lambda y P0 se asignan a los nombres de los códigos de los parámetros.

   name = "ZeroInflatedPoisson1" >   name = "rate" >     symbIdRef = "Lambda"  />       name = "freedomOfZero" >     symbIdRef = "P0"  />

Para especificar cualquier distribución dada sin ambigüedades usando ProbOnto, es suficiente declarar su nombre de código y los nombres de código de sus parámetros. Se pueden encontrar más ejemplos y una especificación detallada en el sitio web del proyecto. ^[2]

Ver también

Lista de distribuciones de probabilidad
Ontología (ciencia de la información)
Relaciones entre distribuciones de probabilidad
Lenguaje de ontología web

Referencias

^ Swat, MJ; Grenon, P; Wimalaratne, S (2016). "ProbOnto: ontología y base de conocimientos de distribuciones de probabilidad" . Bioinformática . 32 : 2719. doi : 10.1093 / bioinformatics / btw170 . PMC 5013898 . PMID 27153608 .
^ a b c Sitio web principal del proyecto, URL: http://probonto.org
^ Swat MJ. et al. (2015). Pharmacometrics Markup Language (PharmML): abriendo nuevas perspectivas para el intercambio de modelos en el desarrollo de fármacos. CPT Pharmacometrics Syst Pharmacol, 4 (6): 316-9.
^ Sitio web de PharmML, URL: http://pharmml.org
^ Sitio web del proyecto DDMoRe, URL: http://ddmore.eu
^ Descripción de ProbOnto en el sitio web de DDMoRe, URL: http://ddmore.eu/probonto
^ LeBauer DS y col. Traducción de funciones de densidad de probabilidad: de R a BUGS y viceversa, R Journal, 2013
^ a b c Forbes y col. Distribuciones de probabilidad (2011), John Wiley & Sons, Inc.
^ Wolfram Mathworld, URL: http://mathworld.wolfram.com/NormalDistribution.html
^ Paquete R 'LaplacesDemon', URL: http://search.r-project.org/library/LaplacesDemon/html/dist.Normal.Precision.html
^ Cyert RM, MH DeGroot, Análisis bayesiano e incertidumbre en lo económico (1987), TheoryRowman & Littlefield
^ Lunn, D. (2012). El libro BUGS: una introducción práctica al análisis bayesiano. Textos en ciencia estadística. Prensa CRC.
^ Limpert, E., Stahel, WA y Abbt, M. (2001). Distribuciones logarítmicas normales entre las ciencias: claves y pistas. BioScience, 51 (5): 341-352.
^ Nyberg J. y col. (2012) PopED: una herramienta de diseño óptima de población extendida, paralelizada. Programas de métodos informáticos Biomed .; 108 (2): 789-805. doi: 10.1016 / j.cmpb.2012.05.005
^ Retout S, Duffull S, Mentré F (2001) Desarrollo e implementación de la matriz de información de Fisher poblacional para la evaluación de diseños farmacocinéticos poblacionales. Comp Meth Pro Biomed 65: 141–151
^ El equipo de desarrollo de PopED (2016). Manual de PopED, versión 2.13. Informe técnico, Universidad de Uppsala.
^ MacGregor R. et al. (1997) Manual de Powerloom. ISI, Universidad del Sur de California, Marina del Rey.
^ McBride B. (2001) Jena: Implementación del modelo RDF y la especificación de sintaxis. En: SemWeb.
^ ProbOnto en el servicio de búsqueda de ontología, URL: http://www.ebi.ac.uk/ols/ontologies/probonto
^ ProbOnto en BioSharing, la base de datos de bases de datos biológicas, URL: https://biosharing.org/biodbcore-000772

enlaces externos

Sitio web de ProbOnto
Gráfico de Leemis
Ultimate Univariate Probability Distribution Explorer : probablemente la colección gratuita más grande de distribuciones univariadas y sus características.
UncertML

[1] Swat, MJ; Grenon, P; Wimalaratne, S (2016). "ProbOnto: ontología y base de conocimientos de distribuciones de probabilidad" . Bioinformática . 32 : 2719. doi : 10.1093 / bioinformatics / btw170 . PMC 5013898 . PMID 27153608 .

[probontoWebsite-2] Sitio web principal del proyecto, URL: http://probonto.org

[3] Swat MJ. et al. (2015). Pharmacometrics Markup Language (PharmML): abriendo nuevas perspectivas para el intercambio de modelos en el desarrollo de fármacos. CPT Pharmacometrics Syst Pharmacol, 4 (6): 316-9.

[4] Sitio web de PharmML, URL: http://pharmml.org

[5] Sitio web del proyecto DDMoRe, URL: http://ddmore.eu

[6] Descripción de ProbOnto en el sitio web de DDMoRe, URL: http://ddmore.eu/probonto

[7] LeBauer DS y col. Traducción de funciones de densidad de probabilidad: de R a BUGS y viceversa, R Journal, 2013

[Forbes-8] Forbes y col. Distribuciones de probabilidad (2011), John Wiley & Sons, Inc.

[9] Wolfram Mathworld, URL: http://mathworld.wolfram.com/NormalDistribution.html

[10] Paquete R 'LaplacesDemon', URL: http://search.r-project.org/library/LaplacesDemon/html/dist.Normal.Precision.html

[11] Cyert RM, MH DeGroot, Análisis bayesiano e incertidumbre en lo económico (1987), TheoryRowman & Littlefield

[12] Lunn, D. (2012). El libro BUGS: una introducción práctica al análisis bayesiano. Textos en ciencia estadística. Prensa CRC.

[13] Limpert, E., Stahel, WA y Abbt, M. (2001). Distribuciones logarítmicas normales entre las ciencias: claves y pistas. BioScience, 51 (5): 341-352.

[14] Nyberg J. y col. (2012) PopED: una herramienta de diseño óptima de población extendida, paralelizada. Programas de métodos informáticos Biomed .; 108 (2): 789-805. doi: 10.1016 / j.cmpb.2012.05.005

[15] Retout S, Duffull S, Mentré F (2001) Desarrollo e implementación de la matriz de información de Fisher poblacional para la evaluación de diseños farmacocinéticos poblacionales. Comp Meth Pro Biomed 65: 141–151

[16] El equipo de desarrollo de PopED (2016). Manual de PopED, versión 2.13. Informe técnico, Universidad de Uppsala.

[17] MacGregor R. et al. (1997) Manual de Powerloom. ISI, Universidad del Sur de California, Marina del Rey.

[18] McBride B. (2001) Jena: Implementación del modelo RDF y la especificación de sintaxis. En: SemWeb.

[19] ProbOnto en el servicio de búsqueda de ontología, URL: http://www.ebi.ac.uk/ols/ontologies/probonto

[20] ProbOnto en BioSharing, la base de datos de bases de datos biológicas, URL: https://biosharing.org/biodbcore-000772

[1]