Eliminación variable

La eliminación de variables (VE) es un algoritmo de inferencia exacta simple y general en modelos gráficos probabilísticos , como redes bayesianas y campos aleatorios de Markov . ^[1] Se puede utilizar para la inferencia del estado máximo a posteriori (MAP) o la estimación de distribuciones condicionales o marginales sobre un subconjunto de variables. El algoritmo tiene una complejidad de tiempo exponencial, pero podría ser eficaz en la práctica para los gráficos de bajo ancho de árbol , si se utiliza el orden de eliminación adecuado.

Factores

Permitir una reducción clave en la complejidad algorítmica, un factor ${\ Displaystyle f}$ , también conocido como potencial, de variables ${\ Displaystyle V}$ es una relación entre cada instanciación de ${\ Displaystyle v}$ de variables ${\ Displaystyle f}$ a un número no negativo, comúnmente denotado como ${\ Displaystyle f (x)}$ . ^[2] Un factor no necesariamente tiene una interpretación establecida. Se pueden realizar operaciones sobre factores de diferentes representaciones, como una distribución de probabilidad o una distribución condicional. ^{[2] Las} distribuciones conjuntas a menudo se vuelven demasiado grandes para manejarlas, ya que la complejidad de esta operación es exponencial. Por lo tanto, la eliminación de variables se vuelve más factible cuando se calculan entidades factorizadas.

Operaciones básicas

Suma variable

El algoritmo 1, llamado suma (SO) o marginación, elimina una sola variable ${\ Displaystyle v}$ de un conjunto ${\ Displaystyle \ phi}$ de factores, ^[3] y devuelve el conjunto de factores resultante. El algoritmo de recopilación relevante simplemente devuelve esos factores en ${\ Displaystyle \ phi}$ involucrando variable ${\ Displaystyle v}$ .

Suma del algoritmo 1 ( ${\ Displaystyle v}$ , ${\ Displaystyle \ phi}$ )

{\ Displaystyle \ Phi}

= recopilar factores relevantes para

{\ Displaystyle v}

{\ Displaystyle \ Psi}

= el producto de todos los factores en

{\ Displaystyle \ Phi}

{\ Displaystyle \ tau = \ sum _ {v} \ Psi}

regreso ${\ Displaystyle (\ phi - \ Phi) \ cup \ {\ tau \}}$

Ejemplo

Aquí tenemos una distribución de probabilidad conjunta . Una variable, ${\ Displaystyle v}$ se puede resumir entre un conjunto de instanciaciones donde el conjunto ${\ Displaystyle Vv}$ como mínimo debe coincidir con las demás variables. El valor de ${\ Displaystyle v}$ es irrelevante cuando es la variable a resumir. ^[2]

${\ Displaystyle V_ {1}}$	${\ Displaystyle V_ {2}}$	${\ Displaystyle V_ {3}}$	${\ Displaystyle V_ {4}}$	${\ Displaystyle V_ {5}}$	${\ Displaystyle Pr (.)}$
cierto	cierto	cierto	falso	falso	0,80
falso	cierto	cierto	falso	falso	0,20

Después de eliminar ${\ Displaystyle V_ {1}}$ , se excluye su referencia y nos queda una distribución solo sobre las variables restantes y la suma de cada instanciación.

${\ Displaystyle V_ {2}}$	${\ Displaystyle V_ {3}}$	${\ Displaystyle V_ {4}}$	${\ Displaystyle V_ {5}}$	${\ Displaystyle Pr (.)}$
cierto	cierto	falso	falso	1.0

La distribución resultante que sigue a la operación de suma solo ayuda a responder consultas que no mencionan ${\ Displaystyle V_ {1}}$ . ^[2] También vale la pena señalar que la operación de suma es conmutativa.

Multiplicación de factores

Calcular un producto entre múltiples factores da como resultado un factor compatible con una única instanciación en cada factor. ^[2]

Algoritmo 2 multifactores ( ${\ Displaystyle v}$ , ${\ Displaystyle \ phi}$ ) ^[2]

{\ Displaystyle Z}

= Unión de todas las variables entre producto de factores

{\ Displaystyle f_ {1} (X_ {1}), ..., f_ {m} (X_ {m})}

{\ Displaystyle f}

= un factor sobre

{\ Displaystyle f}

dónde

{\ Displaystyle f}

para todos

{\ Displaystyle f}

Para cada instanciación

{\ Displaystyle z}

De 1 a

{\ Displaystyle m}

{\ Displaystyle x_ {1} =}

instanciación de variables

{\ Displaystyle X_ {1}}

consistente con

{\ Displaystyle z}

{\ Displaystyle f (z) = f (z) f_ {i} (x_ {i})}

regreso

{\ Displaystyle f}

La multiplicación de factores no solo es conmutativa sino también asociativa.

Inferencia

El tipo de consulta más común está en el formulario ${\ displaystyle p (X | E = e)}$ dónde ${\ Displaystyle X}$ y ${\ Displaystyle E}$ son subconjuntos disjuntos de ${\ Displaystyle U}$ , y ${\ Displaystyle E}$ se observa tomando valor ${\ Displaystyle e}$ . Un algoritmo básico para calcular p (X | E = e) se llama eliminación de variable (VE), presentado por primera vez. ^[1]

Tomado de, ^[1] este algoritmo calcula ${\ displaystyle p (X | E = e)}$ desde una red bayesiana discreta B. VE llama a SO para eliminar las variables una por una. Más específicamente, en el algoritmo 2, ${\ Displaystyle \ phi}$ es el conjunto C de tablas de probabilidad condicional (en adelante, "CPT") para B, ${\ Displaystyle X}$ es una lista de variables de consulta, ${\ Displaystyle E}$ es una lista de variables observadas, ${\ Displaystyle e}$ es la lista correspondiente de valores observados, y ${\ Displaystyle \ sigma}$ es un orden de eliminación para variables ${\ Displaystyle U-XE}$ , dónde ${\ displaystyle XE}$ denota ${\ Displaystyle X \ cup E}$ .

Algoritmo de eliminación variable VE ( ${\ Displaystyle \ phi, X, E, e, \ sigma}$ )

Multiplique los factores con los CPT apropiados mientras σ no esté vacío

Eliminar la primera variable

{\ Displaystyle v}

de

{\ Displaystyle \ sigma}

{\ Displaystyle \ phi}

= suma

{\ Displaystyle (v, \ phi)}

{\ Displaystyle p (X, E = e)}

= el producto de todos los factores

{\ Displaystyle \ Psi \ in \ phi}

regreso ${\ Displaystyle p (X, E = e) / \ sum _ {X} p (X, E = e)}$

Ordenando

Encontrar el orden óptimo en el que eliminar variables es un problema NP-difícil. Como tal, hay heurísticas que se pueden seguir para optimizar mejor el rendimiento por orden:

Grado mínimo : Elimine la variable que resulte en la construcción del factor más pequeño posible. ^[2]
Relleno mínimo: al construir un gráfico no dirigido que muestre las relaciones variables expresadas por todos los CPT, elimine la variable que resultaría en la menor cantidad de bordes que se agregarán después de la eliminación. ^[2]

Referencias

^ ^a ^b ^c Zhang, NL, Poole, D.:A Simple Approach to Bayesian Network Computations. En: 7th Canadian Conference on Artificial Intelligence, págs. 171-178. Springer, Nueva York (1994)
↑ ^a ^b ^c ^d ^e ^f ^g ^h Darwiche, Adnan (1 de enero de 2009). Modelado y razonamiento con redes bayesianas . doi : 10.1017 / cbo9780511811357 . ISBN 9780511811357.
^ Koller, D., Friedman, N .: Modelos gráficos probabilísticos: principios y técnicas. Prensa del MIT, Cambridge, MA (2009)

Este artículo relacionado con las estadísticas es un resumen . Puedes ayudar a Wikipedia expandiéndolo .

Este artículo de ciencias de la computación es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[zhang-1] Zhang, NL, Poole, D.:A Simple Approach to Bayesian Network Computations. En: 7th Canadian Conference on Artificial Intelligence, págs. 171-178. Springer, Nueva York (1994)

[:0-2] ↑ ^a ^b ^c ^d ^e ^f ^g ^h Darwiche, Adnan (1 de enero de 2009). Modelado y razonamiento con redes bayesianas . doi : 10.1017 / cbo9780511811357 . ISBN 9780511811357.

[3] Koller, D., Friedman, N .: Modelos gráficos probabilísticos: principios y técnicas. Prensa del MIT, Cambridge, MA (2009)

[1]