Red de dependencia (modelo gráfico)

Las redes de dependencia (DN) son modelos gráficos , similares a las redes de Markov , donde cada vértice (nodo) corresponde a una variable aleatoria y cada borde captura dependencias entre variables. A diferencia de las redes bayesianas , los DN pueden contener ciclos. Cada nodo está asociado a una tabla de probabilidad condicional, que determina la realización de la variable aleatoria dados sus padres. ^[1]

Manta de markov

En una red bayesiana , el manto de Markov de un nodo es el conjunto de padres e hijos de ese nodo, junto con los padres de los hijos. Los valores de los padres y los hijos de un nodo, evidentemente, dan información sobre ese nodo. Sin embargo, los padres de sus hijos también deben incluirse en la manta de Markov, porque pueden usarse para explicar el nodo en cuestión. En un campo aleatorio de Markov , el manto de Markov para un nodo son simplemente sus nodos adyacentes (o vecinos). En una red de dependencia, el manto de Markov para un nodo es simplemente el conjunto de sus padres.

Red de dependencia versus redes bayesianas

Las redes de dependencia tienen ventajas y desventajas con respecto a las redes bayesianas. En particular, son más fáciles de parametrizar a partir de los datos, ya que existen algoritmos eficientes para aprender tanto la estructura como las probabilidades de una red de dependencia a partir de los datos. Tales algoritmos no están disponibles para redes bayesianas, para las cuales el problema de determinar la estructura óptima es NP-difícil. ^[2] No obstante, una red de dependencia puede ser más difícil de construir utilizando un enfoque basado en el conocimiento impulsado por el conocimiento de los expertos.

Redes de dependencia versus redes de Markov

Las redes de dependencia consistentes y las redes de Markov tienen el mismo poder de representación. No obstante, es posible construir redes de dependencia no consistentes, es decir, redes de dependencia para las que no existe una distribución de probabilidad conjunta válida compatible . Las redes de Markov, por el contrario, siempre son consistentes.

Definición

Una red de dependencia consistente para un conjunto de variables aleatorias ${\ textstyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {n})}$ con distribución conjunta ${\ Displaystyle p (\ mathbf {x})}$ es un par ${\ Displaystyle (G, P)}$ dónde ${\ Displaystyle G}$ es un grafo dirigido cíclico, donde cada uno de sus nodos corresponde a una variable en ${\ Displaystyle \ mathbf {X}}$ , y ${\ Displaystyle P}$ es un conjunto de distribuciones de probabilidad condicionales. Los padres del nodo ${\ Displaystyle X_ {i}}$ , denotado ${\ Displaystyle \ mathbf {Pa_ {i}}}$ , corresponden a esas variables ${\ Displaystyle \ mathbf {Pa_ {i}} \ subseteq (X_ {1}, \ ldots, X_ {i-1}, X_ {i + 1}, \ ldots, X_ {n})}$ que satisfagan las siguientes relaciones de independencia

{\ Displaystyle p (x_ {i} \ mid \ mathbf {pa_ {i}}) = p (x_ {i} \ mid x_ {1}, \ ldots, x_ {i-1}, x_ {i + 1} , \ ldots, x_ {n}) = p (x_ {i} \ mid \ mathbf {x} - {x_ {i}}).}

La red de dependencia es consistente en el sentido de que cada distribución local puede obtenerse de la distribución conjunta ${\ Displaystyle p (\ mathbf {x})}$ . Las redes de dependencia aprendidas usando grandes conjuntos de datos con grandes tamaños de muestra casi siempre serán consistentes. Una red no consistente es una red para la que no existe una distribución de probabilidad conjunta compatible con el par. ${\ Displaystyle (G, P)}$ . En ese caso, no existe una distribución de probabilidad conjunta que satisfaga las relaciones de independencia subsumidas por ese par.

Aprendizaje de estructura y parámetros

Dos tareas importantes en una red de dependencia son aprender su estructura y probabilidades a partir de los datos. Básicamente, el algoritmo de aprendizaje consiste en realizar de forma independiente una regresión o clasificación probabilística para cada variable del dominio. Proviene de la observación de que la distribución local de la variable ${\ Displaystyle X_ {i}}$ en una red de dependencia es la distribución condicional ${\ Displaystyle p (x_ {i} | \ mathbf {x} - {x_ {i}})}$ , que puede estimarse mediante cualquier número de técnicas de clasificación o regresión, como los métodos que utilizan un árbol de decisión probabilístico, una red neuronal o una máquina probabilística de vectores de soporte. Por lo tanto, para cada variable ${\ Displaystyle X_ {i}}$ en el dominio ${\ Displaystyle X}$ , estimamos de forma independiente su distribución local a partir de los datos utilizando un algoritmo de clasificación, aunque es un método distinto para cada variable. Aquí, mostraremos brevemente cómo se utilizan los árboles de decisión probabilísticos para estimar las distribuciones locales. Para cada variable ${\ Displaystyle X_ {i}}$ en ${\ Displaystyle \ mathbf {X}}$ , se aprende un árbol de decisión probabilístico donde ${\ Displaystyle X_ {i}}$ es la variable de destino y ${\ Displaystyle \ mathbf {X} -X_ {i}}$ son las variables de entrada. Para aprender una estructura de árbol de decisiones para ${\ Displaystyle X_ {i}}$ , el algoritmo de búsqueda comienza con un nodo raíz singleton sin hijos. Luego, cada nodo hoja en el árbol se reemplaza con una división binaria en alguna variable ${\ Displaystyle X_ {j}}$ en ${\ Displaystyle \ mathbf {X} -X_ {i}}$ , hasta que no haya más reemplazos que aumenten la puntuación del árbol.

Inferencia probabilística

Una inferencia probabilística es la tarea en la que deseamos responder consultas probabilísticas de la forma ${\ Displaystyle p (\ mathbf {y \ mid z})}$ , dado un modelo gráfico para ${\ Displaystyle \ mathbf {X}}$ , dónde ${\ Displaystyle \ mathbf {Y}}$ (las variables 'objetivo') ${\ Displaystyle \ mathbf {Z}}$ (las variables de 'entrada') son subconjuntos disjuntos de ${\ Displaystyle \ mathbf {X}}$ . Una de las alternativas para realizar inferencias probabilísticas es el muestreo de Gibbs . Un enfoque ingenuo para esto utiliza un muestreador Gibbs ordenado, cuya dificultad importante es que si ${\ Displaystyle p (\ mathbf {y \ mid z})}$ o ${\ Displaystyle p (\ mathbf {z})}$ es pequeño, entonces se requieren muchas iteraciones para una estimación de probabilidad precisa. Otro enfoque para estimar ${\ Displaystyle p (\ mathbf {y \ mid z})}$ Cuándo ${\ Displaystyle p (\ mathbf {z})}$ es utilizar un muestreador Gibbs ordenado modificado, donde corrige ${\ Displaystyle \ mathbf {Z = z}}$ durante el muestreo de Gibbs.

También puede suceder que ${\ Displaystyle \ mathbf {y}}$ es raro, por ejemplo ${\ Displaystyle \ mathbf {Y}}$ contiene muchas variables. Por lo tanto, la ley de probabilidad total junto con las independientes codificadas en una red de dependencia se puede utilizar para descomponer la tarea de inferencia en un conjunto de tareas de inferencia en variables individuales. Este enfoque tiene la ventaja de que algunos términos pueden obtenerse mediante una búsqueda directa, evitando así algunos muestreos de Gibbs.

Puede ver a continuación un algoritmo que se puede utilizar para obtener ${\ Displaystyle p (\ mathbf {y | z})}$ para una instancia particular de ${\ Displaystyle \ mathbf {y} \ in \ mathbf {Y}}$ y ${\ Displaystyle \ mathbf {z} \ in \ mathbf {Z}}$ , dónde ${\ Displaystyle \ mathbf {Y}}$ y ${\ Displaystyle \ mathbf {Z}}$ son subconjuntos disjuntos.

Algoritmo 1:

${\ Displaystyle \ mathbf {U: = Y}}$ (* las variables no procesadas *)
${\ Displaystyle \ mathbf {P: = Z}}$ (* las variables procesadas y acondicionadoras *)
${\ Displaystyle \ mathbf {p: = z}}$ (* los valores para ${\ Displaystyle \ mathbf {P}}$ *)
Tiempo ${\ Displaystyle \ mathbf {U} \ neq \ emptyset}$ :
1. Escoger ${\ Displaystyle X_ {i} \ in \ mathbf {U}}$ tal que ${\ Displaystyle X_ {i}}$ no tiene más padres en ${\ Displaystyle U}$ que cualquier variable en ${\ Displaystyle U}$
2. Si todos los padres de ${\ Displaystyle X}$ estan en ${\ Displaystyle \ mathbf {P}}$
  1. ${\ Displaystyle p (x_ {i} | \ mathbf {p}): = p (x_ {i} | \ mathbf {pa_ {i}})}$
3. Demás
  1. Utilice un muestreador Gibbs ordenado modificado para determinar ${\ Displaystyle p (x_ {i} | \ mathbf {p})}$
4. ${\ Displaystyle \ mathbf {U: = U} -X_ {i}}$
5. ${\ Displaystyle \ mathbf {P: = P} + X_ {i}}$
6. ${\ Displaystyle \ mathbf {p: = p} + x_ {i}}$
Devuelve el producto de los condicionales ${\ Displaystyle p (x_ {i} | \ mathbf {p})}$

Aplicaciones

Además de las aplicaciones a la inferencia probabilística, las siguientes aplicaciones se encuentran en la categoría de Filtrado Colaborativo (CF), que es la tarea de predecir preferencias. Las redes de dependencia son una clase de modelo natural en la que basar las predicciones de CF, una vez que un algoritmo para esta tarea solo necesita la estimación de ${\ Displaystyle p (x_ {i} = 1 | \ mathbf {x} - {x_ {i}} = 0)}$ para producir recomendaciones. En particular, estas estimaciones pueden obtenerse mediante una búsqueda directa en una red de dependencia.

Predecir qué películas le gustarán a una persona en función de sus calificaciones de las películas vistas;
Predecir a qué páginas web accederá una persona en función de su historial en el sitio;
Predecir qué noticias le interesan a una persona basándose en otras historias que leyó;
Predecir qué producto comprará una persona en función de los productos que ya ha comprado y / o depositado en su cesta de la compra.

Otra clase de aplicaciones útiles para las redes de dependencia está relacionada con la visualización de datos, es decir, la visualización de relaciones predictivas.

Ver también

Red de dependencia relacional

Referencias

^ HECKERMAN, David; MAXWELL C., David; MEEK, Christopher; ROUNTHWAITE, Robert; KADIE, Carl (octubre de 2000). "Redes de dependencia para inferencia, filtrado colaborativo y visualización de datos" (PDF) . Revista de investigación sobre aprendizaje automático .
^ HECKERMAN, David (2012). "El aprendizaje de muestras grandes de redes bayesianas es NP-Hard" (PDF) . arXiv : 1212.2468 . Cite journal requiere |journal=( ayuda )

[1] HECKERMAN, David; MAXWELL C., David; MEEK, Christopher; ROUNTHWAITE, Robert; KADIE, Carl (octubre de 2000). "Redes de dependencia para inferencia, filtrado colaborativo y visualización de datos" (PDF) . Revista de investigación sobre aprendizaje automático .

[2] HECKERMAN, David (2012). "El aprendizaje de muestras grandes de redes bayesianas es NP-Hard" (PDF) . arXiv : 1212.2468 . Cite journal requiere |journal=( ayuda )

[1]