Notación de placa

En la inferencia bayesiana , la notación de placas es un método para representar variables que se repiten en un modelo gráfico . En lugar de dibujar cada variable repetida individualmente, se usa una placa o un rectángulo para agrupar las variables en un subgrafo que se repiten juntas, y se dibuja un número en la placa para representar el número de repeticiones del subgrafo en la placa. ^[1] Las suposiciones son que el subgrafo está duplicado muchas veces, las variables en el subgrafo están indexadas por el número de repetición, y cualquier vínculo que cruza un límite de placa se replica una vez por cada repetición de subgrafo. ^[2]

Ejemplo

Notación de placa para la asignación de Dirichlet latente

En este ejemplo, consideramos la asignación de Dirichlet latente , una red bayesiana que modela cómo los documentos de un corpus se relacionan por temas. Hay dos variables que no están en ningún plato; α es el parámetro del Dirichlet uniforme antes de las distribuciones de temas por documento, y β es el parámetro del Dirichlet uniforme antes de la distribución de palabras por tema.

La placa más externa representa todas las variables relacionadas con un documento específico, incluidas ${\ Displaystyle \ theta _ {i}}$ , la distribución de temas para el documento i . La M en la esquina de la placa indica que las variables del interior se repiten M veces, una vez para cada documento. La placa interior representa las variables asociadas con cada uno de los ${\ Displaystyle N_ {i}}$ palabras en el documento i : ${\ Displaystyle z_ {ij}}$ es la distribución de temas para la j- ésima palabra en el documento i , y ${\ Displaystyle w_ {ij}}$ es la palabra real utilizada.

La N en la esquina representa la repetición de las variables en la placa interior ${\ Displaystyle N_ {i}}$ veces, una por cada palabra del documento i . El círculo que representa las palabras individuales está sombreado, lo que indica que cada ${\ Displaystyle w_ {ij}}$ es observable y los otros círculos están vacíos, lo que indica que las otras variables son variables latentes . Los bordes dirigidos entre variables indican dependencias entre las variables: por ejemplo, cada ${\ Displaystyle w_ {ij}}$ depende de ${\ Displaystyle z_ {ij}}$ y β .

Extensiones

Modelo de mezcla gaussiana multivariado bayesiano utilizando notación de placa. Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; [D, D] significa una matriz de tamaño D × D ; K solo significa una variable categórica con K resultados. La línea ondulada que viene de z que termina en una barra transversal indica un cambio : el valor de esta variable selecciona, para las otras variables entrantes, qué valor usar fuera de la matriz de valores posibles de tamaño K.

Varios autores han creado una serie de extensiones para expresar más información que simplemente las relaciones condicionales. Sin embargo, pocos de estos se han convertido en estándar. Quizás la extensión más comúnmente utilizada es usar rectángulos en lugar de círculos para indicar variables no aleatorias, ya sea parámetros que se calcularán, hiperparámetros con un valor fijo (o calculados a través de Bayes empíricos ) o variables cuyos valores se calculan de forma determinista a partir de un valor aleatorio. variable.

El diagrama de la derecha muestra algunas convenciones no estándar más utilizadas en algunos artículos de Wikipedia (por ejemplo, Bayes variacional ):

Las variables que en realidad son vectores aleatorios se indican poniendo el tamaño del vector entre paréntesis en el medio del nodo.
Las variables que en realidad son matrices aleatorias se indican de manera similar poniendo el tamaño de la matriz entre corchetes en el medio del nodo, con comas que separan el tamaño de la fila del tamaño de la columna.
Las variables categóricas se indican colocando su tamaño (sin corchetes) en el medio del nodo.
Las variables categóricas que actúan como "conmutadores" y que seleccionan una o más variables aleatorias para condicionarlas de un gran conjunto de tales variables (por ejemplo, componentes de mezcla), se indican con un tipo especial de flecha que contiene una línea ondulada y termina en una Unión en T.
La negrita se usa constantemente para nodos vectoriales o matriciales (pero no para nodos categóricos).

Implementación de software

La notación de placas se ha implementado en varios paquetes de dibujo TeX / LaTeX , pero también como parte de interfaces gráficas de usuario para programas de estadísticas bayesianas como BUGS y BayesiaLab .

Referencias

^ Ghahramani, Zoubin (agosto de 2007). Modelos gráficos (habla). Tübingen, Alemania . Consultado el 21 de febrero de 2008 .
^ Buntine, Wray L. (diciembre de 1994). "Operaciones para el aprendizaje con modelos gráficos" (PDF) . Revista de Investigación en Inteligencia Artificial . Fundación AI Access. 2 : 159-225. arXiv : cs / 9412102 . Código Bibliográfico : 1994cs ....... 12102B . doi : 10.1613 / jair.62 . ISSN 1076-9757 . Consultado el 21 de febrero de 2008 .

[1] Ghahramani, Zoubin (agosto de 2007). Modelos gráficos (habla). Tübingen, Alemania . Consultado el 21 de febrero de 2008 .

[2] Buntine, Wray L. (diciembre de 1994). "Operaciones para el aprendizaje con modelos gráficos" (PDF) . Revista de Investigación en Inteligencia Artificial . Fundación AI Access. 2 : 159-225. arXiv : cs / 9412102 . Código Bibliográfico : 1994cs ....... 12102B . doi : 10.1613 / jair.62 . ISSN 1076-9757 . Consultado el 21 de febrero de 2008 .

[1]