Aprendizaje multimodal

La información en el mundo real suele presentarse en diferentes modalidades. Por ejemplo, las imágenes suelen estar asociadas con etiquetas y explicaciones de texto; los textos contienen imágenes para expresar más claramente la idea principal del artículo. Las diferentes modalidades se caracterizan por propiedades estadísticas muy diferentes. Por ejemplo, las imágenes generalmente se representan como intensidades de píxeles o salidas de extractores de características , mientras que los textos se representan como vectores discretos de conteo de palabras. Debido a las distintas propiedades estadísticas de los diferentes recursos de información, es muy importante descubrir la relación entre las diferentes modalidades. El aprendizaje multimodal es un buen modelo para representar las representaciones conjuntas de diferentes modalidades. El modelo de aprendizaje multimodaltambién es capaz de llenar la modalidad faltante dadas las observadas. El modelo de aprendizaje multimodal combina dos máquinas de Boltzmann profundas, cada una corresponde a una modalidad. Se coloca una capa oculta adicional en la parte superior de las dos máquinas Boltzmann para dar la representación conjunta.

Motivación

Se han implementado muchos modelos / algoritmos para recuperar y clasificar cierto tipo de datos, por ejemplo, imágenes o texto (donde los humanos que interactúan con máquinas pueden extraer imágenes en forma de imágenes y texto que podría ser cualquier mensaje, etc.). Sin embargo, los datos generalmente vienen con diferentes modalidades (es el grado en que los componentes de un sistema pueden estar separados o combinados) que contienen información diferente. Por ejemplo, es muy común poner subtítulos en una imagen para transmitir la información que no presenta esta imagen. De manera similar, a veces es más sencillo usar una imagen para describir la información que puede no ser obvia en los textos. Como resultado, si aparecen algunas palabras diferentes en imágenes similares, es muy probable que estas palabras se usen para describir lo mismo. Por el contrario, si se utilizan algunas palabras en diferentes imágenes, estas imágenes pueden representar el mismo objeto. Por lo tanto, es importante invitar a un modelo novedoso que sea capaz de representar conjuntamente la información de manera que el modelo pueda capturar la estructura de correlación entre diferentes modalidades. Además, también debería poder recuperar las modalidades faltantes dadas las observadas, por ejemplo, predecir un posible objeto de imagen de acuerdo con la descripción del texto. El modelo Multimodal Deep Boltzmann Machine satisface los propósitos anteriores.

Antecedentes: máquina de Boltzmann

Una máquina de Boltzmann es un tipo de red neuronal estocástica inventada por Geoffrey Hinton y Terry Sejnowski en 1985. Las máquinas de Boltzmann pueden considerarse la contraparte estocástica y generativa de las redes de Hopfield . Llevan el nombre de la distribución de Boltzmann en mecánica estadística. Las unidades de las máquinas Boltzmann se dividen en dos grupos: unidades visibles y unidades ocultas. Las máquinas generales de Boltzmann permiten la conexión entre cualquier unidad. Sin embargo, el aprendizaje no es práctico con las máquinas Boltzmann generales porque el tiempo de cálculo es exponencial al tamaño de la máquina. Una arquitectura más eficiente se llama máquina de Boltzmann restringida donde solo se permite la conexión entre la unidad oculta y la unidad visible, que se describe en la siguiente sección.

Máquina de Boltzmann restringida

Una máquina de Boltzmann restringida ^[1] es un modelo gráfico no dirigido con variable visible estocástica y variables ocultas estocásticas. Cada variable visible está conectada a cada variable oculta. La función energética del modelo se define como

{\ Displaystyle E (\ mathbf {v}, \ mathbf {h}; \ theta) = - \ sum _ {i = 1} ^ {D} \ sum _ {j = 1} ^ {F} W_ {ij} v_ {i} h_ {j} - \ sum _ {i = 1} ^ {D} b_ {i} v_ {i} - \ sum _ {j = 1} ^ {F} a_ {j} h_ {j} }

dónde ${\ Displaystyle \ theta = \ {\ mathbf {v}, \ mathbf {h}; \ theta \}}$ son parámetros del modelo: ${\ Displaystyle W_ {ij}}$ representa el término de interacción simétrica entre la unidad visible ${\ Displaystyle i}$ y unidad oculta ${\ Displaystyle j}$ ; ${\ Displaystyle b_ {i}}$ y ${\ Displaystyle a_ {j}}$ son términos de sesgo. La distribución conjunta del sistema se define como

{\ Displaystyle P (\ mathbf {v}; \ theta) = {\ frac {1} {{\ mathcal {Z}} (\ theta)}} \ sum _ {\ mathbf {h}} \ mathrm {exp} (-E (\ mathbf {v}, \ mathbf {h}; \ theta))}

dónde ${\ Displaystyle {\ mathcal {Z}} (\ theta)}$ es una constante normalizadora. La distribución condicional sobre oculta ${\ Displaystyle \ mathbf {h}}$ y ${\ Displaystyle \ mathbf {v}}$ se puede derivar como función logística en términos de parámetros del modelo.

{\ Displaystyle P (\ mathbf {h} | \ mathbf {v}; \ theta) = \ prod _ {j = 1} ^ {F} p (h_ {j} | \ mathbf {v})}

, con

{\ Displaystyle p (h_ {j} = 1 | \ mathbf {v}) = g (\ sum _ {i = 1} ^ {D} W_ {ij} v_ {i} + a_ {j})}

{\ Displaystyle P (\ mathbf {v} | \ mathbf {h}; \ theta) = \ prod _ {i = 1} ^ {D} p (v_ {i} | \ mathbf {h})}

, con

{\ Displaystyle p (v_ {i} = 1 | \ mathbf {h}) = g (\ sum _ {j = 1} ^ {F} W_ {ij} h_ {j} + b_ {i})}

dónde ${\ Displaystyle g (x) = {\ frac {1} {(1+ \ mathrm {exp} (-x))}}}$ es la función logística.

El derivado del diario de probabilidad con respecto a los parámetros del modelo se puede descomponer como la diferencia entre la expectativa del modelo y dependiente de los datos de expectativa .

RBM Gaussiano-Bernoulli

Los RBM de Gaussian-Bernoulli ^[2] son una variante de la máquina de Boltzmann restringida que se utiliza para modelar vectores de valor real, como las intensidades de píxeles. Suele utilizarse para modelar los datos de la imagen. La energía del sistema de la RBM Gaussian-Bernoulli se define como

{\ Displaystyle E (\ mathbf {v}, \ mathbf {h}; \ theta) = \ sum _ {i = 1} ^ {D} {\ frac {(v_ {i} -b_ {i}) ^ { 2}} {2 \ sigma _ {i} ^ {2}}} - \ sum _ {i = 1} ^ {D} \ sum _ {j = 1} ^ {F} {\ frac {v_ {i} } {\ sigma _ {i}}} W_ {ij} v_ {i} h_ {j} - \ sum _ {i = 1} ^ {D} b_ {i} v_ {i} - \ sum _ {j = 1} ^ {F} a_ {j} h_ {j}}

dónde ${\ Displaystyle \ theta = \ {\ mathbf {a}, \ mathbf {b}, \ mathbf {w}, \ mathbf {\ sigma} \}}$ son los parámetros del modelo. La distribución conjunta se define igual que la de la máquina de Boltzmann restringida . Las distribuciones condicionales ahora se convierten

{\ Displaystyle P (\ mathbf {h} | \ mathbf {v}; \ theta) = \ prod _ {j = 1} ^ {F} p (h_ {j} | \ mathbf {v})}

, con

{\ Displaystyle p (h_ {j} = 1 | \ mathbf {v}) = g (\ sum _ {i = 1} ^ {D} W_ {ij} {\ frac {v_ {i}} {\ sigma _ {i}}} + a_ {j})}

{\ Displaystyle P (\ mathbf {v} | \ mathbf {h}; \ theta) = \ prod _ {i = 1} ^ {D} p (v_ {i} | \ mathbf {h})}

, con

{\ Displaystyle p (v_ {i} | \ mathbf {h}) \ sim {\ mathcal {N}} (\ sigma _ {i} \ sum _ {j = 1} ^ {F} W_ {ij} h_ { j} + b_ {i}, \ sigma _ {i} ^ {2})}

En Gaussian-Bernoulli RBM, la unidad visible condicionada a unidades ocultas se modela como una distribución gaussiana.

Modelo Softmax replicado

El Modelo Softmax Replicado ^[3] también es una variante de la máquina de Boltzmann restringida y se usa comúnmente para modelar vectores de recuento de palabras en un documento. En un problema típico de minería de texto , deje ${\ Displaystyle K}$ ser el tamaño del diccionario, y ${\ Displaystyle M}$ sea el número de palabras del documento. Dejar ${\ Displaystyle \ mathbf {V}}$ ser un ${\ Displaystyle M \ times K}$ matriz binaria con ${\ Displaystyle v_ {ik} = 1}$ solo cuando el ${\ Displaystyle i ^ {th}}$ palabra en el documento es la ${\ Displaystyle k ^ {th}}$ palabra en el diccionario. ${\ Displaystyle {\ hat {v}} _ {k}}$ denota el recuento de la ${\ Displaystyle k ^ {th}}$ palabra en el diccionario. La energía del estado ${\ Displaystyle \ {\ mathbf {V}, \ mathbf {h} \}}$ para un documento contiene ${\ Displaystyle M}$ palabras se define como

{\ Displaystyle E (\ mathbf {V}, \ mathbf {h}) = - \ sum _ {j = 1} ^ {F} \ sum _ {k = 1} ^ {K} W_ {jk} {\ hat {v}} _ {k} h_ {j} - \ sum _ {k = 1} ^ {K} b_ {k} {\ hat {v}} _ {k} -M \ sum _ {j = 1} ^ {F} a_ {j} h_ {j}}

Las distribuciones condicionales están dadas por

{\ Displaystyle p (h_ {j} = 1 | \ mathbf {V}) = g (Ma_ {j} + \ sum _ {k = 1} ^ {K} {\ hat {v}} _ {k} W_ {jk})}

{\ Displaystyle p (v_ {ik} = 1 | \ mathbf {h}) = {\ frac {\ mathrm {exp} (b_ {k} + \ sum _ {j = 1} ^ {F} h_ {j} W_ {jk}} {\ sum _ {q = 1} ^ {K} \ mathrm {exp} (b_ {q} + \ sum _ {j = 1} ^ {F} h_ {j} W_ {jq}} })}

Máquinas profundas de Boltzmann

Una máquina de Boltzmann profunda ^[4] tiene una secuencia de capas de unidades ocultas. Solo hay conexiones entre capas ocultas adyacentes, así como entre unidades visibles y unidades ocultas en la primera capa oculta. La función de energía del sistema agrega términos de interacción de capas a la función de energía de la máquina de Boltzmann restringida general y está definida por ${\ Displaystyle {\ begin {alineado} E ({\ mathbf {v}, \ mathbf {h}; \ theta}) = & - \ sum _ {i = 1} ^ {D} \ sum _ {j = 1 } ^ {F_ {1}} W_ {ij} ^ {(1)} v_ {i} h_ {j} ^ {(1)} - \ sum _ {j = 1} ^ {F_ {1}} \ sum _ {l = 1} ^ {F_ {2}} W_ {jl} ^ {(2)} h_ {j} ^ {(1)} h_ {l} ^ {(2)} \\ & - \ sum _ {l = 1} ^ {F_ {2}} \ sum _ {p = 1} ^ {F_ {3}} W_ {lp} ^ {(3)} h_ {l} ^ {(2)} h_ {p } ^ {(3)} - \ sum _ {i = 1} ^ {D} b_ {i} v_ {i} - \ sum _ {j = 1} ^ {F_ {1}} b_ {j} ^ { (1)} h_ {j} ^ {(1)} - \ sum _ {l = 1} ^ {F_ {2}} b_ {l} ^ {(2)} h_ {l} ^ {(2)} - \ sum _ {p = 1} ^ {F_ {3}} b_ {p} ^ {(3)} h_ {p} ^ {(3)} \ end {alineado}}}$

La distribución conjunta es

{\ Displaystyle P (\ mathbf {v}; \ theta) = {\ frac {1} {{\ mathcal {Z}} (\ theta)}} \ sum _ {\ mathbf {h}} \ mathrm {exp} (-E (\ mathbf {v}, \ mathbf {h} ^ {(1)}, \ mathbf {h} ^ {(2)}, \ mathbf {h} ^ {(3)}; \ theta)) }

Máquinas multimodales de Boltzmann profundas

La máquina Boltzmann profunda multimodal ^[5]^[6] utiliza un DBM bimodal de imagen-texto donde la ruta de la imagen se modela como DBM Gaussian-Bernoulli y la ruta del texto como DBM Softmax Replicado, y cada DBM tiene dos capas ocultas y una capa visible. Los dos DBM se unen en una capa superior oculta adicional. La distribución conjunta sobre los insumos multimodales definidos como ${\ Displaystyle {\ begin {alineado} P (\ mathbf {v} ^ {m}, \ mathbf {v} ^ {t}; \ theta) & = \ sum _ {\ mathbf {h} ^ {(2m) }, \ mathbf {h} ^ {(2t)}, \ mathbf {h} ^ {(3)}} P (\ mathbf {h} ^ {(2m)}, \ mathbf {h} ^ {(2t) }, \ mathbf {h} ^ {(3)}) (\ sum _ {\ mathbf {h} ^ {(1m)}} P (\ mathbf {v} _ {m}, \ mathbf {h} ^ { (1m)} | \ mathbf {h} ^ {(2m)})) (\ sum _ {\ mathbf {h} ^ {(1t)}} P (\ mathbf {v} ^ {t}, \ mathbf { h} ^ {(1t)} | \ mathbf {h} ^ {(2t)})) \\ & = {\ frac {1} {{\ mathcal {Z}} _ {M} (\ theta)}} \ sum _ {\ mathbf {h}} \ mathrm {exp} (\ sum _ {kj} W_ {kj} ^ {(1t)} v_ {k} ^ {t} h_ {j} ^ {(1t)} \\ & + \ sum _ {jl} W_ {jl} ^ {(2t)} h_ {j} ^ {(1t)} h_ {l} ^ {(2t)} + \ sum _ {k} b_ {k } ^ {t} v_ {k} ^ {t} + M \ sum _ {j} b_ {j} ^ {(1t)} h_ {j} ^ {(1t)} + \ sum _ {l} b_ { l} ^ {(2t)} h_ {l} ^ {(2t)} \\ & - \ sum _ {i} {\ frac {(v_ {i} ^ {m} -b_ {i} ^ {m} ) ^ {2}} {2 \ sigma ^ {2}}} + \ sum _ {ij} {\ frac {v_ {i} ^ {m}} {\ sigma _ {i}}} W_ {ij} ^ {(1 m)} h_ {j} ^ {(1 m)} \\ & + \ sum _ {jl} W_ {jl} ^ {(2 m)} h_ {j} ^ {(1 m)} h_ {l} ^ {(2m)} + \ sum _ {j} b_ {j} ^ {(1m)} h_ {j} ^ {(1m)} + \ sum _ {l} b_ {l} ^ {(2m)} h_ {l} {(2m)} \\ & + \ sum _ {lp} W ^ {(3t)} h_ {l} ^ {(2t)} h_ {p} ^ {(3)} + \ sum _ { lp} W ^ {(3m)} h_ {l} ^ {(2m)} h_ {p} ^ {(3)} + \ sum _ {p} b_ {p } ^ {(3)} h_ {p} ^ {(3)} \ end {alineado}}}$

Las distribuciones condicionales sobre las unidades visibles y ocultas son

{\ Displaystyle p (h_ {j} ^ {(1 m)} = 1 | \ mathbf {v} ^ {m}, \ mathbf {h} ^ {(2 m)}) = g (\ sum _ {i = 1 } ^ {D} W_ {ij} ^ {(1m)} {\ frac {v_ {i} ^ {m}} {\ sigma _ {i}}} + \ sum _ {l = 1} ^ {F_ { 2} ^ {m}} W_ {jl} ^ {(2m)} h_ {l} ^ {(2m)} + b_ {j} ^ {(1m)})}

{\ Displaystyle p (h_ {l} ^ {(2m)} = 1 | \ mathbf {h} ^ {(1m)}, \ mathbf {h} ^ {(3)}) = g (\ sum _ {j = 1} ^ {F_ {1} ^ {m}} W_ {jl} ^ {(2m)} h_ {j} ^ {(1m)} + \ sum _ {p = 1} ^ {F_ {3}} W_ {lp} ^ {(3m)} h_ {p} ^ {(3)} + b_ {l} ^ {(2m)})}

{\ Displaystyle p (h_ {j} ^ {(1t)} = 1 | \ mathbf {v} ^ {t}, \ mathbf {h} ^ {(2t)}) = g (\ sum _ {k = 1 } ^ {K} W_ {kl} ^ {(1t)} v_ {k} ^ {(t)} + \ sum _ {l = 1} ^ {F_ {2} ^ {t}} W_ {jl} ^ {(2t)} h_ {l} ^ {(2t)} + Mb_ {j} ^ {(1t)})}

{\ Displaystyle p (h_ {l} ^ {(2t)} = 1 | \ mathbf {h} ^ {(1t)}, \ mathbf {h} ^ {(3)}) = g (\ sum _ {j = 1} ^ {F_ {1} ^ {t}} W_ {jl} ^ {(2t)} h_ {j} ^ {(1t)} + \ sum _ {p = 1} ^ {F_ {3}} W_ {lp} ^ {(3t)} h_ {p} ^ {(3)} + b_ {l} ^ {(2t)})}

{\ Displaystyle p (h_ {p} ^ {3)} = 1 | \ mathbf {h} ^ {(2)}) = g (\ sum _ {l = 1} ^ {F_ {2} ^ {m} } W_ {lp} ^ {(3 m)} h_ {l} ^ {(2 m)} + \ sum _ {l = 1} ^ {F_ {2} ^ {t}} W_ {lp} ^ {(3t) } h_ {l} ^ {(2t)} + b_ {p} ^ {(3)})}

{\ Displaystyle p (v_ {ik} ^ {t} = 1 | \ mathbf {h} ^ {(1t)}) = {\ frac {\ mathrm {exp} (\ sum _ {j = 1} ^ {F_ {1} ^ {t}} h_ {j} ^ {(1t)} W_ {jk} ^ {(1t)} + b_ {k} ^ {t})} {\ sum _ {q = 1} ^ { K} \ mathrm {exp} (\ sum _ {j = 1} ^ {F_ {1} ^ {t}} h_ {j} ^ {(1t)} W_ {jq} ^ {(1t)} + b_ { k} ^ {t})}}}

{\ Displaystyle p (v_ {i} ^ {m} | \ mathbf {h} ^ {(1m)}) \ sim {\ mathcal {N}} (\ sigma _ {i} \ sum _ {j = 1} ^ {F_ {1} ^ {m}} W_ {ij} ^ {(1 m)} h_ {j} ^ {(1 m)} + b_ {i} ^ {m}, \ sigma _ {i} ^ {2 })}

Inferencia y aprendizaje

El aprendizaje de máxima probabilidad exacta en este modelo es intratable, pero el aprendizaje aproximado de DBM se puede llevar a cabo mediante un enfoque variacional, donde se usa la inferencia de campo medio para estimar las expectativas dependientes de los datos y se usa un procedimiento de aproximación estocástica basado en MCMC para aproximar el estadísticas suficientes esperadas del modelo. ^[7]

Solicitud

Las máquinas Boltzmann profundas multimodales se utilizan con éxito en la clasificación y recuperación de datos faltantes. La precisión de clasificación de la máquina Boltzmann profunda multimodal supera a las máquinas de vectores de soporte , la asignación de Dirichlet latente y la red de creencias profundas , cuando los modelos se prueban en datos con ambas modalidades de imagen-texto o con una sola modalidad. La máquina de Boltzmann profunda multimodal también es capaz de predecir la modalidad faltante dadas las observadas con una precisión razonablemente buena.

Ver también

Referencias

^ "Máquina de Boltzmann restringida" (PDF) . 1986.
^ "Gaussian-Bernoulli RBM" (PDF) . 1994.
^ "Modelo Softmax replicado" (PDF) . 2009a.
^ "Máquina profunda de Boltzmann" (PDF) . 2009b.
^ "Aprendizaje multimodal con Deep Boltzmann Machine" (PDF) . 2012.
^ "Aprendizaje multimodal con Deep Boltzmann Machine" (PDF) . 2014.
^ "Aproximaciones al gradiente de verosimilitud" (PDF) . 2008.

[1] "Máquina de Boltzmann restringida" (PDF) . 1986.

[2] "Gaussian-Bernoulli RBM" (PDF) . 1994.

[3] "Modelo Softmax replicado" (PDF) . 2009a.

[4] "Máquina profunda de Boltzmann" (PDF) . 2009b.

[5] "Aprendizaje multimodal con Deep Boltzmann Machine" (PDF) . 2012.

[6] "Aprendizaje multimodal con Deep Boltzmann Machine" (PDF) . 2014.

[7] "Aproximaciones al gradiente de verosimilitud" (PDF) . 2008.

[1]