La información en el mundo real suele presentarse en diferentes modalidades. Por ejemplo, las imágenes suelen estar asociadas con etiquetas y explicaciones de texto; los textos contienen imágenes para expresar más claramente la idea principal del artículo. Las diferentes modalidades se caracterizan por propiedades estadísticas muy diferentes. Por ejemplo, las imágenes generalmente se representan como intensidades de píxeles o salidas de extractores de características , mientras que los textos se representan como vectores discretos de conteo de palabras. Debido a las distintas propiedades estadísticas de los diferentes recursos de información, es muy importante descubrir la relación entre las diferentes modalidades. El aprendizaje multimodal es un buen modelo para representar las representaciones conjuntas de diferentes modalidades. El modelo de aprendizaje multimodaltambién es capaz de llenar la modalidad faltante dadas las observadas. El modelo de aprendizaje multimodal combina dos máquinas de Boltzmann profundas, cada una corresponde a una modalidad. Se coloca una capa oculta adicional en la parte superior de las dos máquinas Boltzmann para dar la representación conjunta.
Se han implementado muchos modelos / algoritmos para recuperar y clasificar cierto tipo de datos, por ejemplo, imágenes o texto (donde los humanos que interactúan con máquinas pueden extraer imágenes en forma de imágenes y texto que podría ser cualquier mensaje, etc.). Sin embargo, los datos generalmente vienen con diferentes modalidades (es el grado en que los componentes de un sistema pueden estar separados o combinados) que contienen información diferente. Por ejemplo, es muy común poner subtítulos en una imagen para transmitir la información que no presenta esta imagen. De manera similar, a veces es más sencillo usar una imagen para describir la información que puede no ser obvia en los textos. Como resultado, si aparecen algunas palabras diferentes en imágenes similares, es muy probable que estas palabras se usen para describir lo mismo. Por el contrario, si se utilizan algunas palabras en diferentes imágenes, estas imágenes pueden representar el mismo objeto. Por lo tanto, es importante invitar a un modelo novedoso que sea capaz de representar conjuntamente la información de manera que el modelo pueda capturar la estructura de correlación entre diferentes modalidades. Además, también debería poder recuperar las modalidades faltantes dadas las observadas, por ejemplo, predecir un posible objeto de imagen de acuerdo con la descripción del texto. El modelo Multimodal Deep Boltzmann Machine satisface los propósitos anteriores.
Una máquina de Boltzmann es un tipo de red neuronal estocástica inventada por Geoffrey Hinton y Terry Sejnowski en 1985. Las máquinas de Boltzmann pueden considerarse la contraparte estocástica y generativa de las redes de Hopfield . Llevan el nombre de la distribución de Boltzmann en mecánica estadística. Las unidades de las máquinas Boltzmann se dividen en dos grupos: unidades visibles y unidades ocultas. Las máquinas generales de Boltzmann permiten la conexión entre cualquier unidad. Sin embargo, el aprendizaje no es práctico con las máquinas Boltzmann generales porque el tiempo de cálculo es exponencial al tamaño de la máquina. Una arquitectura más eficiente se llama máquina de Boltzmann restringida donde solo se permite la conexión entre la unidad oculta y la unidad visible, que se describe en la siguiente sección.
Máquina de Boltzmann restringida
Una máquina de Boltzmann restringida [1] es un modelo gráfico no dirigido con variable visible estocástica y variables ocultas estocásticas. Cada variable visible está conectada a cada variable oculta. La función energética del modelo se define como
dónde son parámetros del modelo: representa el término de interacción simétrica entre la unidad visible y unidad oculta ; y son términos de sesgo. La distribución conjunta del sistema se define como
dónde es una constante normalizadora. La distribución condicional sobre oculta y se puede derivar como función logística en términos de parámetros del modelo.
- , con
- , con
dónde es la función logística.
El derivado del diario de probabilidad con respecto a los parámetros del modelo se puede descomponer como la diferencia entre la expectativa del modelo y dependiente de los datos de expectativa .
RBM Gaussiano-Bernoulli
Los RBM de Gaussian-Bernoulli [2] son una variante de la máquina de Boltzmann restringida que se utiliza para modelar vectores de valor real, como las intensidades de píxeles. Suele utilizarse para modelar los datos de la imagen. La energía del sistema de la RBM Gaussian-Bernoulli se define como
dónde son los parámetros del modelo. La distribución conjunta se define igual que la de la máquina de Boltzmann restringida . Las distribuciones condicionales ahora se convierten
- , con
- , con
En Gaussian-Bernoulli RBM, la unidad visible condicionada a unidades ocultas se modela como una distribución gaussiana.
Modelo Softmax replicado
El Modelo Softmax Replicado [3] también es una variante de la máquina de Boltzmann restringida y se usa comúnmente para modelar vectores de recuento de palabras en un documento. En un problema típico de minería de texto , deje ser el tamaño del diccionario, y sea el número de palabras del documento. Dejar ser un matriz binaria con solo cuando el palabra en el documento es la palabra en el diccionario. denota el recuento de la palabra en el diccionario. La energía del estado para un documento contiene palabras se define como
Las distribuciones condicionales están dadas por
Una máquina de Boltzmann profunda [4] tiene una secuencia de capas de unidades ocultas. Solo hay conexiones entre capas ocultas adyacentes, así como entre unidades visibles y unidades ocultas en la primera capa oculta. La función de energía del sistema agrega términos de interacción de capas a la función de energía de la máquina de Boltzmann restringida general y está definida por
La distribución conjunta es
La máquina Boltzmann profunda multimodal [5] [6] utiliza un DBM bimodal de imagen-texto donde la ruta de la imagen se modela como DBM Gaussian-Bernoulli y la ruta del texto como DBM Softmax Replicado, y cada DBM tiene dos capas ocultas y una capa visible. Los dos DBM se unen en una capa superior oculta adicional. La distribución conjunta sobre los insumos multimodales definidos como
Las distribuciones condicionales sobre las unidades visibles y ocultas son
Inferencia y aprendizaje
El aprendizaje de máxima probabilidad exacta en este modelo es intratable, pero el aprendizaje aproximado de DBM se puede llevar a cabo mediante un enfoque variacional, donde se usa la inferencia de campo medio para estimar las expectativas dependientes de los datos y se usa un procedimiento de aproximación estocástica basado en MCMC para aproximar el estadísticas suficientes esperadas del modelo. [7]
Las máquinas Boltzmann profundas multimodales se utilizan con éxito en la clasificación y recuperación de datos faltantes. La precisión de clasificación de la máquina Boltzmann profunda multimodal supera a las máquinas de vectores de soporte , la asignación de Dirichlet latente y la red de creencias profundas , cuando los modelos se prueban en datos con ambas modalidades de imagen-texto o con una sola modalidad. La máquina de Boltzmann profunda multimodal también es capaz de predecir la modalidad faltante dadas las observadas con una precisión razonablemente buena.