Asignación de Dirichlet latente

En el procesamiento del lenguaje natural , la asignación de Dirichlet latente ( LDA ) es un modelo estadístico generativo que permite que grupos no observados expliquen conjuntos de observaciones que explican por qué algunas partes de los datos son similares. Por ejemplo, si las observaciones son palabras recopiladas en documentos, postula que cada documento es una mezcla de un pequeño número de temas y que la presencia de cada palabra es atribuible a uno de los temas del documento. LDA es un ejemplo de modelo temático y pertenece al campo del aprendizaje automático y, en un sentido más amplio, al campo de la inteligencia artificial .

Historia

En el contexto de la genética de poblaciones , JK Pritchard , M. Stephens y P. Donnelly propusieron LDA en 2000. ^[1]^[2]

La LDA fue aplicada en el aprendizaje automático por David Blei , Andrew Ng y Michael I. Jordan en 2003. ^[3]

Descripción general

Biología evolutiva y biomedicina

En biología evolutiva y biomedicina, el modelo se utiliza para detectar la presencia de variación genética estructurada en un grupo de individuos. El modelo asume que los alelos portados por los individuos en estudio tienen su origen en varias poblaciones existentes o pasadas. El modelo y varios algoritmos de inferencia permiten a los científicos estimar las frecuencias de los alelos en esas poblaciones de origen y el origen de los alelos que llevan los individuos en estudio. Las poblaciones de origen se pueden interpretar ex-post en términos de varios escenarios evolutivos. En los estudios de asociación , la detección de la presencia de estructura genética se considera un paso preliminar necesario para evitar confusión .

Aprendizaje automático

Una aplicación de LDA en el aprendizaje automático , específicamente, el descubrimiento de temas , un subproblema en el procesamiento del lenguaje natural , es descubrir temas en una colección de documentos y luego clasificar automáticamente cualquier documento individual dentro de la colección en términos de cuán "relevante" es para cada uno de los temas descubiertos. Se considera que un tema es un conjunto de términos (es decir, palabras o frases individuales) que, tomados en conjunto, sugieren un tema compartido.

Por ejemplo, en una colección de documentos relacionados con los animales de compañía, los términos perro , cocker , beagle , golden retriever , perrito , corteza , y la trama sugeriría una DOG_related tema, mientras que los términos gato , siamés , Maine Coon , atigrado , Isla de Man , maullido , ronroneo y gatito sugerirían un tema relacionado con CAT . Puede haber muchos más temas en la colección, por ejemplo, relacionados con la dieta, el aseo, la atención médica, el comportamiento, etc., que no discutimos por simplicidad. (Muy comunes, las llamadas palabras vacías en un idioma, por ejemplo, "el", "una", "ese", "son", "es", etc., no discriminarían entre temas y, por lo general, se filtran por -procesamiento antes de que se realice LDA. El preprocesamiento también convierte los términos a sus formas léxicas "raíz", por ejemplo, "ladra", "ladra" y "ladra" se convertiría en "ladrar".)

Si la colección de documentos es lo suficientemente grande, LDA descubrirá tales conjuntos de términos (es decir, temas) basados en la co-ocurrencia de términos individuales, aunque la tarea de asignar una etiqueta significativa a un tema individual (es decir, que todos los términos son DOG_related) depende del usuario y, a menudo, requiere conocimientos especializados (por ejemplo, para la recopilación de documentos técnicos). El enfoque LDA asume que:

El contenido semántico de un documento se compone de la combinación de uno o más términos de uno o más temas.
Ciertos términos son ambiguos , pertenecen a más de un tema, con diferente probabilidad. (Por ejemplo, el término formación se aplica a los perros y los gatos, pero son más probable que se refieren a los perros, que se utilizan como animales de trabajo o participan en la obediencia o de habilidad competiciones.) Sin embargo, en un documento, la presencia de acompañamiento de específica los términos vecinos (que pertenecen a un solo tema) eliminarán la ambigüedad de su uso.
La mayoría de los documentos contendrán solo una cantidad relativamente pequeña de temas. En la colección, por ejemplo, se producirán temas individuales con diferentes frecuencias. Es decir, tienen una distribución de probabilidad, por lo que es más probable que un documento determinado contenga algunos temas que otros.
Dentro de un tema, ciertos términos se usarán con mucha más frecuencia que otros. En otras palabras, los términos dentro de un tema también tendrán su propia distribución de probabilidad.

Cuando se emplea el aprendizaje automático LDA, ambos conjuntos de probabilidades se calculan durante la fase de entrenamiento, utilizando métodos bayesianos y un algoritmo de maximización de expectativas .

LDA es una generalización del enfoque más antiguo de análisis semántico latente probabilístico (pLSA). El modelo pLSA es equivalente a LDA bajo una distribución previa de Dirichlet uniforme. ^[4] pLSA se basa solo en los dos primeros supuestos anteriores y no se preocupa por el resto. Si bien ambos métodos son similares en principio y requieren que el usuario especifique la cantidad de temas a descubrir antes del inicio del entrenamiento (como con el agrupamiento de K-medias ) LDA tiene las siguientes ventajas sobre pLSA:

LDA produce una mejor desambiguación de palabras y una asignación más precisa de documentos a temas.
El cálculo de probabilidades permite un proceso "generativo" mediante el cual se puede generar una colección de nuevos "documentos sintéticos" que reflejarían fielmente las características estadísticas de la colección original.
A diferencia de LDA, pLSA es vulnerable al sobreajuste, especialmente cuando aumenta el tamaño del cuerpo.
El algoritmo LDA es más fácil de escalar para grandes conjuntos de datos utilizando el enfoque MapReduce en un clúster de computación.

Modelo

Notación de placa que representa el modelo LDA.

Con la notación de placas , que se utiliza a menudo para representar modelos gráficos probabilísticos (PGM), las dependencias entre las muchas variables se pueden capturar de forma concisa. Las cajas son "placas" que representan réplicas, que son entidades repetidas. La placa exterior representa documentos, mientras que la placa interior representa las posiciones de palabras repetidas en un documento dado; cada posición está asociada con una elección de tema y palabra. Los nombres de las variables se definen de la siguiente manera:

M denota el número de documentos

N es el número de palabras en un documento dado (el documento i tiene

{\ Displaystyle N_ {i}}

palabras)

α es el parámetro del Dirichlet antes de las distribuciones de temas por documento

β es el parámetro de Dirichlet antes de la distribución de palabras por tema

{\ Displaystyle \ theta _ {i}}

es la distribución de temas para el documento i

{\ Displaystyle \ varphi _ {k}}

es la distribución de palabras para el tema k

{\ Displaystyle z_ {ij}}

es el tema de la j -ésima palabra en el documento i

{\ Displaystyle w_ {ij}}

es la palabra específica.

Notación de placa para LDA con distribuciones de palabra y tema distribuidas por Dirichlet

El hecho de que W esté atenuada significa que las palabras ${\ Displaystyle w_ {ij}}$ son las únicas variables observables , y las otras variables son variables latentes . Como se propone en el artículo original, ^[3] se puede utilizar un Dirichlet a priori escaso para modelar la distribución tema-palabra, siguiendo la intuición de que la distribución de probabilidad sobre las palabras en un tema está sesgada, de modo que solo un pequeño conjunto de palabras tienen un alto probabilidad. El modelo resultante es la variante de LDA más ampliamente aplicada en la actualidad. La notación de placa para este modelo se muestra a la derecha, donde ${\ Displaystyle K}$ denota el número de temas y ${\ Displaystyle \ varphi _ {1}, \ dots, \ varphi _ {K}}$ están ${\ Displaystyle V}$ -vectores dimensionales que almacenan los parámetros de las distribuciones de tema-palabra distribuidas por Dirichlet ( ${\ Displaystyle V}$ es el número de palabras del vocabulario).

Es útil pensar en las entidades representadas por ${\ Displaystyle \ theta}$ y ${\ Displaystyle \ varphi}$ como matrices creadas descomponiendo la matriz documento-palabra original que representa el corpus de documentos que se modelan. En esta vista, ${\ Displaystyle \ theta}$ consta de filas definidas por documentos y columnas definidas por temas, mientras que ${\ Displaystyle \ varphi}$ consta de filas definidas por temas y columnas definidas por palabras. Por lo tanto, ${\ Displaystyle \ varphi _ {1}, \ dots, \ varphi _ {K}}$ se refiere a un conjunto de filas o vectores, cada uno de los cuales es una distribución sobre palabras, y ${\ Displaystyle \ theta _ {1}, \ puntos, \ theta _ {M}}$ se refiere a un conjunto de filas, cada una de las cuales es una distribución sobre temas.

Proceso generativo

Para inferir realmente los temas en un corpus, imaginamos un proceso generativo mediante el cual se crean los documentos, de modo que podamos inferirlo o realizar ingeniería inversa. Imaginamos el proceso generativo de la siguiente manera. Los documentos se representan como mezclas aleatorias sobre temas latentes, donde cada tema se caracteriza por una distribución sobre todas las palabras. LDA asume el siguiente proceso generativo para un corpus ${\ Displaystyle D}$ que consiste en ${\ Displaystyle M}$ documentos cada uno de longitud ${\ Displaystyle N_ {i}}$ :

1. Elija ${\ Displaystyle \ theta _ {i} \ sim \ operatorname {Dir} (\ alpha)}$ , dónde ${\ Displaystyle i \ in \ {1, \ dots, M \}}$ y ${\ Displaystyle \ mathrm {Dir} (\ alpha)}$ es una distribución de Dirichlet con un parámetro simétrico ${\ Displaystyle \ alpha}$ que normalmente es escasa ${\ Displaystyle \ alpha <1}$ )

2. Elija ${\ Displaystyle \ varphi _ {k} \ sim \ operatorname {Dir} (\ beta)}$ , dónde ${\ Displaystyle k \ in \ {1, \ dots, K \}}$ y ${\ Displaystyle \ beta}$ típicamente es escaso

3. Para cada una de las posiciones de las palabras ${\ Displaystyle i, j}$ , dónde ${\ Displaystyle i \ in \ {1, \ dots, M \}}$ , y ${\ Displaystyle j \ in \ {1, \ dots, N_ {i} \}}$

(a) Elija un tema

{\ Displaystyle z_ {i, j} \ sim \ operatorname {Multinomial} (\ theta _ {i}).}

(b) Elige una palabra

{\ Displaystyle w_ {i, j} \ sim \ operatorname {Multinomial} (\ varphi _ {z_ {i, j}}).}

(Tenga en cuenta que la distribución multinomial aquí se refiere al multinomial con un solo ensayo, que también se conoce como distribución categórica ).

Las longitudes ${\ Displaystyle N_ {i}}$ se tratan como independientes de todas las demás variables generadoras de datos ( ${\ Displaystyle w}$ y ${\ Displaystyle z}$ ). El subíndice a menudo se elimina, como en los diagramas de placas que se muestran aquí.

Definición

Una descripción formal de LDA es la siguiente:

Definición de variables en el modelo
Variable	Tipo	Significado
${\ Displaystyle K}$	entero	número de temas (por ejemplo, 50)
${\ Displaystyle V}$	entero	número de palabras en el vocabulario (por ejemplo, 50.000 o 1.000.000)
${\ Displaystyle M}$	entero	número de documentos
${\ Displaystyle N_ {d = 1 \ dots M}}$	entero	número de palabras en el documento d
${\ Displaystyle N}$	entero	número total de palabras en todos los documentos; suma de todo ${\ Displaystyle N_ {d}}$ valores, es decir ${\ Displaystyle N = \ sum _ {d = 1} ^ {M} N_ {d}}$
${\ Displaystyle \ alpha _ {k = 1 \ dots K}}$	positivo real	peso previo del tema k en un documento; generalmente el mismo para todos los temas; normalmente un número menor que 1, por ejemplo, 0,1, para preferir distribuciones de temas dispersas, es decir, pocos temas por documento
${\ displaystyle {\ boldsymbol {\ alpha}}}$	K -vector dimensional de reales positivos	colección de todo ${\ Displaystyle \ alpha _ {k}}$ valores, vistos como un solo vector
${\ Displaystyle \ beta _ {w = 1 \ dots V}}$	positivo real	peso previo de la palabra w en un tema; generalmente lo mismo para todas las palabras; normalmente un número mucho menor que 1, por ejemplo, 0,001, para preferir distribuciones de palabras escasas, es decir, pocas palabras por tema
${\ displaystyle {\ boldsymbol {\ beta}}}$	V -vector dimensional de reales positivos	colección de todo ${\ Displaystyle \ beta _ {w}}$ valores, vistos como un solo vector
${\ Displaystyle \ varphi _ {k = 1 \ dots K, w = 1 \ dots V}}$	probabilidad (número real entre 0 y 1)	probabilidad de que la palabra w aparezca en el tema k
${\ displaystyle {\ boldsymbol {\ varphi}} _ {k = 1 \ dots K}}$	V -vector dimensional de probabilidades, que debe sumar 1	distribución de palabras en el tema k
${\ Displaystyle \ theta _ {d = 1 \ dots M, k = 1 \ dots K}}$	probabilidad (número real entre 0 y 1)	probabilidad de que el tema k ocurra en el documento d
${\ Displaystyle {\ boldsymbol {\ theta}} _ {d = 1 \ dots M}}$	K -vector dimensional de probabilidades, que debe sumar 1	distribución de temas en el documento d
${\ Displaystyle z_ {d = 1 \ dots M, w = 1 \ dots N_ {d}}}$	entero entre 1 y K	identidad del tema de la palabra w en el documento d
${\ Displaystyle \ mathbf {Z}}$	Vector N -dimensional de números enteros entre 1 y K	identidad del tema de todas las palabras en todos los documentos
${\ Displaystyle w_ {d = 1 \ dots M, w = 1 \ dots N_ {d}}}$	entero entre 1 y V	identidad de la palabra w en el documento d
${\ Displaystyle \ mathbf {W}}$	Vector N -dimensional de números enteros entre 1 y V	identidad de todas las palabras en todos los documentos

Entonces podemos describir matemáticamente las variables aleatorias de la siguiente manera:

{\ displaystyle {\ begin {alineado} {\ boldsymbol {\ varphi}} _ {k = 1 \ dots K} & \ sim \ operatorname {Dirichlet} _ {V} ({\ boldsymbol {\ beta}}) \\ {\ boldsymbol {\ theta}} _ {d = 1 \ dots M} & \ sim \ operatorname {Dirichlet} _ {K} ({\ boldsymbol {\ alpha}}) \\ z_ {d = 1 \ dots M, w = 1 \ dots N_ {d}} & \ sim \ operatorname {Categorical} _ {K} ({\ boldsymbol {\ theta}} _ {d}) \\ w_ {d = 1 \ dots M, w = 1 \ dots N_ {d}} & \ sim \ operatorname {Categorical} _ {V} ({\ boldsymbol {\ varphi}} _ {z_ {dw}}) \ end {alineado}}}

Inferencia

Aprender las diversas distribuciones (el conjunto de temas, sus probabilidades de palabras asociadas, el tema de cada palabra y la mezcla de temas particular de cada documento) es un problema de inferencia estadística .

simulación del Monte Carlo

El artículo original de Pritchard et al. ^[1] utilizó una aproximación de la distribución posterior por simulación de Monte Carlo. La propuesta alternativa de técnicas de inferencia incluye el muestreo de Gibbs . ^[5]

Bayes variacional

El artículo original de ML utilizó una aproximación variacional de Bayes de la distribución posterior ; ^[3]

Maximización de la probabilidad

Una optimización directa de la probabilidad con un algoritmo de relajación de bloques resulta ser una alternativa rápida a MCMC. ^[6]

Número desconocido de poblaciones / temas

En la práctica, el número óptimo de poblaciones o temas no se conoce de antemano. Puede estimarse por aproximación de la distribución posterior con la cadena de Markov de salto reversible Monte Carlo . ^[7]

Aproximaciones alternativas

Los enfoques alternativos incluyen la propagación de expectativas . ^[8]

La investigación reciente se ha centrado en acelerar la inferencia de la asignación de Dirichlet latente para respaldar la captura de una gran cantidad de temas en una gran cantidad de documentos. La ecuación de actualización del muestreador Gibbs colapsado mencionado en la sección anterior tiene una escasez natural dentro de ella que se puede aprovechar. Intuitivamente, ya que cada documento solo contiene un subconjunto de temas ${\ Displaystyle K_ {d}}$ , y una palabra también solo aparece en un subconjunto de temas ${\ Displaystyle K_ {w}}$ , la ecuación de actualización anterior podría reescribirse para aprovechar esta escasez. ^[9]

{\ Displaystyle p (Z_ {d, n} = k) \ propto {\ frac {\ alpha \ beta} {C_ {k} ^ {\ neg n} + V \ beta}} + {\ frac {C_ {k } ^ {d} \ beta} {C_ {k} ^ {\ neg n} + V \ beta}} + {\ frac {C_ {k} ^ {w} (\ alpha + C_ {k} ^ {d} )} {C_ {k} ^ {\ neg n} + V \ beta}}}

En esta ecuación, tenemos tres términos, de los cuales dos son escasos y el otro es pequeño. A estos términos los llamamos ${\ Displaystyle a, b}$ y ${\ Displaystyle c}$ respectivamente. Ahora, si normalizamos cada término sumando todos los temas, obtenemos:

{\ Displaystyle A = \ sum _ {k = 1} ^ {K} {\ frac {\ alpha \ beta} {C_ {k} ^ {\ neg n} + V \ beta}}}

{\ Displaystyle B = \ sum _ {k = 1} ^ {K} {\ frac {C_ {k} ^ {d} \ beta} {C_ {k} ^ {\ neg n} + V \ beta}}}

{\ Displaystyle C = \ sum _ {k = 1} ^ {K} {\ frac {C_ {k} ^ {w} (\ alpha + C_ {k} ^ {d})} {C_ {k} ^ { \ neg n} + V \ beta}}}

Aquí podemos ver que ${\ Displaystyle B}$ es un resumen de los temas que aparecen en el documento ${\ Displaystyle d}$ , y ${\ Displaystyle C}$ es también un resumen escaso de los temas que una palabra ${\ Displaystyle w}$ se le asigna en todo el corpus. ${\ Displaystyle A}$ por otro lado, es denso pero debido a los pequeños valores de ${\ Displaystyle \ alpha}$ Y ${\ Displaystyle \ beta}$ , el valor es muy pequeño en comparación con los otros dos términos.

Ahora, mientras muestreamos un tema, si muestreamos una variable aleatoria uniformemente de ${\ Displaystyle s \ sim U (s | \ mid A + B + C)}$ , podemos comprobar en qué cubo aterriza nuestra muestra. Dado que ${\ Displaystyle A}$ es pequeño, es muy poco probable que caigamos en este cubo; sin embargo, si caemos en este grupo, probar un tema requiere ${\ Displaystyle O (K)}$ tiempo (igual que el muestreador de Gibbs colapsado original). Sin embargo, si caemos en los otros dos grupos, solo necesitamos verificar un subconjunto de temas si mantenemos un registro de los temas dispersos. Se puede tomar una muestra de un tema del ${\ Displaystyle B}$ cubo en ${\ Displaystyle O (K_ {d})}$ tiempo, y se puede tomar una muestra de un tema del ${\ Displaystyle C}$ cubo en ${\ Displaystyle O (K_ {w})}$ tiempo donde ${\ Displaystyle K_ {d}}$ y ${\ Displaystyle K_ {w}}$ indica el número de temas asignados al documento actual y al tipo de palabra actual, respectivamente.

Tenga en cuenta que después de probar cada tema, la actualización de estos depósitos es básica ${\ Displaystyle O (1)}$ operaciones aritmeticas.

Aspectos de los detalles computacionales

A continuación se muestra la derivación de las ecuaciones para el muestreo de Gibbs colapsado , lo que significa ${\ Displaystyle \ varphi}$ arena ${\ Displaystyle \ theta}$ s se integrará. Para simplificar, en esta derivación se supone que todos los documentos tienen la misma longitud. ${\ Displaystyle N_ {}}$ . La derivación es igualmente válida si las longitudes de los documentos varían.

Según el modelo, la probabilidad total del modelo es:

{\ displaystyle P ({\ boldsymbol {W}}, {\ boldsymbol {Z}}, {\ boldsymbol {\ theta}}, {\ boldsymbol {\ varphi}}; \ alpha, \ beta) = \ prod _ { i = 1} ^ {K} P (\ varphi _ {i}; \ beta) \ prod _ {j = 1} ^ {M} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) P (W_ {j, t} \ mid \ varphi _ {Z_ {j, t}}),}

donde las variables en negrita denotan la versión vectorial de las variables. Primero, ${\ displaystyle {\ boldsymbol {\ varphi}}}$ y ${\ displaystyle {\ boldsymbol {\ theta}}}$ necesita ser integrado.

{\ Displaystyle {\ begin {alineado} & P ({\ boldsymbol {Z}}, {\ boldsymbol {W}}; \ alpha, \ beta) = \ int _ {\ boldsymbol {\ theta}} \ int _ {\ boldsymbol {\ varphi}} P ({\ boldsymbol {W}}, {\ boldsymbol {Z}}, {\ boldsymbol {\ theta}}, {\ boldsymbol {\ varphi}}; \ alpha, \ beta) \, d {\ boldsymbol {\ varphi}} \, d {\ boldsymbol {\ theta}} \\ = {} & \ int _ {\ boldsymbol {\ varphi}} \ prod _ {i = 1} ^ {K} P (\ varphi _ {i}; \ beta) \ prod _ {j = 1} ^ {M} \ prod _ {t = 1} ^ {N} P (W_ {j, t} \ mid \ varphi _ {Z_ {j, t}}) \, d {\ boldsymbol {\ varphi}} \ int _ {\ boldsymbol {\ theta}} \ prod _ {j = 1} ^ {M} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d {\ boldsymbol {\ theta}}. \ end {alineado}} }

Todos ${\ Displaystyle \ theta}$ s son independientes entre sí y lo mismo para todos los ${\ Displaystyle \ varphi}$ s. Para que podamos tratar a cada uno ${\ Displaystyle \ theta}$ y cada ${\ Displaystyle \ varphi}$ por separado. Ahora nos enfocamos solo en el ${\ Displaystyle \ theta}$ parte.

{\ Displaystyle \ int _ {\ boldsymbol {\ theta}} \ prod _ {j = 1} ^ {M} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d {\ boldsymbol {\ theta}} = \ prod _ {j = 1} ^ {M} \ int _ {\ theta _ {j }} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d \ theta _ { j}.}

Podemos enfocarnos más en solo uno ${\ Displaystyle \ theta}$ como el seguiente:

{\ Displaystyle \ int _ {\ theta _ {j}} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d \ theta _ {j}.}

En realidad, es la parte oculta del modelo para el ${\ Displaystyle j ^ {th}}$ documento. Ahora reemplazamos las probabilidades en la ecuación anterior por la expresión de distribución verdadera para escribir la ecuación explícita.

{\ Displaystyle \ int _ {\ theta _ {j}} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d \ theta _ {j} = \ int _ {\ theta _ {j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {\ alpha _ {i} -1} \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) \, d \ theta _ {j }.}

Dejar ${\ Displaystyle n_ {j, r} ^ {i}}$ ser el número de tokens de palabra en el ${\ Displaystyle j ^ {th}}$ documento con el mismo símbolo de palabra (el ${\ Displaystyle r ^ {th}}$ palabra en el vocabulario) asignada a la ${\ Displaystyle i ^ {th}}$ tema. Entonces, ${\ Displaystyle n_ {j, r} ^ {i}}$ es tridimensional. Si alguna de las tres dimensiones no se limita a un valor específico, usamos un punto entre paréntesis ${\ Displaystyle (\ cdot)}$ para denotar. Por ejemplo, ${\ Displaystyle n_ {j, (\ cdot)} ^ {i}}$ denota el número de tokens de palabra en el ${\ Displaystyle j ^ {th}}$ documento asignado a la ${\ Displaystyle i ^ {th}}$ tema. Por lo tanto, la parte más a la derecha de la ecuación anterior se puede reescribir como:

{\ Displaystyle \ prod _ {t = 1} ^ {N} P (Z_ {j, t} \ mid \ theta _ {j}) = \ prod _ {i = 1} ^ {K} \ theta _ {j , i} ^ {n_ {j, (\ cdot)} ^ {i}}.}

Entonces el ${\ Displaystyle \ theta _ {j}}$ La fórmula de integración se puede cambiar a:

{\ Displaystyle \ int _ {\ theta _ {j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ { i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {\ alpha _ {i} -1 } \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {n_ {j, (\ cdot)} ^ {i}} \, d \ theta _ {j} = \ int _ {\ theta _ {j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ { K} \ Gamma (\ alpha _ {i})}} \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} -1} \, d \ theta _ {j}.}

Claramente, la ecuación dentro de la integración tiene la misma forma que la distribución de Dirichlet . Según la distribución de Dirichlet ,

{\ Displaystyle \ int _ {\ theta _ {j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i})}} \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} -1} \, d \ theta _ { j} = 1.}

Por lo tanto,

{\ Displaystyle {\ begin {alineado} & \ int _ {\ theta _ {j}} P (\ theta _ {j}; \ alpha) \ prod _ {t = 1} ^ {N} P (Z_ {j , t} \ mid \ theta _ {j}) \, d \ theta _ {j} = \ int _ {\ theta _ {j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} \ prod _ {i = 1} ^ {K } \ theta _ {j, i} ^ {n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} -1} \, d \ theta _ {j} \\ [8pt] = { } & {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} {\ frac {\ prod _ {i = 1} ^ {K} \ Gamma (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i})} { \ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)}} \ int _ {\ theta _ { j}} {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i})}} \ prod _ {i = 1} ^ {K} \ theta _ {j, i} ^ {n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} -1} \, d \ theta _ {j} \\ [8pt] = {} & {\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} {\ frac {\ prod _ {i = 1} ^ {K} \ Gamma (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i})} {\ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)}}. \ end {alineado}}}

Ahora dirigimos nuestra atención a la ${\ displaystyle {\ boldsymbol {\ varphi}}}$ parte. En realidad, la derivación del ${\ displaystyle {\ boldsymbol {\ varphi}}}$ parte es muy similar a la ${\ displaystyle {\ boldsymbol {\ theta}}}$ parte. Aquí solo enumeramos los pasos de la derivación:

{\ Displaystyle {\ begin {alineado} & \ int _ {\ boldsymbol {\ varphi}} \ prod _ {i = 1} ^ {K} P (\ varphi _ {i}; \ beta) \ prod _ {j = 1} ^ {M} \ prod _ {t = 1} ^ {N} P (W_ {j, t} \ mid \ varphi _ {Z_ {j, t}}) \, d {\ boldsymbol {\ varphi }} \\ [8pt] = {} & \ prod _ {i = 1} ^ {K} \ int _ {\ varphi _ {i}} P (\ varphi _ {i}; \ beta) \ prod _ { j = 1} ^ {M} \ prod _ {t = 1} ^ {N} P (W_ {j, t} \ mid \ varphi _ {Z_ {j, t}}) \, d \ varphi _ {i } \\ [8pt] = {} & \ prod _ {i = 1} ^ {K} \ int _ {\ varphi _ {i}} {\ frac {\ Gamma \ left (\ sum _ {r = 1} ^ {V} \ beta _ {r} \ right)} {\ prod _ {r = 1} ^ {V} \ Gamma (\ beta _ {r})}} \ prod _ {r = 1} ^ {V } \ varphi _ {i, r} ^ {\ beta _ {r} -1} \ prod _ {r = 1} ^ {V} \ varphi _ {i, r} ^ {n _ {(\ cdot), r } ^ {i}} \, d \ varphi _ {i} \\ [8pt] = {} & \ prod _ {i = 1} ^ {K} \ int _ {\ varphi _ {i}} {\ frac {\ Gamma \ left (\ sum _ {r = 1} ^ {V} \ beta _ {r} \ right)} {\ prod _ {r = 1} ^ {V} \ Gamma (\ beta _ {r} )}} \ prod _ {r = 1} ^ {V} \ varphi _ {i, r} ^ {n _ {(\ cdot), r} ^ {i} + \ beta _ {r} -1} \, d \ varphi _ {i} \\ [8pt] = {} & \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma \ left (\ sum _ {r = 1} ^ {V} \ beta _ {r} \ right)} {\ prod _ {r = 1} ^ {V} \ Gamma (\ beta _ {r})}} {\ frac {\ prod _ {r = 1} ^ {V} \ Gamma (n _ {(\ cdot), r} ^ {i} + \ beta _ {r})} {\ Gamma \ izquierda (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right)}}. \ end {alineado}}}

Para mayor claridad, aquí escribimos la ecuación final con ambos ${\ displaystyle {\ boldsymbol {\ phi}}}$ y ${\ displaystyle {\ boldsymbol {\ theta}}}$ integrado hacia fuera:

{\ displaystyle P ({\ boldsymbol {Z}}, {\ boldsymbol {W}}; \ alpha, \ beta) = \ prod _ {j = 1} ^ {M} {\ frac {\ Gamma \ left (\ suma _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} {\ frac { \ prod _ {i = 1} ^ {K} \ Gamma (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i})} {\ Gamma \ left (\ sum _ {i = 1 } ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)}} \ times \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma \ left (\ sum _ {r = 1} ^ {V} \ beta _ {r} \ right)} {\ prod _ {r = 1} ^ {V} \ Gamma (\ beta _ {r})}} {\ frac {\ prod _ {r = 1} ^ {V} \ Gamma (n _ {(\ cdot), r} ^ {i} + \ beta _ {r})} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right)}}.}

El objetivo del muestreo de Gibbs aquí es aproximar la distribución de ${\ Displaystyle P ({\ boldsymbol {Z}} \ mid {\ boldsymbol {W}}; \ alpha, \ beta)}$ . Desde ${\ displaystyle P ({\ boldsymbol {W}}; \ alpha, \ beta)}$ es invariable para cualquiera de Z, las ecuaciones de muestreo de Gibbs se pueden derivar de ${\ displaystyle P ({\ boldsymbol {Z}}, {\ boldsymbol {W}}; \ alpha, \ beta)}$ directamente. El punto clave es derivar la siguiente probabilidad condicional:

{\ Displaystyle P (Z _ {(m, n)} \ mid {\ boldsymbol {Z _ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha, \ beta) = {\ frac { P (Z _ {(m, n)}, {\ boldsymbol {Z _ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha, \ beta)} {P ({\ boldsymbol {Z_ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha, \ beta)}},}

dónde ${\ Displaystyle Z _ {(m, n)}}$ denota el ${\ Displaystyle Z}$ variable oculta de la ${\ Displaystyle n ^ {th}}$ token de palabra en el ${\ Displaystyle m ^ {th}}$ documento. Y además asumimos que la palabra símbolo es el ${\ Displaystyle v ^ {th}}$ palabra en el vocabulario. ${\ displaystyle {\ boldsymbol {Z _ {- (m, n)}}}}$ denota todos los ${\ Displaystyle Z}$ s pero ${\ Displaystyle Z _ {(m, n)}}$ . Tenga en cuenta que Gibbs Sampling solo necesita muestrear un valor para ${\ Displaystyle Z _ {(m, n)}}$ , de acuerdo con la probabilidad anterior, no necesitamos el valor exacto de

{\ Displaystyle P \ left (Z_ {m, n} \ mid {\ boldsymbol {Z _ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha, \ beta \ right)}

pero las razones entre las probabilidades de que ${\ Displaystyle Z _ {(m, n)}}$ puede tener valor. Entonces, la ecuación anterior se puede simplificar como:

{\ displaystyle {\ begin {alineado} P (& Z _ {(m, n)} = v \ mid {\ boldsymbol {Z _ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha, \ beta) \\ [8pt] & \ propto P (Z _ {(m, n)} = v, {\ boldsymbol {Z _ {- (m, n)}}}, {\ boldsymbol {W}}; \ alpha , \ beta) \\ [8pt] & = \ left ({\ frac {\ Gamma \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ prod _ { i = 1} ^ {K} \ Gamma (\ alpha _ {i})}} \ right) ^ {M} \ prod _ {j \ neq m} {\ frac {\ prod _ {i = 1} ^ { K} \ Gamma \ left (n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)} {\ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {j, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)}} \ left ({\ frac {\ Gamma \ left (\ sum _ {r = 1} ^ {V} \ beta _ {r} \ right)} {\ prod _ {r = 1} ^ {V} \ Gamma (\ beta _ {r})}} \ right) ^ {K} \ prod _ {i = 1} ^ { K} \ prod _ {r \ neq v} \ Gamma \ left (n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right) {\ frac {\ prod _ {i = 1 } ^ {K} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)} {\ Gamma \ left (\ sum _ {i = 1} ^ { K} n_ {m, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)}} \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma \ left (n_ { (\ cdot), v} ^ {i} + \ beta _ {v} \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right)}} \\ [8pt] & \ propto {\ frac {\ prod _ {i = 1} ^ {K} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i} + \ alpha _ {i} \ right)} {\ Gamma \ left (\ sum _ {i = 1} ^ {K} n_ {m, ( \ cdot)} ^ {i} + \ alpha _ {i} \ right)}} \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {i} + \ beta _ {v} \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right)}} \\ [8pt] & \ propto \ prod _ {i = 1} ^ {K} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i} + \ alpha _ {i} \ right) \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {i} + \ beta _ {v} \ right) } {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i} + \ beta _ {r} \ right)}}. \ End {alineado} }}

Finalmente, deja ${\ Displaystyle n_ {j, r} ^ {i, - (m, n)}}$ tener el mismo significado que ${\ Displaystyle n_ {j, r} ^ {i}}$ pero con el ${\ Displaystyle Z _ {(m, n)}}$ excluido. La ecuación anterior se puede simplificar aún más aprovechando la propiedad de la función gamma . Primero dividimos la suma y luego la fusionamos para obtener una ${\ Displaystyle k}$ -suma independiente, que podría descartarse:

{\ Displaystyle {\ begin {alineado} & \ propto \ prod _ {i \ neq k} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i, - (m, n)} + \ alpha _ {i} \ right) \ prod _ {i \ neq k} {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {i, - (m, n)} + \ beta _ {v } \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i, - (m, n)} + \ beta _ {r} \ right)}} \ Gamma \ left (n_ {m, (\ cdot)} ^ {k, - (m, n)} + \ alpha _ {k} +1 \ right) {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {k, - (m, n)} + \ beta _ {v} +1 \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ { V} n _ {(\ cdot), r} ^ {k, - (m, n)} + \ beta _ {r} +1 \ right)}} \\ [8pt] & = \ prod _ {i \ neq k} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i, - (m, n)} + \ alpha _ {i} \ right) \ prod _ {i \ neq k} {\ frac { \ Gamma \ left (n _ {(\ cdot), v} ^ {i, - (m, n)} + \ beta _ {v} \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {i, - (m, n)} + \ beta _ {r} \ right)}} \ Gamma \ left (n_ {m, (\ cdot)} ^ {k, - (m, n)} + \ alpha _ {k} \ right) {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {k, - (m, n)} + \ beta _ {v} \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {k, - (m, n)} + \ beta _ {r} \ right)}} \ left (n_ {m, (\ cdot)} ^ {k, - (m, n)} + \ alpha _ {k} \ right) {\ frac {n_ { (\ cdot), v} ^ {k, - (m, n)} + \ beta _ {v}} {\ suma _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {k, - (m, n)} + \ beta _ {r}}} \\ [8pt] & = \ prod _ {i} \ Gamma \ left (n_ {m, (\ cdot)} ^ {i, - (m, n)} + \ alpha _ {i} \ right) \ prod _ {i} {\ frac {\ Gamma \ left (n _ {(\ cdot), v} ^ {i, - (m, n)} + \ beta _ {v} \ right)} {\ Gamma \ left (\ sum _ {r = 1} ^ { V} n _ {(\ cdot), r} ^ {i, - (m, n)} + \ beta _ {r} \ right)}} \ left (n_ {m, (\ cdot)} ^ {k, - (m, n)} + \ alpha _ {k} \ right) {\ frac {n _ {(\ cdot), v} ^ {k, - (m, n)} + \ beta _ {v}} { \ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {k, - (m, n)} + \ beta _ {r}}} \\ [8pt] & \ propto \ izquierda (n_ {m, (\ cdot)} ^ {k, - (m, n)} + \ alpha _ {k} \ right) {\ frac {n _ {(\ cdot), v} ^ {k, - (m, n)} + \ beta _ {v}} {\ sum _ {r = 1} ^ {V} n _ {(\ cdot), r} ^ {k, - (m, n)} + \ beta _ {r}}} \ end {alineado}}}

Tenga en cuenta que la misma fórmula se deriva en el artículo sobre la distribución de Dirichlet-multinomial , como parte de una discusión más general sobre la integración de los priores de la distribución de Dirichlet a partir de una red bayesiana .

Problemas relacionados

Modelos relacionados

El modelado de temas es una solución clásica al problema de la recuperación de información utilizando datos vinculados y tecnología web semántica. ^[10] modelos y técnicas relacionadas son, entre otros, de indexación latente semántica , análisis de componentes independientes , probabilística de indexación semántica latente , matriz de factorización no negativa , y de distribución Gamma-Poisson .

El modelo LDA es muy modular y, por tanto, se puede ampliar fácilmente. El principal campo de interés es el modelado de relaciones entre temas. Esto se logra utilizando otra distribución en simplex en lugar de Dirichlet. El Modelo de tema correlacionado ^[11] sigue este enfoque, induciendo una estructura de correlación entre los temas utilizando la distribución logística normal en lugar del Dirichlet. Otra extensión es la LDA jerárquica (hLDA), ^[12] donde los temas se unen en una jerarquía utilizando el proceso de restaurante chino anidado , cuya estructura se aprende a partir de los datos. LDA también puede extenderse a un corpus en el que un documento incluye dos tipos de información (por ejemplo, palabras y nombres), como en el modelo LDA-dual . ^{[13] Las} extensiones no paramétricas de LDA incluyen el modelo jerárquico de mezcla de procesos de Dirichlet , que permite que el número de temas sea ilimitado y se aprenda de los datos.

Como se señaló anteriormente, pLSA es similar a LDA. El modelo LDA es esencialmente la versión bayesiana del modelo pLSA. La formulación bayesiana tiende a funcionar mejor en conjuntos de datos pequeños porque los métodos bayesianos pueden evitar el sobreajuste de los datos. Para conjuntos de datos muy grandes, los resultados de los dos modelos tienden a converger. Una diferencia es que pLSA usa una variable ${\ Displaystyle d}$ para representar un documento en el conjunto de formación. Entonces, en pLSA, cuando se presenta un documento que el modelo no ha visto antes, arreglamos ${\ Displaystyle \ Pr (w \ mid z)}$ (La probabilidad de que las palabras en los temas) sean las que se aprendieron del conjunto de entrenamiento y usarán el mismo algoritmo EM para inferir ${\ Displaystyle \ Pr (z \ mid d)}$ —La distribución de temas bajo ${\ Displaystyle d}$ . Blei argumenta que este paso es una trampa porque esencialmente está reajustando el modelo a los nuevos datos.

Modelos espaciales

En biología evolutiva, a menudo es natural suponer que las ubicaciones geográficas de los individuos observados aportan alguna información sobre su ascendencia. Este es el razonamiento de varios modelos para datos genéticos georreferenciados ^[7]^[14]

Se han utilizado variaciones en LDA para poner automáticamente imágenes naturales en categorías, como "dormitorio" o "bosque", tratando una imagen como un documento y pequeños parches de la imagen como palabras; ^[15] una de las variaciones se llama Asignación de Dirichlet Latente Espacial . ^[dieciséis]

Ver también

Métodos Bayesianos Variacionales
Asignación Pachinko
tf-idf
Infer.NET

Referencias

^ a b Pritchard, JK; Stephens, M .; Donnelly, P. (junio de 2000). "Inferencia de la estructura de la población utilizando datos de genotipo multilocus" . Genética . 155 (2): págs. 945–959. doi : 10.1093 / genetics / 155.2.945 . ISSN 0016-6731 . PMC 1461096 . PMID 10835412 .
^ Falush, D .; Stephens, M .; Pritchard, JK (2003). "Inferencia de la estructura de la población utilizando datos de genotipo multilocus: loci vinculados y frecuencias de alelos correlacionados" . Genética . 164 (4): págs. 1567-1587. doi : 10.1093 / genetics / 164.4.1567 . PMC 1462648 . PMID 12930761 .
^ a b c Blei, David M .; Ng, Andrew Y .; Jordan, Michael I (enero de 2003). Lafferty, John (ed.). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 (4–5): págs. 993–1022. doi : 10.1162 / jmlr.2003.3.4-5.993 . Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de diciembre de 2006 .
^ Girolami, Mark; Kaban, A. (2003). Sobre una equivalencia entre PLSI y LDA . Actas de SIGIR 2003. Nueva York: Association for Computing Machinery. ISBN 1-58113-646-3.
^ Griffiths, Thomas L .; Steyvers, Mark (6 de abril de 2004). "Encontrar temas científicos" . Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–5235. Código bibliográfico : 2004PNAS..101.5228G . doi : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .
^ Alexander, David H .; Novembre, John; Lange, Kenneth (2009). "Estimación de ascendencia basada en modelos rápidos en individuos no relacionados" . Investigación del genoma . 19 (9): 1655-1664. doi : 10.1101 / gr.094052.109 . PMC 2752134 . PMID 19648217 .
^ a b Guillot, G .; Estoup, A .; Mortier, F .; Cosson, J. (2005). "Un modelo estadístico espacial para la genética del paisaje" . Genética . 170 (3): págs. 1261-1280. doi : 10.1534 / genetics.104.033803 . PMC 1451194 . PMID 15520263 .
^ Minka, Thomas; Lafferty, John (2002). Expectativa-propagación del modelo de aspecto generativo (PDF) . Actas de la 18ª Conferencia sobre Incertidumbre en Inteligencia Artificial. San Francisco, CA: Morgan Kaufmann. ISBN 1-55860-897-4.
^ Yao, Limin; Mimno, David; McCallum, Andrew (2009). Métodos eficientes para la inferencia de modelos de temas en colecciones de documentos en tiempo real . 15ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.
^ Lamba, Manika; Madhusudhan, Margam (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . S2CID 174802673 .
^ Blei, David M .; Lafferty, John D. (2006). "Modelos de temas correlacionados" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 .
^ Blei, David M .; Jordan, Michael I .; Griffiths, Thomas L .; Tenenbaum, Joshua B (2004). Modelos de temas jerárquicos y el proceso de restaurante chino anidado (PDF) . Avances en los sistemas de procesamiento de información neuronal 16: Actas de la Conferencia de 2003. Prensa del MIT. ISBN 0-262-20152-6.
^ Shu, Liangcai; Long, Bo; Meng, Weiyi (2009). Un modelo de tema latente para la resolución completa de entidades (PDF) . 25th IEEE International Conference on Data Engineering (ICDE 2009).
^ Guillot, G .; Leblois, R .; Coulon, A .; Frantz, A. (2009). "Métodos estadísticos en genética espacial" . Ecología molecular . 18 (23): págs. 4734–4756. doi : 10.1111 / j.1365-294X.2009.04410.x . PMID 19878454 .
^ Li, Fei-Fei; Perona, Pietro. "Un modelo jerárquico bayesiano para el aprendizaje de categorías de escenas naturales". Actas de la Conferencia de la Sociedad de Computación IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR'05) . 2 : 524–531.
^ Wang, Xiaogang; Grimson, Eric (2007). "Asignación espacial de Dirichlet latente" (PDF) . Actas de la Conferencia sobre sistemas de procesamiento de información neuronal (NIPS) .

enlaces externos

jLDADMM Un paquete de Java para el modelado de temas en textos normales o cortos. jLDADMM incluye implementaciones del modelo de temas LDA y el modelo de mezcla multinomial de Dirichlet de un tema por documento . jLDADMM también proporciona una implementación para la evaluación de agrupación de documentos para comparar modelos de temas.
STTM Un paquete de Java para modelado de temas de texto breve ( https://github.com/qiang2100/STTM ). STTM incluye los siguientes algoritmos: Dirichlet Multinomial Mixture (DMM) en la conferencia KDD2014, Biterm Topic Model (BTM) en la revista TKDE2016, Word Network Topic Model (WNTM) en la revista KAIS2018, Pseudo-Document-Based Topic Model (PTM) en la conferencia KDD2016 , Modelo de tema basado en la autoagregación (SATM) en la conferencia IJCAI2015, (ETM) en la conferencia PAKDD2017, Modelo de mezcla multinomial de Dirichlet multinomial (GPU-DMM) basado en la urna de polia generalizada (GPU-DMM) en la conferencia SIGIR2016, Urna de polia generalizada (GPU) ) basado en el modelo Dirichlet Multinomial Mixture (GPU-PDMM) en la revista TIS2017 y Latent Feature Model with DMM (LF-DMM) en la revista TACL2015. STTM también incluye seis corpus de texto breves para evaluación. STTM presenta tres aspectos sobre cómo evaluar el desempeño de los algoritmos (es decir, coherencia de temas, agrupamiento y clasificación).
Conferencia que cubre parte de la notación en este artículo: Conferencia en video de modelado de temas y LDA por David Blei o la misma conferencia en YouTube
D. Bibliografía de LDA de Mimno Una lista exhaustiva de recursos relacionados con LDA (incluidos artículos y algunas implementaciones)
Gensim , una implementación Python + NumPy de LDA en línea para entradas mayores que la RAM disponible.
topicmodels y lda son dos paquetes de R para el análisis LDA.
"Text Mining with R", incluidos los métodos LDA , presentación en video para la reunión de octubre de 2011 del grupo de usuarios de Los Ángeles R
MALLET Paquete de código abierto basado en Java de la Universidad de Massachusetts-Amherst para el modelado de temas con LDA, también tiene una GUI desarrollada de forma independiente, la herramienta de modelado de temas.
LDA en la implementación de Mahout de LDA usando MapReduce en la plataforma Hadoop
Tutorial de asignación de Dirichlet latente (LDA) para Infer.NET Machine Computing Framework Microsoft Research C # Machine Learning Framework
LDA en Spark : desde la versión 1.3.0, Apache Spark también presenta una implementación de LDA
LDA , ejemplo Implementación de LDA MATLAB

[pritchard2000-1] Pritchard, JK; Stephens, M .; Donnelly, P. (junio de 2000). "Inferencia de la estructura de la población utilizando datos de genotipo multilocus" . Genética . 155 (2): págs. 945–959. doi : 10.1093 / genetics / 155.2.945 . ISSN 0016-6731 . PMC 1461096 . PMID 10835412 .

[pritchard2003-2] Falush, D .; Stephens, M .; Pritchard, JK (2003). "Inferencia de la estructura de la población utilizando datos de genotipo multilocus: loci vinculados y frecuencias de alelos correlacionados" . Genética . 164 (4): págs. 1567-1587. doi : 10.1093 / genetics / 164.4.1567 . PMC 1462648 . PMID 12930761 .

[blei2003-3] Blei, David M .; Ng, Andrew Y .; Jordan, Michael I (enero de 2003). Lafferty, John (ed.). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 (4–5): págs. 993–1022. doi : 10.1162 / jmlr.2003.3.4-5.993 . Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de diciembre de 2006 .

[4] Girolami, Mark; Kaban, A. (2003). Sobre una equivalencia entre PLSI y LDA . Actas de SIGIR 2003. Nueva York: Association for Computing Machinery. ISBN 1-58113-646-3.

[5] Griffiths, Thomas L .; Steyvers, Mark (6 de abril de 2004). "Encontrar temas científicos" . Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–5235. Código bibliográfico : 2004PNAS..101.5228G . doi : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .

[6] Alexander, David H .; Novembre, John; Lange, Kenneth (2009). "Estimación de ascendencia basada en modelos rápidos en individuos no relacionados" . Investigación del genoma . 19 (9): 1655-1664. doi : 10.1101 / gr.094052.109 . PMC 2752134 . PMID 19648217 .

[Guillot2005-7] Guillot, G .; Estoup, A .; Mortier, F .; Cosson, J. (2005). "Un modelo estadístico espacial para la genética del paisaje" . Genética . 170 (3): págs. 1261-1280. doi : 10.1534 / genetics.104.033803 . PMC 1451194 . PMID 15520263 .

[8] Minka, Thomas; Lafferty, John (2002). Expectativa-propagación del modelo de aspecto generativo (PDF) . Actas de la 18ª Conferencia sobre Incertidumbre en Inteligencia Artificial. San Francisco, CA: Morgan Kaufmann. ISBN 1-55860-897-4.

[9] Yao, Limin; Mimno, David; McCallum, Andrew (2009). Métodos eficientes para la inferencia de modelos de temas en colecciones de documentos en tiempo real . 15ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos.

[10] Lamba, Manika; Madhusudhan, Margam (2019). "Mapeo de temas en DESIDOC Journal of Library and Information Technology, India: un estudio". Cienciometría . 120 (2): 477–505. doi : 10.1007 / s11192-019-03137-5 . S2CID 174802673 .

[11] Blei, David M .; Lafferty, John D. (2006). "Modelos de temas correlacionados" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 .

[12] Blei, David M .; Jordan, Michael I .; Griffiths, Thomas L .; Tenenbaum, Joshua B (2004). Modelos de temas jerárquicos y el proceso de restaurante chino anidado (PDF) . Avances en los sistemas de procesamiento de información neuronal 16: Actas de la Conferencia de 2003. Prensa del MIT. ISBN 0-262-20152-6.

[13] Shu, Liangcai; Long, Bo; Meng, Weiyi (2009). Un modelo de tema latente para la resolución completa de entidades (PDF) . 25th IEEE International Conference on Data Engineering (ICDE 2009).

[Guillot2009-14] Guillot, G .; Leblois, R .; Coulon, A .; Frantz, A. (2009). "Métodos estadísticos en genética espacial" . Ecología molecular . 18 (23): págs. 4734–4756. doi : 10.1111 / j.1365-294X.2009.04410.x . PMID 19878454 .

[15] Li, Fei-Fei; Perona, Pietro. "Un modelo jerárquico bayesiano para el aprendizaje de categorías de escenas naturales". Actas de la Conferencia de la Sociedad de Computación IEEE 2005 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR'05) . 2 : 524–531.

[16] Wang, Xiaogang; Grimson, Eric (2007). "Asignación espacial de Dirichlet latente" (PDF) . Actas de la Conferencia sobre sistemas de procesamiento de información neuronal (NIPS) .

[1]