Proceso de Dirichlet jerárquico

En estadística y aprendizaje automático , el proceso de Dirichlet jerárquico ( HDP ) es un enfoque bayesiano no paramétrico para agrupar datos agrupados . ^[1]^[2] Utiliza un proceso de Dirichlet para cada grupo de datos, con los procesos de Dirichlet para todos los grupos compartiendo una distribución base que a su vez se extrae de un proceso de Dirichlet. Este método permite a los grupos compartir la fuerza estadística mediante el intercambio de clústeres entre grupos. La distribución base que se extrae de un proceso de Dirichlet es importante, porque las extracciones de un proceso de Dirichlet son medidas de probabilidad atómica, y los átomos aparecerán en todos los procesos de Dirichlet a nivel de grupo. Dado que cada átomo corresponde a un grupo, los grupos se comparten entre todos los grupos. Fue desarrollado por Yee Whye Teh , Michael I. Jordan , Matthew J. Beal y David Blei y publicado en el Journal of the American Statistical Association en 2006, ^[1]como una formalización y generalización del modelo de Markov oculto infinito publicado en 2002. ^[3]

Modelo

La descripción de este modelo proviene de. ^[1] El HDP es un modelo para datos agrupados. Lo que esto significa es que los elementos de datos vienen en varios grupos distintos. Por ejemplo, en un modelo de tema, las palabras se organizan en documentos, y cada documento está formado por una bolsa (grupo) de palabras (elementos de datos). Grupos de indexación por ${\ Displaystyle j = 1, ... J}$ , suponga que cada grupo consta de elementos de datos ${\ Displaystyle x_ {j1}, ... x_ {jn}}$ .

El HDP está parametrizado por una distribución base ${\ Displaystyle H}$ que gobierna la distribución a priori sobre los elementos de datos, y una serie de parámetros de concentración que gobiernan el número a priori de agrupaciones y la cantidad de intercambio entre grupos. La ${\ Displaystyle j}$ El grupo está asociado con una medida de probabilidad aleatoria. ${\ Displaystyle G_ {j}}$ que tiene distribución dada por un proceso de Dirichlet:

{\ Displaystyle {\ begin {alineado} G_ {j} | G_ {0} & \ sim \ operatorname {DP} (\ alpha _ {j}, G_ {0}) \ end {alineado}}}

dónde ${\ Displaystyle \ alpha _ {j}}$ es el parámetro de concentración asociado con el grupo, y ${\ Displaystyle G_ {0}}$ es la distribución base compartida por todos los grupos. A su vez, la distribución base común es el proceso de Dirichlet distribuido:

{\ displaystyle {\ begin {alineado} G_ {0} & \ sim \ operatorname {DP} (\ alpha _ {0}, H) \ end {alineado}}}

con parámetro de concentración ${\ Displaystyle \ alpha _ {0}}$ y distribución base ${\ Displaystyle H}$ . Finalmente, para relacionar los procesos de Dirichlet con los datos observados, cada elemento de datos ${\ Displaystyle x_ {ji}}$ está asociado con un parámetro latente ${\ Displaystyle \ theta _ {ji}}$ :

{\ Displaystyle {\ begin {alineado} \ theta _ {ji} | G_ {j} & \ sim G_ {j} \\ x_ {ji} | \ theta _ {ji} & \ sim F (\ theta _ {ji }) \ end {alineado}}}

La primera línea indica que cada parámetro tiene una distribución previa dada por ${\ Displaystyle G_ {j}}$ , mientras que la segunda línea indica que cada elemento de datos tiene una distribución ${\ Displaystyle F (\ theta _ {ji})}$ parametrizado por su parámetro asociado. El modelo resultante anterior se denomina modelo de mezcla HDP, donde el HDP se refiere al conjunto jerárquicamente vinculado de procesos de Dirichlet, y el modelo de mezcla se refiere a la forma en que los procesos de Dirichlet se relacionan con los elementos de datos.

Para comprender cómo el HDP implementa un modelo de agrupación en clústeres y cómo los clústeres se comparten entre grupos, recuerde que las extracciones de un proceso de Dirichlet son medidas de probabilidad atómica con probabilidad uno. Esto significa que la distribución base común ${\ Displaystyle G_ {0}}$ tiene una forma que se puede escribir como:

{\ Displaystyle {\ begin {alineado} G_ {0} & = \ sum _ {k = 1} ^ {\ infty} \ pi _ {0k} \ delta _ {\ theta _ {k} ^ {*}} \ final {alineado}}}

donde hay un número infinito de átomos, ${\ Displaystyle \ theta _ {k} ^ {*}, k = 1,2, ...}$ , asumiendo que la distribución base general ${\ Displaystyle H}$ tiene un apoyo infinito. Cada átomo está asociado con una masa ${\ Displaystyle \ pi _ {0k}}$ . Las masas tienen que sumar uno ya que ${\ Displaystyle G_ {0}}$ es una medida de probabilidad. Desde ${\ Displaystyle G_ {0}}$ es en sí misma la distribución base para los procesos de Dirichlet específicos del grupo, cada ${\ Displaystyle G_ {j}}$ tendrá átomos dados por los átomos de ${\ Displaystyle G_ {0}}$ , y se puede escribir en la forma:

{\ Displaystyle {\ begin {alineado} G_ {j} & = \ sum _ {k = 1} ^ {\ infty} \ pi _ {jk} \ delta _ {\ theta _ {k} ^ {*}} \ final {alineado}}}

Por lo tanto, el conjunto de átomos se comparte entre todos los grupos, y cada grupo tiene sus propias masas de átomos específicas de grupo. Al relacionar esta representación con los datos observados, vemos que cada elemento de datos se describe mediante un modelo mixto:

{\ Displaystyle {\ begin {alineado} x_ {ji} | G_ {j} & \ sim \ sum _ {k = 1} ^ {\ infty} \ pi _ {jk} F (\ theta _ {k} ^ { *}) \ end {alineado}}}

donde los átomos ${\ Displaystyle \ theta _ {k} ^ {*}}$ desempeñan el papel de los parámetros de los componentes de la mezcla, mientras que las masas ${\ Displaystyle \ pi _ {jk}}$ desempeñar el papel de las proporciones de mezcla. En conclusión, cada grupo de datos se modela utilizando un modelo de mezcla, con componentes de mezcla compartidos entre todos los grupos, pero las proporciones de mezcla son específicas de cada grupo. En términos de agrupamiento, podemos interpretar que cada componente de la mezcla modela un grupo de elementos de datos, con grupos compartidos entre todos los grupos, y cada grupo tiene sus propias proporciones de mezcla, compuestos por diferentes combinaciones de grupos.

Aplicaciones

El modelo de mezcla HDP es una generalización no paramétrica natural de la asignación de Dirichlet latente , donde el número de temas puede ser ilimitado y aprender de los datos. ^[1] Aquí cada grupo es un documento que consta de una bolsa de palabras, cada grupo es un tema y cada documento es una mezcla de temas. El HDP es también un componente central del modelo de Markov oculto infinito , ^[3] que es una generalización no paramétrica del modelo de Markov oculto que permite que el número de estados sea ilimitado y se aprenda a partir de los datos. ^[1] ^[4]

Generalizaciones

El HDP se puede generalizar en varias direcciones. Los procesos de Dirichlet pueden ser reemplazados por procesos de Pitman-Yor y procesos Gamma , resultando en el proceso Jerárquico Pitman-Yor y el proceso Jerárquico Gamma. La jerarquía puede ser más profunda, con múltiples niveles de grupos organizados en una jerarquía. Esta disposición se ha aprovechado en el memorizador de secuencias , un modelo bayesiano no paramétrico para secuencias que tiene una jerarquía multinivel de procesos de Pitman-Yor. Además, el modelo Bayesian Multi-Domain Learning (BMDL) deriva representaciones latentes dependientes del dominio de datos de recuento sobredispersos basados en la factorización binomial negativa jerárquica para la subtipificación precisa del cáncer, incluso si el número de muestras para un tipo de cáncer específico es pequeño. ^[5]

Ver también

Proceso de restaurante chino

Referencias

^ ^a ^b ^c ^d ^e Teh, YW; Jordan, MI; Beal, MJ; Blei, DM (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): págs. 1566–1581. CiteSeerX 10.1.1.5.9094 . doi : 10.1198 / 016214506000000302 .
^ Teh, YW; Jordan, MI (2010). Modelos no paramétricos bayesianos jerárquicos con aplicaciones (PDF) . No paramétricos bayesianos . Prensa de la Universidad de Cambridge . págs. 158–207. CiteSeerX 10.1.1.157.9451 . doi : 10.1017 / CBO9780511802478.006 . ISBN 9780511802478.
↑ a b Beal, MJ, Ghahramani, Z. y Rasmussen, CE (2002). "El modelo infinito oculto de Markov" (PDF). Avances en los sistemas de procesamiento de información neuronal 14: 577–585. Cambridge, MA: MIT Press.
^ Fox, Emily B., et al. "Un HDP-HMM pegajoso con aplicación a la diarización del hablante". The Annals of Applied Statistics (2011): 1020-1056.
^ Hajiramezanali, E. & Dadaneh, SZ & Karbalayghareh, A. & Zhou, Z. & Qian, X. "Aprendizaje bayesiano multidominio para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación" (PDF). 32a Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá.

[teh2006-1] Teh, YW; Jordan, MI; Beal, MJ; Blei, DM (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): págs. 1566–1581. CiteSeerX 10.1.1.5.9094 . doi : 10.1198 / 016214506000000302 .

[tehjor2010-2] Teh, YW; Jordan, MI (2010). Modelos no paramétricos bayesianos jerárquicos con aplicaciones (PDF) . No paramétricos bayesianos . Prensa de la Universidad de Cambridge . págs. 158–207. CiteSeerX 10.1.1.157.9451 . doi : 10.1017 / CBO9780511802478.006 . ISBN 9780511802478.

[beal2002-3] Beal, MJ, Ghahramani, Z. y Rasmussen, CE (2002). "El modelo infinito oculto de Markov" (PDF). Avances en los sistemas de procesamiento de información neuronal 14: 577–585. Cambridge, MA: MIT Press.

[fox2011-4] Fox, Emily B., et al. "Un HDP-HMM pegajoso con aplicación a la diarización del hablante". The Annals of Applied Statistics (2011): 1020-1056.

[:bmdl-5] Hajiramezanali, E. & Dadaneh, SZ & Karbalayghareh, A. & Zhou, Z. & Qian, X. "Aprendizaje bayesiano multidominio para el descubrimiento de subtipos de cáncer a partir de datos de recuento de secuenciación de próxima generación" (PDF). 32a Conferencia sobre sistemas de procesamiento de información neuronal (NIPS 2018), Montreal, Canadá.

[1]