Este artículo se basa demasiado en referencias a fuentes primarias . ( Septiembre de 2010 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla ) |
En el aprendizaje automático y el procesamiento del lenguaje natural , el modelo de asignación de pachinko (PAM) es un modelo temático . Los modelos de temas son un conjunto de algoritmos para descubrir la estructura temática oculta de una colección de documentos. [1] El algoritmo mejora los modelos de temas anteriores, como la asignación de Dirichlet latente (LDA) al modelar las correlaciones entre los temas, además de las correlaciones de palabras que constituyen los temas. PAM proporciona más flexibilidad y mayor poder expresivo que la asignación de Dirichlet latente. [2] Aunque se describió e implementó por primera vez en el contexto del procesamiento del lenguaje natural, el algoritmo puede tener aplicaciones en otros campos comobioinformática . El modelo lleva el nombre de las máquinas de pachinko , un juego popular en Japón, en el que las bolas de metal rebotan alrededor de una compleja colección de alfileres hasta que aterrizan en varios contenedores en la parte inferior. [3]
Historia [ editar ]
La asignación de Pachinko fue descrita por primera vez por Wei Li y Andrew McCallum en 2006. [3] La idea fue ampliada con la asignación jerárquica de Pachinko por Li, McCallum y David Mimno en 2007. [4] En 2007, McCallum y sus colegas propusieron un método bayesiano no paramétrico previo para PAM basado en una variante del proceso de Dirichlet jerárquico (HDP). [2] El algoritmo se ha implementado en el paquete de software MALLET publicado por el grupo de McCallum en la Universidad de Massachusetts Amherst .
Modelo [ editar ]
Esta sección necesita expansión . Puede ayudar agregando más . ( Julio de 2017 ) |
PAM conecta palabras en V y temas en T con un gráfico acíclico dirigido arbitrario (DAG), donde los nodos de tema ocupan los niveles interiores y las hojas son palabras.
La probabilidad de generar un corpus completo es el producto de las probabilidades de cada documento: [3]
Ver también [ editar ]
- Indexación semántica latente probabilística (PLSI), un modelo temático temprano de Thomas Hofmann en 1999. [5]
- Asignación de Dirichlet latente , una generalización de PLSI desarrollada por David Blei , Andrew Ng y Michael Jordan en 2002, que permite que los documentos tengan una mezcla de temas. [6]
- MALLET , una biblioteca Java de código abierto que implementa la asignación Pachinko.
Referencias [ editar ]
- ^ Blei, David. "Modelado de temas" . Archivado desde el original el 2 de octubre de 2012 . Consultado el 4 de octubre de 2012 .
- ^ a b Li, Wei; Blei, David; McCallum, Andrew (2007). "Asignación Bayes Pachinko no paramétrica". arXiv : 1206.5270 . Cite journal requiere
|journal=
( ayuda ) - ^ a b c Li, Wei; McCallum, Andrew (2006). "Asignación de Pachinko: modelos de mezcla estructurada DAG de correlaciones de temas" (PDF) . Actas de la 23a Conferencia Internacional sobre Aprendizaje Automático .
- ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mezclas de temas jerárquicos con asignación de Pachinko" (PDF) . Actas de la 24a Conferencia Internacional sobre Aprendizaje Automático .
- ^ Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
- ^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : págs. 993-1022. Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de julio de 2010 .
Enlaces externos [ editar ]
- Mezclas de temas jerárquicos con asignación de Pachinko , una grabación de video de David Mimno presentando HPAM en 2007.