De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En el aprendizaje automático y el procesamiento del lenguaje natural , el modelo de asignación de pachinko (PAM) es un modelo temático . Los modelos de temas son un conjunto de algoritmos para descubrir la estructura temática oculta de una colección de documentos. [1] El algoritmo mejora los modelos de temas anteriores, como la asignación de Dirichlet latente (LDA) al modelar las correlaciones entre los temas, además de las correlaciones de palabras que constituyen los temas. PAM proporciona más flexibilidad y mayor poder expresivo que la asignación de Dirichlet latente. [2] Aunque se describió e implementó por primera vez en el contexto del procesamiento del lenguaje natural, el algoritmo puede tener aplicaciones en otros campos comobioinformática . El modelo lleva el nombre de las máquinas de pachinko , un juego popular en Japón, en el que las bolas de metal rebotan alrededor de una compleja colección de alfileres hasta que aterrizan en varios contenedores en la parte inferior. [3]

Historia [ editar ]

La asignación de Pachinko fue descrita por primera vez por Wei Li y Andrew McCallum en 2006. [3] La idea fue ampliada con la asignación jerárquica de Pachinko por Li, McCallum y David Mimno en 2007. [4] En 2007, McCallum y sus colegas propusieron un método bayesiano no paramétrico previo para PAM basado en una variante del proceso de Dirichlet jerárquico (HDP). [2] El algoritmo se ha implementado en el paquete de software MALLET publicado por el grupo de McCallum en la Universidad de Massachusetts Amherst .

Modelo [ editar ]

PAM conecta palabras en V y temas en T con un gráfico acíclico dirigido arbitrario (DAG), donde los nodos de tema ocupan los niveles interiores y las hojas son palabras.

La probabilidad de generar un corpus completo es el producto de las probabilidades de cada documento: [3]

Ver también [ editar ]

Referencias [ editar ]

  1. ^ Blei, David. "Modelado de temas" . Archivado desde el original el 2 de octubre de 2012 . Consultado el 4 de octubre de 2012 .
  2. ^ a b Li, Wei; Blei, David; McCallum, Andrew (2007). "Asignación Bayes Pachinko no paramétrica". arXiv : 1206.5270 . Cite journal requiere |journal=( ayuda )
  3. ^ a b c Li, Wei; McCallum, Andrew (2006). "Asignación de Pachinko: modelos de mezcla estructurada DAG de correlaciones de temas" (PDF) . Actas de la 23a Conferencia Internacional sobre Aprendizaje Automático .
  4. ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mezclas de temas jerárquicos con asignación de Pachinko" (PDF) . Actas de la 24a Conferencia Internacional sobre Aprendizaje Automático .
  5. ^ Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
  6. ^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : págs. 993-1022. Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de julio de 2010 .

Enlaces externos [ editar ]

  • Mezclas de temas jerárquicos con asignación de Pachinko , una grabación de video de David Mimno presentando HPAM en 2007.