Asignación Pachinko

Este artículo se basa demasiado en referencias a fuentes primarias . Mejore esto agregando fuentes secundarias o terciarias . ( Septiembre de 2010 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

En el aprendizaje automático y el procesamiento del lenguaje natural , el modelo de asignación de pachinko (PAM) es un modelo temático . Los modelos de temas son un conjunto de algoritmos para descubrir la estructura temática oculta de una colección de documentos. ^[1] El algoritmo mejora los modelos de temas anteriores, como la asignación de Dirichlet latente (LDA) al modelar las correlaciones entre los temas, además de las correlaciones de palabras que constituyen los temas. PAM proporciona más flexibilidad y mayor poder expresivo que la asignación de Dirichlet latente. ^[2] Aunque se describió e implementó por primera vez en el contexto del procesamiento del lenguaje natural, el algoritmo puede tener aplicaciones en otros campos comobioinformática . El modelo lleva el nombre de las máquinas de pachinko , un juego popular en Japón, en el que las bolas de metal rebotan alrededor de una compleja colección de alfileres hasta que aterrizan en varios contenedores en la parte inferior. ^[3]

Historia [ editar ]

La asignación de Pachinko fue descrita por primera vez por Wei Li y Andrew McCallum en 2006. ^[3] La idea fue ampliada con la asignación jerárquica de Pachinko por Li, McCallum y David Mimno en 2007. ^[4] En 2007, McCallum y sus colegas propusieron un método bayesiano no paramétrico previo para PAM basado en una variante del proceso de Dirichlet jerárquico (HDP). ^[2] El algoritmo se ha implementado en el paquete de software MALLET publicado por el grupo de McCallum en la Universidad de Massachusetts Amherst .

Modelo [ editar ]

Esta sección necesita expansión . Puede ayudar agregando más . ( Julio de 2017 )

PAM conecta palabras en V y temas en T con un gráfico acíclico dirigido arbitrario (DAG), donde los nodos de tema ocupan los niveles interiores y las hojas son palabras.

La probabilidad de generar un corpus completo es el producto de las probabilidades de cada documento: ^[3]

${\ Displaystyle P (\ mathbf {D} | \ alpha) = \ prod _ {d} P (d | \ alpha)}$

Ver también [ editar ]

Indexación semántica latente probabilística (PLSI), un modelo temático temprano de Thomas Hofmann en 1999. ^[5]
Asignación de Dirichlet latente , una generalización de PLSI desarrollada por David Blei , Andrew Ng y Michael Jordan en 2002, que permite que los documentos tengan una mezcla de temas. ^[6]
MALLET , una biblioteca Java de código abierto que implementa la asignación Pachinko.

Referencias [ editar ]

^ Blei, David. "Modelado de temas" . Archivado desde el original el 2 de octubre de 2012 . Consultado el 4 de octubre de 2012 .
^ ^a ^b Li, Wei; Blei, David; McCallum, Andrew (2007). "Asignación Bayes Pachinko no paramétrica". arXiv : 1206.5270 . Cite journal requiere |journal=( ayuda )
^ a b c Li, Wei; McCallum, Andrew (2006). "Asignación de Pachinko: modelos de mezcla estructurada DAG de correlaciones de temas" (PDF) . Actas de la 23a Conferencia Internacional sobre Aprendizaje Automático .
^ Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mezclas de temas jerárquicos con asignación de Pachinko" (PDF) . Actas de la 24a Conferencia Internacional sobre Aprendizaje Automático .
^ Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.
^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : págs. 993-1022. Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de julio de 2010 .

Enlaces externos [ editar ]

Mezclas de temas jerárquicos con asignación de Pachinko , una grabación de video de David Mimno presentando HPAM en 2007.

Este artículo de ciencias de la computación es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[1] Blei, David. "Modelado de temas" . Archivado desde el original el 2 de octubre de 2012 . Consultado el 4 de octubre de 2012 .

[mccallum07-2] Li, Wei; Blei, David; McCallum, Andrew (2007). "Asignación Bayes Pachinko no paramétrica". arXiv : 1206.5270 . Cite journal requiere |journal=( ayuda )

[li2006-3] Li, Wei; McCallum, Andrew (2006). "Asignación de Pachinko: modelos de mezcla estructurada DAG de correlaciones de temas" (PDF) . Actas de la 23a Conferencia Internacional sobre Aprendizaje Automático .

[mimno2007-4] Mimno, David; Li, Wei; McCallum, Andrew (2007). "Mezclas de temas jerárquicos con asignación de Pachinko" (PDF) . Actas de la 24a Conferencia Internacional sobre Aprendizaje Automático .

[hofmann1999-5] Hofmann, Thomas (1999). "Indexación semántica latente probabilística" (PDF) . Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información . Archivado desde el original (PDF) el 14 de diciembre de 2010.

[blei2003-6] Blei, David M .; Ng, Andrew Y .; Jordan, Michael I ; Lafferty, John (enero de 2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 : págs. 993-1022. Archivado desde el original el 1 de mayo de 2012 . Consultado el 19 de julio de 2010 .

[1]

vtmiProcesamiento natural del lenguaje
Términos generales	AI completo Bolsa de palabras n-gramo Bigram Trigrama Comprensión del lenguaje natural Corpus de habla Para las palabras Corpus de texto
Análisis de texto	Extracción de colocación Minería de conceptos Procesamiento de término compuesto Resolución de correferencia Lematización Reconocimiento de entidad designada Aprendizaje de ontología Analizando Etiquetado de parte de la voz Similitud semántica Análisis de los sentimientos Derivado Extracción de terminología Fragmentación de texto Segmentación de texto Segmentación de oraciones Segmentación de palabras Vinculación textual Truecasing Desambiguación del sentido de las palabras
Resumen automático	Resumen de varios documentos Extracción de oraciones Simplificación de texto
Máquina traductora	Asistido por computadora Basado en ejemplos Basado en reglas Neural
Identificación automática y captura de datos	Reconocimiento de voz Segmentación del habla Síntesis de voz Generación de lenguaje natural Reconocimiento óptico de caracteres
Modelo de tema	Asignación de Dirichlet latente Análisis semántico latente Asignación Pachinko
Asistida por ordenador de revisión	Calificación de ensayos automatizada Concordancer Corrector gramatical Texto predictivo Corrector ortográfico Adivinación de sintaxis
Interfaz de usuario de lenguaje natural	Chatbot Ficción interactiva Respuesta a preguntas Asistente virtual Interfaz de usuario de voz