Análisis semántico latente probabilístico

El análisis semántico latente probabilístico ( PLSA ), también conocido como indexación semántica latente probabilística ( PLSI , especialmente en círculos de recuperación de información) es una técnica estadística para el análisis de datos de dos modos y co-ocurrencia. En efecto, se puede derivar una representación de baja dimensión de las variables observadas en términos de su afinidad con ciertas variables ocultas, al igual que en el análisis semántico latente , a partir del cual evolucionó PLSA.

En comparación con el análisis semántico latente estándar que se deriva del álgebra lineal y reduce el tamaño de las tablas de ocurrencia (generalmente a través de una descomposición de valor singular ), el análisis semántico latente probabilístico se basa en una descomposición de mezcla derivada de un modelo de clase latente .

Modelo

Notación de placa que representa el modelo PLSA (formulación "asimétrica").

{\ Displaystyle d}

es la variable de índice del documento,

{\ Displaystyle c}

es el tema de una palabra extraído de la distribución de temas del documento,

{\ Displaystyle P (do | d)}

, y

{\ Displaystyle w}

es una palabra extraída de la distribución de palabras del tema de esta palabra,

{\ Displaystyle P (w | c)}

. La

{\ Displaystyle d}

y

{\ Displaystyle w}

son variables observables , el tema

{\ Displaystyle c}

es una variable latente .

Considerando las observaciones en forma de co-ocurrencias ${\ Displaystyle (w, d)}$ de palabras y documentos, PLSA modela la probabilidad de cada co-ocurrencia como una mezcla de distribuciones multinomiales condicionalmente independientes :

{\ Displaystyle P (w, re) = \ sum _ {c} P (c) P (re | c) P (w | c) = P (re) \ sum _ {c} P (c | re) P (w | c)}

con 'c' siendo el tema de las palabras. Tenga en cuenta que el número de temas es un hiperparámetro que debe elegirse de antemano y no se estima a partir de los datos. La primera formulación es la formulación simétrica , donde ${\ Displaystyle w}$ y ${\ Displaystyle d}$ ambos se generan a partir de la clase latente ${\ Displaystyle c}$ de manera similar (usando las probabilidades condicionales ${\ Displaystyle P (d | c)}$ y ${\ Displaystyle P (w | c)}$ ), mientras que la segunda formulación es la asimétrica , donde, para cada documento ${\ Displaystyle d}$ , una clase latente se elige condicionalmente al documento de acuerdo con ${\ Displaystyle P (do | d)}$ , y luego se genera una palabra a partir de esa clase de acuerdo con ${\ Displaystyle P (w | c)}$ . Aunque hemos utilizado palabras y documentos en este ejemplo, la co-ocurrencia de cualquier par de variables discretas puede modelarse exactamente de la misma manera.

Entonces, el número de parámetros es igual a ${\ Displaystyle cd + wc}$ . El número de parámetros crece linealmente con el número de documentos. Además, aunque PLSA es un modelo generativo de los documentos de la colección sobre la que se estima, no es un modelo generativo de nuevos documentos.

Sus parámetros se aprenden mediante el algoritmo EM .

Solicitud

PLSA se puede utilizar en un entorno discriminativo, a través de granos de Fisher . ^[1]

PLSA tiene aplicaciones en recuperación y filtrado de información , procesamiento de lenguaje natural , aprendizaje automático a partir de texto y áreas relacionadas.

Se informa que el modelo de aspecto utilizado en el análisis semántico latente probabilístico tiene graves problemas de sobreajuste . ^[2]

Extensiones

Extensiones jerárquicas:
- Asimétrico: MASHA ("Análisis jerárquico asimétrico multinomial") ^[3]
- Simétrico: HPLSA ("Análisis semántico latente probabilístico jerárquico") ^[4]

Modelos generativos: Los siguientes modelos se han desarrollado para abordar una deficiencia de PLSA a menudo criticada, a saber, que no es un modelo generativo adecuado para nuevos documentos.
- Asignación de Dirichlet latente : agrega un Dirichlet antes de la distribución de temas por documento
Datos de orden superior: aunque esto rara vez se discute en la literatura científica, PLSA se extiende naturalmente a datos de orden superior (tres modos y más), es decir, puede modelar co-ocurrencias sobre tres o más variables. En la formulación simétrica anterior, esto se hace simplemente agregando distribuciones de probabilidad condicionales para estas variables adicionales. Este es el análogo probabilístico de la factorización tensorial no negativa.

Historia

Este es un ejemplo de un modelo de clases latentes (ver referencias allí), y está relacionado ^[5]^[6] con la factorización matricial no negativa . La terminología actual fue acuñada en 1999 por Thomas Hofmann. ^[7]

Ver también

Referencias y notas

^ Thomas Hofmann, Aprendiendo la similitud de los documentos: un enfoque de información geométrica para la recuperación y categorización de documentos , Avances en los sistemas de procesamiento de información neuronal 12, pp-914-920, MIT Press , 2000
^ Blei, David M .; Andrew Y. Ng; Michael I. Jordan (2003). "Asignación de Dirichlet latente" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 993-1022. doi : 10.1162 / jmlr.2003.3.4-5.993 .
^ Alexei Vinokourov y Mark Girolami, Un marco probabilístico para la organización jerárquica y la clasificación de colecciones de documentos , en Procesamiento y gestión de la información , 2002
^ Eric Gaussier, Cyril Goutte, Kris Popat y Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archivado 2016-03-04 en Wayback Machine , en "Avances en la recuperación de información - Actas del 24oColoquio europeo BCS-IRSG sobre IR Research (ECIR-02) ", 2002
^ Chris Ding, Tao Li, Wei Peng (2006). " Factorización de matrices no negativas e indexación semántica latente probabilística: estadística de chi-cuadrado de equivalencia y un método híbrido. AAAI 2006"
^ Chris Ding, Tao Li, Wei Peng (2008). " Sobre la equivalencia entre factorización matricial no negativa e indexación semántica latente probabilística"
^ Thomas Hofmann, Indexación semántica latente probabilística , Actas de la vigésimo segundaconferenciainternacional anual SIGIR sobre investigación y desarrollo en la recuperación de información (SIGIR-99), 1999

enlaces externos