Análisis semántico latente probabilístico

El análisis semántico latente probabilístico ( PLSA ), también conocido como indexación semántica latente probabilística ( PLSI , especialmente en círculos de recuperación de información) es una técnica estadística para el análisis de datos de dos modos y co-ocurrencia. En efecto, se puede derivar una representación de baja dimensión de las variables observadas en términos de su afinidad con ciertas variables ocultas, al igual que en el análisis semántico latente , a partir del cual evolucionó PLSA.

En comparación con el análisis semántico latente estándar que se deriva del álgebra lineal y reduce el tamaño de las tablas de ocurrencia (generalmente a través de una descomposición de valor singular ), el análisis semántico latente probabilístico se basa en una descomposición de mezcla derivada de un modelo de clase latente .

Considerando las observaciones en forma de co-ocurrencias de palabras y documentos, PLSA modela la probabilidad de cada co-ocurrencia como una mezcla de distribuciones multinomiales condicionalmente independientes : ${\ Displaystyle (w, d)}$

con 'c' siendo el tema de las palabras. Tenga en cuenta que la cantidad de temas es un hiperparámetro que debe elegirse de antemano y no se estima a partir de los datos. La primera formulación es la formulación simétrica , donde y se generan a partir de la clase latente de manera similar (usando las probabilidades condicionales y ), mientras que la segunda formulación es la formulación asimétrica , donde, para cada documento , se elige una clase latente condicionalmente para el documento de acuerdo con , y luego se genera una palabra a partir de esa clase de acuerdo con ${\ Displaystyle w}$ $d$ $c$ $P(d|c)$ $P(w|c)$ $d$ $P(c|d)$ $P(w|c)$ . Aunque hemos utilizado palabras y documentos en este ejemplo, la co-ocurrencia de cualquier par de variables discretas puede modelarse exactamente de la misma manera.

Entonces, el número de parámetros es igual a . El número de parámetros crece linealmente con el número de documentos. Además, aunque PLSA es un modelo generativo de los documentos de la colección sobre la que se estima, no es un modelo generativo de nuevos documentos. $cd+wc$

PLSA tiene aplicaciones en recuperación y filtrado de información , procesamiento de lenguaje natural , aprendizaje automático a partir de texto y áreas relacionadas.

Notación de placa que representa el modelo PLSA (formulación "asimétrica"). es la variable de índice de documento, es el tema de una palabra extraída de la distribución tema del documento, y es una palabra extraída de la palabra distribución del tema de esta palabra, . Las y son variables observables , el tema es una variable latente .

d

c

P(c|d)

w

P(w|c)

d

w

c