En el aprendizaje automático , el análisis semántico de un corpus es la tarea de construir estructuras que se aproximen a conceptos de un gran conjunto de documentos. Por lo general, no implica una comprensión semántica previa de los documentos. Un metalenguaje basado en la lógica de predicados puede analizar el habla de los humanos. [1] : 93– Otra estrategia para comprender la semántica de un texto es la base de símbolos . Si el lenguaje está fundamentado, equivale a reconocer un significado legible por máquina. Para el dominio restringido del análisis espacial, se demostró un sistema de comprensión del lenguaje basado en computadora. [2] : 123
El análisis semántico latente (a veces indexación semántica latente), es una clase de técnicas donde los documentos se representan como vectores en el espacio de términos. Un ejemplo destacado es PLSI .
La asignación de Dirichlet latente implica atribuir los términos del documento a los temas.
Los n-gramas y los modelos de Markov ocultos funcionan al representar el flujo de términos como una cadena de Markov donde cada término se deriva de los pocos términos anteriores.
Ver también
Referencias
- ^ Nitin Indurkhya; Fred J. Damerau (22 de febrero de 2010). Manual de procesamiento del lenguaje natural . Prensa CRC. ISBN 978-1-4200-8593-8.
- ^ Michael Spranger (15 de junio de 2016). La evolución del lenguaje espacial fundamentado . Prensa de Ciencias del Lenguaje. ISBN 978-3-946234-14-2.