En el procesamiento del lenguaje natural , la compresión semántica es un proceso de compactar un léxico utilizado para construir un documento textual (o un conjunto de documentos) al reducir la heterogeneidad del lenguaje, mientras se mantiene la semántica del texto . Como resultado, las mismas ideas se pueden representar con un conjunto de palabras más pequeño.
En la mayoría de las aplicaciones, la compresión semántica es una compresión con pérdida, es decir, el aumento de la prolijidad no compensa la compresión léxica y un documento original no se puede reconstruir en un proceso inverso.
Por generalización
La compresión semántica se logra básicamente en dos pasos, utilizando diccionarios de frecuencia y red semántica :
- determinar las frecuencias acumuladas de términos para identificar el léxico objetivo,
- reemplazando términos menos frecuentes con sus hiperónimos ( generalización ) del léxico objetivo. [1]
El paso 1 requiere reunir frecuencias de palabras e información sobre relaciones semánticas, específicamente hiponimia . Moviéndose hacia arriba en la jerarquía de palabras, se calcula una frecuencia de concepto acumulativa agregando una suma de frecuencias de hipónimos a la frecuencia de su hiperónimo: dónde es un hiperónimo de . Luego, se elige un número deseado de palabras con las frecuencias acumuladas más altas para construir un léxico específico.
En el segundo paso, se definen reglas de mapeo de compresión para las palabras restantes, con el fin de manejar cada aparición de un hipónimo menos frecuente como su hiperónimo en el texto de salida.
- Ejemplo
El siguiente fragmento de texto ha sido procesado por compresión semántica. Las palabras en negrita han sido reemplazadas por sus hiperónimos.
Ambos son insectos sociales constructores de nidos , pero las avispas de papel y las abejas melíferas organizan sus colonias.
de formas muy diferentes . En un nuevo estudio, los investigadores informan que a pesar de sus diferencias , estos insectos dependen de la misma red de genes para guiar su comportamiento social . El estudio aparece en Proceedings of the Royal Society B : Biological Sciences. Las abejas melíferas y las avispas de papel están separadas por más de 100 millones de años de
evolución , y hay diferencias notables en cómo se reparten el trabajo de mantener una colonia .
El procedimiento genera el siguiente texto:
Ambos son insectos constructores de instalaciones , pero los insectos y los insectos de la miel organizan sus grupos biológicos.
en estructura muy diferente . En un nuevo estudio, los investigadores informan que a pesar de sus diferencias de opinión , estos insectos actúan en la misma red de genes para dirigir su comportamiento de fiesta . El estudio aparece en el trámite de las bacterias de la institución Ciencias Biológicas. Los insectos de la miel y los insectos están separados por más de cien millones de años de
procesos orgánicos , y hay diferencias de opiniones incipientes en cómo se reparten el trabajo de afirmar un grupo biológico .
Compresión semántica implícita
Una tendencia natural a mantener la concisión de las expresiones del lenguaje natural puede percibirse como una forma de compresión semántica implícita, al omitir palabras sin significado o palabras significativas redundantes (especialmente para evitar pleonasmos ). [2]
Aplicaciones y ventajas
En el modelo de espacio vectorial , la compactación de un léxico conduce a una reducción de la dimensionalidad , lo que resulta en una menor complejidad computacional y una influencia positiva en la eficiencia.
La compresión semántica es ventajosa en las tareas de recuperación de información , mejorando su efectividad (tanto en términos de precisión como de recuerdo). [3] Esto se debe a descriptores más precisos (efecto reducido de la diversidad lingüística - redundancia lingüística limitada, un paso hacia un diccionario controlado).
Como en el ejemplo anterior, es posible mostrar la salida como texto natural (volver a aplicar inflexión, agregar palabras vacías).
Ver también
Referencias
- ^ D. Ceglarek, K. Haniewicz, W. Rutkowski, Compresión semántica para sistemas especializados de recuperación de información , Avances en sistemas inteligentes de información y bases de datos, vol. 283, pág. 111-121, 2010
- ^ NN Percova, Sobre los tipos de compresión semántica de texto , Actas COLING '82 de la 9ª Conferencia sobre Lingüística Computacional, vol. 2, pág. 229-231, 1982
- ^ D. Ceglarek, K. Haniewicz, W. Rutkowski, Calidad de la compresión semántica en la clasificación Actas de la 2da Conferencia Internacional sobre Inteligencia Colectiva Computacional: Tecnologías y Aplicaciones, vol. 1, pág. 162-171, 2010