La extracción de colocaciones es la tarea de usar una computadora para extraer las colocaciones automáticamente de un corpus .
El método tradicional de realizar la extracción de colocación es encontrar una fórmula basada en las cantidades estadísticas de esas palabras para calcular una puntuación asociada a cada par de palabras. Fórmulas propuestas son información mutua , t-test , prueba z , prueba de ji cuadrado y la razón de verosimilitud . [1]
Dentro del área de la lingüística de corpus , la colocación se define como una secuencia de palabras o términos que coexisten con más frecuencia de lo que cabría esperar por casualidad. "Claro como el cristal", "mandos intermedios", "familia nuclear" y "cirugía cosmética" son ejemplos de pares de palabras colocadas. Algunas palabras a menudo se encuentran juntas porque forman un sustantivo compuesto , por ejemplo, "botas de montar" o "ciclista".
Ver también
enlaces externos
Referencias
- ^ Manning, CD; Schütze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9.