El agrupamiento marrón es un difícil problema de agrupamiento aglomerativo jerárquico basado en la información de distribución propuesta por Peter Brown , William A. Brown, Vincent Della Pietra, Peter V. de Souza , Jennifer Lai y Robert Mercer . [1] Por lo general, se aplica al texto, agrupando palabras en grupos que se supone que están relacionados semánticamente en virtud de que se han incrustado en contextos similares.
Introducción
En el procesamiento del lenguaje natural , la agrupación de Brown [2] o agrupación de IBM [3] es una forma de agrupación jerárquica de palabras basada en los contextos en los que ocurren, propuesta por Peter Brown, William A. Brown, Vincent Della Pietra, Peter de Souza , Jennifer Lai y Robert Mercer de IBM en el contexto del modelado de lenguajes . [1] La intuición detrás del método es que un modelo de lenguaje basado en clases (también llamado modelo de grupo n -grama [3] ), es decir, uno donde las probabilidades de palabras se basan en las clases (grupos) de palabras anteriores, se utiliza para abordar el problema de la escasez de datos inherente al modelado del lenguaje.
Jurafsky y Martin dan el ejemplo de un sistema de reserva de vuelos que necesita estimar la probabilidad del bigrama "a Shanghai", sin haber visto esto en un conjunto de entrenamiento. [3] El sistema puede obtener una buena estimación si puede agrupar "Shanghai" con otros nombres de ciudades y luego hacer su estimación basándose en la probabilidad de frases como "a Londres", "a Beijing" y "a Denver".
Definición técnica
Brown agrupa elementos (es decir, tipos ) en clases, usando un criterio de fusión binario basado en la probabilidad logarítmica de un texto bajo un modelo de lenguaje basado en clases, es decir, un modelo de probabilidad que toma en cuenta la agrupación. Por lo tanto, la información mutua promedio (AMI) es la función de optimización, y las fusiones se eligen de manera que incurran en la menor pérdida de información mutua global .
Como resultado, la salida puede pensarse no solo como un árbol binario, sino quizás más útil como una secuencia de fusiones, terminando con una gran clase de todas las palabras. Este modelo tiene la misma forma general que un modelo de Markov oculto , reducido a probabilidades de bigrama en la solución de Brown al problema. MI se define como:
Encontrar el agrupamiento que maximiza la probabilidad de los datos es computacionalmente costoso. El enfoque propuesto por Brown et al. es una heurística codiciosa .
El trabajo también sugiere el uso de agrupaciones de Brown como un modelo simplista de lenguaje basado en clases de bigrama. Dados los indicadores de pertenencia al clúster c i para los tokens w i en un texto, la probabilidad de la instancia de palabra w i dada la palabra anterior w i-1 viene dada por: [3]
Esto ha sido criticado [ cita requerida ] por ser de utilidad limitada, ya que solo predice la palabra más común en cualquier clase, por lo que se restringe a | c | tipos de palabras; esto se refleja en la baja reducción relativa de la perplejidad encontrada al utilizar este modelo y Brown.
Variaciones
Otros trabajos han examinado los trigramas en sus enfoques del problema de la agrupación de Brown. [4]
La agrupación marrón como se propone genera un número fijo de clases de salida. Es importante elegir el número correcto de clases, que depende de la tarea. [5] Las membresías de grupos de palabras resultantes de la agrupación de Brown se pueden usar como características en una variedad de tareas de procesamiento de lenguaje natural aprendidas por máquina . [2]
Una generalización del algoritmo se publicó en la conferencia AAAI en 2016, incluida una definición formal sucinta de la versión de 1992 y luego también la forma general. [6] El núcleo de esto es el concepto de que las clases consideradas para fusionar no necesariamente representan el número final de clases de salida, y que alterar el número de clases consideradas para fusionar afecta directamente la velocidad y calidad del resultado final.
No existen garantías teóricas conocidas sobre la heurística codiciosa propuesta por Brown et al. (a febrero de 2018). Sin embargo, el problema de la agrupación en clústeres puede enmarcarse como una estimación de los parámetros del modelo de lenguaje basado en clases subyacente: es posible desarrollar un estimador consistente para este modelo bajo supuestos moderados. [7]
Ver también
Referencias
- ^ a b Peter F. Brown; Peter V. de Souza; Robert L. Mercer; Vincent J. Della Pietra; Jenifer C. Lai (1992). " Modelos de n -gramas basados en clases de lenguaje natural" (PDF) . Lingüística computacional . 18 (4).
- ^ a b Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Representaciones de palabras: un método simple y general para el aprendizaje semi-supervisado (PDF) . Actas de la 48ª Reunión Anual de la Asociación de Lingüística Computacional.
- ^ a b c d Daniel Jurafsky; James H. Martin (2009). Procesamiento del habla y el lenguaje . Pearson Education International. págs. 145-146.
- ^ Sven Martin; Jorg Liermann; Hermann Ney (1999). "Algoritmos para agrupación de palabras bigrama y trigrama". Comunicación de voz . 24 (1): 19–37. CiteSeerX 10.1.1.53.2354 . doi : 10.1016 / S0167-6393 (97) 00062-9 .
- ^ Leon Derczynski; Sean Chester; Kenneth S. Bogh (2015). Ajuste su agrupación de Brown, por favor (PDF) . Actas de la conferencia sobre avances recientes en el procesamiento del lenguaje natural.
- ^ Leon Derczynski; Sean Chester (2016). Generación de funciones acumuladas y agrupación marrón generalizada . Actas de la Trigésima Conferencia AAAI sobre Inteligencia Artificial.
- ^ Karl Stratos; Do-kyum Kim; Michael Collins; Daniel Hsu (2014). Un algoritmo espectral para el aprendizaje de modelos n-gramas basados en clases de lenguaje natural (PDF) . Actas de la 30ª Conferencia sobre Incertidumbre en Inteligencia Artificial.
enlaces externos
- Cómo ajustar la agrupación de Brown