Etiquetado de grupos

En el procesamiento del lenguaje natural y la recuperación de información , el etiquetado de agrupaciones es el problema de elegir etiquetas descriptivas legibles por humanos para las agrupaciones producidas por un algoritmo de agrupación de documentos ; Los algoritmos de agrupación en clústeres estándar no suelen producir tales etiquetas. Los algoritmos de etiquetado de conglomerados examinan el contenido de los documentos por conglomerado para encontrar un etiquetado que resuma el tema de cada conglomerado y distinga los conglomerados entre sí.

Etiquetado de racimo diferencial

El etiquetado diferencial de conglomerados etiqueta un conglomerado comparando distribuciones de términos entre los conglomerados, utilizando técnicas que también se utilizan para la selección de características en la clasificación de documentos , como la información mutua y la selección de características chi-cuadrado . Los términos que tienen una frecuencia muy baja no son los mejores para representar todo el grupo y pueden omitirse al etiquetar un grupo. Al omitir esos términos raros y usar una prueba diferencial, se pueden lograr los mejores resultados con el etiquetado diferencial de grupos. ^[1]

Información mutua puntual

En los campos de la teoría de la probabilidad y la teoría de la información , la información mutua mide el grado de dependencia de dos variables aleatorias . La información mutua de dos variables $X$ e $Y$ se define como:

${\ Displaystyle I (X, Y) = \ sum _ {x \ in X} {\ sum _ {y \ in Y} {p (x, y) log_ {2} \ left ({\ frac {p (x , y)} {p_ {1} (x) p_ {2} (y)}} \ right)}}}$

donde p (x, y) es la distribución de probabilidad conjunta de las dos variables, p ₁ (x) es la distribución de probabilidad de X y p ₂ (y) es la distribución de probabilidad de Y.

En el caso del etiquetado de conglomerados, la variable X se asocia con la pertenencia a un conglomerado y la variable Y se asocia con la presencia de un término. ^[2] Ambas variables pueden tener valores de 0 o 1, por lo que la ecuación se puede reescribir de la siguiente manera:

${\ Displaystyle I (C, T) = \ sum _ {c \ in {0,1}} {\ sum _ {t \ in {0,1}} {p (C = c, T = t) log_ { 2} \ left ({\ frac {p (C = c, T = t)} {p (C = c) p (T = t)}} \ right)}}}$

En este caso, p (C = 1) representa la probabilidad de que un documento seleccionado al azar sea miembro de un grupo en particular, y p (C = 0) representa la probabilidad de que no lo sea. De manera similar, p (T = 1) representa la probabilidad de que un documento seleccionado al azar contenga un término dado, y p (T = 0) representa la probabilidad de que no lo haga. La función de distribución de probabilidad conjunta p (C, T) representa la probabilidad de que dos eventos ocurran simultáneamente. Por ejemplo, p (0, 0) es la probabilidad de que un documento no sea miembro del grupo c y no contenga el término t ; p (0, 1) es la probabilidad de que un documento no sea miembro del grupo C y contenga el término T ; y así.

Selección chi-cuadrado

La prueba de chi-cuadrado de Pearson se puede utilizar para calcular la probabilidad de que la ocurrencia de un evento coincida con las expectativas iniciales. En particular, se puede utilizar para determinar si dos eventos, A y B, son estadísticamente independientes . El valor de la estadística de chi-cuadrado es:

${\ Displaystyle X ^ {2} = \ sum _ {a \ in A} {\ sum _ {b \ in B} {\ frac {(O_ {a, b} -E_ {a, b}) ^ {2 }} {E_ {a, b}}}}}$

donde O _{a, b} es la frecuencia observada de co-ocurrencia de ayb, y E _{a, b} es la frecuencia esperada de co-ocurrencia.

En el caso del etiquetado de conglomerados, la variable A está asociada con la pertenencia a un conglomerado y la variable B está asociada con la presencia de un término. Ambas variables pueden tener valores de 0 o 1, por lo que la ecuación se puede reescribir de la siguiente manera:

${\ Displaystyle X ^ {2} = \ sum _ {a \ in {0,1}} {\ sum _ {b \ in {0,1}} {\ frac {(O_ {a, b} -E_ { a, b}) ^ {2}} {E_ {a, b}}}}}$

Por ejemplo, O _1,0 es el número observado de documentos que están en un grupo particular pero no contienen un término determinado, y E _1,0 es el número esperado de documentos que están en un grupo particular pero no contienen un cierto término. Nuestra suposición inicial es que los dos eventos son independientes, por lo que las probabilidades esperadas de co-ocurrencia se pueden calcular multiplicando las probabilidades individuales: ^[3]

E _1,0 = N * P (C = 1) * P (T = 0)

donde N es el número total de documentos de la colección.

Etiquetado interno del clúster

El etiquetado interno del clúster selecciona etiquetas que solo dependen del contenido del clúster de interés. No se hace ninguna comparación con los otros grupos. El etiquetado interno del clúster puede usar una variedad de métodos, como encontrar términos que ocurren con frecuencia en el centroide o encontrar el documento que se encuentra más cerca del centroide.

Etiquetas de centroide

Un modelo de uso frecuente en el campo de la recuperación de información es el modelo de espacio vectorial, que representa los documentos como vectores. Las entradas en el vector corresponden a términos del vocabulario . Los vectores binarios tienen un valor de 1 si el término está presente dentro de un documento en particular y 0 si está ausente. Muchos vectores utilizan pesos que reflejan la importancia de un término en un documento y / o la importancia del término en una colección de documentos. Para un grupo particular de documentos, podemos calcular el centroide encontrando la media aritmética de todos los vectores del documento. Si una entrada en el vector centroide tiene un valor alto, entonces el término correspondiente aparece con frecuencia dentro del grupo. Estos términos se pueden utilizar como etiqueta para el grupo. Una desventaja de usar el etiquetado de centroide es que puede captar palabras como "lugar" y "palabra" que tienen una frecuencia alta en el texto escrito, pero que tienen poca relevancia para el contenido del grupo en particular.

Etiquetas de centroide contextualizadas

Una forma sencilla y rentable de superar la limitación anterior es incrustar los términos del centroide con el mayor peso en una estructura de gráfico que proporcione un contexto para su interpretación y selección. ^[4] En este enfoque, una matriz de co-ocurrencia término-término referida como ${\ Displaystyle T_ {k}}$ se construye primero para cada clúster ${\ Displaystyle S_ {k}}$ . Cada celda representa el número de veces que el término ${\ Displaystyle i}$ co-ocurre con el término ${\ Displaystyle j}$ dentro de una determinada ventana de texto (una oración, un párrafo, etc.) En una segunda etapa, una matriz de similitud ${\ Displaystyle T_ {k} ^ {sim}}$ se obtiene multiplicando ${\ Displaystyle T_ {k}}$ con su transposición. Tenemos ${\ Displaystyle T_ {k} ^ {sim} = T_ {k} 'T_ {k} = (t _ {{sim} _ {ij}})}$ . Siendo el producto escalar de dos vectores normalizados ${\ Displaystyle {\ tilde {t}} _ {i}}$ y ${\ Displaystyle {\ tilde {t}} _ {j}}$ , ${\ Displaystyle t _ {{sim} _ {ij}}}$ denota la similitud de coseno entre términos ${\ Displaystyle i}$ y ${\ Displaystyle j}$ . El asi obtenido ${\ Displaystyle T_ {k} ^ {sim}}$ A continuación, se puede utilizar como matriz de adyacencia ponderada de un gráfico de semejanza de términos. Los términos del centroide son parte de este gráfico y, por lo tanto, pueden interpretarse y puntuarse inspeccionando los términos que los rodean en el gráfico.

Etiquetas de título

Una alternativa al etiquetado de centroide es el etiquetado de título. Aquí, encontramos el documento dentro del grupo que tiene la distancia euclidiana más pequeña al centroide y usamos su título como una etiqueta para el grupo. Una ventaja de usar títulos de documentos es que brindan información adicional que no estaría presente en una lista de términos. Sin embargo, también pueden inducir a error al usuario, ya que es posible que un documento no sea representativo de todo el grupo.

Etiquetas de conocimiento externo

El etiquetado de conglomerados se puede realizar de forma indirecta mediante el uso de conocimientos externos, como el conocimiento previamente categorizado, como el de Wikipedia. ^[5] En tales métodos, primero se extrae un conjunto de características importantes del texto del clúster de los documentos del clúster. Luego, estas características se pueden usar para recuperar los documentos categorizados K más cercanos (ponderados) de los cuales se pueden extraer candidatos para etiquetas de clúster. El paso final implica la clasificación de dichos candidatos. Los métodos adecuados son aquellos que se basan en una votación o un proceso de fusión que se determina utilizando el conjunto de documentos categorizados y las características originales del grupo.

Combinación de varias etiquetadoras de clúster

Las etiquetas de grupo de varias etiquetadoras de grupo diferentes se pueden combinar aún más para obtener mejores etiquetas. Por ejemplo, la regresión lineal se puede utilizar para aprender una combinación óptima de puntuaciones de etiquetado. ^[6] Una técnica más sofisticada se basa en un enfoque de fusión y análisis de la estabilidad de decisión de las etiquetas de grupo de varios etiquetadores. ^[7]

enlaces externos

Agrupación jerárquica
Etiquetado automático de clústeres jerárquicos

Referencias

^ Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Etiquetado de grupos . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/cluster-labeling-1.html >.
^ Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Información mutua . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html >.
^ Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Chi2 Feature Selection . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html >.
^ Papel de Francois, Moahmed Nadif. Más allá del etiquetado de clústeres: interpretación semántica del contenido de los clústeres mediante una representación gráfica. Sistemas basados en el conocimiento, volumen 56, enero de 2014: 141-155
^ David Carmel, Hageo Roitman, Naama Zwerdling. Mejora del etiquetado de clústeres mediante wikipedia. SIGIR 2009: 139-146
^ David Carmel, Hageo Roitman, Naama Zwerdling. Mejora del etiquetado de clústeres mediante wikipedia. SIGIR 2009: 139-146
^ Hageo Roitman, Shay Hummel, Michal Shmueli-Scheuer. Un enfoque de fusión para el etiquetado de grupos. SIGIR 2014: 883-886

[1] Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Etiquetado de grupos . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/cluster-labeling-1.html >.

[2] Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Información mutua . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html >.

[3] Manning, Christopher D., Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Cambridge: Cambridge UP, 2008. Chi2 Feature Selection . Grupo de procesamiento del lenguaje natural de Stanford. Web. 25 de noviembre de 2009. < http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html >.

[4] Papel de Francois, Moahmed Nadif. Más allá del etiquetado de clústeres: interpretación semántica del contenido de los clústeres mediante una representación gráfica. Sistemas basados en el conocimiento, volumen 56, enero de 2014: 141-155

[5] David Carmel, Hageo Roitman, Naama Zwerdling. Mejora del etiquetado de clústeres mediante wikipedia. SIGIR 2009: 139-146

[6] David Carmel, Hageo Roitman, Naama Zwerdling. Mejora del etiquetado de clústeres mediante wikipedia. SIGIR 2009: 139-146

[7] Hageo Roitman, Shay Hummel, Michal Shmueli-Scheuer. Un enfoque de fusión para el etiquetado de grupos. SIGIR 2014: 883-886

[1]