Agrupación difusa

El agrupamiento difuso (también denominado agrupamiento suave o k- medias suaves ) es una forma de agrupamiento en el que cada punto de datos puede pertenecer a más de un grupo.

El análisis de conglomerados o conglomerados implica la asignación de puntos de datos a conglomerados de modo que los elementos del mismo conglomerado sean lo más similares posible, mientras que los elementos que pertenecen a diferentes conglomerados sean lo más diferentes posible. Los conglomerados se identifican mediante medidas de similitud. Estas medidas de similitud incluyen distancia, conectividad e intensidad. Se pueden elegir diferentes medidas de similitud en función de los datos o la aplicación. ^[1]

Comparación con el agrupamiento duro

En la agrupación no difusa (también conocida como agrupación rígida), los datos se dividen en agrupaciones distintas, donde cada punto de datos solo puede pertenecer exactamente a una agrupación. En la agrupación en clústeres difusos, los puntos de datos pueden pertenecer potencialmente a varios clústeres. Por ejemplo, una manzana puede ser roja o verde (agrupamiento duro), pero una manzana también puede ser roja Y verde (agrupamiento difuso). Aquí, la manzana puede ser roja hasta cierto punto y verde hasta cierto punto. En lugar de que la manzana pertenezca al verde [verde = 1] y no al rojo [rojo = 0], la manzana puede pertenecer al verde [verde = 0,5] y al rojo [rojo = 0,5]. Estos valores están normalizados entre 0 y 1; sin embargo, no representan probabilidades, por lo que no es necesario que los dos valores sumen 1.

Afiliación

Las calificaciones de membresía se asignan a cada uno de los puntos de datos (etiquetas). Estos grados de membresía indican el grado en que los puntos de datos pertenecen a cada grupo. Por lo tanto, los puntos en el borde de un grupo, con grados de membresía más bajos, pueden estar en el grupo en menor grado que los puntos en el centro del grupo.

Agrupación difusa de C-significa

Uno de los algoritmos de agrupación en clústeres difusos más utilizados es el algoritmo de agrupación en clústeres difusos de C-medias (FCM).

Historia

El agrupamiento difuso de c-medias (FCM) fue desarrollado por JC Dunn en 1973, ^[2] y mejorado por JC Bezdek en 1981. ^[3]

Descripción general

El algoritmo difuso de c- medias es muy similar al algoritmo de k- medias :

Elija varios grupos .
Asigne coeficientes aleatoriamente a cada punto de datos por estar en los conglomerados.
Repita hasta que el algoritmo haya convergido (es decir, el cambio de los coeficientes entre dos iteraciones no es más de ${\ Displaystyle \ varepsilon}$ , el umbral de sensibilidad dado):
- Calcule el centroide de cada grupo (que se muestra a continuación).
- Para cada punto de datos, calcule sus coeficientes de pertenencia a los conglomerados.

Centroide

Cualquier punto x tiene un conjunto de coeficientes que dan el grado de pertenencia al k- ésimo grupo w _k ( x ). Con medias c difusas, el centroide de un grupo es la media de todos los puntos, ponderada por su grado de pertenencia al grupo o, matemáticamente,

${\ Displaystyle c_ {k} = {{\ sum _ {x} {w_ {k} (x)} ^ {m} x} \ over {\ sum _ {x} {w_ {k} (x)} ^ {metro}}},}$

donde m es el hiperparámetro que controla qué tan borroso será el clúster. Cuanto más alto sea, más borroso será el grupo al final.

Algoritmo

El algoritmo FCM intenta dividir una colección finita de ${\ Displaystyle n}$ elementos ${\ Displaystyle X = \ {\ mathbf {x} _ {1}, ..., \ mathbf {x} _ {n} \}}$ en una colección de c clústeres difusos con respecto a algún criterio dado.

Dado un conjunto finito de datos, el algoritmo devuelve una lista de ${\ Displaystyle c}$ centros de clúster ${\ Displaystyle C = \ {\ mathbf {c} _ {1}, ..., \ mathbf {c} _ {c} \}}$ y una matriz de partición

${\ Displaystyle W = w_ {i, j} \ in [0,1], \; i = 1, ..., n, \; j = 1, ..., c}$ , donde cada elemento, ${\ Displaystyle w_ {ij}}$ , indica el grado en el que el elemento, ${\ Displaystyle \ mathbf {x} _ {i}}$ , pertenece al clúster ${\ Displaystyle \ mathbf {c} _ {j}}$ .

El FCM tiene como objetivo minimizar una función objetivo:

{\ Displaystyle {\ underset {C} {\ operatorname {arg \, min}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {c} w_ {ij} ^ { m} \ left \ | \ mathbf {x} _ {i} - \ mathbf {c} _ {j} \ right \ | ^ {2},}

dónde:

{\ Displaystyle w_ {ij} = {\ frac {1} {\ sum _ {k = 1} ^ {c} \ left ({\ frac {\ left \ | \ mathbf {x} _ {i} - \ mathbf {c} _ {j} \ right \ |} {\ left \ | \ mathbf {x} _ {i} - \ mathbf {c} _ {k} \ right \ |}} \ right) ^ {\ frac { 2} {m-1}}}}.}

Comparación con la agrupación en clústeres de K-medias

La agrupación de K-medias también intenta minimizar la función objetivo que se muestra arriba. Este método difiere de la función objetivo de k- medias por la adición de los valores de pertenencia ${\ Displaystyle w_ {ij}}$ y el difusor, ${\ Displaystyle m \ in R}$ , con ${\ Displaystyle m \ geq 1}$ . El difusor ${\ Displaystyle m}$ determina el nivel de confusión del grupo. Un gran ${\ Displaystyle m}$ da como resultado valores de membresía más pequeños, ${\ Displaystyle w_ {ij}}$ , y por lo tanto, clústeres más difusos. En el limite ${\ Displaystyle m = 1}$ , las membresías, ${\ Displaystyle w_ {ij}}$ , convergen en 0 o 1, lo que implica una partición nítida. En ausencia de experimentación o conocimiento del dominio, ${\ Displaystyle m}$ se establece comúnmente en 2. El algoritmo también minimiza la varianza intra-grupo, pero tiene los mismos problemas que 'k'-medias; el mínimo es un mínimo local y los resultados dependen de la elección inicial de pesos.

Algoritmos relacionados

Las medias C difusas (FCM) con determinadas automáticamente para el número de grupos podrían mejorar la precisión de detección. ^{[4] El} uso de una mezcla de gaussianos junto con el algoritmo de maximización de expectativas es un método más formalizado estadísticamente que incluye algunas de estas ideas: pertenencia parcial a clases.

Ejemplo

Para comprender mejor este principio, a continuación se ofrece un ejemplo clásico de datos monodimensionales en un eje x.

Este conjunto de datos se puede agrupar tradicionalmente en dos grupos. Al seleccionar un umbral en el eje x, los datos se separan en dos grupos. Los grupos resultantes están etiquetados como 'A' y 'B', como se ve en la siguiente imagen. Cada punto perteneciente al conjunto de datos tendría, por tanto, un coeficiente de pertenencia de 1 o 0. Este coeficiente de pertenencia de cada punto de datos correspondiente está representado por la inclusión del eje y.

En clústeres difusos, cada punto de datos puede pertenecer a varios clústeres. Al relajar la definición de coeficientes de pertenencia de estrictamente 1 o 0, estos valores pueden oscilar entre cualquier valor de 1 a 0. La siguiente imagen muestra el conjunto de datos del agrupamiento anterior, pero ahora se aplica el agrupamiento difuso de c-medias. Primero, se puede generar un nuevo valor de umbral que defina dos grupos. A continuación, se generan nuevos coeficientes de pertenencia para cada punto de datos en función de los centroides de los grupos, así como la distancia desde cada centroide de los grupos.

Como se puede ver, el punto de datos intermedio pertenece al grupo A y al grupo B. El valor de 0.3 es el coeficiente de pertenencia de este punto de datos para el grupo A. ^[5]

Aplicaciones

Los problemas de agrupamiento tienen aplicaciones en ciencia de superficie, biología, medicina, psicología, economía y muchas otras disciplinas. ^[6]

Bioinformática

En el campo de la bioinformática, la agrupación se utiliza para una serie de aplicaciones. Un uso es como técnica de reconocimiento de patrones para analizar datos de expresión génica a partir de datos de secuenciación de ARN u otras tecnologías. ^[7] En este caso, los genes con patrones de expresión similares se agrupan en el mismo grupo, y los grupos diferentes muestran patrones de expresión distintos y bien separados. El uso de agrupaciones puede proporcionar información sobre la función y la regulación de los genes. ^[6] Debido a que el agrupamiento difuso permite que los genes pertenezcan a más de un grupo, permite la identificación de genes que están co-regulados o co-expresados condicionalmente. ^[8] Por ejemplo, más de un factor de transcripción puede actuar sobre un gen, y un gen puede codificar una proteína que tiene más de una función. Por lo tanto, el agrupamiento difuso es más apropiado que el agrupamiento duro.

Análisis de imagen

Fuzzy c-means ha sido una herramienta muy importante para el procesamiento de imágenes al agrupar objetos en una imagen. En la década de 1970, los matemáticos introdujeron el término espacial en el algoritmo FCM para mejorar la precisión de la agrupación bajo ruido. ^[9] Además, los algoritmos FCM se han utilizado para distinguir entre diferentes actividades utilizando características basadas en imágenes como los Momentos Hu y Zernike. ^[10] Alternativamente, un modelo de lógica difusa se puede describir en conjuntos difusos que se definen en tres componentes del espacio de color HSL HSL y HSV ; Las funciones de membresía tienen como objetivo describir los colores siguiendo la intuición humana de la identificación de colores. ^[11]

Márketing

En marketing, los clientes pueden agruparse en grupos difusos en función de sus necesidades, elecciones de marca, perfiles psicográficos u otras particiones relacionadas con el marketing. ^{[ cita requerida ]}

Ejemplo de procesamiento de imágenes

Imagen segmentada por agrupamiento difuso, con el mapa original (arriba a la izquierda), agrupado (arriba a la derecha) y de membresía (abajo)

Segmentación de imágenes usando k-means clustering algoritmos mucho tiempo se ha utilizado para el reconocimiento de patrones, detección de objetos, y las imágenes médicas. Sin embargo, debido a las limitaciones del mundo real, como el ruido, las sombras y las variaciones en las cámaras, la agrupación rígida tradicional a menudo no puede realizar de manera confiable las tareas de procesamiento de imágenes como se indicó anteriormente. ^[12] Se ha propuesto el agrupamiento difuso como un algoritmo más aplicable en el desempeño de estas tareas. Se proporciona una imagen en escala de grises que ha sufrido un agrupamiento difuso en Matlab. ^[13] La imagen original se ve junto a una imagen agrupada. Los colores se utilizan para dar una representación visual de los tres grupos distintos que se utilizan para identificar la pertenencia de cada píxel. A continuación, se proporciona un cuadro que define los coeficientes de pertenencia difusos de sus correspondientes valores de intensidad.

Dependiendo de la aplicación para la que se vayan a utilizar los coeficientes de agrupamiento difuso, se pueden aplicar diferentes técnicas de preprocesamiento a las imágenes RGB . La conversión de RGB a HCL es una práctica común. ^[14]

Ver también

Agrupación de LLAMA
Análisis de conglomerados
Algoritmo de maximización de expectativas (un método similar, pero más formalizado estadísticamente)

Referencias

^ "Agrupación difusa" . reference.wolfram.com . Consultado el 26 de abril de 2016 .
^ Dunn, JC (1 de enero de 1973). "Un pariente difuso del proceso ISODATA y su uso en la detección de clústeres compactos bien separados". Revista de cibernética . 3 (3): 32–57. doi : 10.1080 / 01969727308546046 . ISSN 0022-0280 .
^ Bezdek, James C. (1981). Reconocimiento de patrones con algoritmos de función objetiva difusa . ISBN 0-306-40671-3 .
^ Said, E El-Khamy; Rowayda A Sadek; Mohamed A El-Khoreby (octubre de 2015). "Una detección de masa cerebral eficiente con media C difusa basada en clústeres adaptativos y umbralización". Conferencia internacional IEEE de 2015 sobre aplicaciones de procesamiento de señales e imágenes (ICSIPA) : 429–433.
^ "Agrupación - C-significa difuso" . home.deib.polimi.it . Consultado el 1 de mayo de 2017 .
^ a b Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar (1 de octubre de 1999). "Agrupación de patrones de expresión génica". Revista de Biología Computacional . 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . doi : 10.1089 / 106652799318274 . ISSN 1066-5277 . PMID 10582567 .
^ Valafar, Faramarz (1 de diciembre de 2002). "Técnicas de reconocimiento de patrones en análisis de datos de microarrays". Anales de la Academia de Ciencias de Nueva York . 980 (1): 41–64. CiteSeerX 10.1.1.199.6445 . doi : 10.1111 / j.1749-6632.2002.tb04888.x . ISSN 1749-6632 . PMID 12594081 .
^ Técnicas de reconocimiento de patrones de Valafar F. en análisis de datos de microarrays. Anales de la Academia de Ciencias de Nueva York. 1 de diciembre de 2002; 980 (1): 41-64.
^ Ahmed, Mohamed N .; Yamany, Sameh M .; Mohamed, Nevin; Farag, Aly A .; Moriarty, Thomas (2002). "Un algoritmo difuso C-medias modificado para la estimación del campo de sesgo y la segmentación de datos de resonancia magnética" (PDF) . Transacciones IEEE sobre imágenes médicas . 21 (3): 193-199. CiteSeerX 10.1.1.331.9742 . doi : 10.1109 / 42.996338 . PMID 11989844 ..
^ Banerjee, Tanvi (2014). "Reconocimiento de actividad diurna o nocturna a partir de vídeo utilizando técnicas de agrupación difusa". Transacciones IEEE en sistemas difusos . 22 (3): 483–493. CiteSeerX 10.1.1.652.2819 . doi : 10.1109 / TFUZZ.2013.2260756 .
^ Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh (2008). Clasificación de colores robusta usando razonamiento difuso y algoritmos genéticos en las ligas de fútbol RoboCup . Robocup . Apuntes de conferencias en Ciencias de la Computación. 5001 . págs. 548–555. doi : 10.1007 / 978-3-540-68847-1_59 . ISBN 978-3-540-68846-4.
^ Yang, Yong (2009). "Segmentación de imágenes basada en agrupamiento difuso con información de vecindario" (PDF) . Optica Applicata . XXXIX .
^ "Agrupación difusa - MATLAB y Simulink" . www.mathworks.com . Consultado el 3 de mayo de 2017 .
^ Lecca, Paola (2011). Enfoques sistémicos en bioinformática y biología de sistemas computacionales . IGI Global. pag. 9. ISBN 9781613504369.

[1] "Agrupación difusa" . reference.wolfram.com . Consultado el 26 de abril de 2016 .

[2] Dunn, JC (1 de enero de 1973). "Un pariente difuso del proceso ISODATA y su uso en la detección de clústeres compactos bien separados". Revista de cibernética . 3 (3): 32–57. doi : 10.1080 / 01969727308546046 . ISSN 0022-0280 .

[3] Bezdek, James C. (1981). Reconocimiento de patrones con algoritmos de función objetiva difusa . ISBN 0-306-40671-3 .

[4] Said, E El-Khamy; Rowayda A Sadek; Mohamed A El-Khoreby (octubre de 2015). "Una detección de masa cerebral eficiente con media C difusa basada en clústeres adaptativos y umbralización". Conferencia internacional IEEE de 2015 sobre aplicaciones de procesamiento de señales e imágenes (ICSIPA) : 429–433.

[5] "Agrupación - C-significa difuso" . home.deib.polimi.it . Consultado el 1 de mayo de 2017 .

[:0-6] Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar (1 de octubre de 1999). "Agrupación de patrones de expresión génica". Revista de Biología Computacional . 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . doi : 10.1089 / 106652799318274 . ISSN 1066-5277 . PMID 10582567 .

[7] Valafar, Faramarz (1 de diciembre de 2002). "Técnicas de reconocimiento de patrones en análisis de datos de microarrays". Anales de la Academia de Ciencias de Nueva York . 980 (1): 41–64. CiteSeerX 10.1.1.199.6445 . doi : 10.1111 / j.1749-6632.2002.tb04888.x . ISSN 1749-6632 . PMID 12594081 .

[8] Técnicas de reconocimiento de patrones de Valafar F. en análisis de datos de microarrays. Anales de la Academia de Ciencias de Nueva York. 1 de diciembre de 2002; 980 (1): 41-64.

[fuzzy_c_means-9] Ahmed, Mohamed N .; Yamany, Sameh M .; Mohamed, Nevin; Farag, Aly A .; Moriarty, Thomas (2002). "Un algoritmo difuso C-medias modificado para la estimación del campo de sesgo y la segmentación de datos de resonancia magnética" (PDF) . Transacciones IEEE sobre imágenes médicas . 21 (3): 193-199. CiteSeerX 10.1.1.331.9742 . doi : 10.1109 / 42.996338 . PMID 11989844 ..

[10] Banerjee, Tanvi (2014). "Reconocimiento de actividad diurna o nocturna a partir de vídeo utilizando técnicas de agrupación difusa". Transacciones IEEE en sistemas difusos . 22 (3): 483–493. CiteSeerX 10.1.1.652.2819 . doi : 10.1109 / TFUZZ.2013.2260756 .

[fuzzyset-11] Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh (2008). Clasificación de colores robusta usando razonamiento difuso y algoritmos genéticos en las ligas de fútbol RoboCup . Robocup . Apuntes de conferencias en Ciencias de la Computación. 5001 . págs. 548–555. doi : 10.1007 / 978-3-540-68847-1_59 . ISBN 978-3-540-68846-4.

[12] Yang, Yong (2009). "Segmentación de imágenes basada en agrupamiento difuso con información de vecindario" (PDF) . Optica Applicata . XXXIX .

[13] "Agrupación difusa - MATLAB y Simulink" . www.mathworks.com . Consultado el 3 de mayo de 2017 .

[14] Lecca, Paola (2011). Enfoques sistémicos en bioinformática y biología de sistemas computacionales . IGI Global. pag. 9. ISBN 9781613504369.

[1]