Punto de referencia Lancichinetti – Fortunato – Radicchi

Lancichinetti-Fortunato-Radicchi de referencia es un algoritmo que genera referencia redes (redes artificiales que se asemejan a las redes del mundo real). Tienen comunidades conocidas a priori y se utilizan para comparar diferentes métodos de detección de comunidades. ^[1] La ventaja del punto de referencia sobre otros métodos es que da cuenta de la heterogeneidad en las distribuciones de los grados de los nodos y del tamaño de las comunidades. ^[2]

El algoritmo

Los grados de los nodos y los tamaños de las comunidades se distribuyen según una ley de potencia , con diferentes exponentes. El punto de referencia asume que tanto el grado como el tamaño de la comunidad tienen distribuciones de ley de potencia con diferentes exponentes, ${\ Displaystyle \ gamma}$ y ${\ Displaystyle \ beta}$ , respectivamente. ${\ Displaystyle N}$ es el número de nodos y el grado medio es ${\ Displaystyle \ langle k \ rangle}$ . Hay un parámetro de mezcla ${\ Displaystyle \ mu}$ , que es la fracción promedio de nodos vecinos de un nodo que no pertenecen a ninguna comunidad a la que pertenezca el nodo de referencia. Este parámetro controla la fracción de bordes que hay entre comunidades. ^[2] Por lo tanto, refleja la cantidad de ruido en la red. En los extremos, cuando ${\ Displaystyle \ mu = 0}$ todos los enlaces están dentro de los enlaces de la comunidad, si ${\ Displaystyle \ mu = 1}$ todos los enlaces son entre nodos que pertenecen a diferentes comunidades. ^[3]

Se puede generar la red de referencia mediante los siguientes pasos.

Paso 1: Genere una red con nodos siguiendo una distribución de ley de potencia con exponente ${\ Displaystyle \ gamma}$ y elige los extremos de la distribución ${\ Displaystyle k _ {\ min}}$ y ${\ Displaystyle k _ {\ max}}$ obtener el grado promedio deseado es ${\ Displaystyle \ langle k \ rangle}$ .

Paso 2: ${\ Displaystyle (1- \ mu)}$ fracción de enlaces de cada nodo es con nodos de la misma comunidad, mientras que la fracción ${\ Displaystyle \ mu}$ está con los otros nodos.

Paso 3: generar tamaños de comunidad a partir de una distribución de ley de potencia con exponente ${\ Displaystyle \ beta}$ . La suma de todos los tamaños debe ser igual a ${\ Displaystyle N}$ . Los tamaños mínimos y máximos de la comunidad ${\ Displaystyle s _ {\ min}}$ y ${\ Displaystyle s _ {\ max}}$ debe satisfacer la definición de comunidad para que cada nodo no aislado esté en al menos una comunidad:

{\ Displaystyle s _ {\ min}> k _ {\ min}}

{\ Displaystyle s _ {\ max}> k _ {\ max}}

Paso 4: Inicialmente, no se asignan nodos a las comunidades. Luego, cada nodo se asigna aleatoriamente a una comunidad. Siempre que la cantidad de nodos vecinos dentro de la comunidad no exceda el tamaño de la comunidad, se agregará un nuevo nodo a la comunidad; de lo contrario, permanecerá fuera. En las siguientes iteraciones, el nodo "sin hogar" se asigna aleatoriamente a alguna comunidad. Si esa comunidad está completa, es decir, se agota el tamaño, se debe desvincular un nodo seleccionado al azar de esa comunidad. Detenga la iteración cuando todas las comunidades estén completas y todos los nodos pertenezcan al menos a una comunidad.

Paso 5: Implementar el recableado de nodos manteniendo los mismos grados de nodo pero solo afectando la fracción de enlaces internos y externos de modo que el número de enlaces fuera de la comunidad para cada nodo sea aproximadamente igual al parámetro de mezcla ${\ Displaystyle \ mu}$ . ^[2]

Pruebas

Considere una partición en comunidades que no se superpongan. Las comunidades de nodos elegidos al azar en cada iteración siguen un ${\ Displaystyle p (C)}$ distribución que representa la probabilidad de que un nodo elegido al azar sea de la comunidad ${\ Displaystyle C}$ . Considere una partición de la misma red que fue predicha por algún algoritmo de búsqueda de la comunidad y tiene ${\ Displaystyle p (C_ {2})}$ distribución. La partición de referencia tiene ${\ Displaystyle p (C_ {1})}$ distribución. La distribución conjunta es ${\ Displaystyle p (C_ {1}, C_ {2})}$ . La similitud de estas dos particiones se captura mediante la información mutua normalizada .

{\ Displaystyle I_ {n} = {\ frac {\ sum _ {C_ {1}, C_ {2}} p (C_ {1}, C_ {2}) \ log _ {2} {\ frac {p ( C_ {1}, C_ {2})} {p (C_ {1}) p (C_ {2})}}} {{\ frac {1} {2}} H (\ {p (C_ {1} ) \}) + {\ frac {1} {2}} H (\ {p (C_ {2}) \})}}}

Si ${\ Displaystyle I_ {n} = 1}$ el punto de referencia y las particiones detectadas son idénticas, y si ${\ Displaystyle I_ {n} = 0}$ entonces son independientes entre sí. ^[4]

Referencias

^ Hua-Wei Shen (2013). "Estructura comunitaria de redes complejas". Springer Science & Business Media. 11-12.
^ ^a ^b ^c A. Lancichinetti, S. Fortunato y F. Radicchi. (2008) Gráficos de referencia para probar algoritmos de detección de comunidades. Revisión física E, 78. arXiv : 0805.4770
^ Twan van Laarhoven y Elena Marchiori (2013). "Detección de comunidad de red con clasificadores de bordes entrenados en gráficos LFR". https://www.cs.ru.nl/~elenam/paper-learning-community.pdf
^ Barabasi, A.-L. (2014). "Ciencia de la red". Capítulo 9: Comunidades.

[1] Hua-Wei Shen (2013). "Estructura comunitaria de redes complejas". Springer Science & Business Media. 11-12.

[original-2] A. Lancichinetti, S. Fortunato y F. Radicchi. (2008) Gráficos de referencia para probar algoritmos de detección de comunidades. Revisión física E, 78. arXiv : 0805.4770

[3] Twan van Laarhoven y Elena Marchiori (2013). "Detección de comunidad de red con clasificadores de bordes entrenados en gráficos LFR". https://www.cs.ru.nl/~elenam/paper-learning-community.pdf

[4] Barabasi, A.-L. (2014). "Ciencia de la red". Capítulo 9: Comunidades.

[1]