Modelos de gráficos aleatorios de familias exponenciales


Los modelos de gráficos aleatorios de familias exponenciales (ERGM) son una familia de modelos estadísticos para analizar datos de redes sociales y otras . [1] [2] Ejemplos de redes examinadas usando ERGM incluyen redes de conocimiento, [3] redes organizacionales, [4] redes de colegas, [5] redes de medios sociales, redes de desarrollo científico, [6] y otras.

Existen muchas métricas para describir las características estructurales de una red observada, como la densidad, la centralidad o la assortatividad. [7] [8] Sin embargo, estas métricas describen la red observada, que es solo una instancia de una gran cantidad de posibles redes alternativas. Este conjunto de redes alternativas puede tener características estructurales similares o diferentes. Para respaldar la inferencia estadística sobre los procesos que influyen en la formación de la estructura de la red, un modelo estadístico debe considerar el conjunto de todas las posibles redes alternativas ponderadas en función de su similitud con una red observada. Sin embargo, debido a que los datos de la red son inherentemente relacionales, violan los supuestos de independencia y distribución idéntica de modelos estadísticos estándar comoregresión lineal . [9] [10] Los modelos estadísticos alternativos deben reflejar la incertidumbre asociada con una observación determinada, permitir la inferencia sobre la frecuencia relativa sobre las subestructuras de red de interés teórico, eliminar la ambigüedad de la influencia de los procesos de confusión, representar de manera eficiente estructuras complejas y vincular procesos a nivel local. a propiedades de nivel global. [11] La aleatorización que conserva el grado , por ejemplo, es una forma específica en la que una red observada podría considerarse en términos de múltiples redes alternativas.

La familia exponencial es una amplia familia de modelos para cubrir muchos tipos de datos, no solo redes. Un ERGM es un modelo de esta familia que describe redes.

Formalmente, un gráfico aleatorio consta de un conjunto de nodos y díadas (aristas) donde si los nodos están conectados y de otra manera.

El supuesto básico de estos modelos es que la estructura en un gráfico observado puede explicarse mediante un vector dado de estadísticas suficientes que son una función de la red observada y, en algunos casos, atributos nodales. De esta forma, es posible describir cualquier tipo de dependencia entre las variables no diádicas: