Mayorización de estrés

Mayorización estrés es una estrategia de optimización utilizado en escalamiento multidimensional (MDS), donde, para un conjunto de n m elementos de datos dimensionales, una configuración X de n puntos en r (<< m) se busca espacio dimensional que minimiza los llamados función de estrés ${\ Displaystyle \ sigma (X)}$ . Por lo general, r es 2 o 3, es decir, la matriz ( n x r ) X enumera puntos en el espacio euclidiano bidimensional o tridimensional para que se pueda visualizar el resultado (es decir, un gráfico MDS ). La función ${\ Displaystyle \ sigma}$ es una función de costo o pérdida que mide las diferencias al cuadrado entre ideal ( ${\ Displaystyle m}$ -dimensional) distancias y distancias reales en el espacio r -dimensional. Se define como:

{\ Displaystyle \ sigma (X) = \ sum _ {i

dónde ${\ Displaystyle w_ {ij} \ geq 0}$ es un peso para la medición entre un par de puntos ${\ Displaystyle (i, j)}$ , ${\ Displaystyle d_ {ij} (X)}$ es la distancia euclidiana entre ${\ Displaystyle i}$ y ${\ Displaystyle j}$ y ${\ Displaystyle \ delta _ {ij}}$ es la distancia ideal entre los puntos (su separación) en el ${\ Displaystyle m}$ -espacio de datos dimensional. Tenga en cuenta que ${\ Displaystyle w_ {ij}}$ se puede utilizar para especificar un grado de confianza en la similitud entre puntos (por ejemplo, se puede especificar 0 si no hay información para un par en particular).

Una configuración ${\ Displaystyle X}$ que minimiza ${\ Displaystyle \ sigma (X)}$ da una gráfica en la que los puntos que están juntos corresponden a puntos que también están cerca en el original ${\ Displaystyle m}$ -espacio de datos dimensional.

Hay muchas formas en las que ${\ Displaystyle \ sigma (X)}$ podría minimizarse. Por ejemplo, Kruskal ^[1] recomendó una aproximación iterativa de descenso más empinado . Sin embargo, Jan de Leeuw introdujo un método significativamente mejor (en términos de garantías y tasa de convergencia) para minimizar el estrés . ^[2] El método de mayorización iterativo de De Leeuw en cada paso minimiza una función convexa simple que ambos límites ${\ Displaystyle \ sigma}$ desde arriba y toca la superficie de ${\ Displaystyle \ sigma}$ en un punto ${\ Displaystyle Z}$ , llamado el punto de apoyo . En el análisis convexo, esta función se denomina función mayorizadora . Este proceso de mayorización iterativo también se conoce como el algoritmo SMACOF ("Escalado por mayorización de una función implícita").

El algoritmo SMACOF

La función de estrés ${\ Displaystyle \ sigma}$ se puede ampliar de la siguiente manera:

{\ Displaystyle \ sigma (X) = \ sum _ {i

Tenga en cuenta que el primer término es una constante ${\ Displaystyle C}$ y el segundo término es cuadrático en X (es decir, para la matriz de Hesse V, el segundo término es equivalente a tr ${\ displaystyle X'VX}$ ) y, por lo tanto, se resuelve con relativa facilidad. El tercer término está delimitado por:

{\ Displaystyle \ sum _ {i }>

dónde ${\ Displaystyle B (Z)}$ posee:

{\ Displaystyle b_ {ij} = - {\ frac {w_ {ij} \ delta _ {ij}} {d_ {ij} (Z)}}}

por

{\ Displaystyle d_ {ij} (Z) \ neq 0, i \ neq j}

y ${\ Displaystyle b_ {ij} = 0}$ por ${\ Displaystyle d_ {ij} (Z) = 0, i \ neq j}$

y ${\ Displaystyle b_ {ii} = - \ sum _ {j = 1, j \ neq i} ^ {n} b_ {ij}}$ .

Prueba de esta desigualdad es la desigualdad de Cauchy-Schwarz , véase Borg ^[3] (págs. 152-153).

Por lo tanto, tenemos una función cuadrática simple ${\ Displaystyle \ tau (X, Z)}$ que mayoriza el estrés:

{\ Displaystyle \ sigma (X) = C + \, \ operatorname {tr} \, X'VX-2 \, \ operatorname {tr} \, X'B (X) X}

{\ Displaystyle \ leq C + \, \ operatorname {tr} \, X'VX-2 \, \ operatorname {tr} \, X'B (Z) Z = \ tau (X, Z)}

El procedimiento de minimización iterativo es entonces:

en el k- ^ésimo paso que ponemos ${\ Displaystyle Z \ leftarrow X ^ {k-1}}$
${\ Displaystyle X ^ {k} \ flecha izquierda \ min _ {X} \ tau (X, Z)}$
detente si ${\ Displaystyle \ sigma (X ^ {k-1}) - \ sigma (X ^ {k}) <\ epsilon}$ de lo contrario repita.

Se ha demostrado que este algoritmo reduce el estrés de forma monótona (véase de Leeuw ^[2] ).

Usar en el dibujo de gráficos

La mayorización de estrés y algoritmos similares a SMACOF también tienen aplicación en el campo del dibujo de gráficos . ^[4]^[5] Es decir, se puede encontrar un diseño razonablemente atractivo desde el punto de vista estético para una red o gráfico minimizando una función de tensión sobre las posiciones de los nodos en el gráfico. En este caso, el ${\ Displaystyle \ delta _ {ij}}$ generalmente se establecen en las distancias teóricas de gráficos entre los nodos i y j y los pesos ${\ Displaystyle w_ {ij}}$ se toman para ser ${\ Displaystyle \ delta _ {ij} ^ {- \ alpha}}$ . Aquí, ${\ Displaystyle \ alpha}$ se elige como una compensación entre preservar distancias ideales de largo o corto alcance. Se han demostrado buenos resultados para ${\ Displaystyle \ alpha = 2}$ . ^[6]

Referencias

^ Kruskal, JB (1964), "Escalado multidimensional optimizando la bondad de ajuste a una hipótesis no métrica", Psychometrika , 29 (1): 1–27, doi : 10.1007 / BF02289565.
^ ^a ^b de Leeuw, J. (1977), "Aplicaciones del análisis convexo al escalado multidimensional", en Barra, JR; Brodeau, F .; Romie, G .; et al. (eds.), Desarrollos recientes en las estadísticas , págs. 133–145.
^ Borg, I .; Groenen, P. (1997), Escalado multidimensional moderno: teoría y aplicaciones , Nueva York: Springer-Verlag.
^ Michailidis, G .; de Leeuw, J. (2001), "Visualización de datos a través del dibujo de gráficos", Computation Stat. , 16 (3): 435–450, CiteSeerX 10.1.1.28.9372 , doi : 10.1007 / s001800100077.
^ Gansner, E .; Koren, Y .; North, S. (2004), "Dibujo de gráficos por mayorización de la tensión", Actas de la 12ª Int. Symp. Graph Drawing (GD'04) , Lecture Notes in Computer Science, 3383 , Springer-Verlag, págs. 239–250.
^ Cohen, J. (1997), "Dibujar gráficos para transmitir la proximidad: un método de arreglo incremental", ACM Transactions on Computer-Human Interaction , 4 (3): 197–229, doi : 10.1145 / 264645.264657.

[1] Kruskal, JB (1964), "Escalado multidimensional optimizando la bondad de ajuste a una hipótesis no métrica", Psychometrika , 29 (1): 1–27, doi : 10.1007 / BF02289565.

[de_Leeuw-2] Leeuw, J. (1977), "Aplicaciones del análisis convexo al escalado multidimensional", en Barra, JR; Brodeau, F .; Romie, G .; et al. (eds.), Desarrollos recientes en las estadísticas , págs. 133–145.

[borg-3] Borg, I .; Groenen, P. (1997), Escalado multidimensional moderno: teoría y aplicaciones , Nueva York: Springer-Verlag.

[4] Michailidis, G .; de Leeuw, J. (2001), "Visualización de datos a través del dibujo de gráficos", Computation Stat. , 16 (3): 435–450, CiteSeerX 10.1.1.28.9372 , doi : 10.1007 / s001800100077.

[5] Gansner, E .; Koren, Y .; North, S. (2004), "Dibujo de gráficos por mayorización de la tensión", Actas de la 12ª Int. Symp. Graph Drawing (GD'04) , Lecture Notes in Computer Science, 3383 , Springer-Verlag, págs. 239–250.

[6] Cohen, J. (1997), "Dibujar gráficos para transmitir la proximidad: un método de arreglo incremental", ACM Transactions on Computer-Human Interaction , 4 (3): 197–229, doi : 10.1145 / 264645.264657.

[1]