Métrica de Wasserstein

En matemáticas , la distancia de Wasserstein o métrica de Kantorovich - Rubinstein es una función de distancia definida entre distribuciones de probabilidad en un espacio métrico dado ${\ Displaystyle M}$ .

Intuitivamente, si cada distribución se ve como una cantidad unitaria de tierra (suelo) apilada ${\ Displaystyle M}$ , la métrica es el "costo" mínimo de convertir una pila en otra, que se supone que es la cantidad de tierra que debe moverse multiplicada por la distancia media que debe moverse. Debido a esta analogía, la métrica se conoce en ciencias de la computación como la distancia del movimiento de la tierra .

El nombre "distancia de Wasserstein" fue acuñado por RL Dobrushin en 1970, después de conocerlo en el trabajo del matemático ruso Leonid Vaseršteĭn 1969, sin embargo, la métrica fue definida por primera vez por Leonid Kantorovich en The Mathematical Method of Production Planning and Organization (original ruso de 1939 ) en el contexto de una planificación óptima del transporte de mercancías y materiales. Algunos estudiosos fomentan el uso de los términos "métrica de Kantorovich" y "distancia de Kantorovich". La mayoría de las publicaciones en inglés utilizan la ortografía alemana "Wasserstein" (atribuida a que el nombre "Vaseršteĭn" es de origen alemán ).

Definición

Dejar ${\ Displaystyle (M, d)}$ ser un espacio métrico para el cual cada medida de probabilidad en ${\ Displaystyle M}$ es una medida de radón (el llamado espacio de radón ). Para ${\ Displaystyle p \ geq 1}$ , dejar ${\ Displaystyle P_ {p} (M)}$ denotar la colección de todas las medidas de probabilidad ${\ Displaystyle \ mu}$ en ${\ Displaystyle M}$ con finito ${\ Displaystyle p ^ {\ text {th}}}$ momento . Entonces, existe ${\ Displaystyle x_ {0}}$ en ${\ Displaystyle M}$ tal que:

{\ Displaystyle \ int _ {M} d (x, x_ {0}) ^ {p} \, \ mathrm {d} \ mu (x) <\ infty.}

La ${\ Displaystyle p ^ {\ text {th}}}$ Distancia de Wasserstein entre dos medidas de probabilidad ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ en ${\ Displaystyle P_ {p} (M)}$ Se define como

{\ Displaystyle W_ {p} (\ mu, \ nu): = \ left (\ inf _ {\ gamma \ in \ Gamma (\ mu, \ nu)} \ int _ {M \ times M} d (x, y) ^ {p} \, \ mathrm {d} \ gamma (x, y) \ right) ^ {1 / p},}

dónde ${\ Displaystyle \ Gamma (\ mu, \ nu)}$ denota la recopilación de todas las medidas en ${\ Displaystyle M \ times M}$ con marginales ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ en el primer y segundo factor respectivamente. (El conjunto ${\ Displaystyle \ Gamma (\ mu, \ nu)}$ también se llama el conjunto de todos los acoplamientos de ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ .)

La distancia anterior generalmente se denota ${\ Displaystyle W_ {p} (\ mu, \ nu)}$ (normalmente entre los autores que prefieren la ortografía "Wasserstein") o ${\ Displaystyle \ ell _ {p} (\ mu, \ nu)}$ (típicamente entre los autores que prefieren la ortografía "Vaserstein"). El resto de este artículo utilizará la ${\ Displaystyle W_ {p}}$ notación.

La métrica de Wasserstein se puede definir de manera equivalente por

{\ Displaystyle W_ {p} (\ mu, \ nu) = \ left (\ inf \ operatorname {E} {\ big [} d (X, Y) ^ {p} {\ big]} \ right) ^ { 1 / p},}

dónde ${\ Displaystyle \ mathbf {E} [Z]}$ denota el valor esperado de una variable aleatoria ${\ Displaystyle Z}$ y el mínimo se toma sobre todas las distribuciones conjuntas de las variables aleatorias ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ con marginales ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ respectivamente.

Intuición y conexión para un transporte óptimo

Dos distribuciones unidimensionales

{\ Displaystyle \ mu}

y

{\ Displaystyle \ nu}

, trazada en los ejes xey, y una posible distribución conjunta que define un plan de transporte entre ellos. El plan conjunto de distribución / transporte no es único

Una forma de entender la motivación de la definición anterior es considerar el problema de transporte óptimo . Es decir, para una distribución de masa ${\ Displaystyle \ mu (x)}$ en un espacio ${\ Displaystyle X}$ , deseamos transportar la masa de tal manera que se transforme en la distribución ${\ Displaystyle \ nu (x)}$ en el mismo espacio; transformando el 'montón de tierra' ${\ Displaystyle \ mu}$ a la pila ${\ Displaystyle \ nu}$ . Este problema solo tiene sentido si la pila que se va a crear tiene la misma masa que la pila que se va a mover; por lo tanto, sin pérdida de generalidad, supongamos que ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ son distribuciones de probabilidad que contienen una masa total de 1. Suponga también que se da alguna función de costo

{\ Displaystyle c (x, y) \ mapsto [0, \ infty)}

que da el costo de transportar una unidad de masa desde el punto ${\ Displaystyle x}$ al punto ${\ Displaystyle y}$ . Un plan de transporte para moverse ${\ Displaystyle \ mu}$ dentro ${\ Displaystyle \ nu}$ puede ser descrito por una función ${\ Displaystyle \ gamma (x, y)}$ que da la cantidad de masa para mover desde ${\ Displaystyle x}$ a ${\ Displaystyle y}$ . Puedes imaginar la tarea como la necesidad de mover un montón de tierra de forma ${\ Displaystyle \ mu}$ al agujero en el suelo de la forma ${\ Displaystyle \ nu}$ de tal manera que al final, tanto el montón de tierra como el agujero en el suelo se desvanecen por completo. Para que este plan sea significativo, debe satisfacer las siguientes propiedades

{\ displaystyle {\ begin {alineado} \ int \ gamma (x, y) \, \ mathrm {d} y = \ mu (x) & \ qquad {\ text {(la cantidad de tierra movida fuera del punto}} x {\ text {debe ser igual a la cantidad que estaba allí para empezar)}} \\\ int \ gamma (x, y) \, \ mathrm {d} x = \ nu (y) & \ qquad {\ text {(la cantidad de tierra movida al punto}} y {\ text {debe ser igual a la profundidad del agujero que estaba allí al principio)}} \ end {alineado}}}

Es decir, que la masa total se movió fuera de una región infinitesimal alrededor ${\ Displaystyle x}$ debe ser igual a ${\ Displaystyle \ mu (x) \ mathrm {d} x}$ y la masa total se movió a una región alrededor ${\ Displaystyle y}$ debe ser ${\ Displaystyle \ nu (y) \ mathrm {d} y}$ . Esto es equivalente al requisito de que ${\ Displaystyle \ gamma}$ ser una distribución de probabilidad conjunta con marginales ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ . Así, la masa infinitesimal transportada desde ${\ Displaystyle x}$ a ${\ Displaystyle y}$ es ${\ Displaystyle \ gamma (x, y) \, \ mathrm {d} x \, \ mathrm {d} y}$ y el costo de la mudanza es ${\ Displaystyle c (x, y) \ gamma (x, y) \, \ mathrm {d} x \, \ mathrm {d} y}$ , siguiendo la definición de la función de coste. Por lo tanto, el costo total de un plan de transporte ${\ Displaystyle \ gamma}$ es

{\ Displaystyle \ iint c (x, y) \ gamma (x, y) \, \ mathrm {d} x \, \ mathrm {d} y = \ int c (x, y) \, \ mathrm {d} \ gamma (x, y)}

El plan ${\ Displaystyle \ gamma}$ no es único; el plan de transporte óptimo es el plan con el costo mínimo de todos los planes de transporte posibles. Como se mencionó, el requisito para que un plan sea válido es que sea una distribución conjunta con marginales ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ ; dejando ${\ Displaystyle \ Gamma}$ denotar el conjunto de todas las medidas como en la primera sección, el costo del plan óptimo es

{\ Displaystyle C = \ inf _ {\ gamma \ in \ Gamma (\ mu, \ nu)} \ int c (x, y) \, \ mathrm {d} \ gamma (x, y)}

Si el costo de una mudanza es simplemente la distancia entre los dos puntos, entonces el costo óptimo es idéntico a la definición de la ${\ Displaystyle W_ {1}}$ distancia.

Ejemplos de

Masas puntuales (distribuciones degeneradas)

Dejar ${\ Displaystyle \ mu _ {1} = \ delta _ {a_ {1}}}$ y ${\ Displaystyle \ mu _ {2} = \ delta _ {a_ {2}}}$ ser dos distribuciones degeneradas (es decir, distribuciones delta de Dirac ) ubicadas en puntos ${\ Displaystyle a_ {1}}$ y ${\ Displaystyle a_ {2}}$ en ${\ Displaystyle \ mathbb {R}}$ . Solo hay un posible acoplamiento de estas dos medidas, a saber, la masa puntual ${\ Displaystyle \ delta _ {(a_ {1}, a_ {2})}}$ situado en ${\ Displaystyle (a_ {1}, a_ {2}) \ in \ mathbb {R} ^ {2}}$ . Por lo tanto, utilizando la función de valor absoluto habitual como función de distancia en ${\ Displaystyle \ mathbb {R}}$ , para cualquier ${\ Displaystyle p \ geq 1}$ , la ${\ Displaystyle p}$ -Distancia de Wasserstein entre ${\ Displaystyle \ mu _ {1}}$ y ${\ Displaystyle \ mu _ {2}}$ es

{\ Displaystyle W_ {p} (\ mu _ {1}, \ mu _ {2}) = | a_ {1} -a_ {2} |.}

Por un razonamiento similar, si ${\ Displaystyle \ mu _ {1} = \ delta _ {a_ {1}}}$ y ${\ Displaystyle \ mu _ {2} = \ delta _ {a_ {2}}}$ son masas puntuales ubicadas en puntos ${\ Displaystyle a_ {1}}$ y ${\ Displaystyle a_ {2}}$ en ${\ Displaystyle \ mathbb {R} ^ {n}}$ , y usamos la norma euclidiana habitual en ${\ Displaystyle \ mathbb {R} ^ {n}}$ como la función de distancia, entonces

{\ Displaystyle W_ {p} (\ mu _ {1}, \ mu _ {2}) = \ | a_ {1} -a_ {2} \ | _ {2}.}

Distribuciones normales

Dejar ${\ Displaystyle \ mu _ {1} = {\ mathcal {N}} (m_ {1}, C_ {1})}$ y ${\ Displaystyle \ mu _ {2} = {\ mathcal {N}} (m_ {2}, C_ {2})}$ ser dos medidas gaussianas no degeneradas (es decir, distribuciones normales ) en ${\ Displaystyle \ mathbb {R} ^ {n}}$ , con los respectivos valores esperados ${\ Displaystyle m_ {1}}$ y ${\ Displaystyle m_ {2} \ in \ mathbb {R} ^ {n}}$ y matrices de covarianza semidefinidas positivas simétricas ${\ Displaystyle C_ {1}}$ y ${\ Displaystyle C_ {2} \ in \ mathbb {R} ^ {n \ times n}}$ . Entonces, ^[1] con respecto a la norma euclidiana habitual sobre ${\ Displaystyle \ mathbb {R} ^ {n}}$ , la distancia 2-Wasserstein entre ${\ Displaystyle \ mu _ {1}}$ y ${\ Displaystyle \ mu _ {2}}$ es

{\ Displaystyle W_ {2} (\ mu _ {1}, \ mu _ {2}) ^ {2} = \ | m_ {1} -m_ {2} \ | _ {2} ^ {2} + \ mathop {\ mathrm {trace}} {\ bigl (} C_ {1} + C_ {2} -2 {\ bigl (} C_ {2} ^ {1/2} C_ {1} C_ {2} ^ {1 / 2} {\ bigr)} ^ {1/2} {\ bigr)}.}

Este resultado generaliza el ejemplo anterior de la distancia de Wasserstein entre dos masas puntuales (al menos en el caso ${\ Displaystyle p = 2}$ ), ya que una masa puntual puede considerarse como una distribución normal con matriz de covarianza igual a cero, en cuyo caso el término traza desaparece y solo queda el término que involucra la distancia euclidiana entre las medias.

Aplicaciones

La métrica de Wasserstein es una forma natural de comparar las distribuciones de probabilidad de dos variables X e Y , donde una variable se deriva de la otra mediante pequeñas perturbaciones no uniformes (aleatorias o deterministas).

En informática, por ejemplo, la métrica W ₁ se utiliza ampliamente para comparar distribuciones discretas, por ejemplo , los histogramas de color de dos imágenes digitales ; consulte la distancia del movimiento de tierra para obtener más detalles.

En su artículo 'Wasserstein GAN', Arjovsky et al. ^[2] utilice la métrica Wasserstein-1 como una forma de mejorar el marco original de las Redes Adversarias Generativas (GAN), para aliviar el gradiente de desaparición y los problemas de colapso de modo. El caso especial de distribuciones normales se utiliza en una distancia de inicio de frechet .

La métrica de Wasserstein tiene un vínculo formal con el análisis de Procrustes , con aplicación a las medidas de quiralidad, ^[3] y al análisis de formas. ^[4]

Propiedades

Estructura métrica

Se puede demostrar que W _p satisface todos los axiomas de una métrica en P _p ( M ). Además, la convergencia con respecto a W _p es equivalente a la convergencia débil habitual de las medidas más la convergencia de los primeros p- ésimos momentos. ^[5]

Representación dual de W ₁

La siguiente representación dual de W ₁ es un caso especial del teorema de dualidad de Kantorovich y Rubinstein (1958): cuando μ y ν tienen soporte acotado ,

{\ Displaystyle W_ {1} (\ mu, \ nu) = \ sup \ left \ {\ left. \ int _ {M} f (x) \, \ mathrm {d} (\ mu - \ nu) (x ) \ right | {\ text {continuo}} f: M \ to \ mathbb {R}, \ operatorname {Lip} (f) \ leq 1 \ right \},}

donde Lip ( f ) denota la mínima constante de Lipschitz para f .

Compare esto con la definición de la métrica Radon :

{\ Displaystyle \ rho (\ mu, \ nu): = \ sup \ left \ {\ left. \ int _ {M} f (x) \, \ mathrm {d} (\ mu - \ nu) (x) \ right | {\ text {continuo}} f: M \ a [-1,1] \ right \}.}

Si la métrica d está limitada por alguna constante C , entonces

{\ Displaystyle 2W_ {1} (\ mu, \ nu) \ leq C \ rho (\ mu, \ nu),}

y así la convergencia en la métrica de Radon (idéntica a la convergencia de variación total cuando M es un espacio polaco ) implica convergencia en la métrica de Wasserstein, pero no al revés.

Equivalencia de W ₂ y una norma de Sobolev de orden negativo

Bajo supuestos adecuados, la distancia de Wasserstein ${\ Displaystyle W_ {2}}$ de orden dos es Lipschitz equivalente a una norma de Sobolev homogénea de orden negativo . ^[6] Más precisamente, si tomamos ${\ Displaystyle M}$ ser un colector Riemanniano conectado equipado con una medida positiva ${\ Displaystyle \ pi}$ , entonces podemos definir para ${\ Displaystyle f \ colon M \ to \ mathbb {R}}$ la seminorm

{\ Displaystyle \ | f \ | _ {{\ dot {H}} ^ {1} (\ pi)} ^ {2} = \ int _ {M} | \ nabla f (x) | ^ {2} \ , \ pi (\ mathrm {d} x)}

y por una medida firmada ${\ Displaystyle \ mu}$ en ${\ Displaystyle M}$ la norma dual

{\ Displaystyle \ | \ mu \ | _ {{\ dot {H}} ^ {- 1} (\ pi)} = \ sup {\ bigg \ {} | \ langle f, \ mu \ rangle | \, { \ bigg |} \, \ | f \ | _ {{\ dot {H}} ^ {1} (\ pi)} \ leq 1 {\ bigg \}}.}

Entonces cualesquiera dos medidas de probabilidad ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ en ${\ Displaystyle M}$ satisfacer el límite superior

{\ Displaystyle W_ {2} (\ mu, \ nu) \ leq 2 \ | \ mu - \ nu \ | _ {{\ dot {H}} ^ {- 1} (\ mu)}.}

En la otra dirección, si ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ nu}$ cada uno tiene densidades con respecto a la medida de volumen estándar en ${\ Displaystyle M}$ que están limitados por encima de algunos ${\ Displaystyle 0$ , y ${\ Displaystyle M}$ tiene una curvatura de Ricci no negativa , entonces

{\ Displaystyle \ | \ mu - \ nu \ | _ {{\ dot {H}} ^ {- 1} (\ mu)} \ leq {\ sqrt {C}} W_ {2} (\ mu, \ nu ).}

Separabilidad e integridad

Para cualquier p ≥ 1, el espacio métrico ( P _p ( M ), W _p ) es separable y está completo si ( M , d ) es separable y completo. ^[7]

Ver también

Métrica de Lévy
Métrica de Lévy-Prokhorov
Distancia de variación total de las medidas de probabilidad
Teoría del transporte
La distancia del motor de la tierra

Referencias

^ Olkin, I. y Pukelsheim, F. (1982). "La distancia entre dos vectores aleatorios con matrices de dispersión dadas" . Álgebra Lineal Appl . 48 : 257-263. doi : 10.1016 / 0024-3795 (82) 90112-4 . ISSN 0024-3795 .CS1 maint: varios nombres: lista de autores ( enlace )
^ Arjovski (2017). "Wasserstein Generative Adversarial Networks". ICML .
^ Petitjean, M. (2002). "Mezclas quirales" (PDF) . Revista de Física Matemática . 43 (8): 4147–4157. doi : 10.1063 / 1.1484559 .
^ Petitjean, M. (2004). "De la similitud de forma a la complementariedad de forma: hacia una teoría de acoplamiento". Revista de Química Matemática . 35 (3): 147-158. doi : 10.1023 / B: JOMC.0000033252.59423.6b . S2CID 121320315 .
^ Clemente, Philippe; Desch, Wolfgang (2008). "Una prueba elemental de la desigualdad del triángulo para la métrica de Wasserstein" . Actas de la American Mathematical Society . 136 (1): 333–339. doi : 10.1090 / S0002-9939-07-09020-X .
^ Peyre, Rémi (2018). "Comparación entre la distancia W 2 y la norma Ḣ -1 , y la localización de la distancia de Wasserstein" . ESAIM Control Optim. Calc. Var . 24 (4): 1489–1501. doi : 10.1051 / cocv / 2017050 . ISSN 1292-8119 . (Ver teoremas 2.1 y 2.5.)
^ Bogachev, VI; Kolesnikov, AV (2012). "El problema Monge-Kantorovich: logros, conexiones y perspectivas". Matemáticas rusas. Encuestas . 67 (5): 785–890. doi : 10.1070 / RM2012v067n05ABEH004808 .

Villani, Cédric (2008). Transporte óptimo, antiguo y nuevo . Saltador. ISBN 978-3-540-71050-9.
Ambrosio, L., Gigli, N. y Savaré, G. (2005). Flujos de gradiente en espacios métricos y en el espacio de medidas de probabilidad . Basilea: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.CS1 maint: varios nombres: lista de autores ( enlace )
Jordan, Richard; Kinderlehrer, David; Otto, Felix (1998). "La formulación variacional de la ecuación de Fokker-Planck". SIAM J. Math. Anal . 29 (1): 1–17 (electrónico). CiteSeerX 10.1.1.6.8815 . doi : 10.1137 / S0036141096303359 . ISSN 0036-1410 . Señor 1617171 .
Rüschendorf, L. (2001) [1994], "Métrica de Wasserstein" , Enciclopedia de Matemáticas , EMS Press

enlaces externos

"¿Cuáles son las ventajas de la métrica de Wasserstein en comparación con la divergencia de Kullback-Leibler?" . Stack Exchange . 1 de agosto de 2017.

[1] Olkin, I. y Pukelsheim, F. (1982). "La distancia entre dos vectores aleatorios con matrices de dispersión dadas" . Álgebra Lineal Appl . 48 : 257-263. doi : 10.1016 / 0024-3795 (82) 90112-4 . ISSN 0024-3795 .CS1 maint: varios nombres: lista de autores ( enlace )

[2] Arjovski (2017). "Wasserstein Generative Adversarial Networks". ICML .

[3] Petitjean, M. (2002). "Mezclas quirales" (PDF) . Revista de Física Matemática . 43 (8): 4147–4157. doi : 10.1063 / 1.1484559 .

[4] Petitjean, M. (2004). "De la similitud de forma a la complementariedad de forma: hacia una teoría de acoplamiento". Revista de Química Matemática . 35 (3): 147-158. doi : 10.1023 / B: JOMC.0000033252.59423.6b . S2CID 121320315 .

[5] Clemente, Philippe; Desch, Wolfgang (2008). "Una prueba elemental de la desigualdad del triángulo para la métrica de Wasserstein" . Actas de la American Mathematical Society . 136 (1): 333–339. doi : 10.1090 / S0002-9939-07-09020-X .

[6] Peyre, Rémi (2018). "Comparación entre la distancia W 2 y la norma Ḣ -1 , y la localización de la distancia de Wasserstein" . ESAIM Control Optim. Calc. Var . 24 (4): 1489–1501. doi : 10.1051 / cocv / 2017050 . ISSN 1292-8119 . (Ver teoremas 2.1 y 2.5.)

[7] Bogachev, VI; Kolesnikov, AV (2012). "El problema Monge-Kantorovich: logros, conexiones y perspectivas". Matemáticas rusas. Encuestas . 67 (5): 785–890. doi : 10.1070 / RM2012v067n05ABEH004808 .

[1]