En matemáticas , la distancia de Wasserstein o métrica de Kantorovich - Rubinstein es una función de distancia definida entre distribuciones de probabilidad en un espacio métrico dado .
Intuitivamente, si cada distribución se ve como una cantidad unitaria de tierra (suelo) apilada , la métrica es el "costo" mínimo de convertir una pila en otra, que se supone que es la cantidad de tierra que debe moverse multiplicada por la distancia media que debe moverse. Debido a esta analogía, la métrica se conoce en ciencias de la computación como la distancia del movimiento de la tierra .
El nombre "distancia de Wasserstein" fue acuñado por RL Dobrushin en 1970, después de conocerlo en el trabajo del matemático ruso Leonid Vaseršteĭn 1969, sin embargo, la métrica fue definida por primera vez por Leonid Kantorovich en The Mathematical Method of Production Planning and Organization (original ruso de 1939 ) en el contexto de una planificación óptima del transporte de mercancías y materiales. Algunos estudiosos fomentan el uso de los términos "métrica de Kantorovich" y "distancia de Kantorovich". La mayoría de las publicaciones en inglés utilizan la ortografía alemana "Wasserstein" (atribuida a que el nombre "Vaseršteĭn" es de origen alemán ).
Definición
Dejar ser un espacio métrico para el cual cada medida de probabilidad enes una medida de radón (el llamado espacio de radón ). Para, dejar denotar la colección de todas las medidas de probabilidad en con finito momento . Entonces, existe en tal que:
La Distancia de Wasserstein entre dos medidas de probabilidad y en Se define como
dónde denota la recopilación de todas las medidas en con marginales y en el primer y segundo factor respectivamente. (El conjuntotambién se llama el conjunto de todos los acoplamientos de y .)
La distancia anterior generalmente se denota (normalmente entre los autores que prefieren la ortografía "Wasserstein") o (típicamente entre los autores que prefieren la ortografía "Vaserstein"). El resto de este artículo utilizará la notación.
La métrica de Wasserstein se puede definir de manera equivalente por
dónde denota el valor esperado de una variable aleatoria y el mínimo se toma sobre todas las distribuciones conjuntas de las variables aleatorias y con marginales y respectivamente.
Intuición y conexión para un transporte óptimo
Una forma de entender la motivación de la definición anterior es considerar el problema de transporte óptimo . Es decir, para una distribución de masa en un espacio , deseamos transportar la masa de tal manera que se transforme en la distribución en el mismo espacio; transformando el 'montón de tierra' a la pila . Este problema solo tiene sentido si la pila que se va a crear tiene la misma masa que la pila que se va a mover; por lo tanto, sin pérdida de generalidad, supongamos que y son distribuciones de probabilidad que contienen una masa total de 1. Suponga también que se da alguna función de costo
que da el costo de transportar una unidad de masa desde el punto al punto . Un plan de transporte para moverse dentro puede ser descrito por una función que da la cantidad de masa para mover desde a . Puedes imaginar la tarea como la necesidad de mover un montón de tierra de forma al agujero en el suelo de la forma de tal manera que al final, tanto el montón de tierra como el agujero en el suelo se desvanecen por completo. Para que este plan sea significativo, debe satisfacer las siguientes propiedades
Es decir, que la masa total se movió fuera de una región infinitesimal alrededor debe ser igual a y la masa total se movió a una región alrededor debe ser . Esto es equivalente al requisito de queser una distribución de probabilidad conjunta con marginales y . Así, la masa infinitesimal transportada desde a es y el costo de la mudanza es , siguiendo la definición de la función de coste. Por lo tanto, el costo total de un plan de transporte es
El plan no es único; el plan de transporte óptimo es el plan con el costo mínimo de todos los planes de transporte posibles. Como se mencionó, el requisito para que un plan sea válido es que sea una distribución conjunta con marginales y ; dejando denotar el conjunto de todas las medidas como en la primera sección, el costo del plan óptimo es
Si el costo de una mudanza es simplemente la distancia entre los dos puntos, entonces el costo óptimo es idéntico a la definición de la distancia.
Ejemplos de
Masas puntuales (distribuciones degeneradas)
Dejar y ser dos distribuciones degeneradas (es decir, distribuciones delta de Dirac ) ubicadas en puntos y en . Solo hay un posible acoplamiento de estas dos medidas, a saber, la masa puntual situado en . Por lo tanto, utilizando la función de valor absoluto habitual como función de distancia en, para cualquier , la -Distancia de Wasserstein entre y es
Por un razonamiento similar, si y son masas puntuales ubicadas en puntos y en , y usamos la norma euclidiana habitual en como la función de distancia, entonces
Distribuciones normales
Dejar y ser dos medidas gaussianas no degeneradas (es decir, distribuciones normales ) en, con los respectivos valores esperados y y matrices de covarianza semidefinidas positivas simétricas y . Entonces, [1] con respecto a la norma euclidiana habitual sobre, la distancia 2-Wasserstein entre y es
Este resultado generaliza el ejemplo anterior de la distancia de Wasserstein entre dos masas puntuales (al menos en el caso ), ya que una masa puntual puede considerarse como una distribución normal con matriz de covarianza igual a cero, en cuyo caso el término traza desaparece y solo queda el término que involucra la distancia euclidiana entre las medias.
Aplicaciones
La métrica de Wasserstein es una forma natural de comparar las distribuciones de probabilidad de dos variables X e Y , donde una variable se deriva de la otra mediante pequeñas perturbaciones no uniformes (aleatorias o deterministas).
En informática, por ejemplo, la métrica W 1 se utiliza ampliamente para comparar distribuciones discretas, por ejemplo , los histogramas de color de dos imágenes digitales ; consulte la distancia del movimiento de tierra para obtener más detalles.
En su artículo 'Wasserstein GAN', Arjovsky et al. [2] utilice la métrica Wasserstein-1 como una forma de mejorar el marco original de las Redes Adversarias Generativas (GAN), para aliviar el gradiente de desaparición y los problemas de colapso de modo. El caso especial de distribuciones normales se utiliza en una distancia de inicio de frechet .
La métrica de Wasserstein tiene un vínculo formal con el análisis de Procrustes , con aplicación a las medidas de quiralidad, [3] y al análisis de formas. [4]
Propiedades
Estructura métrica
Se puede demostrar que W p satisface todos los axiomas de una métrica en P p ( M ). Además, la convergencia con respecto a W p es equivalente a la convergencia débil habitual de las medidas más la convergencia de los primeros p- ésimos momentos. [5]
Representación dual de W 1
La siguiente representación dual de W 1 es un caso especial del teorema de dualidad de Kantorovich y Rubinstein (1958): cuando μ y ν tienen soporte acotado ,
donde Lip ( f ) denota la mínima constante de Lipschitz para f .
Compare esto con la definición de la métrica Radon :
Si la métrica d está limitada por alguna constante C , entonces
y así la convergencia en la métrica de Radon (idéntica a la convergencia de variación total cuando M es un espacio polaco ) implica convergencia en la métrica de Wasserstein, pero no al revés.
Equivalencia de W 2 y una norma de Sobolev de orden negativo
Bajo supuestos adecuados, la distancia de Wasserstein de orden dos es Lipschitz equivalente a una norma de Sobolev homogénea de orden negativo . [6] Más precisamente, si tomamosser un colector Riemanniano conectado equipado con una medida positiva, entonces podemos definir para la seminorm
y por una medida firmada en la norma dual
Entonces cualesquiera dos medidas de probabilidad y en satisfacer el límite superior
En la otra dirección, si y cada uno tiene densidades con respecto a la medida de volumen estándar en que están limitados por encima de algunos , y tiene una curvatura de Ricci no negativa , entonces
Separabilidad e integridad
Para cualquier p ≥ 1, el espacio métrico ( P p ( M ), W p ) es separable y está completo si ( M , d ) es separable y completo. [7]
Ver también
- Métrica de Lévy
- Métrica de Lévy-Prokhorov
- Distancia de variación total de las medidas de probabilidad
- Teoría del transporte
- La distancia del motor de la tierra
Referencias
- ^ Olkin, I. y Pukelsheim, F. (1982). "La distancia entre dos vectores aleatorios con matrices de dispersión dadas" . Álgebra Lineal Appl . 48 : 257-263. doi : 10.1016 / 0024-3795 (82) 90112-4 . ISSN 0024-3795 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Arjovski (2017). "Wasserstein Generative Adversarial Networks". ICML .
- ^ Petitjean, M. (2002). "Mezclas quirales" (PDF) . Revista de Física Matemática . 43 (8): 4147–4157. doi : 10.1063 / 1.1484559 .
- ^ Petitjean, M. (2004). "De la similitud de forma a la complementariedad de forma: hacia una teoría de acoplamiento". Revista de Química Matemática . 35 (3): 147-158. doi : 10.1023 / B: JOMC.0000033252.59423.6b . S2CID 121320315 .
- ^ Clemente, Philippe; Desch, Wolfgang (2008). "Una prueba elemental de la desigualdad del triángulo para la métrica de Wasserstein" . Actas de la American Mathematical Society . 136 (1): 333–339. doi : 10.1090 / S0002-9939-07-09020-X .
- ^ Peyre, Rémi (2018). "Comparación entre la distancia W 2 y la norma Ḣ -1 , y la localización de la distancia de Wasserstein" . ESAIM Control Optim. Calc. Var . 24 (4): 1489–1501. doi : 10.1051 / cocv / 2017050 . ISSN 1292-8119 . (Ver teoremas 2.1 y 2.5.)
- ^ Bogachev, VI; Kolesnikov, AV (2012). "El problema Monge-Kantorovich: logros, conexiones y perspectivas". Matemáticas rusas. Encuestas . 67 (5): 785–890. doi : 10.1070 / RM2012v067n05ABEH004808 .
- Villani, Cédric (2008). Transporte óptimo, antiguo y nuevo . Saltador. ISBN 978-3-540-71050-9.
- Ambrosio, L., Gigli, N. y Savaré, G. (2005). Flujos de gradiente en espacios métricos y en el espacio de medidas de probabilidad . Basilea: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.CS1 maint: varios nombres: lista de autores ( enlace )
- Jordan, Richard; Kinderlehrer, David; Otto, Felix (1998). "La formulación variacional de la ecuación de Fokker-Planck". SIAM J. Math. Anal . 29 (1): 1–17 (electrónico). CiteSeerX 10.1.1.6.8815 . doi : 10.1137 / S0036141096303359 . ISSN 0036-1410 . Señor 1617171 .
- Rüschendorf, L. (2001) [1994], "Métrica de Wasserstein" , Enciclopedia de Matemáticas , EMS Press
enlaces externos
- "¿Cuáles son las ventajas de la métrica de Wasserstein en comparación con la divergencia de Kullback-Leibler?" . Stack Exchange . 1 de agosto de 2017.