У математиці , відстань Васерштейна [en] або метрика Канторовича -Рубінштейна [en] — це функція відстані , визначена між розподілами ймовірностей у заданому метричному просторі
M
{\displaystyle M}
. Названа на честь Леоніда Васерштейна [en] .[ 1]
Означення
Нехай
(
M
,
d
)
{\displaystyle (M,d)}
— метричний простір , де кожна міра є мірою Радона . Для
p
∈
[
1
,
+
∞
]
{\displaystyle p\in [1,+\infty ]}
,
p
{\displaystyle p}
— відстань Васерштейна між двома ймовірнісними мірами
μ
{\displaystyle \mu }
та
ν
{\displaystyle \nu }
на
M
{\displaystyle M}
зі скінченними
p
{\displaystyle p}
-ми моментами визначається як
W
p
(
μ
.
ν
)
=
(
inf
γ
∈
Γ
(
μ
,
ν
)
E
(
x
,
y
)
∼
γ
d
(
x
,
y
)
p
)
1
p
,
{\displaystyle W_{p}(\mu .\nu )=\left(\inf \limits _{\gamma \in \Gamma (\mu ,\nu )}\mathbb {E} _{(x,y)\sim \gamma }d(x,y)^{p}\right)^{\frac {1}{p}},}
де
Γ
(
μ
,
ν
)
{\displaystyle \Gamma (\mu ,\nu )}
— множина всіх каплінгів
μ
{\displaystyle \mu }
та
ν
.
{\displaystyle \nu .}
Каплінг
γ
{\displaystyle \gamma }
— це спільний розподіл ймовірностей на
M
×
M
{\displaystyle M\times M}
такий, що
∫
M
γ
(
x
,
y
)
d
y
=
μ
(
x
)
,
∫
M
γ
(
x
,
y
)
d
x
=
ν
(
y
)
.
{\displaystyle {\begin{aligned}\int _{M}\gamma (x,y){\rm {d}}y&=\mu (x),\\\int _{M}\gamma (x,y){\rm {d}}x&=\nu (y).\end{aligned}}}
Приклади
Детерміновані розподіли
Нехай
μ
1
=
δ
a
1
{\displaystyle \mu _{1}=\delta _{a_{1}}}
та
μ
2
=
δ
a
2
{\displaystyle \mu _{2}=\delta _{a_{2}}}
— два виродженні розподіли, зосереджені в точках
a
1
{\displaystyle a_{1}}
та
a
2
{\displaystyle a_{2}}
в
R
.
{\displaystyle \mathbb {R} .}
Існує тільки один можливий каплінг цих двох мір —
δ
(
a
1
,
a
2
)
,
(
a
1
,
a
2
)
∈
R
2
.
{\displaystyle \delta _{(a_{1},a_{2})},~(a_{1},a_{2})\in \mathbb {R} ^{2}.}
Тоді, використовуючи модуль різниці як метрику на
R
,
{\displaystyle \mathbb {R} ,}
для довільного
p
≥
1
,
{\displaystyle p\geq 1,}
p
{\displaystyle p}
-відстань Васерштейна між мірами
μ
1
{\displaystyle \mu _{1}}
та
μ
2
{\displaystyle \mu _{2}}
визначається як
W
p
(
μ
1
,
μ
2
)
=
|
a
1
−
a
2
|
.
{\displaystyle W_{p}(\mu _{1},\mu _{2})=|a_{1}-a_{2}|.}
Одновимірні розподіли
Нехай
μ
1
,
μ
2
{\displaystyle \mu _{1},\mu _{2}}
— ймовірнісні міри на
R
.
{\displaystyle \mathbb {R} .}
Позначимо їхні функції розподілу ймовірностей як
F
1
(
x
)
{\displaystyle F_{1}(x)}
та
F
2
(
x
)
{\displaystyle F_{2}(x)}
відповідно. Тоді
p
{\displaystyle p}
-відстань Васерштейна між мірами
μ
1
{\displaystyle \mu _{1}}
та
μ
2
{\displaystyle \mu _{2}}
визначається як
W
p
(
μ
1
,
μ
2
)
=
(
∫
0
1
|
F
1
−
1
(
q
)
−
F
2
−
1
(
q
)
|
p
d
q
)
1
p
.
{\displaystyle W_{p}(\mu _{1},\mu _{2})=\left(\int _{0}^{1}|F_{1}^{-1}(q)-F_{2}^{-1}(q)|^{p}{\rm {d}}q\right)^{\frac {1}{p}}.}
У випадку
p
=
1
{\displaystyle p=1}
, використовуючи формулу заміни змінних, отримуємо
W
1
(
μ
1
,
μ
2
)
=
∫
R
|
F
1
(
x
)
−
F
2
(
x
)
|
d
x
.
{\displaystyle W_{1}(\mu _{1},\mu _{2})=\int _{\mathbb {R} }|F_{1}(x)-F_{2}(x)|{\rm {d}}x.}
Нормальний розподіл
Нехай
μ
1
=
N
(
m
1
,
C
1
)
,
μ
2
=
N
(
m
2
,
C
2
)
{\displaystyle \mu _{1}=N(m_{1},C_{1}),~\mu _{2}=N(m_{2},C_{2})}
— дві невиродженні гаусові міри в
R
n
{\displaystyle \mathbb {R} ^{n}}
з середніми
m
1
{\displaystyle m_{1}}
та
m
2
{\displaystyle m_{2}}
і матрицями коваріації
C
1
{\displaystyle C_{1}}
та
C
2
{\displaystyle C_{2}}
відповідно. Тоді, використовуючи звичайну евклідову метрику на
R
n
{\displaystyle \mathbb {R} ^{n}}
,
2
{\displaystyle 2}
-відстань Васерштейна для
μ
1
{\displaystyle \mu _{1}}
та
μ
2
{\displaystyle \mu _{2}}
визначається як
W
2
(
μ
1
,
μ
2
)
2
=
‖
m
1
−
m
2
‖
2
2
+
tr
(
C
1
+
C
2
−
2
(
C
2
1
2
C
1
C
2
1
2
)
1
2
)
.
{\displaystyle W_{2}(\mu _{1},\mu _{2})^{2}=\|m_{1}-m_{2}\|_{2}^{2}+\operatorname {tr} (C_{1}+C_{2}-2(C_{2}^{\frac {1}{2}}C_{1}C_{2}^{\frac {1}{2}})^{\frac {1}{2}}).}
Властивості
Збіжність в метриці
W
p
{\displaystyle W_{p}}
еквівалентна звичайній слабкій збіжності плюс збіжності перших
p
{\displaystyle p}
-их моментів.[ 2]
Якщо
μ
{\displaystyle \mu }
та
ν
{\displaystyle \nu }
мають обмежений носій, то
W
1
(
μ
,
ν
)
=
sup
{
∫
M
f
(
x
)
d
(
μ
−
ν
)
(
x
)
|
continuous
f
:
M
→
R
,
Lip
(
f
)
≤
1
}
,
{\displaystyle W_{1}(\mu ,\nu )=\sup {\bigg \{}\int _{M}f(x){\rm {d}}(\mu -\nu )(x){\bigg |}{\text{continuous}}~f\colon M\to \mathbb {R} ,~\operatorname {Lip} (f)\leq 1{\Big \}},}
де
Lip
(
f
)
{\displaystyle \operatorname {Lip} (f)}
— найменша константа Ліпшиця для
f
.
{\displaystyle f.}
[ 3]
Нехай
P
p
(
M
)
{\displaystyle {\boldsymbol {P}}_{p}(M)}
— сукупність всіх ймовірнісних мір на
M
{\displaystyle M}
зі скінченним
p
{\displaystyle p}
-м моментом. Для довільного
p
≥
1
,
{\displaystyle p\geq 1,}
метричний простір
(
P
p
(
M
)
,
W
p
)
{\displaystyle \left({\boldsymbol {P}}_{p}(M),W_{p}\right)}
є повним та сепарабельним , якщо
(
M
,
d
)
{\displaystyle (M,d)}
— повний та сепарабельний.[ 4]
Див. також
Література
Додаткова література
Ambrosio L, Gigli N, Savaré G (2005). Gradient Flows in Metric Spaces and in the Space of Probability Measures . Basel: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5 .
Jordan R, Kinderlehrer D, Otto F (January 1998). The variational formulation of the Fokker–Planck equation. SIAM Journal on Mathematical Analysis . 29 (1): 1–17 (electronic). doi :10.1137/S0036141096303359 . ISSN 0036-1410 . MR 1617171 . S2CID 13890235 .
Rüschendorf L (2001), metric Wasserstein metric , у Hazewinkel, Michiel (ред.), Математична енциклопедія , Springer , ISBN 978-1-55608-010-4
Villani C (2008). Optimal Transport, Old and New . Springer. ISBN 978-3-540-71050-9 .