Một số khoảng cách xác suất

Trong bài viết này chúng tôi giới thiệu về định nghĩa một số khoảng cách hay được dùng giữa hai độ đo xác suất. Một số ví dụ về các khoảng cách thường dùng như khoảng cách Kolmogorov-Smirnov, Total variation, hay khoảng cách Wasserstein.

Khoảng cách giữa hai độ đo xác suất \(P\) và \(Q\) hay được dùng có dạng sau \[d(P, Q)= \sup\left\{\left| \int f dP - \int fdQ\right|: f \in \mathcal{D}\right\}\] với \(\mathcal{D}\) là một lớp hàm "test" nào đó.

1) Khoảng cách tổng biến phân (Total variation): Ta ký hiệu \(\mathcal{B}\) là lớp các tập hợp Brorel. Khoảng cách tổng biến phân giữa hai độ đo xác suất \(P\) và \(Q\) trên \(\mathbb{R}\) được định nghĩa như sau \[d_{TV}(P,Q):= \sup_{A \in \mathcal{B}}|P(A)-Q(A)|\] Ở đây, ta chọn \[\mathcal{D}=\{\mathbb{1}_A: A \in \mathcal{B}\}.\]

- Khoảng cách Wasserstein: Khoảng cách này còn được biết đến với tên Kantorovich-Monge-Rubinstein. \[d_{W}(P, Q)= \sup\left\{\left| \int f dP - \int fdQ\right|: f\ \ \text{là hàm 1-Lipschitz}\right\}\] ở đây ta lấy sup trên tập các hàm \(f\) sao cho \(|f(x)-f(y)| \leq |x-y|\).

- Khoảng cách Kolmogorov-Smirnov: Khoảng cách này được định nghĩa như sau \[d_K(P, Q) := \sup_{x \in \mathbb{R}}|P((-\infty, x])-Q((-\infty, x])|\] Ở đây \(\mathcal{D}=\{\mathbb{1}_{(-\infty, x]}: x \in \mathbb{R}\}\).

Chúng ta có một số thông tin sau:

- Cả 3 khoảng cách trên là mạnh hơn so với hội tụ yếu (hội tụ theo phân phối). Có nghĩa là, nếu bất kỳ một dãy các đại lượng ngẫu nhiên nào đó hội tụ theo một trong 3 khoảng cách nói trên, thì chúng cũng hội tụ theo phân phối. Tuy nhiên điều ngược lại không đúng.

- Ta có \(d_K(P,Q) \leq d_{TV}(P,Q)\).

- Khoảng cách tổng biến phân là khá mạnh, cho nên đôi khi nó không hữu dụng. Ví dụ, ta xét một dãy các biến ngẫu nhiên \(X_1, X_2,...\) độc lập cùng phân phối có giá trị thuộc tập \(\{-1,+1\}\) với cùng xác suất. Đặt \(S_n=X_1+...+X_n\), ta có \(\frac{S_n}{\sqrt{n}} \rightarrow N(0,1)\) theo phân phối (định lý giới hạn trung tâm). Tuy nhiên, \(d_{TV}(\frac{S_n}{\sqrt{n}},Z)=1\) với mọi \(n\), ở đây \(Z\) là biến ngẫu nhiên có phân phối chuẩn tắc. Trong khi đó cả hai khoảng cách Wasserstein và Kolmogorov-Smirnov đều hội tụ tới 0 với tốc độ hội tụ là \(1/\sqrt{n}\).

- Giả sử rằng \(X\) và \(Y\) là hai biến ngẫu nhiên với \(Y\) có hàm mật độ bị chặn bởi một hằng sô \(C\). Khi đó, \(d_{K}\leq 2\sqrt{C\cdot d_W(X,Y)}\).

Tài liệu tham khảo: Sourav Chatterjee, Lecture notes: Stein's method and application.