Total Variation Distance: khoảng cách giữa 2 phân phối xác suất
Khoảng cách biến thiên toàn phần trong xác suất
Định nghĩa
Khoảng cách biến thiên toàn phần (Total Variation Distance - TVD) giữa hai phân phối xác suất P và Q trên cùng một không gian xác suất được định nghĩa là:
TVD(P, Q) = sup |P(A) - Q(A)| với A thuộc sigma-đại số F
Nếu không gian mẫu Ω
là hữu hạn hoặc đếm được, ta có thể viết lại:
TVD(P, Q) = (1/2) ∑ω ∈ Ω |P(ω) - Q(ω)|
Tính chất
- Giá trị nằm trong khoảng từ 0 đến 1:
0 ≤ TVD(P, Q) ≤ 1
. TVD(P, Q) = 0
khi và chỉ khiP = Q
.- Đây là một metric thực sự trên không gian các phân phối xác suất.
Ví dụ
Cho không gian Ω = {1, 2, 3}
với:
P(1) = 0.2, P(2) = 0.5, P(3) = 0.3
Q(1) = 0.4, Q(2) = 0.4, Q(3) = 0.2
Ta tính được:
TVD(P, Q) = (1/2) (|0.2 - 0.4| + |0.5 - 0.4| + |0.3 - 0.2|) = 0.2
Ứng dụng
Khoảng cách biến thiên toàn phần được sử dụng rộng rãi trong lý thuyết xác suất, thống kê, và lý thuyết thông tin để đo độ khác biệt giữa hai phân phối. Nó đặc biệt hữu ích trong việc phân tích thời gian hội tụ của chuỗi Markov và kiểm định giả thuyết thống kê.