Hệ số tương quan tuyến tính Pearson

Cho \( (X, Y)\) là một vector biến ngẫu nhiên với phương sai hữu hạn và khác không. Hệ số tương quan tuyến tính hay còn gọi là hệ số tương quan Pearson của \( (X, Y)\) được định nghĩa như sau \[ Corr(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}, \] với \( Cov(X,Y)=E(XY)-EX\cdot EY\) là hiệp phương sai của \((X,Y)\), \(Var(X)\) và \(Var(Y)\) là phương sai của \(X\) và \(Y\).

Tính chất:

1) Hệ số tương quan tuyến tính là một thước đo cho sự phụ thuộc tuyến tính của các biến ngẫu nhiên. Trong trường hợp đọc lập tuyến tính "hoàn hảo", nghĩa là \(Y = aX + b\) hầu khắp nơi với \(a \in \mathbb{R}\setminus\{0\}\), chúng ta có \(|Corr(X,Y)|=1\). Điều quan trọng là điều ngược lại cũng đúng.

2) Hệ số tương quan tuyến tính có tính chất sau \[Corr(\alpha X + \beta, \gamma Y + \delta)=sign(\alpha\gamma)Corr(X,Y)\] Cho nên, hệ số tương quan tuyến tính là không đổi qua phép biến đổi tuyến tính với hệ số dương.

Một số hạn chế đối với hệ số tương quan tuyến tính:

1) Hệ số tương quan tuyến tính chỉ đo sự phụ thuộc tuyến tính.

2) Hệ số tương quan tuyến tính không được bảo toàn qua phép biến đổi không phải là tuyến tính.

3) Hệ số tương quan tuyến tính chi đó được mức độ phụ thuộc tuyến tính nhưng không chỉ ra được "cấu trúc" của sự phụ thuộc một cách rõ ràng.

4) Hệ số tương quan tuyến tính không xác định một cách hoàn toàn về phân phối chung của các biến ngẫu nhiên (joint distribution). 5) Hệ số tương quan tuyến tính của \((f(X), X)\) thông thương là nhỏ hơn 1, ở đây \(f\) là một hàm không tuyế tính.

Ví dụ:

Ví dụ 1: Cho \(X \sim \textbf{N}(0,1)\) và \(Y=X^2\). Khi đó \[Cov(X,Y)=E(X^3)-E(X)E(X^2)=0\] Điều này chỉ ra rằng hệ số tương quan tuyến tính là 0. Tuy nhiên, rõ ràng với \(X\) cho trước, chúng ta có thể dự đoán được \(Y\).

Ví dụ 2: Xét phân phối của một vector biến ngẫu nhiên hai chiều. Cụ thể, cho \( (u_1, u_2) \in [0, 1]\), \[C(u_1, u_2)=u_1u_2+\alpha[u_1(u_1-1)(2u_1-1)][u_2(u_2-1)(2u_2-1)]\] với \(\alpha \in [-1, 2]\). Nếu phân phối biên duyên là \(F_1\) và \(F_2\) là liên tục và đối xứng, thì hệ số tương quan Pearson là 0, nhưng với \(\alpha \neq 0\) thì hai biến ngẫu nhiên là không độc lập.

Ví dụ 3: Cho \(U_1\) và \(U_2\) là hai biến ngẫu nhiên có phân phối đều \(U(0,1)\) với hàm phân phối chung được xác định như sau \[C(u_1, u_2)= \left\{ \begin{array}{ll} u_1, & 0\leq u_1\leq u_2/2\leq 1/2, \\ u_2/2, & 0\leq u_2/2\leq u_1\leq 1-u_2/2, \\ u_1+u_2-1, & 1/2\leq 1-u_2/2 \leq u_1 \leq 1. \end{array} \right.\] Chúng ta có, \(Cov(U_1, U_2)=0\), nhưng \(P(U_2=1-|2U_1-1|)=1\). Điều này có nghĩa là, hai biến ngẫu nhiên mặc dù không tương quan nhưng ta có thể dự đoạn một cách hoàn hảo cái này nếu biết rõ cái kia.

Tài liệu tham khảo: Roger B. Nelsen (Second edition), An introduction to copulas, Springer, 2006.