star twitter facebook envelope linkedin youtube alert-red alert home left-quote chevron hamburger minus plus search triangle x

Hệ số tương quan tuyến tính Pearson

Cho (X,Y) là một vector biến ngẫu nhiên với phương sai hữu hạn và khác không. Hệ số tương quan tuyến tính hay còn gọi là hệ số tương quan Pearson của (X,Y) được định nghĩa như sau Corr(X,Y)=Cov(X,Y)Var(X)Var(Y), với Cov(X,Y)=E(XY)EXEY là hiệp phương sai của (X,Y), Var(X)Var(Y) là phương sai của XY.

 

Tính chất:

 

1) Hệ số tương quan tuyến tính là một thước đo cho sự phụ thuộc tuyến tính của các biến ngẫu nhiên. Trong trường hợp đọc lập tuyến tính "hoàn hảo", nghĩa là Y=aX+b hầu khắp nơi với aR{0}, chúng ta có |Corr(X,Y)|=1. Điều quan trọng là điều ngược lại cũng đúng.

 

2) Hệ số tương quan tuyến tính có tính chất sau Corr(αX+β,γY+δ)=sign(αγ)Corr(X,Y) Cho nên, hệ số tương quan tuyến tính là không đổi qua phép biến đổi tuyến tính với hệ số dương.

Một số hạn chế đối với hệ số tương quan tuyến tính:

 

1) Hệ số tương quan tuyến tính chỉ đo sự phụ thuộc tuyến tính.

2) Hệ số tương quan tuyến tính không được bảo toàn qua phép biến đổi không phải là tuyến tính.

3) Hệ số tương quan tuyến tính chi đó được mức độ phụ thuộc tuyến tính nhưng không chỉ ra được "cấu trúc" của sự phụ thuộc một cách rõ ràng.

4) Hệ số tương quan tuyến tính không xác định một cách hoàn toàn về phân phối chung của các biến ngẫu nhiên (joint distribution). 5) Hệ số tương quan tuyến tính của (f(X),X) thông thương là nhỏ hơn 1, ở đây f là một hàm không tuyế tính.

 

Ví dụ:

 

Ví dụ 1: Cho XN(0,1)Y=X2. Khi đó Cov(X,Y)=E(X3)E(X)E(X2)=0 Điều này chỉ ra rằng hệ số tương quan tuyến tính là 0. Tuy nhiên, rõ ràng với X cho trước, chúng ta có thể dự đoán được Y.

 

Ví dụ 2: Xét phân phối của một vector biến ngẫu nhiên hai chiều. Cụ thể, cho (u1,u2)[0,1], C(u1,u2)=u1u2+α[u1(u11)(2u11)][u2(u21)(2u21)] với α[1,2]. Nếu phân phối biên duyên là F1F2 là liên tục và đối xứng, thì hệ số tương quan Pearson là 0, nhưng với α0 thì hai biến ngẫu nhiên là không độc lập.

 

Ví dụ 3: Cho U1U2 là hai biến ngẫu nhiên có phân phối đều U(0,1) với hàm phân phối chung được xác định như sau C(u1,u2)={u1,0u1u2/21/2,u2/2,0u2/2u11u2/2,u1+u21,1/21u2/2u11. Chúng ta có, Cov(U1,U2)=0, nhưng P(U2=1|2U11|)=1. Điều này có nghĩa là, hai biến ngẫu nhiên mặc dù không tương quan nhưng ta có thể dự đoạn một cách hoàn hảo cái này nếu biết rõ cái kia.

 

Tài liệu tham khảo: Roger B. Nelsen (Second edition), An introduction to copulas, Springer, 2006.

A - Z Sitemap

Đào tạo, nghiên cứu gắn liền với khoa học và công nghệ nhằm tạo ra những sinh viên và học viên có lòng yêu nước, có phẩm chất nhân văn mang đậm bản sắc Việt Nam, có ý thức sinh hoạt cộng đồng, có sức khỏe, có năng lực và kỹ năng toàn diện, tự tin, năng động, sáng tạo và trở thành công dân khởi nghiệp mang tính toàn cầu.