TƯƠNG QUAN VÀ NHÂN QUẢ – CÁI BẪY "THAO TÚNG TÂM LÝ" NGỌT NGÀO NHẤT CỦA DỮ LIỆU
TƯƠNG QUAN VÀ NHÂN QUẢ – CÁI BẪY "THAO TÚNG TÂM LÝ" NGỌT NGÀO NHẤT CỦA DỮ LIỆU
Sau khi chúng ta đã cùng nhau đi qua những cuộc điều tra kịch tính với Quy tắc 3 Sigma và phân xử trắng đen tại Phiên tòa P-value, hôm nay chúng ta sẽ đối mặt với một chiếc bẫy tinh vi nhất. Chiếc bẫy này không nằm ở chỗ chúng ta tính toán sai công thức, mà nằm ở cách chúng ta tư duy.
Nó đã và đang khiến hàng triệu người trên mạng xã hội bị "thao túng tâm lý" mỗi ngày. Chiếc bẫy đó mang tên: Nhầm lẫn giữa Tương quan và Nhân quả.
1. Bản chất toán học: Đừng để "Hệ số tương quan r" lừa dối bạn.
Trước khi lướt mạng xã hội để "bắt trend", hãy lật mở cuốn sách giáo trình Thống kê để trang bị cho mình một bộ lọc lý thuyết sắc bén.
* Hệ số tương quan Pearson r là gì?
Để đo lường xem hai hiện tượng có "nhảy cùng một điệu" với nhau hay không, các nhà toán học dùng hệ số tương quan Pearson r. Công thức của nó được biểu diễn như sau:
- Ý nghĩa: Giá trị r chỉ chạy từ -1 đến 1. Nếu r gần 1, hai biến cùng tăng hoặc cùng giảm (Tương quan thuận). Nếu r gần -1, biến này tăng thì biến kia giảm (Tương quan nghịch).
- Lời cảnh báo: Hệ số r rất giỏi trong việc vẽ ra các xu hướng hình học đẹp đẽ trên đồ thị, nhưng nó hoàn toàn "mù điếc" trước lý do tại sao chúng lại biến động như vậy.
* 3 điều kiện khắc nghiệt của Quan hệ Nhân quả (Causation)
Để khẳng định chắc chắn hiện tượng A trực tiếp "đẻ" ra kết quả B (Nhân quả), bạn phải chứng minh được đổ rạp cả 3 điều kiện sau:
- Có sự đồng biến động: A thay đổi thì B phải thay đổi (Tức là phải có tương quan trước).
- Thứ tự thời gian: Nguyên nhân (A) phải xảy ra trước kết quả (B).
- Loại trừ giải thích thay thế: Phải chứng minh được không có "kẻ thứ ba" (biến ẩn) nào đứng sau thao túng cả A và B.
Câu thần chú bắt buộc phải thuộc lòng: > "Tương quan không có nghĩa là Nhân quả" (Correlation does not imply causation).
2. Thực tế phũ phàng: Những cái bẫy "đời sống" trên Threads và TikTok
Nếu thiếu bộ lọc 3 điều kiện trên, bạn sẽ ngay lập tức bị các con số "dắt mũi" qua những ví dụ sặc mùi đời sống của người trẻ Việt Nam dưới đây:
Ví dụ 1: Cơn sốt lướt Threads/TikTok và chứng trầm cảm
- Số liệu thống kê: Các cuộc khảo sát chỉ ra rằng những bạn trẻ dành trên 4 tiếng/ngày để lướt Threads hoặc TikTok có tỷ lệ lo âu, tự ti và áp lực đồng lứa (peer pressure) cao hơn 70% so với những người ít sử dụng.
- Kết luận giật gân trên mạng: "Mạng xã hội đang hủy hoại Gen Z, cứ lướt mạng là bị trầm cảm!"
- Sự thật Thống kê: Đây chính là lỗi Nhân quả đảo ngược (Reverse Causality). Đồ thị chỉ ra A và B đi kèm nhau, nhưng chưa chắc mạng xã hội làm họ trầm cảm. Thực tế là những người vốn dĩ đang cô đơn, stress hoặc bế tắc trong cuộc sống mới là những người có xu hướng "trốn" vào mạng xã hội để tìm kiếm sự giải tỏa. B đang dẫn dắt A, chứ không phải A gây ra B.
Ví dụ 2: Uống Starbucks, Highlands và sự giàu có
- Số liệu thống kê: Đồ thị chứng minh những người có thói quen check-in tại các quán cà phê thương hiệu lớn mỗi sáng có mức thu nhập trung bình cao hơn hẳn những người uống trà đá vỉa hè.
- Kết luận của các "vị thần học làm giàu": "Muốn đổi đời và có tư duy lương cao, hãy học thói quen của người giàu: đi uống cà phê đắt tiền mỗi sáng!"
- Sự thật Thống kê: "Cà phê sang chảnh" và "Thu nhập cao" chỉ là hai đứa trẻ có chung một ông bố giàu có mang tên "Biến ẩn" (Confounding Variable) – cụ thể ở đây là Nền tảng kinh tế và Vị thế công việc. Người có thu nhập cao, làm việc ở các tòa nhà trung tâm thì họ mới có nhu cầu và khả năng mua cà phê đắt tiền gần cơ quan. Việc bạn cố ép mình uống ly cà phê 90k khi lương tháng 5 triệu không giúp bạn giàu lên, nó chỉ làm bạn nghèo đi nhanh hơn mà thôi.
Ví dụ 3: Thói quen thức khuya và Sự thành công
- Số liệu thống kê: Rất nhiều tỷ phú, CEO hoặc các Content Creator triệu view chia sẻ trên podcast rằng họ thường xuyên làm việc đến 2-3 giờ sáng.
- Kết luận ngây thơ: "Thức khuya là đặc điểm của người thành công, muốn bứt phá phải thức xuyên đêm!"
- Sự thật Thống kê: Đây là một sự tương quan ngẫu nhiên được khuếch đại bởi "Bẫy kẻ sống sót" (Survivorship Bias). Truyền thông chỉ nhìn vào vài người thức khuya và thành công, mà bỏ qua hàng triệu người thức khuya để cày phim, chơi game... để rồi hôm sau đi làm ngủ gật và bị sếp đuổi việc. Thứ gây ra sự thành công là "Sự nỗ lực và năng lực cực hạn", còn "thức khuya" chỉ là một hiệu ứng phụ ngẫu nhiên của một vài cá nhân.
3. Làm sao để các nhà khoa học dữ liệu tìm ra Sự thật?
Trong kinh doanh hay y tế, việc nhầm lẫn này có thể trả giá bằng rất nhiều tiền, thậm chí là mạng người. Để không bị "ảo giác tương quan" đánh lừa, các nhà thống kê sử dụng hai vũ khí hạng nặng:
- Thử nghiệm ngẫu nhiên có đối chứng (RCT / A/B Testing): Chia đối tượng thành 2 nhóm ngẫu nhiên tuyệt đối để triệt tiêu mọi biến ẩn. Nếu nhóm bấm vào nút màu xanh mua hàng nhiều hơn nhóm nút màu đỏ, đó là quan hệ nhân quả.
- Kiểm soát biến số (Controlling for variables): Dùng các mô hình toán học (như Hồi quy tuyến tính) để "đóng băng" các yếu tố khác (thu nhập, tuổi tác, thời tiết) và chỉ xem xét duy nhất mối quan hệ giữa hai biến mục tiêu.
4. Lời kết cho một chặng đường
Dữ liệu là một người hầu tốt nhưng là một người chủ tồi. Các con số và thuật toán có thể vẽ ra những biểu đồ tương quan đẹp đẽ để làm hài lòng mắt nhìn, nhưng chỉ có tư duy logic và sự phản biện của con người mới tìm ra được sợi dây nhân quả đích thực.
Qua chuỗi 5 bài viết của series này, chúng ta đã đi từ việc hiểu hình dáng dữ liệu, cách dùng chiếc lưới an toàn Chebyshev, giải mã Quy tắc 3 Sigma, luận tội tại Phiên tòa P-value, và cuối cùng là nhìn thấu các mối quan hệ Tương quan - Nhân quả.
Hy vọng rằng từ nay về sau, mỗi khi đứng trước một bảng số liệu hay một tiêu đề báo giật gân, bạn sẽ không còn hoang mang hay bị thao túng nữa. Hãy luôn giữ một cái đầu lạnh, một tư duy sắc bén, vì đó mới chính là vũ khí tối thượng của một người làm chủ dữ liệu. Chúc các bạn thành công!