BIẾN NGẪU NHIÊN ĐỘC LẬP VÀ CÓ CÙNG PHÂN PHỐI (independent and identically distributed)

Trong lý thuyết xác suất và thống kê , một tập hợp các biến ngẫu nhiên được gọi là độc lập và phân phối giống hệt nhau ( iid , iid hoặc IID ) nếu mỗi biến ngẫu nhiên có cùng phân phối xác suất với các biến khác và tất cả đều độc lập với nha. IID lần đầu tiên được định nghĩa trong thống kê và được ứng dụng trong nhiều lĩnh vực, chẳng hạn như khai thác dữ liệu và xử lý tín hiệu.

Thống kê thường nghiên cứu các mẫu ngẫu nhiên. Mẫu ngẫu nhiên có thể được hiểu là một tập hợp các đối tượng được chọn ngẫu nhiên. Nói một cách chính xác hơn, đó là "một chuỗi các điểm dữ liệu ngẫu nhiên độc lập, phân bố đồng nhất (IID) ".

Nói cách khác, các thuật ngữ " mẫu ngẫu nhiên " và " IID " (độc lập và đồng nhất) là đồng nghĩa. Trong thống kê, " mẫu ngẫu nhiên " là thuật ngữ thường dùng, nhưng trong xác suất, người ta thường dùng thuật ngữ " IID ".

Phân bố đồng nhất có nghĩa là không có xu hướng tổng thể nào — sự phân bố không biến động và tất cả các mục trong mẫu đều được lấy từ cùng một phân bố xác suất .
Độc lập có nghĩa là các mục mẫu đều là các sự kiện độc lập. Nói cách khác, chúng không được kết nối với nhau theo bất kỳ cách nào; kiến thức về giá trị của một biến không cung cấp thông tin về giá trị của biến kia và ngược lại.

ỨNG DỤNG

Các biến ngẫu nhiên độc lập và phân bố đồng nhất thường được sử dụng như một giả định, điều này có xu hướng đơn giản hóa toán học cơ bản. Tuy nhiên, trong các ứng dụng thực tế của mô hình thống kê , giả định này có thể hoặc không thực tế. ^[ 3 ]

Giả định iid cũng được sử dụng trong định lý giới hạn trung tâm , trong đó nêu rằng phân phối xác suất của tổng (hoặc trung bình) của các biến iid có phương sai hữu hạn tiến tới phân phối chuẩn . ^[ 4 ]

Giả định iid thường xuất hiện trong bối cảnh các chuỗi biến ngẫu nhiên. Khi đó, "độc lập và phân bố giống hệt nhau" ngụ ý rằng một phần tử trong chuỗi độc lập với các biến ngẫu nhiên xuất hiện trước nó. Theo cách này, một chuỗi iid khác với một chuỗi Markov , trong đó phân bố xác suất cho biến ngẫu nhiên thứ $n$ là một hàm của biến ngẫu nhiên trước đó trong chuỗi (đối với một chuỗi Markov bậc nhất). Một chuỗi iid không ngụ ý rằng xác suất cho tất cả các phần tử của không gian mẫu hoặc không gian sự kiện phải giống nhau. Ví dụ, việc tung xúc xắc gian lận nhiều lần sẽ tạo ra một chuỗi iid, mặc dù kết quả bị thiên lệch.

Trong xử lý tín hiệu và xử lý ảnh , khái niệm chuyển đổi sang iid (độc lập và phân bố đồng nhất) bao hàm hai đặc tả, phần "id" và phần "i.":

id . – Mức tín hiệu phải được cân bằng trên trục thời gian.

i . – Phổ tín hiệu phải được làm phẳng, tức là được biến đổi bằng cách lọc (chẳng hạn như khử nhiễu ) thành tín hiệu nhiễu trắng (tức là tín hiệu trong đó tất cả các tần số đều có mặt như nhau).

Định nghĩa cho hai biến ngẫu nhiên

Giả sử các biến ngẫu nhiên X và Y được định nghĩa để nhận các giá trị trong $I\subseteq \mathbb {R}$ . Cho $F_{X}(x)=\operatorname {P} (X\leq x)$ và $F_{Y}(y)=\tên toán tử {P} (Y\leq y)$ là các hàm phân phối tích lũy của X và Y và ký hiệu hàm phân phối tích lũy chung của chúng bằng $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$ .

Hai biến ngẫu nhiên X và Y độc lập khi và chỉ khi $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)$ cho tất cả $x,y\in I$ (Trong trường hợp đơn giản hơn, có hai biến cố A và B độc lập khi và chỉ khi $P(A\land B)=P(A)\cdot P(B)$ ) .

Hai biến ngẫu nhiên X và Y được phân phối giống hệt nhau nếu và chỉ nếu $F_{X}(x)=F_{Y}(x)$ cho tất cả $x\in I$ .

Hai biến ngẫu nhiên X và Y được gọi là iid nếu chúng độc lập và phân bố giống hệt nhau, tức là nếu và chỉ nếu

${\begin{aligned}&F_{X}(x)=F_{Y}(x)\,&\forall x\in I\\&F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,&\forall x,y\in I\end{aligned}}$

Định nghĩa cho trường hợp có nhiều hơn hai biến ngẫu nhiên

Định nghĩa này mở rộng một cách tự nhiên cho trường hợp có nhiều hơn hai biến ngẫu nhiên. Chúng ta nói rằng $N$ $n$ biến ngẫu nhiên $X_{1},\ldots ,X_{n}$ được gọi là iid nếu chúng độc lập và phân bố giống hệt nhau, tức là nếu và chỉ nếu

${\begin{aligned}&F_{X_{1}}(x)=F_{X_{k}}(x)\,&\forall k\in \{1,\ldots ,n\}{\text{ và }}\forall x\in I\\&F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=F_{X_{1}}(x_{1})\cdot \ldots \cdot F_{X_{n}}(x_{n})\,&\forall x_{1},\ldots ,x_{n}\in I\end{aligned}}$

Ở đây $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ ký hiệu hàm phân phối tích lũy chung của $X_{1},\ldots ,X_{n}$ .