KTL cơ bảnXử lý dữ liệu

Phương pháp thay thế lặp MI – Multiple Imputation

1.2 Trường hợp dữ liệu MCAR vs MAR

Theo lý thuyết về thay thế, dữ liệu được gọi là MCAR nếu khả năng 1 giá trị cụ thể là missing là hoàn toàn độc lập cho cả các dữ liệu quan sát được và không quan sát được. Nói cách khác, mẫu đầy đủ là mẫu ngẫu nhiên. Nếu dữ liệu là MCAR thì cả phân tích mẫu đầy đủ và MI đều cho kết quả ước lượng không chệch.

Nếu khả năng 1 giá trị cụ thể là missing còn tùy thuộc giá trị quan sát được thì dữ liệu đó được gọi MAR, khi đó, mẫu đầy đủ không phải là mẫu ngẫu nhiên. Với MAR, thì phân tích mẫu đầy đủ sẽ cho kết quả bị thiên chệch nhưng với MI thì không. Vì vậy, nếu chúng ta không chắc rằng mẫu là ngẫu nhiên hay không (MCAR hay MAR) thì tốt nhất sử dụng MI để đảm bảo ước lượng không chệch.

Nếu khả năng 1 giá trị cụ thể là missing còn tùy thuộc giá trị không quan sát được thì dữ liệu được gọi là MNAR. Theo lý thuyết, MI có thể cho kết quả thiên chệch đối với MNAR nhưng chỉ với các phương pháp thế không chấp nhận missing. Trong thực tế, nếu dữ liệu của bạn là MNAR thì sẽ rất khó khăn để thực hiện các phân tích thích hợp.

Ghi chú: MCAR và MAR không đòi hỏi xác suất của một giá trị là missing là độc lập với xác suất 1 giá trị khác là missing. Thông thường, các giá trị missing có mối liên hệ với nhau. Chẳng hạn, nếu một người không hợp tác trong khảo sát về thu nhập thì người đó cũng có thể bỏ qua các biến khác ngoài lương nhưng dữ liệu vẫn có thể là MCAR, MAR hoặc MNAR.

Việc nhận dạng dữ liệu của bạn là MCAR, MAR hoặc MNAR là rất quan trọng trong việc xác định cách xử lý. Ví dụ sau trình bày cách phân tích mẫu đầy đủ và MI đối với các giả định dữ liệu missing khác nhau.

Ví dụ: dữ liệu bao gồm 1000 quan sát, với x được tạo ra ngẫu nhiên từ một phân phối chuẩn chuẩn hóa và y bằng biến x này cộng với 1 sai số có phân phối chuẩn chuẩn hóa.

Giả định:

  • y luôn có các quan sát (observed)
  • Trường hợp 1: khả năng x bị missing là 10% cho tất cả các quan sát (MCAR)
  • Trường hợp 2: khả năng x bị missing là tỉ lệ với y (MAR)
  • Trường hợp 3: khả năng x bị missing là tỉ lệ với x (MNAR)

Kết quả đúng: hồi quy y theo biến x thì giá trị hệ số của x phải bằng 1.

Chúng ta sẽ phân tích dữ liệu này làm 3 lần lần lượt cho MCAR, MAR, MNAR

Trang trước 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Trang sau
Xem thêm
Back to top button