Phương pháp thay thế lặp MI – Multiple Imputation
1.2.3 Trường hợp MNAR
Cuối cùng, chúng ta xem xét trường hợp khả năng x bị missing tỉ lệ với x. Đây là trường hợp dữ liệu MNAR và với dữ liệu MNAR thì cả ước lượng mẫu đầy đủ và MI đều bị chệch.
use https://www.vietlod.com/data/MNAR.dta, clear
reg y x
mi set wide
mi register imputed x
mi register regular y
mi impute chained (regress) x=y, add(10)
mi estimate: reg y x
Nhận xét: kết quả ước lượng dữ liệu MNAR trong trường hợp mẫu đầy đủ có vẻ tốt hơn với phương pháp MI, tuy nhiên, điều này thông thường không phải là đúng.
Câu hỏi đặt ra là dữ liệu của bạn là MCAR, MAR hay MNAR?
Để kiểm tra xem dữ liệu là MCAR, MAR hay MNAR, đầu tiên, chúng ta tạo các biến giả cho từng biến trong mô hình (=1 nếu giá trị của biến là missing và = 0 nếu ngược lại). Câu lệnh misstable với tùy chọn gen sẽ tự động thực hiện điều này.
use https://www.vietlod.com/data/xac-dinh-mcar-mar-mnar.dta, clear
misstable sum, gen(miss_)
logit miss_y x1 x2
logit miss_x1 y x2
logit miss_x2 y x1
Tiếp đến chúng ta thực hiện các kiểm định t-test để xem giá trị của các biến khác thay đổi như thế nào giữa các nhóm missing:
ttest x1, by(miss_y)
ttest x2, by(miss_y)
ttest y, by(miss_x1)
ttest x2, by(miss_x1)
ttest y, by(miss_x2)
ttest x1, by(miss_x2)
Không có một kiểm định chính thống nào về việc xác định dữ liệu nào là MCAR hoặc MAR, nhưng thông qua t-tests phần nào nó cho chúng ta một cách nhìn gần hơn về độ lớn của sự chênh lệch của dữ liệu so với MCAR (bác bỏ H0 của kiểm định t-test). Sự chênh lệch càng lớn thì càng nhiều khả năng dữ liệu là MAR và sử dụng MI thay cho phân tích mẫu đầy đủ. Ngoài ra, nếu dữ liệu của bạn có rất ít giá trị missing, chẳng hạn 1%, thì việc sử dụng phân tích mẫu đầy đủ và MI đều cho kết quả không thiên chệch, tuy nhiên, sử dụng phân tích mẫu đầy đủ sẽ dễ dàng hơn. Không có một quy tắc cụ thể cho việc xác định tỉ lệ missing trong mẫu, nhưng nếu mẫu có quá nhiều missing, chẳng hạn 50% thì chắc chắn dữ liệu của bạn có vấn đề.
Các dữ liệu MNAR không thể được đánh giá dựa trên các giá trị quan sát được. Do vậy, đối với MNAR chúng ta cần suy xét cách dữ liệu được thu thập, và đặc biệt chú ý đến các giá trị của biến có thể nhận giá trị rất lớn hay rất nhỏ so với giá trị quan sát được. Chẳng hạn, một người với thu nhập rất cao hoặc rất thấp thường rất ít tiết lộ thu nhập của họ, hoặc những người rất am hiểu vấn đế được khảo sát sẽ nhiệt tình hơn so với những người ít am hiểu. Trong các trường hợp này, chúng ta có thể thay thế các giá trị missing này bằng các biến đại diện có khả năng đo lường giá trị của biến có missing ban đầu.