Phương pháp thay thế lặp MI – Multiple Imputation
4. Ví dụ:
Hồi quy với mô hình đầy đủ quan sát: mi xeq 0: reg wage female##(c.exp i.edu) urban i.race
So với mô hình sử dụng dữ liệu thay thế:
mi estimate, saving(miexan,replace): reg wage female##(c.exp i.edu) urban i.race
Khoảng tin cậy 95% nhỏ hơn, và rất nhiều biến có ý nghĩa thống kê 5%.
Các kết quả này chỉ tính toán với 5 lần thay thế, sai số Monte Carlo ra sao? có nên tăng thêm số lần thay thế?
mi estimate, mcerr: reg wage female##(c.exp i.edu) urban i.race
Kết quả sơ lược cho thấy ước lượng của biến female không thỏa mãn 1 số điều kiện được đề xuất bởi White, Royston, và Wood (2011). Cụ thể như sai số Monte Carlo cho hệ số là 17% sai số chuẩn lớn hơn giá trị 10% và sai số Monte Carlo trên p-value là .018 trong khi theo đề xuất là 0.01 nếu chúng ta sử dụng mức ý nghĩa 0.05. Điều này cho thấy chúng ta cần tăng số lần thay thế.
Thậm chí, nếu chấp nhận các sai số Monte Carlo thì chúng ta vẫn nên tăng thêm số lần thay thế trong trường hợp này. Khoảng 40% các quan sát có chứa giá trị missing, vì vậy, theo White, Royston, và Wood (2011) thì cần sử dụng 40 lần thay thế.
Và đây là kết quả sau 40 lần thay thế, sai số Monte Carlo giờ đã thỏa mãn các đề xuất.
Cuối cùng, nếu chúng ta muốn tính giá trị dự báo của wage thì có thể sử dụng lệnh sau:
mi predict wagehat using miexan
Ở đây file miexan.ster được tạo ra trong câu lệnh mi estimate ban đầu. Nó bao gồm các hệ số từ phương trình ước lượng của mỗi tập dữ liệu thay thế.
Tài liệu tham khảo
White, Royston, and Wood. “Multiple imputation using chained equations: Issues and guidance for practice.” Statistics in Medicine. 2011