KTL cơ bảnXử lý dữ liệu

Phương pháp thay thế lặp MI – Multiple Imputation

Ví dụ: dữ liệu bao gồm 1000 quan sát, với x1 – x10 được tạo ra ngẫu nhiên từ một phân phối chuẩn chuẩn hóa (độc lập) và y là tổng của các biến x này cộng với 1 sai số có phân phối chuẩn chuẩn hóa.

  • Giả định: mỗi giá trị của các biến x có 10% khả năng bị missing (MCAR)
  • Kết quả đúng: hồi quy y theo các biến x thì giá trị hệ số của mỗi biến x phải bằng 1.

use https://www.vietlod.com/data/power.dta, clear
reg y x*

Kết quả ước lượng như sau:

Missing và khả năng giải thích

Ghi chú: mặc dù mỗi giá trị của biến x đều có 10% khả năng bị missing nên số quan sát được sử dụng trong mô hình là 369 quan sát (có đến 631 quan sát chứa giá trị missing bị loại bỏ), nhưng sai số chuẩn là khá lớn và hệ số của 4/10 biến là khác 0 không có ý nghĩa thống kê 5%.

Sau khi áp dụng MI:

mi set wide
mi register imputed x*
mi register regular y
mi impute chained (regress) x*=y, add(10)
mi estimate: reg y x*

Kết quả hồi quy tương ứng như sau:

Missing và khả năng giải thích

Với kết quả này các sai số chuẩn của hệ số nhỏ hơn và tất cả các hệ số ước lượng đều khác 0 có ý nghĩa thống kê 5%. Đây chỉ là một ví dụ nhỏ minh họa mục đích chính của việc sử dụng MI. MI có thể khai thác các thông tin sẳn có để cải thiện kết quả ước lượng.

Ghi chú: vấn đề dự báo các giá trị missing dựa trên các dữ liệu sẳn có không phải là công việc tốt nhất của mô hình thay thế. Do các biến x là hoàn toàn độc lập lẫn nhau, vì vậy, nên chúng không có khả năng giải thích cho nhau. Hiệu quả của MI không phải xác định dựa vào thay thế giá trị đúng cho missing của các biến mà dựa trên mô hình phân phối đúng trên các dữ liệu quan sát.

Trang trước 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Trang sau
Xem thêm
Back to top button