Phương pháp thay thế lặp MI – Multiple Imputation
2.2 Chọn phương pháp
Có 9 phương pháp sẳn có để thay thế giá trị 1 biến là: regress, pmm, truncreg, intreg, logit, ologit, mlogit, poisson và nbreg. Trong nhiều trường hợp, chúng ta chúng ta sẽ chọn các mô hình ứng với các biến có phân phối chuẩn như: hồi quy tuyến tính, thay thế giá trị trung bình dự báo cho các biến liên tục, hồi quy logit cho các biến nhị phân, hồi quy logit thứ tự (ologit), hoặc hồi quy logit đa bậc (mlogit) cho các biến phân loại.
- regress: chỉ phù hợp khi các biến có phân phối chuẩn. Nếu các biến liên tục không có phân phối chuẩn thì regress sẽ không cho phân phối của các giá trị thay thế phù hợp tốt nhất với các giá trị quan sát.
- pmm: là 1 công cụ phân tích khá hiệu quả các dữ liệu không chuẩn trong thực tế. PMM là viết tắt của Predictive Mean Matching. Nguyên tắc thay thế của pmm là sẽ hồi quy và tính toán các giá trị dự báo cho tất cả các giá trị misssing, sau đó sử dụng giá trị dự báo của 1 quan sát cụ thể để xác định những quan sát có giá trị quan sát gần với giá trị dự báo và chọn ngẫu nhiên 1 trong số các giá trị đó làm giá trị thay thế. Nếu các giá trị quan sát của biến không có phân phối chuẩn thì pmm sẽ tạo ra 1 phân phối của các giá trị thay thế mà khớp với phân phối của các giá trị quan sát. Bởi vì pmm tính toán các giá trị thay thế dựa trên các giá trị quan sát được, do vậy, các giá trị thay thế sẽ không bao giờ vượt ra khoảng các giá trị quan sát. Điều này rất hữu ích trong các trường hợp các biến bị kiểm duyệt (do vậy gmm là 1 phương pháp thay thế tốt cho truncreg). Tuy nhiên, pmm sẽ không phù hợp nếu bạn có lý do tin rằng các giá trị thay thế nằm ngoài khoảng các giá trị quan sát.
Một số nhận xét về lựa chọn mô hình
- Nếu mô hình của bạn tồn tại các thành phần phi tuyến, chẳng hạn x^2 trong hồi quy y theo x và x^2. Nếu bạn chỉ thay thế y và x và tạo biến x^2 sau (bằng mi passive hoặc c.x#c.x) thì các giá trị thay thế của y chỉ phụ thuộc vào x và các giá trị thay thế của x phụ thuộc tuyến tính vào y. Khi chúng ta ước lượng mô hình thì hệ số của x^2 sẽ bị thiên chệch về 0 (bởi vì các quan sát thay thế của y chỉ phụ thuộc vào x mà không có tương quan với x^2). Biện pháp khắc phục là tạo 1 biến mới để lưu lại thành phần phi tuyến này (gen x2=x^2) và thay thế chúng bình thường. Các giá trị thay thế của thành phần phi tuyến sẽ không có mối quan hệ đúng với thành phần tuyến tính (giá trị thay thế của x2 không phải là giá trị thật của x^2) nhưng miễn là chúng được phân phối đúng cách và không ảnh hưởng đến kết quả của các mô hình phân tích. Đây là một lĩnh vực nghiên cứu đang diễn ra.
- Vấn đề mô hình tồn tại biến tương tác cũng tương tự như mô hình tồn tại thành phần phi tuyến. Nếu thành phần tương tác không được đưa vào mô hình thay thế thì hệ số của nó sẽ bị chệch về 0 trong mô hình phân tích. Chúng ta cần tạo ra 1 biến mới ghi nhận thành phần tương tác này (gen gx=g*x) và thay thế chúng. Tuy nhiên, nếu thành phần tương tác bao gồm các biến nhị phân hoặc phân loại thì cần thiết thêm tùy chọn by để thay thế các giá trị trong từng nhóm.
3. Thực hành thay thế (Imputing)
Sử dụng file dữ liệu mô phỏng midata.dta bao gồm 3000 quan sát với các loại biến sau:
- female (binary)
- race (categorical, 3 giá trị)
- urban (binary)
- edu (ordered categorical, 4 giá trị)
- exp (continuous)
- wage (continuous)
Giả định: mỗi giá trị của tất cả các biến (ngoại trừ biến female) đều có 10% khả năng bị missing MCAR (nhưng trong thực tế chúng ta sẽ không biết điều này). Chúng ta có thể sử dụng kỹ thuật để kiểm tra dữ liệu MCAR hoặc MAR (MNAR không thể kiểm tra bằng cách xem xét các dữ liệu quan sát được). Mục tiêu của chúng ta là hồi quy biến wage theo các biến giải thích là female, race, edu, và exp. Quy trình thay thế được thực hiện như sau: