KTL cơ bảnXử lý dữ liệu

Phương pháp thay thế lặp MI – Multiple Imputation

  • Vấn đề hội tụ (Convergence Problems)

Điều đầu tiên cần lưu ý là tất cả các mô hình này đều chạy thành công. Các mô hình phức tạp như mlogit gặp phải vấn đề hội tụ nếu chúng ta có nhiều biến danh mục, bởi vì chúng thường dẫn tới các ô có tần suất nhỏ (small cell sizes). Trong trường hợp này, chúng ta loại bỏ phần lớn biến, chỉ đưa vào các biến cần thiết mà mô hình có thể chạy được. Sau đó, từ từ đưa từng biến còn lại vào đến khi mô hình không còn chạy được hoặc hết biến cần đưa.

  • Vấn đề xác định sai (Misspecification)

Chúng ta nên cố gắng đánh giá xem mô hình đã được xác định 1 cách đúng đắn chưa. Có nhiều công cụ để phát hiện vấn đề xác định sai như:

  • Câu lệnh rvfplot vẽ đồ thị phần dư theo giá trị dự báo (Residual vs. Fitted Value Plots)

regress exp i.urban i.race wage i.edu i.female
rvfplot, ylabel(-40 -20 0 20 40)

Residual vs. Fitted Value Plots

Nhận xét: rất nhiều các điểm tập trung dọc theo 1 đường nằm ở phía trên và không có điểm nào nằm dưới đường này. Điều này cho thấy rằng số năm kinh nghiệm không thể nhỏ hơn 0. Vì vậy, mô hình regress là không phù hợp để áp dụng theo tiêu chí này và thay vào đó là mô hình truncreg, ll(0)pmm (ưu tiên).

  • Thêm các biến tương tác (Adding Interactions)

Trong ví dụ này, các mối quan hệ giữa các biến có lẽ thay đổi giữa các nhom sắc tộc, giới tính, khu vực. Vì vậy, để kiểm tra misspecification chúng ta có thể thêm các thành phần tương tác vào mô hình và so sánh kết quả với mô hình ban đầu.

regress exp i.race wage i.edu i.urban i.female

với mô hình bao gồm các tương tác:

regress exp (i.race i.urban i.female)##(c.wage i.edu)

Kết quả cho thấy sự tương tác giữa female với các biến khác là có ý nghĩa thống kê trong mô hình của exp và tương tự cho các mô hình của wage, edu, và urban. Trong khi đó, chỉ có vài mối quan hệ tương tác có ý nghĩa thống kê giữa race hoặc urban với các biến khác.

Vì vậy, chúng ta sẽ thay thế riêng cho các nhóm nam và nữ. Đây là một trường hợp đặc biệt của dữ liệu bởi vì biến female không có giá trị missing. Nếu nó có thì chúng ta phải loại bỏ các quan sát có giá trị missing này bởi vì chúng ta không thể chia làm 2 nhóm riêng rẽ.

Điều này nghĩa là chúng ta thêm tùy chọn by(female) vào câu lệnh thay thế. Khi kiểm tra các mô hình chúng ta bắt đầu với tiền tố female: prefix trước câu lệnh (dĩ nhiên loại bỏ female khỏi danh sách biến giải thích). Các mô hình thay thế sẽ là:

bysort female: reg exp i.urban i.race wage i.edu
by female: logit urban exp i.race wage i.edu
by female: mlogit race exp i.urban wage i.edu
by female: reg wage exp i.urban i.race i.edu
by female: ologit edu exp i.urban i.race wage

Bản thân pmm không thể chạy bên ngoài điều kiện thay thế, nhưng vì nó dựa trên mô hình hồi quy nên chúng ta có thể sử dụng kết quả hồi quy thông thường để kiểm tra nó.

Trang trước 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Trang sau
Xem thêm
Back to top button