Các phương pháp xử lý missing

09/09/2015

11 phút

2.3. Phương pháp thay thế dựa trên mô hình

2.3.1 Ước lượng hợp lý cực đại – ML

Mục đích là xác định một tập hợp giá trị các tham số tạo ra giá trị cực đại cho hàm hợp lí cực đại – LL (log-likelihood). Đó là giá trị thỏa mãn nhất với giá trị trong dữ liệu quan sát. Quá trình ước lượng ML tương tự như với ước lượng ML trong trường hợp không có giá trị missing.

Ưu điểm của ước lượng ML là sử dụng đầy đủ thông tin (cả các quan sát đầy đủ và không đầy đủ) để tính toán giá trị của hàm hợp lí cực lại LL, đồng thời cho ra kết quả không chệch đối với các missing dạng MCAR, MAR. Hạn chế của ML đó chính là thiên chệch giảm trong sai số chuẩn (SEs biased downward).

2.3.2 Phương pháp thay thế lặp – MI

MI là viết tắt của Multiple imputation. Vậy phương pháp thay thế lặp – MI là gì?

MI là một kỹ thuật thống kê để phân tích các tập dữ liệu không đầy đủ (tồn tại một số giá trị missing). Phương pháp thay thế lặp MI là 1 công cụ hữu ích để xử lý các tập dữ liệu có chứa giá trị missing. Thay vì thay thế chỉ 1 giá trị cho mỗi giá trị missing, Rubin (1987) đề xuất kỹ thuật thay thế lặp cho phép thay thế nhiều lần giá trị cho mỗi missing để hình thành nhiều tập dữ liệu riêng rẽ (mỗi 1 giá trị thay thế sẽ có 1 tập dữ liệu tương ứng), từ đó áp dụng các mô hình thay thế phù hợp để phân tích các tập dữ liệu này. Cuối cùng là tổng hợp tất cả các kết quả phân tích lại để diễn giải thống kê. Do vậy, một quy trình thực thực hiện MI được thể hiện trong 3 bước: imputation, analysis and pooling.

Thay thế (Imputation)

Thay thế các giá trị missing của 1 biến riêng rẻ bằng cách sử dụng 1 trong 9 mô hình sau: regress, pmm, truncreg, intreg, logit, ologit, mlogit, poisson và nbreg. Trong nhiều trường hợp, chúng ta chúng ta sẽ chọn các mô hình ứng với các biến có phân phối chuẩn như: hồi quy tuyến tính, thay thế giá trị trung bình dự báo, hồi quy logit, hồi quy logit thứ tự (ologit), hoặc hồi quy logit đa bậc (mlogit).

Chúng ta có thể linh hoạt sử dụng các phương pháp thế khác nhau cho từng biến riêng rẻ. Chẳng hạn, sử dụng phương pháp thay thế giá trị trung bình dự báo cho giá trị missing của x1, hồi quy logit thứ tự thay thế cho giá trị missing của x2.

Thậm chí chúng ta có thể cập nhật lại các giá trị thay thế sau khi đã thay thế, bằng cách lặp lại quá trình thay thế missing trong tập dữ liệu. Ngoài ra, phương pháp thay thế lặp còn hỗ trợ áp dụng tính toán với các trọng số mẫu.

Phân tích (Analysis)

Ở bước thay thế, các giá trị missing đã được thay thế m lần để tạo ra m tập dữ liệu riêng rẻ. Bước phân tích sẽ thực hiện ước lượng riêng rẻ m tập dữ liệu này bằng cách sử dụng 1 trong 9 mô hình thay thế sau: regress, pmm, truncreg, intreg, logit, ologit, mlogit, poisson và nbreg.

Quy trình thực hiện phân tích như sau: (i) Nhận các kết quả ước lượng MI của các tham số chuyển; (ii) Nhận các kết quả ước lượng MI từ các ước lượng riêng rẻ đã lưu trước đó.

Gộp kết quả (Pooling)

Kết quả ước lượng của các m tập dữ liệu theo các mô hình thay thế sẽ được tổng hợp lại để suy diễn thống kê. Stata sẽ ghi nhận thông tin chi tiết về các tính chất của MI, bao gồm tính hiệu quả và thông tin giá trị missing so với trường hợp không xử lý. mi xác minh tính toàn vẹn của các mô hình dự toán theo các lần lặp (tính nhất quán của các mẫu và các biến bị bỏ sót, sự hội tụ của mô hình) và thông báo cho bạn nếu có vấn đề tồn tại. Ngoài ra, để kết quả đảm bảo độ tin cậy và hiệu quả trong suy diễn thống kê thì cần kiểm tra 1 số giả định như: (i) Thực hiện đồng thời các kiểm định hệ số; (ii) Kiểm tra giả thiết về sự thay đổi của thông tin phần trăm giá trị missing; (iii) Các điều chỉnh ứng với mẫu nhỏ.

Ưu điểm của phương pháp thay thế lặp đảm bảo sự biến thiên của dữ liệu và tăng độ chính xác của kết quả phân tích. Tuy nhiên, phương pháp này khá phức tạp, và đôi khi không phù hợp ở một số mô hình.

Trong Stata, phương pháp thay thế lặp được thực hiện bằng nhóm lệnh mi như sau: