Phương pháp thay thế lặp MI – Multiple Imputation
Phương pháp thay thế lặp – MI là phương pháp được sử dụng phổ biến và là phương pháp hiệu quả nhất trong số các phương pháp xử lí giá trị missing. Tuy nhiên, phương pháp thay thế lặp – MI lại tương đối phức tạp và khó hiểu. Tiếp nối phần trình bày ở bài 2 về các phương pháp xử lý missing, phần trình bày này sẽ đi sâu diễn giải chi tiết các bước thực hiện của phương pháp thay thế lặp – MI. Đây là phần nội dung quan trọng nhất trong 3 bài viết về dữ liệu missing và các phương pháp xử lí.
Xem thêm:
Quy trình xử lí missing
Vì MI là một phương pháp phức tạp, do vậy, trước khi quyết định sử dụng phương pháp MI các bạn cần xác định các vấn đề liên quan sau:
- Quyết định có nên sử dụng MI hay không?
- Tạo các mô hình thay thế
- Thực hiện thay thế
- Quản lý tập dữ liệu được thay thế
- Ước lượng mô hình
Vấn đề dữ liệu missing tác động đến tính thiên chệch, hiệu quả của các ước lượng thống kê, do vậy, xử lí hiệu quả vấn đề missing có thể nâng cao độ tin cậy của ước lượng. Một trong những phương pháp xử lí missing hiệu quả nhất được sử dụng phổ biến trong nghiên cứu là phương pháp thay thế nhiều lần – Multiple Imputation, gọi tắt là MI. Tuy nhiên, để hiểu và vận dụng thành thạo phương pháp MI không phải là một điều dễ dàng với nhiều người. Phần trình bày bên dưới sẽ giới thiệu lý thuyết cũng như minh họa các bước thực hiện phương pháp MI.
1. Quyết định thay thế
Sau đây là các vấn đề cần xem xét liệu có nên sử dụng MI hay không?
1.1 Khả năng giải thích
Lí do đầu tiên mà bạn quan tâm khi sử dụng MI là tránh làm mất quan sát chứa các giá trị missings. MI cho phép bạn khai thác những thông tin sẵn có trong các quan sát chứa missings, mà sự tồn tại các giá trị missing có thể làm giảm khoảng tin cậy và tăng khả năng bác bỏ H0.