Home | KTL nâng cao | Phát hiện khuyết tật dữ liệu trên STATA

Phát hiện khuyết tật dữ liệu trên STATA

GIỚI THIỆU VỀ KHUYẾT TẬT DỮ LIỆU

Khuyết tật dữ liệu hay còn gọi là dữ liệu không bình thường hoặc bị ảnh hưởng. Đây là các trường hợp một hoặc một nhóm quan sát mà sự tồn tại của nó có thể ảnh hưởng mạnh đến sự ổn định của kết quả hồi quy. Những dữ liệu có các trường hợp này được xem là dữ liệu không bình thường hoặc bị ảnh hưởng.

Có 3 cách mà một quan sát được xem là không bình thường:

  1. Outliers: Trong hồi quy tuyến tính, một điểm outlier là một quan sát có phần dư rất lớn. Nói cách khác, một quan sát mà giá trị biến phụ thuộc của nó là không bình thường ứng với một giá trị cho trước của các biến giải thích.
  2. Leverage: Một quan sát với giá trị tột cùng (extreme) trong biến giải thích được gọi là một điểm có leverage cao. Leverage đo lường mức độ sai lệch (khoảng cách) so với giá trị trung bình của biến đó. Những điểm leverage này có thể ảnh hưởng đến ước lượng của các hệ số hồi quy.
  3. Influence: Một quan sát được cho là có ảnh hưởng nếu loại bỏ quan sát này sẽ làm thay đổi đáng kể các hệ số được ước lượng. Ảnh hưởng có thể được coi như sản phẩm của Leverage và Outlier.

Làm thế nào để phát hiện các khuyết tạt dữ liệu này?
Xem tiếp trang 2 với phần minh họa thực hành kiểm tra khuyết tật dữ liệu trên phần mềm Stata.

Phần nội dung có thu phí bên dưới đã được ẩn. Vui lòng đăng nhập hoặc đăng ký gói Premium. Trân trọng!