Phát hiện khuyết tật dữ liệu trong hồi quy logit
Tiếp theo bài chẩn đoán kết quả mô hình logit, bài viết này đi sâu hơn phát hiện những vấn đề tiềm ẩn trong mô hình, trong đó quan trọng nhất là các quan sát có ảnh hưởng thống kê lên kết quả ước lượng. Chúng ta cần phải kiểm tra các quan sát này bởi nhiều lý do như: (i) lỗi nhập liệu, (ii) chúng là các điểm đặc biệt mà chúng ta muốn quan tâm, (iii) chúng có thể kéo lệch kết quả hồi quy.
Các phần dư Pearson và các dạng chuẩn hóa của nó là một dạng của phần dư. Các phần dư Pearson được định nghĩa là sự chênh lệch được chuẩn hóa giữa tần suất dự đoán và tần suất quan sát. Chúng ta lường sự chênh lệch giữa giá trị quan sát và giá trị dự báo. Phần dư lệch (Deviance residual) là một dạng phần dư khác, nó đo lường sự chênh lệch giữa các giá trị quan sát cực đại và log của các hàm hợp lí được tính toán. Vì hồi quy logistic sử dụng nguyên tắc hợp lí cực đại nên mục tiêu của hồi quy logistic là tối thiểu hóa tổng của các phần dư lệch (tương tự tối thiểu hóa phần dư trong OLS). Một thống kê khác, đôi khi còn gọi là đường chéo mũ (hat diagonal) vì nó là đường chéo của ma trận giá trị dự báo (hat matrix), đo lường tính bật (leverage) của một quan sát. Đôi khi thống kê này còn được gọi là đòn bẩy Pregibon (Pregibon leverage). Chúng ta lần lượt kiểm tra các vấn đề tiềm ẩn qua 3 thống kê này như sau.
. logit hiqual avg_ed yr_rnd meals fullc yxfc, nolog Logistic regression Number of obs = 1158 LR chi2(5) = 933.71 Prob > chi2 = 0.0000 Log likelihood = -263.83452 Pseudo R2 = 0.6389 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- avg_ed | 1.968948 .2850145 6.91 0.000 1.41033 2.527566 yr_rnd | -.548494 .368032 -1.49 0.136 -1.269823 .1728354 meals | -.0789775 .0079544 -9.93 0.000 -.0945678 -.0633872 fullc | .0499983 .01452 3.44 0.001 .0215396 .078457 yxfc | -.1329371 .0325104 -4.09 0.000 -.1966562 -.0692179 _cons | -3.655163 1.016975 -3.59 0.000 -5.648396 -1.661929 ------------------------------------------------------------------------------
Ghi chú, ở đây: yxfc=yr_rnd*fullc, với fullc=full-r(mean)