KTL cơ bảnPhân tích hồi quy
Phát hiện khuyết tật dữ liệu trong hồi quy logit

Quan sát snum = 1403 có sự chênh lệch chi2 và độ lệch là lớn nhất so với tất cả các quan sát còn lại. Chẳng hạn quan sát có snum = 1403 có dx2 bằng 216 và dd gần 11. Điều này có nghĩa nếu loại bỏ quan sát snum==1403 thì giá trị thống kê Pearson Chi2 sẽ giảm đi 216, cũng như làm độ lệch thêm một giá trị gần 11. Kiểm chứng vấn đề này chúng ta lần lượt ước lượng mô hình có và không có snum==1403 như sau:
. logit hiqual avg_ed yr_rnd meals fullc yxfc, nolog Logistic regression Number of obs = 1158 LR chi2(5) = 933.71 Prob > chi2 = 0.0000 Log likelihood = -263.83452 Pseudo R2 = 0.6389 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- avg_ed | 1.968948 .2850145 6.91 0.000 1.41033 2.527566 yr_rnd | -.548494 .368032 -1.49 0.136 -1.269823 .1728354 meals | -.0789775 .0079544 -9.93 0.000 -.0945678 -.0633872 fullc | .0499983 .01452 3.44 0.001 .0215396 .078457 yxfc | -.1329371 .0325104 -4.09 0.000 -.1966562 -.0692179 _cons | -3.655163 1.016975 -3.59 0.000 -5.648396 -1.661929 ------------------------------------------------------------------------------
. lfit Logistic model for hiqual, goodness-of-fit test number of observations = 1158 number of covariate patterns = 1152 Pearson chi2(1146) = 965.79 Prob > chi2 = 1.0000
- dx2 = 965.79 – 794.17 = 171.6
- dd = (263.83452 – 257.99083)*2 = 11.7
. logit hiqual avg_ed yr_rnd meals fullc yxfc if snum!=1403, nolog Logistic regression Number of obs = 1157 LR chi2(5) = 943.15 Prob > chi2 = 0.0000 Log likelihood = -257.99083 Pseudo R2 = 0.6464 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- avg_ed | 2.030087 .2915136 6.96 0.000 1.458731 2.601443 yr_rnd | -.7044708 .3864465 -1.82 0.068 -1.461892 .0529503 meals | -.0797143 .0080848 -9.86 0.000 -.0955602 -.0638684 fullc | .0504367 .0146264 3.45 0.001 .0217695 .0791039 yxfc | -.1078502 .0372218 -2.90 0.004 -.1808036 -.0348969 _cons | -3.81956 1.035972 -3.69 0.000 -5.850029 -1.789092 ------------------------------------------------------------------------------ . lfit Logistic model for hiqual, goodness-of-fit test number of observations = 1157 number of covariate patterns = 1151 Pearson chi2(1145) = 794.17 Prob > chi2 = 1.0000