Please Enable JavaScript in your Browser to visit this site

KTL cơ bảnPhân tích hồi quy

Phát hiện khuyết tật dữ liệu trong hồi quy logit

Đồ thị chẩn đoán sự khác biệt theo mã quan sát

Quan sát snum = 1403 có sự chênh lệch chi2 và độ lệch là lớn nhất so với tất cả các quan sát còn lại. Chẳng hạn quan sát có snum = 1403 có dx2 bằng 216 và dd gần 11. Điều này có nghĩa nếu loại bỏ quan sát snum==1403 thì giá trị thống kê Pearson Chi2 sẽ giảm đi 216, cũng như làm độ lệch thêm một giá trị gần 11. Kiểm chứng vấn đề này chúng ta lần lượt ước lượng mô hình có và không có snum==1403 như sau:

. logit hiqual avg_ed yr_rnd meals fullc yxfc, nolog

Logistic regression                               Number of obs   =       1158
                                                  LR chi2(5)      =     933.71
                                                  Prob > chi2     =     0.0000
Log likelihood = -263.83452                       Pseudo R2       =     0.6389

------------------------------------------------------------------------------
      hiqual |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      avg_ed |   1.968948   .2850145     6.91   0.000      1.41033    2.527566
      yr_rnd |   -.548494    .368032    -1.49   0.136    -1.269823    .1728354
       meals |  -.0789775   .0079544    -9.93   0.000    -.0945678   -.0633872
       fullc |   .0499983     .01452     3.44   0.001     .0215396     .078457
        yxfc |  -.1329371   .0325104    -4.09   0.000    -.1966562   -.0692179
       _cons |  -3.655163   1.016975    -3.59   0.000    -5.648396   -1.661929
------------------------------------------------------------------------------
. lfit

Logistic model for hiqual, goodness-of-fit test

       number of observations =      1158
 number of covariate patterns =      1152
           Pearson chi2(1146) =      965.79
                  Prob > chi2 =      1.0000
  • dx2 = 965.79 – 794.17 = 171.6
  • dd = (263.83452 – 257.99083)*2 = 11.7
. logit  hiqual avg_ed yr_rnd meals fullc yxfc if snum!=1403, nolog

Logistic regression                               Number of obs   =       1157
                                                  LR chi2(5)      =     943.15
                                                  Prob > chi2     =     0.0000
Log likelihood = -257.99083                       Pseudo R2       =     0.6464

------------------------------------------------------------------------------
      hiqual |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      avg_ed |   2.030087   .2915136     6.96   0.000     1.458731    2.601443
      yr_rnd |  -.7044708   .3864465    -1.82   0.068    -1.461892    .0529503
       meals |  -.0797143   .0080848    -9.86   0.000    -.0955602   -.0638684
       fullc |   .0504367   .0146264     3.45   0.001     .0217695    .0791039
        yxfc |  -.1078502   .0372218    -2.90   0.004    -.1808036   -.0348969
       _cons |   -3.81956   1.035972    -3.69   0.000    -5.850029   -1.789092
------------------------------------------------------------------------------
. lfit

Logistic model for hiqual, goodness-of-fit test

       number of observations =      1157
 number of covariate patterns =      1151
           Pearson chi2(1145) =      794.17
                  Prob > chi2 =      1.0000
Previous page 1 2 3 4 5 6Next page
Back to top button