Phát hiện khuyết tật dữ liệu trong hồi quy logit

Chúng ta đã tạo ra 2 dạng đồ thị theo 3 dạng phần dư đã nêu bên trên là đồ thị phần dư theo giá trị dự báo và đồ thị phần dư theo chỉ số (đồ thị chỉ số). Cả hai đều truyền tải các thông tin giống nhau. Các điểm dữ liệu dường như phân tán rộng ở đồ thị chỉ số giúp ta dễ quan sát các điểm cực đoan (extreme observations) – đó là các quan sát xa nhất so với phần lớn các quan sát còn lại. Ví dụ, quan sát số 1403 có giá trị phần dư Pearson và phần dư lệch lớn nhất. Giá trị quan sát của biến hiqual là 1 nhưng xác suất dự đoán là rất, rất thấp (có nghĩa là các mô hình dự đoán biến kết quả hiqual là 0). Điều này dẫn đến phần dư lớn. Nhưng chú ý rằng quan sát năm 1403 không phải là xấu về mặt đòn bẩy. Điều đó nói lên rằng việc loại bỏ quan sát đặc biệt này khỏi mô hình thì kết quả ước lượng của hồi quy logistic cũng không có quá nhiều khác biệt so với các mô hình bao gồm các quan sát này.
Chúng ta có thể sử dụng lệnh clist để liệt kê những quan sát dị biệt nhất dựa trên đồ thị.
. clist if snum==1819 | snum==1402 | snum==1403 Observation 243 snum 1403 dnum 315 schqual high hiqual high yr_rnd yrrnd meals 100 enroll 497 cred low cred_ml low cred_hl low pared medium pared_ml medium pared_hl . api00 808 api99 824 full 59 some_col 28 awards No ell 27 avg_ed 2.19 ym 100 Imeal__1 .300735645 Imeal_p1 .4554675962 _est_f~l 1 _est_r~e 1 fullc -29.12417 yxfc -29.12417 Observation 715 snum 1819 dnum 401 schqual low hiqual not high yr_rnd yrrnd meals 100 enroll 872 cred low cred_ml low cred_hl low pared low pared_ml low pared_hl low api00 406 api99 372 full 51 some_col 0 awards Yes ell 74 avg_ed 5 ym 100 Imeal__1 .300735645 Imeal_p1 .4554675962 _est_f~l 1 _est_r~e 1 fullc -37.12417 yxfc -37.12417 Observation 1131 snum 1402 dnum 315 schqual high hiqual high yr_rnd yrrnd meals 85 enroll 654 cred low cred_ml low cred_hl low pared medium pared_ml medium pared_hl . api00 761 api99 717 full 36 some_col 23 awards Yes ell 30 avg_ed 2.37 ym 85 Imeal__1 .2151176818 Imeal_p1 .306719575 _est_f~l 1 _est_r~e 1 fullc -52.12417 yxfc -52.12417