Phát hiện khuyết tật dữ liệu trong hồi quy logit

20/12/2016

9 phút

Phát hiện các khuyết tật dữ liệu trong mô hình hồi quy Logit

Từ những mô tả của các biến cho những quan sát này lưu ý đến những biến với những giá trị “đặc biệt” so với giá trị các phân vị của biến (câu lệnh sum full, detail) cũng như trong mối quan hệ với các biến khác. Chẳng hạn, số lượng giáo viên (full) – hiệu quả giảng dạy của trường (api00); xếp hạng avg_ed – hiệu quả giảng dạy của trường (api00). Chúng ta lần lượt xét các trường hợp này:

Số lượng giáo viên – hiệu quả giảng dạy:

Với quan sát snum=1402, đây là một quan sát có giá trị ảnh hưởng (levearage) rất cao và có giá trị của biến full khá đặc biệt với giá trị 36 trong khi điểm tới hạn ở phân vị 5% đã là 61. Mặt khác, giá trị api00 của nó lại khá cao (761), điều này có vẻ mâu thuẫn khi trường có số lượng giáo viên làm việc toàn thời gian rất ít lại có hiệu quả giảng dạy cao!

. est table with1402 no1402, stats(N) b(%9,4g) star(0.10 .05 .01)

--------------------------------------------
    Variable |   with1402        no1402     
-------------+------------------------------
      avg_ed |     1,969***       2,067***  
      yr_rnd |    -,5485         -,7849*    
       meals |   -,07898***     -,07679***  
       fullc |       ,05***      ,05043***  
        yxfc |    -,1329***     -,07653*    
       _cons |    -3,655***      -4,032***  
-------------+------------------------------
           N |      1158           1157     
--------------------------------------------
         legend: * p<.1; ** p<.05; *** p<.01

Ở đây chúng ta thấy kết quả ước lượng mô hình trong 2 trường hợp có (1) và không có quan sát snum=1402 (2) có sự khác nhau đáng kể. Mặc dù dấu kì vọng của các biến trong mô hình vẫn đảm bảo, nhưng về mặt ý nghĩa thống kê thì có sự thay đổi lớn. Biến yr_rnd trong mô hình (1) không có ý nghĩa thống kê thì lại có ý nghĩa thống kê 10% ở mô hình (2), cũng như biến yxfc có ý nghĩa thống kê 10% ở (2) lại có ý nghĩa 1% ở mô hình (1). Rõ ràng vì snum=1402 là một quan sát có leverage cao nên có hay không có sự tồn tại của nó sẽ ảnh hưởng mạnh đến kết quả ước lượng.

Mối quan hệ giữa avg_ed với api00

Đầu tiên, chúng ta thử liệt kê những trường có điểm xếp hạng tuyệt đối: clist if avg_ed==5Ở đây có 3 quan sát (snum = 3098, 1819, 4330) có điểm xếp hạng tuyệt đối, nhưng ngoại trừ quan sát snum= 4330 thì 2 quan sát còn lại có điểm api00 hơi thấp. Vậy có điều gì mâu thuẫn ở 2 quan sát này? Chúng ta phải xử lý thế nào? Điều này tùy thuộc vào điều kiện của chúng ta: nó có thể là do lỗi nhập liệu và chúng ta có thể quay lại kiểm tra hoặc loại bỏ chúng khỏi mô hình. Kỹ thuật chẩn đoán này chỉ giúp chúng ta phát hiện vấn đề nhưng không cho chúng ta biết chính xác phải làm gì với nó. Ngoài 3 công cụ chẩn đoán theo phần dư trên thì chúng ta có thể sử dụng 2 công cụ chẩn đoán khác theo sự khác biệt trong chi2 (dx2 – difference of chi-squares) và khác biệt trong độ lệch (dd – difference of deviances).

Sử dụng câu lệnh predict với tùy chọn dx2 hoặc dd sau khi ước lượng mô hình bằng lệnh logit hoặc logistic.