Chẩn đoán mô hình hồi quy logit
1. Lỗi mô tả
Khi chúng ta xây dựng một mô hình hồi quy logit, chúng ta giả định rằng logit của biến phụ thuộc là một kết hợp tuyến tính của các biến giải thích. Điều này liên quan đến hai khía cạnh, thứ nhất là hàm liên kết của các biến phụ thuộc ở vế trái phương trình (ở đây, chúng ta sử dụng hàm logit) Thứ hai, ở phía bên tay phải của phương trình, chúng ta giả định rằng mô hình đã bao gồm tất cả các biến có liên quan, mà không bao gồm bất kỳ biến nào không liên quan trong mô hình và hàm logit của biến phụ thuộc là kết hợp tuyến tính của các giải thích. Vì vậy, có thể xảy ra là hàm liên kết (hàm logit) có phải là một sự lựa chọn đúng không? hoặc mô hình đã bao gồm đủ các biến quan trọng và logit của biến phụ thuộc có mối quan hệ tuyến tính với sự kết hợp giữa các biến giải thích trong mô hình không? Hai trường hợp này gọi là lỗi xác định mô hình. Sự lựa chọn nhầm hàm liên kết trong trường hợp này không quá nghiêm trọng so với sử dụng một hàm liên kết khác như hàm probit chẳng hạn (dựa trên phân bố chuẩn hóa). Trong thực tế, vấn đề quan trọng hơn liên quan đến các biến giải thích trong mô hình.
Câu lệnh linktest trên Stata có thể được sử dụng để phát hiện một lỗi mô tả, và nó được sử dụng sau khi ước lượng mô hình bằng lệnh logit hoặc lệnh logistic. Ý tưởng đằng sau linktest là nếu mô hình được xác định đúng thì có thể sẽ không tìm thấy thêm bất kỳ biến giải thích nào mà có ý nghĩa về mặt thống kê. Sau khi có kết quả ước lượng lệnh linktest sẽ tính toán giá trị tuyến tính dự báo (_hat) và giá trị dự báo tuyến tính bình phương (_hatsq). Hai biến này được sử dụng như là biến giải thích mới để xây dựng lại mô hình. Biến _hat phải là phải là một biến giải thích quan trọng và có ý nghĩa về mặt thống kê, vì nó là giá trị dự báo từ mô hình – nó cho biết sự phù hợp của các biến giải thích trong mô hình (trừ khi mô hình hoàn toàn được xác định sai). Mặt khác, nếu mô hình đã được xác định đúng thì biến _hatsq sẽ không có khả năng giải thích (hay tác động không có ý nghĩa thống kê) trừ khi đó là sự trùng hợp ngẫu nhiên. Do đó, nếu _hatsq là có ý nghĩa thống kê hay linktest có ý nghĩa thì mô hình tồn tại lỗi mô tả. Điều này có thể xảy ra do mô hình đã bỏ sót biến quan trọng hoặc hàm liên kết (logit) không phù hợp.
Giả sử, hồi quy logit phương trình
. logit hiqual yr_rnd meals cred_ml, nolog Logistic regression Number of obs = 707 LR chi2(3) = 385.27 Prob > chi2 = 0.0000 Log likelihood = -156.38516 Pseudo R2 = 0.5519 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- yr_rnd | -1.185658 .5016301 -2.36 0.018 -2.168835 -.2024809 meals | -.0932877 .0084252 -11.07 0.000 -.1098008 -.0767746 cred_ml | .7415144 .3152037 2.35 0.019 .1237266 1.359302 _cons | 2.411226 .3987573 6.05 0.000 1.629676 3.192776 ------------------------------------------------------------------------------
Kết quả kiểm tra lỗi mô tả bằng lệnh linktest:
. linktest, nolog Logistic regression Number of obs = 707 LR chi2(2) = 391.76 Prob > chi2 = 0.0000 Log likelihood = -153.13783 Pseudo R2 = 0.5612 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- _hat | 1.209837 .1280198 9.45 0.000 .9589229 1.460751 _hatsq | .0735317 .0265482 2.77 0.006 .0214983 .1255651 _cons | -.1381412 .1636432 -0.84 0.399 -.4588759 .1825935 ------------------------------------------------------------------------------