Đọc và chẩn đoán kết quả hồi quy logit thứ tự

Để khắc phục vấn đề này thì chúng ta có thể xem xét thu hẹp khoảng cách giữa các mức bằng cách gộp các mức gần nhau có ít quan sát thành một mức với nhiều quan sát hơn. Trong ví dụ này chúng ta có thể gộp mức 1, 2, 3 thành 1 mức. Trên Stata, quá trình gộp nhiều mức thành 1 mức mới được thực hiện thông qua lệnh recode như sau:
- recode rep78 (1/3=3), gen(rep78b)
và kết quả đã được cải thiện so với trường hợp ban đầu:
. gologit2 rep78b foreign length mpg, nolog Generalized Ordered Logit Estimates Number of obs = 69 LR chi2(6) = 37.19 Prob > chi2 = 0.0000 Log likelihood = -47.599382 Pseudo R2 = 0.2809 ------------------------------------------------------------------------------ rep78b | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 3 | foreign | 3.844035 1.027301 3.74 0.000 1.830561 5.857509 length | .0617889 .032248 1.92 0.055 -.001416 .1249937 mpg | .2468554 .1485422 1.66 0.097 -.044282 .5379928 _cons | -18.32185 9.008774 -2.03 0.042 -35.97872 -.6649788 -------------+---------------------------------------------------------------- 4 | foreign | 3.032383 1.067163 2.84 0.004 .9407823 5.123985 length | .0466275 .0330607 1.41 0.158 -.0181702 .1114252 mpg | .2451139 .1194367 2.05 0.040 .0110223 .4792054 _cons | -17.33818 8.484411 -2.04 0.041 -33.96732 -.709036 ------------------------------------------------------------------------------
3.3 Vấn đề phương sai thay đổi trong hồi quy logit thứ tự
Tương tự như câu lệnh hetprobit được sử dụng để khắc phục phương sai thay đổi trong mô hình probit thì câu lệnh oglm với tùy chọn het() có thể được sử dụng để khắc phục phương sai thay đổi trong mô hình hồi quy logit thứ tự. Sử dụng bộ dữ liệu đính kèm sau:
. oglm tenure female year yearsq select articles prestige, het(female) Heteroskedastic Ordered Logistic Regression Number of obs = 2945 LR chi2(7) = 355.53 Prob > chi2 = 0.0000 Log likelihood = -921.80791 Pseudo R2 = 0.1617 ------------------------------------------------------------------------------ tenure | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- tenure | female | -1.173961 .4239603 -2.77 0.006 -2.004908 -.343014 year | 1.06916 .1070641 9.99 0.000 .8593187 1.279002 yearsq | -.0631408 .0075937 -8.31 0.000 -.0780243 -.0482574 select | .1791494 .0501763 3.57 0.000 .0808056 .2774932 articles | .0655939 .009658 6.79 0.000 .0466646 .0845233 prestige | -.4006186 .0934128 -4.29 0.000 -.5837044 -.2175329 -------------+---------------------------------------------------------------- lnsigma | female | .3689518 .1481164 2.49 0.013 .078649 .6592547 -------------+---------------------------------------------------------------- /cut1 | 5.599277 .4835474 11.58 0.000 4.651541 6.547013 ------------------------------------------------------------------------------
Tham khảo:
http://www.ats.ucla.edu/stat/stata/webbooks/logit/chapter5/statalog5.htm
http://www.stata.com/meeting/germany08/GSUG2008-Handout.pdf
https://www3.nd.edu/~rwilliam/gologit2/negprob.html
[1] http://www.stata.com/support/faqs/statistics/cut-points/
[2] Greene, W. H. 1993. Econometric Analysis: 2d ed. New York: Macmillan.
[3] Dữ liệu bị phân riêng từng phần hoặc hoàn hảo xảy ra khi giá trị của biến phụ thuộc Y chỉ có 1 giá trị ứng với một khoảng giá trị (từng phần) hoặc toàn bộ giá trị (hoàn hảo) của biến liên tục độc lập X.
Chẳng hạn với tập dữ liệu như sau:
Y | X1 | X2 |
0 | 1 | 3 |
0 | 2 | 2 |
0 | 3 | -1 |
0 | 3 | -1 |
1 | 5 | 2 |
1 | 6 | 4 |
1 | 10 | 1 |
1 | 11 | 0 |
Chúng ta dễ dàng quan sát thấy Y sẽ luôn bằng 0 ứng với giá trị của X1 nhỏ hơn 3. Hoặc Y luôn bằng 1 khi X1 lớn hơn 3. 2 vấn đề này được gọi là hiện tượng phân riêng từng phần. Trong trường hợp này không cần hồi quy logit chúng ta cũng có thể dự đoán chính xác giá trị của Y theo giá trị của X1. Với dữ liệu như vậy, chúng ta luôn có: Prob(Y = 1 | X1<=3) = 0 and Prob(Y=1 X1>3) = 1.