Đọc và chẩn đoán kết quả hồi quy logit thứ tự
3.2 Vấn đề hồi quy xác suất âm:
Bên cạnh vấn đề dữ liệu bị phân riêng[3] thì trong một số trường hợp hồi quy logit hoặc hồi quy logit thứ tự thì xảy ra trường hợp không đủ số quan sát ở các mức từ đó dẫn đến các vấn đề như giá trị xác suất kì vọng âm hoặc hệ số ước lượng quá lớn. Chẳng hạn, ở bộ dữ liệu về doanh số bán xe thì phân bố tần suất của biến rep78 chỉ có 2 quan sát ở mức 1 và 8 quan sát ở mức 2. Với số ít quan sát trong mỗi mức như vậy thì nhiều khả năng ước lượng hồi quy logit thứ tự không đủ quan sát để thực hiện. Chúng ta có thể kiểm chứng vấn đề này như sau:
. tab rep78 Repair | Record 1978 | Freq. Percent Cum. ------------+----------------------------------- 1 | 2 2.90 2.90 2 | 8 11.59 14.49 3 | 30 43.48 57.97 4 | 18 26.09 84.06 5 | 11 15.94 100.00 ------------+----------------------------------- Total | 69 100.00
. gologit2 rep78 foreign length mpg, nolog Generalized Ordered Logit Estimates Number of obs = 69 LR chi2(11) = 40.42 Prob > chi2 = 0.0000 Log likelihood = -73.479895 Pseudo R2 = 0.2157 ------------------------------------------------------------------------------ rep78 | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 1 | foreign | 0 (omitted) length | .1070418 .154429 0.69 0.488 -.1956334 .409717 mpg | .1952588 .4860697 0.40 0.688 -.7574202 1.147938 _cons | -21.49491 38.85059 -0.55 0.580 -97.64066 54.65085 -------------+---------------------------------------------------------------- 2 | foreign | 15.29909 1043.28 0.01 0.988 -2029.493 2060.091 length | -.0005172 .0410406 -0.01 0.990 -.0809554 .079921 mpg | -.0250512 .1696942 -0.15 0.883 -.3576457 .3075432 _cons | 1.9085 11.06988 0.17 0.863 -19.78807 23.60507 -------------+---------------------------------------------------------------- 3 | foreign | 3.839047 1.020579 3.76 0.000 1.838749 5.839344 length | .0618394 .0322828 1.92 0.055 -.0014336 .1251125 mpg | .2485871 .1474316 1.69 0.092 -.0403736 .5375478 _cons | -18.36717 9.02142 -2.04 0.042 -36.04883 -.685515 -------------+---------------------------------------------------------------- 4 | foreign | 3.029609 1.064825 2.85 0.004 .9425908 5.116627 length | .0464896 .0329677 1.41 0.158 -.0181259 .1111051 mpg | .2451505 .1194876 2.05 0.040 .0109592 .4793419 _cons | -17.31255 8.470446 -2.04 0.041 -33.91432 -.7107799 ------------------------------------------------------------------------------ WARNING! 25 in-sample cases have an outcome with a predicted probability that is less than 0. See the gologit2 help section on Warning Messages for more information.
Chúng ta thử tiến hành ước lượng mô hình hồi quy logit đa bậc tổng quát với bộ dữ liệu mẫu này. Kết quả ước lượng như sau:
Dòng thông báo: “WARNING! 25 in-sample cases have an outcome with a predicted probability that is less than 0. See the gologit2 help section on Warning Messages for more information.”
cho thấy 25 quan sát trong mẫu có giá trị xác suất dự báo là nhỏ hơn 0. Chúng ta có thể kiểm chứng vấn đề này thông qua các mức xác suất kì vọng sau khi ước lượng.
- predict p1 p2 p3 p4 p5
Khoảng tin cậy của mức xác suất kì vọng ở mức 2 dao động từ -0.7717533 đến 0.2173719 cho thấy giá trị xác suất có thể nhận giá trị nhỏ hơn 0 trong ước lượng.
. sum p1-p5 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- p1 | 74 .1251924 .1639 .0021189 .7717533 p2 | 74 .0244799 .2264677 -.7717532 .2173719 p3 | 74 .4389264 .2131038 .0052249 .7701156 p4 | 74 .2623029 .1576892 .0249331 .5947709 p5 | 74 .1490983 .2158554 .006046 .9513911
Ngoài ra, để ý đến hệ số của biến foreign thì ở mức đầu tiên biến foreign đã bị loại bỏ và ở mức thứ hai thì hệ số ước lượng của biến foreign rất cao (và không có ý nghĩa thống kê) so với các mức còn lại.