Chẩn đoán mô hình hồi quy logit
2. Độ phù hợp của mô hình (Goodness of fit)
Trong ước lượng OLS nếu chúng ta muốn kiểm định giả thuyết tất cả các \(\beta = 0\) với giả thuyết thế là tồn tại ít nhất một \(\beta \ne 0\) thì sử dụng kiểm định F tổng thể (Global F). Ngược lại, trong mô hình hồi quy logistic chúng ta sử dụng kiểm định likelihood ratio chi-square (Stata gọi tắt là LR Chi2). Giá trị LR chi2 được tính toán so với mô hình hằng.
Xác suất của các kết quả quan sát ứng với các tham số ước lượng được gọi là likelihood (tạm dịch là hợp lí). Vì likelihood là một xác suất nên có giá trị nằm trong khoảng 0 đến 1. Trong khi đó, Stata luôn hiển thị giá trị của log likelihood (LL) nên giá trị log likelihood này luôn nhỏ hơn 0. Xét về giá trị đại số (không có trị tuyệt đối) thì LL càng lớn thì mô hình càng phù hợp (xác suất càng gần 1).
-2*LL được gọi là độ lệch (deviance) hay DEV hoặc đơn giản kí hiệu là D, có mối quan hệ với n*log(SSE/n) trong OLS. Độ lệch càng nhỏ thì mô hình càng phù hợp với dữ liệu.
Nhắc lại: AIC, BIC cũng được tính từ chỉ số -2*LL này, do vậy, giá trị đại số của AIC, BIC càng thấp thì càng phù hợp.
Các chỉ tiêu đánh giá sự phù hợp của mô hình hồi quy logit
- AIC = -2*LLm + 2k
- BIC = -2*LLm + k*log(n)
- Giá trị LR chi2 = -2*LL0 – (-2*LLm) = -2(LL0 – LLm)
- Giá trị Pseudo R2 = LR chi2 / (-2LL0) = 1 – LLm/LL0
LL càng lớn hay -2*LL cũng như AIC, BIC càng nhỏ
thì mô hình càng phù hợp.
- -2*LLm là giá trị tối đa của hàm hợp lí (likelihood)
- 2k là thành phần điều chỉnh, k càng lớn thì mô hình càng phức tạp
- n là cỡ mẫu
Trở lại với mô hình logit sau:
. logit hiqual yr_rnd meals cred_ml ym Iteration 0: log likelihood = -349.01971 Iteration 1: log likelihood = -192.43886 Iteration 2: log likelihood = -157.59484 Iteration 3: log likelihood = -153.98173 Iteration 4: log likelihood = -153.95333 Iteration 5: log likelihood = -153.95333 Logistic regression Number of obs = 707 LR chi2(4) = 390.13 Prob > chi2 = 0.0000 Log likelihood = -153.95333 Pseudo R2 = 0.5589 ------------------------------------------------------------------------------ hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- yr_rnd | -2.816989 .8625013 -3.27 0.001 -4.50746 -1.126517 meals | -.1014958 .0098204 -10.34 0.000 -.1207434 -.0822483 cred_ml | .7795475 .3205748 2.43 0.015 .1512325 1.407863 ym | .0459029 .0188068 2.44 0.015 .0090422 .0827635 _cons | 2.668048 .429688 6.21 0.000 1.825875 3.510221 ------------------------------------------------------------------------------
Ta có thể tính lại các giá trị LR chi2 và Psedudo R2 như sau:
- LR chi2 = -2(LL0 – LLm) = -2*(-349.01971 – (-153.95333)) = 390.13276
- Pseudo R2 = 1 – LLm/LL0 = 1 – (-153.95333)/ (-349.01971) = 0.5588979