Hồi quy logit thứ tự – STATA
Thực hiện hồi quy logit thứ tự
Phần nội dung bên dưới sẽ trình bày cách thức ước lượng mô hình hồi quy logit thứ tự trên STATA. Sử dụng câu lệnh ologit để hồi quy biến phụ thuộc dạng thứ tự apply theo các biến giải thích trong mô hình như sau:
ologit apply pared public gpa
Phần đầu tiên của kết quả cho thấy quá trình lặp. Stata bắt đầu với việc phân tích mô hình không (chỉ bao gồm hệ số cắt). Sau đó ước lượng hợp lý cực đại ML cho mô hình đầy đủ và kết quả mô hình hội tụ ở lần lặp thứ 4 với giá trị log likelihood bằng -358.51244. Giá trị log likelihood này có thể được sử dụng để so sánh lựa chọn các mô hình tương ứng (probit thứ tự chẳng hạn).
Ước lượng hợp lí cực đại đòi hỏi mẫu dữ liệu có số quan sát tương đối lớn và được kiểm định bởi thống kê LR Chi2. Với số quan sát của mẫu là 400, kết quả ước lượng ML cho thấy có ý nghĩa thống kê nhỏ hơn 1%. Giá trị LR chi2(3) bằng 24.18 đã cho thấy điều này. Giá trị pseudo-R-squared của ước lượng là 0.0326.
Phần bên dưới cho biết kết quả ước lượng của hệ số, sai số chuẩn, giá trị thống kê z cùng với mức ý nghĩa p-value và khoảng tin cậy của hệ số ước lượng. Cả 2 biến pared và gpa đều có ý nhĩa thống kê, trong khi đó biến public là không. Việc giải thích các hệ số ước lượng này cũng tương tự như hồi quy logit thông thường. Chẳng hạn, nếu một sinh viên có cha hoặc mẹ tốt nghiệp đại học thì log của odds về khả năng em đó học lên tiếp là cao hơn 1.05 lần so với các sinh viên không có cha mẹ tốt nghiệp đại học. Hoặc chúng ta có thể giải thích cho biến liên tục gpa như sau. Việc tăng thêm 1 điểm trung bình gpa sẽ làm tăng log của odds hay logit về khả năng học tiếp của sinh viên lên 0.62 lần. Cả 2 giải thích này đều dựa trên điều kiện các yếu tố khác là không đổi.
Các giá trị tới hạn (cutpoints) ở phần cuối của bảng kết quả cho thấy giá trị của biến ẩn có thể phân chia 3 nhóm quan sát trong dữ liệu. Biến ẩn này có dạng liên tục, và thông thường ít được sử dụng để giải thích kết quả.
Chúng ta có kết quả ước lượng odds ratio của các hệ số bằng cách sử dụng tùy chọn or trong câu lệnh ologit như sau:
ologit apply pared public gpa, or
Kết quả ước lượng odds ratio này được giải thích tương tự như trong hồi quy logit thông thường. Chẳng hạn đối với biến pared, nếu một sinh viên có cha/mẹ đã tốt nghiệp đại học so với các sinh viên không có cha mẹ tốt nghiệp đại học thì odds của apply=2 so với 2 mức còn lại cao hơn 2.85 lần (các biến còn lại được giữ nguyên không đổi) và ngược lại, odds của apply=0 so với 2 mức còn lại thì thấp hơn 2.85 lần. Đối với biến gpa, việc tăng thêm 1 điểm gpa sẽ làm tăng thêm 1.85 lần odds của nhóm apply=2 so với 2 nhóm còn lại (các biến khác được giữ nguyên). Bởi vì tỷ lệ odds (odds ratio) giả định rằng có sự tăng lên đồng đều ở các nhóm.
Các bạn có thể sử dụng lệnh listcoef (một công cụ được viết bởi Long and Freese, thêm bằng findit spost) để hiển thị các kết quả về odds ratios, cũng như sự thay đổi của odds của các biến. Các bạn sử dụng thêm tùy chọn help để hiển thị phần giải thích các thông số hoặc kết hợp với tùy chọn percent để cho biết % thay đổi của odds. Cụ thể, minh họa lệnh listcoef như sau:
listcoef, help
listcoef, help percent
Một trong những giả định để thực hiện hồi quy logit thứ tự hoặc probit thứ tự là mối quan hệ từng cặp trong các nhóm của biến phụ thuộc là giống nhau. Nói cách khác, hồi quy logit thứ tự giả định rằng các hệ số mô tả mối quan hệ giữa nhóm thấp nhất với các nhóm cao hơn của biến phụ thuộc là giống với mối quan hệ giữa nhóm thấp kế tiếp với các nhóm cao hơn… Điều này được gọi là giả định về tỉ lệ odds (proportional odds assumption) hoặc giả định hồi quy song song (parallel regression assumption).
Bởi vì mối quan hệ giữa tất cả các cặp nhóm là giống nhau, nên chỉ có một tập hệ số (chỉ một mô hình). Nếu điều này không đảm bảo thì chúng ta sẽ cần nhiều mô hình khác nữa để mô tả mối quan hệ giữa các cặp của biến phụ thuộc. Trên Stata, chúng ta có thể kiểm định giả định tỉ lệ odds này bằng 3 công cụ lệnh sau.
- Thứ nhất, lệnh oparallel (sử dụng findit oparallel), sẽ kiểm tra về giả định hồi quy song song hay tỉ lệ odds của hồi quy logit thứ tự. Mặc định lệnh sẽ thực hiện 5 loại kiểm định sau: LR test, score test, Wald test, Wolfe-Gould test và Brant test. Một kết luận thống nhất từ 5 loại kiểm định này sẽ cho một kết quả tin cậy tốt nhất. Lệnh oparallel bao quát 2 trường hợp còn lại và khuyến khích được sử dụng.
Kết quả kiểm định giả định về tỉ lệ odds bằng lệnh oparallel
oparallel
- Thứ hai, lệnh omodel (sử dụng findit omodel). Lệnh này sử dụng kiểm định LR với giả thuyết H0 cho rằng không có sự khác nhau về hệ số giữa các mô hình. Với giả thuyết này, chúng ta mong muốn kiểm định không có ý nghĩa thống kê (nghĩa là chấp nhận H0).
- Thứ ba, lệnh brant thực hiện kiểm định Brant test. Giả thuyết H0 cho kiểm định Brant cũng tương tự giả thuyết H0 của kiểm định LR. Lệnh brant cũng giống như lệnh listcoeff đều là một công cụ được viết bởi Long and Freese, thêm bằng findit spost. Lưu ý rằng Chi2 của kiểm định LR trong mô hình (lệnh ologit) có giá trị 4.06 gần bằng với giá trị 4.34 nhận được từ lệnh brant.
Tóm lại, trong cả 3 trường hợp để sử dụng hồi quy logit thứ tự chúng ta đều không muốn bác bỏ H0. Kết quả kiểm định có ý nghĩa thống kê sẽ là bằng chứng cho thấy giả định về tỉ lệ odds của hồi quy logit thứ tự bị vi phạm.
Kết quả kiểm định giả định về tỉ lệ odds bằng lệnh omodel
omodel logit apply pared public gpa
Kết quả kiểm định giả định về tỉ lệ odds bằng lệnh brant
brant, detail
Trong trường hợp giả định về tỉ lệ odds bị vi phạm, chúng ta không thể sử dụng hồi quy logit thứ tự để ước lượng. Trong trường hợp đó, chúng ta có thể ước lượng mô hình bằng phương pháp hồi quy logit thứ tự tổng quát (generalized ordered logistic) bằng lệnh gologit2 (sử dụng findit gologit2).
BÀN LUẬN VỀ HỒI QUY LOGIT THỨ TỰ Xem thêm: Tính toán và giải thích xác suất dự đoán của biến phụ thuộc