Hồi quy logit đa bậc – STATA
Minh họa hồi quy logit đa bậc
Phần nội dung bên dưới sẽ trình bày cách thức ước lượng mô hình hồi quy logit đa bậc trên STATA. Sử dụng câu lệnh mlogit để hồi quy biến phụ thuộc dạng danh mục prog theo các biến giải thích trong mô hình như sau:
mlogit prog i.ses write, base(2)
Tùy chọn tiền tố i. trước biến ses cho biết biến ses là một biến chỉ số (danh mục). Để chọn nhóm nào làm nhóm tham chiếu chúng ta có thể sử dụng tùy chọn base. base(2) có nghĩa là nhóm có giá trị prog=2 (học thuật: academic) sẽ làm nhóm tham chiếu để so sánh với 2 nhóm còn lại của biến phụ thuộc.
Trong bảng kết quả trên, quá trình lặp của hồi quy logit đa bậc đã hội tụ ở bước lặp thứ 4 với giá trị log likelihood bằng -179.98173. Kết quả của trị thống kê Chi2 bằng 48.23 cho biết ước lượng ML có ý nghĩa thống kê ở mức dưới 1%. Điều đó, có nghĩa mô hình đầy đủ tốt hơn so với mô hình không (các hệ số ước lượng của biến giải thích đều bằng 0).
Kết quả ước lượng hệ số được chia làm 2 phần ứng với 2 mức giá trị của biến phụ thuộc prog. Nó tương ứng với 2 biểu thức hồi quy bên dưới.
\[ln\left(\frac{P(prog=1)}{P(prog=2)}\right) = b_{10} + b_{11}(ses=2) + b_{12}(ses=3) + b_{13}write\]
và:
\[ln\left(\frac{P(prog=3)}{P(prog=2)}\right) = b_{20} + b_{21}(ses=2) + b_{22}(ses=3) + b_{23}write\]
Trong đó b là các hệ số hồi quy.
Giải thích kết quả của hồi quy logit đa bậc tương tự như các dạng hồi quy logit khác. Chẳng hạn, điểm write tăng thêm 1 điểm sẽ làm giảm 0.58 log của odds tương đối giữa ngành tổng quát và học thuật. Đồng thời, việc tăng thêm 1 điểm write sẽ làm giảm 0.1136 log của odds tương đối giữa hướng nghiệp và học thuật.
Log của odds tương đối giữa ngành tổng quát với ngành học thuật sẽ giảm 1.163 nếu điều kiện kinh tế của học sinh thay đổi từ nhóm 1 (thấp nhất) đến nhóm 3 (cao nhất).
Tỉ lệ xác suất của việc chọn một ngành trong biến phụ thuộc so với xác suất chọn ngành tham chiếu còn được gọi là tỉ lệ rủi ro tương đối (relative risk).
Xem thêm phân biệt risk và odds.
Chúng ta có thể sử dụng tùy chọn rrr trong câu lệnh hồi quy logit đa bậc mlogit như sau:
mlogit, rrr
RRR là tỉ lệ risk tương đối (relative risk ratio) cho sự gia tăng một đơn vị của biến độc lập. Tỉ lệ risk tương đối thay đổi giữa nhóm điều kiện kinh tế thấp so với nhóm kinh tế cao ở ngành tổng quát so với học thuật là 0.3126. Nói cách khác risk kì vọng của việc chọn ngành tổng quát so với ngành học thuật là thấp hơn ở những học sinh có điều kiện kinh tế cao.
Chúng ta có thể kiểm tra ý nghĩa thống kê chung của biến ses bằng lệnh test như bên dưới:
test 2.ses 3.ses
(1) [general]2.ses = 0
(2) [academic]2.ses = 0
(3) [vocation]2.ses = 0
(4) [general]3.ses = 0
(5) [academic]3.ses = 0
(6) [vocation]3.ses = 0
Constraint 2 dropped
Constraint 5 dropped
chi2(4) = 10.82
Prob > chi2 = 0.0287
Cụ thể hơn, chúng ta cũng có thể kiểm tra ảnh hưởng của biến 3.ses trong việc giải thích khả năng chọn ngành tổng quát với học thuật có bằng với khả năng chọn ngành hướng nghiệp với học thuật như sau:
test [general]3.ses = [vocation]3.ses
(1) [general]3.ses – [vocation]3.ses = 0
chi2(1) = 0.08
Prob > chi2 = 0.7811
Các bạn cũng có thể sử dụng xác suất dự đoán để hiểu hơn về mô hình bằng lệnh margins. Trong khi tính tỉ lệ tác động biên của mỗi biến thì giá trị của các biến còn lại được giữ nguyên ở một mức xác định (không đổi). Vì biến phụ thuộc có 3 mức, do đó, chúng ta phải thực hiện lệnh margins 3 lần như sau:
margins ses, atmeans predict(outcome(1))
margins ses, atmeans predict(outcome(2))
margins ses, atmeans predict(outcome(3))
Chúng ta cũng có thể kết hợp các bảng xác suất dự đoán trên dưới dạng đồ thị xác suất dự báo của biến chọn ngành theo biến điều kiện kinh tế như sau:
Chúng ta cũng có thể tính toán các mức xác suất dự đoán của biến phụ thuộc (prog) theo các giá trị của biến liên tục (write)
margins, at(write = (30(10) 70)) predict(outcome(1)) vsquish
margins, at(write = (30(10) 70)) predict(outcome(2)) vsquish
margins, at(write = (30(10) 70)) predict(outcome(3)) vsquish
Hoặc thể hiện dưới dạng đồ thị:
Chúng ta cũng có thể sử dụng lệnh fitstat để tổng hợp các thông tin về kết quả mô hình. Sử dụng findit fitstat để thêm lệnh (nếu chưa có)
fitstat
BÀN LUẬN VỀ HỒI QUY LOGIT ĐA BẬC Xem thêm: Hồi quy logit thứ tự
Hồi quy logit đa biến
Khi em chạy logistic bằng STATA thì có 1 câu lệnh . mfx để cho ra giá trị dx/dy mà em cần biết. Vậy nếu dùng SPSS thì có cú pháp nào tương tự câu lệnh đó không và nếu có thì làm như thế nào ạ? Em cám ơn!
Không giống như Stata, SPSS không có sẳn công cụ để tính tác động biên của hồi quy logit. Tham khảo: Tác động biên trên SPSS.
Do vậy, bạn phải tính tác động biên này bằng tay theo định nghĩa là phần xác suất (hoặc log của odds hoặc odds ratios) tăng lên/giảm xuống khi X thay đổi 1 đơn vị. Để dễ hiểu và trực quan hơn bạn nên thể hiện các động biên này bằng đồ thị. Tất cả những tính toán này SPSS sẽ thực hiện giúp bạn.
Theo ý kiến của tôi, bạn đã biết hồi quy logit cũng như tính tác động biên trên Stata thì tiếp tục thực hiện trên Stata, lý do gì phải sử dụng SPSS?
Em cám ơn Thầy rất nhiều!