Hồi quy logit đa bậc – STATA

03/11/2014

7 phút

Minh họa hồi quy logit đa bậc

Phần nội dung bên dưới sẽ trình bày cách thức ước lượng mô hình hồi quy logit đa bậc trên STATA. Sử dụng câu lệnh mlogit để hồi quy biến phụ thuộc dạng danh mục prog theo các biến giải thích trong mô hình như sau:

mlogit prog i.ses write, base(2)
Hồi quy logit đa bậc - mlogit

Tùy chọn tiền tố i. trước biến ses cho biết biến ses là một biến chỉ số (danh mục). Để chọn nhóm nào làm nhóm tham chiếu chúng ta có thể sử dụng tùy chọn base. base(2) có nghĩa là nhóm có giá trị prog=2 (học thuật: academic) sẽ làm nhóm tham chiếu để so sánh với 2 nhóm còn lại của biến phụ thuộc.

Trong bảng kết quả trên, quá trình lặp của hồi quy logit đa bậc đã hội tụ ở bước lặp thứ 4 với giá trị log likelihood bằng -179.98173. Kết quả của trị thống kê Chi2 bằng 48.23 cho biết ước lượng ML có ý nghĩa thống kê ở mức dưới 1%. Điều đó, có nghĩa mô hình đầy đủ tốt hơn so với mô hình không (các hệ số ước lượng của biến giải thích đều bằng 0).

Kết quả ước lượng hệ số được chia làm 2 phần ứng với 2 mức giá trị của biến phụ thuộc prog. Nó tương ứng với 2 biểu thức hồi quy bên dưới.

\[ln\left(\frac{P(prog=1)}{P(prog=2)}\right) = b_{10} + b_{11}(ses=2) + b_{12}(ses=3) + b_{13}write\] và:
\[ln\left(\frac{P(prog=3)}{P(prog=2)}\right) = b_{20} + b_{21}(ses=2) + b_{22}(ses=3) + b_{23}write\]

Trong đó b là các hệ số hồi quy.

Giải thích kết quả của hồi quy logit đa bậc tương tự như các dạng hồi quy logit khác. Chẳng hạn, điểm write tăng thêm 1 điểm sẽ làm giảm 0.58 log của odds tương đối giữa ngành tổng quát và học thuật. Đồng thời, việc tăng thêm 1 điểm write sẽ làm giảm 0.1136 log của odds tương đối giữa hướng nghiệp và học thuật.

Log của odds tương đối giữa ngành tổng quát với ngành học thuật sẽ giảm 1.163 nếu điều kiện kinh tế của học sinh thay đổi từ nhóm 1 (thấp nhất) đến nhóm 3 (cao nhất).

Tỉ lệ xác suất của việc chọn một ngành trong biến phụ thuộc so với xác suất chọn ngành tham chiếu còn được gọi là tỉ lệ rủi ro tương đối (relative risk).

Xem thêm phân biệt risk và odds.

Chúng ta có thể sử dụng tùy chọn rrr trong câu lệnh hồi quy logit đa bậc mlogit như sau:

mlogit, rrr
Hồi quy logit đa bậc - mlogit

RRR là tỉ lệ risk tương đối (relative risk ratio) cho sự gia tăng một đơn vị của biến độc lập. Tỉ lệ risk tương đối thay đổi giữa nhóm điều kiện kinh tế thấp so với nhóm kinh tế cao ở ngành tổng quát so với học thuật là 0.3126. Nói cách khác risk kì vọng của việc chọn ngành tổng quát so với ngành học thuật là thấp hơn ở những học sinh có điều kiện kinh tế cao.

Chúng ta có thể kiểm tra ý nghĩa thống kê chung của biến ses bằng lệnh test như bên dưới:

test 2.ses 3.ses
(1) [general]2.ses = 0
(2) [academic]2.ses = 0
(3) [vocation]2.ses = 0
(4) [general]3.ses = 0
(5) [academic]3.ses = 0
(6) [vocation]3.ses = 0
Constraint 2 dropped
Constraint 5 dropped

chi2(4) = 10.82
Prob > chi2 = 0.0287

Cụ thể hơn, chúng ta cũng có thể kiểm tra ảnh hưởng của biến 3.ses trong việc giải thích khả năng chọn ngành tổng quát với học thuật có bằng với khả năng chọn ngành hướng nghiệp với học thuật như sau:

test [general]3.ses = [vocation]3.ses

(1) [general]3.ses – [vocation]3.ses = 0

chi2(1) = 0.08
Prob > chi2 = 0.7811

Các bạn cũng có thể sử dụng xác suất dự đoán để hiểu hơn về mô hình bằng lệnh margins. Trong khi tính tỉ lệ tác động biên của mỗi biến thì giá trị của các biến còn lại được giữ nguyên ở một mức xác định (không đổi). Vì biến phụ thuộc có 3 mức, do đó, chúng ta phải thực hiện lệnh margins 3 lần như sau:

margins ses, atmeans predict(outcome(1))
Hồi quy logit đa bậc - mlogit

margins ses, atmeans predict(outcome(2))
Hồi quy logit đa bậc - mlogit

margins ses, atmeans predict(outcome(3))
Hồi quy logit đa bậc - mlogit

Chúng ta cũng có thể kết hợp các bảng xác suất dự đoán trên dưới dạng đồ thị xác suất dự báo của biến chọn ngành theo biến điều kiện kinh tế như sau:
Hồi quy logit đa bậc - mlogit

Chúng ta cũng có thể tính toán các mức xác suất dự đoán của biến phụ thuộc (prog) theo các giá trị của biến liên tục (write)

margins, at(write = (30(10) 70)) predict(outcome(1)) vsquish
Hồi quy logit đa bậc - mlogit

margins, at(write = (30(10) 70)) predict(outcome(2)) vsquish
Hồi quy logit đa bậc - mlogit

margins, at(write = (30(10) 70)) predict(outcome(3)) vsquish
Hồi quy logit đa bậc - mlogit

Hoặc thể hiện dưới dạng đồ thị:
Hồi quy logit đa bậc - mlogit

Hồi quy logit đa bậc - mlogit

Chúng ta cũng có thể sử dụng lệnh fitstat để tổng hợp các thông tin về kết quả mô hình. Sử dụng findit fitstat để thêm lệnh (nếu chưa có)

fitstat
Hồi quy logit đa bậc - mlogit

BÀN LUẬN VỀ HỒI QUY LOGIT ĐA BẬC

Những kiểm định thống kê để chẩn đoán sự phù hợp trong mô hình hồi quy logit không thể được sử dụng trực tiếp trên hồi quy logit đa bậc. Sự phù hợp của mô hình được kiểm tra qua các thông số trong câu lệnh fitstat.
Giá trị Pseudo-R-Squared không có ý nghĩa giải thích độ phù hợp của mô hình như ở hồi quy OLS.
Hồi quy logit đa bậc cũng là một phương pháp ước lượng ML, do vậy, đòi hỏi phải có cở mẫu phù hợp (lớn hơn so với cở mẫu trong OLS).
Đối với trường hợp dữ liệu bị tách riêng (từng phần hoặc toàn bộ), không giống như hồi quy logit (thông báo lỗi) trong trường hợp hồi quy logit đa bậc, stata vẫn tiếp tục quá trình lặp để ước lượng. Tuy nhiên, đây là vòng lặp vô tận (chúng ta phải thoát khỏi vòng lặp thủ công). Trong trường hợp đó, các bạn có thể tạo các bảng 2 chiều giữa biến phụ thuộc theo các biến giải thích có nghi ngờ để xác nhận vấn đề. Sau đó, thực hiện lại hồi quy logit đa bậc bằng việc loại bỏ biến gây ra sự tách riêng này. Vấn đề này cũng tương tự như vấn đề ô trống hoặc thiếu quan sát.

Xem thêm: Hồi quy logit thứ tự
Hồi quy logit đa biến

Trang trước 1 2

Thẻ

03/11/2014

7 phút

Xem thêm

3 Comments

cattrang180 viết:
10/11/2014 lúc 22:55
Khi em chạy logistic bằng STATA thì có 1 câu lệnh . mfx để cho ra giá trị dx/dy mà em cần biết. Vậy nếu dùng SPSS thì có cú pháp nào tương tự câu lệnh đó không và nếu có thì làm như thế nào ạ? Em cám ơn!
1. Thuyết Nguyễn viết:
  11/11/2014 lúc 08:08
  Không giống như Stata, SPSS không có sẳn công cụ để tính tác động biên của hồi quy logit. Tham khảo: Tác động biên trên SPSS.
  Do vậy, bạn phải tính tác động biên này bằng tay theo định nghĩa là phần xác suất (hoặc log của odds hoặc odds ratios) tăng lên/giảm xuống khi X thay đổi 1 đơn vị. Để dễ hiểu và trực quan hơn bạn nên thể hiện các động biên này bằng đồ thị. Tất cả những tính toán này SPSS sẽ thực hiện giúp bạn.
  Theo ý kiến của tôi, bạn đã biết hồi quy logit cũng như tính tác động biên trên Stata thì tiếp tục thực hiện trên Stata, lý do gì phải sử dụng SPSS?
  1. cattrang180 viết:
    15/11/2014 lúc 18:16
    Em cám ơn Thầy rất nhiều!

Xác suất dự đoán hồi quy logit - STATA

Hồi quy Poisson - STATA

3 Comments