KTL cơ bảnPhân tích hồi quy

Hồi quy logit thứ tự – STATA

GIỚI THIỆU VỀ HỒI QUY LOGIT THỨ TỰ

Hồi quy logit thứ tự (Ordered Logistic Regression) là dạng tổng quát của hồi quy logit thông thường. Nó được sử dụng khi biến phụ thuộc có thang đo thứ tự.

Hồi quy thứ tự được thực hiện dựa trên 4 giả định sau:

  1. Biến phụ thuộc là biến dạng thứ tự, chẳng hạn các biến sử dụng thang đo Likert (3 bậc, 5 bậc hoặc 7 bậc). Tham khảo bài viết các loại thang đo trong phân tích dữ liệu.
  2. Biến độc lập có thể là biến liên tục, thứ tự hoặc phân loại (bao gồm cả nhị phân).
  3. Không có sự đa cộng tuyến giữa các biến độc lập.
  4. Giả định về tỉ lệ khả dĩ. Mối quan hệ giữa mỗi cặp trong các nhóm kết quả là như nhau.

Giả sử, biến kết quả của chúng ta có 4 nhóm (1, 2, 3, và 4) trong đó theo thứ tự 1 là nhóm thấp nhất và 4 là nhóm cao nhất. Khi đó, hồi quy logit thứ tự giả định rằng các hệ số mô tả mối quan hệ giữa nhóm thấp nhất (1) với các nhóm cao hơn (2, 3, 4) cũng tương tự như mối quan hệ giữa nhóm thấp kế tiếp với các nhóm cao hơn (3, 4, 1),… Điều này được gọi là giả định tỉ lệ khả dĩ (proportional odds) hay là giả định hồi quy song song (parallel regression assumption). Bởi vì mối quan hệ của mỗi cặp trong các nhóm là giống nhau nên mô hình chỉ có một tập các hệ số ước lượng. Nếu điều này vi phạm có nghĩa mô hình không phù hợp và chúng ta cần sử dụng một mô hình khác thay thế (chẳng hạn như mô hình hồi quy logit thứ tự tổng quát) để mô tả mối quan hệ giữa mỗi cặp của các nhóm kết quả.

Tham khảo: Hồi quy logit thứ tự trên SPSS

Để dễ hiểu hơn về hồi quy logit thứ tự, các bạn có thể tham khảo các ví dụ sau:

  1. Một công ty nghiên cứu thị trường muốn khảo sát các nhân tố ảnh hưởng đến sự lựa chọn cỡ ly soda (nhỏ, trung bình, lớn, hoặc rất lớn) của khác hàng trong chuỗi thức ăn nhanh. Những nhân tố này bao gồm loại thức ăn được chọn (hamburger hoặc gà), có chiên hay không, tuổi của người khách hàng. Trong trường hợp này, biến phụ thuộc là kích thước ly soda, có thang đo thứ tự, được thể hiện qua sự chênh lệch về giá của ứng với các cở ly. Chẳng hạn, sự chênh lệch giữa ly vừa và ly nhỏ là 10 nghìn, giữa vừa và lớn là 8 nghìn hoặc giữa lớn và rất lớn là 12 đồng.
  2. Một nhà nghiên cứu quan tâm đến các yếu tố ảnh hưởng đến đạt huy chương trong môn bơi lội Olympic. Các yếu tố liên quan gồm thời gian tập luyện, chế độ dinh dưỡng, tuổi của vận động viên và tính phổ biến của môn bơi lội ở nước nhà. Nhà nghiên cứu tin rằng, khoảng cách giữa huy chương vàng và bạc là lớn hơn khoảng cách giữa huy chương bạc và đồng.
  3. Một nghiên cứu xem xét các nhân tố ảnh hưởng đến quyết định học tiếp (cao học). Các sinh viên được hỏi về khả năng học tiếp của mình với 3 mức không có khả năng, có khả năng và rất có khả năng. Vì vậy, biến phụ thuộc ở đây có 3 mức. Các biến giải thích được sử dụng là học vấn của cha mẹ, loại trường (công/tư) và điểm trung bình (GPA). Các nhà nghiên cứu có lí do tin rằng khoảng cách giữa 3 mức phân loại trên là không bằng nhau. Chẳng hạn, khoảng cách giữa không có khả năng và có khả năng là nhỏ hơn so với khoảng cách giữa có khả năng và rất có khả năng.

Bài viết này trình bày về vấn đề hồi quy đối với biến phụ thuộc dạng thứ tự, còn gọi là hồi quy thứ tự. Các hướng dẫn thực hành sẽ được minh họa theo ví dụ 3 nêu trên.

Ghi chú: do phần minh họa và diễn giải tính xác suất dự đoán của biến phụ thuộc theo các mức giá trị của các biến độc lập khá dài và nhiều hình vẽ minh họa nên tôi sẽ trình bày riêng ở một bài viết mới. Các bạn đọc thêm Tính xác suất dự đoán trong mô hình hồi quy logit thứ tự.

Còn nữa…

1 2 3Trang sau
Xem thêm
Back to top button