Giải thích Odds một cách đơn giản
Các dạng của hồi quy logit, probit đều cho kết quả các hệ số ước lượng là log của odds, logit hoặc tỉ lệ odds (OR). Việc giải thích các hệ số này đôi khi dễ nhầm lẫn. Bài viết sẽ hướng dẫn cách giải thích odds một ví dụ đơn giản có thể tính tay hoặc sử dụng hồi quy logit giản đơn.
Giả sử chúng ta có bảng 2×2 về tỉ lệ trúng tuyển vào đại học của 10 học sinh nam và học sinh nữ được cho ở bảng như sau:
Trúng tuyển | Được | Không | |
Giới tính | Nam | 7 | 3 |
Nữ | 3 | 7 |
1. Xác suất
Trước khi giải thích odds, chúng ta cần biết odds là gì? Chúng ta cần nhắc lại khái niệm về xác suất.
Xác suất là khả năng xảy ra một sự kiện. Nó được tính bằng tỉ lệ giữa số trường hợp xảy ra một sự kiện đó (p) so với tổng số các trường hợp (p+q).
Như vậy,
- Xác suất trúng tuyển của sinh viên nam là 7/10 hay 0.7 và xác suất không trúng tuyển là 0.3
- Xác suất trúng tuyển của sinh viên nữ là 3/10 hay 0.3 và xác suất không trúng tuyển là 0.7
2. Odds
Odds cũng có định nghĩa tương tự như xác suất, nhưng ở đây chính là tỉ lệ của 2 xác suất. Cụ thể, Odds được định nghĩa là tỉ lệ giữa xác suất xảy ra 1 sự kiện so với xác suất không xảy ra sự kiện đó.
Chúng ta có thể sử dụng khái niệm xác suất này để tính odds được trúng tuyển cho cả sinh viên nam và nữ như sau:
- Odds(nam) = 0.7/0.3 = 2.33333
- Odds(nữ) = 0.3/0.7 = 0.42857
3. Tỉ lệ Odds
Tiếp đến, chúng ta tính tỉ lệ odds (odds ratio) được trúng tuyển của nhóm sinh viên nam so với nhóm sinh viên nữ là:
- OR = 2.3333/.42857 = 5.44
- OR = 5.44 có nghĩa, odds được trúng tuyển ở nhóm sinh viên nam cao hơn 5.44 lần so với odds được trúng tuyển ở nhóm sinh viên nữ.
Chúng ta có thể sử dụng hồi quy logit để minh họa quá trình trên. Đặt biến được trúng tuyển admited {1: được trúng tuyển; 0: không trúng tuyển}; Biến giới tính gender {1: nam; 0: nữ}.
Trong Stata, hồi quy logit có thể được thực hiện bằng lệnh logit hoặc logistic. Sự khác nhau giữa logit và logistic thể hiện ở chổ hệ số ước lượng. Lệnh logit sẽ cho hệ số ước lượng coef là log của odds hay logit. Ngược lại, lệnh logistic sẽ cho hệ số ước lượng Odds ratios hay tỉ lệ odds (OR).
Sử dụng lệnh input để nhập dữ liệu như sau:
input admit gender freq
1 1 7
1 0 3
0 1 3
0 0 7
end
Thực hiện hồi quy logit như sau:
logit admit gender [weight=freq], nolog
Hoặc được thể hiện dưới dạng tỉ lệ odds (OR) khi thêm tùy chọn or ở phía sau câu lệnh logit
logit admit gender [fweight=freq], nolog or
Câu lệnh trên cũng tương đương câu lệnh: logistic admit gender [weight=freq], nolog
Chúng ta thấy rằng giá trị z = 1.74 ở hệ số và tỉ lệ odss của biến gender.
4. logit
Giá trị logit của một mức xác suất (p) được định nghĩa là logarit cơ số e của odds, có công thức là:
[1] logit(p) = ln(odds) = ln(p/q)
Giá trị logit có thể thay đổi từ \( – \infty \) đến \( + \infty \)
logit có mối quan hệ tuyến tính với các biến giải thích trong mô hình hồi quy logit như sau:
[2] logit(p) = a + bX
hoặc
[3] log(p/q) = a + bX
Điều này có nghĩa các hệ số trong hồi quy logit là thành phần log của odds. Chẳng hạn, hệ số của biến gender bằng 1.694596 cho biết sự thay đổi 1 đơn vị của biến gender (0 thành 1) sẽ làm thay đổi 1.694596 đơn vị trong log của odds được trúng tuyển.
Logarit cơ số e 2 về của [3] chúng ta sẽ có:
- Odds(x) = \({e^{a + bx}}\) và
- Odds(x+1) = \({e^{a + b(x+1)}}\)
Theo định nghĩa của tỉ lệ odds thì:
\(OR = \frac{{odds(x + 1)}}{{odds(x)}} = \frac{{{e^{a + b(x + 1)}}}}{{{e^{a + bx}}}}\)
Hay \(OR = {e^b} = {e^{^{{\bf{1}}.{\bf{694596}}}}} = 5.44\)
Các kết quả này phù hợp với phần tính minh họa tính tay ban đầu.