Home | KTL nâng cao | Hồi quy đa biểu thức – STATA

Hồi quy đa biểu thức – STATA

Nếu tập dữ liệu bao gồm nhiều biến, chúng ta muốn ước lượng nhiều hơn một biểu thức hồi quy. Chẳng hạn, chúng ta muốn dự đoán y1 theo x1, cũng như muốn dự đoán y2 theo x2. Mặc dù 2 biểu thức này không có biến chung nhưng 2 biểu thức trên không phải độc lập lẫn nhau, bởi vì dữ liệu hồi quy cho 2 biểu thức trên là cùng một tập dữ liệu. Mô hình hồi quy đa biểu thức là một công cụ mạnh được mở rộng để phân tích dữ liệu.

Đây là một ví dụ của trường hợp hệ thống biểu thức được biết đến với tên gọi là hệ thống biểu thức hồi quy gần như không liên quan (SUR). SUR được viết tắt là Seemingly Unrelated Regression. Chúng ta có thể ước lượng các hệ số và các sai số chuẩn đã xét đến sai số tương quan giữa 2 mô hình. Một đặc điểm quan trọng của các mô hình đa biểu thức là chúng ta có thể kiểm tra chéo các biến dự đoán giữa các biểu thức.

Một ví dụ khác của hồi quy đa biểu thức là nếu chúng ta muốn dự đoán y1, y2 và y3 theo x1 và x2. Có 3 biểu thức hồi quy với cùng các biến giải thích. Trường hợp này chính là mô hình hồi quy đa biến bội – multiple regression. Ở mô hình này chúng ta cũng có thể kiểm tra chéo các hệ số giữa các biểu thức.

Để ước lượng mô hình đa biểu thức này, chúng ta có thể sử dụng ước lượng SUR (câu lệnh sureg) hoặc ước lượng đa biểu thức bằng câu lệnh mvreg. Bài viết này sẽ trình bày vấn đề hồi quy đa biểu thức bằng câu lệnh mvreg trên STATA.

Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta

use https://vietlod.com/data/hsb2.dta, clear

Giả sử, Chúng ta muốn ước lượng đồng thời 3 biểu thức sau:
read = female prog1 prog3
write = female prog1 prog3
math = female prog1 prog3

Đầu tiên, sử dụng câu lệnh tab với tùy chọn gen để tạo 3 biến nhị phân prog1, prog2, prog3 như sau:
tab prog, gen(prog)

Tiếp đến, sử dụng câu lệnh mvreg để ước lượng đồng thời 3 biểu thức trên:
mvreg read write math = female prog1 prog3

Phần đầu của kết quả trong câu lệnh mvreg giống với phần đầu của kết quả theo lệnh sureg rằng nó tóm tắt các thông số về độ phù hợp của mô hình cho 3 biểu thức. Tuy nhiên, sự khác nhau ở loại thống kê được sử dụng để kiểm định mô hình. Câu lệnh sureg sử dụng thống kê Chi – bình phương để kiểm tra độ phù hợp của mô hình, trong khi đó, câu lệnh mvreg sử dụng thống kê F.

Các kết quả bên dưới ở 2 câu lệnh cũng tương đối giống nhau ngoại trừ các sai số chuẩn. Những sai số chuẩn này tương ứng với sai số chuẩn của hồi quy OLS (regress) vì các sai số này không tính đến các sự tương quan của các phần dư.
Hồi quy đa biểu thức - mvreg

Chúng ta cũng có thể kiểm tra ý nghĩa của hệ số female. Lưu ý rằng, chỉ cần một hệ số female ở 1 trong 3 biểu thức có ý nghĩa thống kê thì hệ số female của mô hình sẽ có ý nghĩa thống kê. Cách kiểm định này cũng tương tự với lệnh sureg, tuy nhiên, loại thống kê được sử dụng để kiểm định là thống kê F (chứ không phải Chi – bình phương ở trường hợp sureg).

test female

(1) [read]female = 0.0
(2) [write]female = 0.0
(3) [math]female = 0.0

F(3, 196) = 11.63
Prob > F = 0.0000

Chúng ta cũng có thể kiểm tra biến prog1prog3, ở cả hai trường hợp riêng rẻ và kết hợp.

test prog1

(1) [read]prog1 = 0.0
(2) [write]prog1 = 0.0
(3) [math]prog1 = 0.0

F(3, 196) = 7.72
Prob > F = 0.0001

test prog3

(1) [read]prog3 = 0.0
(2) [write]prog3 = 0.0
(3) [math]prog3 = 0.0

F(3, 196) = 21.47
Prob > F = 0.0000

test prog1 prog3

(1) [read]prog1 = 0.0
(2) [write]prog1 = 0.0
(3) [math]prog1 = 0.0
(4) [read]prog3 = 0.0
(5) [write]prog3 = 0.0
(6) [math]prog3 = 0.0

F(6, 196) = 11.83
Prob > F = 0.0000

NHẬN XÉT:

Câu lệnh suregmvreg cả hai đều cho phép kiểm định mô hình đa biểu thức. sureg khi phân tích có tính đến yếu tố tương quan giữa phần dư các biểu thức, còn mvreg thì không (xem là phần dư giữa các biểu thức là hoàn toàn độc lập). Vì vậy, sureg có thể thực hiện trong trường hợp phần dư giữa các biểu thức có tương quan với nhau. Ngoài ra, sureg thực hiện trong trường hợp các biến giải thích ở các biểu thức là khác nhau.