KTL cơ bảnPhân tích hồi quy

Hồi quy khoảng – Interval Regression

2. Lựa chọn phương pháp hồi quy khoảng

Phần trình bày bên dưới sẽ liệt kê một số phương pháp có thể được sử dụng để giải quyết vấn đề nêu trên. Tuy nhiên, cần quan tâm đến các giả định của phương pháp trước khi lựa chọn.

  • Hồi quy khoảng – Đây là phương pháp phù hợp khi chúng ta không biết giá trị thực của biến phụ thuộc ở mỗi quan sát. Thông tin về biến phụ thuộc chúng ta biết được là nằm trong khoảng giá trị nào.
  • Hồi quy probit thứ tự (Ordered probit) – Đây cũng là một phương pháp phù hợp khi hồi quy probit thứ tự với 6 mức giá trị 0 (0.0-2.0), 1 (2.0-2.5), 2 (2.5-3.0), 3 (3.0-3.4), 4 (3.4-3.8), and 5 (3.8-4.0). Tuy nhiên cần kiểm tra về giả định phân phối chuẩn chuẩn hóa của biến thứ tự được chuẩn hóa trong hồi quy probit thứ tự.
  • Hồi quy logit thứ tự (Ordinal logistic) – Các kết quả ước lượng sẽ tương tự các hồi quy probit thứ tự nhất là về mặt ý nghĩa thống kê. Tuy nhiên, các giá trị được dự đoán mang ý nghĩa là xác suất một đối tượng rơi vào mỗi nhóm. Đồng thời, cũng cần kiểm tra các giả định về tỉ lệ odds khi dữ liệu được chuyển sang dạng thứ tự (trong thực tế, điều này rất khó đảm bảo).
  • Hồi quy tuyến tính OLS – bạn có thể phân tích dữ liệu trên bằng cách sử dụng hồi quy quy OLS tại các điểm giữa của các khoảng. Tuy nhiên, kết quả hồi quy sẽ không phản ánh chắc chắn mối quan hệ thật của các quan sát có giá trị trong các khoảng, cũng như các dữ liệu bị kiểm duyệt 2 đầu.

Bài viết này sẽ thực hiện phân tích dữ liệu ở ví dụ trên bằng quy quy khoảng. Chúng ta sẽ sử dụng câu lệnh intreg trên STATA để hồi quy khoảng. Câu lệnh intreg yêu cầu phải có 2 biến phụ thuộc, một biến cho biết ngưỡng giới hạn dưới và một biến cho biết ngưỡng giới hạn trên ứng với mỗi khoảng. Hồi quy khoảng cho mô hình trên với lệnh intreg như sau:

intreg lgpa ugpa write rating i.type
Hồi quy khoảng - stata

Ghi chú: kết quả này đã bỏ qua giá trị các bước lặp ở 2 mô hình hằng (constant-only model) và mô hình đầy đủ các biến giải thích (full model).

3. Phân tích kết quả hồi quy khoảng

Kết quả hồi quy khoảng của mô hình đầy đủ hội tụ ở bước lặp thứ 3 với giá trị Log Likelihood = -33.129 cho thấy mô hình đầy đủ tốt hơn so với mô hình hằng (giá trị Log Likelihood của mô hình hằng bằng -51.747).

Dòng đầu tiên bên phải của bảng kết quả cho thấy có 30 quan sát được sử dụng trong phân tích. Cùng với đó là giá trị kiểm định LR Chi2 với 4 bậc tự do bằng 37.24 mức ý nghĩa 0.0001 cho thấy hiệu quả của mô hình đầy đủ là tốt hơn so với mô hình hằng là có ý nghĩa thống kê.

Bảng hệ số bên dưới cho biết kết quả ước lượng các hệ số, sai số chuẩn, chỉ số z, mức ý nghĩa cùng với khoảng tin cậy của các hệ số trong mô hình hồi quy khoảng. Ngoại trừ biến rating là không có ý nghĩa thống kê, các hệ số còn lại đều có ý nghĩa thống kê xấp xỉ 5%.

Việc giải thích ý nghĩa của các hệ số của hồi quy khoảng tương tự với OLS. Chẳng hạn, một sự gia tăng 1 đơn vị (điểm) ở biến write sẽ làm tăng 0.005 điểm trong giá trị dự đoán của điểm trung bình (GPA). Hoặc như, hệ số của biến 3.type bằng 0.71 cho biết so với các học sinh học theo chương trình vocational (type=1) thì các học sinh học theo chương trình academic (type = 3) có điểm trung bình GPA cao hơn 0.71 điểm.

Để kiểm định riêng rẻ biến type có ý nghĩa thống kê hay không, chúng ta có thể sử dụng lệnh constrast để tính toán trị thống kê chi2 với 2 bậc tự do của biến này.

contrast type
Hồi quy khoảng - stata

Kết quả giá trị Chi2(2) = 18.71 cho thấy hệ số của biến type khác 0 có ý nghĩa thống kê 5% ở cả hai biến phụ thuộc lgpa ugpa.

Giá trị thống kê sigma là tương đương với sai số chuẩn của ước lượng trong hồi quy OLS. sigma = 0.29 có thể được so sánh với các độ lệch chuẩn của biến lgpa và ugpa là 0.78; 0.57. Theo quy tắc kinh nghiệm sai số chuẩn của ước lượng nhỏ hơn 2 lần so với độ lệch chuẩn của biến phụ thuộc thì ước lượng đó có thể tin cậy được. Giá trị của sigma không được ước lượng trực tiếp trong STATA, mà được tính toán thông qua kết quả ước lượng trực tiếp của lnsigma.

Thông tin về các quan sát trong dữ liệu được tóm tắt ở phần cuối cùng của bảng kết quả. Theo đó, tập dữ liệu không có quan sát bị kiểm duyệt trái hoặc bị kiểm duyệt phải. Tất cả 30 quan sát đều bị kiểm duyệt khoảng.

Các bạn có thể sử dụng câu lệnh margins để tính toán giá trị trung bình kì vọng của mỗi ô. Lưu ý rằng giá trị trung bình này khác so với giá trị trung bình trong câu lệnh tabstat trên, bởi vì nó đã được điều chỉnh bởi các biến write rating.

margins type
Hồi quy khoảng - stata

Giá trị điểm trung bình kì vọng của GPA cho các học sinh theo loại chương trình 1 (vocational) là 2.47; cho chương trình 2 là 2.85 và chương trình 3 (academic) là 3.18.

Nếu muốn so sánh các mô hình hồi quy khoảng với nhau, các bạn có thể sử dụng giá trị các thông số như Log Likelihood, AIC và BIC có được từ câu lệnh estat ic bên dưới:

estat ic
Hồi quy khoảng - stata

Câu lệnh intreg không tính toán giá trị R2 hoặc pseudo-R2, tuy nhiên chúng ta có thể tính xấp xỉ bằng cách bình phương giá trị tương quan giữa giá trị quan sát và giá trị được dự đoán của lgpaugpa như sau:

predict p
correlate lgpa ugpa p
Hồi quy khoảng - stata

display .74946^2
display .8430^2

Như vậy, giá trị R2 trong trường hợp hồi quy của lgpa là 56,2% với với giá trị 71,1% ở kết quả hồi quy của ugpa. Ngoài ra, các bạn cũng có thể sử dụng lệnh fitstat để hiển thị thêm thông tin về kết quả hồi quy khoảng của mô hình như sau:

fitstat
Hồi quy khoảng - stata

Ghi chú: sử dụng findit fitstat để thêm lệnh fitstat vào chương trình nếu các bạn chưa có.

Các lệnh liên quan đến hồi quy khoảng:

  • Lệnh tobit – được sử dụng để hồi quy với dữ liệu bị kiểm duyệt ở các ngưỡng giá trị cố định.
  • Lệnh cnreg – được sử dụng tương tự như tobit để hồi quy dữ liệu kiểm duyệt. Tuy nhiên, cần lưu ý là các ngưỡng giá trị kiểm duyệt có thể khác nhau giữa các quan sát và phần dư có phân phối chuẩn.

 Xem thêm: Dữ liệu censored – truncated
Hồi quy Censored – Truncated

 

Trang trước 1 2
Xem thêm
Back to top button