Hồi quy khoảng – Interval Regression
1. Giới thiệu về hồi quy khoảng
Hồi quy khoảng (Interval Regression) được sử dụng để ước lượng mô hình có các biến phụ thuộc bị kiểm duyệt. Dữ liệu bị kiểm duyệt trong hồi quy khoảng là các kiểm duyệt khoảng. Điều đó có nghĩa chúng ta biết các quan sát nằm trong khoảng giá trị nào nhưng không thể biết chính xác giá cụ thể của mỗi quan sát. Hồi quy khoảng là trường hợp tổng quát của hồi quy kiểm duyệt (censored regression).
Ví dụ: chẳng hạn chúng ta muốn biết thu nhập thực của người lao động (triệu/tháng) theo các mức học vấn, số năm kinh nghiệm cũng như loại hình kinh tế mà người lao động làm việc. Trong trường hợp này, chúng ta không thể biết được giá trị thu thập thực của từng người lao động, nhưng chúng ta có thể biết được giá trị thu nhập thực có thể rơi vào các khoảng như nhỏ hơn 5 triệu, từ 5 triệu đến 10 triệu, từ 10 triệu đến 20 triệu, từ 20 triệu đến 50 triệu và trên 50 triệu. Đối với dữ liệu thu thập này, thì rõ ràng dữ liệu vừa bị kiểm duyệt trái (nhỏ hơn 5 triệu), kiểm duyệt phải (lớn hơn 50 triệu), đồng thời trong mỗi khoảng giá trị của các quan sát bị kiểm duyệt trái và phải đồng thời. Trong trường hợp này, chúng ta không sử dụng mô hình hồi quy kiểm duyệt thông thường, mà phải sử dụng hồi quy kiểm duyệt tổng quát hay còn gọi là hồi quy khoảng.
Hoặc một ví dụ khác gần gũi với vấn đề học tập. Giả sử chúng ta muốn dự đoán điểm trung bình GPA dựa vào các điểm bài thi viết (write), bài thi đọc hiểu (read), điểm nỗ lực (rating) của mỗi học sinh và loại chương trình học mà mỗi học sinh tham gia (type). Điểm trung bình GPA được phản hồi từ mỗi học sinh được thể hiện ở các mức như sau:
- nhỏ hơn 2.0
- 2.0 đến 2.5
- 2.5 đến 3.0
- 3.0 đến 3.4
- 3.4 đến 3.8
- 3.8 trở lên
Hoặc được thể hiện dưới dạng cụ thể như sau:[1]
- 0.0 đến 2.0
- 2.0 đến 2.5
- 2.5 đến 3.0
- 3.0 đến 3.4
- 3.4 đến 3.8
- 3.8 đến 4.0
Trong trường hợp này, chúng ta thấy rằng dữ liệu bị kiểm duyệt đồng thời trái phải ở 2 đầu, cũng như trong mỗi khoảng điểm. Chúng ta không biết điểm GPA chính xác của mỗi học sinh.
Phần minh họa sử dụng dữ liệu thực hành là intreg.dta
use https://www.vietlod.com/data/intreg.dta, clear
Bộ dữ liệu gồm 30 quan sát với các biến được mô tả như sau:
- lgpa: ngưỡng dưới của điểm trung bình GPA trong từng khoảng
- ugpa: ngưỡng trên của điểm trung bình GPA trong từng khoảng
- write: điểm thi viết của mỗi học sinh
- rating: điểm nỗ lực cho mỗi học sinh
- type: loại chương trình học mà mỗi học sinh tham gia. Biến type là biến danh mục với 3 mức là 1: vocational, 2: general và 3: academic.
Trước khi tiến hành hồi quy khoảng mô hình trên, chúng ta xem qua về dữ liệu
list lgpa ugpa, clean
summarize lgpa ugpa write rating
Bảng tóm tắt về dữ liệu cho thấy giá trị lớn nhất và nhỏ nhất của lgpa và ugpa lần lượt là (0;3.8) và (2; 4). Điều này chúng ta có thể quan sát ở bảng 1.
tabstat lgpa ugpa, by(type) stats(n mean sd)
Để tiện việc so sánh, các ngưỡng giới hạn khoảng của GPA chúng ta thể hiện biểu đồ histogram của 2 biến lgpa và ugpa trên cùng một đồ thị như sau:
quietly histogram ugpa, normal xlabel(0(1)4) name(hugpa)
quietly histogram lgpa, normal xlabel(0(1)4) name(hlgpa)
graph combine hlgpa hugpa, ycommon xsize(7)
Sự tương quan giữa các biến được thể hiện ở bảng sau:
correlate lgpa ugpa write rating
Còn tiếp…