Home | KTL nâng cao | Hồi quy Cluster – STATA

Hồi quy Cluster – STATA

Trong thực tế hiếm khi một dữ liệu thỏa mãn tất cả các giả định của hồi quy OLS. Chúng ta biết rằng vi phạm các giả định có thể dẫn đến ước lượng của các hệ số bị thiên chệch và đặc biệt là sự thiên chệch trong ước lượng của sai số chuẩn. Bài viết này sẽ trình bày một vấn đề khác liên quan đến tính độc lập của các phần dư trong hồi quy OLS.

Như đã đề cập đến phần chẩn đoán hồi quy, hồi quy OLS giả định rằng các phần dư phải độc lập lẫn nhau. Trong nhiều trường hợp, do đặc thù của mẫu, phần dư của các quan sát trong mỗi nhóm là không độc lập nhau. Để khắc phục vấn đề này chúng ta có thể thực hiện hồi quy với sai số chuẩn mạnh cùng tùy chọn cluster (gọi tắt là hồi quy cluster). Ý tưởng của các phương pháp hồi quy cluster là tạo ra các điều chỉnh trong ước lượng để khắc phục các nhược điểm của dữ liệu. Cụ thể là thông báo cho STATA phân biệt các đối tượng trong mỗi nhóm.

Phần minh họa sử dụng dữ liệu thực hành là elemapi2.dta

Bộ dữ liệu gồm 400 được thu thập từ các trường thuộc 37 khu vực.

Rất có khả năng các điểm số ở các trường cùng một khu vực không độc lập và điều này dẫn đến các phần dư là không độc lập trong mỗi khu vực. Chúng ta có thể sử dụng tùy chọn cluster để xác định các quan sát trong mỗi cụm (khu vực) dựa vào biến dnum. Các quan sát có thể tương quan trong mỗi khu vực nhưng sẽ độc lập giữa các khu vực.

Đầu tiên, chúng ta thực hiện hồi quy OLS cho mô hình sau:

regress api00 acs_k3 acs_46 full enroll
Hồi quy với tùy chọn cluster

Kết quả cho thấy, ngoại trừ acs_k3 không có ý nghĩa thống kê, tất cả các biến còn lại đều có ý nghĩa thống kê 5%.

Tiếp đến, chúng ta thực hiện hồi quy cluster mô hình trên. Cú pháp thực hiện hồi quy với tùy chọn cluster như sau:

regress api00 acs_k3 acs_46 full enroll, cluster(dnum)
Hồi quy với tùy chọn cluster

Hồi quy cluster là một dạng hồi quy với sai số chuẩn mạnh (tùy chọn robust). Ở đây, chúng ta không cần tùy chọn robust trong lệnh regress bởi vì tùy chọn robust đã được tính đến trong tùy chọn cluster. Lưu ý rằng, trường hợp này các sai số chuẩn đã thay đổi đáng kể hơn so với trường hợp chỉ có mỗi tùy chọn robust.

regress api00 acs_k3 acs_46 full enroll, robust
Hồi quy với tùy chọn robust

Với tùy chọn robust, các ước lượng điểm của các hệ số sẽ giống nhau hoàn toàn với hồi quy OLS thông thường, nhưng các sai số chuẩn trong kết quả hồi quy này đã xét đến vấn đề phương sai thay đổi và phân phối chuẩn. Ghi chú: có sự thay đổi trong sai số chuẩn và giá trị thống kê t (nhưng không thay đổi giá trị hệ số). Trong ví dụ này, kết quả hồi quy OLS với tùy chọn robust không có sự thay đổi lớn so với hồi quy OLS thông thường.

Lưu ý: Hồi quy OLS với tùy chọn robust hoặc vce(robust) không phải là hồi quy robust (hồi quy có trọng số) bằng câu lệnh rreg trên Stata.

Khi sử dụng riêng tùy chọn robust, ước lượng của các hệ số tương tự như OLS thông thường, nhưng các sai số này đã tính đến tính không độc lập của các quan sát trong mỗi nhóm. Thậm chí là các sai số chuẩn trong trường hợp tùy chọn cluster là lớn hơn thì 3 biến vẫn có ý nghĩa thống kê như trong OLS thông thường. Những sai số chuẩn hóa này được tính trên các mức điểm số chung cho 37 khu vực, vì điểm số ở những khu vực này là độc lập.

Nếu chúng ta có rất ít cụm/khu vực so với cở mẫu chung thì kết quả các sai số chuẩn của phương pháp có thể cao hơn so với OLS thông thường. Chẳng hạn, nếu chỉ có 3 khu vực, thì các sai số chuẩn sẽ được tính toán trên mức điểm số chung chỉ cho 3 khu vực.

GHI CHÚ:

  • Cần phân biệt hồi quy OLS với tùy chọn robust và hồi quy robust. Hai phương pháp này khác nhau cả về ý nghĩa lẫn kết quả.
  • Hồi quy OLS (câu lệnh regress) với tùy chọn robust được gọi là hồi quy với sai số chuẩn mạnh, nó khác với hồi quy robust (hồi quy có trọng số)