Home | KTL nâng cao | Hồi quy tobit trên STATA

Hồi quy tobit trên STATA

Mô hình tobit, đôi khi còn được gọi là mô hình hồi quy kiểm duyệt (censored regression model), được xây dựng để ước lượng mối quan hệ tuyến tính giữa các biến giải thích khi biến phụ thuộc bị kiểm duyệt.

Xem thêm Dữ liệu Censored – Truncated

Ví dụ: chúng ta muốn xây dựng một mô hình đánh giá học lực của học sinh (apt) dựa vào điểm số các môn toán (math), tập đọc (read) cũng như loại chương trình mà học sinh theo học (prog). Điểm học lực của mỗi học sinh dao động trong khoảng từ 200 – 800. Vấn đề ở đây là chúng ta không quan sát được điểm số thực sự của nhóm học sinh có điểm học lực “quy ước” 200 hoặc 800. Khi đó, học lực của những học sinh có thể không bằng nhau.

Phần minh họa sử dụng dữ liệu thực hành là tobit.dta

use https://vietlod.com/data/tobit.dta, clear

1.

Phát hiện vấn đề (dữ liệu có bị kiểm duyệt không?)

Trước khi bắt đầu hồi quy với dữ liệu bị kiểm duyệt, chúng ta tìm hiểu thông tin sơ bộ về dữ liệu:

summarize
Hồi quy tobit - stata

Điểm thấp nhất của học lực (apt) là 352, không có học sinh nào có điểm apt dưới 200. Điều này có nghĩa mặc dù việc kiểm duyệt bên trái là không xảy ra trong tập dữ liệu.

histogram apt, normal bin(10) xline(800)
Hồi quy tobit - stata

Quan sát đồ thị phân phối histogram của biến apt chúng ta có thể thấy việc kiểm duyệt xảy ra trong tập dữ liệu. Theo đó, có thể tồn tại những quan sát với điểm học lực lớn hơn 800 nằm phía sau nhánh phải của đồ thị phân phối. Tất cả những quan sát nằm sau này (giá trị apt lớn hơn 800) thì đều được gán một giá trị apt bằng 800.

histogram apt, discrete freq
Hồi quy tobit - stata

Trong đồ thị histogram với tùy chọn discrete bên dưới cho biết tần suất của các giá trị apt riêng rẻ. Bởi vì apt là một biến liên tục, phần lớn các giá trị nằm rải rác trong tập dữ liệu. Mặc dù các giá trị này phân bố gần tâm của phân phối với tần suất xuất hiện 2 – 3 quan sát cho một giá trị.

Tuy nhiên, quan sát giá trị apt = 800 ở thanh ngoài cùng bên phải chúng ta dễ dàng nhận thấy tần suất xuất hiện của giá trị này là rất lớn (17 quan sát) so với các giá trị riêng rẻ khác.

Tiếp tục, chúng ta sẽ tìm hiểu sự tương quan từng cặp giữa các biến read, math, apt như sau:

pwcorr apt read math, star(0.05) bonferroni
Hồi quy tobit - stata

Kết quả cho thấy các biến có mối tương quan dương khá lớn với nhau và các sự tương quan này đều có ý nghĩa thống kê ở mức 10%.

Tiếp tục, sử dụng đồ thị phân tán để minh họa rõ hơn về sự phân tán của dữ liệu của các biến apt theo math read

graph matrix read math apt, half jitter(2)

Ở ngưỡng giá trị apt bằng 800, chúng ta thấy mật độ phân bố của các quan sát dọc theo đường nằm ngang 800 là khá dày đặc. Kết quả này, cùng với kết quả dạng phân phối histogram đã trình bày ở trên chúng ta có thể khẳng định dữ liệu này bị kiểm duyệt phải.
Hồi quy tobit - stata

Còn tiếp…

6 bình luận

  1. Dạ em chào thầy,
    em đang làm đề tài khòa luận về “Xây dựng chiến lược phát triển ngân hàng thương cổ phần”.
    Em muốn chạy mô hình và giáo viên hướng dẫn có đề xuất là mô hình hàm nhiều biến. Em muốn hỏi ý kiến thầy là e nên chọn mô hình nào và thực hiện ra sao ạ?
    Em cám ơn thầy rất nhiều!

  2. Hieu Pham Van

    Dạ em chào thầy,

    Em đang làm đề tài đánh giá tác động của tín dụng đối với việc nâng cao mức sống hộ gia đình, sử dụng VHLSS 2012. Em đang thử phương pháp two stage. ở 1st stage, em dùng mô hình tobit để dự đoán mức vay của hộ gia đình với các biến giải thích đại diện cho đặc điển hộ gia đình, đặc điểm địa phương và đặc điểm của nguồn cung tín dụng. Sau đó, dùng predicted value ở 1st stage là biến giải thích trong bước 2, sử dụng OLS. Để kiểm định mô hình, em đọc sách thì thấy cần lấy residual trong 1st stage đưa vào OLS trong bước 2 để kiểm định. Tuy nhiên, khi sử dụng stata chạy tobit, em không biết dùng lệnh gì để tính residual. Thầy có thể giúp em được ko ạ.
    Trân trọng cảm ơn thầy!

    • Chào bạn,

      Trên Stata, sau lệnh tobit không thực hiện được predict r, residuals nên bạn không thể tạo biến phần dư (r) theo cách như vậy. Tuy nhiên, về mặt tính toán r chính là giá trị chênh lệch của biến y và yhat (giá trị dự báo). Như vậy, bạn có thể sử dụng 2 lệnh sau để tạo r cho các tính toán tiếp theo:

      predict double yhat if e(sample), xb
      gen r = y – yhat if e(sample)

      Ở đây, e(sample) cho biết chúng ta chỉ tính toán (ước lượng) cho mẫu.

      Ý nghĩa sử dụng của câu lệnh ivtobit mà bạn gửi yêu cầu ở phần giải đáp nhanh là ước lượng hồi quy tobit 2 giai đoạn. Nếu mô hình của bạn sử dụng hồi quy tobit cho first-stage và second-stage thì ivtobit là phù hợp. Cách sử dụng ivtobit cũng tương tự như ivreg, tuy nhiên, các lệnh kiểm định hậu nghiệm (postestimation test) như overid (kiểm tra hiệu quả của các biến công cụ – IV) và ivendog (kiểm tra tính nội sinh của biến) không sử dụng được (chỉ sử dụng được trong lệnh ivreg). Trong trường hợp này bạn cần thực hiện thủ công các kiểm định liên quan đến biến iv và endogenous.

      Hi vọng những giải đáp này phần nào giải quyết được vấn đề của bạn. Chúc bạn hoàn thành tốt đề tài.

  3. Nguyễn Phương Đài

    Dạ em chào Thầy
    Khi em chạy hồi quy Tobit tại sao kết quả của các Coff và margin effect là giống nhau hoàn toàn vậy ạ?

    • Tôi chưa hiểu rõ câu hỏi của bạn. Ý nghĩa giải thích của hệ số ước lượng của 1 biến cũng tương tự như margin effect của biến đó nhưng Margin effects chỉ tính cho 1 giá trị cụ thể.