KTL cơ bảnPhân tích hồi quy

Hồi quy Probit – STATA

2.

Giải thích kết quả hồi quy probit

  • Trong bảng kết quả trên, chúng ta thấy kết quả hội tụ sau 4 lần lặp ở giá trị log likelihood bằng -229.20658. Giá trị log likelihood có thể được sử dụng để so sánh các mô hình với nhau. Sự chênh lệch giữa giá trị log likelihood trong mô hình probit vs mô hình logit không quá lớn (log likelihood hội tụ ở mô hình logit tương ứng là -229.25875).
  • Ở dòng trên cùng của kết quả, chúng ta thấy cả 400 quan sát trong tập dữ liệu đều được sử dụng trong phân tích. Điều này bởi vì tập dữ liệu hiện sử dụng không có giá trị missing. Các giá trị missing sẽ được loại bỏ khỏi phân tích.
  • LR chi2 (5) cho biết giá trị của thống kê chi bình phương (5 bậc tự do) bằng 41.56 với mức ý nghĩa p-value bằng 0.0001. Thống kê Chi2 này sẽ kiểm tra hiệu quả của mô hình probit so với mô hình không (không có biến giải thích nào), hay nói cách khác, Chi2 kiểm tra giả thuyết cho rằng hệ số ước lượng của 5 biến giải thích trong mô hình probit đều bằng 0. Với mức ý nghĩa p-value bằng 0.0001 cho thấy, mô hình probit là phù hợp.
  • Tương tự như OLS, bảng hệ số cũng bao gồm thông tin về các hệ số ước lượng, sai số chuẩn, mức ý nghĩa, khoảng tin cậy… nhưng lưu ý, ở cột thống kê. Kiểm định hệ số trong hồi quy probit sử dụng thống kê z thay vì thống kê t như ở OLS. Kết quả cho thấy, cả gre, gpa và 3 biến giả của biến thứ tự rank đều có ý nghĩa thống kê ở mức 5%.
  • Cách giải thích các hệ số của hồi quy probit tương tự như hồi quy logit. Các hệ số trong hồi quy probit cho biết sự thay đổi trong chỉ số logit (log của odds trong hồi quy logit) hoặc chỉ số probit (chỉ số logit trong hồi hồi quy logit) theo sự thay đổi 1 đơn vị của biến giải thích. Cụ thể, nếu giá trị của biến gre tăng thêm 1 đơn vị thì chỉ số probit sẽ tăng thêm 0.001; hoặc sự tăng thêm 1 đơn vị của biến gpa sẽ làm tăng thêm 0.478 ở chỉ số probit.
  • Cách giải thích của các biến giả i.rank có khác đôi chút so với các biến liên tục. Ở đây, hệ số của các biến giả 2.rank 3.rank 4.rank là so sánh với giá trị tham chiếu 1.rank. Cụ thể, những học sinh học ở trường THCS được xếp hạng thứ 2 (rank=2)thì sẽ có chỉ số probit thấp hơn so với học sinh các trường THCS được xếp hạng cao nhất (rank=1) là 0.415.

Để hiểu rõ hơn về mô hình, chúng ta tìm hiểu về xác suất được dự báo. Xác suất được dự báo của mô hình được tính bằng câu lệnh margins. Phần tùy chọn phía sau lệnh margins là chỉ rõ giá trị cụ thể của mức xác suất dự báo. Chẳng hạn, chúng ta muốn biết xác suất được xét tuyển vào trường PTTH theo các mức xếp hạng của trường THCS tại giá trị trung bình của các biến gre, gpa như sau:

margins rank, atmeans
Tính xác suất được dự báo - Hồi quy probit

Trong bảng kết quả trên, chúng ta thấy rằng mức xác suất để được xét tuyển vào trường PTTH là 0.52 cho học sinh trường THCS được xếp hạng cao nhất (rank = 1) và 0.19 cho học sinh trường THCS được xếp hạng thấp nhất (rank = 4) tại giá trị trung bình của 2 biến gre và gpa.

Bây giờ, chúng ta muốn lập bảng giá trị xác suất được dự đoán tại một khoảng giá trị cụ thể của một biến. Chẳng hạn mức giá trị xác suất được dự báo ứng với sự thay đổi của biến gre từ 200 đến 800 với bước nhảy là 100.

Bởi vì chúng ta không chỉ rõ giá trị của các biến còn lại (atmeans hoặc used at (…)) do vậy, giá trị trong bảng là giá mức xác suất dự báo trung bình dựa trên các giá trị của các biến giải thích còn lại trong mẫu. Chẳng hạn, để tính toán giá trị xác suất được dự đoán trung bình khi gre = 200, thì mức xác suất được dự báo này sẽ được tính cho tất cả các quan sát ứng với mức gre = 200.

margins, at(gre=(200(100)800)) vsquish
Tính xác suất được dự báo - Hồi quy probit

Trong bảng trên, chúng ta có thể thấy giá trị trung bình của xác suất được báo được xét tuyển là 0.16 nếu một học sinh có điểm GRE bằng 200 và tăng lên 0.42 nếu học sinh đó có điểm GRE là 800.

3.

Đồ thị minh họa xác suất dự đoán của hồi quy probit

Đồ thị xác suất được dự đoán trên theo các mức được xếp hạng của trường THCS được thể hiện như sau:
Đồ thị xác suất được dự báo - Hồi quy probit

Với đồ thị này, tương ứng với mỗi mức giá trị GRE thì xác suất được xét tuyển vào PTTH của những học sinh của trường THCS được xếp hạng 1 luôn cao hơn tương ứng với học sinh trường THCS nhóm 2, 3 và 4. Chẳng hạn, cùng một điểm số GRE là 200, khả năng được xét tuyển ở nhóm trường hạng 4 chưa đến 10% trong khi đó khả năng này ở những học sinh nhóm trường hạng 1 là trên 30%.

Điều này cũng hoàn toàn tương tự ở các mức xác suất được dự đoán theo các mức được xếp hạng của trường THCS ở các mốc giá trị của điểm trung bình GPA.
Đồ thị xác suất được dự báo - Hồi quy probit

Ngoài ra, để kiểm tra mức độ phù hợp của mô hình, chúng ta có thể sử dụng lệnh fitstat. Lệnh fitstat sẽ tổng hợp các thông số về độ phù hợp của mô hình. Chúng ta có thể sử dụng kết quả này để lựa chọn một mô hình phù hợp. Các bạn sử dụng lệnh findit fitstat để thêm lệnh vào chương trình (nếu chưa có).

fitstat
Tính xác suất được dự báo - Hồi quy probit

BÀN LUẬN HỒI QUY PROBIT

  • Trong trường hợp biến giải thích là biến dạng danh mục, chúng ta cần kiểm tra tần suất của các ô. Nếu một ô rỗng (không có quan sát) hoặc có rất ít quan sát sẽ làm cho kết quả mô hình không ổn định, hoặc không thể hồi quy được mô hình. Chúng ta có thể kiểm tra tần suất của ô bằng câu lệnh crosstab.
  • Kích thước mẫu: Cả hồi quy probit vs logit đều đòi hỏi nhiều quan sát hơn so với hồi quy OLS. Điều này bởi vì, hồi quy probit vs logit sử dụng ước lượng hợp lí cực đại.
  • Giá trị R-bình phương giả (Pseudo-R-squared): Có nhiều cách đo lường giá trị R bình phương giả này. Tất cả đều nhằm mục đích đưa ra một cơ sở so sánh đánh giá mô hình giống R bình phương trong hồi quy OLS. Tuy nhiên, không có giá trị R bình phương giả này mang ý nghĩa là độ phù hợp của mô hình như OLS. Chúng ta có thể sử dụng R bình phương giả này với mục đích tham khảo đánh giá các mô hình tương tự (với hồi quy logit chẳng hạn).

2. Với kết quả hồi quy probit so với hồi quy logit được thể hiện ở bảng bên dưới, các bạn hãy cho nhận xét về mối quan hệ giữa các hệ số của 2 mô hình.
Hồi quy probit vs logit

1. Long, J. Scott (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, CA: Sage Publications.

 

Trang trước 1 2
Xem thêm

One Comment

  1. Thân gửi thầy,

    Em đang làm luận văn thạc sỹ, và chọn mô hình probit. Qua website em thấy một số bài phân tích của thầy khá chi tiết, và có một số lệnh chạy rất hay. Em chưa biết nhiều về mô hình này nên kính mong thầy giải đáp cho em một số thắc mắc.

    – Xin thầy chỉ cho em những bước nên làm khi chạy một mô hình probit (kiểm định, thống kê….)
    – Mô hình của em chạy ra thì có chỉ số Psuedo R2= 0.9362 thì không biết có ok không thầy, tại em thấy mấy bài của thầy chỉ số này khá nhỏ.
    – Thầy giúp em giải nghĩa các thông tin trong bảng fitstat, em nên chọn lọc và đưa vào đánh giá những chỉ số nào.
    – Ở phía trên thầy có chạy một bảng so sánh giữa probit và logit. Cái này thật sự hay nhưng em mới nhập môn nên không biết. Kính mong thầy hướng dẫn cho em.

    Một số câu hỏi kính mong thầy giải đáp giúp em, vì em cũng sắp hết thời gian nên cũng rất gấp.

    p/s: Nếu được thì thầy reply qua mail cho em và cho em xin SDT thầy với nhé ^^

Back to top button