KTL cơ bảnPhân tích hồi quy

Lựa chọn mô hình – Stepwise vs BMA

2.

Tiêu chuẩn AIC, BIC và phương pháp BMA

Một thước đo quan trọng và có ích để chúng ta quyết định một mô hình đơn giản và đầy đủ là Akaike Information Criterion (AIC) và Bayesian Information Criterion (BIC):

  • AIC = −2(loglikelihood) + 2(số các hệ số ước lượng).
  • BIC = −2(loglikelihood) + (log n)(số các hệ số ước lượng).

Đối với hồi quy tuyến tính, với giả định Gauss thì −2(loglikelihood) tỉ lệ với n*log(SSE/n). Vì thế tổng bình phương sai số chuẩn được giải thích bởi mô hình (SSE) càng nhỏ thì AIC và BIC càng lớn.

Một mô hình đơn giản và đầy đủ phải là mô hình có trị số AIC hoặc BIC càng thấp càng tốt và các biến độc lập phải có ý nghĩa thống kê. Thành ra, vấn đề đi tìm một mô hình đơn giản và đầy đủ là thật sự đi tìm một (hay nhiều) mô hình với trị số AIC thấp nhất hay gần thấp nhất.

Một phương pháp sử dụng tiêu chuẩn AIC, BIC trong việc lựa chọn mô hình là phương pháp BMA (Bayesian Model Average). Phương pháp BMA dựa vào tiêu chuẩn BIC để chọn mô hình tối ưu. Đây là phương pháp mới khắc phục được vấn đề thừa biến (biến không có tác động thực tế) trong mô hình hồi quy. Bên cạnh việc lựa chọn mô hình phù hợp, phương pháp BMA còn có thể xác định các biến có liên quan độc lập đến biến phụ thuộc. Chẳng hạn như trong nghiên cứu về nghèo thì có rất nhiều yếu tố (biến) ảnh hưởng đến nghèo. Nhưng một số trong các biến này có khi có tương quan với nhau (như gia đình ở nông thôn – đông con – trình độ học vấn của chủ hộ thấp). Và chúng ta muốn biết biến nào là có liên quan một cách độc lập đến người nghèo.

Xem thêm: Bayesian Model Averaging của Hoeting et.al[2] (1999, p.382–401).

3.

Tiêu chuẩn Cp của Mallow[3]

Một tiêu chí khác theo Mallow là một mô hình tốt sẽ có giá trị MSE (Mean Square Error) của biến dự báo (biến phụ thuộc) càng nhỏ.

\(\frac{1}{{{\sigma ^2}}}\sum\limits_{i = 1}^n {E{{({{\hat y}_i} – {y_i})}^2}} \)

Điều này có thể được ước lượng qua thống kê Cp như sau: \({C_p} = \frac{{SSE}}{{{{\hat \sigma }^2}}} + 2k – n\)

Trong đó:

  • SSE (Sum of Squared Errors) của mô hình,
  • k là số biến trong mô hình,
  • n là số quan sát,
  • \({\hat \sigma }\) là ước lượng của \(\sigma \) trong mô hình đầy đủ (không bỏ biến).

Nhận xét:

  • Cp rất gần giống với AIC
  • Đối với mô hình đầy đủ: SSE = (n-k)*\({\hat \sigma }\). Do đó: Cp = k
  • Một mô hình đơn giản và đầy đủ phải phải có giá trị Cp, và k nhỏ; đồng thời nhỏ hơn hoặc bằng k.

TÀI LIỆU THAM KHẢO
1. Good P.I and Hardin J.W. (2006). Common Errors in Statistics (And How to Avoid Them), Wiley, Chapters 10, 11.
2. Hoeting, Jennifer A., David Madigan, Adrian E. Raftery and Chris T. Volinsky. 1999. Bayesian Model Averaging: A Tutorial.Statistical Science 14: 382–401.
3. Mallow’s statistic is discussed in, e.g., Cook and Weisberg (pp. 272 – 280), Ryan (pp. 273 – 277 and 279 – 283), R. Berk (2004) Regression Analysis: A Constructive Critique, Sage (pp.130 – 135).

 

Trang trước 1 2 3
Xem thêm
Back to top button