Lựa chọn mô hình – Stepwise vs BMA
Tầm quan trọng của lựa chọn mô hình
Xây dựng mô hình thống kê là một nghệ thuật toán học. Vì lý do đó, các nhà nghiên cứu phải cân nhắc rất nhiều yếu tố để đi đến một mô hình đẹp. Mô hình đẹp là một mô hình đơn giản mô tả sát nhất với thực tế. Một mô hình phản ánh 100% thực tế đôi khi không còn là “mô hình” nữa, vì tính quá phức tạp không thể ứng dụng được của nó. Ngược lại, một mô hình chỉ mô tả thực tế khoảng 1% thì cũng không thể sử dụng được. Xây dựng mô hình, do đó, không chỉ tùy thuộc vào các phép tính thống kê, toán học, mà còn phải xem xét đến các yếu tố thực tế để bảo đảm cho sự hữu ích của mô hình. Nói như Good va2 Hardin[1] (2006, trang 152): “Don’t be too quick to turn on the computer. Bypassing the brain to compute by reflex is a sure recipe for disaster.”
Một trong những vấn đề nan giải trong phân tích hồi qui đa biến là lựa chọn một mô hình để có thể mô tả đầy đủ dữ liệu. Giả sử một mô hình với 1 biến phụ thuộc y và 3 biến độc lập x1, x2 và x3 thì chúng ta các mô hình sau đây có thể được sử dụng để tiên đoán y: y = f(x1), y = f(x2), y = f(x3), y = f(x1, x2), y = f(x1, x3), y = f(x2, x3), và y= f(x1, x2, x3). Mở rộng ra cho nhiều biến thì chúng ta có vô số mô hình để lựa chọn.
Vậy làm thế nào chúng ta chọn được một mô hình tối ưu?
Một mô hình tối ưu, một cách đơn giản, nó phải đáp ứng ba tiêu chuẩn sau đây:
- Đơn giản,
- Đầy đủ,
- Có ý nghĩa thực tế.
Tiêu chuẩn đơn giản đòi hỏi mô hình có ít biến số độc lập, vì nếu quá nhiều biến số thì vấn đề diễn dịch sẽ trở nên khó khăn, và khó khả thi khi nghiên cứu. Điều đó có nghĩa, nếu một mô hình với 3 biến độc lập mà có khả năng mô tả dữ liệu tương đương với mô hình với 5 biến độc lập, thì mô hình 3 biến sẽ là mô hình phù hợp.
Tiêu chuẩn đầy đủ ở đây có nghĩa là mô hình đó phải mô tả hiệu quả dữ liệu, tức phải tiên đoán gần (hay càng gần càng tốt) với giá trị thực tế quan sát của biến phụ thuộc y. Giả sử, giá trị thực tế của quan sát là 10, một mô hình tiên đoán là 9 sẽ tốt hơn một mô hình tiên đoán là 6.
Tiêu chuẩn “có ý nghĩa thực tế”, có nghĩa là mô hình đó phải được củng cố bằng một khung lý thuyết nền tảng hoặc đã được kiểm chứng bởi nghiên cứu thực nghiệm/lâm sàng. Một mô hình dù có ý nghĩa thống kê nhưng không có ý nghĩa thực tế thì mô hình đó cũng chỉ là một “mô hình”, không có giá trị khoa học và không thể ứng dụng.