Phân tích hiệp phương sai – ANCOVA
I. GIỚI THIỆU VỀ PHÂN TÍCH HIỆP PHƯƠNG SAI
Phân tích hiệp phương sai (ANCOVA) là trường hợp mở rộng của phân tích phương sai một chiều khi bao gồm một hay nhiều biến liên tục để giải thích biến kết quả. Phân tích hiệp phương sai được sử dụng để kiểm chứng sự khác nhau về giá trị trung bình giữa hai hay nhiều nhóm độc lập. Ngoài ra, phân tích hiệp phương sai còn cho phép chúng ta “kiểm soát thống kê” đối với một biến thứ 3 (đôi khi còn gọi là biến nhiễu – confounding variable – hoặc hiệp biến – covariate) ảnh hưởng đến kết quả.
Để hiểu rõ hơn về ý nghĩa của phương pháp phân tích hiệp phương sai, chúng ta tìm hiểu thông qua ví dụ sau.
Giả sử bạn bạn muốn biết chương trình điều trị A hoặc chương trình điều trị B có thể giúp người hút thuốc giảm số thuốc họ hút mỗi ngày không. Bạn tiến hành chọn mẫu gồm 150 người hút thuốc. Những người được chọn và phân ngẫu nhiên vào 3 nhóm, mỗi nhóm 50 người: nhóm kiểm soát, nhóm điều trị A và nhóm điều trị B. Nhóm kiểm soát hút thuốc như thường lệ, trong khi nhóm điều trị A đã tham gia chương trình điều trị A và nhóm điều trị B tham gia chương trình điều trị B.
Bạn tiến hành đo lượng thuốc lá được hút ở mỗi nhóm ở 2 thời điểm trước và sau khi thực hiện chương trình.
Tiếp đến, bạn có thể sử dụng phân tích phương sai một chiều (ANOVA) với kiểm định post hoc để (a) hiểu xem có bất kỳ sự khác biệt ý nghĩa thống kê giữa việc tiêu thụ thuốc lá trước và sau khi can thiệp giữa ba nhóm; và (b) và nếu có thì sự khác biệt này là như thế nào (nhóm nào giảm và giảm được bao nhiêu).
Giả sử, kết quả phân tích phương sai một chiều cho thấy việc tiêu thụ thuốc lá của người hút thuốc ở nhóm điều trị nhóm B giảm 3 điếu mỗi ngày so với nhóm đối chứng, nhưng chỉ giảm 2 điếu thuốc mỗi ngày trong nhóm điều trị A, và tất cả các sự sụt giảm này đều có ý nghĩa thống kê.
Với kết quả này, chúng ta có thể kết luận rằng cả hai biện pháp can thiệp đã đều có tác động tích cực đến việc giảm tiêu thụ thuốc lá. Tuy nhiên, cũng có thể có một lời giải thích khác cho kết quả này là sự khác biệt giữa 3 nhóm không phải là do biện pháp can thiệp. Chẳng hạn, sự khác nhau này có thể là do mức độ hút thuốc ban đầu của 150 người được chọn là khác nhau. Vì chúng ta chọn mẫu ngẫu nhiên, sự khác nhau này là rất khó tránh khỏi. Mức độ hút thuốc ban đầu, trong trường hợp này, là một hiệp biến của phép phân tích hiệp phương sai. Phân tích hiệp phương sai cho phép chúng ta kiểm soát các mức hiệp biến này để có một kết quả phân tích chính xác hơn về hiệu quả điều trị của 2 phương pháp.
Xem thêm: Kiểm định tham số (Parametric tests)
Để sử dụng phân tích phân tích hiệp phương sai thì dữ liệu phải thỏa mãn các giả thuyết sau:
- Biến phụ thuộc và hiệp biến phải là biến liên tục (dạng khoảng, tỉ lệ),
- Biến độc lập là biến danh mục (từ 2 mức trở lên) và giá trị có thể dạng số hoặc chuỗi,
- Các quan sát trong mỗi nhóm và giữa các nhóm độc lập với nhau,
- Dữ liệu không có chứa các điểm dị biệt (Xem thêm phát hiện điểm dị biệt),
- Dữ liệu của biến phụ thuộc ở mỗi nhóm phải có dạng phân phối chuẩn hoặc xấp xỉ phân phối chuẩn (Xem thêm Phân phối chuẩn),
- Có sự đồng nhất về phương sai của biến phụ thuộc. Bạn có thể sử dụng kiểm định Levene trong SPSS để kiểm tra sự đồng nhất về phương sai.
- Có mối quan hệ tuyến tính giữa hiệp biến với biến phụ thuộc ở các mức giá trị của biến độc lập. Bạn có thể sử dụng đồ thị Scatter trong SPSS để kiểm tra giả định này.
- Có sự đồng nhất về hệ số ước lượng, nghĩa là không có sự tương tác[1] giữa hiệp biến và các biến giải thích trong mô hình.
Một ví dụ khác minh họa rõ hơn về ứng dụng của phương pháp phân tích hiệp phương sai. Một nhà nghiên cứu đã quan tâm đến việc xác định một chương trình tập luyện với cường độ thấp hoặc chương trình tập luyện với cường độ cao thì chương trình tập luyện nào tốt nhất trong việc giảm nồng độ cholesterol trong máu ở nam giới tuổi trung niên. Cả hai chương trình tập luyện được thiết kế trong 6 tuần để mỗi ngày người tập luyện tiêu hao cùng một lượng calo trong cả 2 nhóm (cường độ thấp – cường độ cao). Các nhà nghiên cứu cho rằng bất kỳ sự giảm nồng độ cholesterol nào cũng có thể phụ thuộc vào nồng độ cholesterol ban đầu của người tham gia. Như vậy, các nhà nghiên cứu muốn sử dụng nồng độ cholesterol trước can thiệp là một hiệp biến khi so sánh nồng độ cholesterol sau can thiệp giữa các can thiệp và nhóm đối chứng.
Do đó, các nhà nghiên cứu đã thực hiện phân tích hiệp phương sai: với biến After là nồng độ cholesterol sau can thiệp và là biến phụ thuộc; biến Group là biến phân loại gồm 2 mức (cường độ thấp và cường độ cao) và là biến độc lập; biến Before là nồng độ cholesterol trước can thiệp với vai trò là hiệp biến.
Phần trình bày dưới đây sẽ lần lượt hướng dẫn cách thực hiện phân tích hiệp phương sai, cũng như diễn giải các kết quả và kiểm chứng giả thuyết trên SPSS. Sử dụng đó là bộ dữ liệu ANCOVA.