Phân tích phương sai 1 chiều – Stata
Phân tích phương sai 1 chiều (One-way ANOVA) được sử dụng để xem xét sự khác nhau về giá trị trung bình của một biến phụ thuộc dạng liên tục có phân phối chuẩn theo các mức giá trị của biến độc lập dạng danh mục. Phân tích phương sai 1 chiều được sử dụng thay thế t-test trung bình 2 mẫu độc lập khi giá trị của biến danh mục có từ 3 mức trở lên.
Phân tích phương sai 1 chiều là một dạng kiểm định tham số.
Xem thêm: Kiểm định tham số
Trên Stata, phân tích phương sai 1 chiều được thực hiện bằng lệnh anova.
Giả sử, chúng ta muốn kiểm tra sự khác nhau giữa điểm trung bình môn toán (math) của các sinh viên thuộc các nhóm sắc tộc (race).
Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta
use https://www.vietlod.com/data/hsb2.dta, clear
Mẫu dữ liệu bao gồm 200 quan sát với 10 biến như sau:
- female giới tính – biến nhị phân (1: nữ; 0: nam),
- race dân tộc – biến phân loại 4 mức (1: hispanic; 2: asian; 3: african-amer; 4: white),
- ses điều kiện kinh tế – biến phân loại 3 mức (1: low; 2: middle; 3: high),
- schtyp loại trường – biến nhị phân (1: công; 2: tư)
- prog chuyên ngành – biến phân loại (1: general; 2: academic; 3: vocation),
- read điểm số môn đọc hiểu – biến liên tục,
- write điểm số môn viết – biến liên tục,
- math điểm số môn toán – biến liên tục,
- science điểm số môn khoa học – biến liên tục,
- socst điểm số môn xã hội – biến liên tục,
Thông tin chung về dữ liệu được mô tả bằng như bên dưới:
su female race ses schtyp prog read write science socst
Giá trị trung bình của điểm số toán theo các nhóm sắc tộc của sinh viên được thể hiện như sau:
graph bar (mean) math, over(race) ytitle(Diem trung binh mon toan theo cac nhom sac toc) xsize(20) ysize(20) scale(1)
Hoặc thể hiện dưới dạng bảng giá trị như sau:
tabstat math, stats(mean) format(%4.3f) by(race)
Kết quả thống kê cho thấy điểm trung bình môn toán của sinh viên cao nhất ở nhóm asian, kế tiếp là nhóm white và thấp nhất ở nhóm african-amer. Tuy nhiên, để có ý nghĩa về mặt thống kê thì chúng ta cần thực hiện kiểm định phân tích phương sai 1 chiều.
Trước khi thực hiện phân tích phương sai 1 chiều, chúng ta cần kiểm tra dạng phân phối của biến math ở các nhóm. Sử dụng lệnh histogram để hiển thị dạng phân phối của biến liên tục math trong 4 nhóm sắc tộc của sinh viên như sau:
histogram math, normal by(race)
Đồ thị phân phối của math ở 4 nhóm có dạng gần giống phân phối chuẩn. Trong trường hợp này, giả sử, điểm số môn toán của các sinh viên thuộc các nhóm sắc tộc khác nhau có phân phối chuẩn. Khi đó, để so sánh các điểm số trung bình ở 4 nhóm sắc tộc có bằng nhau ở mức ý nghĩa thống kê 5% hay không, sử dụng lệnh anova như sau:
anova math race
Kết quả tóm tắt của phân tích phương sai 1 chiều có dạng rất giống với hồi quy tuyến tính giản đơn. Với giá trị p-value của mô hình là 0.0001 cho thấy có sự khác nhau về điểm số trung bình môn toán giữa các nhóm sắc tộc.
Để hiển thị chi tiết về sự khác nhau giữa các nhóm, chúng ta thực hiện lệnh reg theo sau lệnh anova trên như sau:
Lưu ý: giá trị _cons chính là điểm số trung bình môn toán của sinh viên nhóm 1 (nhóm tham chiếu). Theo đó, điểm số trung bình của nhóm 2 và nhóm 4 lần lượt cao hơn điểm trung bình môn toán của nhóm 1 là 9.86 và 6.56 (ý nghĩa thống kê 5%).
Các bạn có thể sử dụng phân tích phương sai 1 chiều để kiểm tra sự khác nhau về giá trị trung bình của các biến liên tục như read, write, math, science, sosct theo các biến danh mục như prog, ses, race
Tham khảo: Phân tích phương sai 1 chiều trên SPSS