Kiểm định khác biệt các tỉ lệ – Stata
Kiểm định khác biệt các tỉ lệ như tên gọi được sử dụng để kiểm tra xem tỉ lệ các nhóm của biến phân loại 3 mức trở lên có khác ý nghĩa thống kê với nhau hay không. Chẳng hạn, chúng ta muốn biết sự khác nhau trong tỉ lệ người lao động làm việc trong các loại hình doanh nghiệp như DNNN, DNTN, FDI, HTX… trong bộ dữ liệu có ý nghĩa thống kê hay không.
Trên Stata, kiểm định khác biệt tỉ lệ được thực hiện bằng lệnh csgof. Nếu chương trình của bạn chưa có csgof, thì sử dụng công cụ findit csgof để thêm lệnh này vào.
Xem thêm: Kiểm định khác biệt các tỉ lệ trên SPSS
Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta
use https://www.vietlod.com/data/hsb2.dta, clear
Mẫu dữ liệu bao gồm 200 quan sát với 10 biến như sau:
- female giới tính – biến nhị phân (1: nữ; 0: nam),
- race dân tộc – biến phân loại 4 mức (1: hispanic; 2: asian; 3: african-amer; 4: white),
- ses điều kiện kinh tế – biến phân loại 3 mức (1: low; 2: middle; 3: high),
- schtyp loại trường – biến nhị phân (1: công; 2: tư)
- prog chuyên ngành – biến phân loại (1: general; 2: academic; 3: vocation),
- read điểm số môn đọc hiểu – biến liên tục,
- write điểm số môn viết – biến liên tục,
- math điểm số môn toán – biến liên tục,
- science điểm số môn khoa học – biến liên tục,
- socst điểm số môn xã hội – biến liên tục,
Thông tin chung về dữ liệu được mô tả bằng như bên dưới:
su female race ses schtyp prog read write science socst
Tỉ lệ các sinh viên phân theo điều kiện kinh tế trong mẫu khảo sát được thể hiện ở bảng bên dưới:
tab ses
Kết quả thống kê cho thấy, 23.5% sinh viên có điều kiện kinh tế thấp; 47.5% sinh viên có điều kiện kinh tế trung bình và 29% là có điều kiện kinh tế khá giả.
Giả sử chúng ta muốn biết tỉ lệ số sinh viên ở 3 nhóm điều kiện kinh tế trên có phải là 25%, 45%, và 30% không bằng cách sử dụng kiểm định khác biệt các tỉ lệ với câu lệnh csgof như sau:
csgof ses, expperc(25 45 30)
Với giá trị chisq(2) bằng 0.52, p = 0.7693 cho thấy sự khác biệt các tỉ lệ trên là không có ý nghĩa thống kê. Do vậy, chúng ta có thể xem tỉ lệ các nhóm sinh viên được chọn theo điều kiện kinh tế thấp: trung bình: cao lần lượt là 25%, 45% và 30%.
Các bạn có thể sử dụng kiểm định t-test trung bình 1 mẫu để kiểm tra sự khác biệt các tỉ lệ của các biến phân loại như race, prog.