Home | KTL cơ bản | Kiểm định | Kiểm định Kruskal-Wallis-Stata

Kiểm định Kruskal-Wallis-Stata

Kiểm định Kruskal-Wallis được sử dụng để đánh giá sự khác nhau về giá trị trung bình của một biến phụ thuộc theo hai hay nhiều nhóm của biến độc lập (dạng phân loại), nhưng không yêu cầu biến phụ thuộc phải có phân phối chuẩn. Đây chính là sự khác nhau giữa kiểm định này với kiểm định phân tích phương sai một chiều. Do vậy, kiểm định Kruskal-Wallis được xem là một dạng thay thế của phân tích phương sai một chiều và là một dạng mở rộng của kiểm định kiểm định Wilcoxon-Mann-Whitney

Kiểm định Kruskal-Wallis là một dạng kiểm định phi tham số.

  Xem thêm: Kiểm định phi tham số

Trên Stata, kiểm định Kruskal-Wallis được thực hiện bằng lệnh kwallis, với tùy chọn by kèm theo tên biến danh mục.

Giả sử, chúng ta muốn kiểm tra sự khác nhau giữa điểm trung bình môn toán (math) của các sinh viên thuộc các nhóm sắc tộc (race).

Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta

use https://vietlod.com/data/hsb2.dta, clear

Mẫu dữ liệu bao gồm 200 quan sát với 10 biến như sau:

  • female giới tính – biến nhị phân (1: nữ; 0: nam),
  • race dân tộc – biến phân loại 4 mức (1: hispanic; 2: asian; 3: african-amer; 4: white),
  • ses điều kiện kinh tế – biến phân loại 3 mức (1: low; 2: middle; 3: high),
  • schtyp loại trường – biến nhị phân (1: công; 2: tư)
  • prog chuyên ngành – biến phân loại (1: general; 2: academic; 3: vocation),
  • read điểm số môn đọc hiểu – biến liên tục,
  • write điểm số môn viết – biến liên tục,
  • math điểm số môn toán – biến liên tục,
  • science điểm số môn khoa học – biến liên tục,
  • socst điểm số môn xã hội – biến liên tục,

Thông tin chung về dữ liệu được mô tả bằng như bên dưới:

su female race ses schtyp prog read write science socst
Thống kê mô tả các biến

Giá trị trung bình của điểm số toán theo các nhóm sắc tộc của sinh viên được thể hiện như sau:

graph bar (mean) math, over(race) ytitle(Diem trung binh mon toan theo cac nhom sac toc) xsize(20) ysize(20) scale(1)
Đồ thị phân tích phương sai 1 chiều

Hoặc thể hiện dưới dạng bảng giá trị như sau:

tabstat math, stats(mean) format(%4.3f) by(race)
Đồ thị giá trị trung bình theo các nhóm

Kết quả thống kê cho thấy điểm trung bình môn toán của sinh viên cao nhất ở nhóm asian, kế tiếp là nhóm white và thấp nhất ở nhóm african-amer. Tuy nhiên, để có ý nghĩa về mặt thống kê thì chúng ta cần thực hiện kiểm định phân tích phương sai 1 chiều.

Trong trường hợp của kiểm định Kruskal-Wallis, chúng ta không đặt giả định về tính phân phối chuẩn của biến phụ thuộc, do đó, không cần thiết phải thực hiện kiểm tra phân phối của biến phụ thuộc. Tuy nhiên, để có cơ sở lựa chọn phù hợp, chúng ta cũng có thể kiểm tra sơ bộ đồ thị phân phối của biến phụ thuộc theo 4 nhóm sắc tộc bằng đồ thị histogram như sau:

histogram math, normal by(race)
Đồ thị histogram của biến phụ thuộc

Đồ thị phân phối của math ở 4 nhóm có dạng gần giống phân phối chuẩn. Trong trường hợp này, chúng ta bỏ qua các kiểm định để xác nhận phân phối của biến phụ thuộc math có phải là phân phối chuẩn hay không. Khi đó, để so sánh các điểm số trung bình ở 4 nhóm sắc tộc có bằng nhau ở mức ý nghĩa thống kê 5% hay không, sử dụng lệnh kwallis như sau:

kwallis math, by(race)
Kết quả kiểm định Kruskal-Wallis

Giá trị chi2 với 3 bậc tự do bằng 21.6 cùng với giá trị p-value = 0.0001 cho biết có sự khác nhau về điểm số trung bình môn toán giữa các nhóm sắc tộc.

Các bạn có thể sử dụng kiểm định Kruskal-Wallis để kiểm tra sự khác nhau về giá trị trung bình của các biến liên tục như read, write, math, science, sosct theo các biến danh mục như prog, ses, race

Tham khảo: Kiểm định Kruskal-Wallis trên SPSS