Home | KTL cơ bản | Kiểm định | Kiểm định Wilcoxon-Mann-Whitney – Stata

Kiểm định Wilcoxon-Mann-Whitney – Stata

Kiểm định Wilcoxon-Mann-Whitney hay còn gọi là kiểm định trung bình 2 mẫu là một dạng kiểm định phi tham số, được sử dụng để so sánh sự khác nhau giữa hai nhóm độc lập khi biến phụ thuộc có thể là biến thứ tự hoặc biến liên tục, nhưng không yêu cầu phải có phân phối chuẩn. Đây chính là sự khác nhau giữa kiểm định này với kiểm định t-test trung bình 2 mẫu độc lập.

  Xem thêm: Kiểm định phi tham số

Trên Stata, kiểm định Wilcoxon-Mann-Whitney về sự khác biệt của trung bình 2 mẫu được thực hiện bằng lệnh ranksum.

Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta

use https://vietlod.com/data/hsb2.dta, clear

Mẫu dữ liệu bao gồm 200 quan sát với 10 biến như sau:

  • female giới tính – biến nhị phân (1: nữ; 0: nam),
  • race dân tộc – biến phân loại 4 mức (1: hispanic; 2: asian; 3: african-amer; 4: white),
  • ses điều kiện kinh tế – biến phân loại 3 mức (1: low; 2: middle; 3: high),
  • schtyp loại trường – biến nhị phân (1: công; 2: tư)
  • prog chuyên ngành – biến phân loại (1: general; 2: academic; 3: vocation),
  • read điểm số môn đọc hiểu – biến liên tục,
  • write điểm số môn viết – biến liên tục,
  • math điểm số môn toán – biến liên tục,
  • science điểm số môn khoa học – biến liên tục,
  • socst điểm số môn xã hội – biến liên tục,

Thông tin chung về dữ liệu được mô tả bằng như bên dưới:

su female race ses schtyp prog read write science socst
Thống kê mô tả các biến của 2 mẫu

Giá trị của biến science theo biến giới tính được thể hiện ở bảng 2 chiều bên dưới như sau:

table female, c(n science mean science sd science median science)
Bảng thống kê các thông số của biến science theo female

Chúng ta sử dụng lệnh histogram để hiển thị dạng phân phối của biến liên tục science trong 2 nhóm (nam/nữ) như sau:

histogram science, normal by(female)
Kiểm tra phân phối chuẩn của biến liên tục ở 2 mẫu độc lập

Đồ thị phân phối của science ở 2 nhóm có dạng gần giống phân phối chuẩn. Giả sử, chúng ta không quan tâm đến tính chất phân phối chuẩn của biến science mà vẫn muốn biết giá trị trung bình ở 2 nhóm này có bằng nhau ở mức ý nghĩa thống kê 5% hay không, sử dụng lệnh ranksum như sau:

ranksum science, by(female)
Kiểm định Wilcoxon-Mann-Whiteney về sự bằng nhau của trung bình 2 mẫu

Với giá trị của Prob > |z| = 0.0525 cho thấy ở mức ý nghĩa 5%, chúng ta không thể bác bỏ giả thuyết H0 cho rằng giá trị trung bình của điểm khoa học ở 2 nhóm sinh viên nam và nữ là bằng nhau.

Các bạn có thể sử dụng kiểm định Wilcoxon-Mann-Whitney về sự khác biệt của trung bình 2 mẫu để kiểm tra giá trị trung bình của các biến liên tục như read, write, math, sosct theo các biến nhị phân như female, schtyp