Tương quan hạng Spearman – Stata
Tương quan hạng Spearman được sử dụng thay thế tương quan Pearson để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc một biến được xếp hạng và một biến đo lường không yêu cầu có phân phối chuẩn. Nghĩa là, bạn có thể sử dụng tương quan hạng Spearman thay cho hồi quy/tương quan Pearson khi bạn lo lắng về phân phối không chuẩn của dữ liệu. Tuy nhiên, điều này không phải thật luôn cần thiết[1].
Để hiểu rõ hơn về giả định của các phương pháp, ý nghĩa của hệ số tương quan các bạn đọc thêm ở bài:
Ví dụ: chúng ta muốn biết doanh số bán hàng ở một năm có mối quan hệ như thế nào với những năm trước và những năm sau đó. Dữ liệu về doanh số bán hàng từng năm của 25 cửa hàng được tổng hợp ở file dữ liệu thực hành là paired-t-test.dta
use https://www.vietlod.com/data/ paired-t-test.dta, clear
Thông tin chung về dữ liệu được mô tả bằng như bên dưới:
su DT2011 DT2012 DT2013
Giá trị trung bình về doanh thu của 24 cửa hàng trong 3 năm 2011, 2012, 2013 lần lượt như sau: 893.96; 832.12; 537.63
Trước khi xác định hệ số tương quan hạng Spearman cũng như hệ số tương quan Pearson, chúng ta cần kiểm tra dạng phân phối của của các biến liên tục.
Xem thêm: Kiểm tra phân phối chuẩn của biến.
Sử dụng lệnh sktest để kiểm tra tính phân phối chuẩn cũng như các thông số về Skewness, Kurtosis của 3 biến DT2011, DT2012, DT2013 như sau:
sktest DT2011 DT2012 DT2013
Trong ví dụ này các biến DT2011 và DT2013 là những biến có phân phối chuẩn. Tuy nhiên, biến DT2012 không có phân phối chuẩn. Do vậy, phần trình bày bên dưới sẽ tính toán hệ số tương quan hạng Spearman trên trên Stata.
Hệ số tương quan hạng Spearman được tính toán trên Stata bằng câu lệnh spearman như sau:
spearman DT2011 DT2012
Kết quả cho thấy giá trị hệ số tương quan theo phương pháp tương quan hạng Spearman (Spearman’s rho) là 0.8670; đồng thời có ý nghĩa thống kê ở mức 1% (Prob > |t| = 0.0000). Kết quả này xấp xỉ với giá trị hệ số tương quan Pearson (0.8706) ở bài trước.
GHI CHÚ: 1. Nhiều người sử dụng tương quan hạng Spearman là một kiểm định thay thế tương quan Pearson khi một hoặc cả hai biến không thỏa mãn điều kiện phân phối chuẩn. Tương quan Pearson giả định rằng các dữ liệu phải có phân phối chuẩn hóa, trong khi tương quan hạng Spearman không đòi hỏi giả định này, vì vậy, mọi người nghĩ rằng tương quan hạng Spearman sẽ tốt hơn. Thực tế, rất nhiều nghiên cứu thực nghiệm cho thấy tương quan Pearson ít nhạy cảm đối với tính chuẩn hóa của dữ liệu. Điều đó có nghĩa, nếu xác suất bác bỏ H0 (mức ý nghĩa 5%) trong trường hợp dữ liệu vi phạm phân phối chuẩn thì tương quan Pearson vẫn có ý nghĩa 5%. (Edgell và Noon, 1984)[2]. Vì vậy, bạn vẫn có thể sử dụng tương quan Pearson ngay cả khi dữ liệu có chút vấn đề về phân phối chuẩn. 2. Edgell, S.E., and S.M. Noon. 1984. Effect of violation of normality on the t-test of the correlation coefficient. Psych. Bull. 95: 576-583.