Phân phối chuẩn hóa – Normality

12/09/2014

8 phút

Thứ 3, Kiểm định Kolmogorov-Smirnov (K-S) và kiểm định Shapiro-Wilk (S-W)

Chọn Analyze –> Descriptive Statistics –> Explore.
Chuyển các biến liên tục cần phân tích vào cửa sổ “Variable(s)”.
Bấm “Plots”, bỏ chọn “Stem-and-leaf”, và chọn “Normality plots with tests”.
Bấm OK.

Bảng “Test of Normality” cho biết các kết quả kiểm định K-S và S-W. Nếu kết quả kiểm định KHÔNG có ý nghĩa thống kê thì dữ liệu có dạng phân phối chuẩn. Vì vậy, nếu giá trị p lớn hơn 0.05 sẽ cho thấy dữ liệu có phân phối chuẩn (ở mức ý nghĩa thống kê 5%). Shapiro-Wilk (S-W) phù hợp với các cở mẫu nhỏ hơn so với Kolmogorov-Smirnov (K-S), tuy nhiên, hạn chế của Shapiro-Wilk (S-W) không hiệu quả trong trường hợp biến dữ liệu có nhiều giá trùng (tied) nhau.

Tuy nhiên, hạn chế lớn của các kiểm định này là cở mẫu càng lớn thì kết quả kiểm định càng có ý nghĩa thống kê (p-value tiến tới 0), và vì thế dữ liệu càng khó có phân phối chuẩn (điều này mâu thuẫn với quy tắc cở mẫu càng lớn thì phân phối sẽ tiệm cận phân phối chuẩn). Vì vậy, quy tắc kinh nghiệm khuyến nghị chỉ nên sử dụng kiểm định K-S và S-W cho các mẫu có kích thước từ 50 trở xuống.
Kiểm định phân phối chuẩn - spss

Đồ thị “Normal Q-Q Plot” cho thấy một cách nhìn trực quan để xác định mức độ chuẩn hóa của dữ liệu. Đường thẳng màu đen cho biết đường phân phối chuẩn ứng với mẫu dữ liệu của bạn. Các điểm dọc đường thẳng đó chính là dữ liệu thực tế của bạn. Nếu toàn bộ các điểm này nằm trên đường thẳng màu đen sẽ cho biết dữ liệu của bạn có phân phối chuẩn. Ngược lại, nếu chúng phân tán xa đường thẳng này thì dữ liệu không có dạng phân phối chuẩn.
Kiểm định phân phối chuẩn - spss

KIỂM ĐỊNH PHÂN PHỐI CHUẨN

Khi xem xét yếu tố phân phối chuẩn của dữ liệu, cần kết hợp tất cả các dấu hiệu trên từ thống kê mô tả với đồ thị Histogram, Q-Q plot, 2 chỉ số Skewness – Kurtosis và kết quả kiểm định K-S hoặc S-W. Điều này là cần thiết bởi, một mặt, có thể xác định dữ liệu có phân phối chuẩn không; mặt khác, nó có thể phát hiện những vấn đề ảnh hưởng đến phân phối chuẩn của dữ liệu để có những biện pháp xử lý sau này.

Xử lý ra sao nếu dữ liệu không có phân phối chuẩn?

Trước khi xử lý dữ liệu để thỏa mãn tính chất phân phối chuẩn của dữ liệu, bạn cần trả lời câu hỏi: “có thực sự cần thiết phải chuẩn hóa dữ liệu không?”

Bởi bên cạnh mỗi kiểm định tham số (yêu cầu phân phối chuẩn) thì sẽ có một kiểm định phi tham số (không yêu cầu phân phối chuẩn) thay thế. Ngoài ra, ngay cả kiểm định tham số thì vẫn có một số kiểm định ít nhạy cảm với tính chuẩn của dữ liệu, chẳng hạn hệ số tương quan Pearson. Vậy tùy theo tầm hạn nghiên cứu (tiểu luận môn học, đồ án/luận văn sinh viên, cao học hay tạp chí khoa học), thời gian/kiến thức, loại kiểm định mà bạn sử dụng… mà quyết định chuẩn hóa dữ liệu cho phù hợp. Trong trường này, bạn có 5 lựa chọn để chuẩn hóa dữ liệu như sau:

Cách 1 là giữ nguyên dữ liệu và thực hiện các kiểm định tham số dựa trên các giả thuyết của phân phối chuẩn. Bởi vì dữ liệu của bạn không có dạng phân phối chuẩn, không có nghĩa là ngay lập tức nó vi phạm các nguyên tắc kiểm định tham số. Phân phối chuẩn với phân phối không chuẩn chỉ là một vấn đề về mức độ chính xác chứ không phải là một quy định ngặt nghèo bắt buộc. Có sự khác biệt nhỏ so với phân phối chuẩn dẫn đến làm cho kiểm định tham số ít chính xác hơn.
Cách 2 là giữ nguyên dữ liệu và thực hiện các kiểm định phi tham số.
Cách 3 là thực hiện các kiểm định robust. Đây được xem làm công cụ mạnh của kiểm định tham số nhưng vẫn sử dụng được cho các dữ liệu không có dạng phân phối chuẩn.
Cách 4 là thay đổi dữ liệu. Sử dụng các công thức toán học để thay đổi dữ liệu và chuyển nó thành dạng phân phối chuẩn.
Cách 5 là thay đổi biến (tạo biến mới). Có nhiều cách khác nhau để chuyển dữ liệu thành dạng phân phối chuẩn. Một trong những cách phổ biến được sử dụng nhiều trên SPSS là công cụ tạo biến mới từ biến cũ không phải dạng phân phối chuẩn. Quá trình này được thực hiện trên SPSS như sau:

Chọn Transform –> Compute Variable
Nhập tên cho biến mới.
Chọn công thức thay đổi từ danh sách các hàm “Functions”.
Chuyển biến không có dạng phân phối chuẩn vào vùng có dấu hỏi “?”.
Bấm OK.

Biến mới sẽ được tạo ra ở dòng cuối cùng trong cửa sổ “Data view”.

Bây giờ, thực hiện kiểm tra lại tính chuẩn hóa của biến. Nếu biến đã có dạng phân phối chuẩn rồi thì bắt đầu thực hiện tiếp các phân tích thống kê. Ngược lại, tiếp tục thử một công thức thay đổi khác.

Xem thêm:

Trang trước 1 2 3

Thẻ

12/09/2014

8 phút

Xem thêm

Điểm dị biệt - Outliers

Bảng tần suất - SPSS