Phân phối chuẩn hóa – Normality
Giả định phân phối chuẩn
Vì sự chuẩn hóa của dữ liệu (phân phối chuẩn) là một trong những giả định quan trọng cho đa số các kiểm định thống kê. Trong chương trình Kinh tế lượng, thống kê được giảng dạy tất cả các kiểm định hoặc phương pháp phân tích đều dựa trên giả định về tính phân phối chuẩn của dữ liệu. Do vậy, trong nghiên cứu của mình các bạn sinh viên sẽ thực hiện kiểm tra, làm sạch dữ liệu và loại bỏ ảnh hưởng của các điểm dị biệt để đưa dữ liệu về dạng chuẩn hóa. Bên dưới, chúng tôi sẽ trình bày quy trình 5 bước để xác định và xử lý vấn đề chuẩn hóa của dữ liệu.
Tuy nhiên, trong thực tế nghiên cứu các học giả sẽ ít kiểm tra tính chuẩn hóa này. Bởi thay vì họ giả định dữ liệu có phân phối chuẩn thì họ sẽ sử dụng những kiểm định dựa trên những giả định này để phân tích. Nội dung của phần này sẽ lần lượt trình bày 4 vấn đề về tính chuẩn hóa của dữ liệu:
- Thứ nhất, phân phối chuẩn hóa là gì?
- Thứ hai, tại sao phân phối chuẩn lại quan trọng?
- Thứ ba, kiểm tra phân phối chuẩn như thế nào?
- Xử lý như thế nào nếu dữ liệu không có phân phối chuẩn?
1.
Phân phối chuẩn là gì?
Một phân phối chuẩn hóa là một phân phối có dạng hình chuông đối xứng được xác định bởi 2 thông số: trung bình (mean) và phương sai (variance)
2.Tại sao phân phối chuẩn lại quan trọng?
Ý tưởng cốt lõi đằng sau việc suy diễn thống kê là khi cở mẫu càng lớn thì phân phối sẽ tiệm cận phân phối chuẩn.
Đa phần các kiểm định thống kê đều dựa trên giả định rằng dữ liệu của bạn có phân phối chuẩn. Các kiểm định dựa trên giả định này được gọi là các kiểm định tham số (parametric tests). Ngược lại, nếu dữ liệu của bạn không có phân phối chuẩn thì bạn sẽ sử dụng các kiểm định thống kê không dựa trên giả định về sự chuẩn hóa của dữ liệu. Các kiểm định này được gọi là các kiểm định phi tham số (non-parametric tests).
Kiểm định phi tham số ít hiệu quả (less powerful) so với các kiểm định tham số. Điều đó có nghĩa kiểm định phi tham số sẽ ít có khả năng phát hiện những khác biệt thực tế hoặc sự biến động trong dữ liệu của bạn. Nói cách khác, bạn muốn thực hiện các kiểm định tham số bởi vì bạn muốn gia tăng số cơ hội phát hiện những kết quả có ý nghĩa thống kê.
Trên SPSS chúng ta tiến hành kiểm tra phân phối chuẩn như thế nào? Mời các bạn xem tiếp ở 2 trang kế tiếp.