KTL cơ bảnXử lý dữ liệu
Giá trị trống – missing values
1. Vì sao lại có giá trị trống?
Nội dung chính
Giá trị trống (missing) có thể là ngẫu nhiên hoặc không ngẫu nhiên.
- Giá trị trống ngẫu nhiên bởi vì đối tượng không chú ý trả lời một số câu hỏi. Chẳng hạn, câu hỏi quá phức tạp, quá dài hoặc người trả lời quá mệt không chú ý vào câu hỏi. Giá trị trống ngẫu nhiên cũng có thể xảy ra trong quá trình nhập liệu.
- Giá trị trống không ngẫu nhiên xuất hiện khi người được phỏng vấn có lí do không trả lời câu hỏi. Chẳng hạn, câu hỏi có thể trùng hoặc gây nhầm lẫn khi trả lời. Hoặc cũng có thể câu hỏi không đưa ra các lựa chọn trả lời như “không ý kiến”, “không thích hợp” và vì thế người được phỏng vấn sẽ không trả lời những câu hỏi này. Ngoài ra, người được phỏng vấn có thể từ chối trả lời những câu hỏi liên quan đến những vấn đề nhạy cảm như tiền sử phạm tội, tình dục…
2. Vì sao lại quan tâm đến giá trị trống?
- Giá trị trống làm giảm kích thước mẫu và mất dữ liệu.
- Giá trị trống cũng có thể tạo ra sự chệch trong dữ liệu.
- Nếu giá trị trống là không ngẫu nhiên thì kết quả sẽ không đo lường đúng mục đích nghiên cứu. Vì vậy, kết quả nghiên cứu của bạn sẽ không còn chính xác.
3. Xác định giá trị trống như thế nào?
- Chọn Analyze –> Descriptive Statistics –> Frequencies
- Di chuyển tất cả các biến vào cửa sổ “Variable(s)“.
- Bấm OK.
Sử dụng file lọc quan sát và thực hiện 3 bước trên, kết quả Frequencies xuất hiện như sau:
- Bảng “Statistics” sẽ cho biết số các quan sát có giá trị trống của từng biến trong tập dữ liệu của bạn.
Ví dụ, ở hình trên quan sát ở dòng Missing tương ứng ở hai cột deviceowned và color bạn sẽ thấy giá trị trống của hai biến này lần lượt là 6 và 1. Đây là số quan sát có giá trị trống ở hai biến này trong tập dữ liệu.