KTL cơ bảnXử lý dữ liệu

Giá trị trống – missing values

Xử lý giá trị trống như thế nào?

Không kể giá trị trống đó là ngẫu nhiên hay không ngẫu nhiên, có 3 cách xử lý khi gặp vấn đề dữ liệu trống như sau:

Cách 1: không làm gì cả. Giữ nguyên dữ liệu như cũ với các giá trị trống của nó.

Đây là cách thường được sử dụng nhất bởi các lí do sau.

    • Thứ nhất, số lượng giá trị trống thông thường là ít.
    • Thứ hai, các giá trị trống thông thường là không ngẫu nhiên.
    • Thứ ba, thậm chí nếu có một vài giá trị trống ở một số quan sát riêng rẻ, thông thường bạn sẽ tạo một biến mới bằng cách các tổ hợp trung bình các quan sát (biến mới này sẽ không chứa giá trị trống bởi nó là trung bình của các dữ liệu hiện có). Tuy nhiên, nếu bạn chọn cách này, bạn cần hiểu cách SPSS thực hiện ra sao. SPSS sử dụng “listwise deletion” hoặc là “pairwise deletion” trong phần Missing Values Analysis.

a. Listwise deletion – SPSS sẽ không bao gồm các quan sát của biến có giá trị trống trong các phân tích. Nếu bạn chỉ phân tích trên một biến thì Listwise deletion đơn giản chỉ là phân tích trên dữ liệu hiện có. Nếu bạn thực hiện phân tích trên nhiều biến thì Listwise deletion sẽ loại bỏ những quan sát có giá trị trống của tất cả các biến. Điểm bất lợi ở đây là làm mất đáng kể dữ liệu bởi vì chúng ta đã loại bỏ tất cả những quan sát của tất cả các biến có chứa giá trị trống (mặc dù ở những quan sát này, các biến không chứa giá trị trống nhưng một biến nào đó có chứa giá trị trống thì tất cả đều bị loại bỏ).

b. Pairwise deletion – SPSS sẽ bao gồm tất cả các dữ liệu hiện có chỉ loại bỏ giá trị chứa giá trị trống. Không giống như Listwise deletion phải loại bỏ tất cả các quan sát của tất cả các biến có chứa giá trị trống, Pairwise deletion chỉ loại bỏ những giá trị trống cụ thể (không phải toàn bộ) trong các phân tích. Mặt khác, nó tính đến tất cả dữ liệu hiện có. Chẳng hạn, nếu bạn muốn thực hiện kiểm tra tương quan giữa các biến thì SPSS sẽ thực hiện sự tương quan từng cặp (bivariate correlation) giữa các điểm dữ liệu, và chỉ bỏ qua những giá trị trống nếu nó tồn tại ở một số biến. Trong trường hợp này, kết quả Pairwise deletion sẽ cho thấy các cở mẫu khác nhau cho mỗi sự tương quan. Pairwise deletion sẽ hữu ích khi kích thước mẫu nhỏ hoặc giá trị trống lớn.

c. Để hiểu rõ hơn về vấn đề này, cách tốt nhất là lần lượt thực hiện cả hai trường hợp Listwise deletionPairwise deletion và so sánh kết quả của chúng. LƯU Ý: với mỗi loại kiểm định thực hiện, bạn phải chỉ cho SPSS biết là sử dụng Listwise deletion hay Pairwise deletion.  Chẳng hạn, chúng ta sử dụng lệnh Explore. Nếu bạn phân tích nhiều hơn một biến bằng lệnh Explore, đảm bảo rằng bạn chọn “Options” và “Exclude cases pairwise” bởi vì tùy chọn mặc định là Listwise deletion. Phần lớn các kiểm định cho bạn bạn chọn Listwise deletion hay Pairwise deletion, nhưng GLM Multivariate chỉ cho phép bạn chọn Listwise deletion. Vì vậy, ghi nhớ luôn kiểm tra số quan sát trong mỗi kết quả phân tích.

Cách 2 là xóa những quan sát có chứa giá trị trống.

Ví dụ, đối với mỗi giá trị trống trong tập dữ liệu, bạn có thể xóa các quan sát ứng với các giá trị trống. Vì vậy, phần còn lại trong dữ liệu bạn là đầy đủ dữ liệu cho tất cả các quan sát. Điểm bất lợi của cách này là làm giảm kích thước mẫu dữ liệu của bạn. Nếu bạn có một tập dữ liệu lớn, thì đây không phải là một bất lợi lớn bởi vì bạn có đủ quan sát sau khi loại bỏ các quan sát có chứa giá trị trống. Một bất lợi khác của cách này đó là các quan sát có chứa giá trị trống có thể khác với các quan sát không chứa giá trị trống (chẳng hạn, giá trị trống không ngẫu nhiên), vì thế mẫu sau khi loại bỏ các quan sát chứa giá trị trống sẽ không còn đại diện tốt. Ở đây, chúng ta chỉ sử dụng cách này khi các đối tượng nghiên cứu cụ thể không trả lời trong toàn bộ thang đo hoặc bảng câu hỏi nghiên cứu.

Cách 3 là thay thế các giá trị trống.

Có nhiều tranh cãi về việc có nên thay thế giá trị trống hay không. Có một vài sự đồng thuận, tuy nhiên, trong một số trường hợp nên thay thế. Chẳng hạn, thông thường chúng ta thực hiện thay thế bằng giá trị trung bình (Mean substitution), thay thế bằng giá trị ước lượng (Regression substitution) hoặc sử dụng phương pháp thay thế lặp, MI

  1. Thay thế bằng giá trị trung bình là việc thay thế các giá trị trống bằng giá trị trung bình của biến.
  2. Thay thế bằng giá trị ước lượng là việc thay thế các giá trị trống bằng giá trị biểu thức ước lượng của biến dự báo dựa vào những biến khác.

Cả thay thế bằng giá trị trung bình và thay thế bằng giá trị ước lượng có thể được thực hiện bằng cách sử dụng: Transform –> Replace Missing Cases.

Xem thêm: các phương pháp thay thế giá trị trống

Trang trước 1 2 3
Xem thêm
Back to top button