Home | KTL cơ bản | Kiểm tra dữ liệu nhập – Data screening

Kiểm tra dữ liệu nhập – Data screening

Bước đầu tiên trong kiểm tra dữ liệu nhập (Data Screening) là sử dụng bảng tần suất “Frequencies

  1. Chọn Analyze –> Descriptive Statistics –> Frequencies
  2. Chuyển tất cả các biến vào cửa sổ Variable(s).
  3. Bấm OK.

Sử dụng file lọc quan sát và thực hiện 3 bước trên, kết quả Frequencies xuất hiện như sau:

  • Bảng Statistics cho biết số quan sát trống (missing) của mỗi biến. Chúng ta sẽ sử dụng thông tin này để kiểm tra missing ở phần sau
    Đánh giá dữ liệu - spss
  • Bảng Each variable được thể hiện dưới dạng bảng tần suất của mỗi biến. Nó cho biết tần suất xuất hiện các giá trị của biến.

Ví dụ, đối với biến income trong bộ dữ liệu thì thu nhập của người lao động được mã hóa từ 1 đến 5 tương ứng với mức dưới 1000$/tháng và trên 3000$/tháng. Kết quả tổng hợp tần suất bên dưới cho thấy có 6 quan sát có giá trị thu nhập là 6 (không nằm trong khoảng giá trị của biến). Vậy 6 quan sát này là không hợp lệ và chúng ta cần phải xác định tại sao lại có giá trị income bằng 6 ở đây? Có thể là do người nhập nhập nhầm hoặc cũng có thể do người phỏng vấn/được phỏng vấn ghi nhận 6… Chúng ta phải kiểm tra lại nguồn dữ liệu (bảng trả lời) ban đầu.

Để biết quan sát nào có giá trị income bằng 6, chúng ta thực hiện như sau:

  1. Trở về cửa sổ Data View
  2. Chọn cột (biến) income
  3. Bấm Ctrl – F (hoặc vào menu Edit –> Find)
  4. Nhập giá trị là 6 vào ô Find:
  5. Bấm Find Next để lần lượt dò tìm các quan sát có income bằng 6
    Đánh giá dữ liệu - spss

Kiểm tra dữ liệu nhập là bước kiểm tra dữ liệu đầu tiên trước khi thực hiện các bước tiếp theo như kiểm tra giá trị rỗng hoặc kiểm tra điểm dị biệt. Các quá trình kiểm tra này nhằm mục đích đảm bảo độ tin cậy và hiệu quả giải thích của các biến đo lường. Các vấn đề này lần lượt sẽ được trình bày ở các phần thay thế giá trị rỗngphát hiện điểm dị biệt ở phần tiếp theo.