KTL cơ bảnXử lý dữ liệu

Điểm dị biệt – Outliers

III. XỬ LÝ ĐIỂM DỊ BIỆT

Thứ nhất, chúng ta phải xác định lý do xuất hiện các điểm dị biệt. Điểm dị biệt xuất hiện có thể do quá trình nhập liệu, vì vậy bạn cần phải thực hiểm kiểm tra đánh giá tổng quan về dữ liệu để đảm bảo rằng các điểm dị biệt nếu có không phải do lỗi nhập liệu. Hoặc có thể do phản hồi của đối tượng phỏng vấn.

Thứ hai, sau khi xác định lý do xuất hiện thì có thể áp dụng 4 cách sau để giảm bớt ảnh hưởng của các điểm dị biệt

  • Cách 1: Xóa giá trị dị biệt. Nếu chỉ có một vài điểm dị biệt, bạn có thể xóa những giá trị này. Các điểm này sẽ nhận giá trị trắng hoặc trống.
  • Cách 2: Xóa biến. Nếu bạn cảm thấy câu hỏi được thiết kế chưa phù hợp hoặc có quá nhiều điểm dị biệt trong biến này, hoặc biến đó không cần thiết bạn có thể loại bỏ biến. Ngoài ra, cách thay đổi (transforming) giá trị hoặc biến không loại bỏ được vấn đề thì bạn cũng nên xem xét bỏ biến.
  • Cách 3: Thay đổi (transform) giá trị. Một vài cách thay đổi giá trị của biến, chẳng hạn như bạn có thể thay đổi giá trị cao nhất/thấp nhất kế tiếp (không phải là điểm dị biệt).

Ví dụ, nếu bạn có thang điểm 100, và bạn có 2 điểm dị biệt là 95 và 96, đồng thời giá trị cao kế tiếp là 89 thì bạn có thể thay đổi giá trị 95 và 96 thành 89. Tương tự như vậy, nếu bạn có 2 điểm dị biệt là 5 và 6 và điểm thấp nhất kế tiếp là 11 thì bạn có thể thay đổi giá trị 5 và 6 thành 11. Một cách khác là bằng giá trị thành các điểm cao nhất/thấp nhất kế tiếp (không phải điểm dị biệt) cộng thêm hoặc trừ bớt 1 đơn vị. Tương tự ví dụ trên là thay thế 2 giá trị dị biệt 95 và 96 thành 90 (89 cộng 1) hoặc 5 và 6 thành 10 (11 trừ 1).

  • Cách 4: Thay đổi (transform) biến. Thay vì thay đổi giá trị của từng điểm dị biệt, chúng ta có thể thay đổi cho toàn bộ biến. Việc thay đổi nhằm mục đích tạo ra các biến có phân phối chuẩn.

Thứ 3, sau khi xử lý bạn sẽ kiểm tra lại điểm dị biệt để xác định có tạo ra các điểm dị biệt mới hay không. Nếu các điểm dị biệt mới lại xuất hiện, và bạn muốn giảm ảnh hưởng của những điểm dị biệt này, bạn có thể lựa chọn một trong 4 cách trên và tiếp tục lặp lại quá trình kiểm tra.

Xem thêm: các khuyết tật tật của dữ liệu trong hồi quy OLS

Trang trước 1 2
Xem thêm
Back to top button