Giới thiệu dữ liệu trống – missing data
- Giới thiệu dữ liệu trống – missing data)
Trong mỗi kỹ thuật thống kê, chúng ta cần biết chắc là đang thao tác trên các quan sát hợp lý không có quan sát trống (non-missing) hay có tồn tại các giá trị trống – missing data. Dữ liệu trống – missing data tác động đến tính thiên chệch, hiệu quả của các ước lượng thống kê. Do vậy, hiểu và quản lý các vấn đề dữ liệu trống – missing data là một việc rất quan trọng trong bất kì loại phân tích thống kê nào. Xử lí hiệu quả vấn đề dữ liệu trống – missing data có thể nâng cao độ tin cậy và tính vững của kết quả ước lượng. Bài viết sẽ trình bày giới thiệu vấn đề dữ liệu trống – missing data từ khái niệm, cách mã hóa và trình bày các giá trị trống – missing data. Ngoài ra, phần này cũng đi sâu phân biệt listwise vs pairwise trong hồi quy và cách tạo biến gen vs egen trong trường hợp dữ liệu tồn tại missing.
Đây là bài viết đầu tiên trong chuỗi 3 bài viết về dữ liệu missing và các phương pháp xử lý missing, bao gồm:
Sử dụng đoạn code sau để nhập 7 quan sát sau vào Stata
clear
input id x1 x2 x3
1 1.5 1.4 1.6
2 -999 . 1.9
3 . 2.0 1.6
4 . . 2.2
5 1.9 -99 2
6 1.8 2.0 1.9
7 . . .
end
list
save missing_data.dta, replace
Chúng ta thấy bên cạnh các giá trị missing (.) thì các quan sát còn có các giá trị đặc biệt như -999 hoặc -99. Các giá trị mã hóa đặc biệt này có những ý nghĩa đặc trưng trong thu thập dữ liệu. Stata xem giá trị missing là giá trị lớn hơn bất kì giá trị nào trong tập dữ liệu. Stata cho phép chúng ta mã hóa các loại dữ liệu dạng số thành 27 loại vô cùng lớn được kí hiệu từ “.a” đến “.z” và “.”