Phân biệt gen vs egen, listwise vs pairwise deletion
Trong mỗi kỹ thuật thống kê, chúng ta cần biết chắc là đang thao tác trên các quan sát hợp lý (non-missing) hay có tồn tại các giá trị missing. Do vậy, hiểu và quản lý các giá trị missing là một việc rất quan trọng trong bất kì loại phân tích thống kê nào. Bài viết sẽ trình bày cách mã hóa và phân biệt listwise vs pairwise delection trong hồi quy và cách tạo biến gen vs egen trong trường hợp dữ liệu tồn tại missing.
Sử dụng đoạn code sau để nhập 7 quan sát sau vào Stata
clear
input id x1 x2 x3
1 1.5 1.4 1.6
2 -999 . 1.9
3 . 2.0 1.6
4 . . 2.2
5 1.9 -99 2
6 1.8 2.0 1.9
7 . . .
end
listsave missing_data.dta, replace
Chúng ta thấy bên cạnh các giá trị missing (.) thì các quan sát còn có các giá trị đặc biệt như -999 hoặc -99. Các giá trị mã hóa đặc biệt này có những ý nghĩa đặc trưng trong thu thập dữ liệu. Stata xem giá trị missing là giá trị lớn hơn bất kì giá trị nào trong tập dữ liệu. Stata cho phép chúng ta mã hóa các loại dữ liệu dạng số thành 27 loại vô cùng lớn được kí hiệu từ “.a” đến “.z” và “.”
Xem thêm: