Kiểm tra dữ liệu nhập – Stata
Trước khi tiến hành thao tác và phân tích dữ liệu, rất cần thiết chúng ta phải kiểm tra dữ liệu. Bài viết sau sẽ tổng hợp một số lệnh phổ biến trên Stata được sử dụng để thực hiện quá trình kiểm tra dữ liệu này.
Bài viết sử dụng dữ liệu thực hành là hsb2.dta
use https://www.vietlod.com/data/hsb2.dta, clear
Lệnh | Ý nghĩa |
cd | Thay đổi thư mục làm việc |
use | Chọn tập dữ liệu thao tác |
describe | Mô tả thông tin các biến |
list | Liệt kê thông tin các biến |
codebook | Mô tả chi tiết các thành phần của tập dữ liệu |
log | Tạo file nhật ký thao tác |
summarize | Thống kê mô tả các biến |
tabstat | Tạo bảng thống kê mô tả cho biến |
table | Tạo một bảng thống kê |
stem | Đồ thị thân – lá |
graph | Đồ thị graph |
kdensity | Đề thị phân phối Kernel |
sort | Sắp xếp các quan sát trong tập dữ liệu |
histogram | Đồ thị histogram |
tabulate | Tạo bảng tần suất |
correlate | Tính hệ số tương quan |
pwcorr | Tính hệ số tương quan từng cặp |
Đầu tiên chúng ta tạo 1 file nhật ký (file log) để lưu lại quá trình làm việc của bài viết
log using data_screening.txt, text replace
describe
Câu lệnh describe sẽ mô tả thông tin sơ bộ về các biến trong tập dữ liệu như kiểu định dạng, thiết lập hiển thị, nhãn biến và giá trị nhãn của các biến. Theo đó, tất cả các biến trong tập dữ liệu đều có định dạng số (number).
codebook
Câu lệnh codebook sẽ mô tả chi tiết hơn về thông tin của các biến. Ngoài các thông tin ở câu lệnh describe trên, lệnh codebook cho biết về khoảng giá trị (range), giá trị rỗng (missing), giá trị trùng (unique values) của các biến. Riêng đối với các biến liên tục thì lệnh codebook còn cho biết thông tin về giá trị trung bình (mean), độ lệch chuẩn (std. dev), phân vị (percentiles) của các biến.