Home | KTL cơ bản | Kiểm tra dữ liệu nhập – Stata

Kiểm tra dữ liệu nhập – Stata

Trước khi tiến hành thao tác và phân tích dữ liệu, rất cần thiết chúng ta phải kiểm tra dữ liệu. Bài viết sau sẽ tổng hợp một số lệnh phổ biến trên Stata được sử dụng để thực hiện quá trình kiểm tra dữ liệu này.

Bài viết sử dụng dữ liệu thực hành là hsb2.dta
use https://vietlod.com/data/hsb2.dta, clear

Lệnh Ý nghĩa
cd Thay đổi thư mục làm việc
use Chọn tập dữ liệu thao tác
describe Mô tả thông tin các biến
list Liệt kê thông tin các biến
codebook Mô tả chi tiết các thành phần của tập dữ liệu
log Tạo file nhật ký thao tác
summarize Thống kê mô tả các biến
tabstat Tạo bảng thống kê mô tả cho biến
table Tạo một bảng thống kê
stem Đồ thị thân – lá
graph Đồ thị graph
kdensity Đề thị phân phối Kernel
sort Sắp xếp các quan sát trong tập dữ liệu
histogram Đồ thị histogram
tabulate Tạo bảng tần suất
correlate Tính hệ số tương quan
pwcorr Tính hệ số tương quan từng cặp

Đầu tiên chúng ta tạo 1 file nhật ký (file log) để lưu lại quá trình làm việc của bài viết

log using data_screening.txt, text replace
describe

Câu lệnh describe sẽ mô tả thông tin sơ bộ về các biến trong tập dữ liệu như kiểu định dạng, thiết lập hiển thị, nhãn biến và giá trị nhãn của các biến. Theo đó, tất cả các biến trong tập dữ liệu đều có định dạng số (number).

codebook

Câu lệnh codebook sẽ mô tả chi tiết hơn về thông tin của các biến. Ngoài các thông tin ở câu lệnh describe trên, lệnh codebook cho biết về khoảng giá trị (range), giá trị rỗng (missing), giá trị trùng (unique values) của các biến. Riêng đối với các biến liên tục thì lệnh codebook còn cho biết thông tin về giá trị trung bình (mean), độ lệch chuẩn (std. dev), phân vị (percentiles) của các biến.