Kiểm tra dữ liệu nhập – Stata
Câu lệnh thống kê mô tả cơ bản nhất trong Stata là summarize. Theo sau lệnh summarize, chúng ta có thể thực hiện các lệnh thống kê tạo bảng như tabstat và tabulate về mối quan hệ giữa biến liên tục theo các nhóm của biến phân loại.
summarize
summarize read math science write
Chẳng hạn, chúng ta có thể tính phương sai của biến read từ độ lệch chuẩn trong lệnh summarize trên bằng: display 10.25294^2
summarize write, detail
summarize write if read>=60
summarize write if prgtype==”academic”
summarize write in 1/40
Lệnh tabstat cho phép chúng ta thực hiện một số kiểm định thống kê đi kèm trong phần tùy chọn, cũng như các lệnh kiểm tra ttest phía sau
tabstat read write math, by(prgtype) stat(n mean sd)
tabstat write, by(prgtype) stat(n mean sd p25 p50 p75)
Chúng ta sử dụng các lệnh đồ thị để hiển thị trực quan thông tin về dữ liệu. Các đồ thị thường được sử dụng trong Stata như: đồ thị thân lá (stem), đồ thị histogram (histogram), đồ thị box, đồ thị thanh… Hoặc chúng ta cũng có thể sử dụng các đồ thị kiểm tra dạng phân phối của biến dữ liệu liên tục như kdensity, pnorm, qnorm…
stem write
stem write, lines(2)
histogram write, normal
histogram write, normal start(30) width(5)
kdensity write, normal
kdensity write, normal width(5)
kdensity math, normal
graph box write
graph box write, over(prgtype)
Chúng ta tạo bảng 1 chiều, 2 chiều và nhiều hơn 2 chiều bằng lệnh tabulate (có thể viết tắt là tab)
tabulate ses
tab write
tab1 gender schtyp prgtype
tab prgtype ses /* Bảng 2 chiều (Two-way crosstabulation) */
tab prgtype ses, row col /*Bảng 2 chiều với giá trị % ở mỗi dòng và cột*/
Có 2 lệnh để xây dựng ma trận tương quan giữa các biến. Lệnh correlate (viết tắt là corr) không xét đến các cặp quan sát có chứa giá trị rỗng (listwise deletion). Lệnh pwcorr sử dụng pairwise deletion, nghĩa là chỉ loại bỏ giá trị rỗng của biến, nhưng vẫn sử dụng giá trị của các biến còn lại trong quan sát.
Xem thêm: phân biệt Listwise deletion và pairwise deletion
correlate write read science
pwcorr write read science, obs
Đồ thị phân tán thường được sử dụng kết hợp với phân tích tương quan để làm rõ hơn vấn đề về mối quan hệ giữa các biến.
scatter write read
scatter write read, jitter(2)
graph matrix read science write, half
Kết thúc quá trình lưu lại file nhật kí bằng cách sử dụng: log close
Để xem lại nhật kí phân tích trên, sử dụng lệnh: view data_screening.txt