Home | KTL cơ bản | Lọc quan sát – Nối dữ liệu

Lọc quan sát – Nối dữ liệu

Quản lý dữ liệu hay đôi khi còn gọi đơn giản là lọc quan sát thường được thực hiện để chuẩn bị dữ liệu cho các mục đích nghiên cứu thỏa mãn các điều kiện cụ thể. Một số lệnh được sử dụng nhằm mục đích quản lý dữ liệu thường được sử dụng trên Stata được tổng hợp ở bảng bên dưới.

Bài viết sử dụng dữ liệu thực hành là hsb2.dta
use https://vietlod.com/data/hsb2.dta, clear

Lệnh Ý nghĩa
pwd cho biết thực mục làm việc hiện hành
dir hay ls hiển thị các file trong thư mục hiện hành
cd thay đổi thư mục
keep if giữ lại những quan sát thỏa mãn điều kiện sau lệnh if
keep giữ lại các biến hoặc quan sát
drop xóa các biến hoặc quan sát
append xếp dữ liệu từ một file vào file dữ liệu hiện hành
sort xếp thứ tự các quan sát
merge nối một file dữ liệu vào file dữ liệu hiện hành

Đầu tiên chúng ta tạo 1 file nhật ký (file log) để lưu lại quá trình làm việc của bài viết
log using managing-data.txt, text replace

1. Tạo tập dữ liệu con

Giả sử chúng ta là sinh viên đại học đang làm luận án tốt nghiệp và dữ liệu chúng ta muốn phân tích là một tập con của tập tin dữ liệu hsb2. Trong thực tế, chúng tôi đang nghiên cứu “kỹ năng đọc tốt” và chỉ muốn tập trung vào những sinh viên đã có một số điểm đọc từ 60 trở lên. Phần trình bày bên dưới nhằm tạo một thư mục riêng đặt tên là là LVTN chỉ bao gồm các sinh viên đọc điểm từ 60 trở lên.

  • pwd
  • dir
  • ls
  • cd Stata_data
  • keep if read >= 60
  • describe
  • summarize read
  • save LVTN, replace
  • pwd

2. Giữ lại các biến cần thiết

Hơn nữa, với tập dữ liệu con này vẫn chứa rất nhiều biến mà chúng ta không có nhu cầu. Giả sử, chúng ta chỉ quan tâm và muốn giữ lại các biến trong nghiên cứu của mình bao gồm id, female, read write. Quá trình giữ lại các biến này được thực hiện như sau:

  • keep id female read write
  • save hskept, replace
  • describe
  • list in 1/20

3. Loại bỏ các biến khỏi tập dữ liệu

Thay vì dùng lệnh keep để giữ lại các biến mong muốn, trong trường hợp số biến giữ lại nhiều (phần lớn các biến trong tập dữ liệu) thì một câu lệnh khác cho phép chúng ta loại bỏ các biến không cần thiết khỏi tập dữ liệu. Lệnh loại biến khỏi tập dữ liệu được sử dụng trong Stata là lệnh drop

  • use LVTN, clear
  • drop ses prog
  • save hsdropped, replace
  • describe
  • list in 1/10

Ở đây, chúng ta đã loại 2 biến ses và prog khỏi tập dữ liệu con LVTN đã tạo ở bước trên.

Tiếp tục trang 2, 3, 4