KTL cơ bảnXử lý dữ liệu
Lọc quan sát – Nối dữ liệu
Một vài lưu ý về lệnh merge
- Khi nối dữ liệu, tập dữ liệu nào được sử dụng sau lệnh use được gọi là tập chủ (master), và tập dữ liệu nào được sử dụng sau cú pháp using được gọi là tập khách (using).
- Dựa vào tiêu chí master – using, kỹ thuật nối dữ liệu có thể bao gồm 4 dạng chính như sau: nối 1: 1; 1: m; m: 1 và m: m. Trường hợp nối m:m là sự lựa chọn cuối cùng khi không thể sử dụng các lựa chọn khác. Bởi nối m:m chỉ đơn giản là chép chồng các quan sát của 2 tập dữ liệu.
- Theo mặc định lệnh merge sẽ tạo ra một biến mới có tên là _merge. Chúng ta sử dụng tab _merge để xem các quan sát ở 2 tập master và using được nối như thế nào với nhau.
- 2 tùy chọn quan trọng của lệnh merge đó là update và replace. Trong nhiều trường hợp 2 tập dữ liệu có cùng một số biến, do vậy, khi nối dữ liệu các quan sát của các biến trùng này sẽ nhận 2 giá trị (1 của master, 1 của using). Nếu 2 giá trị này giống nhau thì không có vấn đề gì, ngược lại, 2 giá trị này khác nhau thì biến trùng này sẽ lưu giữ giá trị của tập nào? master hay using? Để giải quyết vấn đề này, Stata cho phép chúng ta chỉ ra giá trị mà biến trùng này cần nhận qua 2 tùy chọn update và replace.
- Khi tùy chọn update được sử dụng thì chỉ có các quan sát rỗng (missing) của tập master bị thay thế bởi giá trị của quan sát tương ứng ở tập using. Còn các giá trị khác missing ở tập master sẽ không bị thay đổi.
- Khi tùy chọn replace được sử dụng thì giá trị của các quan sát của tập master sẽ bị thay thế bởi giá trị của tập using, ngoại trừ giá trị missing của tập using sẽ không được dùng để thay thế (nghĩa là ứng với các quan sát missing của tập using, giá trị các quan sát tương ứng ở tập master sẽ không thay đổi).
Xem thêm: Lọc quan sát trên SPSS