Home | KTL cơ bản | Xử lí các dữ liệu có định dạng chuỗi trên Stata.

Xử lí các dữ liệu có định dạng chuỗi trên Stata.

Bên cạnh dữ liệu dạng số thì các dữ liệu có định dạng chuỗi và dữ liệu có định dạng thời gian là những định dạng dữ liệu được sử dụng phổ biến trong các phân tích thống kê. Mỗi định dạng dữ liệu khác nhau cần có những kỹ thuật xử lí khác nhau. Bài viết sau sẽ minh họa cách xử lí các dữ liệu có định dạng chuỗi trên Stata.

Ngoài các lệnh encode, egen hoặc destring để chuyển các biến dạng chuỗi thành dạng số để xử lí thì trong nhiều trường hợp chúng ta xử lí trực tiếp trên các biến dạng chuỗi. Ví dụ sau đây sẽ minh họa trường hợp này.

Giả sử, bạn có một danh sách được định dạng gồm họ tên, học vị của 10 vị khách như:

1. Adenauer, Dr. Konrad
2. Agatz, Willi
3. Ahrens, Adolf
4. Albers, Johannes
5. Albertz, Luise
—————————-
6. Albrecht, Lisa
7. Altmaier, Jakob
8. Amelunxen, Dr. Rudolf
9. Ansorge, Maria
10. Aretin, Anton Freiherr von

Câu hỏi đặt ra là làm thế nào bạn có thể tách riêng họ và tên của 10 vị khách này (không sử dụng Excel để xử lí và import vào).

GỢI Ý CÁCH XỬ LÍ DỮ LIỆU DẠNG CHUỖI

Bạn cần sử dụng kết hợp 3 hàm xử lí chuỗi là strpos, substrsubinstr dựa vào đặc điểm họ và tên cách nhau bởi dấu phẩy và loại bỏ thành phần học vị khỏi chuỗi. Trên Stata, bạn có thể sử dụng lệnh help với tiền tố f_ trước tên hàm để biết cách sử dụng các hàm, ví dụ: help f_strpos để tìm hiểu tính năng của hàm strpos. 

Xem chi tiết về cách thực hiện xử lí các dữ liệu dạng chuỗi:

Ghi chú: Bạn có thể bấm nút Zoom hoặc mở rộng cửa sổ ở góc trên cùng phía phải để xem đầy đủ hơn.