Việc xuất kết quả Stata qua Excel hoặc Word sẽ dễ hơn bao giờ hết. Với 2 lệnh tab2xl và tab2docx bạn có thể dễ dàng xuất kết quả các bảng thống kê một chiều hoặc hai chiều ra Excel hoặc Word rất tiện lợi và đẹp mắt. Đầu tiên, tải 2 lệnh này về bằng công cụ net install trên ...
Đọc tiếp »Xử lý dữ liệu
Một số lưu ý về lệnh collpase
Liên quan đến dữ liệu sau khi được gộp (collapsed) bằng câu lệnh collapse (sum) với các quan sát của biến có chứa missing. Điều này sẽ dẫn đến sự thiên chệch trong kết quả ước lượng. Bởi lệnh collapse (sum) và egen sum, hoặc rowsum sẽ chuyển các giá trị missing thành giá trị 0. Ngược lại collapse (mean) hoặc collapse (sd) sẽ ...
Đọc tiếp »Tính toán xác suất trên Stata
Việc tính toán các giá trị xác suất là rất phổ biến trong các kiểm định hoặc phân tích thống kê. Thay vì sử dụng các bảng tra các phân phối thì làm thế nào trên Stata chúng ta có thể tính toán giá trị xác suất ứng với mỗi giá trị của các phân phối thường gặp như phân ...
Đọc tiếp »Xử lí các dữ liệu có định dạng chuỗi trên Stata.
Bên cạnh dữ liệu dạng số thì các dữ liệu có định dạng chuỗi và dữ liệu có định dạng thời gian là những định dạng dữ liệu được sử dụng phổ biến trong các phân tích thống kê. Mỗi định dạng dữ liệu khác nhau cần có những kỹ thuật xử lí khác nhau. Bài viết sau sẽ minh ...
Đọc tiếp »Sử dụng _n và _N trên Stata
_n và _N là các biến hệ thống của Stata. _n cho biết vị trí của quan sát hiện tại trong dữ liệu. Bạn có thể sử dụng _n để tạo một biến số thứ tự cho mỗi quan sát. Trong khi _n cho biết số thứ tự của mỗi quan sát thì _N chính là giá trị lớn nhất ...
Đọc tiếp »Tạo biến giả nhanh trên Stata
Biến giả được sử dụng rất thường xuyên trong các mô hình phân tích. Để tạo một biến giả, trên Stata chúng ta có rất nhiều công cụ hỗ trợ như inlist, inrange, cond hoặc lệnh recode. Đặc biệt trong trường hợp một biến giả là kết hợp của nhiều phép toán logic, ví dụ, tôi muốn tạo biến giả ...
Đọc tiếp »Phương pháp thay thế lặp MI – Multiple Imputation
Phương pháp thay thế lặp – MI là phương pháp được sử dụng phổ biến và là phương pháp hiệu quả nhất trong số các phương pháp xử lí giá trị missing. Tuy nhiên, phương pháp thay thế lặp – MI lại tương đối phức tạp và khó hiểu. Tiếp nối phần trình bày ở bài 2 về các phương ...
Đọc tiếp »Các phương pháp xử lý missing
Đây là bài viết thứ 2 trong chuỗi bài viết về dữ liệu missing và các phương pháp xử lý missing. Phần trình bày trước đã giới thiệu sơ lược về dữ liệu missing, cũng như cách phát hiện và tổng hợp nó trong dữ liệu. Tiếp đến, chúng ta sẽ tìm hiểu về các phương . . . Phần ...
Đọc tiếp »Giới thiệu dữ liệu trống – missing data
Giới thiệu dữ liệu trống - missing data) Trong mỗi kỹ thuật thống kê, chúng ta cần biết chắc là đang thao tác trên các quan sát hợp lý không có quan sát trống (non-missing) hay có tồn tại các giá trị trống - missing data. Dữ liệu trống - missing data tác động đến tính thiên chệch, hiệu quả ...
Đọc tiếp »Phân biệt gen vs egen, listwise vs pairwise deletion
Trong mỗi kỹ thuật thống kê, chúng ta cần biết chắc là đang thao tác trên các quan sát hợp lý (non-missing) hay có tồn tại các giá trị missing. Do vậy, hiểu và quản lý các giá trị missing là một việc rất quan trọng trong bất kì loại phân tích thống kê nào. Bài viết sẽ trình bày ...
Đọc tiếp »