Cấu trúc dữ liệu đa cấp – Multilevel data structure

03/03/2015

4 phút

Clustered data hay nested data là các tên gọi khác của dữ liệu đa cấp (multilevel data). Vậy mô hình dữ liệu đa cấp được ước lượng bằng phương pháp nào?

Phương pháp hồi quy OLS, OLS với tùy chọn robust hoặc cluster robust, OLS với các biến dummy, các phương pháp ước lượng dữ liệu bảng Fixed effects hay Random effects, GMM, kể cả phương pháp ước lượng dữ liệu bảng với độ dốc thay đổi là những phương pháp quan trọng và phổ biến trong bất kì nghiên cứu định lượng nào. Quan trọng hơn cả, đây là những phương pháp đặc trưng để ước lượng các mô hình dữ liệu đa bậc (Multilevel Modeling). Loạt bài viết sau sẽ trình bày rõ ràng có hệ thống, theo trình tự khắc phục các vấn đề tồn tại của các phương pháp trên theo cách viết đơn giản, dễ hiểu. Thông qua chuỗi bài viết này các bạn chắc chắn sẽ làm chủ được các mô hình dữ liệu đa bậc, nhất là mô hình dữ liệu bảng.

Ghi chú: chuỗi bài viết này là nhằm mục đích đơn giản hóa và liên kết các bài viết trước đó về dữ liệu bảng, cũng như mở ra các bài viết mới về SEM, GMM…

Bài viết đầu tiên là giới thiệu về dữ liệu đa cấp (Multilevel data). Vậy thế nào là một tập dữ liệu đa cấp? Vấn đề tồn tại của dữ liệu đa cấp là gì?

1. Giới thiệu về dữ liệu đa cấp

Dữ liệu đa cấp còn được gọi với các tên khác như là clustered data hoặc nested data.

Trong nghiên cứu thực tế, chúng ta thường gặp các dữ liệu đa cấp với nhiều level khác nhau. Dữ liệu bảng (panel data) chỉ là 1 trường hợp của loại dữ liệu này.

Ví dụ về dữ liệu đa cấp:

Các học sinh trong 1 lớp
Các lớp của 1 trường
Các trường trong 1 tỉnh/TP

Minh họa dữ liệu đa cấp - Multilevel data

Có 4 level ở ví dụ này:

Level 1 là các học sinh riêng rẻ
Level 2 là các lớp
Level 3 là các trường.
Level 4 là các tỉnh/TP

Chúng ta quan tâm đến tác động của các biến tại các level khác nhau. Chẳng hạn như dự báo điểm số của mỗi học sinh:

Ở level 1 (individual), đó là điểm số (score), điều kiện kinh tế (SES), giới tính (gender), dân tộc (ethnic)…
Ở level 2 (classroom), đó là các biến như chất lượng giáo viên, sĩ số lớp…
Ở level 3 (school), đó là các biến như loại trường học (công/tư), cơ sở vật chất…
Ở level 4 (province/country), đó là các chính sách giáo dục, ngân sách giáo dục, các quỹ khen thưởng, học bổng…

Ngoài ra, các dữ liệu đa cấp còn là kết quả của các cuộc khảo sát lặp (repeated measurement) của các đối tượng theo thời gian. Dữ liệu bảng là một trường hợp của loại dữ liệu đa cấp này.

Level 1: các mốc thời gian T1, T2, T3, …
Level 2: các đối tượng riêng rẻ

Minh họa dữ liệu đa cấp - Dữ liệu bảng