KTL cơ bản

Cấu trúc dữ liệu đa cấp – Multilevel data structure

2. Vấn đề đặt ra đối với dữ liệu đa cấp

Giả sử, chúng ta muốn tập trung đánh giá ở mức level cao, chẳng hạn đánh giá chất lượng học tập của từng trường chứ không phải mỗi học sinh riêng rẻ thì chúng ta có thể đánh giá thông qua giá trị thành tích học tập trung bình của mỗi học sinh. Theo cách tiếp cận này thì các dữ liệu cá nhân (individual) đã bị phá hủy hoặc ít nhất không được sử dụng (khai thác) hiệu quả. Từ đó làm giảm khả năng giải thích của dữ liệu. (Tabachnick & Fidel, 2007)

Tại sao khả năng giải thích bị giảm?

  • Thứ nhất, việc trung bình hóa các đối tượng sẽ làm san bằng ý nghĩa của dữ liệu. Nghĩa là, nó không xét đến sự chênh lệch về điểm số của mỗi học sinh.
  • Thứ hai, bậc tự do của mô hình giảm mạnh khi trung bình hóa các quan sát. Từ đó, làm giảm mức ý nghĩa của mô hình cũng như các hệ số ước lượng và có thể dẫn đến sai lầm loại II.

Kết quả hồi quy OLS - mức cá nhân

Nhận xét: Kết quả hồi quy ở mức cá nhân thì đa phần các hệ số hồi quy và của mô hình đều có ý nghĩa thống kê, tuy nhiên, khi hồi quy ở cấp quốc gia (27 quốc gia) thì rất nhiều hệ số và cả mô hình không có ý nghĩa thống kê.

Kết quả hồi quy OLS - cấp quốc gia

Như vậy, việc gộp dữ liệu (data aggregation) sẽ hạn chế khả năng suy diễn thống kê ở mức thấp hơn 1 level.

Ví dụ: tỉ lệ di cư giữa các tiểu bang ở Mỹ là có tương quan dương với trình độ học vấn trung bình của tiểu bang. Vậy có phải những người di cư có học vấn cao hơn so với các công dân bản địa? Câu trả lời là KHÔNG. Chúng ta không thể giả định sự tương quan ở mức cá nhân. Trong thực tế sự tương quan ở mức cá nhân này là âm, nhưng vì những người di cư ở những bang có mức học vấn cao đã tạo ra sự tương quan dương được đề cập ở trên.

CÂU HỎI NGHIÊN CỨU

Vậy mô hình nào sẽ được sử dụng để ước lượng dữ liệu đa cấp? hay phương pháp nào được sử dụng để ước lượng các mô hình dữ liệu đa cấp?

Đọc tiếp: phương pháp tiếp cận dữ liệu đa cấp.

Trang trước 1 2
Xem thêm
Back to top button