Home | KTL nâng cao | Giới thiệu dữ liệu bảng – Panel data

Giới thiệu dữ liệu bảng – Panel data

I. GIỚI THIỆU VỀ DỮ LIỆU BẢNG

Mục đích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích mối quan hệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải thích \({X_1}\), \({X_2}\) , …, \({X_k}\). Nói cách khác, chúng ta muốn biết sự tác động của \({X_i}\) lên Y như thế nào, cả chiều hướng lẫn độ lớn của tác động. Trả lời câu hỏi này, chúng ta phải thu thập mẫu để có được kết quả ước lượng[1] không chệch tác động của X lên Y.

Để kết quả ước lượng là không thiên chệch đòi hỏi chúng ta phải kiểm soát các biến nhiễu (confounding variables), cả các biến quan sát được lẫn các biến không quan sát được. Đối với các biến nhiễu quan sát được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đa biến cổ điển (MCLR). Đối với các biến nhiễu không quan sát được, tuỳ vào đặc điểm khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình hồi quy tác động cố định hay tác động ngẫu nhiên. Đối với các biến không quan sát được mà giá trị của nó khác nhau giữa các đối tượng nhưng không thay đổi theo thời gian thì mô hình hồi quy tác động cố định là phù hợp. Cả hai mô hình hồi quy này đòi hỏi chúng ta phải sử dụng dữ liệu bảng.

Dữ liệu bảng đôi khi còn được gọi là dữ liệu dài (longitudinal data). Dữ liệu bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời gian (time series). Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng (units) giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2014.

1.

Ưu điểm của dữ liệu bảng

Dữ liệu bảng có nhiều ưu điểm so với dữ liệu chéo và dữ liệu thời gian. Cụ thể, dữ liệu bảng có 2 ưu điểm nổi trội như sau:

1. Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy hơn. Điều này có thể được giải thích bởi:

  • Dữ liệu bảng cho phép chúng ta kiểm soát các yếu tố không quan sát được. Các yếu tố này có thể khác nhau giữa đối tượng nhưng không thay đổi theo thời gian hoặc thay đổi theo thời gian nhưng lại không khác nhau giữa các đối tượng. Điều này có thể rất cần thiết để giảm sự thiên chệch trong ước lượng.
  • Thông thường có nhiều sự biến động trong dữ liệu bảng hơn dữ liệu chéo hoặc dữ liệu thời gian. Sự biến động trong dữ liệu của các biến giải thích càng nhiều thì độ chính xác của các ước lượng càng cao.
  • Thông thường, có ít sự đa cộng tuyến giữa các biến giải thích khi sử dụng dữ liệu bảng hơn so với sử dụng riêng rẻ dữ liệu thời gian hoặc dữ liệu chéo. Điều này cũng có thể làm cho kết quả của việc ước lượng các tham số dữ liệu bảng chính xác hơn.

2. Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng sử dụng chéo hoặc dữ liệu thời gian.

Chẳng hạn, giả sử mục đích của chúng ta là ước lượng một hàm sản xuất để đánh giá lợi thế kinh tế theo quy mô và cải tiến công nghệ ở một ngành công nghiệp cụ thể.

  • Với dữ liệu chéo, chúng ta có thể dự báo được sự thay đổi công nghệ.
  • Với dữ liệu thời gian, chúng ta không thể tách riêng được lợi thế kinh tế theo quy mô từ sự thay đổi công nghệ. Để tách riêng lợi thế kinh tế theo quy mô từ sự thay đổi công nghệ, các nghiên cứu dữ liệu thời gian trong quá khứ đã giả định rằng lợi thế không đổi theo quy mô; Tuy nhiên, đây sẽ là một phương pháp rất không đáng tin cậy.
  • Với dữ liệu bảng, chúng ta có thể xác định và đo lường cả hai yếu tố lợi thế kinh tế theo quy mô và sự thay đổi công nghệ.