Tải dữ liệu kinh tế từ WB, IMF, OECD trên Stata
Tải và cập nhật dữ liệu tự động trên Stata với sdmxuse
Cấu trúc dữ liệu
Mỗi cơ quan thống kê có một kho dữ liệu riêng với hàng trăm bộ dữ liệu. Người dùng có thể tìm thấy một tập dữ liệu cụ thể bằng cách xem xét “định nghĩa luồng dữ liệu, dataflow” chứa mô tả dữ liệu cùng với mã định danh của tập dữ liệu . Chẳng hạn: tập dữ liệu RPOP từ kho lưu trữ OECD chứa dữ liệu nhân khẩu học. Nhưng các bộ dữ liệu thường khá lớn, trong khi nhu cầu người dùng có thể chỉ cần một vài chuỗi (ví dụ: dữ liệu dân số với các đặc điểm cụ thể, chẳng hạn như nữ từ 20–24 tuổi). Đây là lý do tại sao các cơ quan thống kê đã thực hiện một dịch vụ cơ sở dữ liệu có khả năng xử lý các truy vấn cụ thể. Vì vậy, cần thiết phải hiểu cấu trúc dữ liệu dễ dàng tải xuống những chuỗi quan tâm và tiết kiệm thời gian xử lý.
Các tập dữ liệu được sắp xếp theo các chiều. Thật hữu ích khi nghĩ về tổ chức này như một khối lập phương, một cấu trúc thường được sử dụng để lưu trữ dữ liệu. Mỗi mặt của khối lập phương tương ứng với một chiều và sự kết hợp của các giá trị cho tất cả các chiều cho một mã định danh duy nhất (được gọi là khóa) cho mỗi ô của khối lập phương. Hình 1 minh họa khối lập phương cấu trúc của RPOP tập dữ liệu với ba chiều: tuổi, giới tính và quốc gia. Lợi ích chính của việc tổ chức dữ liệu theo cấu trúc hình khối là nó cho phép người dùng chỉ lấy một tập hợp con của dữ liệu có trong một vài ô. Trong hình 1, chúng ta có thể “cắt” khối lập phương bằng cách xử lý một truy vấn cụ thể để chỉ lấy tổng số phụ nữ ở độ tuổi từ 20 đến 24 ở 4 nước OECD.
Tổng số ô của khối lập phương trong ví dụ này thực tế là 6,498, tương ứng đối với tất cả các điểm giao cắt có thể có của các biến: nhóm tuổi (38) × quốc gia (57) × giới tính (3). Nhưng các chiều mới vẫn có thể được thêm vào (ví dụ: trình độ học vấn hoặc việc làm trạng thái). Điều đó có nghĩa, đây là một cấu trúc đa chiều để lưu trữ dữ liệu.
Theo giải thích ở trên, chúng tôi hiểu rằng người dùng phải xác định các chiều của một tập dữ liệu nhất định trước khi có thể thực hiện một truy vấn cụ thể. Để đạt được mục tiêu này, tiêu chuẩn SDMX cung cấp các mô tả (metadata) về cách tổ chức của tập dữ liệu dưới dạng dạng tệp định nghĩa cấu trúc dữ liệu (DSD, Data Structure Definition). Sau đó cung cấp thông tin về số chiều (được gọi là các thuật ngữ, concepts) của tập dữ liệu, thứ tự của các chiều, và các giá trị (được gọi là “mã, codes”) cho mỗi chiều.
Trong ví dụ về tập dữ liệu RPOP, tệp định nghĩa cấu trúc dữ liệu, DSD cho thấy rằng nó được tổ chức theo bốn khái niệm, cụ thể là COUNTRY, DAGEGR, DSEX và DSTATUS. Mỗi khái niệm này bao gồm một vài giá trị (mã). Ví dụ: khái niệm COUNTRY lưu trữ các mã quốc gia, trong khi khái niệm DAGEGR xác định các nhóm tuổi. Tuy nhiên, lưu ý rằng DSD không đưa ra bất kỳ đảm bảo nào về sự sẵn có của dữ liệu và đôi khi tập dữ liệu có thể là một khối rỗng (trống dữ liệu ở một vài ô). Ví dụ: trong tập dữ liệu RPOP, không có sẵn dữ liệu cho trẻ em trai và trẻ em gái từ 10 đến 14 tuổi ở Sri Lanka.