Home | KTL cơ bản | Đồ thị histogram

Đồ thị histogram

Histogram là gì?

Histogram là một dạng đồ thị cho phép bạn khám phá, hiển thị dạng phân phối tần suất của một tập dữ liệu liên tục. Nó cho phép chúng ta kiểm tra dạng phân phối (chẳng hạn, phân phối chuẩn), điểm dị biệt, độ trôi, độ nhọn của tập dữ liệu. Một đồ thị dạng histogram của một tập dữ liệu có dạng như hình sau:
Đồ thị histogram

Giả sử, chúng ta có một tập dữ liệu về tuổi của 20 quan sát như sau:

36     25     38     46     55     68     72     55     36     38
67     45     22     48     91     46     52     61     58     55

Xây dựng đồ thị histogram cho một biến liên tục như thế nào?

Để xây dựng đồ thị histogram từ một biến liên tục, việc đầu tiên là cần phải chuyển dữ liệu sang dạng khoảng (interval), mà chúng ta gọi là các ngăn (bins). Trong ví dụ trên, biến tuổi được chia thành các bins, mỗi bin đại diện cho một nhóm tuổi (cách nhau 10 tuổi và bắt đầu từ 20). Mỗi bin gồm có số các quan sát thỏa mãn điều kiện của bin xuất hiện trong tập dữ liệu.

Thông tin của mẫu dữ liệu trên được thể hiện dưới dạng các bins như sau:

   Bin          Tần số                   Các quan sát (tuổi)
20-30              2                                      25, 22
30-40              4                              36, 38, 36, 38
40-50              4                              46, 45, 48, 46
50-60              5                         55, 55, 52, 58, 55
60-70              3                                  68, 67, 61
70-80              1                                          72
80-90              0                                            –
90-100            1                                          91

Chọn bề rộng hợp lý cho các bins như thế nào?

Không có câu trả lời đúng hay sai về độ rộng của các bins, nhưng có một vài quy tắc kinh nghiệm về vấn đề này. Chúng ta cần đảm bảo rằng các bins là không được quá nhỏ hoặc quá lớn như các dạng sau:
Đồ thị histogram

Chúng ta có thể thấy rằng, ở đồ thị histogram bên trái thì độ rộng của bin là quá nhỏ bởi vì nó cho thấy quá nhiều các dữ liệu riêng rẻ và không thể hiện được dạng phân phối của tập dữ liệu. Ở phía ngược lại, ở đồ thị histogram bên phải thì các bins quá lớn và chúng ta cũng không thể phát hiện được dạng phân phối của dữ liệu.

Các đồ thị histogram dựa vào diện tích chứ không phải là chiều cao của các thanh

Đối với đồ thị histogram, phần diện tích của thanh thể hiện tần số xuất hiện của mỗi bin. Điều này có nghĩa rằng chiều cao của thanh không cần thiết thể hiện số lần xuất hiện của mỗi quan sát trong mỗi bin. Tích số giữa chiều cao và chiều rộng của bin sẽ cho biết tần số xuất hiện của mỗi bin.

NHẬN XÉT VỀ ĐỒ THỊ HISTOGRAM

không giống đồ thị thanh (bar chart) đồ thị histogram không có các khoảng trống (gaps) giữa các thanh (mặc dù một vài thanh có thể có khoảng trống vì tần suất xuất hiện của nó bằng 0). Điều này bởi vì, đồ thị histogram đặc trưng cho một dữ liệu liên tục. Ngoài ra, sự khác nhau chủ yếu giữa đồ thị histogram và đồ thị thanh (bar) là đồ thị histogram chỉ sử dụng để hiển thị tần số xuất hiện của các quan sát trong tập dữ liệu liên tục mà tập dữ liệu này được chia thành các khoảng (lớp) được gọi là các bins. Ngược lại, các đồ thị dạng thanh có thể được sử dụng cho các tập dữ liệu thuộc kiểu khác như thứ tự (ordinal) và định danh (nominal).