Phân biệt và cách dùng các loại biểu đồ
Quá nhiều dữ liệu thì việc trực quan dữ liệu là một chuyện quan trọng để cảm nhận nhanh bức tranh tổng thể của dữ liệu.
Khi cần nhìn tổng thể về phân số dữ liệu, chúng ta có ba loại tối ưu:
1/ Histogram: Thể hiện tần số dạng cột. Biểu đồ này trả lời câu hỏi về kiểu phân bố dữ liệu, độ rộng dữ liệu, dữ liệu đối xứng hay không, có dữ liệu nằm ngoài.
Ví dụ: Biểu đồ sự phân bố bệnh nhân covid-19 theo ngày xét nghiệm.
(A) COVID-19 bệnh nhân có phản ứng PCR dương tính tái phát
(B) Tập hợp con (N = 40) của nhóm ca bệnh đã được thực hiện xét nghiệm kháng thể IgM và IgG ở lần xuất viện đầu tiên.
2/ Boxplot: Tóm tắt thống kê gồm giá trị max, min, lower quartile, up quartile, mean ( giá trị nhỏ nhất, lớn nhất, bách phân vị 25%, bách phân vị 75%, trung bình)
Số phân tử hay còn gọi là tứ phân vị (Quartiles): Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Số phân tử có 3 giá trị, đó là số phân tử thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3). Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Ví dụ: Boxplot của COVID-19 trường hợp theo cụm. Biểu đồ thể hiện giá trị trung vị (đường bên trong hộp), Q1 (đường biên dưới của hộp), Q3 (đường biên trên của hộp), giá trị tối đa và tối thiểu (đường thẳng đứng) và giá trị ngoại lai (các dấu chấm). Biểu đồ này cho thấy đô thị "MadridCity" có tỷ lệ nhiễm trùng cao nhất. Cụm "Madrid-Surroundings" có một số lượng lớn các ngoại lệ.
Dự báo tốc độ tăng trưởng kinh tế Việt Nam của một số tổ chức quốc tế. Trong kịch bản xấu nhất, tốc độ tăng trưởng của đất nước thấp hơn so với cuộc suy thoái kinh tế năm 1986 sau một chính sách tiền tệ thất bại
1/ Bar chart ( bar plot) biểu đồ cột (tên khác là Column chart). So sánh (giá trị) của nhiều biến, hoặc cần thấy tầng số dữ liệu. Mỗi thanh trong biểu đồ thể hiện tương ứng với một giá trị. Có 2 dạng biểu đồ thanh: dạng thanh đứng (vertical bar) và dạng thanh ngang (horizontal bar).
theo thời gian. Các line chart thường được dùng để hiển trị các giá trị định lượng (quantitative values) trong khoản thời gian liên tục. Trục x (x-axis) biểu diễn thời gian, trục y (y-axis) biểu diễn giá trị của biến cần quan sát.
(dưới 10)
4/ Radar chart (tên khác là Spider chart): biểu đồ mạng nhện.So sánh nhiều biến hoặc nhiều nhóm. Radar chart có nhiều tên khác như spider chart (biểu đồ mạng nhện – do nó giống cái mạng nhện), hoặc web chart. Radar chart thể hiện nhiều biến trên một đa giác. Mỗi giá trị của biến tương ứng với mỗi đỉnh của đa giác. Radar chart cũng hữu ích khi cần hiển thị giá trị cao/thấp trong tập dữ liệu.
Khi cần nhận biết sự tương quan giữa hai hoặc nhiều biến, ta chú ý ba loại biểu đồ:
1/ Plot (dữ liệu của 2 biến lên 2 trục của biểu đồ). Tương quan giữa 2 biến Plot (dữ liệu của 2 biến lên 2 trục của biểu đồ).
nhóm.
Nhận xét
Đăng nhận xét