Phân biệt và cách dùng các loại biểu đồ

 Quá nhiều dữ liệu thì việc trực quan dữ liệu là một chuyện quan trọng để cảm nhận nhanh bức tranh tổng thể của dữ liệu. 

Khi cần nhìn tổng thể về phân số dữ liệu, chúng ta có ba loại tối ưu:

1/ Histogram: Thể hiện tần số dạng cột. Biểu đồ này trả lời câu hỏi về kiểu phân bố dữ liệu, độ rộng dữ liệu, dữ liệu đối xứng hay không, có dữ liệu nằm ngoài.

Ví dụ: Biểu đồ sự phân bố bệnh nhân covid-19 theo ngày xét nghiệm. 

(A) COVID-19 bệnh nhân có phản ứng PCR dương tính tái phát 

(B) Tập hợp con (N = 40) của nhóm ca bệnh đã được thực hiện xét nghiệm kháng thể IgM và IgG ở lần xuất viện đầu tiên.



2/ Boxplot: Tóm tắt thống kê gồm giá trị max, min, lower quartile, up quartile, mean ( giá trị nhỏ nhất, lớn nhất, bách phân vị 25%, bách phân vị 75%, trung bình)

Số phân tử hay còn gọi là tứ phân vị (Quartiles): Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Số phân tử có 3 giá trị, đó là số phân tử thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3). Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.



Khoảng biến thiên số phân tử (Interquartile Range - IQR) IQR được xác định như sau:


Ví dụ: Boxplot của COVID-19 trường hợp theo cụm. Biểu đồ thể hiện giá trị trung vị (đường bên trong hộp), Q1 (đường biên dưới của hộp), Q3 (đường biên trên của hộp), giá trị tối đa và tối thiểu (đường thẳng đứng) và giá trị ngoại lai (các dấu chấm). Biểu đồ này cho thấy đô thị "MadridCity" có tỷ lệ nhiễm trùng cao nhất. Cụm "Madrid-Surroundings" có một số lượng lớn các ngoại lệ. 




3/ Biểu đồ Time series: Dãy số thời gian (Time Series) là dãy các trị số của chỉ tiêu thống kê được sắp xếp theo thứ tự thời gian. Một dãy số thời gian có hai thành phần đó là thời gian và chỉ tiêu của hiện tượng nghiên cứu.

Dự báo tốc độ tăng trưởng kinh tế Việt Nam của một số tổ chức quốc tế. Trong kịch bản xấu nhất, tốc độ tăng trưởng của đất nước thấp hơn so với cuộc suy thoái kinh tế năm 1986 sau một chính sách tiền tệ thất bại


Khi cần so sánh, giá trị của biến, ta dùng bốn loại biểu đồ:
1/ Bar chart ( bar plot)  biểu đồ cột (tên khác là Column chart). So sánh (giá trị) của nhiều biến, hoặc cần thấy tầng số dữ liệu. Mỗi thanh trong biểu đồ thể hiện tương ứng với một giá trị. Có 2 dạng biểu đồ thanh: dạng thanh đứng (vertical bar) và dạng thanh ngang (horizontal bar).

2/Line chart: biểu đồ đường kẻ. So sánh giá trị một biến thay đổi
theo thời gian. Các line chart thường được dùng để hiển trị các giá trị định lượng (quantitative values) trong khoản thời gian liên tục. Trục x (x-axis) biểu diễn thời gian, trục y (y-axis) biểu diễn giá trị của biến cần quan sát. 
Đang tải lên: Đã tải 16588/16588 byte lên.


3/ Vertical bar chart: biểu đồ thanh đứng. Trường hợp mốc thời gian ít
(dưới 10)


4/ Radar chart (tên khác là Spider chart): biểu đồ mạng nhện.So sánh nhiều biến hoặc nhiều nhóm. Radar chart có nhiều tên khác như spider chart (biểu đồ mạng nhện – do nó giống cái mạng nhện), hoặc web chart. Radar chart thể hiện nhiều biến trên một đa giác. Mỗi giá trị của biến tương ứng với mỗi đỉnh của đa giác. Radar chart cũng hữu ích khi cần hiển thị giá trị cao/thấp trong tập dữ liệu.

Khi cần nhận biết sự tương quan giữa hai hoặc nhiều biến, ta chú ý ba loại biểu đồ:
1/ Plot (dữ liệu của 2 biến lên 2 trục của biểu đồ). Tương quan giữa 2 biến Plot (dữ liệu của 2 biến lên 2 trục của biểu đồ).

Scatterplot Tương quan giữa 2 biến trong đó có chia theo nhóm. Scatter plot thể hiện các điểm (point) của hai biến số, hoặc nói cách khác là giá trị của một biến được thể hiện trong mối tương quan của hai trục x và y. Biểu đồ này cũng rất hữu ích khi cần quan sát mối tương quan giữa hay nhiều biến số trong nhiều
nhóm.




Scatterplot nhiều biến. Tương quan giữa nhiều biến. Scatterplot Các yếu tố xã hội quyết định sức khỏe và sự khác biệt về không gian đối với sức khỏe quan hệ giữa tỷ lệ trường hợp COVID-19 và tình trạng kinh tế xã hội trên các khu vực lân cận Montreal.


Nhận xét

Bài đăng phổ biến từ blog này

Thương mại hoá y tế

Các IDE hỗ trợ lập trình viên Python

CÁCH XỬ LÝ FILE trong Python