Thứ Năm, 7 tháng 3, 2013

Biểu đồ trong bài báo khoa học 1: nguyên tắc


InEmail
Read : 1809 times
http://kang3935.files.wordpress.com/2013/01/picture-22.pngMột trong những vấn đề hay thấy trong các bài báo khoa học ở Việt Nam là cách trình bày dữ liệu bằng biểu đồ. Những biểu đồ được thiết kế quá đơn giản (phần lớn là cắt và dán từ các phần mềm máy tính) và vi phạm hầu như bất cứ nguyên tắc nào của trình bày dữ liệu mà có lẽ tác giả chưa làm quen. Trong loạt bài này, tôi sẽ bàn qua những nguyên tắc trình bày dữ liệu trong biểu đồ.
Biểu đồ có một lịch sử phát triển rất thú vị. Trước thế kỉ 18, dữ liệu khoa học thường được trình bày bằng bảng số liệu (tables), và biểu đồ được xem là vô dụng. Nhưng quan điểm này rất ư là sai lầm. Năm 1786, William Playfair (một nhà kinh tế chính trị học) sáng chế ra biểu đồ thanh (bar chart) và biểu đồ đường dây (line graph) mà chúng ta vẫn còn sử dụng cho đến ngày nay. Năm 1801, Playfair lại sáng chế ra biểu đồ bánh mà sau này trở nên rất thông dụng trong giới kinh tế học và xã hội học. Mãi đến năm 1832, nhà thiên văn học người Anh là Alenander S. Herche sáng chế ra biểu đồ tán xạ (scatter plot) và trở thành rất phổ biến trong khoa học thực nghiệm.
http://charts6.excelcharts.com/blog/wp-content/uploads/2011/12/william-playfair-wheat-excel.png
Hình 5: Một biểu đồ thanh và đường dây của William Playfair vào năm 1786
Ngày nay, trong khoa học, biểu đồ là một phương tiện khám phá. Đó không phải là một phát biểu thậm xưng, mà là sự thật. Đứng trước một rừng dữ liệu với hàng triệu mẫu từ DNA và con số, nếu không có biểu đồ thì không cách gì rút ra được những qui luật trong kho tàng dữ liệu, không thể nào tìm được những mối tương quan, thậm chí không thấy được xu hướng phân bố. Do đó, biểu đồ đóng vai trò cực kì quan trọng trong nghiên cứu khoa học.
Không chỉ là một phương tiện khám phá, biểu đồ còn là một phương tiện để truyền đạt khám phá. Một biểu đồ nếu được thiết kế cẩn thận sẽ có hiệu quả rất lớn. Sách giáo khoa thường có những biểu đồ nổi tiếng đến mức có thể xem là lịch sử. Tương tự, trong những buổi giảng của các chuyên gia, chúng ta thấy có nhiều biểu đồ được trình bày nhiều lần ở nhiều nơi, vì đó là những biểu đồ thể hiện những phát hiện quan trọng trong khoa học. Đó là những biểu đồ đi vào kho tàng tri thức nhân loại như là những icon.
Với sự phát triển của máy tính và các chương trình phân tích dữ liệu, việc soạn thảo các biểu đồ càng ngày càng dễ dàng hơn. Thật vậy, chỉ cần một chương trình phổ biến như Excel, hay cao hơn một chút là chương trình phân tích thống kê (như SAS chẳng hạn), các nhà khoa học có thể tạo ra những biểu đồ hấp dẫn và đa dạng. Thế nhưng, ngạc nhiên thay, trong thực tế vẫn còn rất nhiều biểu đồ trong bài báo khoa học được thiết kế một cách rất cẩu thả, chẳng theo một qui tắt nào cả, và làm cho thông điệp của bài báo trở nên khó hiểu.
Ở Việt Nam, người viết bài này đã đọc nhiều luận án và bài báo khoa học, mà trong đó có những biểu đồ quá kém. Đó là những biểu đồ thiết kế quá sơ sài, chủ yếu là cắt và dán từ các chương trình máy tính như Excel. Tác giả cũng tỏ ra chẳng đầu tư thời gian và suy nghĩ để chuyển tải một thông điệp nào, mà chủ yếu là … làm cho có. Thậm chí, có người làm để đủ số trang mà một qui định lạ lùng (nếu không muốn nói là quái gở) nào đó đề ra. Có lần ti đọc một luận án tiến sĩ, mà trong đó cứ mỗi biến số (như số bệnh nhân theo nhóm tuổi) tác giả trình bày qua 3 hình thức: bảng số liệu, biểu đồ, và chữ viết. Cả ba hình thức dĩ nhiên chỉ nói lên một điểm. Do đó, nếu có 10 biến thì tác giả có 10 trang để mô tả, mà trong thực tế có lẽ chỉ cần 0.5 trang là đủ! Tôi ngạc nhiên hỏi tại sao tác giả lại trình bày như thế, thì được biết lí do đơn giản là muốn làm luận án đủ số trang.
Để minh hoạ cho những vấn đề biểu đồ, chúng ta thử xem qua vài biểu đồ hay thấy trong các bài báo khoa học ở Việt Nam dưới đây.
Hình 1: Biểu đồ bánh về một kết quả nghiên cứu
Trên đây là biểu đồ mô tả kết quả. Mỗi biểu đồ thật ra chỉ có 2 con số! Có thể nói là biểu đồ quá đơn giản, đơn giản đến nỗi người ta phải hỏi có cần đến một biểu đồ.
Hình 2: Biểu đồ bánh về hội chứng chuyển hoá
Biểu đồ này chẳng những nghèo nàn về số liệu (chỉ có 3 số liệu), mà còn tốn khá nhiều mực in và cả màu.
Hình 3: Biểu đồ về tỉ lệ bệnh nhân chia theo nhóm có hay không có hội chứng chuyển hoá (hình trên) và theo nhóm tuổi (hình dưới)
Hai biểu đồ trên cũng nghèo nàn về số liệu và chẳng cung cấp thông gì gì quan trọng.
Hình 4: Biểu đồ thể hiện các biến số antiHBs
Biểu đồ này rất khó đọc, một phần là do phông chữ quá nhỏ, một phần là do chọn các bar để thể hiện dữ liệu. Toàn cảnh xem ra rất mù mờ.
Những biểu đồ như trình bày trên thật ra khá phổ biến trên các tập san khoa học trong nước. Có thể nói rằng phần lớn biểu đồ không cung cấp thông tin liên quan hay quan trọng cho thông điệp của bài báo. Đại đa số biểu đồ được soạn một cách hời hợt, làm cho người đọc cảm thấy tác giả hình như chẳng đầu tư vào việc suy nghĩ và thiết kế. Thật ra, trong thực tế, phần lớn các biểu đồ trên các tập san khoa học ở VN là cắt và dán trực tiếp từ các phần mềm như Excel hay phần mềm thống kê. Chính vì thế mà khi đọc những biểu đồ, có nhiều kí hiệu, cách diễn tả rất khó hiểu (lẫn lộn giữa tiếng Anh và tiếng Việt). Một bài báo khoa học với những biểu đồ như thế rất khó có cơ may được chấp nhận cho công bố trên các tập san quốc tế.
Nguyên tắc soạn biểu đồ
Biểu đồ là một cách trình bày dữ liệu khoa học rất hữu hiệu. Người Trung Hoa từng có câu một hình ảnh có giá trị tương đương với một vạn chữ. Thật vậy, đối phó với một rừng số liệu thu thập từ thí nghiệm, vấn đề đặt ra là làm sao khai thác những số liệu này một cách hữu hiệu nhất. Hữu hiệu ở đây phải hiểu là chuyển tải thông tin sao cho cho người xem cảm thấy dễ lĩnh hội nhất. Có ba cách để thể hiện dữ liệu khoa học: dùng chữ viết, bảng số liệu, và biểu đồ. Chữ viết chỉ có thể sử dụng cho những dữ liệu rất đơn giản, chứ không thể hiện được tất cả những xu hướng và dao động của dữ liệu. Bảng số liệu có thể sử dụng cho trường hợp tóm lược những thông tin mang tính chính xác cao. Nhưng biểu đồ có thể sử dụng để chuyển tải những thông điệp về mức độ ảnh hưởng và xu hướng biến thiên của dữ liệu. Do đó, đứng trước quyết định chọn hình thức để thể hiện dữ liệu, biểu đồ phải và nên xem là một hình thức số 1.
Để thiết kế biểu đồ một cách hữu hiệu, cần phải làm quen với cái tên Edward Tufte, vì ông là mộtguru về biểu đồ. Ông là giáo sư thống kê học của Đại học Yale, giáo sư chính trị học, và giáo sư khoa học máy tính (cũng tại Yale), là người đã có ảnh hưởng cực kì lớn đến lĩnh vực trình bày dữ liệu bằng biểu đồ, qua những công trình có thể nói là đặt nền tảng cho lĩnh vực này (có khi được đề cập đến như là data visualization). Ông là người dám thuế chấp căn nhà mình cho ngân hàng để vay một số tiền làm nghiên cứu và cho ra công trình về data visualization mà sau này ông không bao giờ hối hận (vì quá thành công về tài chính!) Báo New York Times gọi ông là Leonardo Da Vinci of Data.
Edward Tufte đặt ra triết lí và 4 nguyên tắc trong trình bày dữ liệu bằng biểu đồ. Triết lí của thể hiện dữ liệu có thể tóm lược trong câu sau đây: “Graphical excellence is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space” (tạm dịch: triết lí của trình bày dữ liệu bằng biểu đồ là cung cấp cho người xem một lượng thông tin cao nhất trong một thời lượng nhỏ nhất với lượng mực in thấp nhất trong một không gian nhỏ nhất). Như vậy, khi trình bày dữ liệu bằng biểu đồ, cần phải chú ý đến 4 khía cạnh: lượng thông tin, thời gian, lượng mực in, và không gian. Triết lí này có thể xem như là một triết lí hà tiện, tốn ít tài lực nhất để có nhiều thông tin nhất. Để đạt được triết lí đó, Tufte đặt ra 4 nguyên tắc: phản ảnh dữ liệu một cách đầy đủ, tối ưu hoá tỉ số dữ liệu trên mực in, tối ưu hoá mật độ dữ liệu, và trình bày dữ liệu chứ không phải trang trí biểu đồ.
http://ed-informatics.org/wp-content/uploads/2010/03/Tufte-Graphical-Excellence.jpg
Nói lên sự thật về dữ liệu. Mục tiêu của bất cứ biểu đồ nào cũng là chuyển tải thông tin đến người đọc, và do đó, biểu đồ cần phải nói lên sự thật của dữ liệu. Sự thật ở đây có nghĩa là những dao động của dữ liệu trong mỗi hay giữa các nhóm so sánh. Chẳng hạn như một biểu đồ thanh (bar chart) trình bày số trung bình về huyết áp giữa nhóm can thiệp và nhóm chứng là chưa phản ảnh sự thật của dữ liệu, bởi vì chúng ta biết rằng huyết áp của các cá nhân trong mỗi nhóm dao động khá lớn. Do đó, một biểu đồ có ý nghĩa hơn là biểu đồ hộp (box plot), hay tốt hơn nữa là biểu đồ hộp cộng với những số liệu cho từng cá nhân trong mỗi nhóm.
Tối đa hoá tỉ số dữ liệu trên mực in. Trong một biểu đồ có số liệu và mực in. Mục tiêu của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt so với lượng mực in. Những biểu đồ bánh (pie chart) mà tôi vừa trình bày trên đây cho thấy số liệu rất ít so với lượng mực in (thậm chí có biểu đồ còn dùng cả hai màu!) Những biểu đồ này, vì thế, có tỉ số dữ liệu trên số mực in quá thấp.
Tối đa hoá mật độ dữ liệu. Mật độ dữ liệu có thể ước tính bằng cách lấy lượng số liệu chia cho diện tích của biểu đồ. Nguyên tắc quan trọng trong trình bày dữ liệu là phải tối đa hoá tỉ số này. Các biểu đồ trình bày trên đây có mật độ dữ liệu rất thấp, và do đó, chưa đạt yêu cầu của một biểu đồ có chất lượng cao.
Trình bày dữ liệu một cách đầy đủ, không phải trang trí biểu đồ. Có những biểu đồ mà tác giả trình bày số liệu qua những hình thức rất khác nhau. Biểu đồ sau cùng trong số 4 biểu đồ tôi lấy ra làm ví dụ trên đây cho thấy chỉ là một dữ liệu cho nhiều nhóm, nhưng tác giả cố gắng thể hiện mỗi nhóm một khác. Trong trường hợp này, có thể nói rằng tác giả chịu khó trang trí cho biểu đồ hơn là làm cho số liệu được phản ảnh một cách đầy đủ.
Trong phần sau đây, tôi sẽ bàn qua về những chỉ số phản ảnh 4 nguyên tắc trên. Đó là những chỉ số liên quan đến yếu tố gian dối (lie factor), tỉ số dữ liệu trên mực in, mật độ dữ liệu, và tính nhất quán trong cách trình bày. Tôi cũng sẽ lấy vài ví dụ để minh hoạ cho những loại biểu đồ mà Edward Tufte gọi là rác rưởi (junk chart) từ báo chí Việt Nam.
(còn tiếp …)
Tham khảo và đọc thêm:
Wainer H. Graphical discovery: a trout in the milk and other visual adventures. Princeton, NJ: Princeton University Press, 1997.
Tufte ER. The visual display of quantitative information (2nd Ed). Cheshire, CT: Graphics Press, 2001.
Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977.

Không có nhận xét nào: