Thứ Ba, ngày 19 tháng 3 năm 2013

Lại nói về trị số P (trong khoa học)


In Email
Read : 51 times Báo New York Times (Thời báo New York) mới đi một bài viết ngắn về trị số P trong mục Take a number. Trị số P, theo tôi thấy, là một con số có ảnh hưởng cực kì lớn trong khoa học và đời sống chúng ta. Thuốc chúng ta dùng, những khám phá khoa học quan trọng (kể cả hạt Higgs), những mối liên quan trong khoa học xã hội, v.v. tất cả đều dựa trên trị số P. Thế nhưng ít người hiểu ý nghĩa của nó là gì, và do đó thường bị hiểu sai. Tiêu biểu cho sự hiểu sai là bài viết trên tờ New York Times
Nhưng trước khi giải thích tại sao bài báo trên NYT sai, tôi muốn có vài lời về báo chí phổ thông. Dù sống ở Úc, nhưng tôi lại thích đọc tờ New York Times (NYT) hơn là Sydney Morning Herald. Lí do đơn giản là vì NYT là tờ báo rất hay và phong phú. Tờ báo không chỉ đưa tin thời sự, chính trị, xã hội, kinh tế, mà còn tin tức khoa học và đặc biệt là y khoa. Không giống như những tờ báo làng nhàng, những bản tin và bình luận về khoa học và y khoa trên NYT được viết một cách chuyên sâu vừa đủ để người ngoài khoa học có thể hiểu được. Tôi chưa thấy báo phổ thông nào, kể cả báo Úc, có một vị trí đáng kính như NYT. Nếu nghĩ đến một tờ báo hay về khoa học, tôi chỉ nghĩ đến tờ The Guardian (Anh), chứ Úc thì không thể nào so sánh được.

NYT có khả năng làm việc đưa tin một cách hữu hiệu là vì họ có một đội phóng viên rất chuyên nghiệp. Một số phóng viên thật ra là bác sĩ và nhà khoa học chuyên nghiệp. Ngoài ra, họ còn có những nhà khoa học nổi tiếng cộng tác và viết bài. Một trong những bác sĩ viết văn cực kì hay mà tôi rất thích đọc là Atul Gawande, một bác sĩ phẫu thuật gốc Ấn Độ và giáo sư y khoa của Harvard. Nếu bạn nào (kể cả ngoài ngành y) chưa đọc Gawande, tôi đề nghị các bạn nên tìm đọc cuốn Complication để thấy văn tài của Gawande như thế nào, và cái nhân trong nhà khoa học đáng nể này.
Dĩ nhiên, là báo phổ thông, nên thỉnh thoảng những bản tin và bình luận trên NYT không hẳn chính xác hay hoàn đúng theo tinh thần khoa học. Chẳng hạn như bài dưới đây. Vì bài viết ngắn nên tôi lược dịch để dễ theo dõi:

Đặt một giá trị “thật” cho nghiên cứu y khoa
Khi các nhà nghiên cứu y khoa báo cáo kết quả nghiên cứu, họ cần phải biết những kết quả đó là tác động thật của những gì họ thử nghiệm, hay chỉ là một biến cố ngẫu nhiên. Để trả lời câu hỏi này, họ thường sử dụng trị số P.
Trị số P (viết tắt của chữ probability) là kết quả của một quá trình tính toán phức tạp nhằm định lượng xác suất mà kết quả của một thí nghiệm không phải do yếu tố ngẫu nhiên. Không thể nào loại bỏ khả năng một kết quả có được là do yếu tố ngẫu nhiên, nhưng đối với các nhà nghiên cứu y khoa, trị số P được chấp nhận như là một thước đo để đánh giá một thuốc hay liệu pháp điều trị đang được nghiên cứu có hiệu quả hay không. Theo qui ước, những kết quả với trị số P cao hơn 0.05 có thể xem là do yếu tố ngẫu nhiên, bất kể kết quả tốt hay xấu ra sao.
Hiểu đúng ý nghĩa của trị số P là một sự phức tạp. Cần có tinh tế để diễn giải trị số P. Có nhiều người chỉ trích cái qui ước 0.05 vì nhiều lí do khác nhau. Nhưng cũng đủ để nói rằng trị số P cung cấp một mức độ bảo kê, chứ không phải là sự chắc chắn. Sự chắc chắn rất khó đạt được trong nghiên cứu y khoa.  

Trong khoa học thực nghiệm tôi nghĩ trị số P đóng vai trò cực kì quan trọng. Hầu như bất cứ một lĩnh vực nghiên cứu nào cũng sử dụng trị số P để suy luận. Trong nghiên cứu y khoa, trị số P càng quan trọng hơn nữa, vì nó như là một tờ giấy thông hành để công bố những phát hiện trong nghiên cứu. Làm sao chúng ta có thể biết thuốc nào có hiệu quả hơn thuốc nào, làm sao biết được ăn gạo trắng có lợi hay hại cho sức khoẻ, làm sao để biết gene nào có liên quan đến tử vong, v.v. tất cả đều có thể trả lời qua nghiên cứu thực nghiệm, và thước đo sau cùng của những nghiên cứu này chính là trị số P.  



Một kết quả nghiên cứu với trị số P < 0.05 được xem như là có giấy thông hành để xuất bản

Thế nhưng trị số P rất dễ bị hiểu lầm. Sự hiểu lầm về ý nghĩa của trị số P cũng thể hiện qua bài báo trên NYT. Trong bài báo trên, tác giả giải thích rằng “Trị số P (viết tắt của chữ probability) là … xác suất mà kết quả của một thí nghiệm không phải do yếu tố ngẫu nhiên.” Nhưng rất tiếc, đó là một hiểu lầm.
Cứ mỗi lần giảng về y học thực chứng, tôi đều dành ra một bài để giải thích ý nghĩa của trị số P. Tôi sẽ giải thích qua một ví dụ như sau: giả dụ tôi so sánh 2 loại thuốc dùng cho điều trị loãng xương (tạm gọi là thuốc A và B). Sau 3 năm theo dõi, số bệnh nhân được điều trị bằng thuốc A có tỉ lệ gãy xương là 5%, và số bệnh nhân dùng thuốc B có tỉ lệ gãy xương 3%. Vấn đề đặt ra là sự khác biệt mà tôi quan sát trên có phải do ngẫu nhiên hay do ảnh hưởng của thuốc?
Câu hỏi ngẫu nhiên là có lí do. Lí do là vì tôi chọn bệnh nhân một cách ngẫu nhiên, và tôi cũng chia nhóm bệnh nhân một cách ngẫu nhiên. Nên rất có thể quá trình ngẫu nhiên hoá có vấn đề nên hai nhóm không tương đương nhau. Chẳng hạn như bệnh nhân nhóm A có thể có một yếu tố nào đó [mà tôi không biết] có liên quan đến hiệu quả của thuốc, và chính yếu tố này giải thích sự khác biệt giữa hai nhóm. Do đó, chỉ khi nào tôi loại bỏ yếu tố ngẫu nhiên thì tôi mới có đủ tin tưởng để kết luận rằng sự khác biệt giữa hai nhóm là có thể do thuốc, hay do yếu tố sinh học.
Thử nghiệm thuốc, hay nghiên cứu thực nghiệm và can thiệp nói chung, cũng giống như qui trình xét xử trong toà án. Tôi nói toà án phương Tây, chứ không phải toà án bên Việt Nam. Trong toà án, một cá nhân được xem là vô tội cho đến khi được chứng minh là có tội (innocent until proven guilty). Tương tự, khi tôi thử hai loại thuốc, tôi phải bắt đầu bằng một giả định (thật ra là giả thuyết trong trường hợp này) rằng hai loại thuốc này có hiệu quả như nhau, cho đến khi dữ liệu cho thấy chúng khác nhau.
Cũng như trong toà án, khái niệm chứng minh có khi rất ư là mù mờ. Nhưng bồi thẩm đoàn phải tin rằng họ đã có những chứng cứ không còn nghi ngờ gì nữa (beyond a reasonable doubt) để kết tội một cá nhân. Trong y khoa, trị số P là một tóm tắt cho chúng ta biết hiệu quả (hay sự khác biệt giữa hai thuốc) là thật, là không còn nghi ngờ gì nữa. Chúng ta không muốn kết luận rằng thuốc B có hiệu quả hơn thuốc A nếu trong thực tế hai loại thuốc này có hiệu quả như nhau.
Giả dụ rằng sau khi phân tích và so sánh hai nhóm bệnh nhân, tôi có được trị số P = 0.01. Câu hỏi đặt ra là ý nghĩa của con số này là gì? Theo giải thích của tác giả bài trên NYT, con số này có nghĩa là xác suất mà tôi có được kết quả trên một cách ngẫu nhiên là 1% (vì lấy P = 0.01 nhân cho 100). Xin nhắc lại rằng “kết quả trên” ở đây có nghĩa là khác biệt 2% (hay khác biệt giữa 5% và 3%). Nói cách khác, theo cách hiểu này, xác suất hai loại thuốc này có hiệu quả khác nhau là 99%. Nếu tôi gọi H0 là giả thuyết hai thuốc giống nhau thì cách hiểu trên có nghĩa là P(H0) = 0.01.
Nhưng cách hiểu này sai. Cách hiểu đúng thì phức tạp hơn một chút. Phức tạp hơn là vì chúng ta cần một vế khác nữa: đó là dữ liệu. Có thể xem độ khác biệt giữa hai nhóm là dữ liệu, và gọi kí hiệu là D. Trị số P có nghĩa là xác suất mà tôi quan sát D [hay lớn hơn D] nếu hai thuốc này không khác nhau là 1%. Nói cách khác, trị số P thật sự là một xác suất có điều kiện:
P(D | H0) = 0.01
Có lẽ tôi phải giải thích thêm để dễ hiểu hơn. Khởi đầu, tôi cho rằng hai loại thuốc A và B có hiệu quả như nhau. Nói theo ngôn ngữ khoa học, đó là giả thuyết vô hiệu hay H0. Giả dụ rằng tôi thực hiện 100 nghiên cứu, và mỗi nghiên cứu, tôi chọn bệnh nhân và phân nhóm bệnh nhân một cách ngẫu nhiên. Giá trị P = 0.01 có nghĩa là trong 100 nghiên cứu đó, có 1 nghiên cứu cho thấy thuốc B tốt hơn A. Nói cách khác, nếu thuốc A và B thật sự có hiệu quả như nhau, thì trong 100 nghiên cứu sẽ có 1 nghiên cứu cho thấy B > A.
Do đó, ý nghĩa của trị số P không phải dễ hiểu. Không dễ hiểu vì nó mang tính phản chứng (proof of contradiction) theo mô hình:
  • Nếu A và B như nhau thì dữ liệu D không thể xảy ra (dữ liệu D là tỉ lệ gãy xương nhóm A cao hơn nhóm B);
  • Nhưng D xảy ra;
  • Do đó, A và B không giống nhau.
Đây chính là mấu chốt của vấn đề về trị số P. Đó là cách diễn giải ngược với thực tế khoa học. Trong thực tế, chúng ta muốn biết với kết quả hay dữ liệu D mà tôi đang có, xác suất giả thuyết H0 đúng là bao nhiêu (chứ tôi không muốn biết nếu H0 là đúng thì xác suất mà tôi quan sát được D là bao nhiêu). Ngoài ra, trị số P còn có nhiều khiếm khuyết khác mà tôi đã bàn qua trước đây.
Tuy trị số P rất phổ biến trong khoa học, nhưng cũng có người nói rằng chính nó cũng là một cản trở cho khoa học. Trong vòng 50 năm qua, nhiều người đã muốn đánh đổ trị số P trong khoa học, nhưng cho đến nay chưa ai thành công được vì chưa có cách nào thay thế tốt hơn và khách quan hơn. Nhưng thế kỉ 21 sẽ có một phương pháp tốt hơn: đó là phương pháp suy luận Bayes. Nhưng đây là một đề tài khác mà tôi sẽ quay lại trong một lần sau.
N.V.T
===

http://www.nytimes.com/2013/03/12/science/putting-a-value-to-real-in-medical-research.html?_r=0
Putting a Value to ‘Real’ in Medical Research
By NICHOLAS BAKALAR
Published: March 11, 2013
When medical researchers report their findings, they need to know whether their result is a real effect of what they are testing, or just a random occurrence. To figure this out, they most commonly use the p-value.
This number (the p stands for probability) is arrived at through a complex calculation designed to quantify the probability that the results of an experiment were not due to chance. The possibility of a random result can never be completely eliminated, but for medical researchers the p-value is the accepted measure of whether the drug or procedure under study is having an effect. By convention, a p-value higher than 0.05 usually indicates that the results of the study, however good or bad, were probably due only to chance.
There is considerable complexity in understanding the meaning of the p-value, and many subtleties in interpreting it. For various good reasons, the 0.05 convention has its detractors. But it is enough to say that a p-value provides a degree of assurance, not certainty. In medical research, certainty is very hard to come by.
Nguon nguyenvantuan.net

Mười nguyên lí để tăng khả năng công bố bài báo khoa học (2)


In Email
http://twistedphysics.typepad.com/cocktail_party_physics/images/001_income_1.jpgTrong phần trước, tôi đã trình bày 5 nguyên lí để nâng cao cơ may được công bố quốc tế. Đó là 5 nguyên lí liên quan đến cách cấu trúc bài báo một cách logic, cách viết phần dẫn nhập, phương pháp, kết quả, và bàn luận. Trong phần này, tôi sẽ bàn 5 nguyên lí liên quan đến cách viết phần bàn luận và trả lời các chuyên gia bình duyệt. Viết phần bàn luận là khó nhất, vì nó không có một cấu trúc theo công thức nào, nhưng nếu có kinh nghiệm thì sẽ biến thế yếu thành thế mạnh, và do đó, gây cảm tình cho ban biên tập.




Nguyên lí 6: Giải thích tại sao kết quả nghiên cứu là quan trọng

Phần lớn các tập san khoa học, nhất là tập san có chỉ số ảnh hưởng cao, không thích công bố những công trình làng nhàng. Họ chỉ muốn công bố những công trình mà kết quả có tầm quan trọng, có ảnh hưởng đến chuyên ngành, có tác động đến chính sách công. Đối với các tập san lớn, họ không thiếu bài, họ chỉ thiếu bài tốt.


http://students.washington.edu/mclarkso/images/writing_cartoon.png


Do đó, tác giả cần phải nắm được “tâm lí” trên để viết phần bàn luận, nêu bật được tầm quan trọng của nghiên cứu. Nếu là nghiên cứu có liên quan đến một yếu tố nguy cơ tử vong, tác giả cần phải nêu được giả thuyết nếu can thiệp vào yếu tố này thì sẽ cứu được bao nhiêu người trên thế giới. Nếu nghiên cứu tìm ra được một cơ chế nào đó liên quan đến một bệnh, tác giả có thể giải thích rằng kết quả này mở ra một định hướng mới để theo đuổi. Nên nhớ có 3 loại nghiên cứu: me too (tức lặp lại những gì người khác đã làm và chẳng có gì mới), incremental knowledge (tức có tăng một chút về tri thức), và breakthrough (đột phá). Phải đặt xem nghiên cứu của mình nằm trong loại nào. Có lẽ phần lớn nghiên cứu thuộc vào nhóm incremental knowledge, và vì thế cần phải giải thích sự gia tăng về tri thức có tác động gì đến chuyên ngành và thực hành.

Một trong những mục tiêu của phần bàn luận là dồn người bình duyệt từ vị trí trung dung sang vị trí tích cực. Phần lớn các chuyên gia bình duyệt khi đọc bài báo họ bán tín bán nghi, hay ở vị trí trung dung. Nhưng tác giả muốn tăng khả năng bài báo được chấp nhận, nên cần phải thuyết phục (bằng dữ liệu) để họ chuyển sang vị trí tích cực, tức đứng về giả thuyết của tác giả. Để làm được việc này, tác giả cần phải lí giải được cái phạm vi câu hỏi mà nghiên cứu đã trả lời được, và đã đóng góp vào việc nâng cao tri thức cho chuyên ngành ra sao. Đây là “nhiệm vụ” của đoạn văn số 4 trong phần bàn luận mà tôi đã đề cập trên.

Nguyên lí 7: Tránh “nói quá” kết quả nghiên cứu

Một lỗi hay gặp ở những người mới viết bài báo khoa học là … tham vọng. Những người này thường phát biểu những kết luận “đao to búa lớn” không tương thích với kết quả nghiên cứu. Có lẽ họ quá hào hứng với kết quả đầu tay của mình, cũng có thể họ quen thói quen viết văn theo kiểu … nhà văn, tức là sáo ngữ. Khác với báo chí phổ thông, văn phong khoa học không có chỗ cho sáo ngữ, không có chỗ cho những phát biểu mà không có chứng cứ.

Một cách viết khiêm tốn là dùng những từ bổ nghĩa như probably, possibly, , likely, hay ngay cả xác định cũng chỉ highly likely là đủ. Cách dùng từ như thế không phải là thiếu tự tin, mà cho người bình duyệt thấy tác giả là người có cân nhắc. Nên nhớ rằng trong khoa học, đặc biệt là y khoa, không có một cái gì là xác định. Do đó, nếu dùng văn phong xác định là tự chuốc lấy thất bại.

Nguyên lí 8: Giải thích những hạn chế của nghiên cứu

Khoa học thực nghiệm không bao giờ hoàn hảo. Bất cứ một nghiên cứu nào, dù được thiết kế cẩn thận đến cỡ nào, cũng đều có những hạn chế. Nhưng cũng có những thế mạnh. Do đó, tác giả cần phải ghi nhận những điểm yếu, những hạn chế của nghiên cứu. Ghi nhận một cách thành thật, chứ không phải qua loa. Ghi nhận những khiếm khuyết của nghiên cứu không phải là tín hiệu của sự yếu đuối; ngược lại, đó là cách mà tác giả nói cho người bình duyệt biết rằng tôi đã suy nghĩ cẩn thận và có cách trả lời những vấn đề tôi nêu. Ngoài việc nêu những hạn chế, tác giả cũng có thể viết về sự ảnh hưởng của những hạn chế đến kết quả nghiên cứu. Chẳng hạn như nếu số lượng đối tượng quá ít (có lẽ do bệnh hiếm) thì kết quả có thể không đáng tin cậy, và cần phải ghi nhận điều này.

Có một cách nêu những hạn chế nhưng lại là một cách … tự khoe mình! Đây là kiểu lí giải mang tính dựng nên một hình nộm, rồi đánh ngã hình nộm đó và xem như là một chiến tích! Chẳng hạn như trong một nghiên cứu về vitamin D, chúng tôi phải tìm ra một điểm yếu để nói, và cuối cùng chúng tôi nghĩ điểm yếu đó là chúng tôi chỉ phân tích được nồng độ D3 trong máu mà không đo lường được D2. Sau khi nêu sự hạn chế này, chúng tôi trình bày dữ liệu của các nghiên cứu trước cho thấy D2 thật ra chỉ chiếm 1-3% tổng số vitamin D, nên dù không đo được, thì kết quả cũng chẳng bị ảnh hưởng tiêu cực gì! Nhưng cách lí giải này cần phải cẩn thận, vì nếu không thì rất dễ bị cho là self-serving (giống như tự khen, tự sướng).

Nguyên lí 9: Viết về những kết quả ngoài dự kiến

Cũng như bất cứ một công trình nghiên cứu tốt nào cũng có hạn chế, nhiều nghiên cứu cũng cho ra những kết quả ngoài dự kiến. Đó là những kết quả không nhất quán với giả thuyết, những dữ liệu nằm ngoài phạm vi, những quan sát … lạ (nói theo cách nói của báo chí ngày nay). Khi những quan sát lạ này xảy ra, tác giả cần phải ghi nhận chúng và cung cấp một vài lời giải thích khả dĩ. Nếu không giải thích được thì phải thành thật thú nhận là … không biết. Trong khoa học, không biết một điều gì đó không phải là yếu kém, càng không phải là một tội lỗi. Trong vài trường hợp cá biệt, chính những kết quả lạ này lại dẫn đến những khám phá quan trọng. Do đó, tác giả không nên bỏ qua, mà phải ghi nhận và chú giải cẩn thận.


Một trong những tác giả viết văn khoa học hay là Gs Steven Nissen, thuộc Cleveland Clinic, Ohio. Ông chính là người làm phân tích tổng hợp về mối liên quan giữa thuốc rosiglitazone và bệnh tim mạch, mà có người xem ông như là một “hung thần” của các công ti dược. :-) [tôi nói đùa]. Trích dưới đây là phần bàn luận của bài báo lịch sử đó (http://www.nejm.org/doi/full/10.1056/NEJMoa072761), và những ghi chú của tôi.

[Vào đầu phần bàn luận, tác giả nhắc lại kết quả chính của nghiên cứu. Lúc nào cũng phải nhắc lại, vì độc giả có thể … quên.] Our data show that, as compared with placebo or with other antidiabetic regimens, treatment with rosiglitazone was associated with a significant increase in the risk of myocardial infarction and with an increase in the risk of death from cardiovascular causes that was of borderline significance. [Nhấn mạnh rằng rosiglitazone có hại – kĩ thuật tuyên truyền một cách khoa học] The similar odds ratio for comparison with placebo suggests that the increased risk associated with rosiglitazone was not a function of the protective effects of active comparator drugs. [Nhưng nghiên cứu có vài hạn chế] However, these findings are based on limited access to trial results from publicly available sources, not on patient-level source data. Furthermore, results are based on a relatively small number of events, resulting in odds ratios that could be affected by small changes in the classification of events. [Mặc dù hạn chế nhưng kết quả này đáng quan tâm, vì tầm quan trọng của nó. Chú ý tác giả nhấn mạnh rằng kết quả có tầm y tế cộng đồng vì thuốc được nhiều người sử dụng] Nonetheless, our findings are worrisome because of the high incidence of cardiovascular events in patients with diabetes.4 Because exposure of such patients to rosiglitazone is widespread, the public health impact of an increase in cardiovascular risk could be substantial if our data are borne out by further analysis and the results of larger controlled trials.

[Đây là đoạn văn tác giả biện minh rằng kết quả đó có thể không phải do yếu tố ngẫu nhiên] Although we did not have access to the source data to construct a composite outcome that included myocardial infarction or death from cardiovascular causes, the increase in the odds ratios for both of these end points suggests that observed adverse effects associated with rosiglitazone were probably not due to chance alone. This meta-analysis included a group of trials that were of relatively short duration (24 to 52 weeks). The odds ratio for these shorter-term trials was similar to the overall results of the meta-analysis. Thus, in susceptible patients, rosiglitazone therapy may be capable of provoking myocardial infarction or death from cardiovascular causes after relatively short-term exposure. In contrast, long-term therapies that improve cardiovascular outcomes, such as statins and antihypertensive drugs, often take several years to provide benefits. Notably, the estimates for the odds ratios for myocardial infarction and death from cardiovascular causes appear elevated for rosiglitazone in comparison with placebo or other commonly prescribed antidiabetic therapies.

[Sau khi loại bỏ yếu tố ngẫu nhiên trong đoạn trên, tác giả luận bàn về cơ chế sinh học của rosiglitazone. Tại sao thuốc có hại cho sức khoẻ tim mạch?] The mechanism for the apparent increase in myocardial infarction and death from cardiovascular causes associated with rosiglitazone remains uncertain. One potential contributing factor may be the adverse effect of the drug on serum lipids. The FDA-approved rosiglitazone product label reports a mean increase in low-density lipoprotein (LDL) cholesterol of 18.6% among patients treated for 26 weeks with an 8-mg daily dose, as compared with placebo.25 In observational studies and lipid-lowering trials, elevated levels of LDL cholesterol were associated with an increase in adverse cardiovascular outcomes. Thus, an increase in LDL cholesterol of the magnitude observed in the rosiglitazone group may have contributed to adverse cardiovascular outcomes, although the rapidity and magnitude of the apparent hazard was not consistent with an effect produced by lipid changes alone.

[Lại thêm một bàn luận về cơ chế ảnh hưởng của rosiglitazone] Several other properties of rosiglitazone may contribute to adverse cardiovascular outcomes. Rosiglitazone and other thiazolidinediones are known to precipitate congestive heart failure in susceptible patients.26 Congestive heart failure is a physiological state that is associated with an increased intravascular volume. Volume overload increases stress on the left ventricular wall, a factor that determines myocardial oxygen demand. In susceptible patients, an increase in myocardial oxygen demand could theoretically provoke ischemic events. The administration of thiazolidinediones, including rosiglitazone, also produces a modest reduction in the hemoglobin level.25 In susceptible patients, a reduced hemoglobin level may result in increased physiological stress, thereby provoking myocardial ischemia. A study of rosiglitazone that was conducted in rats reported an increase in the rate of death after experimentally induced myocardial infarction.

[Bàn về các diễn giải khác] Rosiglitazone is not the first PPAR agonist that has been reported to increase adverse cardiovascular events. Muraglitazar, an investigational dual PPAR-α and PPAR-γ agonist, increased adverse cardiovascular events, including myocardial infarction, during phase 2 and 3 testing.28 After publication of an analysis of cardiovascular outcomes, muraglitazar was not approved by the FDA, and further development was subsequently halted by the manufacturer. Development programs for many other PPAR agonists have been terminated after evidence of toxicity emerged during preclinical studies or initial trials in humans. According to a former FDA official, more than 50 Investigational New Drug applications for novel PPARs have been filed, but no additional drugs have successfully reached the market in more than 6 years.29 In some cases, these drugs have failed because of evidence of direct myocardial toxicity in studies in animals,29 but few data on toxicity are available in the public domain because of the common industry practice of not publishing safety findings for failed products.

[Thêm một giả thuyết khác về cơ chế] PPAR agonists such as rosiglitazone have very complex biologic effects, resulting from the activation or suppression of dozens of genes.30 The patterns of gene activation or suppression differ substantially among various PPAR agonists, even within closely related compounds. The biologic effects of the protein targets for most of the genes influenced by PPAR agonists remain largely unknown. Accordingly, many different and seemingly unrelated toxic effects have emerged during development of other PPAR agents.29 Some drugs have provoked multispecies, multi–organ system cancers; others have resulted in rhabdomyolysis or nephrotoxicity.29 Troglitazone was withdrawn from the market for rare, but sometimes fatal, liver toxicity. Accordingly, it must be assumed that a variety of unexpected toxic effects are possible when PPAR agonists are administered to patients.

[Còn các thuốc khác trong nhóm thì sao?] The question as to whether the observed risks of rosiglitazone represent a “class effect” of thiazolidinediones must also be considered. Pioglitazone is a related agent also widely used to treat type 2 diabetes mellitus. However, unlike rosiglitazone, pioglitazone has been studied in a prospective, randomized trial of cardiovascular outcomes, called Prospective Pioglitazone Clinical Trial in Macrovascular Events (PROACTIVE).31 The primary end point, a broad composite that included coronary and peripheral vascular events, showed a trend toward benefit from pioglitazone (hazard ratio, 0.90; P=0.095). A secondary end point consisting of myocardial infarction, stroke, and death from any cause showed a significant effect favoring pioglitazone (hazard ratio, 0.84; P=0.027). Notably, pioglitazone appears to have more favorable effects on lipids, particularly triglycerides, than does rosiglitazone.

[Bàn về những điểm yếu của nghiên cứu] Our study has important limitations. We pooled the results of a group of trials that were not originally intended to explore cardiovascular outcomes. Most trials did not centrally adjudicate cardiovascular outcomes, and the definitions of myocardial infarction were not available. Many of these trials were small and short-term, resulting in few adverse cardiovascular events or deaths. Accordingly, the confidence intervals for the odds ratios for myocardial infarction and death from cardiovascular causes are wide, resulting in considerable uncertainty about the magnitude of the observed hazard. Furthermore, we did not have access to original source data for any of these trials. Thus, we based the analysis on available data from publicly disclosed summaries of events. The lack of availability of source data did not allow the use of more statistically powerful time-to-event analysis. A meta-analysis is always considered less convincing than a large prospective trial designed to assess the outcome of interest. Although such a dedicated trial has not been completed for rosiglitazone, the ongoing Rosiglitazone Evaluated for Cardiac Outcomes and Regulation of Glycaemia in Diabetes (RECORD) trial may provide useful insights.

[Dù có hạn chế, câu kết luận phải ấn tượng] Despite these limitations, our data point to the urgent need for comprehensive evaluations to clarify the cardiovascular risks of rosiglitazone. The manufacturer's public disclosure of summary results for rosiglitazone clinical trials is not sufficient to enable a robust assessment of cardiovascular risks. The manufacturer has all the source data for completed clinical trials and should make these data available to an external academic coordinating center for systematic analysis. The FDA also has access to study reports and other clinical-trial data not within the public domain. Further analyses of data available to the FDA and the manufacturer would enable a more robust assessment of the risks of this drug. Our data suggest a cardiovascular risk associated with the use of rosiglitazone. [Một câu khuyến cáo] Until more precise estimates of the cardiovascular risk of this treatment can be delineated in patients with diabetes, patients and providers should carefully consider the potential risks of rosiglitazone in the treatment of type 2 diabetes.




Nguyên lí 10: Tuân thủ theo đề nghị của các chuyên gia bình duyệt

Nhiều tác giả mất bình tĩnh khi đọc bản nhận xét của các chuyên gia bình duyệt. Họ xem các chuyên gia bình duyệt là những kẻ thiếu thiện chí, chỉ gây phiền phức, và cản bước tiến của họ. Nhưng trong thực tế, đại đa số các chuyên gia bình duyệt khá công tâm, họ không phải là người gây phiền phức; họ chỉ muốn làm người gác cổng tốt mà thôi. Dĩ nhiên, cũng có những chuyên gia bình duyệt trẻ con, tỏ thái độ nhỏ mọn, và có thành kiến, nhưng số này rất ít trong cộng đồng khoa học nghiêm chỉnh. (Tôi không nói ở Việt Nam, tôi nói cộng đồng khoa học quốc tế). Do đó, nếu tác giả nghĩ xấu về các chuyên gia bình duyệt thì chính họ đánh mất cơ hội để cải tiến bài báo của họ.

Các chuyên gia bình duyệt là một số nhỏ trong nhóm độc giả. Tuy số nhỏ, nhưng họ là những người có kinh nghiệm và uy tín, đủ để đánh giá một công trình khoa học. Nếu những thông tin trong bài báo làm cho họ lẫn lộn, thì chắc chắn các độc giả khác cũng lẫn lộn. Vì thế, không nên xem thường những nhận xét của các chuyên gia bình duyệt, mà phải đọc kĩ và trả lời họ một cách nghiêm túc. Kinh nghiệm tôi cho thấy sau khi trả lời và chỉnh sửa, bài báo thường tốt hơn.

Không gì bực bội hơn cho các chuyên gia bình duyệt (những người làm việc hoàn toàn tự nguyện, chẳng nhận đồng lương hay thù lao nào) khi những đề nghị của họ bị lờ đi. Phớt lờ những đề nghị của họ là một nguy hiểm, vì họ có thể đề nghị từ chối bài báo. Nếu tác giả không làm theo đề nghị của họ thì cũng phải lí giải cụ thể và lịch sự. Khoa học là môi trường bình đẳng, nếu tác giả bất đồng ý kiến với các chuyên gia bình duyệt thì cũng có thể nói thẳng, chứ không nên e ngại.

Nói tóm lại, viết và công bố một bài báo khoa học là một việc khó khăn, đòi hỏi một kế hoạch tốt, làm việc khó khăn và trong cô đơn. Nhưng nếu các bạn làm theo 10 nguyên lí tôi vừa trình bày, các bạn sẽ có một lợi thế lớn trong sự cạnh tranh công bố quốc tế. Những nguyên lí này cũng đáp ứng phần lớn những khiếm khuyết mà các chuyên gia hay thấy trong các bản thảo. Do đó, tuân thủ theo những nguyên lí trên cũng là một cách giảm thiểu những sai lầm trong quá trình soạn thảo bài báo, và nâng cao xác suất công bố công trình nghiên cứu.

N.V.T
Nguon nguyenvantuan.net

Mười nguyên lí để tăng khả năng công bố bài báo khoa học (1)


In Email
Read : 2809 times
http://www.emeraldinsight.com/content_images/fig/1640190408002.pngTrước đây, tôi có viết một loạt bài chỉ ra những lí do tại sao một bài báo khoa học bị từ chối. Nay tôi xin trình bày 10 nguyên tắc để nâng cao xác suất bài báo khoa học được công bố trên các tập san quốc tế. Bài này dựa vào kinh nghiệm cá nhân (trong các tập san y khoa) là phần lớn, nên có thể những nguyên tắc này không hẳn áp dụng cho các ngành khác.

Phải nói ngay rằng không có một qui định hay một công thức nào để đảm bảo bài báo khoa học được công bố trên một tập san quốc tế. Tùy theo tập san, xác suất công bố bài báo khoa học có khi chỉ là một sự may mắn. Cùng một công trình và cùng một đề tài, nhưng có công trình được đăng, còn công trình khác thì đành xếp trong ngăn tủ. Tuy nhiên, nếu chúng ta chuẩn bị tốt thì xác suất được công bố vẫn cao hơn là không chuẩn bị. “Chuẩn bị” ở đây có nghĩa là tuân thủ theo một số chỉ dẫn mà những người đi trước hay từng phục vụ trong các ban biên tập vạch ra. Trong thực tế, đã có nhiều bài báo trên các tập san chỉ dẫn cách thức tăng cơ may cho công trình được công bố trên tập san khoa học. Thay vì làm theo kiểu bài bản đó, ở đây tôi chỉ muốn chia sẻ vài kinh nghiệm cá nhân.
http://futureofscipub.files.wordpress.com/2009/11/1_current-system1.png?w=450&h=274

Nguyên lí 1: Cấu trúc bài báo một cách logic

Bài báo khoa học, nhất là trong y học, thường được cấu trúc theo công thức IMRAD (introduction - dẫn nhập, methods - phương pháp, results - kết quả, và discussion - bàn luận). Tuy nhiên cũng có vài tập san có cấu trúc khác với cấu trúc trên, với phần dẫn nhập đến kết quả và bàn luận, còn phần phương pháp thì để sau cùng. Do đó, cần phải xem xét đến qui định của tập san để cấu trúc bài báo cho thích hợp. Nhưng dù là cấu trúc nào, thì tất cả những dữ liệu trong mỗi phần phải được trình bày một cách logic và mang tính liên tục. Nếu phần dẫn nhập đề cập đến 3 mục đích, thì phần phương pháp phải mô tả cách giải quyết 3 mục đích đó ra sao, phần kết quả phải trình bày kết quả cho từng mục đích, và phần bàn luận cũng phải bám sát với 3 mục đích đó.

Nói thì tương đối dễ, nhưng khi bắt đầu viết thì không dễ chút nào, bởi vì một nghiên cứu có rất nhiều dữ liệu, mà trình bày dữ liệu nào để biện minh cho lí giải của mình là một quyết định không dễ dàng. Một qui ước đơn giản là nếu phần kết quả phải ăn khớp với phần phương pháp. Chẳng hạn như nếu phần phương pháp đề cập đến đo đường trong máu, mà phần kết quả không nói gì đến chỉ số sinh hóa này thì đó là điều không chấp nhận được. Do đó, cấu trúc bài báo và dữ liệu trong bài báo đóng vai trò quan trọng số 1 để tăng khả năng bài báo được chấp nhận cho công bố.

Nguyên lí 2: Phát biểu câu hỏi nghiên cứu và lí do nghiên cứu cho rõ ràng

Phần dẫn nhâp cần phải trả lời cho được 3 câu hỏi: câu hỏi chung, câu hỏi chuyên biệt, và nghiên cứu này có xứng đáng không?

Một phát biểu về câu hỏi nghiên cứu hay giả thuyết trong phần dẫn nhập rất quan trọng cho người bình duyệt bài báo hiểu được ý định của tác giả là gì và nghiên cứu này nằm ở đâu trong bức tranh tổng thể của chuyên ngành. Cần phải viết bằng cụ thể và đơn giản (không mĩ từ) như "We set out to determine whether condition x produces condition y" để người đọc có thể hiểu dễ dàng. Một phát biểu không rõ ràng, kiểu như "fishing expedition" hay "look-and-see approach" rất “nguy hiểm” vì dễ bị từ chối ngay từ đầu, vì nó cho thấy tác giả không định vị được nghiên cứu của mình nằm ở đâu. Người đọc, cũng như các chuyên gia bình duyệt, thường đặt câu hỏi như tại sao họ làm nghiên cứu này, có câu hỏi nào chưa được trả lời hay không, câu hỏi có đủ tầm quan trọng để mình quan tâm, v.v. Nhưng nếu viết chung chung và không trực tiếp đi vào vấn đề thì rất dễ làm cho chuyên gia bình duyệt bác bỏ bài báo.

Một yếu tố phổ biến trong các lí do từ chối bài báo là tác giả không thuyết phục được tầm quan trọng của nghiên cứu. Ngoài câu hỏi cụ thể mà công trình nghiên cứu muốn trả lời, tác giả cần phải lí giải tầm quan trọng của nghiên cứu, và giúp cho người đọc cũng như người bình duyệt nhận thức được vấn đề và đặt vào bối cảnh của họ. Cách thức để nêu tầm quan trọng là chứng minh rằng vấn đề phổ biến (hay tương đối phổ biến), hệ quả nghiêm trọng về kinh tế và y tế, có ảnh hưởng đến thực hành lâm sàng, v.v.

Nguyên lí 3: Giải thích phương pháp và dữ liệu một cách có hệ thống

Một trong những lí do phổ biến mà chuyên gia bình duyệt từ chối bài báo là họ không hiểu đầy đủ công trình nghiên cứu đã được thực hiện ra sao. Vấn đề này thường do tác giả không mô tả đầy đủ qui trình làm thí nghiệm hay qui trình thu nhập dữ liệu, từ lúc đo lường, công cụ đo lường, đến phân tích dữ liệu, nếu không mô tả đầy đủ thì đồng nghiệp sẽ rất khó lặp lại nghiên cứu.

Một cách viết phần phương pháp là viết theo qui trình … nấu ăn. Qui trình nấu ăn đòi hỏi người thợ nấu phải chuẩn bị nồi niêu, nguyên liệu, gia vị, v.v. và sau đó là làm từng bước một theo một công thức đã được định trước. Tương tự, một nghiên cứu y khoa cũng cần phải mô tả như thế. Chẳng hạn như cách chọn bệnh nhân ra sao, tiêu chuẩn loại trừ và tiêu chuẩn chọn, qui trình theo dõi và xét nghiệm, phương pháp xét nghiệm, v.v. Phải mô tả sao cho người đọc có thể nắm lấy phương

Viết phần phương pháp cho đạt là một điều khó khăn cho một tác giả. Điều này đúng vì đối với các công trình có sự hợp tác của nhiều chuyên gia từ nhiều chuyên ngành, thì không ai có thể viết cho thích hợp. Nếu viết quá chi tiết về một phương pháp nào đó (ví dụ như phương pháp xét nghiệm) thì có thể làm cho người đọc chuyên môn về laboratory medicine bắt bẽ, hay nếu viết quá chi tiết phần phân tích dữ liệu sẽ làm cho các người đọc nghi ngờ chắc công trình nghiên cứu có vấn đề. Nếu công trình nghiên cứu được thiết kế tốt thì không cần đến những phương pháp phân tích phức tạp. Do đó, cái khó là làm sao viết không quá sơ đẳng như sinh viên làm bài tập hay trả bài (kiểu như trình bày cả công thức ước tính cỡ mẫu!), nhưng cũng không viết quá chung chung vì sẽ làm cho người đọc nghĩ rằng tác giả chẳng hiểu vấn đề. Chỉ có người trong chuyên ngành có kinh nghiệm mới biết viết như thế nào là đủ. Trong vài trường hợp phức tạp, cách tốt nhất là trình bày một giãn đồ để người đọc dễ theo dõi.

Nguyên lí 4: Cấu trúc phần kết quả và phương pháp ăn khớp nhau

Kinh nghiệm của tôi cho thấy phần lớn những khiếm khuyết trong phần kết quả có thể nằm trong 3 nhóm sau đây: sắp xếp kết quả lộn xộn, trình bày không đầy đủ, kết quả không ăn khớp với phần phương pháp.

Thứ nhất, có những bài báo mà kết quả được trình bày chẳng theo một thứ t75 logic nào cả. Tình trạng này dẫn đến lẫn lộn cho người đọc, và họ sẽ rất dễ bỏ cuộc. Thông thường, các nghiên cứu y khoa thường bắt đầu phần kết quả với những thông tin về đối tượng nghiên cứu, sau đó là những kết quả chính, và cuối cùng là những kết quả mang tính củng cố cho phần kết quả chính. Phải có một bảng số liệu, một biểu đồ, hay một bức ảnh “ăn tiền” (còn gọi là money picture) để người đọc biết đó là điểm chính của bài báo.

Thứ hai, có nhiều bài báo mà phần kết quả trình bày không đầy đủ. Không đầy đủ ở đây có nghĩa là tương quan với phần phương pháp. Chẳng hạn như có nghiên cứu viết trong phần phương pháp rằng họ đo lường tỉ trọng mỡ trong cơ thể bằng DXA, nhưng phần kết quả thì chỉ trình bày WHR. Điều này dễ làm cho người đọc nổi giận, vì nói theo người Việt chúng ta là treo đầu dê bán thịt chó. Lại có những bài báo mà tác giả không thấy trình bày kết quả mà họ đã tuyên bố là đã thu thập trong phần phương pháp. Đây là một đại kị, bởi vì nó gây một ấn tượng rằng tác giả có vẻ thiếu thành thật.

Thứ ba, ngược lại trên, có những bài báo mà tác giả trình bày kết quả nhưng không thấy báo cáo trong phần phương pháp! Tôi từng đọc những bài báo tác giả trình bày những kết quả rất phức tạp, nhưng không biết dữ liệu xuất phát từ đâu! Rất nhiều bài báo trình bày kết quả phân tích thống kê nhưng không thấy mô tả trong phần phương pháp phân tích. Tình trạng này làm cho người đọc có cảm giác rằng tác giả chẳng có kế hoạch làm nghiên cứu, mà chỉ là một kiểu tra tấn dữ liệu (data torture) để có kết quả theo ý mình.

Kinh nghiệm cá nhân tôi cho thấy cách viết phần kết quả tốt là cấu trúc theo tiêu đề. Tiêu đề nên bám sát theo phần phương pháp. Cách cấu trúc này cho phép tác giả trình bày kết quả nghiên cứu theo một logic có trước có sau, và người đọc cũng dễ theo dõi. Thông thường một nghiên cứu phải có giả thuyết, và đoạn cuối cùng của phần kết quả nên có dữ liệu yểm trợ hay bác bỏ giả thuyết.

Nguyên lí 5: Viết phần bàn luận gọn và khúc chiết

Kinh nghiệm của tôi cho thấy phần bàn luận (discussion) là phần khó viết nhất. Đây là phần mà tác giả tóm tắt những phát hiện chính, giải thích tầm quan trọng của phát hiện, và chỉ ra những đóng góp vào tri thức cũng như định hướng cho tương lai. Để viết tốt phần bàn luận, tác giả phải tỏ ra am hiểu vấn đề, phải có một tầm nhìn lớn trong một “bức tranh” rộng. Một trong những khiếm khuyết tôi hay thấy là có tác giả viết quá dài (6-10 trang), rất dễ bị xem là nhiều chuyện. Nếu nghiên cứu có kết quả tốt với phương pháp tốt, thì tác giả không cần phải “lí sự” quá nhiều. Ngược lại, có những bài báo mà đọc xong phần bàn luận tôi có cảm giác tác giả chẳng có ý tưởng gì, tất cả chỉ là lặp lại những gì đã trình bày trong phần kết quả. Cả hai cách viết – quá dài và quá ngắn – đều là cách viết không tốt. Cách viết mà tôi đã thí nghiệm và thành công là cấu trúc 6 đoạn như sau:

Đoạn 1: tóm tắt lí do nghiên cứu, giả thuyết, và phát hiện chính.

Đoạn 2: so sánh kết quả với các nghiên cứu trước, và giải thích tại sao có sự khác biệt (hay giống nhau).

Đoạn 3: giải thích “cơ chế” của kết quả; nếu không biết hay không rõ cơ chế, thì đề xuất giả thuyết để giải thích. Đoạn này khó viết nhất.

Đoạn 4: viết về tầm quan trọng và ý nghĩa thực tiễn (nếu có) của kết quả nghiên cứu.

Đoạn 5: viết về những ưu điểm và khuyết điểm của nghiên cứu.

Đoạn 6: kết luận.

Nên nhớ rằng trong khi diễn giải kết quả nghiên cứu hay so sánh với các nghiên cứu trước, không được và không nên viết theo kiểu lí luận một chiều. Trong khoa học, bất cứ một kết quả nào cũng phải được giải thích bằng nhiều góc cạnh. Trong nhiều trường hợp, tác giả không ngần ngại nói thẳng rằng kết quả có thể là … ngẫu nhiên.


(Còn tiếp)

Thứ Năm, ngày 07 tháng 3 năm 2013

Biểu đồ trong bài báo khoa học 4: mật độ dữ liệu


InEmail
Read : 91 times
http://ed-informatics.org/wp-content/uploads/2010/03/Tufte-Chartjunk.pngNguyên tắc số 3 trong trình bày biểu đồ là tối đa hoá mật độ dữ liệu (data density index). Hai bài trước đã bàn về tỉ số dữ liệu trên mực in vàchỉ số dối. Trong bài này tôi sẽ bàn về mật độ dữ liệu và sự nhất quán trong cách trình bày. Ngoài ra, tôi cũng chia sẻ một loại biểu đồ mà Edward Tufte đặt tên là junk chart (biểu đồ rác rưởi) rất phổ biến trong báo chí. Đây là bài cuối cùng trong loạt bài viết về cách trình bày dữ liệu bằng bảng đồ.
Tufte định nghĩa mật độ dữ liệu (data density index hay DDI) là số số liệu tính trên diện tích của biểu đồ. Nguyên tắc chung là tối đa hoá DDI, vì mục tiêu chính của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt.
Biểu đồ dưới đây trình bày số đối tượng nghiên cứu cho nhóm nam và nữ. Trong thực tế, biểu đồ này rất vô dụng vì tất cả chỉ có 2 số liệu mà thôi, nhưng chiếm rất nhiều không gian. Nếu chúng ta đo chiều cao và chiều ngang của biểu đồ (có thể tính bằng cm) thì sẽ có diện tích. Nhưng giả dụ như diện tích của biểu đồ là 10 cm^2, thì mật độ dữ liệu chỉ 2 / 10 = 0.2, tức rất thấp. Trong trường hợp này, tác giả không cần đến biểu đồ, mà chỉ đơn giản mô tả bằng chữ là đủ.
Hình 13: Số học sinh phân chia theo giới tính
Biểu đồ dưới đây thể hiện mối tương quan giữa chiều cao (trục hoành) và trọng lượng (trục tung). Tác giả còn dùng màu để phân biệt dữ liệu cho nam và nữ. Biểu đồ có rất nhiều dữ liệu và thông tin. Đây là biểu đồ có mật độ dữ liệu cao, và có thể xem là rất tốt.
Hình 14: Mối tương quan giữa chiều cao và cân nặng cho nam và nữ
Edward Tufte làm một nghiên cứu nhỏ để so sánh mật độ dữ liệu của các tạp chí khoa học phổ thông và khoa học chuyên môn. Kết quả cho thấy tập san khoa học như Nature có mật độ dữ liệu cao nhất (7.4) so với Scientific American (0.8) và Times (2.8). Bài học ở đây là để tăng cao xác suất công bố trên những tập san lớn, cần chú ý đến tối ưu hoá mật độ dữ liệu trong biểu đồ. 
Nhất quán trong cách thể hiện dữ liệu
Một nguyên tắc quan trọng khác trong thể hiện dữ liệu là trình bày những biến đổi của dữ liệu, chứ không phải thay đổi hình thức (như màu) để thể hiện một dữ liệu. Biểu đồ dưới đây là một ví dụ cho sự “vi phạm” nguyên tắc vừa đề cập:
Hình 15:Phần trăm hút thuốc lá qua trong thời gian 1974 đến 1994
Tác giả dùng hai màu xanh một cách luân phiên để chỉ mô tả tỉ lệ hút thuốc ở Anh. Năm thì không rõ ràng, đáng lẽ phải là 1974, 1978, 1982, …, 1994, nhưng tác giả để cho người đọc phải suy đoán. Đó là một điều đại kị trong phương pháp trình bày dữ liệu. Ngoài ra, những con số phần trăm (45%, 40%, v.v.) hình như được đặt vào những vị trí rất tuỳ tiện, chứ chẳng theo một qui luật nào cả. Có thể xem đây là một biểu đồ rất kém. Biểu đồ này có thể thiết kế lại tốt hơn, nhưng tôi để cho bạn đọc suy nghĩ và thử làm :-).
Tránh biểu đồ rác rưởi (Chart junk)!
Thuật ngữ “Chart Junk” cũng là một sáng kiến của Edward Tufte. Ông gọi biểu đồ rác rưởi là cách thể hiện dữ liệu một cách “hoa hoè” hay loè loẹt. Đây là cách thể hiện dữ liệu của giới báo chí hay nghệ sĩ. Những người này vì không am hiểu khoa học, nên hay lạm dụng những hình ảnh làm độc giả thiếu tập trung vào thông điệp chính của dữ liệu. Cần tránh những biểu đồ rác rưởi.  
Một ví dụ tiêu biểu về biểu đồ rác rưởi mà Edward Tufte lấy ra để làm minh hoạ là biểu đồ dưới đây. Biểu đồ trình bày giá của kim cương từ năm 1978 đến 1982. Thay vì đường biểu diễn màu đỏ là đủ, người thiết kế biểu đồ cho thêm hình ảnh một cô gái trong tư thế gợi cảm. Với biểu đồ này, chắc chắn làm cho phần lớn người đọc không chú ý vào dữ liệu mà chăm chú nhìn vào cô gái, và thế là tác giả không đạt được mục tiêu của mình.
Hình 16: Biểu đồ biến động giá kim cương
Biểu đồ có thể giúp cho chúng ta “dấn thân” vào chủ đề nghiên cứu mà có khi chữ không làm được. Thiết kế biểu đồ tốt cũng đòi hỏi nỗ lực cao như viết một bài báo khoa học. Một biểu đồ tốt có thể đi vào lịch sử và tồn tại với thời gian rất lâu. Chúng ta hay thấy có nhiều sách giáo khoa hay những bài giảng có những biểu đồ thuộc vào hạng cổ điển, vì những biểu đồ đó chuyển tải thông tin đầy đủ và đạt những chuẩn mực về thiết kế biểu đồ mà tôi trình bày trên đây. Do đó, cần phải đầu tư thời gian và công sức vào cách trình bày dữ liệu và thiết kế biểu đồ.
Trước khi soạn một biểu đồ, cần phải trả lời những câu hỏi sau đây:
  • Ai là độc giả của biểu đồ, hay ai sẽ dùng?
  • Chọn hình thức thể hiện (biểu đồ thanh, biểu đồ tán xạ, v.v.)
  • Sắp xếp dữ liệu thích hợp cho trục tung và trục hoành.
  • Thêm vào các biến cần thiết.
  • Biên tập nhiều lần để tăng mật độ dữ liệu.
Sau đó là tuân thủ theo 4 nguyên tắc vừa mô tả trên. Xin nhắc lại đó là nguyên tắc tối ưu hoá yếu tố dối, tỉ số dữ liệu trên mực in, tỉ số dữ liệu trên diện tích biểu đồ, và tránh những hình thức màu mè (rác rưởi) dễ làm cho người đọc xa rời thông điệp chính của số liệu. Hi vọng rằng những nguyên tắc và chỉ dẫn trên đây sẽ giúp cho các bạn có được một bài báo khoa học tốt và những biểu đồ đi vào lịch sử. :-)
N.V.T
Xem các bài trước:
TB. Sau đây là vài biểu đồ trước và sau khi biên tập / thiết kế lại:
Biểu đồ 17 trước: 
Biểu đồ 17 sau khi thiết kế lại: 
Biểu đồ 18 (trước):
Biểu đồ 18 (sau):
 
Biểu đồ 19 (trước):
Biểu đồ 19 (sau):

Biểu đồ 20 (trước):
Biểu đồ 20 (sau):
 
Biểu đồ 21 (trước):

Biểu đồ 21 (sau):

Một số biểu đồ "junk" trên báo chí VN

Biểu đồ trong bài báo khoa học 2: yếu tố dối


InEmail
https://www.courses.psu.edu/h_p_a/h_p_a561_pxs46/rm_23/img012.gifTrong bài trước tôi đã mô tả triết lí và 4 nguyên tắc trong việc soạn biểu đồ khoa học. Tiếp theo bài đó, bài này sẽ bàn về lie factor mà tôi tạm dịch là yếu tố dối hay đúng hơn là chỉ số dối. Khái niệm chỉ số dối cũng là một phát kiến quan trọng của Gs Edward Tufte, nhưng rất ít người biết đến. Chỉ số dối cho phép chúng ta đánh giá một biểu đồ có "gian dối" hay không. Chỉ số dối cũng là một kim chỉ nam để chúng ta có thể thiết kế một biểu đồ đạt chuẩn mà không bị chỉ trích là thiếu thành thật.


Thỉnh thoảng chúng ta thấy những biểu đồ được “điều chỉnh” để làm cho độ ảnh hưởng lớn hay nhỏ. Đây là một thủ thuật cổ điển để nâng cao tầm ảnh hưởng có vẻ lớn hơn thực tế. Chẳng hạn như biểu đồ dưới đây so sánh số thu nhập của hãng Nokia trong năm 2000 là 30376 triệu Euro, và năm 2001 là 31191 triệu Euro. Nhưng để gây ấn tượng, người trình bày có thể thay đổi trục tung: thay vì bắt đầu từ 0, biểu đồ bắt đầu từ 30,000! Kết quả là một biểu đồ … ấn tượng.
Nhưng nếu biểu đồ được thiết kế lại với trục tung bắt đầu từ 0 (hình bên phải), thì kết quả không mấy ấn tượng. Do đó, vấn đề ở đây có yếu tố tâm lí. Biểu đồ bên trái cho thấy mức độ ảnh hưởng thị giác có vẻ cao hơn thực tế, nhưng biểu đồ bên phải có vẻ phản ảnh đúng với thực tế hơn. Tuy nhiên, đó chỉ là cảm nhận, chúng ta chưa có gì để định lượng sự khác biệt giữa mức độ ảnh hưởng thực tế và ảnh hưởng của biểu đồ. Chỉ số dối là một thước đo có thể dùng để đánh giá sự khác biệt giữa hai ảnh hưởng.
Chỉ số dối là một khái niệm không mấy phổ biến trong thế giới khoa học. Rất nhiều người làm nghiên cứu khoa học chưa bao giờ nghe đến chỉ số này (và do đó họ liên tục phạm sai lầm trong việc soạn biểu đồ!) Một cách ngắn gọn (và không cần dùng đến công thức toán), chỉ số dối phản ảnh mức độ lệch giữa độ ảnh hưởng trên biểu đồ và độ ảnh hưởng của dữ liệu. “Độ ảnh hưởng” ở đây phải hiểu theo nghĩa tiếng Anh là effect size. Chẳng hạn như nếu chúng ta có hai số liệu x1 và x2 của hai nhómthì “độ ảnh hưởng” ở đây là (x2 – x1)/x1 hay (x1 – x2)/x1.
Tufte khuyến cáo rằng việc thể hiện số liệu trên nền của biểu đồ phải theo tỉ lệ thuận với định lượng của trục tung và trục hoành. Nếu số liệu cho thấy tỉ lệ tăng trưởng là 30%, và biểu đồ cũng thể hiện con số đó, thì không có vấn đề gì. Nhưng nếu biểu đồ được thiết kế làm cho mức độ ảnh hưởng lớn hơn mức độ thật thì đó là một sự gian dối. Do đó, Tufte định nghĩa Lie factor (tạm dịch: Yếu tố dối) là tỉ số của mức độ ảnh hưởng trình bày trên biểu đồ với mức độ ảnh hưởng của số liệu. Gọi LF là yếu tố dối, định nghĩa này có nghĩa là:
LF = ESgraph / ESdata
Trong đó, ESgrap là mức độ ảnh hưởng của biểu đồ (effect size in graph), và ESdata là mức độ ảnh hưởng của số liệu (effect size in data). Biểu đồ nên được thiết kế sao cho LF gần bằng 1. Nói cách khác, LF càng cao thì mức độ nói dối càng cao.
Chúng ta có thể lấy một ví dụ sau đây để làm ví dụ. Trong biểu đồ dưới đây, tác giả trình bày nồng độ estrogen cho hai nhóm (Group 1 và Group 2). Nhìn qua biểu đồ, chúng ta có lẽ rất ấn tượng vì nồng độ estrogen có vẻ rất khác biệt giữa hai nhóm bệnh nhân. Nhưng nếu nhìn kĩ, chúng ta thấy có rất nhiều vấn đề trong biểu đồ này, nhưng chúng ta bàn qua yếu tố dối trước.
Hình 5: nồng độ estradiol của nhóm 1 và nhóm 2
Để xem yếu tố dối, chúng ta cần phải tính mức độ ảnh hưởng của dữ liệu. Chú ý rằng Nhóm 1 có nồng độ estrogen là 10, và nhóm 2 là 15. Do đó, mức độ ảnh hưởng có thể tính bằng cách lấy giá trị cao nhất trừ cho giá trị thấp nhất, và chia kết quả cho giá trị thấp nhất:
ESdata = (15 – 10) / 10 = 0.5
Mức độ ảnh hưởng của biểu đồ có thể tính từ trục tung. Chú ý biểu đồ có 8 đường ngang (bắt đầu từ 0 đến 7), nhưng chúng ta chú ý từ 1 đến 6. Do đó, mức độ ảnh hưởng trên biểu đồ là:
ESgraph = (6 – 1) / 1 = 5
Từ đó, chúng ta có thể ước tính yếu tố dối là:
LF = 5 / 0.5 = 10
Biểu đồ này có yếu tố dối quá cao. Mức độ ảnh hưởng trên biểu đồ cao gấp 10 lần mức độ ảnh hưởng thật. Chính yếu tố này giải thích tại sao chúng ta cảm nhận rằng mức độ ảnh hưởng rất cao, nhưng trong thực tế thì không hẳn như thế.
Giới báo chí thường hay dùng biểu đồ một cách … dối gian. Một ví dụ khác về yếu tố dối có thể xem qua biểu đồ dưới đây (trích từ một cuốn sách của Tufte). Biểu đồ cho thấy năm 1978, mỗi gallon xăng chạy được 18 mile, nhưng đến năm 1985 thì mỗi gallon xăng chạy được 25 mile, tức là xăng dầu càng ngày càng có hiệu suất kinh tế hơn.
Hình 6: Lượng xăng dầu tiêu thụ trên mỗi mile từ 1978 đến 1985
Nhưng vì cách trình bày biểu đồ thiếu thành thật, nên làm cho chúng ta có ấn tượng rất tốt. Nhưng nhìn kĩ thì số liệu của năm 1978 là 18 inch dài, còn năm 1985 là 27.5 inch. Mức độ ảnh hưởng thật sự (tức từ dữ liệu) là:
ESdata = (27.5 - 18) / 18 = 0.53 .
Nhưng mức độ ảnh hưởng qua cách thiết kế biểu đồ thì rất cao. Chú ý rằng trục hoành cho năm 1978 là 0.6 inch, còn năm 1985 là 5.3 inch. Do đó, mức độ ảnh hưởng ảo trên biểu đồ là:
ESgraph = (5.3 – 0.6) / 0.6 = 7.83.
Như vậy, yếu tố dối gian là gần bằng 15! (LF = 7.83 / 0.53 = 14.8).
Nhưng biểu đồ dưới đây thì không có yếu tố gian dối, vì yếu tố dối bằng 1. (Các bạn có thể tính để kiểm tra).
Hình 7: nồng độ estradiol của nhóm 1 và nhóm 2

Tóm lại, nguyên tắc số 1 của trình bày dữ liệu bằng biểu đồ là nói lên sự thật về dữ liệu. Một cách để "nói lên sự thật" là tối thiểu hoá chỉ số dối bằng hoặc gần bằng 1 (như biểu đồ 7). Nhưng trong thực tế thì biểu đồ này vẫn chưa đạt yêu cầu của một biểu đồ tốt. Tại sao chưa đạt thì tôi sẽ giải thích trong một bài kế tiếp.

(Còn tiếp ...) Nguon nguyenvantuan.net

Biểu đồ trong bài báo khoa học 1: nguyên tắc


InEmail
Read : 1809 times
http://kang3935.files.wordpress.com/2013/01/picture-22.pngMột trong những vấn đề hay thấy trong các bài báo khoa học ở Việt Nam là cách trình bày dữ liệu bằng biểu đồ. Những biểu đồ được thiết kế quá đơn giản (phần lớn là cắt và dán từ các phần mềm máy tính) và vi phạm hầu như bất cứ nguyên tắc nào của trình bày dữ liệu mà có lẽ tác giả chưa làm quen. Trong loạt bài này, tôi sẽ bàn qua những nguyên tắc trình bày dữ liệu trong biểu đồ.
Biểu đồ có một lịch sử phát triển rất thú vị. Trước thế kỉ 18, dữ liệu khoa học thường được trình bày bằng bảng số liệu (tables), và biểu đồ được xem là vô dụng. Nhưng quan điểm này rất ư là sai lầm. Năm 1786, William Playfair (một nhà kinh tế chính trị học) sáng chế ra biểu đồ thanh (bar chart) và biểu đồ đường dây (line graph) mà chúng ta vẫn còn sử dụng cho đến ngày nay. Năm 1801, Playfair lại sáng chế ra biểu đồ bánh mà sau này trở nên rất thông dụng trong giới kinh tế học và xã hội học. Mãi đến năm 1832, nhà thiên văn học người Anh là Alenander S. Herche sáng chế ra biểu đồ tán xạ (scatter plot) và trở thành rất phổ biến trong khoa học thực nghiệm.
http://charts6.excelcharts.com/blog/wp-content/uploads/2011/12/william-playfair-wheat-excel.png
Hình 5: Một biểu đồ thanh và đường dây của William Playfair vào năm 1786
Ngày nay, trong khoa học, biểu đồ là một phương tiện khám phá. Đó không phải là một phát biểu thậm xưng, mà là sự thật. Đứng trước một rừng dữ liệu với hàng triệu mẫu từ DNA và con số, nếu không có biểu đồ thì không cách gì rút ra được những qui luật trong kho tàng dữ liệu, không thể nào tìm được những mối tương quan, thậm chí không thấy được xu hướng phân bố. Do đó, biểu đồ đóng vai trò cực kì quan trọng trong nghiên cứu khoa học.
Không chỉ là một phương tiện khám phá, biểu đồ còn là một phương tiện để truyền đạt khám phá. Một biểu đồ nếu được thiết kế cẩn thận sẽ có hiệu quả rất lớn. Sách giáo khoa thường có những biểu đồ nổi tiếng đến mức có thể xem là lịch sử. Tương tự, trong những buổi giảng của các chuyên gia, chúng ta thấy có nhiều biểu đồ được trình bày nhiều lần ở nhiều nơi, vì đó là những biểu đồ thể hiện những phát hiện quan trọng trong khoa học. Đó là những biểu đồ đi vào kho tàng tri thức nhân loại như là những icon.
Với sự phát triển của máy tính và các chương trình phân tích dữ liệu, việc soạn thảo các biểu đồ càng ngày càng dễ dàng hơn. Thật vậy, chỉ cần một chương trình phổ biến như Excel, hay cao hơn một chút là chương trình phân tích thống kê (như SAS chẳng hạn), các nhà khoa học có thể tạo ra những biểu đồ hấp dẫn và đa dạng. Thế nhưng, ngạc nhiên thay, trong thực tế vẫn còn rất nhiều biểu đồ trong bài báo khoa học được thiết kế một cách rất cẩu thả, chẳng theo một qui tắt nào cả, và làm cho thông điệp của bài báo trở nên khó hiểu.
Ở Việt Nam, người viết bài này đã đọc nhiều luận án và bài báo khoa học, mà trong đó có những biểu đồ quá kém. Đó là những biểu đồ thiết kế quá sơ sài, chủ yếu là cắt và dán từ các chương trình máy tính như Excel. Tác giả cũng tỏ ra chẳng đầu tư thời gian và suy nghĩ để chuyển tải một thông điệp nào, mà chủ yếu là … làm cho có. Thậm chí, có người làm để đủ số trang mà một qui định lạ lùng (nếu không muốn nói là quái gở) nào đó đề ra. Có lần ti đọc một luận án tiến sĩ, mà trong đó cứ mỗi biến số (như số bệnh nhân theo nhóm tuổi) tác giả trình bày qua 3 hình thức: bảng số liệu, biểu đồ, và chữ viết. Cả ba hình thức dĩ nhiên chỉ nói lên một điểm. Do đó, nếu có 10 biến thì tác giả có 10 trang để mô tả, mà trong thực tế có lẽ chỉ cần 0.5 trang là đủ! Tôi ngạc nhiên hỏi tại sao tác giả lại trình bày như thế, thì được biết lí do đơn giản là muốn làm luận án đủ số trang.
Để minh hoạ cho những vấn đề biểu đồ, chúng ta thử xem qua vài biểu đồ hay thấy trong các bài báo khoa học ở Việt Nam dưới đây.
Hình 1: Biểu đồ bánh về một kết quả nghiên cứu
Trên đây là biểu đồ mô tả kết quả. Mỗi biểu đồ thật ra chỉ có 2 con số! Có thể nói là biểu đồ quá đơn giản, đơn giản đến nỗi người ta phải hỏi có cần đến một biểu đồ.
Hình 2: Biểu đồ bánh về hội chứng chuyển hoá
Biểu đồ này chẳng những nghèo nàn về số liệu (chỉ có 3 số liệu), mà còn tốn khá nhiều mực in và cả màu.
Hình 3: Biểu đồ về tỉ lệ bệnh nhân chia theo nhóm có hay không có hội chứng chuyển hoá (hình trên) và theo nhóm tuổi (hình dưới)
Hai biểu đồ trên cũng nghèo nàn về số liệu và chẳng cung cấp thông gì gì quan trọng.
Hình 4: Biểu đồ thể hiện các biến số antiHBs
Biểu đồ này rất khó đọc, một phần là do phông chữ quá nhỏ, một phần là do chọn các bar để thể hiện dữ liệu. Toàn cảnh xem ra rất mù mờ.
Những biểu đồ như trình bày trên thật ra khá phổ biến trên các tập san khoa học trong nước. Có thể nói rằng phần lớn biểu đồ không cung cấp thông tin liên quan hay quan trọng cho thông điệp của bài báo. Đại đa số biểu đồ được soạn một cách hời hợt, làm cho người đọc cảm thấy tác giả hình như chẳng đầu tư vào việc suy nghĩ và thiết kế. Thật ra, trong thực tế, phần lớn các biểu đồ trên các tập san khoa học ở VN là cắt và dán trực tiếp từ các phần mềm như Excel hay phần mềm thống kê. Chính vì thế mà khi đọc những biểu đồ, có nhiều kí hiệu, cách diễn tả rất khó hiểu (lẫn lộn giữa tiếng Anh và tiếng Việt). Một bài báo khoa học với những biểu đồ như thế rất khó có cơ may được chấp nhận cho công bố trên các tập san quốc tế.
Nguyên tắc soạn biểu đồ
Biểu đồ là một cách trình bày dữ liệu khoa học rất hữu hiệu. Người Trung Hoa từng có câu một hình ảnh có giá trị tương đương với một vạn chữ. Thật vậy, đối phó với một rừng số liệu thu thập từ thí nghiệm, vấn đề đặt ra là làm sao khai thác những số liệu này một cách hữu hiệu nhất. Hữu hiệu ở đây phải hiểu là chuyển tải thông tin sao cho cho người xem cảm thấy dễ lĩnh hội nhất. Có ba cách để thể hiện dữ liệu khoa học: dùng chữ viết, bảng số liệu, và biểu đồ. Chữ viết chỉ có thể sử dụng cho những dữ liệu rất đơn giản, chứ không thể hiện được tất cả những xu hướng và dao động của dữ liệu. Bảng số liệu có thể sử dụng cho trường hợp tóm lược những thông tin mang tính chính xác cao. Nhưng biểu đồ có thể sử dụng để chuyển tải những thông điệp về mức độ ảnh hưởng và xu hướng biến thiên của dữ liệu. Do đó, đứng trước quyết định chọn hình thức để thể hiện dữ liệu, biểu đồ phải và nên xem là một hình thức số 1.
Để thiết kế biểu đồ một cách hữu hiệu, cần phải làm quen với cái tên Edward Tufte, vì ông là mộtguru về biểu đồ. Ông là giáo sư thống kê học của Đại học Yale, giáo sư chính trị học, và giáo sư khoa học máy tính (cũng tại Yale), là người đã có ảnh hưởng cực kì lớn đến lĩnh vực trình bày dữ liệu bằng biểu đồ, qua những công trình có thể nói là đặt nền tảng cho lĩnh vực này (có khi được đề cập đến như là data visualization). Ông là người dám thuế chấp căn nhà mình cho ngân hàng để vay một số tiền làm nghiên cứu và cho ra công trình về data visualization mà sau này ông không bao giờ hối hận (vì quá thành công về tài chính!) Báo New York Times gọi ông là Leonardo Da Vinci of Data.
Edward Tufte đặt ra triết lí và 4 nguyên tắc trong trình bày dữ liệu bằng biểu đồ. Triết lí của thể hiện dữ liệu có thể tóm lược trong câu sau đây: “Graphical excellence is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space” (tạm dịch: triết lí của trình bày dữ liệu bằng biểu đồ là cung cấp cho người xem một lượng thông tin cao nhất trong một thời lượng nhỏ nhất với lượng mực in thấp nhất trong một không gian nhỏ nhất). Như vậy, khi trình bày dữ liệu bằng biểu đồ, cần phải chú ý đến 4 khía cạnh: lượng thông tin, thời gian, lượng mực in, và không gian. Triết lí này có thể xem như là một triết lí hà tiện, tốn ít tài lực nhất để có nhiều thông tin nhất. Để đạt được triết lí đó, Tufte đặt ra 4 nguyên tắc: phản ảnh dữ liệu một cách đầy đủ, tối ưu hoá tỉ số dữ liệu trên mực in, tối ưu hoá mật độ dữ liệu, và trình bày dữ liệu chứ không phải trang trí biểu đồ.
http://ed-informatics.org/wp-content/uploads/2010/03/Tufte-Graphical-Excellence.jpg
Nói lên sự thật về dữ liệu. Mục tiêu của bất cứ biểu đồ nào cũng là chuyển tải thông tin đến người đọc, và do đó, biểu đồ cần phải nói lên sự thật của dữ liệu. Sự thật ở đây có nghĩa là những dao động của dữ liệu trong mỗi hay giữa các nhóm so sánh. Chẳng hạn như một biểu đồ thanh (bar chart) trình bày số trung bình về huyết áp giữa nhóm can thiệp và nhóm chứng là chưa phản ảnh sự thật của dữ liệu, bởi vì chúng ta biết rằng huyết áp của các cá nhân trong mỗi nhóm dao động khá lớn. Do đó, một biểu đồ có ý nghĩa hơn là biểu đồ hộp (box plot), hay tốt hơn nữa là biểu đồ hộp cộng với những số liệu cho từng cá nhân trong mỗi nhóm.
Tối đa hoá tỉ số dữ liệu trên mực in. Trong một biểu đồ có số liệu và mực in. Mục tiêu của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt so với lượng mực in. Những biểu đồ bánh (pie chart) mà tôi vừa trình bày trên đây cho thấy số liệu rất ít so với lượng mực in (thậm chí có biểu đồ còn dùng cả hai màu!) Những biểu đồ này, vì thế, có tỉ số dữ liệu trên số mực in quá thấp.
Tối đa hoá mật độ dữ liệu. Mật độ dữ liệu có thể ước tính bằng cách lấy lượng số liệu chia cho diện tích của biểu đồ. Nguyên tắc quan trọng trong trình bày dữ liệu là phải tối đa hoá tỉ số này. Các biểu đồ trình bày trên đây có mật độ dữ liệu rất thấp, và do đó, chưa đạt yêu cầu của một biểu đồ có chất lượng cao.
Trình bày dữ liệu một cách đầy đủ, không phải trang trí biểu đồ. Có những biểu đồ mà tác giả trình bày số liệu qua những hình thức rất khác nhau. Biểu đồ sau cùng trong số 4 biểu đồ tôi lấy ra làm ví dụ trên đây cho thấy chỉ là một dữ liệu cho nhiều nhóm, nhưng tác giả cố gắng thể hiện mỗi nhóm một khác. Trong trường hợp này, có thể nói rằng tác giả chịu khó trang trí cho biểu đồ hơn là làm cho số liệu được phản ảnh một cách đầy đủ.
Trong phần sau đây, tôi sẽ bàn qua về những chỉ số phản ảnh 4 nguyên tắc trên. Đó là những chỉ số liên quan đến yếu tố gian dối (lie factor), tỉ số dữ liệu trên mực in, mật độ dữ liệu, và tính nhất quán trong cách trình bày. Tôi cũng sẽ lấy vài ví dụ để minh hoạ cho những loại biểu đồ mà Edward Tufte gọi là rác rưởi (junk chart) từ báo chí Việt Nam.
(còn tiếp …)
Tham khảo và đọc thêm:
Wainer H. Graphical discovery: a trout in the milk and other visual adventures. Princeton, NJ: Princeton University Press, 1997.
Tufte ER. The visual display of quantitative information (2nd Ed). Cheshire, CT: Graphics Press, 2001.
Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977.

Thứ Năm, ngày 28 tháng 2 năm 2013

Văn phong khoa học: tính từ và trạng từ


InEmail
http://kmh-lanl.hansonhub.com/writinghardwork.jpgMark Twain từng viết rằng “khi bạn bắt được một tính từ, giết nó!” Tác gia nổi tiếng Stephen King cũng từng nói rằng “con đường đến địa ngục được lót bằng trạng từ”. Những ai mới bắt đầu sự nghiệp xuất bản khoa học, lời khuyên đầu tiên và cũng là câu “kinh kệ” là: trong sáng, trong sáng, và trong sáng (clarity, clarity, and clarity). Văn khoa học không có chỗ cho những chữ õng ẹo làm dáng, không phải là nơi để khoe chữ bằng cách diễn tả làm bộ như cao siêu, thâm sâu (mà trong thực tế là vô nghĩa và chính tác giả cũng chẳng hiểu mình nói gì!) Để giữ tính trong sáng, cần tránh tính từ và trạng từ. Thế nhưng trong khoa học xã hội thì người ta có xu hướng thích hai loại từ này. Thật vậy, một nghiên cứu mới đây cho thấy trong khoa học xã hội các tác giả có xu hướng dùng nhiều tính từ và trạng từ hơn trong khoa học tự nhiên.

Trong văn phong khoa học, có khái niệm cluttered writing, đề cập đến cách viết làm cho độc giả sao lãng cái thông điệp chính của câu văn. Clutter tiếng Anh có nghĩa là ồn ào, hoạt náo, lộn xộn. Những từ cluttered có nghĩa là những từ làm cho người đọc cảm thấy câu văn ồn ào, và lộn xộn, trở nên khó hiểu. Câu văn dưới đây chính là một ví dụ tiêu biểu, vì khi đọc xong câu văn, người đọc bị hoa mắt với những trạng từ và quên đi ý chính của tác giả là gì.
The righteous thing is that a foreign language is nothing more than a foreign language which may due to some whatsoever reasons and howsoever it is coexist with the mother tongue, the very language a person eversince his first day thrown by All Mighty down onto the very lap of his mother starts to intensionally and intentionally hear, to intuitively sense, to indefectibly imitate and then to industriously develop.”
English is not just for saying Hello, asking for direction, or crying for Help!. And when a learner of English can use English to exactly and elaborately and correctly and fully and understandably and a-hundred-more-ly’s express his/her idea, opinion or theory, he/she can say that the target of being good at English is satisfactorily achieved!
Đó là câu văn tôi trích từ bài luận văn chỉ dẫn cách học tiếng Anh của ông Hoàng Hữu Phước, người gây ra vài tranh cãi gần đây về phong cách “tranh luận” độc đáo của ông. Câu văn đó nổi bật ở chỗ không chỉ là số từ (69 từ trong câu đầu, 55 từ trong câu hai), mà nó có rất nhiều trạng từ: intensionally, intentionally, intuitively, indefectibly, industriously, exactly, elaborately, correctly, fully, understandably, a-hundred-more-ly, satisfactorily. Riêng chữ a-hundred-more-ly thì chắc ông chế ra, chứ theo tôi biết, tiếng Anh không có chữ đó. Hai câu văn 124 chữ, mà có đến 12 trạng từ (gần 10%)! Có thể nói rằng đó là một câu văn rất lạ lùng, và có lẽ là độc nhất vô nhị trong văn tiếng Anh.
Viết bài báo khoa học là một hình thức truyền đạt ý tưởng và thông tin. Những câu chữ ồn ào không giúp ích gì cho mục tiêu đó. Ngày nay, mỗi chúng ta bị dội bom thông tin quá nhiều. Chỉ tính riêng khoa học, có thống kê cho biết lượng thông tin tăng 4.7% mỗi năm, và cứ 15 năm thì lượng thông tin tăng gấp 2 lần. Trong bối cảnh đó viết văn đơn giản và rõ ràng là yếu tố rất quan trọng để nâng cao hiệu quả của việc truyền đạt ý tưởng. Một trong những cách để đơn giản hoá câu văn là cố gắng tránh trạng từ và tính từ. Nên nhớ là chỉ “cố gắng” thôi, chứ trong vài trường hợp, chúng ta vẫn phải sử dụng đến hai loại từ này để bổ nghĩa hay nhấn mạnh một điểm nào đó. William Zinnser, một chuyên gia về văn phong khoa học, nhận xét rằng:
Phần lớn trạng từ là không cần thiết. Bạn sẽ làm cho câu văn tối nghĩa và làm phiền độc giả nếu chọn một động từ có một nghĩa đặc biệt nào đó rồi thêm vào trạng từ mà cũng chỉ để nói lên một ý [….] Đa số tính từ cũng không cần thiết. Cũng như trạng từ, tính từ rải vào câu văn bởi những tác giả quên rằng khái niệm đã bao hàm trong danh từ.
Nhưng không phải tính từ hay trạng từ nào cũng vô dụng. Một số câu văn cũng cần thiết có tính từ và trạng từ để bổ nghĩa. Cách dùng có thể tham khảo qua trang web Natural Language Toolkit (NLTK). Đây là trang web và software theo tôi là rất hay và có ích cho những ai cần tham khảo về cách viết tiếng Anh và phân tích tiếng Anh. Do đó, bài báo khoa học vẫn cần đến trạng từ và tính từ, nhưng tần số sử dụng có lẽ còn tuỳ thuộc vào văn cảnh và ý nghĩa của câu văn.
Xu hướng dùng tính từ và trạng từ rất khác nhau giữa các bộ môn khoa học. Tác giả Adam Okulicz-Kozaryn làm một phân tích thống kê về xu hướng dùng hai loại từ này trong các bài báo khoa học, và cho ra kết quả rất thú vị. Tác giả điểm qua 1000 bài báo công bố trong thời gian 2000 đến 2010 trong JSTOR. Ông dùng NLTK để tính số tính từ và trạng từ trong mỗi bài báo, rồi chia số này cho tổng số từ trong bài báo. Kết quả cho thấy tính từ và trạng từ chiếm khoảng 1 đến 1.15% tổng số từ trong bài báo khoa học. Tuy nhiên, phân bố thì rất khác nhau giữa các bộ môn. Đứng đầu tỉ lệ dùng tính từ và trạng từ là khoa học xã hội (1.15%). Các ngành khoa học nhân văn, luật, nghệ thuật, kinh tế cũng sử dụng khá nhiều tính từ và trạng từ. Những bài báo về khoa học tự nhiên có tỉ lệ tính từ và trạng từ thấp nhất (1%).  
  • Khoa học xã hội: 1.15%
  • Khoa học nhân văn: 1.13%
  • Lịch sử học: 1.12%
  • Luật: 1.10%
  • Nghệ thuật: 1.09%
  • Kinh tế, thương mại: 1.07%
  • Y học: 1.06%
  • Khoa học tự nhiên, toán học: 1.00%
Như vậy, một bài báo trung bình (khoảng 6000 từ) thì có đến ít nhất 60 trạng từ và tính từ. Cũng cùng độ dài, số trạng từ và tính từ của các bài báo khoa học xã hội nhiều hơn 50% so với bài báo khoa học tự nhiên. 
Tác giả (không phải tôi) kết luận rằng vì giới khoa học xã hội dùng nhiều tính từ và trạng từ nên bài báo của họ khó đọc và khó hiểu hơn là bài báo của giới khoa học tự nhiên. Tôi thì nghĩ kết luận này chưa phải là dữ liệu yểm trợ, vì tác giả mới cung cấp con số tính từ và trạng từ trong bài báo khoa học, chứ chưa đánh giá thế nào là khó hiểu/đọc và thế nào là dễ hiểu/đọc. Nhưng kết quả phân tích cũng đáng để chúng ta lưu tâm giảm số tính từ và trạng từ khi viết bài báo.
Tham khảo:
Okulicz-Kozaryn A. Cluttered writing: adjectives and adverbs in academic. Scientometrics 6/1/2013 Nguon nguyenvantuan.net.