Ba điều ngộ nhận về giá trị p (p-value) trong thống kê sinh học

Yeah! p <0,05! Đã đến lúc để kết thúc đề tài và công bố bài báo rồi! Đợi một chút, bạn có tin tưởng giá trị p (p-value) bạn nhận được không?

Bạn có thể gãi đầu và hỏi “Anh đang nói về chuyện gì cơ? Anh muốn tôi đạt được giá trị p thấp hơn? Có lẽ 0,01 hoặc thậm chí nhỏ hơn ư?” Không. Giá trị p bản thân nó không mang thông tin, bất kể nó ấn tượng đến đâu đi nữa. Khi nói đến phân tích và giải thích dữ liệu, bạn cần phải rất rõ ràng về ý nghĩa của giá trị p cụ thể và nhận thức được tất cả các hạn chế nội tại của nó.

Người hướng dẫn hoặc đồng nghiệp của bạn có thể nhận được gì từ kết quả của bạn, trên cơ sở của chỉ một giá trị p duy nhất? Thông tin rõ ràng duy nhất đối với họ là một tác động (p < 0,05). Ví dụ: giả sử bạn muốn kiểm tra xem điều trị bằng thuốc A có giúp chuột đạt được kết quả cao hơn trong bài kiểm tra trí nhớ hay không. Một giá trị p có ý nghĩa ám chỉ rằng các con chuột được điều trị bằng thuốc A đạt được kết quả kiểm tra tốt hơn so với những con không được điều trị. Nhưng nó (p) không thể tiết lộ mức độ khác biệt. Sự khác biệt có thể là gấp nhiều lần hoặc có lẽ chỉ tăng 10%.

Điều quan trọng cần nhớ là: ý nghĩa thống kê không tương đương với ý nghĩa sinh học. Mức độ ý nghĩa thống kê dù rất cao (p rất nhỏ) có thể không có nghĩa lý gì trên góc nhìn thực tế. Ngoài ra, có một số thông tin khác rất hữu ích mà ta không thể biết được nếu chỉ dựa vào giá trị p, chẳng hạn như:

Kết luận của nghiên cứu có thực sự phản ánh tác động thực? (Độ tin cậy – Reliability)
Tác động lớn đến mức nào? (Mức độ khác biệt – Effect size)
Kết quả có tính lặp lại hay không? (Tính lặp lại – Repeatability)
Xác xuất để một lần nữa thu được kết quả có ý nghĩa (p < 0.05) khi lặp lại chính thí nghiệm ấy (Tính ổn định – Consistency)
Liệu chúng ta có thể ước đoán kết quả của một nghiên cứu lặp lại dựa vào giá trị p ta thu được từ thí nghiệm trước? (Tính có thể dự đoán được/tính dự báo – Predictability)

Tất cả những thông tin ẩn đó giải thích lý do tại sao chúng ta không nên coi giá trị p là tiêu chuẩn vàng để đánh giá dữ liệu. Trong bài viết này, tôi muốn chỉ ra 3 ngộ nhận phổ biến liên quan đến giá trị p mà tất cả chúng ta nên biết.

Những ngộ nhận về giá trị p

(Hãy nhắc lại một chút về Giả thuyết 0 – Null hypothesis trước. Giả thuyết 0, hay H0, thường được đặt ra với mục tiêu là xem dữ liệu thu thập trong các nghiên cứu thực nghiệm có mâu thuẫn gì với giả thuyết này không. Kiểm định giả thiết thống kê là kiểm tra xem dữ liệu thu thập được không khác H0 thì có xác suất sai là bao nhiêu, hay diễn đạt theo thuật ngữ thống kê là xác suất có thể bác bỏ được giả thiết H0 là bao nhiêu. Trái ngược với giả thuyết H0 là giả thuyết đối (hay giả thuyết thay thế). Nếu xác suất giả thuyết 0 bị bác bỏ ở mức đủ cao, giả thuyết đối có thể được chấp nhận là đúng.)

Ngộ nhận 1: Một phép kiểm định với p < 0,05 nói rằng ‘dưới 5% khả năng H0 là đúng và chúng tôi chắc chắn 95% rằng H0 là sai và kết quả dương tính là thực sự có ý nghĩa thống kê’ (ví dụ, điều trị bằng thuốc thực sự giúp cải thiện điểm trong bài kiểm tra trí nhớ so với giả dược).

Thực tế: Giá trị p ở đây phản ánh ‘khả năng không xảy ra trường hợp hiệu quả X1 xuất hiện ở nhóm điều trị bằng thuốc cũng có thể xuất hiện ở nhóm sử dụng giả dược, do tính ngẫu nhiên’. Một kết quả có ý nghĩa thống kê (p < 0,05) nói rằng khả năng chúng ta thu được hiệu quả X1 trên nhóm dùng giả dược là không vượt quá 5%.

Có thể bạn vẫn chưa hiểu, hãy xem ví dụ sau đây:

Giả sử chúng ta đang kiểm tra hiệu quả của thuốc A trong việc cải thiện điểm kiểm tra trí nhớ. Kiểm định giả thiết báo cáo rằng điểm kiểm tra trung bình là 110 khi điều trị với thuốc A so với điểm trung bình 100 ở nhóm đối chứng (p < 0,05). Từ kiểm định giả thiết cho chúng ta biết là, khả năng một người trong nhóm đối chứng (điều trị bằng giả dược, không dùng thuốc A) đạt được điểm số 110 là dưới 5%. Trái lại, kiểm định không thể cho chúng ta biết chúng ta tự tin đến mức nào khi tuyên bố thuốc A thực sự cải thiện điểm kiểm tra trí nhớ hay mức độ đáng tin cậy của giá trị p là bao nhiêu phần trăm.

Để xác định mức độ tin cậy (Reliability), chúng ta nên xác định giá trị tiên đoán dương tính thật (positive predictive value, PPV).

Ngộ nhận 2: Một phân tích mà thu được giá trị p có ý nghĩa (p <0,05) cho biết khi lặp lại thí nghiệm và phân tích, ta sẽ thu được một giá trị p cũng có ý nghĩa.

Thực tế: Một giá trị p cho ta một dự đoán không hề chắc chắn về tính lặp lại, và nó cũng không thể ước tính giá trị của một thí nghiệm lặp lại. Bất kỳ giá trị p nào ta thu được cũng chỉ có giá trị trong nhóm mẫu mà ta đang tính toán. Bạn có thể sẽ rất bất ngờ khi thấy sự biến thiên của giá trị p giữa các lần thí nghiệm lặp lại. Sự biến thiên này thậm chí còn lớn hơn giữa các phép kiểm định có độ mạnh (power) thấp. Nếu độ mạnh thống kê thấp (thường là do kích cỡ mẫu phân tích nhỏ), việc lặp lại thí nghiệm sẽ sinh ra các giá trị p khác biệt đáng kể.

Trong một bài phê bình trên tờ tạp chí Nature Methods, Halsey và cộng sự đã xác định sự bất định của giá trị p giữa các so sánh khác nhau. Kết quả dựa trên mô phỏng máy tính cho thấy phạm vi biến thiên rộng của giá trị p (0-0,6) từ 1.000 so sánh lặp lại. Để tự tin 80% rằng thí nghiệm lặp lại ở lần tiếp theo sẽ có ý nghĩa (p <0,05), chúng ta cần cỡ mẫu (N) là 64! Điều này là khó khăn ngoài đời thực, đặc biệt là khi bạn đang thực hiện các thí nghiệm đắt tiền như hành vi động vật hoặc sử dụng tình nguyện viên của con người để kiểm tra tâm lý. Thật không may, “thất bại về độ mạnh” có thể dẫn đến sự biến đổi liên tục của giá trị p và được cho là nguyên nhân chính dẫn đến hiện tượng kết quả không có tính lặp lại rất phổ biến trong sinh học.

Để ước tính giá trị của lần thí nghiệm lặp lại tiếp theo, khoảng tin cậy (confidence intervals, hay CI) đáng xem xét hơn giá trị p.

Ngộ nhận 3: Một kết quả có giá trị p rất nhỏ cho thấy tác động là lớn (ví dụ: Một sự cải thiện lớn trong bài kiểm tra trí nhớ được phản ánh qua giá trị p < 0,01).

Thực tế: Giá trị p cho chúng ta biết có hay không có tác động (khi điều trị bằng thuốc cải thiện trí nhớ) trong số các đối tượng đã thử nghiệm, nhưng nó không thể cho chúng ta biết tác động là lớn đến đâu. Thật vậy, cho dù kết quả ấn tượng đến mấy (p <0,001) hay có cả tính lặp lại, chúng ta cũng không thể có được cái nhìn sâu sắc nào về mức độ tác động. Để biết điều đó, chúng ta cần một yếu tố đánh giá khác, effect size.

Giá trị p cho bạn biết hai nhóm (thử nghiệm so với đối chứng) là khác nhau; trong khi effect size (d) cho bạn thấy mức độ khác biệt.

Hãy quay lại ví dụ về hiệu quả của thuốc trong việc cải thiện điểm kiểm tra trí nhớ. Chúng ta có thể dễ dàng biết rằng thuốc B (50 so với 30) có hiệu quả hơn thuốc A (35 so với 30) trong việc cải thiện điểm kiểm tra trí nhớ. Các giá trị p của chúng cũng hợp lý với phán đoán trực quan này (tác động không có ý nghĩa khi dùng A và tác động có ý nghĩa khi dùng B).

Tuy nhiên, hãy nhìn vào một bộ số liệu khác từ cùng loại thử nghiệm. Sự khác biệt duy nhất là chúng ta tăng kích thước mẫu (N) của nhóm thuốc A từ 6 lên 16. Mặc dù với cùng mức tăng điểm kiểm tra (35 so với 30), kiểm định thống kê cho chúng ta giá trị p ở thuốc A giờ đây nhỏ hơn. Kết quả này cho thấy giá trị p là một hàm của cỡ mẫu và ý nghĩa thống kê không nhất thiết có ý nghĩa thực tiễn. Thực tế, chúng ta có thể dễ dàng có được giá trị p ấn tượng bằng cách sử dụng cỡ mẫu (N) lớn mặc dù sự khác biệt (d) là nhỏ. Nếu đánh giá của chúng ta về hiệu quả của thuốc lại chỉ dựa trên giá trị p, thì chúng ta sẽ đưa ra kết luận sai lầm rằng thuốc A có hiệu quả hơn B trong tình huống này.

Để đưa ra một kết luận hợp lý hơn về mặt sinh học dựa trên số liệu bạn thu được, bạn cần tính effect size, hay giá trị d, mà ở đây tôi gọi là mức độ khác biệt.

Mức độ khác biệt là gì và làm sao để tính nó?

Mức độ khác biệt xác định sự khác biệt giữa các nhóm là nhiều hay ít. Nó nói cho chúng ta rằng khác biệt lớn đến mức nào. Khác với giá trị p, nó độc lập với cỡ mẫu (N). Phụ thuộc vào loại so sánh, mức độ khác biệt có thể được tính toán qua các chỉ số khác nhau. Một công thức phổ biến để tính toán mức độ tác động (d) đối với thí nghiệm hai nhóm độc lập là:

trong đó:

µ₁: kết quả trung bình ở nhóm thử nghiệm (ví dụ, nhóm dùng thuốc, nhóm bệnh …)

µ₂: kết quả trung bình ở nhóm đối chứng (ví dụ, nhóm dùng giả dược, nhóm người lành)

σ : độ lệch chuẩn.

Nếu chúng ta thử áp dụng vào thí nghiệm đánh giá hiệu quả thuốc và tính toán mức độ khác biệt của thuốc A và thuốc B so với đối chứng, chúng ta thấy thuốc B (d = 3.8) hiệu quả hơn rõ ràng so với thuốc A (d=1.7).

Tránh trở thành một nạn nhân khác của giá trị p

Giá trị p có thể lừa bạn và những ai đọc nghiên cứu của bạn đi đến những nhận định, kết luận sai lầm. Để tránh việc giải thích sai lầm và tăng tính lặp lại của dữ liệu, ngày càng có nhiều tạp chí và cộng đồng khoa học, bao gồm Hiệp hội Tâm lý học Hoa Kỳ, yêu cầu tác giả phải báo cáo không chỉ giá trị p mà cả mức độ khác biệt (d) và khoảng tin cậy (CI). Giá trị p chỉ đơn giản là nói lên bao nhiêu khả năng kết quả đó là do ngẫu nhiên; trong khi mức độ khác biệt và khoảng tin cậy cho thấy mức độ khác nhau, sự phân tán của các điểm dữ liệu và quan trọng hơn là ước tính đáng tin cậy của một thử nghiệm lặp lại. Với tất cả các thông tin trong tay, những người tham khảo nghiên cứu của bạn có thể đưa ra đánh giá chính xác hơn trên cơ sở phổ đầy đủ của dữ liệu.

Trích dẫn

Wikipedia

Halsey et al. (2015) The fickle P value generates irreproducible results. Nature Method, 12(3), 179–185.

Sullivan, G. M., & Feinn, R. (2012) Using Effect Size or Why the P-Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–82.

Tham khảo bài viết của Chiu-An Lo/bitesizebio

iceberg (biên tập)

tapchisinhhoc.com

Xem thêm: Hướng dẫn so sánh trình tự bằng công cụ miễn phí – BLAST

5/5 - (2 votes)