Tóm tắt bài viết: Mình biết các bạn đã dồn rất nhiều tâm huyết cho luận văn. Nhưng có một lỗi phương pháp mà mình thường thấy nhất khi ngồi hội đồng, dù tưởng chừng rất nhỏ, lại có thể khiến mọi nỗ lực của bạn trở nên vô nghĩa. Trong bài viết này, mình sẽ chia sẻ từ chính kinh nghiệm của bản thân về 3 lý do chí mạng khiến sai lầm này có thể dẫn đến kết quả mà không ai trong chúng ta mong muốn.
Chào các bạn,
Mình là Lê Đức Thọ đây. Trong suốt quá trình hướng dẫn và được mời tham gia các hội đồng chấm luận văn, mình đã chứng kiến rất nhiều câu chuyện, đọc rất nhiều công trình nghiên cứu tâm huyết của các bạn sinh viên, học viên cao học. Mình hiểu rằng đằng sau mỗi trang luận văn là những đêm thức trắng, những nỗ lực không ngừng nghỉ và cả những áp lực vô hình.
Mình hay ví von công trình luận văn của các bạn giống như việc xây một ngôi nhà. Phần tổng quan lý thuyết, cơ sở khoa học là nền móng. Việc thu thập dữ liệu là quá trình xây nên phần thô. Và chương phân tích kết quả chính là bước hoàn thiện, sơn phết để ngôi nhà trở nên hoàn chỉnh và thuyết phục. Nhưng các bạn biết không, có một sai lầm mà mình thấy nhiều bạn mắc phải, nó giống như việc chọn sai loại vật liệu hoàn thiện, không chỉ làm ngôi nhà xấu đi mà còn cho thấy người xây không thực sự hiểu về công trình của mình.
Vì sao mình lại nói nó nghiêm trọng đến vậy? Vì nó không chỉ là một lỗi kỹ thuật, mà là một lỗi về tư duy phương pháp luận. Hôm nay, mình muốn dành thời gian để tâm sự thật kỹ, từ góc nhìn của một người đi trước và một người ngồi ở vị trí hội đồng, về ba lý do khiến sai lầm này có thể phá hỏng toàn bộ công trình của các bạn.
Điều đầu tiên mình muốn chia sẻ, và cũng là điều nguy hiểm nhất, đó là việc chọn sai kiểm định sẽ dẫn đến kết quả sai. Nó biến phát hiện của các bạn từ một sự thật khoa học thành một "ảo tưởng thống kê".
Mình sẽ kể cho các bạn một ví dụ kinh điển mà gần như năm nào mình cũng gặp. Một bạn học viên muốn so sánh mức độ hài lòng của khách hàng đối với 3 dòng sản phẩm khác nhau (A, B, C). Thay vì dùng kiểm định ANOVA (Phân tích phương sai) là công cụ chuẩn mực cho trường hợp này, bạn lại thực hiện 3 lần kiểm định T-test: so sánh A với B, rồi B với C, và cuối cùng là A với C.
Về logic thông thường, nghe có vẻ ổn. Nhưng về thống kê thì lại là một sai lầm chết người. Các bạn cứ hình dung thế này, mỗi lần các bạn chạy một phép T-test, luôn có một xác suất (thường là 5%) phạm phải sai lầm loại I, tức là kết luận có sự khác biệt trong khi thực tế chúng không khác biệt gì cả. Khi các bạn lặp lại hành động đó 3 lần, xác suất các bạn mắc phải ít nhất một sai lầm đã bị đội lên rất nhiều, không còn là 5% nữa.
Và rồi chuyện gì xảy ra? Có thể trong một lần so sánh, máy tính trả về kết quả p-value = 0.04. Bạn vui mừng nghĩ rằng mình đã tìm ra một phát hiện đắt giá, rằng "sản phẩm A làm khách hàng hài lòng hơn hẳn sản phẩm B". Bạn dành rất nhiều công sức để viết chương bàn luận, giải thích tại sao lại có sự khác biệt đó. Nhưng rất có thể, phát hiện đó không có thật. Nó chỉ là một sản phẩm của sự may rủi do phương pháp của bạn bị sai. Điều này thật sự rất nguy hiểm, vì nó khiến các bạn lãng phí công sức để bảo vệ một thứ không tồn tại.
Một điều mình luôn nhấn mạnh với các học viên tại Data Mentor là luận văn phải có tính nhất quán. Toàn bộ bài làm của các bạn phải là một câu chuyện có logic chặt chẽ. Chương 3 (Phương pháp nghiên cứu) phải là công cụ để trả lời cho những câu hỏi ở Chương 1 (Mở đầu).
Khi các bạn chọn sai kiểm định, các bạn đang tự tay phá vỡ logic đó. Nó giống như việc các bạn tự mâu thuẫn với chính mình.
Mình đã từng đọc một luận văn có mục tiêu nghiên cứu ghi rất rõ: "Xem xét mối liên hệ giữa khu vực sinh sống (Bắc, Trung, Nam) và việc lựa chọn sử dụng thương hiệu X (Có/Không)". Đây là mối quan hệ giữa hai biến định tính, và công cụ phù hợp phải là Kiểm định Chi-bình phương (Chi-Square). Thế nhưng, khi mình lật đến chương phương pháp, bạn sinh viên đó lại trình bày rằng mình dùng... phân tích tương quan Pearson.
Khi mình đọc một bài như vậy, câu hỏi đầu tiên nảy ra trong đầu mình là: "Bạn sinh viên này có thực sự hiểu mình đang làm gì không?". Công cụ bạn chọn (Tương quan Pearson, vốn dùng cho hai biến số định lượng) hoàn toàn không thể dùng để trả lời cho câu hỏi bạn đã đặt ra. Nó cho thấy một lỗ hổng lớn về kiến thức phương pháp luận. Hội đồng sẽ không cần đọc đến kết quả cũng đã có thể đánh giá thấp tính khoa học trong bài của bạn, vì cái gốc đã không vững rồi.
Đây là điều mình thực sự trăn trở nhất khi nghĩ về buổi bảo vệ của các bạn. Buổi bảo vệ không phải là một kỳ thi thuộc bài, mà là một cuộc tranh luận khoa học. Hội đồng sẽ không chỉ nghe, mà sẽ hỏi. Và họ sẽ hỏi vào những điểm yếu nhất trong bài của bạn. Một lỗi phương pháp luận chính là "tấm bia" hoàn hảo nhất để các thầy cô nhắm vào.
Mình đã thấy những bạn trình bày kết quả rất tự tin, nhưng rồi "đứng hình" khi nhận được những câu hỏi như:
"Thầy/cô thấy em so sánh trung bình của 3 nhóm, nhưng tại sao em lại chọn T-test? Em có thể giải thích cơ sở cho lựa chọn này không?"
"Kết quả này của em rất thú vị, nhưng dữ liệu của em có đáp ứng giả định về phân phối chuẩn để chạy kiểm định tham số này không? Em đã kiểm tra nó ở đâu trong bài?"
Khi các bạn lúng túng, không trả lời được, trong mắt hội đồng (và cả trong mắt mình), nó không còn là một lỗi đánh máy đơn thuần nữa. Nó cho thấy sự thiếu sót nghiêm trọng về năng lực nghiên cứu. Nó cho thấy các bạn có thể đã chạy theo số liệu một cách máy móc mà không hiểu bản chất. Sự tin tưởng vào kết quả nghiên cứu của bạn sẽ sụt giảm, và buổi bảo vệ từ thế chủ động sẽ chuyển sang thế bị động, phải giải trình cho những thiếu sót của mình.
Vậy là mình đã chia sẻ xong 3 hệ quả mà mình cho là nghiêm trọng nhất. Chọn đúng kiểm định không chỉ là một thao tác trên SPSS. Nó là sự thể hiện của tư duy phản biện, sự nghiêm túc và sự tôn trọng đối với khoa học.
Thế giới dữ liệu luôn vận động. Việc nắm vững các phương pháp kinh điển là điều kiện cần, nhưng chưa đủ để giúp các bạn đi xa. Tại Data Mentor, mình và các cộng sự không chỉ giúp các bạn làm đúng những phương pháp cốt lõi, mà còn tiên phong trong việc kết hợp sức mạnh của Trí tuệ nhân tạo (AI) vào quy trình phân tích SPSS. Đây là cách để các bạn không chỉ tìm ra câu trả lời cho câu hỏi nghiên cứu, mà còn có thể khai phá những insight đắt giá, những mô hình dự báo mà các công cụ truyền thống khó có thể làm được.
Mình mong rằng những chia sẻ chân thành này sẽ giúp các bạn cẩn trọng hơn trong quá trình nghiên cứu của mình. Đừng để một sai lầm đáng tiếc phá hỏng công sức của bao ngày tháng vất vả.
Chúc các bạn vững tin và bảo vệ thành công!
Thân ái,
GV. Lê Đức Thọ