Trong phân tích dữ liệu, không phải lúc nào biến phụ thuộc cũng là một con số liên tục như điểm số, doanh thu hay thu nhập. Nhiều bài toán thực tế chỉ cần dự đoán một kết quả có hoặc không, đạt hoặc không đạt, mắc bệnh hoặc không mắc bệnh. Khi đó, mô hình phù hợp thường không còn là hồi quy tuyến tính mà là hồi quy logistic. Đây là lý do logistic regression spss được dùng rất nhiều trong nghiên cứu y học, kinh doanh, giáo dục và khoa học xã hội.

Nếu hiểu đơn giản, phương pháp này giúp ước lượng xác suất xảy ra của một biến phụ thuộc nhị phân dựa trên một hoặc nhiều biến độc lập. Kết quả đầu ra không chỉ cho biết biến nào có ảnh hưởng, mà còn cho thấy mức độ tác động thông qua odds ratio. Khi biết cách đọc đúng các bảng trong SPSS, bạn có thể biến một output khá khô khan thành phần diễn giải rõ ràng và có giá trị học thuật.

Bài viết dưới đây sẽ đi theo hướng thực hành: giải thích hồi quy logistic là gì, khi nào nên dùng, cách chuẩn bị dữ liệu, cách chạy logistic regression trong spss và cách đọc từng bảng kết quả theo logic dễ hiểu cho người mới. Nếu bạn đang làm khóa luận, luận văn hoặc báo cáo nghiên cứu, đây là phần kiến thức rất cần nắm chắc.

Hồi quy logistic là gì?

Hồi quy logistic là mô hình dùng để dự đoán xác suất một sự kiện xảy ra khi biến phụ thuộc chỉ có hai trạng thái, thường được mã hóa là 0 và 1. Ví dụ, khách hàng có mua hàng hay không, sinh viên có đậu hay không, bệnh nhân có mắc bệnh hay không. Khác với hồi quy tuyến tính, mô hình này không dự đoán trực tiếp giá trị Y, mà dự đoán xác suất để Y nhận giá trị 1.

Nội dungGiải thích
Biến phụ thuộcPhải là biến nhị phân, ví dụ 0 = không, 1 = có
Biến độc lậpCó thể là biến định lượng hoặc biến phân loại
Mục tiêuDự đoán xác suất xảy ra của một kết quả
Đầu ra quan trọngHệ số B, p-value, Exp(B), khoảng tin cậy 95%
Ứng dụngDự báo rủi ro, phân loại nhóm, hỗ trợ ra quyết định

Trong thực hành, phân tích hồi quy logistic đặc biệt hữu ích khi kết quả nghiên cứu không thể mô tả bằng trung bình hay phương trình tuyến tính thông thường. Đây cũng là lý do nhiều người chuyển sang logistic regression spss khi làm đề tài có biến phụ thuộc dạng có hoặc không.

Khi nào nên dùng mô hình này?

Phương pháp này phù hợp khi biến phụ thuộc chỉ có hai nhóm rõ ràng. Nếu biến phụ thuộc có nhiều hơn hai nhóm không có thứ bậc, bạn cần dùng hồi quy logistic đa thức. Nếu biến kết quả là số đếm, mô hình Poisson lại phù hợp hơn. Vì vậy, chọn đúng mô hình ngay từ đầu là bước rất quan trọng trước khi thao tác trên SPSS.

Tình huốngMô hình phù hợp
Kết quả chỉ có 2 trạng tháiHồi quy logistic nhị phân
Kết quả có nhiều nhóm hơn 2Logistic đa thức
Kết quả là dữ liệu đếmPoisson regression

Những điều kiện cần kiểm tra trước khi chạy

Dù mô hình logistic linh hoạt hơn hồi quy tuyến tính ở một số điểm, bạn vẫn cần kiểm tra những giả định cơ bản trước khi chạy. Đây là bước hay bị bỏ qua nhưng lại ảnh hưởng trực tiếp đến độ tin cậy của kết quả.

Điều kiệnÝ nghĩaGợi ý kiểm tra
Biến phụ thuộc nhị phânĐiều kiện bắt buộc của mô hìnhMã hóa rõ 0 và 1
Quan sát độc lậpMỗi đối tượng chỉ xuất hiện một lầnRà soát dữ liệu gốc
Không đa cộng tuyến mạnhTránh các biến độc lập trùng lặp thông tinXem ma trận tương quan hoặc VIF tham khảo
Tuyến tính giữa biến liên tục và logitCần thiết với biến độc lập liên tụcDùng Box-Tidwell khi cần
Không có ngoại lệ ảnh hưởng quá mạnhTránh méo hệ số ước lượngXem residuals, Cook’s distance, leverage

Nếu một số điều kiện chưa đạt, bạn vẫn có thể xử lý bằng cách biến đổi biến, gộp nhóm, loại ngoại lệ có cơ sở hoặc cân nhắc mô hình khác. Trong thực tế, không phải bộ dữ liệu nào cũng hoàn hảo ngay từ đầu.

Ví dụ logistic regression để dễ hình dung

Giả sử bạn muốn dự đoán khả năng mắc bệnh tim của một người dựa trên tuổi, cân nặng, giới tính và chỉ số VO2max. Khi đó, biến phụ thuộc là “có bệnh tim” hoặc “không có bệnh tim”, còn các biến còn lại đóng vai trò giải thích. Đây là ví dụ logistic regression rất điển hình vì nó cho phép bạn nhìn rõ toàn bộ quy trình từ mã hóa dữ liệu đến diễn giải odds ratio.

BiếnLoại biếnCách mã hóa minh họa
heart_diseasePhụ thuộc0 = không, 1 = có
ageĐịnh lượngSố tuổi thực tế
weightĐịnh lượngSố cân nặng thực tế
genderPhân loại0 = nữ, 1 = nam
vo2maxĐịnh lượngChỉ số đo năng lực hấp thụ oxy

Chuẩn bị dữ liệu trước khi chạy trên SPSS

Muốn có kết quả dễ đọc, bước chuẩn bị dữ liệu phải làm cẩn thận. Trước hết, bạn cần kiểm tra mã hóa của biến phụ thuộc để đảm bảo 0 và 1 nhất quán. Với biến phân loại như giới tính, bạn cũng nên xác định trước nhóm tham chiếu, vì điều này ảnh hưởng trực tiếp đến cách diễn giải Exp(B).

Ngoài ra, hãy rà soát các giá trị thiếu, kiểm tra lỗi nhập liệu và xem biến liên tục có phạm vi hợp lý hay không. Một lỗi nhỏ ở bước nhập dữ liệu có thể khiến cả bảng kết quả bị sai hướng diễn giải.

Cách chạy logistic regression trong SPSS

logistic regression spss

Quy trình thao tác trong SPSS không quá dài, nhưng nếu bỏ sót một tùy chọn quan trọng, bạn sẽ thiếu các bảng cần thiết để viết báo cáo. Dưới đây là trình tự phổ biến nhất.

BướcThao tácMục đích
1Vào Analyze > Regression > Binary LogisticMở hộp thoại chạy mô hình
2Đưa biến phụ thuộc vào ô DependentXác định biến kết quả
3Đưa các biến độc lập vào CovariatesXác định các biến giải thích
4Chọn Categorical nếu có biến phân loạiKhai báo nhóm tham chiếu
5Trong Options, chọn Hosmer-Lemeshow và CI for Exp(B)Lấy thêm bảng độ phù hợp và khoảng tin cậy
6Giữ phương pháp Enter rồi nhấn OKChạy mô hình

Đây là quy trình cơ bản nhất của cách chạy logistic regression trong spss. Với phần lớn bài nghiên cứu học thuật, chỉ cần làm đúng các bước trên là bạn đã có đủ output để đọc và viết kết quả.

Cách đọc kết quả theo từng bảng trong SPSS

Khi SPSS xuất output, nhiều người mới dễ bị rối vì có khá nhiều bảng liên tiếp. Tuy nhiên, bạn không cần đọc tất cả cùng mức độ chi tiết. Hãy tập trung vào các bảng sau.

1. Omnibus Tests of Model Coefficients

Bảng này cho biết mô hình có ý nghĩa thống kê tổng thể hay không. Nếu p-value nhỏ hơn 0.05, bạn có thể hiểu rằng tập hợp các biến độc lập đưa vào đang giúp cải thiện khả năng dự đoán so với mô hình không có biến giải thích.

2. Model Summary

Chỉ sốCách hiểu
-2 Log LikelihoodGiá trị càng nhỏ thường cho thấy mô hình càng phù hợp hơn
Cox & Snell R SquarePseudo R² dùng để tham khảo khả năng giải thích của mô hình
Nagelkerke R SquareChỉ số thường được báo cáo nhiều hơn vì dễ diễn giải hơn

Khác với hồi quy tuyến tính, các chỉ số R bình phương trong mô hình logistic chỉ mang tính tương đối. Bạn không nên diễn giải chúng như phần trăm giải thích tuyệt đối, mà nên xem như chỉ báo hỗ trợ đánh giá mô hình.

3. Hosmer and Lemeshow Test

Đây là bảng thường được dùng để xem độ phù hợp của mô hình. Nếu p-value lớn hơn 0.05, có thể xem mô hình đang phù hợp với dữ liệu ở mức chấp nhận được. Nếu p-value quá nhỏ, bạn nên thận trọng vì mô hình có thể chưa mô tả tốt dữ liệu thực tế.

4. Classification Table

Bảng này cho biết mô hình dự báo đúng bao nhiêu phần trăm trường hợp. Bạn có thể nhìn vào tỷ lệ dự đoán đúng chung, đồng thời xem khả năng nhận diện nhóm dương tính và âm tính. Tuy nhiên, đừng chỉ nhìn vào tổng tỷ lệ đúng mà bỏ qua sự mất cân bằng nhóm, vì có trường hợp mô hình đoán đúng cao nhưng thực ra lại thiên lệch mạnh về một phía.

5. Variables in the Equation

Đây là bảng quan trọng nhất khi diễn giải kết quả logistic regression spss. Các cột thường cần đọc gồm B, Sig., Exp(B) và khoảng tin cậy 95% cho Exp(B).

Cột trong outputÝ nghĩaCách diễn giải
BHệ số log-oddsDấu dương cho thấy xác suất tăng, dấu âm cho thấy xác suất giảm
Sig.p-valueNếu nhỏ hơn 0.05 thì biến có ý nghĩa thống kê
Exp(B)Odds ratioLà mức thay đổi odds khi biến độc lập tăng 1 đơn vị
95% CI for Exp(B)Khoảng tin cậy của odds ratioGiúp đánh giá độ ổn định của ước lượng

Ví dụ, nếu biến gender có Exp(B) = 7.03 và p < 0.05, bạn có thể diễn giải rằng odds mắc bệnh tim ở nam cao gấp 7.03 lần so với nữ, trong điều kiện các biến khác không đổi. Đây là cách viết rất thường gặp trong phần kết quả của các bài phân tích hồi quy logistic.

Mẫu diễn giải kết quả ngắn gọn

Bạn có thể trình bày kết quả theo kiểu học thuật như sau: mô hình có ý nghĩa thống kê tổng thể với p < 0.001. Chỉ số Nagelkerke R Square cho thấy mô hình giải thích được một phần đáng kể biến thiên của biến phụ thuộc. Kiểm định Hosmer-Lemeshow có p > 0.05, cho thấy mức độ phù hợp của mô hình là chấp nhận được. Kết quả ở bảng hệ số cho thấy tuổi, giới tính và VO2max có ý nghĩa thống kê, trong khi cân nặng chưa cho thấy ảnh hưởng rõ ràng.

Nếu muốn viết rõ hơn, bạn nên nêu thêm OR, khoảng tin cậy 95% và p-value của từng biến có ý nghĩa. Đây là phần giúp bài viết thuyết phục hơn rất nhiều.

Những lỗi thường gặp khi làm logistic regression

Lỗi thường gặpHệ quảCách xử lý
Mã hóa 0 và 1 không nhất quánDễ diễn giải ngược hướng tác độngKiểm tra mã hóa trước khi chạy
Quên khai báo biến phân loại trong CategoricalSPSS xử lý sai bản chất biếnKhai báo đúng nhóm tham chiếu
Chỉ nhìn p-value mà bỏ qua ORThiếu ý nghĩa thực tiễnĐọc đồng thời Exp(B) và CI 95%
Bỏ qua class imbalanceTỷ lệ dự đoán đúng dễ gây ảo giácXem thêm sensitivity và specificity
Không kiểm tra ngoại lệHệ số có thể bị méoRà soát residuals và các chỉ số ảnh hưởng

Kết luận

Logistic regression spss là công cụ rất mạnh khi bạn cần dự đoán một kết quả nhị phân và giải thích xác suất xảy ra của sự kiện đó. Giá trị thực sự của phương pháp này không nằm ở việc bấm đúng menu, mà ở chỗ hiểu rõ mô hình, chuẩn bị dữ liệu đúng, đọc đúng từng bảng output và diễn giải hệ số theo odds ratio một cách chính xác.

Nếu bạn mới bắt đầu, hãy tập trung vào ba phần quan trọng nhất: xác định đúng loại biến phụ thuộc, chạy mô hình với tùy chọn cần thiết và đọc bảng Variables in the Equation cùng Hosmer-Lemeshow một cách có hệ thống. Khi đã nắm được logic đó, việc đọc output sẽ dễ hơn nhiều và phần viết báo cáo cũng trở nên mạch lạc hơn.

Nếu cần tham khảo thêm tài liệu thực hành, mẫu báo cáo hoặc hỗ trợ xử lý dữ liệu, bạn có thể xem thêm tại chayspss.

Chạy Phần Mềm: Hỗ trợ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS

Xử Lý Số Liệu: Hỗ trợ xử lý số liệu SPSS

Xem thêm: Logistic Regression SPSS

Bài viết này hữu ích với bạn?

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *