Logistic Regression SPSS: Hướng dẫn chạy và đọc kết quả

Trong phân tích dữ liệu, không phải lúc nào biến phụ thuộc cũng là một con số liên tục như điểm số, doanh thu hay thu nhập. Nhiều bài toán thực tế chỉ cần dự đoán một kết quả có hoặc không, đạt hoặc không đạt, mắc bệnh hoặc không mắc bệnh. Khi đó, mô hình phù hợp thường không còn là hồi quy tuyến tính mà là hồi quy logistic. Đây là lý do logistic regression spss được dùng rất nhiều trong nghiên cứu y học, kinh doanh, giáo dục và khoa học xã hội.

Nếu hiểu đơn giản, phương pháp này giúp ước lượng xác suất xảy ra của một biến phụ thuộc nhị phân dựa trên một hoặc nhiều biến độc lập. Kết quả đầu ra không chỉ cho biết biến nào có ảnh hưởng, mà còn cho thấy mức độ tác động thông qua odds ratio. Khi biết cách đọc đúng các bảng trong SPSS, bạn có thể biến một output khá khô khan thành phần diễn giải rõ ràng và có giá trị học thuật.

Bài viết dưới đây sẽ đi theo hướng thực hành: giải thích hồi quy logistic là gì, khi nào nên dùng, cách chuẩn bị dữ liệu, cách chạy logistic regression trong spss và cách đọc từng bảng kết quả theo logic dễ hiểu cho người mới. Nếu bạn đang làm khóa luận, luận văn hoặc báo cáo nghiên cứu, đây là phần kiến thức rất cần nắm chắc.

Mục lục

Hồi quy logistic là gì?

Hồi quy logistic là mô hình dùng để dự đoán xác suất một sự kiện xảy ra khi biến phụ thuộc chỉ có hai trạng thái, thường được mã hóa là 0 và 1. Ví dụ, khách hàng có mua hàng hay không, sinh viên có đậu hay không, bệnh nhân có mắc bệnh hay không. Khác với hồi quy tuyến tính, mô hình này không dự đoán trực tiếp giá trị Y, mà dự đoán xác suất để Y nhận giá trị 1.

Nội dung	Giải thích
Biến phụ thuộc	Phải là biến nhị phân, ví dụ 0 = không, 1 = có
Biến độc lập	Có thể là biến định lượng hoặc biến phân loại
Mục tiêu	Dự đoán xác suất xảy ra của một kết quả
Đầu ra quan trọng	Hệ số B, p-value, Exp(B), khoảng tin cậy 95%
Ứng dụng	Dự báo rủi ro, phân loại nhóm, hỗ trợ ra quyết định

Trong thực hành, phân tích hồi quy logistic đặc biệt hữu ích khi kết quả nghiên cứu không thể mô tả bằng trung bình hay phương trình tuyến tính thông thường. Đây cũng là lý do nhiều người chuyển sang logistic regression spss khi làm đề tài có biến phụ thuộc dạng có hoặc không.

Khi nào nên dùng mô hình này?

Phương pháp này phù hợp khi biến phụ thuộc chỉ có hai nhóm rõ ràng. Nếu biến phụ thuộc có nhiều hơn hai nhóm không có thứ bậc, bạn cần dùng hồi quy logistic đa thức. Nếu biến kết quả là số đếm, mô hình Poisson lại phù hợp hơn. Vì vậy, chọn đúng mô hình ngay từ đầu là bước rất quan trọng trước khi thao tác trên SPSS.

Tình huống	Mô hình phù hợp
Kết quả chỉ có 2 trạng thái	Hồi quy logistic nhị phân
Kết quả có nhiều nhóm hơn 2	Logistic đa thức
Kết quả là dữ liệu đếm	Poisson regression

Những điều kiện cần kiểm tra trước khi chạy

Dù mô hình logistic linh hoạt hơn hồi quy tuyến tính ở một số điểm, bạn vẫn cần kiểm tra những giả định cơ bản trước khi chạy. Đây là bước hay bị bỏ qua nhưng lại ảnh hưởng trực tiếp đến độ tin cậy của kết quả.

Điều kiện	Ý nghĩa	Gợi ý kiểm tra
Biến phụ thuộc nhị phân	Điều kiện bắt buộc của mô hình	Mã hóa rõ 0 và 1
Quan sát độc lập	Mỗi đối tượng chỉ xuất hiện một lần	Rà soát dữ liệu gốc
Không đa cộng tuyến mạnh	Tránh các biến độc lập trùng lặp thông tin	Xem ma trận tương quan hoặc VIF tham khảo
Tuyến tính giữa biến liên tục và logit	Cần thiết với biến độc lập liên tục	Dùng Box-Tidwell khi cần
Không có ngoại lệ ảnh hưởng quá mạnh	Tránh méo hệ số ước lượng	Xem residuals, Cook’s distance, leverage

Nếu một số điều kiện chưa đạt, bạn vẫn có thể xử lý bằng cách biến đổi biến, gộp nhóm, loại ngoại lệ có cơ sở hoặc cân nhắc mô hình khác. Trong thực tế, không phải bộ dữ liệu nào cũng hoàn hảo ngay từ đầu.

Ví dụ logistic regression để dễ hình dung

Giả sử bạn muốn dự đoán khả năng mắc bệnh tim của một người dựa trên tuổi, cân nặng, giới tính và chỉ số VO2max. Khi đó, biến phụ thuộc là “có bệnh tim” hoặc “không có bệnh tim”, còn các biến còn lại đóng vai trò giải thích. Đây là ví dụ logistic regression rất điển hình vì nó cho phép bạn nhìn rõ toàn bộ quy trình từ mã hóa dữ liệu đến diễn giải odds ratio.

Biến	Loại biến	Cách mã hóa minh họa
heart_disease	Phụ thuộc	0 = không, 1 = có
age	Định lượng	Số tuổi thực tế
weight	Định lượng	Số cân nặng thực tế
gender	Phân loại	0 = nữ, 1 = nam
vo2max	Định lượng	Chỉ số đo năng lực hấp thụ oxy

Chuẩn bị dữ liệu trước khi chạy trên SPSS

Muốn có kết quả dễ đọc, bước chuẩn bị dữ liệu phải làm cẩn thận. Trước hết, bạn cần kiểm tra mã hóa của biến phụ thuộc để đảm bảo 0 và 1 nhất quán. Với biến phân loại như giới tính, bạn cũng nên xác định trước nhóm tham chiếu, vì điều này ảnh hưởng trực tiếp đến cách diễn giải Exp(B).

Ngoài ra, hãy rà soát các giá trị thiếu, kiểm tra lỗi nhập liệu và xem biến liên tục có phạm vi hợp lý hay không. Một lỗi nhỏ ở bước nhập dữ liệu có thể khiến cả bảng kết quả bị sai hướng diễn giải.

Cách chạy logistic regression trong SPSS

Quy trình thao tác trong SPSS không quá dài, nhưng nếu bỏ sót một tùy chọn quan trọng, bạn sẽ thiếu các bảng cần thiết để viết báo cáo. Dưới đây là trình tự phổ biến nhất.

Bước	Thao tác	Mục đích
1	Vào Analyze > Regression > Binary Logistic	Mở hộp thoại chạy mô hình
2	Đưa biến phụ thuộc vào ô Dependent	Xác định biến kết quả
3	Đưa các biến độc lập vào Covariates	Xác định các biến giải thích
4	Chọn Categorical nếu có biến phân loại	Khai báo nhóm tham chiếu
5	Trong Options, chọn Hosmer-Lemeshow và CI for Exp(B)	Lấy thêm bảng độ phù hợp và khoảng tin cậy
6	Giữ phương pháp Enter rồi nhấn OK	Chạy mô hình

Đây là quy trình cơ bản nhất của cách chạy logistic regression trong spss. Với phần lớn bài nghiên cứu học thuật, chỉ cần làm đúng các bước trên là bạn đã có đủ output để đọc và viết kết quả.

Cách đọc kết quả theo từng bảng trong SPSS

Khi SPSS xuất output, nhiều người mới dễ bị rối vì có khá nhiều bảng liên tiếp. Tuy nhiên, bạn không cần đọc tất cả cùng mức độ chi tiết. Hãy tập trung vào các bảng sau.

1. Omnibus Tests of Model Coefficients

Bảng này cho biết mô hình có ý nghĩa thống kê tổng thể hay không. Nếu p-value nhỏ hơn 0.05, bạn có thể hiểu rằng tập hợp các biến độc lập đưa vào đang giúp cải thiện khả năng dự đoán so với mô hình không có biến giải thích.

2. Model Summary

Chỉ số	Cách hiểu
-2 Log Likelihood	Giá trị càng nhỏ thường cho thấy mô hình càng phù hợp hơn
Cox & Snell R Square	Pseudo R² dùng để tham khảo khả năng giải thích của mô hình
Nagelkerke R Square	Chỉ số thường được báo cáo nhiều hơn vì dễ diễn giải hơn

Khác với hồi quy tuyến tính, các chỉ số R bình phương trong mô hình logistic chỉ mang tính tương đối. Bạn không nên diễn giải chúng như phần trăm giải thích tuyệt đối, mà nên xem như chỉ báo hỗ trợ đánh giá mô hình.

3. Hosmer and Lemeshow Test

Đây là bảng thường được dùng để xem độ phù hợp của mô hình. Nếu p-value lớn hơn 0.05, có thể xem mô hình đang phù hợp với dữ liệu ở mức chấp nhận được. Nếu p-value quá nhỏ, bạn nên thận trọng vì mô hình có thể chưa mô tả tốt dữ liệu thực tế.

4. Classification Table

Bảng này cho biết mô hình dự báo đúng bao nhiêu phần trăm trường hợp. Bạn có thể nhìn vào tỷ lệ dự đoán đúng chung, đồng thời xem khả năng nhận diện nhóm dương tính và âm tính. Tuy nhiên, đừng chỉ nhìn vào tổng tỷ lệ đúng mà bỏ qua sự mất cân bằng nhóm, vì có trường hợp mô hình đoán đúng cao nhưng thực ra lại thiên lệch mạnh về một phía.

5. Variables in the Equation

Đây là bảng quan trọng nhất khi diễn giải kết quả logistic regression spss. Các cột thường cần đọc gồm B, Sig., Exp(B) và khoảng tin cậy 95% cho Exp(B).

Cột trong output	Ý nghĩa	Cách diễn giải
B	Hệ số log-odds	Dấu dương cho thấy xác suất tăng, dấu âm cho thấy xác suất giảm
Sig.	p-value	Nếu nhỏ hơn 0.05 thì biến có ý nghĩa thống kê
Exp(B)	Odds ratio	Là mức thay đổi odds khi biến độc lập tăng 1 đơn vị
95% CI for Exp(B)	Khoảng tin cậy của odds ratio	Giúp đánh giá độ ổn định của ước lượng

Ví dụ, nếu biến gender có Exp(B) = 7.03 và p < 0.05, bạn có thể diễn giải rằng odds mắc bệnh tim ở nam cao gấp 7.03 lần so với nữ, trong điều kiện các biến khác không đổi. Đây là cách viết rất thường gặp trong phần kết quả của các bài phân tích hồi quy logistic.

Mẫu diễn giải kết quả ngắn gọn

Bạn có thể trình bày kết quả theo kiểu học thuật như sau: mô hình có ý nghĩa thống kê tổng thể với p < 0.001. Chỉ số Nagelkerke R Square cho thấy mô hình giải thích được một phần đáng kể biến thiên của biến phụ thuộc. Kiểm định Hosmer-Lemeshow có p > 0.05, cho thấy mức độ phù hợp của mô hình là chấp nhận được. Kết quả ở bảng hệ số cho thấy tuổi, giới tính và VO2max có ý nghĩa thống kê, trong khi cân nặng chưa cho thấy ảnh hưởng rõ ràng.

Nếu muốn viết rõ hơn, bạn nên nêu thêm OR, khoảng tin cậy 95% và p-value của từng biến có ý nghĩa. Đây là phần giúp bài viết thuyết phục hơn rất nhiều.

Những lỗi thường gặp khi làm logistic regression

Lỗi thường gặp	Hệ quả	Cách xử lý
Mã hóa 0 và 1 không nhất quán	Dễ diễn giải ngược hướng tác động	Kiểm tra mã hóa trước khi chạy
Quên khai báo biến phân loại trong Categorical	SPSS xử lý sai bản chất biến	Khai báo đúng nhóm tham chiếu
Chỉ nhìn p-value mà bỏ qua OR	Thiếu ý nghĩa thực tiễn	Đọc đồng thời Exp(B) và CI 95%
Bỏ qua class imbalance	Tỷ lệ dự đoán đúng dễ gây ảo giác	Xem thêm sensitivity và specificity
Không kiểm tra ngoại lệ	Hệ số có thể bị méo	Rà soát residuals và các chỉ số ảnh hưởng

Kết luận

Logistic regression spss là công cụ rất mạnh khi bạn cần dự đoán một kết quả nhị phân và giải thích xác suất xảy ra của sự kiện đó. Giá trị thực sự của phương pháp này không nằm ở việc bấm đúng menu, mà ở chỗ hiểu rõ mô hình, chuẩn bị dữ liệu đúng, đọc đúng từng bảng output và diễn giải hệ số theo odds ratio một cách chính xác.

Nếu bạn mới bắt đầu, hãy tập trung vào ba phần quan trọng nhất: xác định đúng loại biến phụ thuộc, chạy mô hình với tùy chọn cần thiết và đọc bảng Variables in the Equation cùng Hosmer-Lemeshow một cách có hệ thống. Khi đã nắm được logic đó, việc đọc output sẽ dễ hơn nhiều và phần viết báo cáo cũng trở nên mạch lạc hơn.

Nếu cần tham khảo thêm tài liệu thực hành, mẫu báo cáo hoặc hỗ trợ xử lý dữ liệu, bạn có thể xem thêm tại chayspss.

Chạy Phần Mềm: Hỗ trợ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS

Xử Lý Số Liệu: Hỗ trợ xử lý số liệu SPSS

Xem thêm: Logistic Regression SPSS

Bài viết này hữu ích với bạn?

Hồi quy logistic là gì?

Khi nào nên dùng mô hình này?

Những điều kiện cần kiểm tra trước khi chạy

Ví dụ logistic regression để dễ hình dung

Chuẩn bị dữ liệu trước khi chạy trên SPSS

Cách chạy logistic regression trong SPSS

Cách đọc kết quả theo từng bảng trong SPSS

1. Omnibus Tests of Model Coefficients

2. Model Summary

3. Hosmer and Lemeshow Test

4. Classification Table

5. Variables in the Equation

Mẫu diễn giải kết quả ngắn gọn

Những lỗi thường gặp khi làm logistic regression

Kết luận

Để lại một bình luận Hủy

ĐĂNG KÝ LIÊN HỆ

Truy Cập Nhanh

Học SPSS

Logistic Regression SPSS: Hướng dẫn chạy và đọc kết quả chi tiết

Hồi quy logistic là gì?

Khi nào nên dùng mô hình này?

Những điều kiện cần kiểm tra trước khi chạy

Ví dụ logistic regression để dễ hình dung

Chuẩn bị dữ liệu trước khi chạy trên SPSS

Cách chạy logistic regression trong SPSS

Cách đọc kết quả theo từng bảng trong SPSS

1. Omnibus Tests of Model Coefficients

2. Model Summary

3. Hosmer and Lemeshow Test

4. Classification Table

5. Variables in the Equation

Mẫu diễn giải kết quả ngắn gọn

Những lỗi thường gặp khi làm logistic regression

Kết luận

Để lại một bình luận Hủy