Hồi quy logistic là một mô hình thống kê rất phổ biến trong phân tích dữ liệu khi biến phụ thuộc không còn ở dạng liên tục mà chuyển sang dạng phân loại. Trong thực tế, người nghiên cứu thường gặp những bài toán như khách hàng có mua hay không, người bệnh có mắc bệnh hay không, hồ sơ có được duyệt hay không, người dùng có nhấp vào quảng cáo hay không. Với những tình huống như vậy, hồi quy tuyến tính không còn phù hợp, còn hồi quy logistic lại là lựa chọn hợp lý hơn vì mô hình này ước lượng xác suất xảy ra của một sự kiện.
Điểm quan trọng của hồi quy logistic là đầu ra của mô hình luôn nằm trong khoảng từ 0 đến 1. Nhờ đó, người dùng có thể diễn giải kết quả dưới dạng xác suất và phân loại theo một ngưỡng nhất định. Đây cũng là lý do mô hình này được dùng rộng rãi trong kinh doanh, marketing, y tế, tài chính, giáo dục và nhiều lĩnh vực nghiên cứu ứng dụng khác.
So với nhiều kỹ thuật máy học phức tạp, hồi quy logistic có lợi thế lớn về tính minh bạch. Người phân tích có thể giải thích rõ vai trò của từng biến độc lập thông qua hệ số hồi quy, odds ratio và mức ý nghĩa thống kê. Vì vậy, ngay cả khi hiện nay có nhiều mô hình hiện đại hơn, logistic regression spss vẫn là một lựa chọn nền tảng trong nhiều dự án phân tích dữ liệu.
Hồi quy logistic là gì?
Nói đơn giản, hồi quy logistic là mô hình dùng để dự đoán xác suất một sự kiện xảy ra dựa trên một hoặc nhiều biến giải thích. Khác với hồi quy tuyến tính vốn tạo ra giá trị đầu ra liên tục, mô hình này sử dụng hàm logistic để nén kết quả về khoảng xác suất hợp lệ. Sau đó, tùy theo ngưỡng lựa chọn, xác suất này sẽ được chuyển thành kết quả phân loại.
Khi tìm hiểu hồi quy logistic là gì, bạn có thể hình dung đây là công cụ trả lời cho câu hỏi: với những đặc điểm đầu vào đang có, khả năng xảy ra kết quả Y = 1 là bao nhiêu? Trong nhiều nghiên cứu, Y = 1 thường được quy ước là có sự kiện xảy ra, còn Y = 0 là không xảy ra.
| Nội dung | Mô tả ngắn gọn |
|---|---|
| Mục tiêu | Ước lượng xác suất xảy ra của một sự kiện |
| Loại biến phụ thuộc | Biến phân loại, thường là nhị phân 0/1 |
| Đầu ra | Xác suất nằm trong khoảng từ 0 đến 1 |
| Ứng dụng | Dự đoán và phân loại trong nhiều lĩnh vực thực tiễn |
Công thức cốt lõi của hồi quy logistic
Về mặt toán học, mô hình này biểu diễn xác suất thông qua hàm sigmoid. Công thức thường được trình bày như sau:
P(Y=1|X) = 1 / (1 + e-(β₀ + β₁X₁ + β₂X₂ + … + βkXk))
Ngoài cách viết theo xác suất, mô hình còn được diễn đạt dưới dạng logit:
log(p / (1-p)) = β₀ + β₁X₁ + β₂X₂ + … + βkXk
Dạng logit cho thấy mô hình không trực tiếp ước lượng xác suất theo đường thẳng, mà ước lượng log-odds của sự kiện. Đây là nền tảng để diễn giải ý nghĩa hệ số hồi quy logistic. Cụ thể, nếu một biến tăng thêm 1 đơn vị thì log-odds của sự kiện sẽ thay đổi một lượng bằng hệ số của biến đó, trong điều kiện các biến còn lại không đổi.
Ý nghĩa hệ số hồi quy logistic
Một trong những ưu điểm lớn nhất của mô hình này là khả năng giải thích hệ số tương đối rõ ràng. Khi lấy số mũ của hệ số β, ta thu được Exp(B), hay còn gọi là odds ratio. Đây là chỉ số được dùng rất nhiều khi đọc output phần mềm.
| Giá trị OR | Cách hiểu |
|---|---|
| OR > 1 | Biến độc lập làm tăng khả năng xảy ra sự kiện |
| OR < 1 | Biến độc lập làm giảm khả năng xảy ra sự kiện |
| OR = 1 | Biến gần như không làm thay đổi odds |
Chẳng hạn, nếu Exp(B) của biến thu nhập bằng 1.4, có thể hiểu rằng khi thu nhập tăng thêm 1 đơn vị đo lường, odds xảy ra sự kiện tăng khoảng 40%, nếu các điều kiện khác giữ nguyên. Đây chính là phần cốt lõi trong ý nghĩa hệ số hồi quy logistic mà người học cần nắm chắc khi phân tích kết quả.
Khi nào nên sử dụng hồi quy logistic?
Mô hình này phù hợp nhất khi biến phụ thuộc là biến định tính hoặc biến phân loại. Dạng phổ biến nhất là phân tích hồi quy logistic nhị phân, nghĩa là kết quả chỉ có hai trạng thái như có hoặc không, đạt hoặc không đạt, chấp nhận hoặc từ chối. Đây là loại thường gặp nhất trong SPSS và trong nghiên cứu ứng dụng.
Ngoài biến nhị phân, mô hình logistic còn có thể mở rộng cho trường hợp nhiều nhóm không có thứ tự hoặc nhiều nhóm có thứ bậc. Tuy vậy, khi người dùng mới bắt đầu học logistic regression spss, dạng nhị phân vẫn là lựa chọn dễ tiếp cận và được sử dụng nhiều nhất.
| Loại mô hình | Đặc điểm | Ví dụ |
|---|---|---|
| Nhị phân | Biến phụ thuộc có 2 nhóm | Mua/không mua, đậu/rớt, có bệnh/không bệnh |
| Đa thức | Biến phụ thuộc có nhiều nhóm rời nhau | Chọn thương hiệu A/B/C |
| Thứ bậc | Các nhóm có trật tự | Kém, trung bình, khá, tốt |
Vì sao hồi quy logistic được dùng phổ biến?
Lý do đầu tiên là mô hình khá đơn giản và dễ triển khai. Người dùng không cần một hệ thống quá phức tạp để huấn luyện mô hình. Lý do thứ hai là kết quả dễ giải thích, phù hợp với môi trường nghiên cứu học thuật lẫn doanh nghiệp. Lý do thứ ba là mô hình chạy nhanh, ít tốn tài nguyên và có thể hoạt động tốt với dữ liệu cỡ vừa hoặc khá lớn.
Chính vì vậy, trong nhiều dự án phân tích dữ liệu, hồi quy logistic thường được dùng như một mô hình chuẩn ban đầu để so sánh với các mô hình nâng cao hơn. Nếu một mô hình phức tạp không cải thiện rõ rệt so với mô hình cơ bản, người phân tích vẫn có thể chọn giải pháp logistic vì tính minh bạch và chi phí vận hành thấp hơn.
Cách chạy hồi quy logistic trong SPSS

Nếu bạn đang tìm cách chạy hồi quy logistic trên SPSS, quy trình thao tác không quá phức tạp. Trước hết, vào menu Analyze, chọn Regression, sau đó chọn Binary Logistic. Tiếp theo, đưa biến phụ thuộc dạng nhị phân vào ô Dependent. Các biến độc lập liên tục được đưa vào ô Covariates, còn các biến định tính được khai báo tại mục Factor(s).
Thông thường, phương pháp Enter được dùng nhiều vì giúp đưa toàn bộ biến vào mô hình cùng lúc. Một số người chọn Stepwise để tự động chọn biến, nhưng cách này cần dùng thận trọng vì dễ dẫn đến mô hình thiếu ổn định nếu chỉ dựa vào thống kê mà bỏ qua ý nghĩa lý thuyết.
| Bước | Thao tác trong SPSS | Mục đích |
|---|---|---|
| 1 | Analyze → Regression → Binary Logistic | Mở hộp thoại chạy mô hình |
| 2 | Đưa biến phụ thuộc vào Dependent | Xác định biến kết quả cần dự đoán |
| 3 | Đưa biến độc lập vào Covariates hoặc Factor(s) | Chọn biến giải thích phù hợp |
| 4 | Chọn Method và thiết lập Options | Thiết lập cách chạy và hiển thị kết quả |
| 5 | Nhấn OK | Xuất output để phân tích |
Khi chạy logistic regression spss, bạn nên bật khoảng tin cậy cho Exp(B) để dễ diễn giải odds ratio. Nếu cần dự đoán xác suất cho từng quan sát, có thể lưu thêm Probabilities trong phần Save.
Cách đọc kết quả logistic regression
Muốn hiểu đúng mô hình, bạn cần biết cách đọc kết quả logistic regression thay vì chỉ nhìn vào một bảng duy nhất. Trong output SPSS, có một số bảng quan trọng mà người phân tích nên xem theo thứ tự.
| Bảng kết quả | Nội dung cần chú ý | Ý nghĩa |
|---|---|---|
| Omnibus Tests of Model Coefficients | Sig. | Kiểm tra mô hình tổng thể có ý nghĩa hay không |
| Model Summary | -2 Log Likelihood, Cox & Snell R², Nagelkerke R² | Đánh giá khả năng giải thích tương đối của mô hình |
| Hosmer and Lemeshow Test | Sig. | Xem mô hình có phù hợp với dữ liệu hay không |
| Variables in the Equation | B, S.E., Wald, Sig., Exp(B) | Xác định biến nào có ảnh hưởng và ảnh hưởng theo hướng nào |
| Classification Table | Tỷ lệ dự đoán đúng | Đánh giá mức phân loại chính xác của mô hình |
Trong đó, bảng Variables in the Equation là nơi quan trọng nhất để phân tích tác động của từng biến. Nếu Sig. nhỏ hơn mức ý nghĩa lựa chọn, bạn có thể kết luận biến đó có ảnh hưởng thống kê đến biến phụ thuộc. Sau đó, dựa vào Exp(B), bạn sẽ diễn giải hướng và mức độ tác động.
Một số lưu ý khi xây dựng mô hình
Khi thực hiện hồi quy logistic, người dùng thường gặp một số vấn đề như mã hóa biến danh mục chưa đúng, đa cộng tuyến giữa các biến độc lập, dữ liệu mất cân bằng lớp hoặc biến có thang đo quá chênh lệch. Những yếu tố này có thể làm mô hình hội tụ kém hoặc làm kết quả khó diễn giải.
Vì vậy, trước khi chạy mô hình, bạn nên làm sạch dữ liệu, xác định rõ nhóm tham chiếu cho biến giả, kiểm tra mối liên hệ giữa các biến và cân nhắc chuẩn hóa trong trường hợp cần thiết. Với các bài toán mà số lượng mẫu ở một nhóm quá ít so với nhóm còn lại, kết quả dự báo cũng cần được xem xét cẩn thận hơn.
Ví dụ hồi quy logistic trong thực tế
Một ví dụ hồi quy logistic đơn giản là dự đoán khả năng khách hàng nhấp mua sản phẩm dựa trên thời gian ở lại website và số lượng sản phẩm đã xem. Khi chạy mô hình, nếu hệ số của thời gian trên trang là dương và có ý nghĩa thống kê, điều này cho thấy người dùng ở lại càng lâu thì khả năng mua càng tăng. Nếu Exp(B) của số lượng sản phẩm là 1.35 thì có thể hiểu rằng mỗi sản phẩm bổ sung được xem sẽ làm odds mua hàng tăng thêm khoảng 35%, với các điều kiện khác không đổi.
Trong thực tế, sau khi xây dựng mô hình, người phân tích không nên chỉ dừng ở tỷ lệ dự đoán đúng. Cần xem thêm các chỉ số khác như khả năng phân biệt lớp, mức độ cân bằng giữa precision và recall, hoặc mức độ phù hợp của xác suất dự báo so với dữ liệu thực tế.
Ứng dụng của hồi quy logistic trong phân tích dữ liệu
Mô hình này có thể được ứng dụng trong rất nhiều tình huống. Trong marketing, nó được dùng để dự đoán khách hàng mua hoặc không mua. Trong tài chính, nó hỗ trợ dự đoán khách hàng có khả năng vỡ nợ hay không. Trong y tế, nó được sử dụng để ước lượng khả năng mắc bệnh dựa trên các chỉ số lâm sàng. Trong giáo dục, nó có thể dự đoán sinh viên có hoàn thành môn học hay không.
Nhờ vừa dễ hiểu vừa dễ triển khai, hồi quy logistic vẫn là công cụ có giá trị bền vững trong hệ thống phân tích dữ liệu hiện đại. Ngay cả khi bạn sau đó dùng các mô hình phức tạp hơn, việc bắt đầu bằng mô hình này vẫn giúp tạo nền tảng diễn giải rõ ràng và có tính đối chiếu tốt.
Kết luận
Hồi quy logistic là một mô hình rất quan trọng khi cần dự đoán xác suất và phân loại kết quả từ dữ liệu. Điểm mạnh của nó nằm ở sự cân bằng giữa hiệu quả phân tích, tốc độ xử lý và khả năng giải thích. Từ việc hiểu công thức logit, odds ratio đến thao tác thực hành trong SPSS, người học có thể áp dụng mô hình này vào nhiều bài toán nghiên cứu và ứng dụng thực tế.
Nếu muốn xây dựng mô hình tốt, bạn cần chú ý từ khâu tiền xử lý dữ liệu, lựa chọn biến, cách chạy hồi quy logistic đến cách đọc kết quả logistic regression một cách có hệ thống. Đây vẫn là một trong những mô hình nền tảng đáng học nhất đối với bất kỳ ai làm việc trong lĩnh vực thống kê và phân tích dữ liệu. Nếu cần thêm tài liệu thực hành, bạn có thể tham khảo tại chayspss.
Chạy Phần Mềm: Hỗ trợ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS
Xử Lý Số Liệu: Hỗ trợ xử lý số liệu SPSS
