Trong phân tích dữ liệu định tính, một câu hỏi rất thường gặp là: hai biến phân loại có đang liên hệ với nhau hay không? Khi cần trả lời dạng câu hỏi này, người nghiên cứu thường dùng chi square test. Đây là một kỹ thuật thống kê quen thuộc trong các bài khảo sát, nghiên cứu hành vi, giáo dục, y tế, marketing và nhiều lĩnh vực xã hội khác. Điểm mạnh của phương pháp này là dễ áp dụng, dễ chạy trên SPSS và phù hợp với dữ liệu dạng nhóm như giới tính, nghề nghiệp, năm học, nơi ở, tình trạng hôn nhân hoặc mức độ lựa chọn.
Về bản chất, kiểm định chi bình phương giúp so sánh giữa tần số quan sát thực tế và tần số kỳ vọng nếu các nhóm không có mối liên hệ. Khi chênh lệch giữa hai mức này đủ lớn, ta có cơ sở thống kê để kết luận rằng các biến không độc lập với nhau. Tuy nhiên, phương pháp này chỉ cho biết có liên hệ hay không, chứ không chứng minh được quan hệ nhân quả.
Bài viết dưới đây trình bày lại toàn bộ nội dung theo hướng dễ hiểu, đi thẳng vào thao tác thực hành, cách tính chi square, cách đọc output và những lỗi phổ biến khi dùng chi square trong SPSS. Nếu bạn đang cần một hướng dẫn rõ ràng để làm bài nghiên cứu hoặc khóa luận, đây là phần kiến thức nên nắm thật chắc.
Chi-Square Test là gì và dùng để làm gì?
| Nội dung | Giải thích |
|---|---|
| Khái niệm | Chi square test là kiểm định dùng cho dữ liệu phân loại nhằm xem các nhóm có phân bố giống kỳ vọng hay không. |
| Mục tiêu phổ biến | Đánh giá mối liên hệ giữa hai biến định tính hoặc kiểm tra một phân bố quan sát có khớp với phân bố mong đợi hay không. |
| Dạng thường gặp | chi-square test of independence và chi square goodness of fit. |
| Ý nghĩa chi square | Nếu p-value nhỏ hơn hoặc bằng mức ý nghĩa lựa chọn, thường là 0.05, ta bác bỏ giả thuyết không và kết luận có sự liên hệ hoặc có sự khác biệt so với kỳ vọng. |
| Lưu ý | Kiểm định này không cho phép kết luận nguyên nhân gây ra kết quả. |
Trong thực tế, người học thường gặp nhất là chi-square test of independence, tức kiểm định xem hai biến phân loại có độc lập nhau không. Ví dụ, bạn có thể muốn biết giới tính có liên hệ với thói quen hút thuốc hay không, hoặc năm học có liên hệ với việc ở ký túc xá hay không. Còn chi square goodness of fit lại phù hợp khi bạn chỉ có một biến và muốn xem phân bố thực tế của nó có giống với phân bố kỳ vọng ban đầu hay không.
Điều kiện áp dụng và các trường hợp nên đổi kiểm định
Không phải bộ dữ liệu nào cũng phù hợp để chạy kiểm định chi bình phương. Trước khi thao tác trên SPSS, bạn nên kiểm tra dữ liệu theo các điều kiện dưới đây.
| Tiêu chí | Yêu cầu |
|---|---|
| Loại biến | Cả hai biến đều phải là biến phân loại, mỗi biến có ít nhất 2 nhóm. |
| Tính độc lập | Mỗi quan sát phải độc lập, một đối tượng không được lặp lại nhiều lần trong cùng phép kiểm định. |
| Tần số kỳ vọng | Mỗi ô nên có giá trị kỳ vọng từ 1 trở lên và tối thiểu 80% số ô có kỳ vọng từ 5 trở lên. |
Nếu dữ liệu là dạng cặp trước và sau trên cùng một đối tượng, bạn không nên dùng phương pháp này mà nên cân nhắc McNemar. Nếu bảng 2×2 có nhiều ô kỳ vọng nhỏ, Fisher’s Exact Test thường phù hợp hơn. Đây là điểm rất nhiều người bỏ qua, dẫn đến kết luận sai dù thao tác phần mềm đúng.
Giả thuyết trong kiểm định
| Loại giả thuyết | Nội dung |
|---|---|
| H0 | Biến A độc lập với biến B, tức không có liên hệ giữa hai biến. |
| H1 | Biến A không độc lập với biến B, tức tồn tại mối liên hệ. |
Khi p-value nhỏ hơn hoặc bằng mức ý nghĩa, ta bác bỏ H0. Khi đó, kết luận được đưa ra là có bằng chứng thống kê cho thấy hai biến có liên hệ. Ngược lại, nếu p-value lớn hơn 0.05, dữ liệu chưa đủ mạnh để khẳng định mối liên hệ.
Chi square formula và cách tính
Để hiểu sâu hơn, bạn nên nắm được chi square formula thay vì chỉ đọc output. Công thức tổng quát là:
χ² = ΣΣ ((oij - eij)² / eij)
Trong đó:
| Ký hiệu | Ý nghĩa |
|---|---|
| oij | Tần số quan sát thực tế tại ô hàng i, cột j |
| eij | Tần số kỳ vọng tại ô hàng i, cột j |
Tần số kỳ vọng được tính như sau:
eij = (tổng dòng i × tổng cột j) / tổng chung
Bậc tự do được xác định bằng công thức:
df = (R - 1)(C - 1)
Với R là số hàng và C là số cột. Sau khi tính được giá trị χ², bạn so sánh với phân bố chi-square theo df tương ứng hoặc đọc trực tiếp p-value từ phần mềm. Đây chính là phần cốt lõi của cách tính chi square trong mọi bảng chéo.
Chuẩn bị dữ liệu trước khi chạy trên SPSS
Dữ liệu có thể được đưa vào SPSS theo hai dạng khác nhau. Việc nhập đúng cấu trúc sẽ giúp bạn tránh lỗi ngay từ đầu.
| Dạng dữ liệu | Mô tả | Cách dùng |
|---|---|---|
| Dữ liệu thô | Mỗi dòng đại diện cho một đối tượng | Phổ biến nhất trong khảo sát. Hai cột là hai biến phân loại cần phân tích. |
| Dữ liệu tần số | Mỗi dòng là một tổ hợp nhóm cùng số lần xuất hiện | Cần tạo thêm cột Freq và vào Data > Weight Cases để gán trọng số. |
Nếu bạn đang làm với bảng tổng hợp sẵn, đừng quên bước Weight Cases. Đây là thao tác nhỏ nhưng quyết định việc SPSS hiểu dữ liệu theo từng cá thể hay theo số lượng gộp.


Cách chạy chi square trong SPSS từng bước
| Bước | Thao tác | Mục đích |
|---|---|---|
| B1 | Vào Analyze > Descriptive Statistics > Crosstabs… | Mở hộp thoại phân tích bảng chéo |
| B2 | Đưa một biến vào Row(s), một biến vào Column(s) | Xác định cấu trúc bảng phân tích |
| B3 | Chọn Statistics… rồi tích Chi-square | Yêu cầu SPSS chạy kiểm định |
| B4 | Chọn Cells… rồi tích Observed, Expected và Residuals | Hiển thị tần số quan sát, kỳ vọng và sai lệch theo ô |
| B5 | Có thể bật clustered bar chart nếu cần trực quan hóa | Hỗ trợ diễn giải kết quả |
| B6 | Nhấn OK | Xuất output |
Syntax mẫu có thể viết như sau:
CROSSTABS
/TABLES=VarRow BY VarCol
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ
/CELLS=COUNT EXPECTED RESID
/COUNT ROUND CELL
/BARCHART.
Cách đọc output đúng trọng tâm
Khi chạy chi square trong SPSS, bạn không cần đọc toàn bộ output theo kiểu dàn trải. Chỉ cần tập trung vào ba bảng quan trọng nhất:
| Bảng output | Cần xem gì | Ý nghĩa |
|---|---|---|
| Case Processing Summary | Số quan sát hợp lệ và thiếu | Kiểm tra dữ liệu có bị loại mẫu hay không |
| Crosstabulation | Observed, Expected, Residual | Xem ô nào lệch nhiều so với kỳ vọng |
| Chi-Square Tests | Dòng Pearson Chi-Square | Đọc giá trị χ², df và p-value để kết luận |
Nguyên tắc đọc rất đơn giản: nếu p ≤ 0.05 thì bác bỏ H0; nếu p > 0.05 thì chưa đủ bằng chứng để nói có liên hệ. Đây cũng là phần quan trọng nhất khi giải thích ý nghĩa chi square trong báo cáo nghiên cứu.
Ví dụ chi square test để diễn giải kết quả
Giả sử bạn phân tích mối liên hệ giữa hút thuốc và giới tính trong bảng 3×2. Nếu kết quả cho thấy χ² = 3.171, df = 2, p = 0.205 thì vì p lớn hơn 0.05, ta kết luận chưa có bằng chứng thống kê cho thấy hai biến có liên hệ.
Một ví dụ khác là bảng 2×2 giữa năm học và tình trạng ở ký túc xá. Nếu output trả về χ² = 138.926, df = 1, p < 0.001 thì có thể kết luận hai biến có mối liên hệ rõ rệt về mặt thống kê.
| Tình huống | Kết quả | Diễn giải |
|---|---|---|
| Hút thuốc × Giới tính | χ²(2) = 3.171, p = 0.205 | Chưa thấy mối liên hệ có ý nghĩa thống kê |
| Năm học × Ở ký túc xá | χ²(1) = 138.926, p < 0.001 | Có mối liên hệ có ý nghĩa thống kê |
Khi viết báo cáo, bạn có thể trình bày ngắn gọn như sau: “Không tìm thấy mối liên hệ giữa giới tính và tình trạng hút thuốc, χ²(2) = 3.17, p = .205.” Hoặc: “Có mối liên hệ giữa năm học và nơi ở, χ²(1) = 138.93, p < .001.”
Đo mức độ liên hệ bằng Phi và Cramer’s V
Kiểm định chỉ cho biết có liên hệ hay không, nhưng chưa cho biết mức độ mạnh yếu của liên hệ đó. Vì vậy, khi kết quả có ý nghĩa, bạn nên báo thêm Phi hoặc Cramer’s V. Với bảng 2×2 thường dùng Phi, còn bảng lớn hơn 2×2 nên dùng Cramer’s V.
| Chỉ số | Khi nào dùng | Gợi ý diễn giải |
|---|---|---|
| Phi | Bảng 2×2 | Khoảng 0.1 là nhỏ, 0.3 là trung bình, 0.5 là lớn |
| Cramer’s V | Bảng lớn hơn 2×2 | Dùng để mô tả độ mạnh của mối liên hệ |
Trong SPSS, bạn chỉ cần vào Statistics và tích Nominal để lấy hai chỉ số này.
Chi square goodness of fit là gì?
Khác với trường hợp hai biến, chi square goodness of fit được dùng khi bạn chỉ có một biến phân loại và muốn kiểm tra xem tần suất thực tế có phù hợp với phân bố kỳ vọng hay không. Ví dụ, bạn kỳ vọng tỷ lệ khách hàng chọn 4 thương hiệu là như nhau, nhưng dữ liệu khảo sát thực tế lại phân bố lệch. Lúc đó, kiểm định này sẽ giúp xác định sự lệch đó có đáng kể về mặt thống kê hay không.
Về nguyên lý, công thức vẫn giống chi square formula, nhưng bậc tự do được tính là df = k – 1, với k là số nhóm. Trên SPSS, bạn có thể chạy bằng đường dẫn Analyze > Nonparametric Tests > Legacy Dialogs > Chi-Square…
Những lỗi thường gặp khi dùng kiểm định chi bình phương
| Lỗi | Hệ quả | Cách xử lý |
|---|---|---|
| Nhiều ô có kỳ vọng quá nhỏ | Kết quả Pearson có thể kém tin cậy | Gộp nhóm hiếm, tăng cỡ mẫu hoặc dùng Fisher với bảng 2×2 |
| Dữ liệu không độc lập | Vi phạm giả định của kiểm định | Dùng McNemar nếu là dữ liệu cặp |
| Biến có thứ bậc nhưng xử lý như danh mục đơn thuần | Dễ làm mất thông tin xu hướng | Cân nhắc kiểm định xu thế hoặc mô hình phù hợp hơn |
| Hiểu sai kết quả thành quan hệ nhân quả | Kết luận vượt quá phạm vi kiểm định | Chỉ phát biểu có hay không có liên hệ |
Checklist ngắn gọn trước khi kết luận
| Bước rà soát | Nội dung cần kiểm tra |
|---|---|
| 1 | Xác nhận hai biến đều là categorical |
| 2 | Kiểm tra tính độc lập giữa các quan sát |
| 3 | Xem điều kiện về tần số kỳ vọng của các ô |
| 4 | Đọc đúng dòng Pearson Chi-Square trong output |
| 5 | Nếu bảng 2×2 có ô nhỏ, cân nhắc Fisher |
| 6 | Nếu kết quả có ý nghĩa, báo thêm Phi hoặc Cramer’s V |
Tóm lại, chi square test là công cụ rất hữu ích khi bạn cần kiểm tra mối liên hệ giữa các biến phân loại hoặc đối chiếu phân bố quan sát với phân bố kỳ vọng. Điểm quan trọng không nằm ở việc bấm đúng lệnh SPSS, mà ở chỗ hiểu điều kiện áp dụng, đọc đúng p-value, nhận diện trường hợp ngoại lệ và diễn giải kết quả đúng bản chất thống kê. Khi nắm chắc các bước này, bạn sẽ xử lý bảng chéo nhanh hơn, viết báo cáo chuẩn hơn và tránh được các lỗi lập luận thường gặp trong nghiên cứu.
Trong trường hợp bạn cần chuẩn hóa dữ liệu, dựng bảng chéo, kiểm tra chi-square test of independence, thực hiện chi square goodness of fit hoặc trình bày kết quả học thuật rõ ràng hơn, có thể tham khảo thêm nội dung hỗ trợ từ chayspss.
Chạy Phần Mềm: Hỗ trợ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS
Xử Lý Số Liệu: Hỗ trợ xử lý số liệu SPSS
