Trong phân tích dữ liệu định tính, một câu hỏi rất thường gặp là: hai biến phân loại có đang liên hệ với nhau hay không? Khi cần trả lời dạng câu hỏi này, người nghiên cứu thường dùng chi square test. Đây là một kỹ thuật thống kê quen thuộc trong các bài khảo sát, nghiên cứu hành vi, giáo dục, y tế, marketing và nhiều lĩnh vực xã hội khác. Điểm mạnh của phương pháp này là dễ áp dụng, dễ chạy trên SPSS và phù hợp với dữ liệu dạng nhóm như giới tính, nghề nghiệp, năm học, nơi ở, tình trạng hôn nhân hoặc mức độ lựa chọn.

Về bản chất, kiểm định chi bình phương giúp so sánh giữa tần số quan sát thực tế và tần số kỳ vọng nếu các nhóm không có mối liên hệ. Khi chênh lệch giữa hai mức này đủ lớn, ta có cơ sở thống kê để kết luận rằng các biến không độc lập với nhau. Tuy nhiên, phương pháp này chỉ cho biết có liên hệ hay không, chứ không chứng minh được quan hệ nhân quả.

Bài viết dưới đây trình bày lại toàn bộ nội dung theo hướng dễ hiểu, đi thẳng vào thao tác thực hành, cách tính chi square, cách đọc output và những lỗi phổ biến khi dùng chi square trong SPSS. Nếu bạn đang cần một hướng dẫn rõ ràng để làm bài nghiên cứu hoặc khóa luận, đây là phần kiến thức nên nắm thật chắc.

Chi-Square Test là gì và dùng để làm gì?

Nội dungGiải thích
Khái niệmChi square test là kiểm định dùng cho dữ liệu phân loại nhằm xem các nhóm có phân bố giống kỳ vọng hay không.
Mục tiêu phổ biếnĐánh giá mối liên hệ giữa hai biến định tính hoặc kiểm tra một phân bố quan sát có khớp với phân bố mong đợi hay không.
Dạng thường gặpchi-square test of independence và chi square goodness of fit.
Ý nghĩa chi squareNếu p-value nhỏ hơn hoặc bằng mức ý nghĩa lựa chọn, thường là 0.05, ta bác bỏ giả thuyết không và kết luận có sự liên hệ hoặc có sự khác biệt so với kỳ vọng.
Lưu ýKiểm định này không cho phép kết luận nguyên nhân gây ra kết quả.

Trong thực tế, người học thường gặp nhất là chi-square test of independence, tức kiểm định xem hai biến phân loại có độc lập nhau không. Ví dụ, bạn có thể muốn biết giới tính có liên hệ với thói quen hút thuốc hay không, hoặc năm học có liên hệ với việc ở ký túc xá hay không. Còn chi square goodness of fit lại phù hợp khi bạn chỉ có một biến và muốn xem phân bố thực tế của nó có giống với phân bố kỳ vọng ban đầu hay không.

Điều kiện áp dụng và các trường hợp nên đổi kiểm định

Không phải bộ dữ liệu nào cũng phù hợp để chạy kiểm định chi bình phương. Trước khi thao tác trên SPSS, bạn nên kiểm tra dữ liệu theo các điều kiện dưới đây.

Tiêu chíYêu cầu
Loại biếnCả hai biến đều phải là biến phân loại, mỗi biến có ít nhất 2 nhóm.
Tính độc lậpMỗi quan sát phải độc lập, một đối tượng không được lặp lại nhiều lần trong cùng phép kiểm định.
Tần số kỳ vọngMỗi ô nên có giá trị kỳ vọng từ 1 trở lên và tối thiểu 80% số ô có kỳ vọng từ 5 trở lên.

Nếu dữ liệu là dạng cặp trước và sau trên cùng một đối tượng, bạn không nên dùng phương pháp này mà nên cân nhắc McNemar. Nếu bảng 2×2 có nhiều ô kỳ vọng nhỏ, Fisher’s Exact Test thường phù hợp hơn. Đây là điểm rất nhiều người bỏ qua, dẫn đến kết luận sai dù thao tác phần mềm đúng.

Giả thuyết trong kiểm định

Loại giả thuyếtNội dung
H0Biến A độc lập với biến B, tức không có liên hệ giữa hai biến.
H1Biến A không độc lập với biến B, tức tồn tại mối liên hệ.

Khi p-value nhỏ hơn hoặc bằng mức ý nghĩa, ta bác bỏ H0. Khi đó, kết luận được đưa ra là có bằng chứng thống kê cho thấy hai biến có liên hệ. Ngược lại, nếu p-value lớn hơn 0.05, dữ liệu chưa đủ mạnh để khẳng định mối liên hệ.

Chi square formula và cách tính

Để hiểu sâu hơn, bạn nên nắm được chi square formula thay vì chỉ đọc output. Công thức tổng quát là:

χ² = ΣΣ ((oij - eij)² / eij)

Trong đó:

Ký hiệuÝ nghĩa
oijTần số quan sát thực tế tại ô hàng i, cột j
eijTần số kỳ vọng tại ô hàng i, cột j

Tần số kỳ vọng được tính như sau:

eij = (tổng dòng i × tổng cột j) / tổng chung

Bậc tự do được xác định bằng công thức:

df = (R - 1)(C - 1)

Với R là số hàng và C là số cột. Sau khi tính được giá trị χ², bạn so sánh với phân bố chi-square theo df tương ứng hoặc đọc trực tiếp p-value từ phần mềm. Đây chính là phần cốt lõi của cách tính chi square trong mọi bảng chéo.

Chuẩn bị dữ liệu trước khi chạy trên SPSS

Dữ liệu có thể được đưa vào SPSS theo hai dạng khác nhau. Việc nhập đúng cấu trúc sẽ giúp bạn tránh lỗi ngay từ đầu.

Dạng dữ liệuMô tảCách dùng
Dữ liệu thôMỗi dòng đại diện cho một đối tượngPhổ biến nhất trong khảo sát. Hai cột là hai biến phân loại cần phân tích.
Dữ liệu tần sốMỗi dòng là một tổ hợp nhóm cùng số lần xuất hiệnCần tạo thêm cột Freq và vào Data > Weight Cases để gán trọng số.

Nếu bạn đang làm với bảng tổng hợp sẵn, đừng quên bước Weight Cases. Đây là thao tác nhỏ nhưng quyết định việc SPSS hiểu dữ liệu theo từng cá thể hay theo số lượng gộp.

chi square test
image 42

Cách chạy chi square trong SPSS từng bước

BướcThao tácMục đích
B1Vào Analyze > Descriptive Statistics > Crosstabs…Mở hộp thoại phân tích bảng chéo
B2Đưa một biến vào Row(s), một biến vào Column(s)Xác định cấu trúc bảng phân tích
B3Chọn Statistics… rồi tích Chi-squareYêu cầu SPSS chạy kiểm định
B4Chọn Cells… rồi tích Observed, Expected và ResidualsHiển thị tần số quan sát, kỳ vọng và sai lệch theo ô
B5Có thể bật clustered bar chart nếu cần trực quan hóaHỗ trợ diễn giải kết quả
B6Nhấn OKXuất output

Syntax mẫu có thể viết như sau:

CROSSTABS
  /TABLES=VarRow BY VarCol
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ
  /CELLS=COUNT EXPECTED RESID
  /COUNT ROUND CELL
  /BARCHART.

Cách đọc output đúng trọng tâm

Khi chạy chi square trong SPSS, bạn không cần đọc toàn bộ output theo kiểu dàn trải. Chỉ cần tập trung vào ba bảng quan trọng nhất:

Bảng outputCần xem gìÝ nghĩa
Case Processing SummarySố quan sát hợp lệ và thiếuKiểm tra dữ liệu có bị loại mẫu hay không
CrosstabulationObserved, Expected, ResidualXem ô nào lệch nhiều so với kỳ vọng
Chi-Square TestsDòng Pearson Chi-SquareĐọc giá trị χ², df và p-value để kết luận

Nguyên tắc đọc rất đơn giản: nếu p ≤ 0.05 thì bác bỏ H0; nếu p > 0.05 thì chưa đủ bằng chứng để nói có liên hệ. Đây cũng là phần quan trọng nhất khi giải thích ý nghĩa chi square trong báo cáo nghiên cứu.

Ví dụ chi square test để diễn giải kết quả

Giả sử bạn phân tích mối liên hệ giữa hút thuốc và giới tính trong bảng 3×2. Nếu kết quả cho thấy χ² = 3.171, df = 2, p = 0.205 thì vì p lớn hơn 0.05, ta kết luận chưa có bằng chứng thống kê cho thấy hai biến có liên hệ.

Một ví dụ khác là bảng 2×2 giữa năm học và tình trạng ở ký túc xá. Nếu output trả về χ² = 138.926, df = 1, p < 0.001 thì có thể kết luận hai biến có mối liên hệ rõ rệt về mặt thống kê.

Tình huốngKết quảDiễn giải
Hút thuốc × Giới tínhχ²(2) = 3.171, p = 0.205Chưa thấy mối liên hệ có ý nghĩa thống kê
Năm học × Ở ký túc xáχ²(1) = 138.926, p < 0.001Có mối liên hệ có ý nghĩa thống kê

Khi viết báo cáo, bạn có thể trình bày ngắn gọn như sau: “Không tìm thấy mối liên hệ giữa giới tính và tình trạng hút thuốc, χ²(2) = 3.17, p = .205.” Hoặc: “Có mối liên hệ giữa năm học và nơi ở, χ²(1) = 138.93, p < .001.”

Đo mức độ liên hệ bằng Phi và Cramer’s V

Kiểm định chỉ cho biết có liên hệ hay không, nhưng chưa cho biết mức độ mạnh yếu của liên hệ đó. Vì vậy, khi kết quả có ý nghĩa, bạn nên báo thêm Phi hoặc Cramer’s V. Với bảng 2×2 thường dùng Phi, còn bảng lớn hơn 2×2 nên dùng Cramer’s V.

Chỉ sốKhi nào dùngGợi ý diễn giải
PhiBảng 2×2Khoảng 0.1 là nhỏ, 0.3 là trung bình, 0.5 là lớn
Cramer’s VBảng lớn hơn 2×2Dùng để mô tả độ mạnh của mối liên hệ

Trong SPSS, bạn chỉ cần vào Statistics và tích Nominal để lấy hai chỉ số này.

Chi square goodness of fit là gì?

Khác với trường hợp hai biến, chi square goodness of fit được dùng khi bạn chỉ có một biến phân loại và muốn kiểm tra xem tần suất thực tế có phù hợp với phân bố kỳ vọng hay không. Ví dụ, bạn kỳ vọng tỷ lệ khách hàng chọn 4 thương hiệu là như nhau, nhưng dữ liệu khảo sát thực tế lại phân bố lệch. Lúc đó, kiểm định này sẽ giúp xác định sự lệch đó có đáng kể về mặt thống kê hay không.

Về nguyên lý, công thức vẫn giống chi square formula, nhưng bậc tự do được tính là df = k – 1, với k là số nhóm. Trên SPSS, bạn có thể chạy bằng đường dẫn Analyze > Nonparametric Tests > Legacy Dialogs > Chi-Square…

Những lỗi thường gặp khi dùng kiểm định chi bình phương

LỗiHệ quảCách xử lý
Nhiều ô có kỳ vọng quá nhỏKết quả Pearson có thể kém tin cậyGộp nhóm hiếm, tăng cỡ mẫu hoặc dùng Fisher với bảng 2×2
Dữ liệu không độc lậpVi phạm giả định của kiểm địnhDùng McNemar nếu là dữ liệu cặp
Biến có thứ bậc nhưng xử lý như danh mục đơn thuầnDễ làm mất thông tin xu hướngCân nhắc kiểm định xu thế hoặc mô hình phù hợp hơn
Hiểu sai kết quả thành quan hệ nhân quảKết luận vượt quá phạm vi kiểm địnhChỉ phát biểu có hay không có liên hệ

Checklist ngắn gọn trước khi kết luận

Bước rà soátNội dung cần kiểm tra
1Xác nhận hai biến đều là categorical
2Kiểm tra tính độc lập giữa các quan sát
3Xem điều kiện về tần số kỳ vọng của các ô
4Đọc đúng dòng Pearson Chi-Square trong output
5Nếu bảng 2×2 có ô nhỏ, cân nhắc Fisher
6Nếu kết quả có ý nghĩa, báo thêm Phi hoặc Cramer’s V

Tóm lại, chi square test là công cụ rất hữu ích khi bạn cần kiểm tra mối liên hệ giữa các biến phân loại hoặc đối chiếu phân bố quan sát với phân bố kỳ vọng. Điểm quan trọng không nằm ở việc bấm đúng lệnh SPSS, mà ở chỗ hiểu điều kiện áp dụng, đọc đúng p-value, nhận diện trường hợp ngoại lệ và diễn giải kết quả đúng bản chất thống kê. Khi nắm chắc các bước này, bạn sẽ xử lý bảng chéo nhanh hơn, viết báo cáo chuẩn hơn và tránh được các lỗi lập luận thường gặp trong nghiên cứu.

Trong trường hợp bạn cần chuẩn hóa dữ liệu, dựng bảng chéo, kiểm tra chi-square test of independence, thực hiện chi square goodness of fit hoặc trình bày kết quả học thuật rõ ràng hơn, có thể tham khảo thêm nội dung hỗ trợ từ chayspss.

Chạy Phần Mềm: Hỗ trợ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS

Xử Lý Số Liệu: Hỗ trợ xử lý số liệu SPSS

Bài viết này hữu ích với bạn?

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *