Trong phân tích dữ liệu, không hiếm trường hợp xuất hiện một vài giá trị khác biệt rõ rệt so với phần lớn quan sát còn lại. Chính những điểm này khiến nhiều người bắt đầu tìm hiểu outlier là gì và vì sao chúng có thể ảnh hưởng mạnh đến kết quả phân tích. Trên thực tế, dữ liệu ngoại lai không chỉ là những giá trị bất thường về mặt hình thức, mà còn có thể làm thay đổi trung bình, độ phân tán, xu hướng mô hình và cả kết luận cuối cùng nếu không được xem xét cẩn thận.
Hiểu đúng outlier là gì giúp người làm dữ liệu tránh được hai sai lầm phổ biến. Sai lầm thứ nhất là giữ nguyên mọi giá trị bất thường, khiến kết quả bị lệch. Sai lầm thứ hai là xóa bỏ quá nhanh các điểm ngoại lệ dù chúng có thể chứa thông tin rất có giá trị. Có những trường hợp giá trị ngoại lai xuất hiện do lỗi nhập liệu, sai số đo lường hoặc sự cố kỹ thuật. Nhưng cũng có khi đó là dấu hiệu của một hiện tượng hiếm, một nhóm khách hàng đặc biệt hoặc một biến động đáng chú ý trong thực tế. Vì vậy, điều quan trọng không phải là thấy điểm bất thường rồi loại bỏ ngay, mà là phải hiểu đúng bản chất của nó trước khi xử lý.
Outlier là gì?
Outlier là những giá trị nằm cách xa đáng kể so với phần lớn dữ liệu còn lại trong cùng một tập dữ liệu. Nói đơn giản hơn, đây là các điểm dữ liệu không đi theo quy luật chung của đa số quan sát. Chúng có thể cao vượt trội hoặc thấp bất thường, tạo cảm giác “lạc lõng” khi đặt cạnh các giá trị còn lại.
| Nội dung | Giải thích ngắn gọn |
|---|---|
| Outlier là gì | Là những giá trị nằm cách xa phần lớn dữ liệu còn lại trong cùng một tập dữ liệu |
| Tên gọi khác | Thường được gọi là giá trị ngoại lai hoặc điểm ngoại lệ |
| Nguyên nhân xuất hiện | Có thể đến từ lỗi nhập liệu, sai số đo lường, biến cố bất thường hoặc hiện tượng hiếm trong thực tế |
| Tác động | Có thể làm lệch kết quả phân tích, nhưng cũng có thể mang lại insight quan trọng nếu được hiểu đúng |
Ví dụ, nếu bạn đang phân tích tuổi của người tham gia khảo sát và phát hiện một giá trị 470 tuổi, gần như chắc chắn đây là lỗi nhập liệu. Ngược lại, nếu bạn phân tích doanh thu khách hàng và có một người chi tiêu gấp nhiều lần số đông, đó có thể là khách hàng VIP chứ không hẳn là dữ liệu sai. Vì vậy, cùng là điểm ngoại lệ nhưng ý nghĩa của chúng có thể hoàn toàn khác nhau.
Vì sao cần quan tâm đến dữ liệu ngoại lai?
Một tập dữ liệu sạch luôn là nền tảng của phân tích chính xác. Trong thực tế, người làm dữ liệu dành rất nhiều thời gian cho bước tiền xử lý, và một phần quan trọng trong đó là phát hiện và xử lý các giá trị ngoại lai. Nếu bỏ sót các điểm ngoại lệ, mô hình có thể bị méo, chỉ số thống kê bị sai lệch và khả năng dự báo giảm đi đáng kể.
Ngược lại, nếu nhận diện và xử lý hợp lý, bạn sẽ có bộ dữ liệu phản ánh thực tế tốt hơn. Điều đó giúp kết quả phân tích đáng tin cậy hơn và hỗ trợ ra quyết định chính xác hơn. Tuy nhiên, không phải mọi outlier đều nên bị xóa. Một số giá trị bất thường lại chính là nơi chứa thông tin quan trọng về hành vi, rủi ro hoặc cơ hội đặc biệt.
Các nguyên nhân thường làm xuất hiện outlier
Dữ liệu ngoại lai có thể hình thành từ nhiều nguyên nhân khác nhau. Một số trường hợp xuất phát từ lỗi rất cơ bản như nhập sai số, thiếu đơn vị đo hoặc gõ nhầm dấu thập phân. Một số khác đến từ sai số thu thập, lỗi cảm biến hoặc sự cố hệ thống. Ngoài ra, cũng có những outlier phản ánh đúng bản chất của hiện tượng đang nghiên cứu, ví dụ biến động giá mạnh trên thị trường, một bệnh nhân có phản ứng bất thường hoặc một khách hàng có hành vi mua sắm vượt xa số đông.
Vì thế, trước khi quyết định loại bỏ một điểm ngoại lệ, người phân tích cần trả lời được câu hỏi: đây là lỗi dữ liệu hay là tín hiệu có ý nghĩa? Nếu không phân biệt được điều này, việc xử lý có thể làm mất đi những insight quan trọng.
Cách nhận diện outlier bằng quan sát trực tiếp
Phương pháp đơn giản nhất để phát hiện dữ liệu ngoại lai là quan sát trực tiếp trong bảng dữ liệu. Bạn có thể sắp xếp giá trị từ nhỏ đến lớn hoặc ngược lại để nhanh chóng nhận ra những điểm bất thường. Cách này phù hợp khi dữ liệu không quá lớn và giúp phát hiện nhanh các lỗi rõ ràng như tuổi quá cao, doanh thu âm hoặc thời gian bằng 0 trong những tình huống không hợp lý.
Tuy nhiên, khi số lượng quan sát lớn, việc kiểm tra bằng mắt sẽ không còn hiệu quả. Phương pháp này mất thời gian, phụ thuộc nhiều vào kinh nghiệm và không cho bạn một tiêu chuẩn định lượng rõ ràng để xác định đâu là outlier.
Cách phát hiện outlier bằng biểu đồ trực quan
Trực quan hóa dữ liệu là một cách rất hiệu quả để phát hiện các điểm ngoại lệ. Chỉ cần nhìn vào biểu đồ, người phân tích có thể nhanh chóng thấy được những quan sát tách biệt khỏi phần lớn dữ liệu.
| Cách phát hiện | Cách thực hiện | Khi nào nên dùng |
|---|---|---|
| Quan sát trực tiếp | Sắp xếp dữ liệu và kiểm tra các giá trị quá lớn hoặc quá nhỏ | Phù hợp với dữ liệu nhỏ, dễ phát hiện lỗi nhập liệu |
| Biểu đồ boxplot | Quan sát các điểm nằm ngoài râu hộp | Phù hợp để phát hiện nhanh dữ liệu ngoại lai trong biến đơn |
| Histogram | Quan sát các giá trị tách biệt khỏi phần lớn phân phối | Dùng khi muốn nhìn hình dạng phân phối dữ liệu |
| Scatter plot | Xác định các điểm nằm xa cụm dữ liệu chính | Hữu ích trong phân tích đa biến |
Boxplot là công cụ được dùng rất phổ biến vì nó cho thấy ngay những điểm nằm ngoài phạm vi phân bố trung tâm. Histogram giúp bạn nhận ra các giá trị đứng riêng biệt khỏi phần lớn phân phối. Scatter plot lại đặc biệt hữu ích khi muốn phát hiện outlier trong mối quan hệ giữa hai hoặc nhiều biến. Những biểu đồ này không chỉ giúp phát hiện nhanh mà còn hỗ trợ đánh giá mức độ bất thường của từng quan sát.
Các phương pháp thống kê để phát hiện outlier
Khi dữ liệu lớn hơn hoặc cần tiêu chuẩn rõ ràng hơn, các phương pháp thống kê sẽ trở thành lựa chọn phù hợp. Thay vì chỉ nhìn bằng mắt, bạn có thể dùng các chỉ số định lượng để xác định điểm nào thật sự vượt ra khỏi vùng dữ liệu bình thường.
| Phương pháp thống kê | Nguyên tắc | Lưu ý |
|---|---|---|
| Trung bình và độ lệch chuẩn | Xem các điểm vượt quá ngưỡng quanh trung bình là bất thường | Phù hợp hơn với dữ liệu gần phân phối chuẩn |
| Z-score | Đo khoảng cách của một điểm so với trung bình theo đơn vị độ lệch chuẩn | Thường xem |Z| lớn là dấu hiệu của điểm ngoại lệ |
| IQR | Xác định ngưỡng dưới và trên từ Q1, Q3 và khoảng tứ phân vị | Rất phổ biến vì không phụ thuộc mạnh vào phân phối chuẩn |
| Kiểm định giả thuyết | Kiểm tra xem có tồn tại giá trị bất thường trong tập dữ liệu hay không | Cần dùng cẩn thận để tránh nhận diện sai |
Phát hiện outlier bằng trung bình và độ lệch chuẩn

Một cách quen thuộc là dựa vào giá trị trung bình và độ lệch chuẩn. Trong dữ liệu có phân phối gần chuẩn, phần lớn quan sát thường nằm trong khoảng quanh trung bình. Những điểm vượt quá ngưỡng ±2 hoặc ±3 độ lệch chuẩn thường được xem là bất thường.
Ưu điểm của cách này là dễ hiểu và dễ áp dụng. Tuy nhiên, nhược điểm là chính outlier lại có thể làm thay đổi trung bình và độ lệch chuẩn, khiến việc phát hiện không còn chính xác tuyệt đối. Vì vậy, phương pháp này phù hợp hơn khi dữ liệu không bị lệch quá mạnh.
Sử dụng Z-score để xác định điểm ngoại lệ
Z-score cho biết một điểm dữ liệu đang cách giá trị trung bình bao nhiêu độ lệch chuẩn. Nếu trị tuyệt đối của Z-score lớn, điểm đó càng bất thường. Trong thực hành, nhiều người xem |Z| từ 3 trở lên là dấu hiệu rõ ràng của outlier.
Ưu điểm của Z-score là đơn giản, dễ tính và giúp so sánh mức độ bất thường giữa các điểm dữ liệu. Tuy nhiên, cũng giống như phương pháp dựa vào trung bình, Z-score hoạt động tốt hơn khi dữ liệu có dạng gần phân phối chuẩn.
Phương pháp IQR trong phát hiện dữ liệu ngoại lai
Một trong những cách được sử dụng rộng rãi nhất là phương pháp IQR. Cách này dựa trên tứ phân vị thứ nhất, tứ phân vị thứ ba và khoảng tứ phân vị để xác định vùng dữ liệu bình thường. Những giá trị nằm ngoài khoảng này sẽ được xem là dữ liệu ngoại lai.
Điểm mạnh lớn nhất của IQR là ít bị ảnh hưởng bởi dữ liệu lệch và không đòi hỏi phân phối chuẩn. Chính vì vậy, trong nhiều bài phân tích ứng dụng, đây là phương pháp được ưu tiên khi cần phát hiện outlier một cách thực tế và ổn định hơn.
Kiểm định giả thuyết để tìm outlier
Ngoài các cách trên, người phân tích còn có thể dùng các kiểm định giả thuyết để xác định điểm ngoại lệ. Một ví dụ quen thuộc là Grubbs’ Test. Phương pháp này giúp đánh giá xem có tồn tại một giá trị bất thường đáng kể trong tập dữ liệu hay không.
Tuy nhiên, việc dùng kiểm định cần thận trọng. Nếu áp dụng không đúng, bạn có thể bỏ sót điểm bất thường thật sự hoặc ngược lại, gắn nhầm nhãn outlier cho những giá trị vốn hợp lý. Vì vậy, kiểm định giả thuyết thường phù hợp hơn khi người phân tích đã hiểu khá rõ cấu trúc dữ liệu.
Cách xử lý outlier trong phân tích dữ liệu
Sau khi phát hiện, câu hỏi tiếp theo là nên xử lý như thế nào. Không có một công thức chung cho mọi trường hợp, vì cách xử lý phụ thuộc vào bản chất dữ liệu, mục tiêu nghiên cứu và ý nghĩa nghiệp vụ của từng quan sát.
| Cách xử lý | Khi nên áp dụng | Mục tiêu |
|---|---|---|
| Loại bỏ | Khi chắc chắn là lỗi dữ liệu hoặc không đại diện cho hiện tượng nghiên cứu | Giảm sai lệch kết quả phân tích |
| Biến đổi dữ liệu | Khi muốn giảm ảnh hưởng nhưng vẫn giữ quan sát | Làm dữ liệu ổn định hơn |
| Thay bằng trung vị | Khi cần làm mềm ảnh hưởng của giá trị quá cực đoan | Giữ dữ liệu nhưng hạn chế lệch phân phối |
| Dùng mô hình robust | Khi outlier tồn tại nhưng không muốn can thiệp mạnh vào dữ liệu gốc | Tăng độ bền của mô hình |
| Giữ lại để phân tích | Khi giá trị phản ánh hiện tượng hiếm nhưng có ý nghĩa | Khai thác insight thay vì xem là nhiễu |
Nếu điểm ngoại lệ xuất hiện do lỗi nhập liệu hoặc sai số đo lường, loại bỏ thường là cách hợp lý. Nếu dữ liệu là hợp lệ nhưng quá cực đoan, bạn có thể cân nhắc biến đổi dữ liệu bằng log hoặc các phép biến đổi khác để giảm tác động của nó. Trong một số trường hợp, thay thế bằng trung vị sẽ giúp dữ liệu bớt méo hơn mà vẫn giữ được cấu trúc chung. Ngoài ra, các mô hình robust như robust regression, decision tree hoặc random forest cũng là lựa chọn tốt khi không muốn can thiệp quá mạnh vào dữ liệu gốc.
Khi nào không nên loại bỏ outlier?
Không phải lúc nào cũng nên xóa điểm ngoại lệ. Có những trường hợp giá trị rất khác số đông nhưng hoàn toàn phản ánh đúng thực tế. Ví dụ, nếu bạn đang phân tích lương trong doanh nghiệp và thấy một giá trị cao gấp nhiều lần phần lớn nhân viên, đó có thể là mức lương của CEO. Đây là quan sát hợp lệ và có ý nghĩa, không nên loại bỏ chỉ vì nó khác biệt.
Nếu xóa những giá trị như vậy, mô hình có thể mất tính đại diện và khiến kết quả trở nên thiếu thực tế. Vì vậy, việc xử lý outlier luôn phải gắn với bối cảnh dữ liệu, mục tiêu nghiên cứu và câu hỏi mà bạn đang muốn trả lời.
Kết luận
Khi tìm hiểu outlier là gì, bạn không nên chỉ dừng lại ở khái niệm “giá trị khác biệt”. Điều quan trọng hơn là hiểu rằng những điểm này có thể vừa là nguồn gây sai lệch, vừa là nơi chứa thông tin rất đáng giá. Muốn phân tích dữ liệu chính xác, bạn cần biết cách nhận diện, đánh giá nguyên nhân xuất hiện và chọn hướng xử lý phù hợp thay vì áp dụng máy móc.
Trong thực hành phân tích dữ liệu, kỹ năng làm việc với giá trị ngoại lai là một phần rất quan trọng của quá trình làm sạch dữ liệu và xây dựng mô hình. Khi xử lý đúng, bạn không chỉ nâng cao độ tin cậy của kết quả mà còn có thể phát hiện ra những insight đáng giá để hỗ trợ ra quyết định tốt hơn. Nếu muốn tìm thêm tài liệu thực hành về phân tích dữ liệu, bạn có thể tham khảo tại chayspss.
Hỗ Trợ Chạy Phần Mềm: Dịch vụ chạy phần mềm SPSS, AMOS, SMARTPLS, STATA/ EVIEWS
Hỗ trợ Xử Lý Số Liệu: Dịch vụ xử lý số liệu SPSS
