Trong bối cảnh dữ liệu ngày càng nhiều và phức tạp, việc xử lý những bộ dữ liệu có số chiều lớn đã trở thành một yêu cầu quen thuộc trong nghiên cứu, phân tích và phát triển mô hình học máy. Khi số lượng biến tăng lên quá nhiều, quá trình lưu trữ, trực quan hóa và huấn luyện mô hình thường trở nên nặng nề hơn, thậm chí làm giảm hiệu quả phân tích. Đó là lý do các kỹ thuật giảm chiều ngày càng giữ vai trò quan trọng. Trong số đó, pca là một phương pháp rất phổ biến nhờ khả năng rút gọn dữ liệu nhưng vẫn giữ lại phần lớn thông tin cốt lõi.

Điểm đáng chú ý của phương pháp này nằm ở việc xây dựng một hệ trục mới từ dữ liệu ban đầu. Thay vì làm việc trực tiếp với không gian gốc có quá nhiều chiều, thuật toán sẽ tìm ra những hướng quan trọng nhất, nơi dữ liệu biến thiên mạnh nhất. Bằng cách đó, dữ liệu được biểu diễn gọn hơn mà vẫn phản ánh được cấu trúc chung. Trong thực tế, kỹ thuật này không chỉ xuất hiện trong học máy mà còn được ứng dụng trong nhiều phần mềm thống kê như Phân tích thành phần chính SPSS, hoặc được kết hợp để hỗ trợ diễn giải kết quả qua Biểu đồ Scree, Ma trận tải trọng yếu tố hay các bước tiền xử lý trước Giảm chiều dữ liệu AMOS.

Giới thiệu

Giảm chiều dữ liệu là một trong những hướng xử lý cơ bản trong Machine Learning, đặc biệt khi số lượng biến đầu vào rất lớn. Trong thực tế, một vector đặc trưng có thể chứa hàng trăm, hàng nghìn, thậm chí hàng chục nghìn chiều. Điều này khiến dữ liệu trở nên cồng kềnh, tốn dung lượng lưu trữ, tăng chi phí tính toán và dễ đưa thêm nhiễu không cần thiết vào mô hình. Vì vậy, việc đưa dữ liệu từ không gian có số chiều cao về một không gian nhỏ hơn là bước rất có giá trị.

Về mặt khái quát, giảm chiều là quá trình tìm một phép biến đổi để ánh xạ dữ liệu từ không gian ban đầu có D chiều sang không gian mới có K chiều, trong đó K nhỏ hơn D. Mục tiêu không phải là loại bỏ thông tin một cách tùy ý, mà là giữ lại phần thông tin quan trọng nhất để phục vụ phân tích, dự đoán hoặc trực quan hóa. Trong số các kỹ thuật tuyến tính, pca thường được xem là cách tiếp cận nền tảng vì dễ hiểu, rõ ràng về mặt toán học và có giá trị thực hành cao.

Một chút toán

Norm 2 của ma trận

Để hiểu cơ chế của phương pháp này, cần nhắc lại một số khái niệm tuyến tính cơ bản. Một trong số đó là norm 2 của ma trận, dùng để đo mức tác động lớn nhất của ma trận lên một vector đầu vào. Khi áp điều kiện chuẩn hóa cho vector, bài toán tối ưu này dẫn tới việc giải một phương trình trị riêng đối với ma trận ATA. Từ đó ta thấy rằng giá trị lớn nhất trong phép đo này chính là singular value lớn nhất của ma trận.

Chi tiết này đặc biệt quan trọng vì nó liên hệ trực tiếp với Phân rã giá trị riêng và các bước xác định hướng biến thiên mạnh nhất trong dữ liệu. Nói cách khác, khi muốn tìm các trục mới quan trọng nhất, ta phải quan tâm tới những trị riêng lớn và các vector riêng tương ứng của ma trận liên quan.

Biểu diễn vector trong các hệ cơ sở khác nhau

Một vector trong không gian nhiều chiều có thể được biểu diễn theo nhiều hệ cơ sở khác nhau. Nếu dùng một hệ cơ sở trực chuẩn, ta có thể viết vector dưới dạng tổ hợp tuyến tính của các vector đơn vị mới. Khi đó, phép chuyển từ toạ độ cũ sang toạ độ mới thực chất là một phép quay trục trong không gian. Đây chính là tư tưởng rất gần với pca: thay vì giữ nguyên trục ban đầu, ta tìm một hệ trục khác sao cho dữ liệu được mô tả hiệu quả hơn.

Khi ma trận cơ sở là trực giao, phép biến đổi ngược trở nên đơn giản vì nghịch đảo của ma trận bằng chuyển vị của nó. Điều này giúp quá trình chuyển đổi hệ tọa độ vừa gọn về mặt biểu thức, vừa thuận tiện trong tính toán. Về trực quan, có thể hình dung đây là thao tác xoay hệ trục để đám mây dữ liệu trải dài nhất theo một vài hướng nổi bật, còn những hướng ít quan trọng hơn sẽ dần bị loại bỏ.

Tính chất của Trace

Một khái niệm khác thường xuyên xuất hiện là trace của ma trận. Đây là tổng các phần tử trên đường chéo chính và có nhiều tính chất hữu ích trong tối ưu hóa. Trace không thay đổi khi chuyển vị, đồng thời có thể hoán đổi thứ tự trong tích ma trận ở một số trường hợp phù hợp. Ngoài ra, trace cũng liên hệ trực tiếp với tổng các trị riêng của ma trận.

Trong phân tích thành phần chính, trace được dùng để mô tả tổng mức biến thiên của dữ liệu. Khi chuyển đổi giữa các hệ cơ sở khác nhau, tổng phương sai toàn phần vẫn không đổi. Điều thay đổi chỉ là mức độ phân bố phương sai đó trên từng trục. Đây là điểm rất quan trọng để hiểu vì sao phương pháp này có thể dồn phần lớn thông tin vào một số ít thành phần đầu tiên.

Kỳ vọng và ma trận hiệp phương sai

Với dữ liệu một chiều, ta thường tính giá trị trung bình để xác định tâm của dữ liệu, sau đó dùng phương sai để đo mức độ dao động quanh tâm đó. Khi bước sang dữ liệu nhiều chiều, khái niệm này được mở rộng thành ma trận hiệp phương sai. Ma trận này mô tả không chỉ mức biến thiên trên từng chiều riêng lẻ mà còn phản ánh mối liên hệ giữa các chiều với nhau.

Những phần tử nằm trên đường chéo thể hiện phương sai của từng biến, còn các phần tử ngoài đường chéo cho biết hiệp phương sai giữa các cặp biến. Nếu dữ liệu ở các chiều không tương quan, ma trận này gần như có dạng đường chéo. Ngược lại, nếu các chiều có liên hệ, các phần tử ngoài đường chéo sẽ khác không. Chính cấu trúc của ma trận hiệp phương sai là cơ sở để tìm ra những hướng chính mà dữ liệu đang biến thiên mạnh nhất.

Principal Component Analysis (PCA)

pca

Ý tưởng chính

Bản chất của pca là tìm một hệ cơ sở mới sao cho phần thông tin quan trọng nhất của dữ liệu tập trung vào một số ít trục đầu tiên. Những chiều còn lại, nơi mức độ biến thiên nhỏ, có thể bị loại bỏ mà không làm tổn thất quá nhiều thông tin. Đây là cách tiếp cận rất hiệu quả với dữ liệu có số chiều cao nhưng thông tin thực sự lại chỉ nằm trong vài hướng nổi bật.

Hãy tưởng tượng có hai góc chụp khác nhau của cùng một đối tượng. Nếu một ảnh thể hiện rõ phần lớn đặc trưng cần thiết còn ảnh còn lại gần như chỉ bổ sung rất ít, thì việc giữ lại ảnh giàu thông tin hơn là một cách nén dữ liệu hợp lý. Tương tự như vậy, phương pháp này tìm các trục sao cho dữ liệu được biểu diễn tốt nhất trong không gian thấp chiều hơn.

Một cách diễn đạt khác là thuật toán đi tìm hệ trực chuẩn mới, trong đó K thành phần đầu tiên giữ phần lớn phương sai của dữ liệu. Khi đã có các trục này, dữ liệu gốc sẽ được chiếu sang không gian mới để tạo ra biểu diễn rút gọn. Quá trình đó vừa giúp giảm chi phí tính toán, vừa hỗ trợ trực quan hóa và hạn chế ảnh hưởng của nhiễu.

Biểu diễn PCA

Sau khi chuẩn hóa dữ liệu bằng cách trừ đi giá trị trung bình, dữ liệu được tách thành hai phần: phần giữ lại trên K trục chính và phần còn lại nằm trên các trục ít quan trọng hơn. Mục tiêu là làm sao cho phần bị bỏ đi chứa ít thông tin nhất có thể. Nói theo ngôn ngữ tối ưu hóa, ta cần tìm hệ cơ sở mới để sai số tái tạo sau khi chiếu dữ liệu xuống không gian thấp chiều là nhỏ nhất.

Bài toán này có thể được viết lại dưới dạng tối đa hóa lượng phương sai được giữ lại. Kết quả quan trọng nhất cho thấy nghiệm tối ưu đạt được khi các vector cơ sở được chọn chính là các vector riêng tương ứng với những trị riêng lớn nhất của ma trận hiệp phương sai. Đây là nền tảng của Phân rã giá trị riêng trong bối cảnh giảm chiều dữ liệu.

Định lý chính

Kết quả lý thuyết cốt lõi cho thấy tổng phương sai trên K trục đầu tiên đạt lớn nhất khi các trục này chính là các hướng riêng ứng với K trị riêng lớn nhất. Nói đơn giản hơn, các thành phần chính được sắp xếp theo mức độ quan trọng từ cao xuống thấp. Thành phần đầu tiên giữ nhiều thông tin nhất, thành phần thứ hai giữ phần biến thiên lớn tiếp theo, và cứ như vậy.

Vì thế, khi chỉ chọn một vài thành phần đầu tiên, ta thực chất đang giữ lại phần lớn cấu trúc chính của dữ liệu. Đây là lý do Biểu đồ Scree thường được dùng để quan sát mức giảm của các trị riêng và quyết định nên giữ lại bao nhiêu thành phần. Trong nhiều trường hợp thực hành, biểu đồ này giúp người phân tích xác định điểm gãy hợp lý để chọn số chiều mới.

Góc nhìn thống kê

Xét theo góc độ thống kê, phương pháp này giống như một phép quay hệ trục để dữ liệu tập trung chủ yếu trên vài hướng nổi bật nhất. Những trục còn lại chỉ chứa phần biến động nhỏ nên có thể xem là ít giá trị hơn cho quá trình mô hình hóa. Điều này giải thích tại sao kỹ thuật này vừa có ý nghĩa toán học, vừa có trực giác hình học rất mạnh.

Tổng phương sai được giữ lại sau khi chọn K thành phần thường được dùng để đánh giá chất lượng nén dữ liệu. Nếu tỷ lệ này cao, có nghĩa là không gian mới vẫn phản ánh tốt cấu trúc ban đầu. Trong các phần mềm thống kê, ngoài tỷ lệ phương sai trích, người dùng còn có thể xem thêm Ma trận tải trọng yếu tố để hiểu từng biến đang đóng góp như thế nào vào các thành phần mới.

Quy trình PCA

Quy trình thực hiện thường bắt đầu từ việc chuẩn hóa dữ liệu, cụ thể là đưa dữ liệu về quanh tâm bằng cách trừ giá trị trung bình. Sau đó, người phân tích xây dựng ma trận hiệp phương sai để đo mối quan hệ giữa các chiều. Từ ma trận này, ta tính các trị riêng và vector riêng, rồi sắp xếp chúng theo thứ tự giảm dần của mức độ quan trọng.

Bước tiếp theo là chọn K vector riêng tương ứng với K trị riêng lớn nhất. Đây là những hướng chính sẽ được giữ lại. Cuối cùng, dữ liệu ban đầu được chiếu lên không gian mới tạo bởi các vector này để thu được biểu diễn thấp chiều hơn. Trong thực hành, toàn bộ quá trình này có thể được triển khai dễ dàng trên Python, R, SPSS hoặc trong các bước hỗ trợ Giảm chiều dữ liệu AMOS khi cần xử lý tập biến lớn.

Các bước thực hiện PCA

Khi áp dụng vào thực tế, cần lưu ý rằng tổng phương sai của dữ liệu không thay đổi khi chỉ đơn thuần đổi hệ cơ sở. Điều phương pháp này làm là tái phân phối phần phương sai đó sao cho một số trục đầu tiên mang nhiều thông tin nhất. Nhờ vậy, ta có thể cắt giảm số chiều nhưng vẫn giữ lại phần cốt lõi của dữ liệu.

Một điểm đáng chú ý nữa là phương pháp này không đòi hỏi giả định chặt chẽ về phân phối xác suất của dữ liệu. Nó chủ yếu dựa trên cấu trúc phương sai và hiệp phương sai, do đó khá linh hoạt trong nhiều bài toán. Ứng dụng của kỹ thuật này rất đa dạng, từ nén dữ liệu, khử nhiễu, trực quan hóa dữ liệu đa chiều đến giảm số biến đầu vào trước khi huấn luyện mô hình học máy.

Kết luận

Nhìn chung, pca là một trong những kỹ thuật giảm chiều tuyến tính quan trọng nhất trong phân tích dữ liệu hiện đại. Phương pháp này giúp rút gọn số chiều tính toán, giữ lại phần lớn thông tin cần thiết và hỗ trợ phát hiện cấu trúc ẩn trong dữ liệu. Bằng việc dựa trên ma trận hiệp phương sai, trị riêng và vector riêng, kỹ thuật này vừa có nền tảng toán học rõ ràng vừa có giá trị thực tiễn rất cao.

Đối với người học thống kê, học máy hoặc xử lý dữ liệu, việc hiểu cơ sở lý thuyết của phương pháp này là bước rất cần thiết trước khi đi sâu vào thực hành. Khi nắm được cách hình thành các thành phần chính, cách chọn số chiều cần giữ lại và cách đọc các chỉ số như Biểu đồ Scree hay Ma trận tải trọng yếu tố, bạn sẽ dễ dàng vận dụng kỹ thuật này hiệu quả hơn trong các bài toán nghiên cứu thực tế. Nếu cần tham khảo thêm tài nguyên hoặc hỗ trợ phân tích dữ liệu, có thể tìm hiểu tại chayspss.

Khám phá Dịch vụ SPSS tại: Dịch vụ chạy SPSS | Uy tín & Hiệu quả

Khám phá Dịch vụ AMOS tại: Dịch vụ chạy AMOS | Uy tín & Hiệu quả

Khám phá Dịch vụ STATA/EVIEWS tại: Dịch vụ chạy STATA/EVIEWS | Uy tín & Hiệu quả

Khám phá Dịch vụ SMARTPLS tại: Dịch vụ chạy SMARTPLS | Uy tín & Hiệu quả

Bài viết này hữu ích với bạn?

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *