OLS là gì? Hồi quy tuyến tính, hay còn được gọi là mô hình hồi quy tuyến tính theo phương pháp bình phương nhỏ nhất (Linear Regression Model | Ordinary Least Squares – OLS), là một công cụ nền tảng trong kinh tế lượng và thống kê ứng dụng. Phương pháp này cho phép mô hình hóa mối quan hệ giữa một biến phụ thuộc liên tục và một hoặc nhiều biến độc lập có thể là liên tục, định danh hoặc phân loại. Nói ngắn gọn, hồi quy tuyến tính là cách tiếp cận tuyến tính nhằm dự đoán biến Y dựa trên các biến X.
1. Mô hình hồi quy tuyến tính | OLS là gì?
1.1. Định nghĩa
Hồi quy tuyến tính (Linear Regression) là một phương pháp thống kê được sử dụng để phân tích và dự báo dữ liệu. Phương pháp này mô tả mối quan hệ giữa một biến kết quả liên tục và một hoặc nhiều biến giải thích. Trong cách hiểu trực quan, hồi quy tuyến tính giúp ước lượng giá trị trung bình của biến Y dựa trên các giá trị đã biết của biến X.
Trong thống kê và kinh tế lượng, hồi quy tuyến tính được xem là công cụ để mô hình hóa mối quan hệ giữa biến phản hồi (dependent variable) và các biến giải thích (independent variables).
1.2. Xây dựng phương trình hồi quy tuyến tính tổng quát
Mô hình hồi quy tuyến tính bội trong tổng thể được biểu diễn như sau:
Yi = β1 + β2X2i + β3X3i + … + βnXni + ui
- Y: biến phụ thuộc
- X: các biến độc lập
- β: các hệ số hồi quy, trong đó β1 là hệ số chặn
- u: sai số ngẫu nhiên
- i: chỉ số quan sát
Dạng rút gọn của mô hình tổng thể:
Yi = βX + ui
Trong đó βX thể hiện phần tất định của mô hình, có thể hiểu là kỳ vọng có điều kiện E(Yi|X). Phần còn lại ui đại diện cho các yếu tố ngẫu nhiên không được đưa vào mô hình.
Ví dụ minh họa
Giả sử nghiên cứu mối quan hệ giữa tuổi và chiều cao của 5 trẻ em, mô hình hồi quy tuyến tính đơn được xây dựng dưới dạng:
Y = β0 + β1X
Trong đó Y là chiều cao, X là tuổi, β0 là điểm cắt và β1 là độ dốc.
| Tên | Tuổi (X) | Chiều cao (Y) | Dự đoán |
|---|---|---|---|
| Vinh | 6 | 80 | β0 + β1×6 |
| Đăng | 7 | 100 | β0 + β1×7 |
| Long | 8 | 120 | β0 + β1×8 |
| Khoa | 9 | 130 | β0 + β1×9 |
| Hân | 10 | 140 | β0 + β1×10 |
Thông qua các công cụ như Excel, SPSS, Stata, R…, ta có thể ước lượng các hệ số hồi quy và xây dựng phương trình dự báo.
Kết quả tính toán cho thấy phương trình hồi quy có dạng:
Y = -5.9904 + 14.9988X
Sai lệch giữa giá trị thực và giá trị dự đoán được gọi là phần dư (residual), phản ánh ảnh hưởng của hạng nhiễu trong mô hình.
Đánh giá sức mạnh mô hình
Sức mạnh của mô hình được đánh giá thông qua hệ số xác định R2, dao động từ 0 đến 1. Giá trị R2 càng cao cho thấy mô hình giải thích được càng nhiều biến thiên của biến phụ thuộc.
Công thức:
R2 = (TSS − RSS) / TSS
- TSS: tổng biến thiên của Y
- RSS: tổng bình phương phần dư
2. Hiểu rõ bản chất và ý nghĩa của OLS
2.1. Đặc điểm của biến phụ thuộc
Trong hồi quy tuyến tính OLS cổ điển, biến phụ thuộc là biến ngẫu nhiên liên tục và thường được đo lường bằng thang đo khoảng hoặc thang đo tỷ lệ.
2.2. Biến độc lập
Các biến độc lập có thể ở nhiều dạng thang đo khác nhau. Trong mô hình hồi quy tuyến tính cổ điển, các biến này được xem là phi ngẫu nhiên khi lấy mẫu lặp lại.
2.3. Hạng nhiễu và sai số ngẫu nhiên
Hạng nhiễu đại diện cho các yếu tố không quan sát được hoặc không đưa vào mô hình, bao gồm thiếu dữ liệu hoặc sai số đo lường. Trung bình ảnh hưởng của hạng nhiễu được giả định là bằng 0.
2.4. Đặc điểm của hệ số hồi quy
Các hệ số hồi quy là những hằng số cố định trong tổng thể nhưng được ước lượng từ dữ liệu mẫu. Các ước lượng này có phân phối chuẩn, do đó thường sử dụng kiểm định t để đánh giá ý nghĩa thống kê.
2.5. Ý nghĩa của tính tuyến tính
Tuyến tính trong mô hình hồi quy đề cập đến tuyến tính theo hệ số hồi quy, không nhất thiết là tuyến tính theo biến.
2.6. Các loại dữ liệu thường dùng
- Dữ liệu chuỗi thời gian
- Dữ liệu chéo
- Dữ liệu bảng
3. Phân tích mô hình hồi quy tuyến tính đa biến
Khi mô hình có nhiều hơn một biến độc lập, ta sử dụng hồi quy tuyến tính đa biến. Nguyên lý OLS vẫn được giữ nguyên.
3.1. Phương pháp bình phương nhỏ nhất (OLS)
OLS tìm các hệ số hồi quy sao cho tổng bình phương sai số dự đoán là nhỏ nhất. Đây là nguyên tắc cốt lõi giúp xác định đường hồi quy tối ưu.
3.2. Mô hình hồi quy tuyến tính cổ điển
Theo định lý Gauss–Markov, ước lượng OLS là ước lượng tuyến tính không chệch, hiệu quả nhất trong lớp các ước lượng tuyến tính.
3.3. Phương sai và sai số chuẩn
Phương sai và sai số chuẩn phản ánh mức độ biến động của các ước lượng khi mẫu thay đổi, đồng thời là cơ sở để kiểm định giả thuyết.
3.4. Phân phối của các ước lượng OLS
Các hệ số ước lượng theo OLS tuân theo phân phối chuẩn, do đó kiểm định t thường được sử dụng trong thực hành.
4. Hướng dẫn chạy hồi quy OLS trong Stata

Người dùng có thể chạy hồi quy OLS bằng menu hoặc bằng lệnh regress. Cả hai cách đều cho kết quả tương đương, trong đó cách dùng lệnh nhanh và linh hoạt hơn.
5. Giải thích ý nghĩa mô hình OLS và bảng kết quả
- Prob > F: đánh giá ý nghĩa chung của mô hình
- R-squared và Adj R-squared: đo mức độ giải thích của mô hình
- Coef., Std. Err., P-value: đánh giá tác động và ý nghĩa của từng biến
Sau khi ước lượng, cần thực hiện các kiểm định chẩn đoán như đa cộng tuyến, phương sai thay đổi và tự tương quan.
6. Tóm tắt
Bài viết đã trình bày tổng quan về hồi quy tuyến tính và trả lời câu hỏi ols là gì, bao gồm: mô hình hồi quy tuyến tính đơn và đa biến, bản chất phương pháp OLS, cách chạy hồi quy và diễn giải kết quả. Nội dung được biên soạn lại theo hướng học thuật và ứng dụng, phù hợp cho người học và người nghiên cứu tại chayspss.
Khám phá Dịch vụ SPSS tại: Dịch vụ chạy SPSS | Uy tín & Hiệu quả
Khám phá Dịch vụ AMOS tại: Dịch vụ chạy AMOS | Uy tín & Hiệu quả
Khám phá Dịch vụ STATA/EVIEWS tại: Dịch vụ chạy STATA/EVIEWS | Uy tín & Hiệu quả
Khám phá Dịch vụ SMARTPLS tại: Dịch vụ chạy SMARTPLS | Uy tín & Hiệu quả
