scikitlearn中的线性回归

线性回归算法详解

🧠 算法思想

线性回归 是统计学和机器学习中最基础的预测建模技术之一，其核心思想是通过建立自变量（特征）与因变量（目标）之间的线性关系，来预测或解释因变量的变化。线性回归模型假设因变量是自变量的线性组合，再加上一个误差项。

数学表达式

线性回归模型的一般形式为：

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon

其中：

Y

X_1, X_2, \dots, X_n

\beta_0, \beta_1, \dots, \beta_n

\epsilon

目标

线性回归的目标是通过数据估计参数 $\beta$ ，使得模型能够最小化预测值与实际值之间的误差。最常用的方法是 最小二乘法（Ordinary Least Squares, OLS），即最小化残差平方和：

\text{Loss} = \sum_{i=1}^{m} (y^{(i)} - (\beta_0 + \beta_1 x_1^{(i)} + \dots + \beta_n x_n^{(i)}))^2

其中 $m$ 是样本数量， $x^{(i)}$ 是第 $i$ 个样本的特征向量， $y^{(i)}$ 是实际输出值。

🧮 数学原理：正规方程

核心公式

线性回归的闭式解（闭合解）通过 正规方程 直接求得最优参数 $\beta$ ：

\hat{\beta} = (X^T X)^{-1} X^T y

其中：

X

n \times f

n

f

y

n \times 1

\hat{\beta}

f \times 1

该公式仅在 XᵀX 是满秩矩阵（即特征之间不存在完美的多重共线性）时才有效。如果 XᵀX 不可逆（奇异），通常意味着存在线性相关的特征或特征数量大于样本数量，此时需要使用岭回归等正则化方法或伪逆。

🛠️ 参数详解

在 scikit-learn 的 LinearRegression 中，核心参数如下：

参数名	说明	默认值/示例值	值的含义
`fit_intercept`	是否计算截距项 $\beta_0$ 。	`True`	- `True`：模型包含截距项（推荐） - `False`：模型不包含截距项
`n_jobs`	并行计算使用的处理器数量。	`None`	- `1`：单线程 - `-1`：使用所有处理器（推荐）

⏱️ 时间复杂度分析

线性回归的计算复杂度主要取决于求解参数的方法（如最小二乘法或梯度下降）。以下是不同方法的复杂度分析：

1. 最小二乘法（Normal Equation）

训练时间复杂度

O(f^2 n + f^3)

f

n

f^2 n

X^T X

f^3

(X^T X)^{-1}

预测时间复杂度

O(f)

w^T x + b

✅ 示例代码

from sklearn.linear_model import LinearRegression# 训练线性回归模型model = LinearRegression( n_jobs=-1)model.fit(X_train, y_train)# 预测与评估score = model.score(X_test, y_test)print(f"模型 R² 分数: {score:.4f}")

线性回归算法详解

🧠 算法思想

数学表达式

目标

🧮 数学原理：正规方程

核心公式

🛠️ 参数详解

⏱️ 时间复杂度分析

1. 最小二乘法（Normal Equation）

✅ 示例代码

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签