资料内容:
一、线性回归
1、什么是线性回归?线性回归模型的基本原理和假设。
线性回归是一种广泛用于统计学和机器学习中的回归分析方法,用于建立自变量(特征)与因变量(目标)之间的
线性关系模型。线性回归的基本原理是寻找一条直线(或者在多维情况下是一个超平面),以最佳地拟合训练数
据,使得模型的预测与真实观测值之间的误差最小化。下面我们来详细解释线性回归的基本原理和假设。
简单线性回归模型:
y = bo + b1 ·
多元线性回归模型:
y = bo + b1 · 1+ b2 · 2 + … +bp · Cp
其中:
是因变量(需要预测的值)。
1
2
… … 是自变量(特征),可以是一个或多个。
bo 是截距(模型在自变量都为0时的预测值)。
b1 b2 … bp 是回归系数,表示自变量对因变量的影响程度。
线性回归的目标是找到合适的回归系数 bo b1 …bp,以最小化模型的预测误差。通常采用最小二乘法来估计这
些系数,即使得观测值与模型预测值之间的残差平方和最小。
线性回归模型的有效性基于以下一些关键假设:1 、线性关系假设:线性回归假设因变量和自变量之间存在线性关系。这意味着模型试图用一条直线(或超平面)
来拟合数据,以描述自变量与因变量之间的关系。
2 、独立性假设:线性回归假设每个观测值之间是相互独立的。这意味着一个观测值的误差不受其他观测值的影
响。
3 、常数方差假设:线性回归假设在自变量的每个取值点上,观测值的误差方差都是常数。这被称为同方差性或等
方差性。
4 、正态性假设:线性回归假设观测值的误差服从正态分布。这意味着在不同自变量取值点上的误差应该接近正态
分布。
如果这些假设不满足,线性回归模型的结果可能不可靠。