§8.4 一元线性回归

依赖于

  • 无显式依赖

被以下题目直接调用

正文部分

§8.4 一元线性回归

  1. 问题 考察两个变量 之间是否存在线性相关关系,其中 是一般(可控)变量, 是随机变量,其线性回归关系可表示如下(可用散点图显示):

其中 为截距, 为斜率, 为随机误差,常假设

这里 是三个待估参数.上式表明, 之间有线性关系,但受到随机误差的干扰.

  1. 数据 通过试验或观察可得 对数据(注:数据是成对的,不允许错位).在 之间存在线性关系的假设下,有如下统计模型:

利用成对数据可获得 的估计,设估计分别为 ,则称

为回归方程,其图形称为回归直线.

  1. 参数估计 用最小二乘法可得 的无偏估计

其中

  1. 回归方程的显著性检验 回归方程的显著性检验就是要对如下一个假设作出判断:

对此可采用如下两种等价的检验方法:

(1) 检验

如下的平方和分解式是非常重要的,它在许多统计领域都有应用:

其中

是总偏差平方和,其自由度

是回归平方和,其自由度

是残差平方和,其自由度 .

是在 时的回归值(拟合值),它与实测值 通常是不相等的.

在原假设 成立的条件下,检验统计量

拒绝域为

上述检验过程一般用如下方差分析表列出:

(2) 检验

检验统计量为

在原假设成立下,

因此拒绝域为

注意到

因此 检验与 检验是等价的,选其中之一使用即可.

  1. 相关系数及其检验

(1)相关系数

对容量为 的二维样本

的线性相关程度可用如下(样本)相关系数量

来衡量.

  1. 个点完全在一条直线上,此时两者之间可能是确定性关系;
  2. ,当 增加时, 有线性增加趋势,此时称正相关;
  3. ,当 增加时, 反而有线性减少趋势,此时称负相关;
  4. 个点可能杂乱无章,也可能呈某种曲线趋势,此时称不(线性)相关.

(2)相关系数的检验

为二维总体的相关系数,于是可建立如下假设:

对此,采用检验统计量 ,拒绝域为

其中 分布的 分位数,可查附表 9.

(3)检验统计量 统计量之间关系

这表明 的严格增函数,所以相关系数检验与前面的 检验也是等价的.

  1. 估计与预测 回归方程的应用
  2. 时, 的点估计;
  3. 时, 的置信水平为 的置信区间是

其中

  1. 时, 预测区间是

其中

注: 是未知参数,而 是随机变量.对 谈论的是置信区间,对 谈论的是预测区间,两者是不同的,显然,预测区间要比置信区间宽很多.

要提高预测区间(置信区间也一样)的精度,即要使 (或 )较小,这要求:

  1. 增大样本量
  2. 增大 ,即要求 较为分散;
  3. 使 靠近 .

习题与解答 8.4

习题 8.4-1

假设回归直线过原点,即一元线性回归模型为

诸观测值相互独立.

  1. 写出 的最小二乘估计和 的无偏估计;
  2. 对给定的 ,其对应的因变量均值的估计为 ,求 .

由最小二乘法原理,令

则正则方程为

从中解得 的最小二乘估计为

不难看出

于是,由

可得

写成 的线性组合,利用 )间的独立性,有

由此即有

从而

这给出 的无偏估计为

对给定的 ,对应的因变量均值的估计为

于是

习题 8.4-2

设回归模型为

试求 的最大似然估计,它们与其最小二乘估计一致吗?

似然函数为

其对数似然函数为

(忽略常数项).将其分别对 求导,并令导函数为 ,得到如下似然方程组:

经过整理可以解出

可以看到 的最大似然估计与其最小二乘估计是一致的.

习题 8.4-3

在回归分析计算中,常对数据进行变换

其中 是适当选取的常数.

  1. 试建立由原始数据和变换后数据得到的最小二乘估计、总平方和、回归平方和以及残差平方和之间的关系;
  2. 证明:由原始数据和变换后数据得到的 检验统计量的值保持不变.

经变换后,各平方和的表达式如下:

所以由原始数据和变换后数据得到的最小二乘估计间的关系为

在实际应用中,人们往往在先由变换后的数据求出 ,然后再据此给出 ,它们的关系为

总平方和、回归平方和以及残差平方和分别为

由此知道

即说明了由原始数据和变换后数据得到的 检验统计量的值保持不变.

习题 8.4-4

对给定的 组数据 ,若我们关心的是 如何依赖 的取值而变动,则可以建立回归方程

反之,若我们关心的是 如何依赖 的取值而变动,则可以建立另一个回归方程

试问这两条直线在直角坐标系中是否重合?为什么?若不重合,它们有无交点?若有,试给出交点的坐标.

一般不重合.因为回归方程 可化为

化为

当且仅当

时两条直线重合.我们知道, 表示相关系数的绝对值为 ,即 组数据 在一条直线上,这在实际中极其罕见,所以说“一般不重合”.

注:不重合时,它们一定有交点 .

习题 8.4-5

为考察某种维尼纶纤维的耐水性能,安排了一组试验,测得其中醇浓度 及相应的“缩醇化度” 数据如下:

  1. 作散点图;
  2. 求样本相关系数;
  3. 建立一元线性回归方程;
  4. 对建立的回归方程作显著性检验().

(1)散点图如图 8.1, 有随着 增加而增加趋势.

\FigureEightOne

(2)由样本数据可算得

因此样本相关系数

(3)应用最小二乘估计公式,

于是,一元线性回归方程为

(4)首先计算几个平方和

将各平方和移入方差分析表,继续计算,可以得到

若取 ,查表知

拒绝域为

现检验统计量值落入拒绝域,因此在显著性水平 下回归方程是显著的.此处,回归方程显著性检验的 值为(用 MATLAB 语句表示)

习题 8.4-6

测得一组弹簧形变 (单位:cm)和相应的外力 (单位:N)数据如下:

由胡克定律知 ,试估计 ,并在 处给出相应的外力 预测区间.

由本节的第 1 题可以给出 的最小二乘估计为

在第 1 题中已经给出 的均值和方差分别为 ,所以

其中

且两者独立,从而有

因此 的预测区间为

其中

由样本数据可计算得到

从而

对应的外力的预测值为

时,查表知

因而得到 的预测区间为

习题 8.4-7

设由 可建立一元线性回归方程, 是由回归方程得到的拟合值,证明:样本相关系数 满足关系

上式也称为回归方程的决定系数.

因为

将之代入样本相关系数 的表达式中,即有

证明完成.

习题 8.4-8

现收集了 16 组合金钢中的碳含量 及强度 的数据,求得

  1. 建立 关于 的一元线性回归方程
  2. 写出 的分布;
  3. 的相关系数;
  4. 列出对回归方程作显著性检验的方差分析表();
  5. 给出 置信区间;
  6. 时求对应的 预测区间.

(1)根据已知数据可以得到回归系数的估计为

于是 关于 的一元线性回归方程为

(2)我们知道

利用已给数据可计算出

由此可得到 的分布分别为

(3)由于

的相关系数为

(4)首先计算三个平方和

于是可建立如下方差分析表:

若取显著性水平 ,查表知

拒绝域为

此处检验统计量落入拒绝域,因此,在显著性水平 下回归方程是显著的.此处,回归方程显著性检验的 值为

(5)由教材中定理 8.4.1 与定理 8.4.3 知,

相互独立,因此 的置信区间为

其中

由此可得到 的置信区间为

(6)首先算出 对应的 的预测值为

所以 时求对应的 预测区间为

习题 8.4-9

设回归模型为

现收集了 15 组数据,计算有

后经校对,发现有一组数据记录错误,正确数据为 ,记录为 .

  1. 修正后的 LSE;
  2. 对回归方程作显著性检验();
  3. ,给出对应响应变量的 预测区间.

由于有一组数据记录错误,应将 作修正,修正后的量分别记为

根据修正后的数据可计算得到 的 LSE 为

利用修正后的数据计算三个平方和为

从而检验统计量

若取显著性水平 ,查表知

拒绝域为

由于检验统计量落入拒绝域,因此回归方程是显著的.此处,回归方程显著性检验的 值为

对于 ,其对应响应变量的预测值为

因此响应变量的 预测区间为

习题 8.4-10

在生产中积累了 32 组某种铸件在不同腐蚀时间 下腐蚀深度 的数据,求得回归方程为

且误差方差的无偏估计为

总偏差平方和为 .

  1. 对回归方程作显著性检验(),列出方差分析表;
  2. 求样本相关系数;
  3. 若腐蚀时间 ,试给出 近似预测区间.

(1)由已知条件可以得到

因此

把这些平方和移至如下方差分析表上,继续计算:

若取显著性水平 ,则

因此回归方程是显著的,此处回归方程检验的 值为

(2)样本相关系数

(3)若腐蚀时间 ,则 的预测值为

近似预测区间的半径为

从而 近似预测区间为

习题 8.4-11

我们知道营业税税收总额 与社会商品零售总额 有关.为能从社会商品零售总额去预测税收总额,需要了解两者之间的关系.现收集了如下 9 组数据(单位:亿元):

  1. 画散点图;
  2. 建立一元线性回归方程,并作显著性检验(取 ),列出方差分析表;
  3. 若已知某年社会商品零售总额为 亿元,试给出营业税税收总额的概率为 的预测区间;
  4. 若已知回归直线过原点,试求回归方程,并在显著性水平 下作显著性检验.

(1)散点图如图 8.2.

\FigureEightTwo

(2)用 MATLAB 统计软件进行回归,得到的回归方程为

其方差分析表如下:

根据以上结果,在显著性水平 下,回归方程是显著的.

(3)按 regression 的 prediction of new observation 功能,当自变量 的值取 时,可得到 预测区间为

(4)若拟合不带截距的过原点的回归方程,只要在 options 中不选 Fit intercept 选项,即可得到过原点的回归直线为

此时检验的 值为 ,因此在显著性水平 下,过原点的回归方程是显著的.

补充习题及解答

补充习题 12

求一回归直线 ,使所有样本点 到该直线的垂直距离平方和最小.

到直线 的垂直距离的平方为

如今要求 ,使

最小,使用微分法,并令其导数为零,可得如下两个方程:

由(1)式可得

并将其代入(2)式,可得

注意到恒等式

可将上式化为

使用相同的记号

则上式可表示为

整理后可得如下 的二次方程

由于判别式

故此二次方程有实根,

这里 是斜率,根据散点图上的上升趋势或下降趋势选择 表达式中的正负号.

讨论:这样一来,通过二维样本 建立一元线性回归方程有两个标准:

  1. 使残差平方和 达到最小;
  2. 使回归方程的垂直距离平方和

达到最小.

它们导出的回归系数估计也是不同的,但两条回归直线都通过点 .哪个更好呢?这要看你使用什么标准,实际情况是(1)的理论已很完善,使用的人已很多,效果也很好,而(2)的研究甚少,几乎还无人用在实际中使用.实际研究表明,当相关系数的绝对值 接近于 时,两个标准下得到的回归系数都很接近,即 .倘若 远离 时,两个标准下得到的回归系数相差就大了,接下去的两个习题分别说明这个现象.

补充习题 13

在用光电比色计检验尿素时,对给定的尿素含量 (单位:mg/l),消光系数 服从正态分布,且方差与 无关,观测得如下数据:

试用两个标准分别建立一元回归方程.

由这组数据可计算得到

(1)用残差平方和最小的标准,可得两回归系数为

(2)用到回归直线垂直距离平方和最小的标准(见补充习题 12),可得两回归系数为

比较两个标准下的结果,可见 ,这是因为其相关系数

很接近 .

补充习题 14

某合金钢的抗拉强度 与碳含量 有关,现有 92 炉钢样数据,从中算得

试用两个标准分别建立一元回归方程.

(1)用残差平方和最小的标准,可得两回归系数为

(2)用到回归直线垂直距离平方和最小的标准(见补充习题 12),可得两回归系数为

比较两种标准下的结果,可见 之间相差较大,这是因其相关系数

有较大差距.