§8.4 一元线性回归

依赖于

无显式依赖

被以下题目直接调用

正文部分

§8.4 一元线性回归

问题考察两个变量 $x$ 与 $y$ 之间是否存在线性相关关系，其中 $x$ 是一般（可控）变量， $y$ 是随机变量，其线性回归关系可表示如下（可用散点图显示）：

y = β_{0} + β_{1} x + ε,

其中 $β_{0}$ 为截距， $β_{1}$ 为斜率， $ε$ 为随机误差，常假设

ε \sim N (0, σ^{2}) .

这里 $β_{0}, β_{1}, σ^{2}$ 是三个待估参数.上式表明， $y$ 与 $x$ 之间有线性关系，但受到随机误差的干扰.

数据对 $x$ 与 $y$ 通过试验或观察可得 $n$ 对数据（注：数据是成对的，不允许错位）.在 $y$ 与 $x$ 之间存在线性关系的假设下，有如下统计模型：

{y_{i} = β_{0} + β_{1} x_{i} + ε_{i}, 各 ε_{i} 独立同分布，其分布为 N (0, σ^{2}) . i = 1, 2, \dots, n,

利用成对数据可获得 $β_{0}$ 与 $β_{1}$ 的估计，设估计分别为 $\hat{β}_{0}, \hat{β}_{1}$ ，则称

\overset{y}{^} = \hat{β}_{0} + \hat{β}_{1} x

为回归方程，其图形称为回归直线.

参数估计 用最小二乘法可得 $β_{0}$ 与 $β_{1}$ 的无偏估计

{\hat{β}_{1} = l_{x y} / l_{xx}, \hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ},

其中

\overset{x}{ˉ} = \frac{1}{n} \sum x_{i}, \overset{y}{ˉ} = \frac{1}{n} \sum y_{i},

l_{x y} = \sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = \sum x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ} = \sum x_{i} y_{i} - \frac{1}{n} \sum x_{i} \sum y_{i},

l_{xx} = \sum (x_{i} - \overset{x}{ˉ})^{2} = \sum x_{i}^{2} - n \overset{x}{ˉ}^{2} = \sum x_{i}^{2} - \frac{1}{n} (\sum x_{i})^{2},

l_{y y} = \sum (y_{i} - \overset{y}{ˉ})^{2} = \sum y_{i}^{2} - n \overset{y}{ˉ}^{2} = \sum y_{i}^{2} - \frac{1}{n} (\sum y_{i})^{2} .

回归方程的显著性检验 回归方程的显著性检验就是要对如下一个假设作出判断：

H_{0} : β_{1} = 0 vs H_{1} : β_{1} \neq = 0.

对此可采用如下两种等价的检验方法：

（1） $F$ 检验

如下的平方和分解式是非常重要的，它在许多统计领域都有应用：

S_{T} = S_{R} + S_{e}, f_{T} = f_{R} + f_{e},

其中

S_{T} = \sum (y_{i} - \overset{y}{ˉ})^{2} = l_{y y}

是总偏差平方和，其自由度 $f_{T} = n - 1$ ；

S_{R} = \sum (\overset{y}{^}_{i} - \overset{y}{ˉ})^{2} = \sum (\hat{β}_{0} + \hat{β}_{1} x_{i} - \overset{y}{ˉ})^{2} = \hat{β}_{1} l_{x y} = \hat{β}_{1}^{2} l_{xx}

是回归平方和，其自由度 $f_{R} = 1$ ；

S_{e} = \sum (y_{i} - \overset{y}{^}_{i})^{2} = \sum (y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i})^{2}

是残差平方和，其自由度 $f_{e} = n - 2$ .

而 $\overset{y}{^}_{i} = \hat{β}_{0} + \hat{β}_{1} x_{i}$ 是在 $x = x_{i}$ 时的回归值（拟合值），它与实测值 $y_{i}$ 通常是不相等的.

在原假设 $H_{0}$ 成立的条件下，检验统计量

F = \frac{S _{R}}{S _{e} / ( n - 2 )} \sim F (1, n - 2),

拒绝域为

W = {F \geq F_{1 - α} (1, n - 2)} .

上述检验过程一般用如下方差分析表列出：

来源 回归 残差 总计 平方和 S_{R} S_{e} S_{T} 自由度 f_{R} = 1 f_{e} = n - 2 f_{T} = n - 1 均方 M S_{R} = S_{R} M S_{e} = \frac{S _{e}}{n - 2} F 比 F = \frac{M S _{R}}{M S _{e}}

（2） $t$ 检验

检验统计量为

t = \frac{β ^ _{1}}{σ ^ / l _{xx}}, \overset{σ}{^} = S_{e} / (n - 2) .

在原假设成立下，

t \sim t (n - 2),

因此拒绝域为

W = {∣ t ∣ \geq t_{1 - α /2} (n - 2)} .

注意到

t^{2} = F,

因此 $t$ 检验与 $F$ 检验是等价的，选其中之一使用即可.

相关系数及其检验

（1）相关系数

对容量为 $n$ 的二维样本

{(x_{i}, y_{i}), i = 1, 2, \dots, n}

的线性相关程度可用如下（样本）相关系数量

r = \frac{\sum ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum ( x _{i} - x ˉ ) ^{2} \sum ( y _{i} - y ˉ ) ^{2}} = \frac{l _{x y}}{l _{xx} l _{y y}}

来衡量.

$r = \pm 1$ ， $n$ 个点完全在一条直线上，此时两者之间可能是确定性关系；
$r > 0$ ，当 $x$ 增加时， $y$ 有线性增加趋势，此时称正相关；
$r < 0$ ，当 $x$ 增加时， $y$ 反而有线性减少趋势，此时称负相关；
$r = 0$ ， $n$ 个点可能杂乱无章，也可能呈某种曲线趋势，此时称不（线性）相关.

（2）相关系数的检验

记 $ρ$ 为二维总体的相关系数，于是可建立如下假设：

H_{0} : ρ = 0 vs H_{1} : ρ \neq = 0.

对此，采用检验统计量 $r = l_{x y} / l_{xx} l_{y y}$ ，拒绝域为

W = {∣ r ∣ \geq r_{1 - α} (n - 2)},

其中 $r_{1 - α} (n - 1)$ 是 $∣ r ∣$ 分布的 $1 - α$ 分位数，可查附表 9.

（3）检验统计量 $r$ 与 $F$ 统计量之间关系

r^{2} = \frac{F}{F + ( n - 2 )} .

这表明 $∣ r ∣$ 是 $F$ 的严格增函数，所以相关系数检验与前面的 $F$ 检验也是等价的.

估计与预测 回归方程的应用
当 $x = x_{0}$ 时， $\overset{y}{^}_{0} = \hat{β}_{0} + \hat{β}_{1} x_{0}$ 是 $E (y_{0}) = β_{0} + β_{1} x_{0}$ 的点估计；
当 $x = x_{0}$ 时， $E (y_{0}) = β_{0} + β_{1} x_{0}$ 的置信水平为 $1 - α$ 的置信区间是

[\overset{y}{^}_{0} - δ_{0}, \overset{y}{^}_{0} + δ_{0}],

其中

δ_{0} = t_{1 - α /2} (n - 2) \overset{σ}{^} \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}, \overset{σ}{^} = M S_{e};

当 $x = x_{0}$ 时， $y_{0} = β_{0} + β_{1} x_{0} + ε_{0}$ 的 $1 - α$ 预测区间是

[\overset{y}{^}_{0} - δ, \overset{y}{^}_{0} + δ],

其中

δ = δ (x_{0}) = t_{1 - α /2} (n - 2) \overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}} .

注： $E (y_{0})$ 是未知参数，而 $y_{0}$ 是随机变量.对 $E (y_{0})$ 谈论的是置信区间，对 $y_{0}$ 谈论的是预测区间，两者是不同的，显然，预测区间要比置信区间宽很多.

要提高预测区间（置信区间也一样）的精度，即要使 $δ$ （或 $δ_{0}$ ）较小，这要求：

增大样本量 $n$ ；
增大 $l_{xx}$ ，即要求 $x_{1}, x_{2}, \dots, x_{n}$ 较为分散；
使 $x_{0}$ 靠近 $\overset{x}{ˉ}$ .

习题与解答 8.4

习题 8.4-1

假设回归直线过原点，即一元线性回归模型为
$y_{i} = β x_{i} + ε_{i}, i = 1, 2, \dots, n,$ $E (ε_{i}) = 0, Var (ε_{i}) = σ^{2},$
诸观测值相互独立.

写出 $β$ 的最小二乘估计和 $σ^{2}$ 的无偏估计；

对给定的 $x_{0}$ ，其对应的因变量均值的估计为 $\overset{y}{^}_{0}$ ，求 $Var (\overset{y}{^}_{0})$ .

解由最小二乘法原理，令

Q = i = 1 \sum n (y_{i} - β x_{i})^{2},

则正则方程为

\frac{\partial Q}{\partial β}_{\hat{β}} = - 2 i = 1 \sum n (y_{i} - \hat{β} x_{i}) x_{i} = 0.

从中解得 $β$ 的最小二乘估计为

\hat{β} = \frac{\sum _{i = 1}^{n} x _{i} y _{i}}{\sum _{i = 1}^{n} x _{i}^{2}} .

不难看出

E (\hat{β}) = β, Var (\hat{β}) = \frac{σ ^{2}}{\sum _{i = 1}^{n} x _{i}^{2}} .

于是，由

S_{e} = \sum (y_{i} - \overset{y}{^}_{i})^{2} = \sum (β x_{i} + ε_{i} - \hat{β} x_{i})^{2} = \sum [x_{i}^{2} (\hat{β} - β)^{2} + ε_{i}^{2} - 2 (\hat{β} - β) x_{i} ε_{i}],

可得

E (S_{e}) = \sum x_{i}^{2} Var (\hat{β}) + n Var (ε) - 2 \sum x_{i} E (\hat{β} ε_{i}) .

将 $\hat{β}$ 写成 $y_{1}, y_{2}, \dots, y_{n}$ 的线性组合，利用 $y_{j}$ 与 $ε_{i}$ （ $i \neq = j$ ）间的独立性，有

E (\hat{β} ε_{i}) = \frac{x _{i}}{\sum _{j = 1}^{n} x _{j}^{2}} σ^{2} .

由此即有

\sum x_{i} E (\hat{β} ε_{i}) = σ^{2},

从而

E (S_{e}) = (n - 1) σ^{2} .

这给出 $σ^{2}$ 的无偏估计为

\overset{σ}{^}^{2} = \frac{1}{n - 1} S_{e} .

对给定的 $x_{0}$ ，对应的因变量均值的估计为

\overset{y}{^}_{0} = \hat{β} x_{0},

于是

Var (\overset{y}{^}_{0}) = x_{0}^{2} Var (\hat{β}) = \frac{x _{0}^{2} σ ^{2}}{\sum _{i = 1}^{n} x _{i}^{2}} .

习题 8.4-2

设回归模型为
${y_{i} = β_{0} + β_{1} x_{i} + ε_{i}, 各 ε_{i} 独立同分布，其分布为 N (0, σ^{2}), i = 1, 2, \dots, n,$
试求 $β_{0}, β_{1}$ 的最大似然估计，它们与其最小二乘估计一致吗？

解似然函数为

L = (\frac{1}{2 π σ})^{n} exp {- \frac{\sum _{i = 1}^{n} ( y _{i} - β _{0} - β _{1} x _{i} ) ^{2}}{2 σ ^{2}}},

其对数似然函数为

l = - \frac{n}{2} ln σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2}

（忽略常数项）.将其分别对 $β_{0}, β_{1}$ 求导，并令导函数为 $0$ ，得到如下似然方程组：

⎩ ⎨ ⎧ \frac{\partial l}{\partial β _{0}}_{\hat{β}_{0}} = \sum_{i = 1}^{n} (y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i}) = 0, \frac{\partial l}{\partial β _{1}}_{\hat{β}_{1}} = \sum_{i = 1}^{n} (y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i}) x_{i} = 0.

经过整理可以解出

{\hat{β}_{1} = l_{x y} / l_{xx}, \hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} .

可以看到 $β_{0}, β_{1}$ 的最大似然估计与其最小二乘估计是一致的.

习题 8.4-3

在回归分析计算中，常对数据进行变换
$\tilde{y}_{i} = \frac{y _{i} - c _{1}}{d _{1}}, \tilde{x}_{i} = \frac{x _{i} - c _{2}}{d _{2}}, i = 1, 2, \dots, n,$
其中 $c_{1}, c_{2}, d_{1} (d_{1} > 0), d_{2} (d_{2} > 0)$ 是适当选取的常数.

试建立由原始数据和变换后数据得到的最小二乘估计、总平方和、回归平方和以及残差平方和之间的关系；

证明：由原始数据和变换后数据得到的 $F$ 检验统计量的值保持不变.

解经变换后，各平方和的表达式如下：

\tilde{\overset{x}{ˉ}} = \frac{1}{n} \sum \tilde{x}_{i} = \frac{1}{d _{2}} (\overset{x}{ˉ} - c_{2}), \tilde{\overset{y}{ˉ}} = \frac{1}{n} \sum \tilde{y}_{i} = \frac{1}{d _{1}} (\overset{y}{ˉ} - c_{1}),

\tilde{l}_{\tilde{x} \tilde{y}} = \sum (\tilde{x}_{i} - \tilde{\overset{x}{ˉ}}) (\tilde{y}_{i} - \tilde{\overset{y}{ˉ}}) = \frac{1}{d _{1} d _{2}} l_{x y},

\tilde{l}_{\tilde{x} \tilde{x}} = \sum (\tilde{x}_{i} - \tilde{\overset{x}{ˉ}})^{2} = \frac{1}{d _{2}^{2}} l_{xx}, \tilde{l}_{\tilde{y} \tilde{y}} = \sum (\tilde{y}_{i} - \tilde{\overset{y}{ˉ}})^{2} = \frac{1}{d _{1}^{2}} l_{y y} .

所以由原始数据和变换后数据得到的最小二乘估计间的关系为

\tilde{β}_{1} = \frac{l ~ _{\tilde{x} \tilde{y}}}{l ~ _{\tilde{x} \tilde{x}}} = \frac{d _{2}}{d _{1}} \hat{β}_{1}, \tilde{β}_{0} = \tilde{\overset{y}{ˉ}} - \tilde{β}_{1} \tilde{\overset{x}{ˉ}} = \frac{1}{d _{1}} \hat{β}_{0} - \frac{1}{d _{1}} (c_{1} - \hat{β}_{1} c_{2}) .

在实际应用中，人们往往在先由变换后的数据求出 $\tilde{β}_{1}, \tilde{β}_{0}$ ，然后再据此给出 $\hat{β}_{1}, \hat{β}_{0}$ ，它们的关系为

\hat{β}_{1} = \frac{d _{1}}{d _{2}} \tilde{β}_{1}, \hat{β}_{0} = d_{1} \tilde{β}_{0} + c_{1} (1 - \frac{d _{1} / c _{1}}{d _{2} / c _{2}} \tilde{β}_{1}) .

总平方和、回归平方和以及残差平方和分别为

S_{T} = l_{y y} = d_{1}^{2} \tilde{l}_{\tilde{y} \tilde{y}} = d_{1}^{2} \tilde{S}_{T},

S_{R} = \hat{β}_{1}^{2} l_{xx} = \frac{d _{1}^{2}}{d _{2}^{2}} \tilde{β}_{1}^{2} \cdot d_{2}^{2} l_{\tilde{x} \tilde{x}} = d_{1}^{2} \tilde{S}_{R},

S_{e} = d_{1}^{2} \tilde{S}_{e} .

由此知道

F = \frac{S _{R}}{S _{e} / ( n - 2 )} = \frac{S ~ _{R}}{S ~ _{e} / ( n - 2 )} = \tilde{F},

即说明了由原始数据和变换后数据得到的 $F$ 检验统计量的值保持不变.

习题 8.4-4

对给定的 $n$ 组数据 $(x_{i}, y_{i}), i = 1, 2, \dots, n$ ，若我们关心的是 $y$ 如何依赖 $x$ 的取值而变动，则可以建立回归方程
$\overset{y}{^} = a + b x .$
反之，若我们关心的是 $x$ 如何依赖 $y$ 的取值而变动，则可以建立另一个回归方程
$\overset{x}{^} = c + d y .$
试问这两条直线在直角坐标系中是否重合？为什么？若不重合，它们有无交点？若有，试给出交点的坐标.

解一般不重合.因为回归方程 $\overset{y}{^} = a + b x$ 可化为

\overset{y}{^} - \overset{y}{ˉ} = \frac{l _{x y}}{l _{xx}} (x - \overset{x}{ˉ}),

而 $\overset{x}{^} = c + d y$ 化为

\overset{x}{^} - \overset{x}{ˉ} = \frac{l _{x y}}{l _{y y}} (y - \overset{y}{ˉ}) .

当且仅当

l_{x y}^{2} = l_{xx} l_{y y}

时两条直线重合.我们知道， $l_{x y}^{2} = l_{xx} l_{y y}$ 表示相关系数的绝对值为 $1$ ，即 $n$ 组数据 $(x_{i}, y_{i}), i = 1, 2, \dots, n$ 在一条直线上，这在实际中极其罕见，所以说“一般不重合”.

注：不重合时，它们一定有交点 $(\overset{x}{ˉ}, \overset{y}{ˉ})$ .

习题 8.4-5

为考察某种维尼纶纤维的耐水性能，安排了一组试验，测得其中醇浓度 $x$ 及相应的“缩醇化度” $y$ 数据如下：
$x y 18 26.86 20 28.35 22 28.75 24 28.87 26 29.75 28 30.00 30 30.36$

作散点图；

求样本相关系数；

建立一元线性回归方程；

对建立的回归方程作显著性检验（ $α = 0.01$ ）.

解（1）散点图如图 8.1， $y$ 有随着 $x$ 增加而增加趋势.

\FigureEightOne

（2）由样本数据可算得

\sum x_{i} = 168, \sum y_{i} = 202.94,

l_{xx} = \sum (x_{i} - \overset{x}{ˉ})^{2} = 112, l_{y y} = \sum (y_{i} - \overset{y}{ˉ})^{2} = 8.4931,

l_{x y} = \sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = 29.6.

因此样本相关系数

r = \frac{l _{x y}}{l _{xx} l _{y y}} = \frac{29.6}{112 \times 8.4931} = 0.9597.

（3）应用最小二乘估计公式，

\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} = \frac{29.6}{112} = 0.2643, \hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} = 22.6482,

于是，一元线性回归方程为

\overset{y}{^} = 22.6482 + 0.2643 x .

（4）首先计算几个平方和

S_{T} = l_{y y} = 8.4931, S_{R} = \hat{β}_{1}^{2} l_{xx} = 0.264 3^{2} \times 112 = 7.8237,

S_{e} = S_{T} - S_{R} = 0.6694.

将各平方和移入方差分析表，继续计算，可以得到

来源 回归 残差 总计 平方和 7.8237 0.6694 8.4931 自由度 156 均方 7.8237 0.1339 F 比 58.43

若取 $α = 0.01$ ，查表知

F_{0.99} (1, 5) = 16.26 < 58.43,

拒绝域为

W = {F \geq 16.26},

现检验统计量值落入拒绝域，因此在显著性水平 $0.01$ 下回归方程是显著的.此处，回归方程显著性检验的 $p$ 值为（用 MATLAB 语句表示）

p = 1 - fcdf (58.43, 1, 5) = 0.0006.

习题 8.4-6

测得一组弹簧形变 $x$ （单位：cm）和相应的外力 $y$ （单位：N）数据如下：
$y x 1 3.08 1.2 3.76 1.4 4.31 1.6 5.02 1.8 5.51 2.0 6.25 2.2 6.74 2.4 7.40 2.8 8.54 3.0 9.24$
由胡克定律知 $\overset{y}{^} = k x$ ，试估计 $k$ ，并在 $x_{0} = 2.6 cm$ 处给出相应的外力 $y_{0}$ 的 $0.95$ 预测区间.

解由本节的第 1 题可以给出 $k$ 的最小二乘估计为

\hat{k} = \frac{\sum x _{i} y _{i}}{\sum x _{i}^{2}} = \frac{128.296}{395.3199} = 0.3245.

在第 1 题中已经给出 $\hat{k}$ 的均值和方差分别为 $k$ 和 $σ^{2} / \sum x_{i}^{2}$ ，所以

\hat{k} x_{0} \sim N (E (y_{0}), \frac{x _{0}^{2}}{\sum x _{i}^{2}} σ^{2}),

其中

E (y_{0}) = k x_{0}, y_{0} \sim N (E (y_{0}), σ^{2}),

且两者独立，从而有

y_{0} - \overset{y}{^}_{0} \sim N (0, (1 + \frac{x _{0}^{2}}{\sum x _{i}^{2}}) σ^{2}) .

因此 $y_{0}$ 的预测区间为

(\overset{y}{^}_{0} - δ, \overset{y}{^}_{0} + δ),

其中

δ = t_{1 - α /2} (n - 1) \overset{σ}{^} 1 + \frac{x _{0}^{2}}{\sum x _{i}^{2}}, \overset{σ}{^} = \frac{\sum ( y _{i} - k ^ x _{i} ) ^{2}}{n - 1} .

由样本数据可计算得到

S_{e} = \sum (\hat{k} x_{i} - y_{i})^{2} = \hat{k}^{2} \sum x_{i}^{2} - 2 \hat{k} \sum x_{i} y_{i} + \sum y_{i}^{2}

= 0.324 5^{2} \times 395.3199 - 2 \times 0.3245 \times 128.296 + 41.64 = 0.0032,

从而

\overset{σ}{^} = 0.0032/ (10 - 1) = 0.0189.

而 $x_{0} = 2.6 cm$ 对应的外力的预测值为

\overset{y}{^}_{0} = 0.3245 \times 2.6 = 0.8437,

当 $α = 0.05$ 时，查表知

t_{0.975} (9) = 2.2622,

故

δ = 2.2622 \times 0.0189 \times 1 + \frac{2. 6 ^{2}}{395.3199} = 0.0431.

因而得到 $y_{0}$ 的预测区间为

[0.8437 - 0.0431, 0.8437 + 0.0431] = [0.8006, 0.8868] .

习题 8.4-7

设由 $(x_{i}, y_{i}) (i = 1, 2, \dots, n)$ 可建立一元线性回归方程， $\overset{y}{^}_{i}$ 是由回归方程得到的拟合值，证明：样本相关系数 $r$ 满足关系
$r^{2} = \frac{\sum _{i = 1}^{n} ( y ^ _{i} - y ˉ ) ^{2}}{\sum _{i = 1}^{n} ( y _{i} - y ˉ ) ^{2}},$
上式也称为回归方程的决定系数.

解因为

S_{R} = \hat{β}_{1}^{2} l_{xx} = \frac{l _{x y}^{2}}{l _{xx}},

将之代入样本相关系数 $r$ 的表达式中，即有

r^{2} = \frac{l _{x y}^{2}}{l _{xx} l _{y y}} = \frac{S _{R} l _{xx}}{l _{xx} l _{y y}} = \frac{S _{R}}{S _{T}} = \frac{\sum _{i = 1}^{n} ( y ^ _{i} - y ˉ ) ^{2}}{\sum _{i = 1}^{n} ( y _{i} - y ˉ ) ^{2}} .

证明完成.

习题 8.4-8

现收集了 16 组合金钢中的碳含量 $x$ 及强度 $y$ 的数据，求得
$\overset{x}{ˉ} = 0.125, \overset{y}{ˉ} = 45.7886, l_{xx} = 0.3024, l_{x y} = 25.5218, l_{y y} = 2432.4566.$

建立 $y$ 关于 $x$ 的一元线性回归方程 $\overset{y}{^} = \hat{β}_{0} + \hat{β}_{1} x$ ；

写出 $\hat{β}_{0}$ 和 $\hat{β}_{1}$ 的分布；

求 $\hat{β}_{0}$ 和 $\hat{β}_{1}$ 的相关系数；

列出对回归方程作显著性检验的方差分析表（ $α = 0.05$ ）；

给出 $β_{1}$ 的 $0.95$ 置信区间；

在 $x_{0} = 0.15$ 时求对应的 $y_{0}$ 的 $0.95$ 预测区间.

解（1）根据已知数据可以得到回归系数的估计为

\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} = \frac{25.5218}{0.3024} = 84.3975, \hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} = 35.2389.

于是 $y$ 关于 $x$ 的一元线性回归方程为

\overset{y}{^} = 35.2389 + 84.3975 x .

（2）我们知道

\hat{β}_{0} \sim N (β_{0}, (\frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}}) σ^{2}), \hat{β}_{1} \sim N (β_{1}, \frac{σ ^{2}}{l _{xx}}) .

利用已给数据可计算出

\frac{1}{l _{xx}} = \frac{1}{0.3024} = 3.3069, \frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}} = \frac{1}{16} + \frac{0.12 5 ^{2}}{0.3024} = 0.1142,

由此可得到 $\hat{β}_{0}, \hat{β}_{1}$ 的分布分别为

\hat{β}_{0} \sim N (β_{0}, 0.1142 σ^{2}), \hat{β}_{1} \sim N (β_{1}, 3.3069 σ^{2}) .

（3）由于

Cov (\hat{β}_{0}, \hat{β}_{1}) = - \frac{x ˉ}{l _{xx}} σ^{2} = - \frac{0.125}{0.3024} σ^{2} = - 0.4134 σ^{2},

故 $\hat{β}_{0}$ 和 $\hat{β}_{1}$ 的相关系数为

r_{\hat{β}_{0}, \hat{β}_{1}} = \frac{Cov ( β ^ _{0} , β ^ _{1} )}{Var ( β ^ _{0} ) Var ( β ^ _{1} )} = \frac{- 0.4134}{0.1142 \times 3.3069} = - 0.6727.

（4）首先计算三个平方和

S_{T} = l_{y y} = 2432.4566, S_{R} = \frac{l _{x y}^{2}}{l _{xx}} = 2153.9758, S_{e} = S_{T} - S_{R} = 278.4808.

于是可建立如下方差分析表：

来源 回归 残差 总计 平方和 2153.9758 278.4808 2432.4566 自由度 11415 均方 2153.9758 19.8915 F 比 108.2862

若取显著性水平 $α = 0.05$ ，查表知

F_{0.95} (1, 14) = 4.60,

拒绝域为

W = {F \geq 4.60},

此处检验统计量落入拒绝域，因此，在显著性水平 $0.05$ 下回归方程是显著的.此处，回归方程显著性检验的 $p$ 值为

p = 1 - fcdf (108.2862, 1, 14) = 5.6929 \times 1 0^{- 8} .

（5）由教材中定理 8.4.1 与定理 8.4.3 知，

\hat{β}_{1} \sim N (β_{1}, \frac{σ ^{2}}{l _{xx}}), \frac{S _{e}}{σ ^{2}} \sim χ^{2} (n - 2),

且 $\hat{β}_{1}$ 与

\overset{σ}{^}^{2} = \frac{1}{n - 2} S_{e}

相互独立，因此 $β_{1}$ 的置信区间为

(\hat{β}_{1} - t_{1 - α /2} (n - 2) \frac{σ ^}{l _{xx}}, \hat{β}_{1} + t_{1 - α /2} (n - 2) \frac{σ ^}{l _{xx}}) .

其中

\overset{σ}{^} = 19.8915 = 4.46, t_{0.975} (14) = 2.1448,

由此可得到 $β_{1}$ 的置信区间为

[84.3975 - 2.1448 \times 4.46/ 0.3024, 84.3975 + 2.1448 \times 4.46/ 0.3024] = [67.0022, 101.7928] .

（6）首先算出 $x_{0} = 0.15$ 对应的 $y_{0}$ 的预测值为

\overset{y}{^}_{0} = 35.2389 + 84.3975 \times 0.15 = 47.8985.

而

δ = δ (x_{0}) = t_{1 - α /2} (n - 2) \overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}

= 2.1448 \times 4.46 \times 1 + \frac{1}{16} + \frac{( 0.15 - 0.125 ) ^{2}}{0.3024} = 9.8698,

所以 $x_{0} = 0.15$ 时求对应的 $y_{0}$ 的 $0.95$ 预测区间为

[47.8985 - 9.8698, 47.8985 + 9.8698] = [38.0287, 57.7683] .

习题 8.4-9

设回归模型为
${y_{i} = β_{0} + β_{1} x_{i} + ε_{i}, ε_{i} \sim N (0, σ^{2}),$
现收集了 15 组数据，计算有
$\overset{x}{ˉ} = 0.85, \overset{y}{ˉ} = 25.60, l_{xx} = 19.56, l_{x y} = 32.54, l_{y y} = 46.74,$
后经校对，发现有一组数据记录错误，正确数据为 $(1.2, 32.6)$ ，记录为 $(1.5, 32.3)$ .

求 $β_{0}, β_{1}$ 修正后的 LSE；

对回归方程作显著性检验（ $α = 0.05$ ）；

若 $x_{0} = 1.1$ ，给出对应响应变量的 $0.95$ 预测区间.

解由于有一组数据记录错误，应将 $\overset{x}{ˉ}, \overset{y}{ˉ}, l_{xx}, l_{y y}, l_{x y}$ 作修正，修正后的量分别记为

\overset{x}{ˉ}^{'}, \overset{y}{ˉ}^{'}, l_{xx}^{'}, l_{y y}^{'}, l_{x y}^{'},

则

\overset{x}{ˉ}^{'} = \overset{x}{ˉ} + \frac{1}{15} (1.2 - 1.5) = 0.83, \overset{y}{ˉ}^{'} = \overset{y}{ˉ} + \frac{1}{15} (32.6 - 32.3) = 25.62,

l_{xx}^{'} = l_{xx} + n \overset{x}{ˉ}^{2} - n \overset{x}{ˉ}^{'2} - 1. 5^{2} + 1. 2^{2} = 19.254,

l_{y y}^{'} = l_{y y} + n \overset{y}{ˉ}^{2} - n \overset{y}{ˉ}^{'2} - 32. 3^{2} + 32. 6^{2} = 50.844,

l_{x y}^{'} = l_{x y} + n \overset{x}{ˉ} \overset{y}{ˉ} - n \overset{x}{ˉ}^{'} \overset{y}{ˉ}^{'} - 1.5 \times 32.3 + 1.2 \times 32.6 = 30.641.

根据修正后的数据可计算得到 $β_{0}, β_{1}$ 的 LSE 为

\hat{β}_{1} = \frac{l _{x y}^{'}}{l _{xx}^{'}} = 1.5914, \hat{β}_{0} = \overset{y}{ˉ}^{'} - \hat{β}_{1} \overset{x}{ˉ}^{'} = 24.2991.

利用修正后的数据计算三个平方和为

S_{T} = l_{y y}^{'} = 50.844, f_{T} = 14,

S_{R} = \frac{( l _{x y}^{'} ) ^{2}}{l _{xx}^{'}} = 48.7624, f_{R} = 1,

S_{e} = S_{T} - S_{R} = 2.0816, f_{e} = 13,

从而检验统计量

F = \frac{M S _{R}}{M S _{e}} = \frac{48.7624}{2.0816/13} = 304.5746.

若取显著性水平 $α = 0.05$ ，查表知

F_{0.95} (1, 13) = 4.67,

拒绝域为

W = {F \geq 4.67},

由于检验统计量落入拒绝域，因此回归方程是显著的.此处，回归方程显著性检验的 $p$ 值为

p = 1 - fcdf (304.5746, 1, 13) = 2.1043 \times 1 0^{- 10} .

对于 $x_{0} = 1.1$ ，其对应响应变量的预测值为

\overset{y}{^}_{0} = 24.2991 + 1.5914 \times 1.1 = 26.0496,

而

\overset{σ}{^} = 0.1601 = 0.4001, t_{0.975} (13) = 2.1604,

δ (x_{0}) = 2.1604 \times 0.4001 1 + \frac{1}{15} + \frac{( 1.1 - 0.83 ) ^{2}}{19.254} = 0.8943,

因此响应变量的 $0.95$ 预测区间为

[26.0496 - 0.8943, 26.0496 + 0.8943] = [25.1553, 26.9439] .

习题 8.4-10

在生产中积累了 32 组某种铸件在不同腐蚀时间 $x$ 下腐蚀深度 $y$ 的数据，求得回归方程为
$\overset{y}{^} = - 0.4441 + 0.002263 x,$
且误差方差的无偏估计为
$\overset{σ}{^}^{2} = 0.001452,$
总偏差平方和为 $0.1246$ .

对回归方程作显著性检验（ $α = 0.05$ ），列出方差分析表；

求样本相关系数；

若腐蚀时间 $x = 870$ ，试给出 $y$ 的 $0.95$ 近似预测区间.

解（1）由已知条件可以得到

S_{T} = 0.1246, S_{e} = (n - 2) \overset{σ}{^}^{2} = 0.04356,

因此

S_{R} = 0.1246 - 0.04356 = 0.08104.

把这些平方和移至如下方差分析表上，继续计算：

来源 回归 残差 总计 平方和 0.08104 0.04356 0.1246 自由度 13031 均方 0.08104 0.001452 F 比 55.8127

若取显著性水平 $α = 0.05$ ，则

F_{0.95} (1, 30) = 4.17 < 55.8127,

因此回归方程是显著的，此处回归方程检验的 $p$ 值为

p = 1 - fcdf (55.8127, 1, 30) = 2.5101 \times 1 0^{- 8} .

（2）样本相关系数

r = \frac{S _{R}}{S _{T}} = \frac{0.08104}{0.1246} = 0.8065.

（3）若腐蚀时间 $x = 870$ ，则 $y$ 的预测值为

\overset{y}{^} = - 0.4441 + 0.002263 \times 870 = 1.5247.

其 $0.95$ 近似预测区间的半径为

δ \approx \overset{σ}{^} u_{0.975} = 0.001452 \times 1.96 = 0.0747,

从而 $y$ 的 $0.95$ 近似预测区间为

[1.5247 - 0.0747, 1.5247 + 0.0747] = [1.4500, 1.5994] .

习题 8.4-11

我们知道营业税税收总额 $y$ 与社会商品零售总额 $x$ 有关.为能从社会商品零售总额去预测税收总额，需要了解两者之间的关系.现收集了如下 9 组数据（单位：亿元）：
$序号 x y 1 142.08 3.93 2 177.30 5.96 3 204.68 7.85 4 242.68 9.82 5 316.24 12.50 6 341.99 15.55 7 332.69 15.79 8 389.29 16.39 9 453.40 18.45$

画散点图；

建立一元线性回归方程，并作显著性检验（取 $α = 0.05$ ），列出方差分析表；

若已知某年社会商品零售总额为 $300$ 亿元，试给出营业税税收总额的概率为 $0.95$ 的预测区间；

若已知回归直线过原点，试求回归方程，并在显著性水平 $0.05$ 下作显著性检验.

解（1）散点图如图 8.2.

\FigureEightTwo

（2）用 MATLAB 统计软件进行回归，得到的回归方程为

\overset{y}{^} = - 2.26 + 0.0487 x,

其方差分析表如下：

来源 回归 残差 总计 平方和 203.40 7.93 211.33 自由度 178 均方和 203.40 1.13 F 比 180 p 值 0.000

根据以上结果，在显著性水平 $α = 0.05$ 下，回归方程是显著的.

（3）按 regression 的 prediction of new observation 功能，当自变量 $x$ 的值取 $300$ 时，可得到 $y$ 的 $0.95$ 预测区间为

[9.688, 14.999] .

（4）若拟合不带截距的过原点的回归方程，只要在 options 中不选 Fit intercept 选项，即可得到过原点的回归直线为

\overset{y}{^} = 0.0417 x,

此时检验的 $p$ 值为 $0.000$ ，因此在显著性水平 $α = 0.05$ 下，过原点的回归方程是显著的.

补充习题及解答

补充习题 12

求一回归直线 $y = A + B x$ ，使所有样本点 $(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})$ 到该直线的垂直距离平方和最小.

解点 $(x_{i}, y_{i})$ 到直线 $y = A + B x$ 的垂直距离的平方为

d_{i}^{2} = \frac{( y _{i} - A - B x _{i} ) ^{2}}{1 + B ^{2}} .

如今要求 $A$ 与 $B$ ，使

φ (A, B) = i = 1 \sum n \frac{( y _{i} - A - B x _{i} ) ^{2}}{1 + B ^{2}}

最小，使用微分法，并令其导数为零，可得如下两个方程：

i = 1 \sum n (y_{i} - \hat{A} - \hat{B} x_{i}) = 0, 或 \overset{y}{ˉ} - \hat{A} - \hat{B} \overset{x}{ˉ} = 0, (1)

(1 + \hat{B}^{2}) i = 1 \sum n (y_{i} - \hat{A} - \hat{B} x_{i}) x_{i} + \hat{B} i = 1 \sum n (y_{i} - \hat{A} - \hat{B} x_{i})^{2} = 0. (2)

由（1）式可得

\hat{A} = \overset{y}{ˉ} - \hat{B} \overset{x}{ˉ},

并将其代入（2）式，可得

(1 + \hat{B}^{2}) i = 1 \sum n [(y_{i} - \overset{y}{ˉ}) - \hat{B} (x_{i} - \overset{x}{ˉ})] x_{i} + \hat{B} i = 1 \sum n [(y_{i} - \overset{y}{ˉ}) - \hat{B} (x_{i} - \overset{x}{ˉ})]^{2} = 0.

注意到恒等式

i = 1 \sum n [(y_{i} - \overset{y}{ˉ}) - \hat{B} (x_{i} - \overset{x}{ˉ})] \overset{x}{ˉ} = 0,

可将上式化为

(1 + \hat{B}^{2}) i = 1 \sum n [(y_{i} - \overset{y}{ˉ}) - \hat{B} (x_{i} - \overset{x}{ˉ})] (x_{i} - \overset{x}{ˉ}) + \hat{B} i = 1 \sum n [(y_{i} - \overset{y}{ˉ}) - \hat{B} (x_{i} - \overset{x}{ˉ})]^{2} = 0.

使用相同的记号

l_{xx} = \sum (x_{i} - \overset{x}{ˉ})^{2}, l_{y y} = \sum (y_{i} - \overset{y}{ˉ})^{2}, l_{x y} = \sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}),

则上式可表示为

(1 + \hat{B}^{2}) (l_{x y} - \hat{B} l_{xx}) + \hat{B} (l_{y y} + \hat{B}^{2} l_{xx} - 2 \hat{B} l_{x y}) = 0.

整理后可得如下 $\hat{B}$ 的二次方程

l_{x y} \hat{B}^{2} + (l_{xx} - l_{y y}) \hat{B} - l_{x y} = 0.

由于判别式

Δ = (l_{xx} - l_{y y})^{2} + 4 l_{x y}^{2} \geq 0,

故此二次方程有实根，

\hat{B} = \frac{( l _{y y} - l _{xx} ) \pm ( l _{xx} - l _{y y} ) ^{2} + 4 l _{x y}^{2}}{2 l _{x y}},

这里 $\hat{B}$ 是斜率，根据散点图上的上升趋势或下降趋势选择 $\hat{B}$ 表达式中的正负号.

讨论：这样一来，通过二维样本 $(x_{i}, y_{i}) (i = 1, 2, \dots, n)$ 建立一元线性回归方程有两个标准：

使残差平方和 $\sum_{i = 1}^{n} (y_{i} - a - b x_{i})^{2}$ 达到最小；
使回归方程的垂直距离平方和

i = 1 \sum n \frac{( y _{i} - A - B x _{i} ) ^{2}}{1 + B ^{2}}

达到最小.

它们导出的回归系数估计也是不同的，但两条回归直线都通过点 $(\overset{x}{ˉ}, \overset{y}{ˉ})$ .哪个更好呢？这要看你使用什么标准，实际情况是（1）的理论已很完善，使用的人已很多，效果也很好，而（2）的研究甚少，几乎还无人用在实际中使用.实际研究表明，当相关系数的绝对值 $∣ r ∣$ 接近于 $1$ 时，两个标准下得到的回归系数都很接近，即 $a \approx A, b \approx B$ .倘若 $∣ r ∣$ 远离 $1$ 时，两个标准下得到的回归系数相差就大了，接下去的两个习题分别说明这个现象.

补充习题 13

在用光电比色计检验尿素时，对给定的尿素含量 $x$ （单位：mg/l），消光系数 $y$ 服从正态分布，且方差与 $x$ 无关，观测得如下数据：
$尿素含量 x 消光系数 y 26441386205828510360$
试用两个标准分别建立一元回归方程.

解由这组数据可计算得到

\overset{x}{ˉ} = 6, \overset{y}{ˉ} = 210.4, l_{xx} = 40, l_{y y} = 54649.2, l_{x y} = 1478.

（1）用残差平方和最小的标准，可得两回归系数为

\hat{b} = \frac{l _{x y}}{l _{xx}} = \frac{1478}{40} = 36.95, \overset{a}{^} = \overset{y}{ˉ} - \hat{b} \overset{x}{ˉ} = 210.4 - 36.95 \times 6 = - 11.3.

（2）用到回归直线垂直距离平方和最小的标准（见补充习题 12），可得两回归系数为

\hat{B} = \frac{54649.2 - 40 + ( 54649.2 - 40 ) ^{2} + 4 \times 147 8 ^{2}}{2 \times 1478} = 36.9751,

\hat{A} = 210.4 - 36.9751 \times 6 = - 11.4506.

比较两个标准下的结果，可见 $\overset{a}{^} \approx \hat{A}, \hat{b} \approx \hat{B}$ ，这是因为其相关系数

r = 0.99966

很接近 $1$ .

补充习题 14

某合金钢的抗拉强度 $y$ 与碳含量 $x$ 有关，现有 92 炉钢样数据，从中算得
$\overset{x}{ˉ} = 0.1255, \overset{y}{ˉ} = 45.80,$ $l_{xx} = 0.3018, l_{y y} = 2981, l_{x y} = 26.70,$
试用两个标准分别建立一元回归方程.

解（1）用残差平方和最小的标准，可得两回归系数为

\hat{b} = \frac{l _{x y}}{l _{xx}} = \frac{26.7}{0.3018} = 88.47, \overset{a}{^} = \overset{y}{ˉ} - \hat{b} \overset{x}{ˉ} = 45.80 - 88.47 \times 0.1255 = 34.70.

（2）用到回归直线垂直距离平方和最小的标准（见补充习题 12），可得两回归系数为

\hat{B} = \frac{( 2981 - 0.3018 ) + ( 2981 - 0.3018 ) ^{2} + 4 \times 26. 7 ^{2}}{2 \times 26.70} = 111.6456,

\hat{A} = 45.80 - 111.6456 \times 0.1255 = 31.7885.

比较两种标准下的结果，可见 $\overset{a}{^}$ 与 $\hat{A}, \hat{b}$ 与 $\hat{B}$ 之间相差较大，这是因其相关系数

r = 0.8902

与 $1$ 有较大差距.

群知识库

AI 找笔记

Explorer

8.4 一元线性回归

§8.4 一元线性回归

依赖于

被以下题目直接调用

正文部分

§8.4 一元线性回归

习题与解答 8.4

补充习题及解答

评论

Graph View

目录

反向链接