§8.4 一元线性回归
依赖于
被以下题目直接调用
正文部分
§8.4 一元线性回归
- 问题 考察两个变量 x 与 y 之间是否存在线性相关关系,其中 x 是一般(可控)变量,y 是随机变量,其线性回归关系可表示如下(可用散点图显示):
y=β0+β1x+ε,
其中 β0 为截距,β1 为斜率,ε 为随机误差,常假设
ε∼N(0,σ2).
这里 β0,β1,σ2 是三个待估参数.上式表明,y 与 x 之间有线性关系,但受到随机误差的干扰.
- 数据 对 x 与 y 通过试验或观察可得 n 对数据(注:数据是成对的,不允许错位).在 y 与 x 之间存在线性关系的假设下,有如下统计模型:
{yi=β0+β1xi+εi,各 εi 独立同分布,其分布为 N(0,σ2).i=1,2,…,n,
利用成对数据可获得 β0 与 β1 的估计,设估计分别为 β^0,β^1,则称
y^=β^0+β^1x
为回归方程,其图形称为回归直线.
- 参数估计 用最小二乘法可得 β0 与 β1 的无偏估计
{β^1=lxy/lxx,β^0=yˉ−β^1xˉ,
其中
xˉ=n1∑xi,yˉ=n1∑yi,
lxy=∑(xi−xˉ)(yi−yˉ)=∑xiyi−nxˉyˉ=∑xiyi−n1∑xi∑yi,
lxx=∑(xi−xˉ)2=∑xi2−nxˉ2=∑xi2−n1(∑xi)2,
lyy=∑(yi−yˉ)2=∑yi2−nyˉ2=∑yi2−n1(∑yi)2.
- 回归方程的显著性检验 回归方程的显著性检验就是要对如下一个假设作出判断:
H0:β1=0vsH1:β1=0.
对此可采用如下两种等价的检验方法:
(1)F 检验
如下的平方和分解式是非常重要的,它在许多统计领域都有应用:
ST=SR+Se,fT=fR+fe,
其中
ST=∑(yi−yˉ)2=lyy
是总偏差平方和,其自由度 fT=n−1;
SR=∑(y^i−yˉ)2=∑(β^0+β^1xi−yˉ)2=β^1lxy=β^12lxx
是回归平方和,其自由度 fR=1;
Se=∑(yi−y^i)2=∑(yi−β^0−β^1xi)2
是残差平方和,其自由度 fe=n−2.
而 y^i=β^0+β^1xi 是在 x=xi 时的回归值(拟合值),它与实测值 yi 通常是不相等的.
在原假设 H0 成立的条件下,检验统计量
F=Se/(n−2)SR∼F(1,n−2),
拒绝域为
W={F≥F1−α(1,n−2)}.
上述检验过程一般用如下方差分析表列出:
来源回归残差总计平方和SRSeST自由度fR=1fe=n−2fT=n−1均方MSR=SRMSe=n−2SeF 比F=MSeMSR
(2)t 检验
检验统计量为
t=σ^/lxxβ^1,σ^=Se/(n−2).
在原假设成立下,
t∼t(n−2),
因此拒绝域为
W={∣t∣≥t1−α/2(n−2)}.
注意到
t2=F,
因此 t 检验与 F 检验是等价的,选其中之一使用即可.
- 相关系数及其检验
(1)相关系数
对容量为 n 的二维样本
{(xi,yi), i=1,2,…,n}
的线性相关程度可用如下(样本)相关系数量
r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)=lxxlyylxy
来衡量.
- r=±1,n 个点完全在一条直线上,此时两者之间可能是确定性关系;
- r>0,当 x 增加时,y 有线性增加趋势,此时称正相关;
- r<0,当 x 增加时,y 反而有线性减少趋势,此时称负相关;
- r=0,n 个点可能杂乱无章,也可能呈某种曲线趋势,此时称不(线性)相关.
(2)相关系数的检验
记 ρ 为二维总体的相关系数,于是可建立如下假设:
H0:ρ=0vsH1:ρ=0.
对此,采用检验统计量 r=lxy/lxxlyy,拒绝域为
W={∣r∣≥r1−α(n−2)},
其中 r1−α(n−1) 是 ∣r∣ 分布的 1−α 分位数,可查附表 9.
(3)检验统计量 r 与 F 统计量之间关系
r2=F+(n−2)F.
这表明 ∣r∣ 是 F 的严格增函数,所以相关系数检验与前面的 F 检验也是等价的.
- 估计与预测 回归方程的应用
- 当 x=x0 时,y^0=β^0+β^1x0 是 E(y0)=β0+β1x0 的点估计;
- 当 x=x0 时,E(y0)=β0+β1x0 的置信水平为 1−α 的置信区间是
[y^0−δ0, y^0+δ0],
其中
δ0=t1−α/2(n−2)σ^n1+lxx(x0−xˉ)2,σ^=MSe;
- 当 x=x0 时,y0=β0+β1x0+ε0 的 1−α 预测区间是
[y^0−δ, y^0+δ],
其中
δ=δ(x0)=t1−α/2(n−2)σ^1+n1+lxx(x0−xˉ)2.
注:E(y0) 是未知参数,而 y0 是随机变量.对 E(y0) 谈论的是置信区间,对 y0 谈论的是预测区间,两者是不同的,显然,预测区间要比置信区间宽很多.
要提高预测区间(置信区间也一样)的精度,即要使 δ(或 δ0)较小,这要求:
- 增大样本量 n;
- 增大 lxx,即要求 x1,x2,…,xn 较为分散;
- 使 x0 靠近 xˉ.
习题与解答 8.4
假设回归直线过原点,即一元线性回归模型为
yi=βxi+εi,i=1,2,…,n,
E(εi)=0,Var(εi)=σ2,
诸观测值相互独立.
- 写出 β 的最小二乘估计和 σ2 的无偏估计;
- 对给定的 x0,其对应的因变量均值的估计为 y^0,求 Var(y^0).
解
由最小二乘法原理,令
Q=i=1∑n(yi−βxi)2,
则正则方程为
∂β∂Qβ^=−2i=1∑n(yi−β^xi)xi=0.
从中解得 β 的最小二乘估计为
β^=∑i=1nxi2∑i=1nxiyi.
不难看出
E(β^)=β,Var(β^)=∑i=1nxi2σ2.
于是,由
Se=∑(yi−y^i)2=∑(βxi+εi−β^xi)2=∑[xi2(β^−β)2+εi2−2(β^−β)xiεi],
可得
E(Se)=∑xi2Var(β^)+nVar(ε)−2∑xiE(β^εi).
将 β^ 写成 y1,y2,…,yn 的线性组合,利用 yj 与 εi(i=j)间的独立性,有
E(β^εi)=∑j=1nxj2xiσ2.
由此即有
∑xiE(β^εi)=σ2,
从而
E(Se)=(n−1)σ2.
这给出 σ2 的无偏估计为
σ^2=n−11Se.
对给定的 x0,对应的因变量均值的估计为
y^0=β^x0,
于是
Var(y^0)=x02Var(β^)=∑i=1nxi2x02σ2.
设回归模型为
{yi=β0+β1xi+εi,各 εi 独立同分布,其分布为 N(0,σ2),i=1,2,…,n,
试求 β0,β1 的最大似然估计,它们与其最小二乘估计一致吗?
解
似然函数为
L=(2πσ1)nexp{−2σ2∑i=1n(yi−β0−β1xi)2},
其对数似然函数为
l=−2nlnσ2−2σ21i=1∑n(yi−β0−β1xi)2
(忽略常数项).将其分别对 β0,β1 求导,并令导函数为 0,得到如下似然方程组:
⎩⎨⎧∂β0∂lβ^0=∑i=1n(yi−β^0−β^1xi)=0,∂β1∂lβ^1=∑i=1n(yi−β^0−β^1xi)xi=0.
经过整理可以解出
{β^1=lxy/lxx,β^0=yˉ−β^1xˉ.
可以看到 β0,β1 的最大似然估计与其最小二乘估计是一致的.
在回归分析计算中,常对数据进行变换
y~i=d1yi−c1,x~i=d2xi−c2,i=1,2,…,n,
其中 c1,c2,d1(d1>0),d2(d2>0) 是适当选取的常数.
- 试建立由原始数据和变换后数据得到的最小二乘估计、总平方和、回归平方和以及残差平方和之间的关系;
- 证明:由原始数据和变换后数据得到的 F 检验统计量的值保持不变.
解
经变换后,各平方和的表达式如下:
xˉ~=n1∑x~i=d21(xˉ−c2),yˉ~=n1∑y~i=d11(yˉ−c1),
l~x~y~=∑(x~i−xˉ~)(y~i−yˉ~)=d1d21lxy,
l~x~x~=∑(x~i−xˉ~)2=d221lxx,l~y~y~=∑(y~i−yˉ~)2=d121lyy.
所以由原始数据和变换后数据得到的最小二乘估计间的关系为
β~1=l~x~x~l~x~y~=d1d2β^1,β~0=yˉ~−β~1xˉ~=d11β^0−d11(c1−β^1c2).
在实际应用中,人们往往在先由变换后的数据求出 β~1,β~0,然后再据此给出 β^1,β^0,它们的关系为
β^1=d2d1β~1,β^0=d1β~0+c1(1−d2/c2d1/c1β~1).
总平方和、回归平方和以及残差平方和分别为
ST=lyy=d12l~y~y~=d12S~T,
SR=β^12lxx=d22d12β~12⋅d22lx~x~=d12S~R,
Se=d12S~e.
由此知道
F=Se/(n−2)SR=S~e/(n−2)S~R=F~,
即说明了由原始数据和变换后数据得到的 F 检验统计量的值保持不变.
对给定的 n 组数据 (xi,yi),i=1,2,⋯,n,若我们关心的是 y 如何依赖 x 的取值而变动,则可以建立回归方程
y^=a+bx.
反之,若我们关心的是 x 如何依赖 y 的取值而变动,则可以建立另一个回归方程
x^=c+dy.
试问这两条直线在直角坐标系中是否重合?为什么?若不重合,它们有无交点?若有,试给出交点的坐标.
解
一般不重合.因为回归方程 y^=a+bx 可化为
y^−yˉ=lxxlxy(x−xˉ),
而 x^=c+dy 化为
x^−xˉ=lyylxy(y−yˉ).
当且仅当
lxy2=lxxlyy
时两条直线重合.我们知道,lxy2=lxxlyy 表示相关系数的绝对值为 1,即 n 组数据 (xi,yi),i=1,2,⋯,n 在一条直线上,这在实际中极其罕见,所以说“一般不重合”.
注:不重合时,它们一定有交点 (xˉ,yˉ).
为考察某种维尼纶纤维的耐水性能,安排了一组试验,测得其中醇浓度 x 及相应的“缩醇化度” y 数据如下:
xy1826.862028.352228.752428.872629.752830.003030.36
- 作散点图;
- 求样本相关系数;
- 建立一元线性回归方程;
- 对建立的回归方程作显著性检验(α=0.01).
解
(1)散点图如图 8.1,y 有随着 x 增加而增加趋势.
\FigureEightOne
(2)由样本数据可算得
∑xi=168,∑yi=202.94,
lxx=∑(xi−xˉ)2=112,lyy=∑(yi−yˉ)2=8.4931,
lxy=∑(xi−xˉ)(yi−yˉ)=29.6.
因此样本相关系数
r=lxxlyylxy=112×8.493129.6=0.9597.
(3)应用最小二乘估计公式,
β^1=lxxlxy=11229.6=0.2643,β^0=yˉ−β^1xˉ=22.6482,
于是,一元线性回归方程为
y^=22.6482+0.2643x.
(4)首先计算几个平方和
ST=lyy=8.4931,SR=β^12lxx=0.26432×112=7.8237,
Se=ST−SR=0.6694.
将各平方和移入方差分析表,继续计算,可以得到
来源回归残差总计平方和7.82370.66948.4931自由度156均方7.82370.1339F 比58.43
若取 α=0.01,查表知
F0.99(1,5)=16.26<58.43,
拒绝域为
W={F≥16.26},
现检验统计量值落入拒绝域,因此在显著性水平 0.01 下回归方程是显著的.此处,回归方程显著性检验的 p 值为(用 MATLAB 语句表示)
p=1−fcdf(58.43,1,5)=0.0006.
测得一组弹簧形变 x(单位:cm)和相应的外力 y(单位:N)数据如下:
yx13.081.23.761.44.311.65.021.85.512.06.252.26.742.47.402.88.543.09.24
由胡克定律知 y^=kx,试估计 k,并在 x0=2.6 cm 处给出相应的外力 y0 的 0.95 预测区间.
解
由本节的第 1 题可以给出 k 的最小二乘估计为
k^=∑xi2∑xiyi=395.3199128.296=0.3245.
在第 1 题中已经给出 k^ 的均值和方差分别为 k 和 σ2/∑xi2,所以
k^x0∼N(E(y0),∑xi2x02σ2),
其中
E(y0)=kx0,y0∼N(E(y0),σ2),
且两者独立,从而有
y0−y^0∼N(0,(1+∑xi2x02)σ2).
因此 y0 的预测区间为
(y^0−δ, y^0+δ),
其中
δ=t1−α/2(n−1)σ^1+∑xi2x02,σ^=n−1∑(yi−k^xi)2.
由样本数据可计算得到
Se=∑(k^xi−yi)2=k^2∑xi2−2k^∑xiyi+∑yi2
=0.32452×395.3199−2×0.3245×128.296+41.64=0.0032,
从而
σ^=0.0032/(10−1)=0.0189.
而 x0=2.6 cm 对应的外力的预测值为
y^0=0.3245×2.6=0.8437,
当 α=0.05 时,查表知
t0.975(9)=2.2622,
故
δ=2.2622×0.0189×1+395.31992.62=0.0431.
因而得到 y0 的预测区间为
[0.8437−0.0431, 0.8437+0.0431]=[0.8006, 0.8868].
设由 (xi,yi) (i=1,2,⋯,n) 可建立一元线性回归方程,y^i 是由回归方程得到的拟合值,证明:样本相关系数 r 满足关系
r2=∑i=1n(yi−yˉ)2∑i=1n(y^i−yˉ)2,
上式也称为回归方程的决定系数.
解
因为
SR=β^12lxx=lxxlxy2,
将之代入样本相关系数 r 的表达式中,即有
r2=lxxlyylxy2=lxxlyySRlxx=STSR=∑i=1n(yi−yˉ)2∑i=1n(y^i−yˉ)2.
证明完成.
现收集了 16 组合金钢中的碳含量 x 及强度 y 的数据,求得
xˉ=0.125,yˉ=45.7886,lxx=0.3024,lxy=25.5218,lyy=2432.4566.
- 建立 y 关于 x 的一元线性回归方程 y^=β^0+β^1x;
- 写出 β^0 和 β^1 的分布;
- 求 β^0 和 β^1 的相关系数;
- 列出对回归方程作显著性检验的方差分析表(α=0.05);
- 给出 β1 的 0.95 置信区间;
- 在 x0=0.15 时求对应的 y0 的 0.95 预测区间.
解
(1)根据已知数据可以得到回归系数的估计为
β^1=lxxlxy=0.302425.5218=84.3975,β^0=yˉ−β^1xˉ=35.2389.
于是 y 关于 x 的一元线性回归方程为
y^=35.2389+84.3975x.
(2)我们知道
β^0∼N(β0,(n1+lxxxˉ2)σ2),β^1∼N(β1,lxxσ2).
利用已给数据可计算出
lxx1=0.30241=3.3069,n1+lxxxˉ2=161+0.30240.1252=0.1142,
由此可得到 β^0,β^1 的分布分别为
β^0∼N(β0,0.1142σ2),β^1∼N(β1,3.3069σ2).
(3)由于
Cov(β^0,β^1)=−lxxxˉσ2=−0.30240.125σ2=−0.4134σ2,
故 β^0 和 β^1 的相关系数为
rβ^0,β^1=Var(β^0)Var(β^1)Cov(β^0,β^1)=0.1142×3.3069−0.4134=−0.6727.
(4)首先计算三个平方和
ST=lyy=2432.4566,SR=lxxlxy2=2153.9758,Se=ST−SR=278.4808.
于是可建立如下方差分析表:
来源回归残差总计平方和2153.9758278.48082432.4566自由度11415均方2153.975819.8915F 比108.2862
若取显著性水平 α=0.05,查表知
F0.95(1,14)=4.60,
拒绝域为
W={F≥4.60},
此处检验统计量落入拒绝域,因此,在显著性水平 0.05 下回归方程是显著的.此处,回归方程显著性检验的 p 值为
p=1−fcdf(108.2862,1,14)=5.6929×10−8.
(5)由教材中定理 8.4.1 与定理 8.4.3 知,
β^1∼N(β1,lxxσ2),σ2Se∼χ2(n−2),
且 β^1 与
σ^2=n−21Se
相互独立,因此 β1 的置信区间为
(β^1−t1−α/2(n−2)lxxσ^, β^1+t1−α/2(n−2)lxxσ^).
其中
σ^=19.8915=4.46,t0.975(14)=2.1448,
由此可得到 β1 的置信区间为
[84.3975−2.1448×4.46/0.3024, 84.3975+2.1448×4.46/0.3024]=[67.0022, 101.7928].
(6)首先算出 x0=0.15 对应的 y0 的预测值为
y^0=35.2389+84.3975×0.15=47.8985.
而
δ=δ(x0)=t1−α/2(n−2)σ^1+n1+lxx(x0−xˉ)2
=2.1448×4.46×1+161+0.3024(0.15−0.125)2=9.8698,
所以 x0=0.15 时求对应的 y0 的 0.95 预测区间为
[47.8985−9.8698, 47.8985+9.8698]=[38.0287, 57.7683].
设回归模型为
{yi=β0+β1xi+εi,εi∼N(0,σ2),
现收集了 15 组数据,计算有
xˉ=0.85,yˉ=25.60,lxx=19.56,lxy=32.54,lyy=46.74,
后经校对,发现有一组数据记录错误,正确数据为 (1.2,32.6),记录为 (1.5,32.3).
- 求 β0,β1 修正后的 LSE;
- 对回归方程作显著性检验(α=0.05);
- 若 x0=1.1,给出对应响应变量的 0.95 预测区间.
解
由于有一组数据记录错误,应将 xˉ,yˉ,lxx,lyy,lxy 作修正,修正后的量分别记为
xˉ′, yˉ′, lxx′, lyy′, lxy′,
则
xˉ′=xˉ+151(1.2−1.5)=0.83,yˉ′=yˉ+151(32.6−32.3)=25.62,
lxx′=lxx+nxˉ2−nxˉ′2−1.52+1.22=19.254,
lyy′=lyy+nyˉ2−nyˉ′2−32.32+32.62=50.844,
lxy′=lxy+nxˉyˉ−nxˉ′yˉ′−1.5×32.3+1.2×32.6=30.641.
根据修正后的数据可计算得到 β0,β1 的 LSE 为
β^1=lxx′lxy′=1.5914,β^0=yˉ′−β^1xˉ′=24.2991.
利用修正后的数据计算三个平方和为
ST=lyy′=50.844,fT=14,
SR=lxx′(lxy′)2=48.7624,fR=1,
Se=ST−SR=2.0816,fe=13,
从而检验统计量
F=MSeMSR=2.0816/1348.7624=304.5746.
若取显著性水平 α=0.05,查表知
F0.95(1,13)=4.67,
拒绝域为
W={F≥4.67},
由于检验统计量落入拒绝域,因此回归方程是显著的.此处,回归方程显著性检验的 p 值为
p=1−fcdf(304.5746,1,13)=2.1043×10−10.
对于 x0=1.1,其对应响应变量的预测值为
y^0=24.2991+1.5914×1.1=26.0496,
而
σ^=0.1601=0.4001,t0.975(13)=2.1604,
δ(x0)=2.1604×0.40011+151+19.254(1.1−0.83)2=0.8943,
因此响应变量的 0.95 预测区间为
[26.0496−0.8943, 26.0496+0.8943]=[25.1553, 26.9439].
在生产中积累了 32 组某种铸件在不同腐蚀时间 x 下腐蚀深度 y 的数据,求得回归方程为
y^=−0.4441+0.002263x,
且误差方差的无偏估计为
σ^2=0.001452,
总偏差平方和为 0.1246.
- 对回归方程作显著性检验(α=0.05),列出方差分析表;
- 求样本相关系数;
- 若腐蚀时间 x=870,试给出 y 的 0.95 近似预测区间.
解
(1)由已知条件可以得到
ST=0.1246,Se=(n−2)σ^2=0.04356,
因此
SR=0.1246−0.04356=0.08104.
把这些平方和移至如下方差分析表上,继续计算:
来源回归残差总计平方和0.081040.043560.1246自由度13031均方0.081040.001452F 比55.8127
若取显著性水平 α=0.05,则
F0.95(1,30)=4.17<55.8127,
因此回归方程是显著的,此处回归方程检验的 p 值为
p=1−fcdf(55.8127,1,30)=2.5101×10−8.
(2)样本相关系数
r=STSR=0.12460.08104=0.8065.
(3)若腐蚀时间 x=870,则 y 的预测值为
y^=−0.4441+0.002263×870=1.5247.
其 0.95 近似预测区间的半径为
δ≈σ^u0.975=0.001452×1.96=0.0747,
从而 y 的 0.95 近似预测区间为
[1.5247−0.0747, 1.5247+0.0747]=[1.4500, 1.5994].
我们知道营业税税收总额 y 与社会商品零售总额 x 有关.为能从社会商品零售总额去预测税收总额,需要了解两者之间的关系.现收集了如下 9 组数据(单位:亿元):
序号xy1142.083.932177.305.963204.687.854242.689.825316.2412.506341.9915.557332.6915.798389.2916.399453.4018.45
- 画散点图;
- 建立一元线性回归方程,并作显著性检验(取 α=0.05),列出方差分析表;
- 若已知某年社会商品零售总额为 300 亿元,试给出营业税税收总额的概率为 0.95 的预测区间;
- 若已知回归直线过原点,试求回归方程,并在显著性水平 0.05 下作显著性检验.
解
(1)散点图如图 8.2.
\FigureEightTwo
(2)用 MATLAB 统计软件进行回归,得到的回归方程为
y^=−2.26+0.0487x,
其方差分析表如下:
来源回归残差总计平方和203.407.93211.33自由度178均方和203.401.13F 比180p 值0.000
根据以上结果,在显著性水平 α=0.05 下,回归方程是显著的.
(3)按 regression 的 prediction of new observation 功能,当自变量 x 的值取 300 时,可得到 y 的 0.95 预测区间为
[9.688, 14.999].
(4)若拟合不带截距的过原点的回归方程,只要在 options 中不选 Fit intercept 选项,即可得到过原点的回归直线为
y^=0.0417x,
此时检验的 p 值为 0.000,因此在显著性水平 α=0.05 下,过原点的回归方程是显著的.
补充习题及解答
求一回归直线 y=A+Bx,使所有样本点 (x1,y1),(x2,y2),⋯,(xn,yn) 到该直线的垂直距离平方和最小.
解
点 (xi,yi) 到直线 y=A+Bx 的垂直距离的平方为
di2=1+B2(yi−A−Bxi)2.
如今要求 A 与 B,使
φ(A,B)=i=1∑n1+B2(yi−A−Bxi)2
最小,使用微分法,并令其导数为零,可得如下两个方程:
i=1∑n(yi−A^−B^xi)=0,或yˉ−A^−B^xˉ=0,(1)
(1+B^2)i=1∑n(yi−A^−B^xi)xi+B^i=1∑n(yi−A^−B^xi)2=0.(2)
由(1)式可得
A^=yˉ−B^xˉ,
并将其代入(2)式,可得
(1+B^2)i=1∑n[(yi−yˉ)−B^(xi−xˉ)]xi+B^i=1∑n[(yi−yˉ)−B^(xi−xˉ)]2=0.
注意到恒等式
i=1∑n[(yi−yˉ)−B^(xi−xˉ)]xˉ=0,
可将上式化为
(1+B^2)i=1∑n[(yi−yˉ)−B^(xi−xˉ)](xi−xˉ)+B^i=1∑n[(yi−yˉ)−B^(xi−xˉ)]2=0.
使用相同的记号
lxx=∑(xi−xˉ)2,lyy=∑(yi−yˉ)2,lxy=∑(xi−xˉ)(yi−yˉ),
则上式可表示为
(1+B^2)(lxy−B^lxx)+B^(lyy+B^2lxx−2B^lxy)=0.
整理后可得如下 B^ 的二次方程
lxyB^2+(lxx−lyy)B^−lxy=0.
由于判别式
Δ=(lxx−lyy)2+4lxy2≥0,
故此二次方程有实根,
B^=2lxy(lyy−lxx)±(lxx−lyy)2+4lxy2,
这里 B^ 是斜率,根据散点图上的上升趋势或下降趋势选择 B^ 表达式中的正负号.
讨论:这样一来,通过二维样本 (xi,yi)(i=1,2,⋯,n) 建立一元线性回归方程有两个标准:
- 使残差平方和 ∑i=1n(yi−a−bxi)2 达到最小;
- 使回归方程的垂直距离平方和
i=1∑n1+B2(yi−A−Bxi)2
达到最小.
它们导出的回归系数估计也是不同的,但两条回归直线都通过点 (xˉ,yˉ).哪个更好呢?这要看你使用什么标准,实际情况是(1)的理论已很完善,使用的人已很多,效果也很好,而(2)的研究甚少,几乎还无人用在实际中使用.实际研究表明,当相关系数的绝对值 ∣r∣ 接近于 1 时,两个标准下得到的回归系数都很接近,即 a≈A,b≈B.倘若 ∣r∣ 远离 1 时,两个标准下得到的回归系数相差就大了,接下去的两个习题分别说明这个现象.
在用光电比色计检验尿素时,对给定的尿素含量 x(单位:mg/l),消光系数 y 服从正态分布,且方差与 x 无关,观测得如下数据:
尿素含量 x消光系数 y26441386205828510360
试用两个标准分别建立一元回归方程.
解
由这组数据可计算得到
xˉ=6,yˉ=210.4,lxx=40,lyy=54649.2,lxy=1478.
(1)用残差平方和最小的标准,可得两回归系数为
b^=lxxlxy=401478=36.95,a^=yˉ−b^xˉ=210.4−36.95×6=−11.3.
(2)用到回归直线垂直距离平方和最小的标准(见补充习题 12),可得两回归系数为
B^=2×147854649.2−40+(54649.2−40)2+4×14782=36.9751,
A^=210.4−36.9751×6=−11.4506.
比较两个标准下的结果,可见 a^≈A^,b^≈B^,这是因为其相关系数
r=0.99966
很接近 1.
某合金钢的抗拉强度 y 与碳含量 x 有关,现有 92 炉钢样数据,从中算得
xˉ=0.1255,yˉ=45.80,
lxx=0.3018,lyy=2981,lxy=26.70,
试用两个标准分别建立一元回归方程.
解
(1)用残差平方和最小的标准,可得两回归系数为
b^=lxxlxy=0.301826.7=88.47,a^=yˉ−b^xˉ=45.80−88.47×0.1255=34.70.
(2)用到回归直线垂直距离平方和最小的标准(见补充习题 12),可得两回归系数为
B^=2×26.70(2981−0.3018)+(2981−0.3018)2+4×26.72=111.6456,
A^=45.80−111.6456×0.1255=31.7885.
比较两种标准下的结果,可见 a^ 与 A^,b^ 与 B^ 之间相差较大,这是因其相关系数
r=0.8902
与 1 有较大差距.
评论
支持 Markdown 和 LaTeX 数学公式。