§8.1 方差分析
依赖于
被以下题目直接调用
正文部分
§8.1 方差分析
- 单因子方差分析
(1) 问题与数据
设因子有 r 个水平,记为 A1,A2,⋯,Ar,在每一水平下各做 m 次独立重复试验,若记第 i 个水平下第 j 次重复的试验结果为 yij,所有试验的结果可列表如下:
因子水平A1A2⋮Ar试验数据y11, y12, ⋯, y1my21, y22, ⋯, y2m⋮yr1, yr2, ⋯, yrm和T1T2⋮TrT平均yˉ1⋅yˉ2⋅⋮yˉr⋅yˉ
对这个试验要研究的问题是:r 个水平 A1,A2,⋯,Ar 间有无显著差异。
(2) 基本假定
A1: 正态性:第 i 个水平下的数据 yi1,yi2,⋯,yim 是来自正态总体 N(μi,σi2) 的一个样本,i=1,2,⋯,r;
A2: 等方差性:r 个方差相同,即
σ12=σ22=⋯=σr2=σ2;
A3: 独立性:诸数据 yij 都相互独立。
在这三个基本假定下,要检验的假设是
H0:μ1=μ2=⋯=μrvsH1:μ1,μ2,⋯,μr 不全相等。
方差分析就是在上述三个基本假定下,对若干个正态均值是否相等作检验。
(3) 平方和分解式
ST=SA+Se,fT=fA+fe,
若记
yˉi⋅=m1j=1∑myij,yˉ=rm1i=1∑rj=1∑myij=r1i=1∑ryˉi⋅,
上述诸平方和分别为
- ST=∑i=1r∑j=1m(yij−yˉ)2
称为总偏差平方和,其自由度
fT=rm−1=n−1;
- SA=m∑i=1r(yˉi⋅−yˉ)2
称为组间偏差平方和或因子 A 的偏差平方和,其自由度
fA=r−1;
- Se=∑i=1r∑j=1m(yij−yˉi⋅)2
称为组内偏差平方和或误差偏差平方和,其自由度
fe=r(m−1)=n−r.
注:数据 yij 的平移
y′=yij−a
不会改变其平方和的值。用此性质可简化计算。
(4) 方差分析表
来源因子误差总和平方和SA=m1∑i=1rTi2−rmT2Se=ST−SAST=∑i=1r∑j=1myij2−rmT2自由度fA=r−1fe=r(m−1)fT=rm−1均方MSA=SA/fAMSe=Se/feF 比F=MSA/MSe
(5) 判断
在 H0 成立下,
F=MSA/MSe∼F(fA,fe),
对给定的显著性水平 α (0<α<1),其拒绝域为
W={F≥F1−α(fA,fe)},
其中 F1−α(fA,fe) 可从附表 5 中查得。
- 若
F≥F1−α(fA,fe),
则认为因子 A 显著,即诸正态均值间有显著差异;
- 若
F<F1−α(fA,fe),
则说明因子 A 不显著,即接受原假设 H0。
给出检验的 p 值是更常用的,若以 X 记服从 F(fA,fe) 的随机变量,F 为统计量,F=MSA/MSe 的观测值为 F0,则
p=P(X≥F0),
可用软件计算,如在 MATLAB 中使用如下命令:
p=1−fcdf(F0,fA,fe).
- 数据结构式及其参数估计
(1) 数据结构式
yij=μ+ai+εij,i=1,2,⋯,r, j=1,2,⋯,m,
其中 μ 为总均值,ai 为第 i 个水平的效应,且
i=1∑rai=0,
εij 为试验误差,所有 εij 可作为来自 N(0,σ2) 的一个样本,在上述数据结构式下,
yij∼N(μ+ai,σ2).
要检验的假设可改写为
H0:a1=a2=⋯=ar=0vsH1:a1,a2,⋯,ar 不全为 0.
(2) 点估计
- 总均值 μ 的估计
μ^=yˉ;
- 各水平均值 μi 的估计
μ^i=yˉi⋅,i=1,2,⋯,r;
- 主效应 ai 的估计
a^i=yˉi⋅−yˉ,i=1,2,⋯,r;
- 误差方差 σ2 的估计
σ^2=MSe=Se/fe.
(3) 1−α 置信区间(0<α<1)
- μi 的 1−α 置信区间为
[yˉi⋅−σ^⋅t1−α/2(fe)/m, yˉi⋅+σ^⋅t1−α/2(fe)/m].
- 单因子试验的统计分析可给出如下三个结果:
- 因子 A 是否显著;
- 试验误差方差 σ2 的估计;
- 诸水平均值 μi 的点估计与区间估计(此项在因子 A 不显著时无需进行)。
- 重复数不等情形下的方差分析
(1) 数据略有不同
设因子 A 有 r 个水平 A1,A2,⋯,Ar,并且第 i 个水平 Ai 下重复进行 mi 次试验,获得如下数据:
水平A1A2⋮Ar合计重复数m1m2⋮mrn数据y11,y12,⋯,y1m1y21,y22,⋯,y2m2⋮yr1,yr2,⋯,yrmrT和T1T2⋮TrT平均yˉ1⋅yˉ2⋅⋮yˉr⋅yˉ
(2) 基本假定、平方和分解、方差分析及判断准则都和前面一样,只是因子 A 的平方和 SA 的计算公式略有不同:记
n=i=1∑rmi,
则
SA=m1T12+m2T22+⋯+mrTr2−nT2.
(3) 数据结构式及其参数估计基本同前,但要注意以下两点:
- 总均值
μ=n1i=1∑rmiμi;
- 主效应的约束条件为
i=1∑rmiai=0.
习题与解答 8.1
在一个单因子试验中,因子 A 有三个水平,每个水平下各重复 4 次,具体数据如下:
水平一水平二水平三水平数据86051017125492
试计算误差平方和 Se、因子 A 的平方和 SA 与总平方和 ST,并指出它们各自的自由度。
解
此处因子水平数 r=3,每个水平下的重复次数 m=4,总试验次数为
n=mr=12.
首先,算出每个水平下的数据和以及总数据和:
T1=8+5+7+4=24,
T2=6+10+12+9=37,
T3=0+1+5+2=8,
T=T1+T2+T3=24+37+8=69.
误差平方和 Se 由三个平方和组成:
Se1=(82+52+72+42)−4242=10,fe1=3,
Se2=(62+102+122+92)−4372=18.75,fe2=3,
Se3=(02+12+52+22)−482=14,fe3=3.
于是
Se=Se1+Se2+Se3=10+18.75+14=42.75,
fe=fe1+fe2+fe3=9.
而
SA=i=1∑rmTi2−nT2=4242+4372+482−12692=105.5,fA=3−1=2,
ST=i=1∑rj=1∑myij2−12T2=(82+52+⋯+22)−12692=148.25,fT=12−1=11.
注:在所有的计算公式中可以用数据和也可以用数据均值,但在实际计算中应尽可能用和而不用均值,这样可避免不必要的误差(如四舍五入造成的误差等)。
在一个单因子试验中,因子 A 有 4 个水平,每个水平下重复次数分别为 5,7,6,8。那么误差平方和、A 的平方和及总平方和的自由度各是多少?
解
此处因子水平数 r=4,总试验的次数
n=5+7+6+8=26,
因而有
误差平方和的自由度 fe=n−r=26−4=22,
因子 A 的平方和的自由度 fA=r−1=3,
总平方和的自由度 fT=n−1=25.
在单因子试验中,因子 A 有 4 个水平,每个水平下各重复 3 次试验,现已求得每个水平下试验结果的样本标准差分别为 1.5,2.0,1.6,1.2,则其误差平方和为多少?误差的方差 σ2 的估计值是多少?
解
此处因子水平数 r=4,每个水平下的试验次数 m=3,误差平方和 Se 由四个平方和组成,它们分别为
Se1=(3−1)×1.52=4.5,Se2=(3−1)×22=8,
Se3=(3−1)×1.62=5.12,Se4=(3−1)×1.22=2.88.
于是
Se=Se1+Se2+Se3+Se4=20.5,
其自由度为
fe=mr−r=8,
误差方差 σ2 的估计值为
σ^2=feSe=820.5=2.5625.
在单因子方差分析中,因子 A 有 3 个水平,每个水平均各做 4 次重复试验。请完成下列方差分析表,并在显著性水平 α=0.05 下对因子 A 是否显著作出检验:
来源因子 A误差 e总和 T平方和4.22.56.7自由度均方F 比p 值
解
补充的方差分析表如下:
来源因子 A误差 e总和 T平方和4.22.56.7自由度2911均方2.10.28F 比7.5p 值0.0121
对于给定的显著性水平 α=0.05,查表得
F0.95(2,9)=4.26,
故拒绝域为
W={F≥4.26}.
由于
F=7.5>4.26,
因而认为因子 A 是显著的。此外,
p=1−fcdf(7.5,2,9)=0.0121.
用 4 种安眠药在兔子身上进行试验,挑选 24 只健康兔子,随机把它们均分为 4 组,每组各服一种安眠药,安眠时间(单位:h)如下:
安眠药A1A2A3A4安眠时间6.26.36.85.46.16.57.16.46.06.76.66.26.36.66.86.36.17.16.96.05.96.46.65.9
在显著性水平 α=0.05 下对其进行方差分析,可以得到什么结果?
解
这是一个单因子方差分析的问题。根据样本数据有
安眠药A1A2A3A4和m666624Ti36.639.640.836.2153.2Ti21339.561568.161664.641310.445882.8∑j=1myij2223.36261.76277.62219.06981.8
于是
ST=i=1∑rj=1∑myij2−nT2=981.8−24153.22=3.87,fT=23,
SA=m1i=1∑rTi2−nT2=65882.8−24153.22=2.54,fA=3,
Se=ST−SA=1.33,fe=20.
方差分析表为
来源因子 A误差 e总计平方和2.541.333.87自由度32023均方0.84670.0665F 比12.7323
在显著性水平 α=0.05 下,查表得
F0.95(3,20)=3.10.
由于 F=12.7323>3.10,故认为因子 A(安眠药)是显著的,即四种安眠药对兔子的安眠作用有明显差别。检验的 p 值为
p=1−fcdf(12.7323,3,20)=7.048×10−5.
为研究单因子 A 中咖啡因剂量对人的影响,随机选择 30 名体质大致相同的健康男大学生进行手指叩击试验。咖啡因有三个水平:
A1=0mg,A2=100mg,A3=200mg.
每个水平下各安排 10 人,试验结果如下:
咖啡因剂量A1A2A3叩击次数242248246245246248244245250248247252247248248248250250242247246244246248246243245242244250
对于上述数据进行方差分析,从中可得到什么结论?
解
对数据同时减去 240 不改变方差分析结果。将计算结果列入下表:
水平A1A2A3和数据(原始数据−240)28656845108712788810102764686352410Ti486483195Ti223044096688913289∑j=1myij22824487331463
于是
ST=1463−301952=195.5,fT=29,
SA=1013289−301952=61.4,fA=2,
Se=ST−SA=134.1,fe=27.
方差分析表为
来源因子 A误差 e总计平方和61.4134.1195.5自由度22729均方30.74.9667F 比6.1812
当 α=0.05 时,F0.95(2,27)=3.362。由于 F=6.1812>3.362,故认为因子 A(咖啡因剂量)是显著的,即三种不同剂量对人的作用有明显差别。检验的 p 值为
p=1−fcdf(6.1812,2,27)=0.0062.
某粮食加工厂试验三种不同的储藏方法对粮食含水率有无显著影响。现取一批粮食分成若干份,分别用三种不同的方法储藏,过一段时间后测得的含水率(单位:%)如下:
储藏方法A1A2A3含水率数据7.35.47.98.37.49.57.67.110.08.46.89.88.35.38.4
- 假定各种方法储藏的粮食含水率服从正态分布,且方差相等,试在 α=0.05 下检验这三种方法对含水率的平均值有无显著影响;
- 对每种方法的平均含水率给出置信水平为 0.95 的置信区间。
解
(1) 这是一个单因子方差分析问题。由数据计算如下:
储藏方法A1A2A3和Ti39.932.045.6117.5Ti21592.011024.002079.364695.37∑j=1myij2319.39208.66419.26947.31
ST=947.31−15117.52=26.893,fT=14,
SA=54695.37−15117.52=18.657,fA=2,
Se=ST−SA=8.236,fe=12.
于是方差分析表为
来源因子 A误差 e总计平方和18.6578.23626.893自由度21214均方9.3290.686F 比13.599
在显著性水平 α=0.05 下,查表得 F0.95(2,12)=3.89。由于 F=13.599>3.89,故认为因子 A(储藏方法)显著,即三种不同储藏方法对粮食含水率有显著影响。检验的 p 值为
p=1−fcdf(13.599,2,12)=8.2320×10−4.
(2) 各水平均值估计分别为
μ^1=7.98,μ^2=6.40,μ^3=9.12.
误差方差的无偏估计为
σ^2=MSe=0.686,σ^=0.686=0.828.
若取 α=0.05,则
t0.975(12)=2.178,σ^t0.975(12)/5=0.807,
于是三种方法平均含水率的 0.95 置信区间分别为
μ1:[7.98±0.807]=[7.173,8.787],
μ2:[6.40±0.807]=[5.593,7.207],
μ3:[9.12±0.807]=[8.313,9.927].
在人员推销中有五种方法,某大公司想比较这五种方法有无显著的效果差异。设计一项实验:从应聘的且无推销经验的人员中随机挑选一部分人,将他们随机分为五组,每组用一种推销方法进行培训。培训相同时间后观察他们在一个月内的推销额(单位:千元),数据如下:
组别第一组第二组第三组第四组第五组推销额20.024.916.017.525.216.821.320.118.226.217.922.617.320.226.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.816.528.2
- 假定数据满足进行方差分析的条件,对数据进行分析,在 α=0.05 下这五种方法在平均月推销额上有无显著差异;
- 哪种推销方法的效果最好?试对该种方法一个月的平均推销额求置信水平为 0.95 的置信区间。
解
(1) 由数据计算得
推销方法A1A2A3A4A5和Ti149.0172.1143.9127.6195.9788.5Ti222201.0029618.4120707.2116281.7638376.81127185.19∑j=1myij23243.34325.253030.992334.445505.0718439.05
ST=18439.05−35788.52=675.2714,fT=34,
SA=7127185.19−35788.52=405.5343,fA=4,
Se=ST−SA=269.7371,fe=30.
方差分析表为
来源因子 A误差 e总计平方和405.5343269.7371675.2714自由度43034均方101.38368.9912F 比11.2759
在显著性水平 α=0.05 下,查表得 F0.95(4,30)=2.69。由于 F=11.2759>2.69,故认为五种不同推销方法在平均月推销额上有显著差异。检验的 p 值为
p=1−fcdf(11.2759,4,30)=1.0526×10−5.
(2) 各种方法平均月推销额的估计值分别为
μ^1=21.2857,μ^2=24.5857,μ^3=20.5571,μ^4=18.2286,μ^5=27.9857.
从点估计看,第 5 种方法最好。又有
σ^2=MSe=8.9912,σ^=8.9912=2.9985.
查表得
t0.975(30)=2.0423,σ^t0.975(30)/7=2.3146,
于是第 5 种方法下均值的 0.95 置信区间为
μ5:[27.9857±2.3146]=[25.6711,30.3003].
某组装产品内有部分噪声很大的次品,产生次品的原因怀疑是由于这种组装品某个部位的间隙过大引起的。为检验这一认识是否正确,特从正品 A1 和次品 A2 中各抽出 8 个,对其间隙进行测量,数据(单位:μm)如下:
A1A2478122133155841061279
在正态分布假设下,请对 A1 与 A2 中间隙的均值是否存在显著差异进行检验(取 α=0.05)。
解
这是单因子二水平等重复试验,其均值比较可用两种方法。
解法一 方差分析法
先计算
T1=39,T2=86,T=T1+T2=125.
再得
ST=1195−161252=218.4375,
SA=8392+8862−161252=138.0625,
Se=ST−SA=80.375.
方差分析表为
来源因子 A误差 e总计平方和138.062580.375218.4375自由度11415均方138.06255.7411F 比24.0481
当 α=0.05 时,F0.95(1,14)=4.60。由于 F>4.60,故因子 A 显著,即正品与次品该部位的平均间隙有显著差异。
解法二 双样本 t 检验
在正态总体方差相等的条件下,检验统计量为
t=swm11+m21yˉ1−yˉ2∼t(m1+m2−2),
其中
sw2=m1+m2−21[i=1∑m1(y1i−yˉ1)2+i=1∑m2(y2i−yˉ2)2].
由样本可算得
m1=m2=8,yˉ1=4.875,yˉ2=10.75,sw=2.3961,
t=2.396181+814.875−10.75=−4.9039.
对给定显著性水平 α=0.05,拒绝域为
W={∣t∣>t1−α/2(m1+m2−2)}.
查表得
t0.975(14)=2.1448.
由于 ∣t∣>2.1448,故应拒绝两均值相等的假设,此结论与方差分析相同。这并非偶然,因为自由度为 f2 的 t 变量的平方服从 F(1,f2) 分布,本题中
(−4.9039)2=24.0481.
某乳制品公司有四个车间生产同一种酸乳酪,为考察四个车间产品中脂肪含量是否一致,特在每个车间生产的产品中各抽取 8 个样品送往实验室测定,结果(单位:%)如下:
A1A2A3A43.112.943.182.843.363.043.262.953.243.133.482.732.962.863.353.183.153.273.303.043.183.193.062.903.303.103.243.083.062.993.412.98
试比较各车间生产的酸乳酪中脂肪含量均值有无显著差异(取 α=0.05)。
解
为简化运算,令
zij=(yij−3)×100,
则
车间A1A2A3A4T=386zij11−618−1636426−5241348−27−4−143518152730418196−1030102486−141−2Ti13652228−30∑∑zij2=14342∑j=18zij23494160877221518
于是
ST=14342−323862=9685.875,
SA=81i=1∑4Ti2−323862=4604.375,
Se=ST−SA=5081.500.
方差分析表为
来源因子 A误差 e总计平方和4604.3755081.5009685.875自由度32831均方1534.7917181.4821F 比8.46
查表得 F0.95(3,28)≈2.92。由于 F=8.46>2.92,故因子 A 显著,即四个车间生产的酸乳酪中脂肪含量均值有显著差异。
由逆变换
yij=3+100zij
可知
yˉ1=3.17,yˉ2=3.065,yˉ3=3.285,yˉ4=2.963,
σ^y2=10000MSe=0.01814821,σ^y=0.1347.
评论
支持 Markdown 和 LaTeX 数学公式。