§7.5 正态性检验
依赖于
被以下题目直接调用
正文部分
§7.5 正态性检验
- 正态概率纸检验 具体步骤如下:
- 首先将数据按从小到大的次序排列:
x(1)≤x(2)≤⋯≤x(n);
- 对每一个 i,计算修正频率
F^i=n+0.25i−0.375,i=1,2,⋯,n,
将 F^i 看作概率 F(x(i)) 的估计;
- 将点 (x(i),F^i), i=1,2,⋯,n 逐一描在正态概率纸上;
- 判断:若诸点在一条直线附近,则认为该数据来自正态总体;若诸点明显不在一条直线附近,则认为该数据不是来自正态分布总体;
- 如果从正态概率纸上确认总体是非正态分布时,可从如下变换
y=lnx,y=x1,y=x
中选一个作数据变换,然后用 (y(i),F^i) 再描点,判断变换后的数据是否来自正态分布,若 lnx∼N(μ,σ2),则 x∼LN(μ,σ2),若 x1∼N(μ,σ2),则 x∼IN(μ,σ2)(倒正态分布),若 x∼N(μ,σ2),则 x 服从非中心 χ2 分布(更一般的 χ2 分布)。
- W 检验 具体步骤如下:
- 首先将观测值按从小到大的次序排列:
x(1)≤x(2)≤⋯≤x(n);
- 从附表 6 中查得对应 n 的系数 a1,a2,⋯,an,其中
an+1−i=−ai,i=1,2,⋯,[2n];
- 计算检验统计量
W=i=1∑n(x(i)−xˉ)2i=1∑[n/2]ai(x(n+1−i)−x(i))2;
- 拒绝域
W={W≤Wα},
其中 Wα 可查附表 7。
注:国家标准 GB/T4882—2001 中规定:样本量 n≥8,因为在 n<8 时,对偏离正态分布的检验不太有效。
- 爱泼斯坦—普利检验(EP 检验) EP 检验统计量定义为
TEP=1+3n+n2i=2∑nj=1∑i−1exp{−2sn2(xj−xi)2}−2i=1∑nexp{−4sn2(xi−xˉ)2},
其中 xˉ,sn2 就是前述的样本均值和(除以 n 的)样本方差。该统计量通常需要编程计算,其拒绝域为
{TEP>T1−α,EP(n)},
T1−α,EP(n) 可查附表 11,当 n>200 时,统计量 TEP 的分位数可以用 n=200 时的分位数代替;对小于 200 而不在表内的 n,可采用线性插值的方法得到近似的分位数。
注意:样本观测值的次序是随机的,但一经选定后在计算 TEP 中必须保持不变。计算 TEP 的程序框图如图 7.4 所示(引自国标 GB/T4882—2001)。
\FigureSevenFour
习题与解答 7.5
在检查了一个车间生产的 20 个轴承外座圈的内径(单位:mm)后得到下面数据:
15.04, 15.36, 14.57, 14.53, 15.57, 14.69, 15.37, 14.66, 14.52, 15.41,
15.34, 14.28, 15.01, 14.76, 14.38, 15.87, 13.66, 14.97, 15.29, 14.95.
- 作正态概率图,并作初步判断;
- 请用 W 检验方法检验这组数据是否来自正态分布(α=0.05)。
解
(1) 首先将数据按从小到大的顺序排列:
x(1)≤x(2)≤⋯≤x(20).
具体数据为
13.66, 14.28, 14.38, 14.52, 14.53, 14.57, 14.66, 14.69, 14.76, 14.95,
14.97, 15.01, 15.04, 15.29, 15.34, 15.36, 15.37, 15.41, 15.57, 15.87.
对每一个 i,计算修正频率
20+0.25i−0.375,
结果见表:
i12345678910x(i)13.6614.2814.3814.5214.5314.5714.6614.6914.7614.9520+0.25i−0.3750.03090.08020.12960.17900.22840.27780.32720.37650.42590.4753i11121314151617181920x(i)14.9715.0115.0415.2915.3415.3615.3715.4115.5715.8720+0.25i−0.3750.52470.57410.62350.67280.72220.77160.82100.87040.91980.9691
将点
(x(i),20+0.25i−0.375)
逐一描在正态概率纸上(利用软件),得到内径数据的概率图。
\FigureSevenFive
观察上述点的分布,可以判断上述 20 个点基本在一条直线附近。
(2) W 检验。由数据可算得
xˉ=14.9115,i=1∑20(x(i)−xˉ)2=5.1685,
为计算方便,建立如下表格
k12345x(k)13.6614.2814.3814.5214.53x(n−k+1)15.8715.5715.4115.3715.36dk2.211.291.030.850.83ak0.47340.32110.25650.20850.1686k678910x(k)14.5714.6614.6914.7614.95x(n−k+1)15.3415.2915.0415.0114.97dk0.770.630.350.250.02ak0.13340.10130.07110.04220.0140
从上表中可计算出 W 的值:
W=5.1685(0.4734×2.21+0.3211×1.29+⋯+0.0140×0.02)2=0.9743.
当 n=20 时,查表知
W0.05=0.905,
拒绝域为
{W≤0.905},
由于样本观测值没有落入拒绝域内,故在显著性水平 α=0.05 下不拒绝原假设,即可以认为这批数据服从正态分布。
抽查克矽平治疗矽肺患者 10 名,得到他们治疗前后的血红蛋白量之差如下:
2.7, −1.2, −1.0, 0, 0.7, 2.0, 3.7, −0.6, 0.8, −0.3.
- 作正态概率图,并作初步判断;
- 请用 W 检验方法检验治疗前后的血红蛋白量之差是否服从正态分布(α=0.05)?
解
(1) 仿上题,首先将数据排序,得到
−1.2, −1.0, −0.6, −0.3, 0, 0.7, 0.8, 2.0, 2.7, 3.7,
对每一个 i,计算修正频率
10+0.25i−0.375,i=1,2,⋯,10.
结果见表:
i12345678910x(i)−1.2−1.0−0.6−0.300.70.82.02.73.710+0.25i−0.3750.06100.15850.25610.35370.45120.54880.64630.74390.84150.9390
利用软件可得到正态概率图如下:
\FigureSevenSix
(2) W 检验。由数据可算得
xˉ=0.68,i=1∑10(x(i)−xˉ)2=24.376,
为计算方便,建立如下表格
k12345x(k)−1.2−1.0−0.6−0.30.0x(n−k+1)3.72.72.00.80.7dk4.93.72.61.10.7ak0.57390.32910.21410.12240.0399
从上表中可计算出 W 的值:
W=24.376(0.5739×4.9+0.3291×3.7+0.2141×2.6+0.1224×1.1+0.0399×0.7)2=0.9252.
当 n=10 时,查表知
W0.05=0.842,
拒绝域为
{W≤0.842},
由于样本观测值没有落入拒绝域内,故在显著性水平 α=0.05 下不拒绝原假设,即可以认为治疗前后的血红蛋白量之差服从正态分布。
某种岩石中的一种元素的含量在 25 个样本中为
0.32, 0.25, 0.29, 0.25, 0.28, 0.30, 0.23, 0.23, 0.40, 0.32, 0.35,
0.19, 0.34, 0.33, 0.33, 0.28, 0.28, 0.22, 0.30, 0.24, 0.35, 0.24,
0.30, 0.23, 0.22.
有专家认为该样本来自对数正态分布总体,试设法用 W 检验方法作检验(α=0.05)。
解
首先应对数据进行对数变换。记 y=lnx,则 25 个 y 的观测值可算出,我们把它列在下表中,由此可算得
yˉ=−1.28,i=1∑25(y(i)−yˉ)2=0.8246,
为计算方便,建立如下表格
k123456y(k)−1.66−1.51−1.51−1.47−1.47−1.47y(n−k+1)−0.92−1.05−1.05−1.08−1.11−1.11dk0.740.460.460.390.360.36ak0.44500.30690.25430.21480.18220.1539k789101112y(k)−1.43−1.43−1.39−1.39−1.27−1.27y(n−k+1)−1.14−1.14−1.20−1.20−1.20−1.24dk0.290.290.190.190.070.03ak0.12830.10460.08230.06100.04030.0200
从上表中可计算出 W 的值为
W=0.8246(0.4450×0.74+0.3069×0.46+⋯+0.0200×0.03)2=0.9615.
当 n=25 时,查表知
W0.05=0.918,
拒绝域为
{W≤0.918},
由于样本观测值没有落入拒绝域内,故在显著性水平 α=0.05 下不拒绝原假设,即可以认为样本来自对数正态分布。
对第 3 题的数据,试用 EP 检验方法检验这些数据是否来自正态总体(取 α=0.05)。
解
该问题可按计算 TEP 的框图用任一种软件编程计算,这里用 SAS 软件编程算得
TEP=0.0831.
若取显著性水平 α=0.05,在附表 11 中通过线性插值得到 n=25 时的 0.95 分位数约为
0.368+30−200.371−0.368×(25−20)=0.3695.
计算得到的 TEP 小于该临界值。因此在显著性水平 0.05 下接受这些数据是来自正态总体的。
评论
支持 Markdown 和 LaTeX 数学公式。