§6.6 区间估计
依赖于
被以下题目直接调用
正文部分
§6.6 区间估计
1. 置信区间 设 θ 是总体的一个参数,其参数空间为 Θ ,x 1 , x 2 , … , x n 是来自该总体的样本,对给定的一个 α ( 0 < α < 1 ) ,若有两个统计量
θ ^ L = θ ^ L ( x 1 , x 2 , … , x n ) , θ ^ U = θ ^ U ( x 1 , x 2 , … , x n ) ,
使得对任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) ≥ 1 − α ,
则称随机区间 [ θ ^ L , θ ^ U ] 是 θ 的置信水平为 1 − α 的置信区间,或简称 [ θ ^ L , θ ^ U ] 是 θ 的 1 − α 置信区间;θ ^ L 和 θ ^ U 分别称为 θ 的(双侧)置信下限和置信上限。
这里置信水平 1 − α 的含义是指在大量使用该置信区间时,大约有不少于 100 ( 1 − α ) % 的区间包含 θ 。
2. 同等置信区间 在上述记号下,若对给定的 α ( 0 < α < 1 ) ,对任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) = 1 − α ,
则称 [ θ ^ L , θ ^ U ] 为 θ 的 1 − α 同等置信区间。
同等置信区间是把给定的置信水平 1 − α 用足了。常在总体为连续分布场合下可以实现。
3. 置信限 在上述记号下,若对给定的 α ( 0 < α < 1 ) 和任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ) ≥ 1 − α , ∀ θ ∈ Θ ,
则称 θ ^ L 是 θ 的置信水平为 1 − α 的(单侧)置信下限。假如等号对一切 θ ∈ Θ 成立,则称 θ ^ L 是 θ 的 1 − α 同等置信下限。若对给定的 α ( 0 < α < 1 ) 和任意的 θ ∈ Θ ,有
P θ ( θ ^ U ≥ θ ) ≥ 1 − α ,
则称 θ ^ U 是 θ 的置信水平为 1 − α 的(单侧)置信上限。若等号对一切 θ ∈ Θ 成立,则称 θ ^ U 是 θ 的 1 − α 同等置信上限。
4. 枢轴量法 寻找同等置信区间常采用枢轴量法,其步骤如下:
设法构造一个样本和 θ 的函数 G = G ( x 1 , x 2 , … , x n , θ ) ,使得 G 的分布不依赖于未知参数。此种 G 被称为枢轴量;
适当地选择两个常数 c , d ,使对给定的 α ( 0 < α < 1 ) ,有 P ( c ≤ G ≤ d ) = 1 − α ;
若能将 c ≤ G ≤ d 进行不等式等价变形化为 θ ^ L ≤ θ ≤ θ ^ U ,则有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) = 1 − α ,
最后的 [ θ ^ L , θ ^ U ] 就是 θ 的 1 − α 同等置信区间。
关于置信区间的构造有两点说明:
满足置信水平要求的 c 与 d 通常不唯一。若有可能,应选平均长度 E ( θ ^ U − θ ^ L ) 达到最短的 c 与 d ,这在 G 的分布为对称分布场合通常容易实现。
实际中,选平均长度 E ( θ ^ U − θ ^ L ) 尽可能短的 c 与 d 往往很难实现,此时,常这样选择 c 与 d ,使得两个尾部概率各为 α /2 ,即 P ( G < c ) = P ( G > d ) = α /2 ,这样的置信区间称为等尾置信区间。这是在 G 的分布为偏态分布场合常采用的方法。
5. 常用的置信区间
(1) 设 x 1 , x 2 , … , x n 是来自 N ( μ , σ 2 ) 的样本,x ˉ 为样本均值,s 为样本标准差,u p 为标准正态分布的 p 分位数,t p ( k ) 为自由度是 k 的 t 分布 t ( k ) 的 p 分位数,χ p 2 ( k ) 为自由度是 k 的 χ 2 分布 χ 2 ( k ) 的 p 分位数,取置信水平 1 − α ,则
σ 已知时 μ 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] ;
σ 未知时 μ 的置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] ;
σ 2 (μ 未知)的置信区间为
[ χ 1 − α /2 2 ( n − 1 ) ( n − 1 ) s 2 , χ α /2 2 ( n − 1 ) ( n − 1 ) s 2 ] ;
σ (μ 未知)的置信区间为
χ 1 − α /2 2 ( n − 1 ) s n − 1 , χ α /2 2 ( n − 1 ) s n − 1 .
(2) 设 x 1 , x 2 , … , x m 是来自 N ( μ 1 , σ 1 2 ) 的样本,x ˉ 为其样本均值,s x 为其样本标准差;y 1 , y 2 , … , y n 是来自 N ( μ 2 , σ 2 2 ) 的样本,y ˉ 为其样本均值,s y 为其样本标准差;u p , t p ( k ) 含义同上,F p ( k 1 , k 2 ) 为自由度是 ( k 1 , k 2 ) 的 F 分布 F ( k 1 , k 2 ) 的 p 分位数,取置信水平 1 − α ,则
σ 1 2 与 σ 2 2 均已知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − u 1 − α /2 m σ 1 2 + n σ 2 2 , x ˉ − y ˉ + u 1 − α /2 m σ 1 2 + n σ 2 2 ] ;
σ 1 2 = σ 2 2 未知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − mn m + n s w t 1 − α /2 ( m + n − 2 ) , x ˉ − y ˉ + mn m + n s w t 1 − α /2 ( m + n − 2 ) ] ,
其中
s w 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 ;
σ 2 2 σ 1 2 = c 已知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − mn m c + n s t t 1 − α /2 ( m + n − 2 ) , x ˉ − y ˉ + mn m c + n s t t 1 − α /2 ( m + n − 2 ) ] ,
其中
s t 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 / c ;
m 与 n 都很大时,μ 1 − μ 2 的近似置信区间为
[ x ˉ − y ˉ − u 1 − α /2 m s x 2 + n s y 2 , x ˉ − y ˉ + u 1 − α /2 m s x 2 + n s y 2 ] ;
一般场合下 μ 1 − μ 2 的近似置信区间为
[ x ˉ − y ˉ − s 0 t 1 − α /2 ( l ) , x ˉ − y ˉ + s 0 t 1 − α /2 ( l ) ] ,
其中
s 0 2 = m s x 2 + n s y 2 , l = m 2 ( m − 1 ) s x 4 + n 2 ( n − 1 ) s y 4 s 0 4 .
方差比 σ 2 2 σ 1 2 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( m − 1 , n − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( m − 1 , n − 1 ) 1 ] .
(3) 设 x 1 , x 2 , … , x n 是来自 b ( 1 , p ) 的样本,x ˉ 为其样本均值,则 n 很大时比例 p 的置信水平为 1 − α 的近似置信区间为
[ x ˉ − u 1 − α /2 n x ˉ ( 1 − x ˉ ) , x ˉ + u 1 − α /2 n x ˉ ( 1 − x ˉ ) ] .
6. 样本量的确定 控制比率 p 的 1 − α 置信区间长度不超过 2 d 0 的最小样本量为
n ≥ ( 2 d 0 u 1 − α /2 ) 2 .
习题与解答 6.6
某厂生产的化纤强度服从正态分布,长期以来其标准差稳定在 σ = 0.85 ,现抽取了一个容量为 n = 25 的样本,测定其强度,算得样本均值为 x ˉ = 2.25 ,试求这批化纤平均强度的置信水平为 0.95 的置信区间。
解
这是方差已知时正态均值的区间估计问题。由题设条件 1 − α = 0.95 ,α = 0.05 ,查表知 u 0.975 = 1.96 ,于是这批化纤平均强度的置信水平为 0.95 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] = [ 2.25 − 1.96 × 25 0.85 , 2.25 + 1.96 × 25 0.85 ] .
即这批化纤平均强度的置信水平为 0.95 的置信区间为
[ 1.9168 , 2.5832 ] .
总体 X ∼ N ( μ , σ 2 ) ,σ 2 已知,问样本容量 n 取多大时才能保证 μ 置信水平为 95% 的置信区间的长度不大于 k 。
解
已知条件下得 μ 的 0.95 置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] ,
其区间长度为 2 u 1 − α /2 σ / n ,若使 2 u 1 − α /2 σ / n ≤ k ,只需
n ≥ ( k 2 ) 2 σ 2 u 1 − α /2 2 .
由于 u 1 − α /2 = 1.96 ,故
n ≥ ( k 2 ) 2 σ 2 ⋅ 1.9 6 2 = ( k 3.92 σ ) 2 ,
即样本容量 n 至少取 ( k 3.92 σ ) 2 时,才能保证 μ 的置信水平为 95% 的置信区间的长度不大于 k 。
0.50 , 1.25 , 0.80 , 2.00 是取自总体 X 的样本,已知 Y = ln X 服从正态分布 N ( μ , 1 ) 。
(1) 求 μ 的置信水平为 95% 的置信区间;
(2) 求 X 的数学期望的置信水平为 95% 的置信区间。
解
(1) 将数据进行对数变换,得到 Y = ln X 的样本值为
− 0.6931 , 0.2231 , − 0.2231 , 0.6931.
它可看作是来自正态总体 N ( μ , 1 ) 的样本,其样本均值为 y ˉ = 0 ,由于 σ = 1 已知,因此,μ 的置信水平为 95% 的置信区间为
[ y ˉ − u 1 − α /2 n 1 , y ˉ + u 1 − α /2 n 1 ] = [ − 0.9800 , 0.9800 ] .
(2) 由于
E ( X ) = e μ + 2 1
是 μ 的严格函数,利用 (1) 的结果,可算得 X 的数学期望的置信水平为 95% 的置信区间为
[ e − 0.98 + 0.5 , e 0.98 + 0.5 ] = [ 0.6188 , 4.3929 ] .
用一个仪表测量某一物理量 9 次,得样本均值 x ˉ = 56.32 ,样本标准差 s = 0.22 。
(1) 测量标准差 σ 的大小反映了测量仪表的精度,试求 σ 的置信水平为 0.95 的置信区间;
(2) 求该物理量真值的置信水平为 0.99 的置信区间。
解
(1) 此处 ( n − 1 ) s 2 = 8 × 0.2 2 2 = 0.3872 。查表知
χ 0.025 2 ( 8 ) = 2.1797 , χ 0.975 2 ( 8 ) = 17.5345 ,
σ 2 的 1 − α 置信区间为
[ χ 1 − α /2 2 ( n − 1 ) ( n − 1 ) s 2 , χ α /2 2 ( n − 1 ) ( n − 1 ) s 2 ] = [ 17.5345 0.3872 , 2.1797 0.3872 ] = [ 0.0221 , 0.1776 ] ,
从而 σ 的置信水平为 0.95 的置信区间为
[ 0.1487 , 0.4214 ] .
(2) 当 σ 未知时,μ 的 1 − α 置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] .
查表得 t 1 − 0.005 ( 8 ) = 3.3554 ,因而 μ 的置信水平为 0.99 的置信区间为
[ 56.32 − 3.3554 × 9 0.22 , 56.32 + 3.3554 × 9 0.22 ] = [ 56.0739 , 56.5661 ] .
已知某种材料的抗压强度 X ∼ N ( μ , σ 2 ) ,现随机地抽取 10 个试件进行抗压试验,测得数据如下:
482 , 493 , 457 , 471 , 510 , 446 , 435 , 418 , 394 , 469.
(1) 求平均抗压强度 μ 的置信水平为 95% 的置信区间;
(2) 若已知 σ = 30 ,求平均抗压强度 μ 的置信水平为 95% 的置信区间;
(3) 求 σ 的置信水平为 95% 的置信区间。
解
(1) 经计算得,
x ˉ = 457.5 , s = 35.2176.
在 σ 未知时,μ 的置信水平为 95% 的置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] .
查表得 t 1 − 0.025 ( 9 ) = 2.2622 ,因而 μ 的置信水平为 95% 的置信区间为
[ 457.5 − 2.2622 × 10 35.2176 , 457.5 + 2.2622 × 10 35.2176 ] = [ 432.3064 , 482.6936 ] .
(2) 在 σ = 30 已知时,μ 的置信水平为 95% 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] .
查表得 u 1 − α /2 = 1.96 ,因而 μ 的置信水平为 95% 的置信区间为
[ 457.5 − 1.96 × 10 30 , 457.5 + 1.96 × 10 30 ] = [ 438.9058 , 476.0942 ] .
(3) 此处 ( n − 1 ) s 2 = 11162.5141 。取 α = 0.05 ,查表得
χ 0.025 2 ( 9 ) = 2.7004 , χ 0.975 2 ( 9 ) = 19.0228 ,
因而 σ 2 的置信水平为 95% 的置信区间为
[ 19.0228 11162.5141 , 2.7004 11162.5141 ] = [ 586.7966 , 4133.6521 ] ,
由此可以得到 σ 的置信水平为 95% 的置信区间为
[ 24.2239 , 64.2935 ] .
在一批货物中随机抽取 80 件,发现有 11 件不合格品,试求这批货物的不合格品率的置信水平为 0.90 的置信区间。
解
此处 n = 80 较大,可用正态分布求其近似置信区间。不合格品率的 1 − α 近似置信区间为
[ x ˉ − u 1 − α /2 n x ˉ ( 1 − x ˉ ) , x ˉ + u 1 − α /2 n x ˉ ( 1 − x ˉ ) ] .
此处
x ˉ = 80 11 = 0.1375 , u 0.95 = 1.645 ,
因而不合格品率的置信水平为 0.90 的置信区间为
[ 0.1375 − 1.645 80 0.1375 × 0.8625 , 0.1375 + 1.645 80 0.1375 × 0.8625 ] = [ 0.0742 , 0.2008 ] .
设 x 1 , x 2 , … , x n 是来自泊松分布 P ( λ ) 的样本,证明:λ 的近似 1 − α 置信区间为
x ˉ + 2 n 1 u 1 − α /2 2 − 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 , x ˉ + 2 n 1 u 1 − α /2 2 + 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
解
由中心极限定理知,当样本量 n 较大时,样本均值 x ˉ 近似服从
N ( λ , n λ ) ,
因而
u = λ / n x ˉ − λ
近似服从 N ( 0 , 1 ) ,此 u 可作为枢轴量。对给定 α ,利用标准正态分布的 1 − α /2 分位数 u 1 − α /2 可得
P ( λ / n x ˉ − λ ≤ u 1 − α /2 ) ≈ 1 − α .
括号里的事件等价于
( x ˉ − λ ) 2 ≤ n u 1 − α /2 2 λ ,
因而得
λ 2 − ( 2 x ˉ + n u 1 − α /2 2 ) λ + x ˉ 2 ≤ 0.
其左侧 λ 的二次多项式二次项系数为正,故二次曲线开口向上,而其判别式
( 2 x ˉ + n u 1 − α /2 2 ) 2 − 4 x ˉ 2 = n 4 x ˉ u 1 − α /2 2 + ( n u 1 − α /2 2 ) 2 > 0 ,
故此二次曲线与 λ 轴有两个交点,记为 λ L 和 λ U (λ L < λ U ),则有
P ( λ L ≤ λ ≤ λ U ) = 1 − α ,
其中 λ L 和 λ U 可表示为
2 2 x ˉ + n 1 u 1 − α /2 2 ± ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
这就证明了 λ 的近似 1 − α 置信区间为
x ˉ + 2 n 1 u 1 − α /2 2 − 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 , x ˉ + 2 n 1 u 1 − α /2 2 + 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
事实上,上述近似区间是在 n 比较大时使用的,此时有
2 n 1 u 1 − α /2 2 ≈ 0 , 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 ≈ u 1 − α /2 n x ˉ .
于是,λ 的近似 1 − α 置信区间可进一步简化为
[ x ˉ − u 1 − α /2 n x ˉ , x ˉ + u 1 − α /2 n x ˉ ] .
某商店某种商品的月销售量服从泊松分布,为合理进货,必须了解销售情况。现记录了该商店过去的一些销售量,数据如下:
月销售量 月份数 9 1 10 6 11 13 12 12 13 9 14 4 15 2 16 1
试求平均月销售量的置信水平为 0.95 的置信区间。
解
平均月销售量
x ˉ = ∑ i = 1 8 n i ∑ i = 1 8 n i x i = 48 575 = 11.9792.
此处 α = 0.05 ,u 1 − α /2 = 1.96 ,n = 48 较大,利用上一题的结果,平均月销售量的近似 0.95 置信区间为
[ 11.9792 − 1.96 48 11.9792 , 11.9792 + 1.96 48 11.9792 ] = [ 11.0000 , 12.9584 ] .
若用较为精确的近似公式,得置信区间为
[ 11.0392 , 12.9992 ] ,
二者相差不大。
设从总体 X ∼ N ( μ 1 , σ 1 2 ) 和总体 Y ∼ N ( μ 2 , σ 2 2 ) 中分别抽取容量为 n 1 = 10 ,n 2 = 15 的独立样本,可计算得
x ˉ = 82 , s x 2 = 56.5 , y ˉ = 76 , s y 2 = 52.4.
(1) 若已知 σ 1 2 = 64 ,σ 2 2 = 49 ,求 μ 1 − μ 2 的置信水平为 95% 的置信区间;
(2) 若已知 σ 1 2 = σ 2 2 ,求 μ 1 − μ 2 的置信水平为 95% 的置信区间;
(3) 若对 σ 1 2 , σ 2 2 一无所知,求 μ 1 − μ 2 的置信水平为 95% 的近似置信区间;
(4) 求 σ 1 2 / σ 2 2 的置信水平为 95% 的置信区间。
解
(1) 在 σ 1 2 , σ 2 2 都已知时,μ 1 − μ 2 的置信水平为 1 − α 的置信区间为
x ˉ − y ˉ − u 1 − α /2 n 1 σ 1 2 + n 2 σ 2 2 , x ˉ − y ˉ + u 1 − α /2 n 1 σ 1 2 + n 2 σ 2 2 .
经计算 x ˉ − y ˉ = 6 ,查表得 u 0.975 = 1.96 ,因而 μ 1 − μ 2 的置信水平为 95% 的置信区间为
[ 6 − 1.96 10 64 + 15 49 , 6 + 1.96 10 64 + 15 49 ] = [ − 0.0939 , 12.0939 ] .
(2) 当 σ 1 2 = σ 2 2 时,μ 1 − μ 2 的置信水平为 1 − α 的置信区间为
[ x ˉ − y ˉ − n 1 n 2 n 1 + n 2 s w t 1 − α /2 ( n 1 + n 2 − 2 ) , x ˉ − y ˉ + n 1 n 2 n 1 + n 2 s w t 1 − α /2 ( n 1 + n 2 − 2 ) ] .
这里
s w 2 = n 1 + n 2 − 2 ( n 1 − 1 ) s x 2 + ( n 2 − 1 ) s y 2 = 23 9 × 56.5 + 14 × 52.4 = 54.0043 ,
而 t 0.975 ( 23 ) = 2.0687 ,因而 μ 1 − μ 2 的置信水平为 95% 的置信区间为
[ 82 − 76 − 2.0687 54.0043 10 × 15 10 + 15 , 82 − 76 + 2.0687 54.0043 10 × 15 10 + 15 ] = [ − 0.2063 , 12.2063 ] .
(3) 当 σ 1 2 , σ 2 2 未知时,由于两个样本量不是很大,故可采用一般场合下的近似置信区间,即 μ 1 − μ 2 的置信水平为 1 − α 的近似置信区间为
[ x ˉ − y ˉ − s 0 t 1 − α /2 ( l ) , x ˉ − y ˉ + s 0 t 1 − α /2 ( l ) ] .
这里
s 0 2 = n 1 s x 2 + n 2 s y 2 = 10 56.5 + 15 52.4 = 9.1433 ,
l = n 1 2 ( n 1 − 1 ) s x 4 + n 2 2 ( n 2 − 1 ) s y 4 s 0 4 = 900 56. 5 2 + 3150 52. 4 2 9.143 3 2 = 18.9199 ≈ 19.
又查表得 t 0.975 ( 19 ) = 2.0930 ,因而 μ 1 − μ 2 的置信水平为 95% 的近似置信区间为
[ 82 − 76 − 2.0930 9.1433 , 82 − 76 + 2.0930 9.1433 ] = [ − 0.3288 , 12.3288 ] .
(4) σ 1 2 / σ 2 2 的置信水平为 1 − α 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( n 1 − 1 , n 2 − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( n 1 − 1 , n 2 − 1 ) 1 ] .
查表得
F 0.975 ( 9 , 14 ) = 3.21 , F 0.025 ( 9 , 14 ) = F 0.975 ( 14 , 9 ) 1 = 3.80 1 ,
因而 σ 1 2 / σ 2 2 的置信水平为 95% 的置信区间为
[ 52.4 56.5 ⋅ 3.21 1 , 52.4 56.5 ⋅ 3.80 ] = [ 0.3359 , 4.0973 ] .
假设人体身高服从正态分布,今抽测甲、乙两地区 18 岁至 25 岁女青年身高得数据如下:甲地区抽取 10 名,样本均值 1.64 m ,样本标准差 0.2 m ;乙地区抽取 10 名,样本均值 1.62 m ,样本标准差 0.4 m 。求:
(1) 两正态总体方差比的置信水平为 95% 的置信区间;
(2) 两正态总体均值差的置信水平为 95% 的置信区间。
解
设 x 1 , x 2 , … , x 10 为甲地区抽取的女青年身高,y 1 , y 2 , … , y 10 为乙地区抽取的女青年身高,由题设条件,
x ˉ = 1.64 , s x = 0.2 , y ˉ = 1.62 , s y = 0.4.
(1) σ 甲 2 / σ 乙 2 的置信水平为 1 − α 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( m − 1 , n − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( m − 1 , n − 1 ) 1 ] .
此处 α = 0.05 ,m = n = 10 ,查表得
F 0.975 ( 9 , 9 ) = 4.03 , F 0.025 ( 9 , 9 ) = F 0.975 ( 9 , 9 ) 1 = 4.03 1 ,
由此,σ 甲 2 / σ 乙 2 的置信水平为 95% 的置信区间为
[ 0. 4 2 0. 2 2 ⋅ 4.03 1 , 0. 4 2 0. 2 2 ⋅ 4.03 ] = [ 0.0620 , 1.0075 ] .
(2) 由 (1),σ 甲 2 / σ 乙 2 的置信水平为 95% 的置信区间包含 1 ,因此有一定理由假定两个正态总体的方差相等,此时
s w 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 = 10 + 10 − 2 9 × 0. 2 2 + 9 × 0. 4 2 = 18 1.8 = 0.1.
查表得 t 0.975 ( 18 ) = 2.1009 ,故两正态总体均值差的置信水平为 95% 的置信区间为
[ 1.64 − 1.62 − 2.1009 0.1 10 × 10 10 + 10 , 1.64 − 1.62 + 2.1009 0.1 10 × 10 10 + 10 ] = [ − 0.2771 , 0.3171 ] .
还有另一种解法就是不对方差相等作假定,而采用近似方法求均值差的置信区间,由于
s 0 2 = m s x 2 + n s y 2 = 10 0.04 + 10 0.16 = 0.02 , l = 900 0.0 4 2 + 900 0.1 6 2 0.0 2 2 = 13 ,
查表知 t 0.975 ( 13 ) = 2.1604 ,从而两正态总体均值差的置信水平为 95% 的近似置信区间为
[ 1.64 − 1.62 − 2.1604 0.02 , 1.64 − 1.62 + 2.1604 0.02 ] = [ − 0.2855 , 0.3255 ] .
这两个置信区间相差不算太小,所以在应用中条件“方差相等”是否成立是要加以考证的。
设总体 X 的密度函数为
p ( x , λ ) = λ e − λ x I { x > 0 } ,
其中 λ > 0 为未知参数,x 1 , x 2 , … , x n 为抽自此总体的简单随机样本,求 λ 的置信水平为 1 − α 的置信区间。
解
由指数分布和伽马分布的关系知
i = 1 ∑ n x i ∼ G a ( n , λ ) ,
根据伽马分布的性质,
2 λ i = 1 ∑ n x i ∼ G a ( n , 2 1 ) = χ 2 ( 2 n ) .
从而,
P ( χ α /2 2 ( 2 n ) ≤ 2 λ i = 1 ∑ n x i ≤ χ 1 − α /2 2 ( 2 n ) ) = 1 − α ,
因此可得 λ 的置信水平为 1 − α 的置信区间为
[ 2 n x ˉ χ α /2 2 ( 2 n ) , 2 n x ˉ χ 1 − α /2 2 ( 2 n ) ] .
设某电子产品的寿命服从指数分布,其密度函数为
λ e − λ x I { x > 0 } ,
现从此批产品中抽取容量为 9 的样本,测得寿命(单位:千时)
15 , 45 , 50 , 53 , 60 , 65 , 70 , 83 , 90 ,
求平均寿命 1/ λ 的置信水平为 0.9 的置信区间和置信上、下限。
解
这是上题的一个具体应用。计算得
2 n x ˉ = 1062 ,
查表可得,
χ 0.05 2 ( 18 ) = 9.3905 , χ 0.1 2 ( 18 ) = 10.8649 , χ 0.9 2 ( 18 ) = 25.9894 , χ 0.95 2 ( 18 ) = 28.8693.
根据上题结论可知,λ 的置信水平为 0.9 的置信区间为
[ 0.0088 , 0.0272 ] ,
单侧置信上限为 0.0245 ,单侧置信下限为 0.0102 。所以,平均寿命 1/ λ 的置信水平为 0.9 的置信区间为
[ 36.76 , 113.64 ] ,
单侧置信上限为 98.04 ,单侧置信下限为 40.82 。
设总体 X 的密度函数为
p ( x , θ ) = π [ 1 + ( x − θ ) 2 ] 1 , − ∞ < x < ∞ , − ∞ < θ < ∞ ,
x 1 , x 2 , … , x n 为抽自此总体的简单随机样本,求位置参数 θ 的置信水平近似为 1 − α 的置信区间。
解
由于此柯西分布关于 θ 对称,故 θ 是总体中位数。其样本中位数
m 0.5 ∼ N ( θ , 4 n π 2 ) ,
所以
P ( − u 1 − α /2 ≤ π 2 n ( m 0.5 − θ ) ≤ u 1 − α /2 ) ≈ 1 − α ,
从而可知位置参数 θ 的置信水平近似为 1 − α 的置信区间为
[ m 0.5 − 2 n π u 1 − α /2 , m 0.5 + 2 n π u 1 − α /2 ] .
设 x 1 , x 2 , … , x n 为抽自正态总体 N ( μ , 16 ) 的简单随机样本,为使得 μ 的置信水平为 1 − α 的置信区间的长度不大于给定的 L ,试问样本容量 n 至少要多少?
解
μ 的置信水平为 1 − α 的置信区间为
[ x ˉ − u 1 − α /2 n 4 , x ˉ + u 1 − α /2 n 4 ] ,
对应的区间长度为
u 1 − α /2 n 8 .
令
u 1 − α /2 n 8 ≤ L ,
得
n ≥ u 1 − α /2 2 L 2 64 .
因此,样本容量 n 至少为
u 1 − α /2 2 L 2 64 .
设 x 1 , x 2 , … , x n 为抽自正态总体 N ( μ , σ 2 ) 的简单随机样本。试证
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ )
为枢轴量,其中 k 为已知常数。
解
因为
σ x ˉ − ( μ + k σ ) ∼ N ( − k , n 1 ) , σ 2 1 i = 1 ∑ n ( x i − x ˉ ) 2 ∼ χ 2 ( n − 1 ) ,
故
[ σ 2 ( n − 1 ) 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 σ x ˉ − ( μ + k σ ) ∼ t ( n − 1 , δ ) ,
其中 t ( n − 1 , δ ) 是自由度为 n − 1 的非中心 t 分布,其非中心参数 δ = − k n 为已知常数。又
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ ) = [ σ 2 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 σ x ˉ − ( μ + k σ ) ,
所以
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ )
的分布与 ( μ , σ 2 ) 无关,即为枢轴量。
设 x 1 , x 2 , … , x n 是来自
U ( θ − 2 1 , θ + 2 1 )
的样本,求 θ 的置信水平为 1 − α 的置信区间(提示:证明 2 x ( n ) + x ( 1 ) − θ 为枢轴量,并求出对应的密度函数)。
解
本题是下一题 (2) 的特殊情形,此处过程从略,答案为
[ 2 x ( n ) + x ( 1 ) − 2 1 − α 1/ n , 2 x ( n ) + x ( 1 ) + 2 1 − α 1/ n ] .
设 x 1 , x 2 , … , x n 为抽自均匀分布 U ( θ 1 , θ 2 ) 的简单随机样本,记
x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n )
为其次序统计量。求:
(1) θ 2 − θ 1 的置信水平为 1 − α 的置信区间;
(2) 2 θ 2 + θ 1 的置信水平为 1 − α 的置信区间。
解
(1) 令
y i = θ 2 − θ 1 x i − θ 1 , i = 1 , 2 , … , n ,
则 y 1 , y 2 , … , y n 独立同分布于 U ( 0 , 1 ) 。由教材例 5.3.9 可知,
y ( n ) − y ( 1 ) ∼ B e ( n − 1 , 2 ) ,
所以,
P ( B e α /2 ( n − 1 , 2 ) ≤ y ( n ) − y ( 1 ) ≤ B e 1 − α /2 ( n − 1 , 2 ) ) = 1 − α ,
这里 B e p ( n − 1 , 2 ) 表示 B e ( n − 1 , 2 ) 的 p 分位数。从而,θ 2 − θ 1 的置信水平为 1 − α 的置信区间为
[ B e 1 − α /2 ( n − 1 , 2 ) x ( n ) − x ( 1 ) , B e α /2 ( n − 1 , 2 ) x ( n ) − x ( 1 ) ] .
(2) 令
u = x ( n ) − x ( 1 ) ( x ( n ) + x ( 1 ) ) − ( θ 2 + θ 1 ) , v = x ( n ) − x ( 1 ) ,
则
⎩ ⎨ ⎧ x ( 1 ) x ( n ) = 2 uv − v + θ 1 + θ 2 , = 2 uv + v + θ 1 + θ 2 ,
且
J = ∂ ( u , v ) ∂ ( x ( 1 ) , x ( n ) ) = v /2 v /2 ( u − 1 ) /2 ( u + 1 ) /2 = 2 v .
( x ( 1 ) , x ( n ) ) 的联合密度函数为
f ( x ( 1 ) , x ( n ) ; θ 1 , θ 2 ) = ( θ 2 − θ 1 ) n n ( n − 1 ) ( x ( n ) − x ( 1 ) ) n − 2 , θ 1 < x ( 1 ) ≤ x ( n ) < θ 2 ,
所以,( u , v ) 的联合密度函数为
g ( u , v ; θ 1 , θ 2 ) = 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 ,
并且
θ 1 < 2 uv − v + θ 1 + θ 2 ≤ 2 uv + v + θ 1 + θ 2 < θ 2 .
由于
{( u , v ) : θ 1 < 2 uv − v + θ 1 + θ 2 ≤ 2 uv + v + θ 1 + θ 2 < θ 2 } = {( u , v ) : θ 1 − θ 2 < uv − v ≤ uv + v < θ 2 − θ 1 } ,
下面讨论在 u 给定后 v 的取值范围,显然有 v > 0 ,故主要是确定 v 的上界。若 u ≥ 0 ,则上式给出
v < 1 + u θ 2 − θ 1 ,
而若 u < 0 ,则上式给出
v < 1 − u θ 2 − θ 1 ,
从而 u 的密度函数为
h ( u ) = I { u ≥ 0 } ∫ 0 ( θ 2 − θ 1 ) / ( 1 + u ) 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 d v + I { u < 0 } ∫ 0 ( θ 2 − θ 1 ) / ( 1 − u ) 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 d v = 2 ( 1 + ∣ u ∣ ) n n − 1 .
注意到该密度函数是对称的,对任意给定的 c > 0 ,有
P ( ∣ u ∣ ≤ c ) = ∫ 0 c ( 1 + u ) n n − 1 d u = 1 − ( 1 + c ) − ( n − 1 ) .
取
c 0 = α − n − 1 1 − 1 ,
则
P ( − c 0 ≤ u ≤ c 0 ) = 1 − α ,
即
P ( − c 0 ≤ x ( n ) − x ( 1 ) [( x ( n ) + x ( 1 ) ) − ( θ 2 + θ 1 )] ≤ c 0 ) = 1 − α ,
因此,2 θ 2 + θ 1 的置信水平为 1 − α 的置信区间为
[ 2 x ( n ) + x ( 1 ) − 2 c 0 ( x ( n ) − x ( 1 ) ) , 2 x ( n ) + x ( 1 ) + 2 c 0 ( x ( n ) − x ( 1 ) ) ] .
设 x 1 , x 2 , … , x m 独立同分布于 U ( 0 , θ 1 ) ,y 1 , y 2 , … , y n 独立同分布于 U ( 0 , θ 2 ) ,θ 1 > 0 , θ 2 > 0 皆未知,且两样本独立,求 θ 1 / θ 2 的一个置信水平为 1 − α 的置信区间(提示:令 T 1 = x ( m ) ,T 2 = y ( n ) ,证明 T 1 T 2 ⋅ θ 2 θ 1 的分布与 θ 1 , θ 2 无关,并求出对应的密度函数)。
解
记
T 1 = x ( m ) , T 2 = y ( n ) ,
则
X = θ 1 T 1 ∼ B e ( m , 1 ) , Y = θ 2 T 2 ∼ B e ( n , 1 ) ,
故
T = Y X = T 2 / θ 2 T 1 / θ 1 = T 2 T 1 ⋅ θ 1 θ 2
的分布完全已知,可作为枢轴量。下求 T 的分布。
利用商的公式,只是要注意 y 的积分范围。此处变量取值范围为
0 < x < 1 , 0 < y < 1 ,
即
0 < t y < 1 , 0 < y < 1.
故当 t ∈ ( 0 , 1 ) 时,0 < y < 1 ,有
p ( t ) = ∫ 0 1 m ( y t ) m − 1 n y n − 1 ⋅ y d y = m + n mn t m − 1 .
而当 t ≥ 1 时,0 < y < 1/ t ,
p ( t ) = ∫ 0 1/ t m ( y t ) m − 1 n y n − 1 ⋅ y d y = m + n mn t − n − 1 .
由此可写出其分布函数(更加简洁),为
F ( t ) = ⎩ ⎨ ⎧ m + n n t m , 1 − m + n m t − n , 0 < t < 1 , t ≥ 1.
对给定的充分小的 α ,由上式不难给出两个分位数,如取
t 1 = ( n m + n 2 α ) 1/ m , t 2 = ( m m + n 2 α ) − 1/ n ,
则
P ( t 1 ≤ T ≤ t 2 ) = 1 − α ,
于是给出了 θ 1 / θ 2 的一个置信水平为 1 − α 的置信区间为
[ y ( n ) x ( m ) ( m m + n 2 α ) 1/ n , y ( n ) x ( m ) ( n m + n 2 α ) − 1/ m ] .
设总体 X 的密度函数为
p ( x , θ ) = e − ( x − θ ) I { x > θ } , − ∞ < θ < ∞ ,
x 1 , x 2 , … , x n 为抽自此总体的简单随机样本。
(1) 证明:x ( 1 ) − θ 的分布与 θ 无关,并求出此分布;
(2) 求 θ 的置信水平为 1 − α 的置信区间。
解
(1) 令
y i = x i − θ , i = 1 , 2 , … , n ,
则 y 1 , y 2 , … , y n 独立同分布于 E x p ( 1 ) ,y ( 1 ) 的密度函数为
g ( y ) = n e − n y , y > 0 ,
即 x ( 1 ) − θ 的分布与 θ 无关,其密度函数为
g ( y ) = n e − n y , y > 0.
(2) 取 c , d 使得
P ( c ≤ x ( 1 ) − θ ≤ d ) = ∫ c d n e − n y d y = 1 − α .
由于 g ( y ) = n e − n y 在 y > 0 上单调递减,为使得区间长度最短,故应取 c = 0 ,从而求得
d = − n ln α .
所以,θ 的置信水平为 1 − α 的置信区间为
[ x ( 1 ) + n ln α , x ( 1 ) ] .
补充习题及解答
随机选取 9 发炮弹,测得炮弹的炮口速度的样本标准差 s = 11 m/s ,若炮弹的炮口速度服从正态分布,求其标准差 σ 的 0.95 置信上限。
解
在正态分布下,对样本方差 s 2 有
σ 2 8 s 2 ∼ χ 2 ( 8 ) ,
从而有
P ( σ 2 8 s 2 ≥ χ α 2 ( 8 ) ) = 1 − α .
等价地,
P ( σ ≤ χ α 2 ( 8 ) 8 s 2 ) = 1 − α ,
故标准差 σ 的 1 − α 置信上限为
σ ^ U = χ α 2 ( 8 ) 8 s 2 .
现 α = 0.05 ,查表知
χ 0.05 2 ( 8 ) = 2.7326 ,
故标准差 σ 的 0.95 置信上限为
σ ^ U = 2.7326 8 × 1 1 2 = 18.82.
有两位化验员 A 与 B 独立地对一批聚合物含氯量用同样方法各进行 10 次重复测定,其样本方差分别为 s A 2 = 0.5419 与 s B 2 = 0.6065 ,若 A 与 B 的测量值都服从正态分布,求其方差比
R = σ B 2 σ A 2
的 0.95 置信上限。
解
在正态分布下,两样本方差比服从 F 分布,具体是
s B 2 / σ B 2 s A 2 / σ A 2 = s B 2 s A 2 ⋅ σ A 2 σ B 2 ∼ F ( 9 , 9 ) .
从而有
P ( s B 2 s A 2 ⋅ σ A 2 σ B 2 ≥ F α ( 9 , 9 ) ) = 1 − α ,
即
P ( R ≤ F α ( 9 , 9 ) s A 2 / s B 2 ) = 1 − α ,
故 R 的 1 − α 置信上限为
R ^ U = F α ( 9 , 9 ) s A 2 / s B 2 .
现 α = 0.05 ,查表知
F 0.05 ( 9 , 9 ) = F 0.95 ( 9 , 9 ) 1 = 3.18 1 ,
故 R 的 1 − α 置信上限为
R ^ U = F 0.05 ( 9 , 9 ) s A 2 / s B 2 = 0.6065 0.5419 × 3.18 = 2.84.
为估计某台光谱仪测量材料中金属含量的测量误差,特置备了 5 个金属试块,其成分、金属含量、均匀性都有差别,设每个试块的测量值都服从正态分布,现对每个试块重复测量 6 次,计算得其样本标准差分别为
s 1 = 0.09 , s 2 = 0.11 , s 3 = 0.14 , s 4 = 0.10 , s 5 = 0.11 ,
试求 σ 的 0.95 置信区间。
解
从题意可知,这里 s i 可以看作来自正态总体 N ( μ i , σ 2 ) 的容量为 n = 6 的样本标准差,i = 1 , 2 , … , 5 ,由此可知
( n − 1 ) σ 2 s i 2 ∼ χ 2 ( n − 1 ) ,
即
5 σ 2 s i 2 ∼ χ 2 ( 5 ) .
由于各试块的测量可以为相互独立的,故有
i = 1 ∑ 5 σ 2 5 s i 2 ∼ χ 2 ( 5 × 5 ) = χ 2 ( 25 ) ,
从而
P ( χ α /2 2 ( 25 ) ≤ σ 2 1 i = 1 ∑ 5 5 s i 2 ≤ χ 1 − α /2 2 ( 25 ) ) = 1 − α ,
即
P χ 1 − α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 ≤ σ ≤ χ α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 = 1 − α .
故 σ 的 1 − α 置信区间为
χ 1 − α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 , χ α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 .
现算出
i = 1 ∑ 5 s i 2 = 0.0619.
对 α = 0.05 ,查表知
χ 0.025 2 ( 25 ) = 13.1197 , χ 0.975 2 ( 25 ) = 40.6465 ,
代入可算得 σ 的 0.95 置信区间为
[ 40.6465 5 × 0.0619 , 13.1197 5 × 0.0619 ] = [ 0.0873 , 0.1536 ] .
为研究某型号汽车轮胎的磨耗,随机选择 16 只轮胎,每只轮胎行驶到磨坏为止,记录所行驶路程(单位:km)如下:
4125040187431754101039265418724265441287 3897040200425504109540680435003977540400
假设这些数据来自正态总体 N ( μ , σ 2 ) ,其中 μ , σ 2 未知,求 μ 的置信水平为 0.95 的单侧置信下限。
解
先计算样本均值 x ˉ 与样本标准差 s ,
x ˉ = 41116.9 , s = 1346.84.
利用 σ 未知场合的 μ 的单侧置信下限
μ ^ L = x ˉ − t 1 − α ( n − 1 ) n s ,
这里 n = 16 ,t 0.95 ( 15 ) = 1.7531 ,代入可得
μ ^ L = 41116.9 − 1.7531 × 16 1346.84 = 40526.6 (km) .
有一位市场调查员,他感兴趣的是该地区成年人中将购买某种产品的比例 θ (即该商品的市场占有率)。现他要事先确定需要访问多少顾客(样本量 n = ? )才能使 [ x ˉ − d , x ˉ + d ] 是 θ 的置信水平为 0.95 的置信区间,其中 x ˉ 是样本中购买此种商品的顾客的比例,d 是事先给定的常数。假如事先知道 θ ≤ 1/4 ,结果又是如何?
解
对第一个问题,教科书中例 6.6.8 对类似的问题进行了讨论,给出了一种解法,此处我们换一种思路对该问题进行讨论。
设 x 1 , x 2 , … , x n 是来自二点分布 b ( 1 , θ ) 的一个样本,x ˉ 就是样本中购买此种商品的顾客的比例,由中心极限定理知,当 n 较大时,
θ ( 1 − θ ) n ( x ˉ − θ ) ≈ N ( 0 , 1 ) .
在 θ 未知时,有
θ ( 1 − θ ) ≤ 4 1 ,
从而
P ( 1/4 n ( x ˉ − θ ) < u 1 − α /2 ) ≥ P ( θ ( 1 − θ ) n ( x ˉ − θ ) < u 1 − α /2 ) = 1 − α ,
即
P ( x ˉ − 2 n u 1 − α /2 ≤ θ ≤ x ˉ + 2 n u 1 − α /2 ) ≥ 1 − α .
这说明
[ x ˉ − 2 n u 1 − α /2 , x ˉ + 2 n u 1 − α /2 ]
是 θ 的置信水平 1 − α 的置信区间。要求该置信区间的长度不超过 2 d ,即得
2 u 1 − α /2 / ( 2 n ) ≤ 2 d ,
或
n ≥ ( 2 d u 1 − α /2 ) 2 .
若 α = 0.05 ,u 0.975 = 1.96 ,当 d = 0.01 , 0.02 , 0.03 时可分别算得
n ≥ 9604 , 2401 , 1067.
样本量随 d 的增加(精度减小)迅速降低。
对第二个问题,当已知 θ ≤ θ 0 (θ 0 < 1/2 )(或已知 θ ≥ θ 0 (θ 0 > 1/2 ),处理方法完全一样)时,由于
f ( θ ) = θ ( 1 − θ )
在 ( 0 , θ 0 ) 是增函数,所以
θ ( 1 − θ ) ≤ θ 0 ( 1 − θ 0 ) ,
从而
P ( θ 0 ( 1 − θ 0 ) n ( x ˉ − θ ) < u 1 − α /2 ) ≥ P ( θ ( 1 − θ ) n ( x ˉ − θ ) < u 1 − α /2 ) = 1 − α .
这说明
[ x ˉ − u 1 − α /2 n θ 0 ( 1 − θ 0 ) , x ˉ + u 1 − α /2 n θ 0 ( 1 − θ 0 ) ]
是 θ 的置信水平 1 − α 的置信区间。类似地,要求该置信区间的长度不超过 2 d ,即得
n ≥ ( d u 1 − α /2 ) 2 θ 0 ( 1 − θ 0 ) .
譬如,若已知 θ ≤ 1/4 (即 θ 0 = 1/4 ),则
θ 0 ( 1 − θ 0 ) = 16 3 ,
于是关于样本量的要求化为
n ≥ ( d u 1 − α /2 ) 2 16 3 .
仍取 α = 0.05 ,当 d = 0.01 , 0.02 , 0.03 时分别算得
n ≥ 7203 , 1801 , 800 ,
与 θ 完全未知情况相比样本量约减少 25% 。由此可见,若对 θ 事先有若干信息可利用,得知市场占有率不会超过 θ 0 ,那么就应利用这个信息,减少样本量,也即减少调查费用。
评论
支持 Markdown 和 LaTeX 数学公式。