06-第六章 参数估计
依赖于
被以下题目直接调用
正文部分
§6.1 点估计的概念与无偏性
1. 统计中的参数常指以下几种情况
分布中所含的未知参数 θ 及其某个函数 g ( θ ) ;
分布的各种特征数,如期望、方差、中位数等。
参数 θ 可能取值的范围 Θ 称为参数空间。
2. 参数估计的两种形式:点估计与区间估计
参数的点估计是指:对未知参数 θ 选用一个统计量
θ ^ = θ ^ ( x 1 , x 2 , … , x n )
的取值作为 θ 的估计值,θ ^ 就是 θ 的点估计(量),简称估计。好的点估计来自好的统计思想。区间估计见 §6.6。
3. 无偏性与可估参数
设
θ ^ = θ ^ ( x 1 , x 2 , … , x n )
是 θ 的一个估计,θ 的参数空间为 Θ ,若对任意的 θ ∈ Θ ,有
E ( θ ^ ) = θ ,
则称 θ ^ 是 θ 的无偏估计,否则称为有偏估计。
假如对任意 θ ∈ Θ ,有
n → ∞ lim E ( θ ^ ) = θ ,
则称 θ ^ 是 θ 的渐近无偏估计。
并不是所有的参数都存在无偏估计,当参数存在无偏估计时称该参数是可估的。
4. 有效性
设 θ ^ 1 , θ ^ 2 是 θ 的两个无偏估计,如果对任意的 θ ∈ Θ 有
Var ( θ ^ 1 ) ≤ Var ( θ ^ 2 ) ,
且至少有一个 θ ∈ Θ 使得上述不等号严格成立,则称 θ ^ 1 比 θ ^ 2 有效。
习题与解答 6.1
设 x 1 , x 2 , x 3 是取自某总体的一个容量为 3 的样本,试证下列统计量都是该总体均值 μ 的无偏估计,并在方差存在时指出哪一个估计的有效性最差。
(1) μ ^ 1 = 2 1 x 1 + 3 1 x 2 + 6 1 x 3 ;
(2) μ ^ 2 = 3 1 x 1 + 3 1 x 2 + 3 1 x 3 ;
(3) μ ^ 3 = 6 1 x 1 + 6 1 x 2 + 3 2 x 3 .
解
先求三个统计量的数学期望,
E ( μ ^ 1 ) = 2 1 E ( x 1 ) + 3 1 E ( x 2 ) + 6 1 E ( x 3 ) = 2 1 μ + 3 1 μ + 6 1 μ = μ ,
E ( μ ^ 2 ) = 3 1 E ( x 1 ) + 3 1 E ( x 2 ) + 3 1 E ( x 3 ) = 3 1 μ + 3 1 μ + 3 1 μ = μ ,
E ( μ ^ 3 ) = 6 1 E ( x 1 ) + 6 1 E ( x 2 ) + 3 2 E ( x 3 ) = 6 1 μ + 6 1 μ + 3 2 μ = μ .
这说明它们都是总体均值 μ 的无偏估计,下面求它们的方差,不妨设总体的方差为 σ 2 ,则
Var ( μ ^ 1 ) = 4 1 Var ( x 1 ) + 9 1 Var ( x 2 ) + 36 1 Var ( x 3 ) = 18 7 σ 2 ,
Var ( μ ^ 2 ) = 9 1 Var ( x 1 ) + 9 1 Var ( x 2 ) + 9 1 Var ( x 3 ) = 3 1 σ 2 ,
Var ( μ ^ 3 ) = 36 1 Var ( x 1 ) + 36 1 Var ( x 2 ) + 9 4 Var ( x 3 ) = 2 1 σ 2 .
不难看出
Var ( μ ^ 2 ) < Var ( μ ^ 1 ) < Var ( μ ^ 3 ) ,
从而 μ ^ 3 的有效性最差。
由此可猜测,当用样本的凸组合
i = 1 ∑ n a i x i
估计总体均值时,样本均值 x ˉ 是最有效的。
设 x 1 , x 2 , … , x n 是来自 E x p ( λ ) 的样本,已知 x ˉ 为 1/ λ 的无偏估计,试说明 1/ x ˉ 是否为 λ 的无偏估计。
解
因为 x 1 , x 2 , … , x n i.i.d. ∼ E x p ( λ ) ,所以
y = i = 1 ∑ n x i ∼ G a ( n , λ ) ,
相应的密度函数为
p ( y ; n , λ ) = Γ ( n ) λ n y n − 1 e − λ y , y > 0.
于是
E ( 1/ y ) = ∫ 0 ∞ Γ ( n ) λ n y n − 2 e − λ y d y = n − 1 λ ∫ 0 ∞ Γ ( n − 1 ) λ n − 1 y n − 2 e − λ y d y = n − 1 λ .
所以,
E ( 1/ x ˉ ) = nλ ⋅ n − 1 1 = n − 1 nλ .
即 1/ x ˉ 不是 λ 的无偏估计,但它是 λ 的渐近无偏估计,经修偏,
n x ˉ n − 1
是 λ 的无偏估计。
设 θ ^ 是参数 θ 的无偏估计,且有 Var ( θ ^ ) > 0 ,试证 ( θ ^ ) 2 不是 θ 2 的无偏估计。
解
由方差的定义可知,
Var ( θ ^ ) = E ( θ ^ 2 ) − ( E ( θ ^ ) ) 2 > 0.
由于 θ ^ 是参数 θ 的无偏估计,即
E ( θ ^ ) = θ ,
因而
E ( θ ^ 2 ) = Var ( θ ^ ) + ( E ( θ ^ ) ) 2 = Var ( θ ^ ) + θ 2 > θ 2 ,
所以 ( θ ^ ) 2 不是 θ 2 的无偏估计。
设总体 X ∼ N ( μ , σ 2 ) ,x 1 , x 2 , … , x n 是来自该总体的一个样本。试确定常数 c 使
c i = 1 ∑ n − 1 ( x i + 1 − x i ) 2
为 σ 2 的无偏估计。
解
由于总体 X ∼ N ( μ , σ 2 ) ,这给出
E ( x i 2 ) = σ 2 + μ 2 , E ( x i x i − 1 ) = E ( x i ) E ( x i − 1 ) = μ 2 .
于是
E ( i = 1 ∑ n − 1 ( x i + 1 − x i ) 2 ) = E ( x 1 2 + 2 x 2 2 + ⋯ + 2 x n − 1 2 + x n 2 − 2 x 1 x 2 − ⋯ − 2 x n − 1 x n ) = [ 2 ( n − 1 ) ( σ 2 + μ 2 ) − 2 ( n − 1 ) μ 2 ] = 2 ( n − 1 ) σ 2 .
若要使
c i = 1 ∑ n − 1 ( x i + 1 − x i ) 2
为 σ 2 的无偏估计,即
c E ( i = 1 ∑ n − 1 ( x i + 1 − x i ) 2 ) = σ 2 ,
这给出
c = 2 ( n − 1 ) 1 .
设 x 1 , x 2 , … , x n 是来自下列总体的样本:
p ( x ; θ ) = ⎩ ⎨ ⎧ 1 , 0 , θ − 2 1 ≤ x ≤ θ + 2 1 , − ∞ < θ < ∞ , 其他 .
证明样本均值 x ˉ 及 2 1 ( x ( 1 ) + x ( n ) ) 都是 θ 的无偏估计,问何者更有效?
解
由总体
X ∼ U ( θ − 2 1 , θ + 2 1 ) ,
得
E ( X ) = θ , Var ( X ) = 12 1 .
因而
E ( x ˉ ) = θ ,
这首先说明样本均值
θ ^ 1 = x ˉ
是 θ 的无偏估计,且
Var ( θ ^ 1 ) = 12 n 1 .
为求
θ ^ 2 = 2 1 ( x ( 1 ) + x ( n ) )
的均值与方差,注意到
Y = X − ( θ − 2 1 ) ∼ U ( 0 , 1 ) ,
令
y i = x i − ( θ − 2 1 ) , i = 1 , 2 , … , n ,
则
θ ^ 2 = 2 1 ( x ( 1 ) + x ( n ) ) = 2 1 ( y ( 1 ) + y ( n ) ) + θ − 2 1 .
由于
y ( i ) ∼ B e ( i , n − i + 1 ) ,
故
E ( y ( 1 ) ) = n + 1 1 , E ( y ( n ) ) = n + 1 n ,
从而
E ( θ ^ 2 ) = 2 1 E ( y ( 1 ) + y ( n ) ) + θ − 2 1 = θ .
这就证明了
2 1 ( x ( 1 ) + x ( n ) )
是 θ 的无偏估计。又注意到(参见第五章 5.3 节习题 33)
y ( n ) − y ( 1 ) ∼ B e ( n − 1 , 2 ) ,
所以
Var ( y ( 1 ) ) = Var ( y ( n ) ) = ( n + 1 ) 2 ( n + 2 ) n ,
Var ( y ( n ) − y ( 1 ) ) = ( n + 1 ) 2 ( n + 2 ) 2 ( n − 1 ) .
从而
Cov ( y ( 1 ) , y ( n ) ) = 2 1 [ Var ( y ( n ) ) + Var ( y ( 1 ) ) − Var ( y ( n ) − y ( 1 ) ) ] = ( n + 1 ) 2 ( n + 2 ) 1 .
于是
Var ( 2 1 ( x ( 1 ) + x ( n ) ) ) = 4 1 [ Var ( y ( 1 ) ) + Var ( y ( n ) ) + 2 Cov ( y ( 1 ) , y ( n ) ) ] = 4 1 [ ( n + 1 ) 2 ( n + 2 ) 2 n + ( n + 1 ) 2 ( n + 2 ) 2 ] = 2 ( n + 1 ) ( n + 2 ) 1 .
在 n > 2 时,
12 n 1 > 2 ( n + 1 ) ( n + 2 ) 1 .
这说明作为 θ 的无偏估计,在 n > 2 时,
2 1 ( x ( 1 ) + x ( n ) )
比样本均值 x ˉ 有效。
事实上,这里 ( x ( 1 ) , x ( n ) ) 是充分统计量,这与充分性原则是一致的。
设 x 1 , x 2 , x 3 服从均匀分布 U ( 0 , θ ) ,试证
3 4 x ( 3 )
及
4 x ( 1 )
都是 θ 的无偏估计,哪个更有效?
解
由 X ∼ U ( 0 , θ ) 可知 x ( 1 ) , x ( 3 ) 的密度函数分别为
f 1 ( x ) = 3 ( θ θ − x ) 2 ⋅ θ 1 = θ 3 3 ( θ − x ) 2 , 0 < x < θ ,
f 3 ( x ) = 3 ( θ x ) 2 ⋅ θ 1 = θ 3 3 x 2 , 0 < x < θ .
从而
E ( x ( 1 ) ) = θ 3 3 ∫ 0 θ x ( θ − x ) 2 d x = 4 θ , E ( x ( 3 ) ) = θ 3 3 ∫ 0 θ x 3 d x = 4 3 θ ,
故,由
E ( 4 x ( 1 ) ) = θ , E ( 3 4 x ( 3 ) ) = θ
知两者均为 θ 的无偏估计。
又可算得
E ( x ( 1 ) 2 ) = 10 1 θ 2 , E ( x ( 3 ) 2 ) = 5 3 θ 2 ,
从而
Var ( 4 x ( 1 ) ) = 5 3 θ 2 , Var ( 3 4 x ( 3 ) ) = 15 θ 2 .
故
Var ( 3 4 x ( 3 ) ) < Var ( 4 x ( 1 ) ) ,
即
3 4 x ( 3 )
更有效。
事实上,这里 x ( 3 ) 是充分统计量,这个结果与充分性原则是一致的。
设从均值为 μ 、方差为 σ 2 > 0 的总体中分别抽取容量为 n 1 和 n 2 的两个独立样本,x ˉ 1 和 x ˉ 2 分别是这两个样本的均值。试证,对于任意常数 a , b (a + b = 1 ),
Y = a x ˉ 1 + b x ˉ 2
都是 μ 的无偏估计,并确定常数 a , b 使 Var ( Y ) 达到最小。
解
由于 x ˉ 1 和 x ˉ 2 是容量分别为 n 1 和 n 2 的两独立样本的均值,故
E ( x ˉ 1 ) = μ , E ( x ˉ 2 ) = μ , Var ( x ˉ 1 ) = n 1 σ 2 , Var ( x ˉ 2 ) = n 2 σ 2 .
因而
E ( Y ) = E ( a x ˉ 1 + b x ˉ 2 ) = a E ( x ˉ 1 ) + b E ( x ˉ 2 ) = a μ + b μ = ( a + b ) μ = μ ,
这证明了
Y = a x ˉ 1 + b x ˉ 2
是 μ 的无偏估计。
又由 a + b = 1 知,
Y = a x ˉ 1 + ( 1 − a ) x ˉ 2 ,
从而
Var ( Y ) = n 1 a 2 σ 2 + n 2 ( 1 − a ) 2 σ 2 = σ 2 [ ( n 1 1 + n 2 1 ) a 2 − n 2 2 a + n 2 1 ] .
由求导知,当
a = 1/ n 1 + 1/ n 2 1/ n 2 = n 1 + n 2 n 1
时,Var ( Y ) 达到最小,此时
b = n 1 + n 2 n 2 .
这个结果表明,来自同一总体的两个容量为 n 1 和 n 2 的样本的合样本(样本量为 n 1 + n 2 )的均值
x ˉ = n 1 + n 2 n 1 x ˉ 1 + n 2 x ˉ 2
是线性无偏估计类
U = { a x ˉ 1 + ( 1 − a ) x ˉ 2 }
中方差最小的。
设总体 X 的均值为 μ ,方差为 σ 2 ,x 1 , x 2 , … , x n 是来自该总体的一个样本,T ( x 1 , x 2 , … , x n ) 为 μ 的任一线性无偏估计量。证明:x ˉ 与 T 的相关系数为
Var ( x ˉ ) / Var ( T ) .
解
由于 T ( x 1 , x 2 , … , x n ) 为 μ 的线性无偏估计,故
T ( x 1 , x 2 , … , x n ) = l 1 x 1 + l 2 x 2 + ⋯ + l n x n ,
其中
i = 1 ∑ n l i = 1.
于是
Cov ( T , x ˉ ) = i = 1 ∑ n n l i Var ( x i ) = n σ 2 .
而
Var ( x ˉ ) = n σ 2 ,
故有
Cov ( T , x ˉ ) = Var ( x ˉ ) .
从而
Corr ( T , x ˉ ) = Var ( x ˉ ) Var ( T ) Cov ( T , x ˉ ) = Var ( x ˉ ) Var ( T ) Var ( x ˉ ) = Var ( x ˉ ) / Var ( T ) .
设有 k 台仪器,已知用第 i 台仪器测量的标准差为 σ i (i = 1 , 2 , … , k )。用这些仪器独立地对某一物理量 θ 各观察一次,分别得到 x 1 , x 2 , … , x k ,设仪器都没有系统偏差。问 a 1 , a 2 , … , a k 应取何值,方能使
θ ^ = i = 1 ∑ k a i x i
成为 θ 的无偏估计,且方差达到最小?
解
若要使
θ ^ = i = 1 ∑ k a i x i
为 θ 的无偏估计,即
E ( θ ^ ) = E ( i = 1 ∑ k a i x i ) = a 1 θ + a 2 θ + ⋯ + a k θ = θ i = 1 ∑ k a i = θ ,
则必须有
i = 1 ∑ k a i = 1.
此时,
Var ( θ ^ ) = Var ( i = 1 ∑ k a i x i ) = a 1 2 σ 1 2 + a 2 2 σ 2 2 + ⋯ + a k 2 σ k 2 .
因此,问题转化为在
i = 1 ∑ k a i = 1
的条件下,求
i = 1 ∑ k a i 2 σ i 2
的极小值。
令
f ( a 1 , a 2 , … , a k ) = i = 1 ∑ k a i 2 σ i 2 − λ ( i = 1 ∑ k a i − 1 ) ,
由
∂ a i ∂ f = 0 , i = 1 , 2 , … , k , 和 ∂ λ ∂ f = 0 ,
得到
⎩ ⎨ ⎧ 2 a i σ i 2 − λ i = 1 ∑ k a i = 0 , = 1.
从第一式中可以得到
a i = 2 σ i 2 λ ,
代入第二式中,解出
λ = ( i = 1 ∑ k 2 σ i 2 1 ) − 1 ,
从而
a i = ∑ j = 1 k 1/ σ j 2 1/ σ i 2 , i = 1 , 2 , … , k .
各 1/ σ j 2 可视作仪器精度,这表明各观测值以精度为权重是最好的;若精度都一样,则等权重最优。
设 x 1 , x 2 , … , x n 是来自 N ( θ , 1 ) 的样本,证明 g ( θ ) = ∣ θ ∣ 没有无偏估计(提示:利用 g ( θ ) 在 θ = 0 处不可导)。
解
(反证法)假设 T ( x 1 , x 2 , … , x n ) 为 g ( θ ) 的无偏估计,则
( 2 π 1 ) n ∫ − ∞ ∞ T ( x 1 , x 2 , … , x n ) exp { − i = 1 ∑ n 2 ( x i − θ ) 2 } d x 1 d x 2 ⋯ d x n = ∣ θ ∣.
由上式可知,等式的左边关于 θ 处处可导,而等式的右边在 θ = 0 处不存在导数。因此,假设不成立,即 g ( θ ) = ∣ θ ∣ 没有无偏估计。
设总体 X 服从正态分布 N ( μ , σ 2 ) ,x 1 , x 2 , … , x n 为来自总体 X 的样本,为了得到标准差 σ 的估计量,考虑统计量
γ 1 = n 1 i = 1 ∑ n ∣ x i − x ˉ ∣ , x ˉ = n 1 i = 1 ∑ n x i , n ≥ 2 ,
γ 2 = n ( n − 1 ) 1 i = 1 ∑ n j = 1 ∑ n ∣ x i − x j ∣ , n ≥ 2 ,
求常数 C 1 与 C 2 ,使得 C 1 γ 1 与 C 2 γ 2 都是 σ 的无偏估计。
解
由期望的公式及对称性,我们只需要求出
E ( ∣ x 1 − x ˉ ∣ )
和
E ( ∣ x 1 − x 2 ∣ )
即
注意到
x 1 − x ˉ ∼ N ( 0 , n n − 1 σ 2 ) , x 1 − x 2 ∼ N ( 0 , 2 σ 2 ) ,
我们只需要求出如下期望即可完成本题:设 y ∼ N ( 0 , σ 2 ) ,则
E ( ∣ y ∣ ) = 2 ∫ 0 ∞ 2 π σ 1 y e − y 2 / ( 2 σ 2 ) d y = ∫ 0 ∞ 2 π σ 1 e − z / ( 2 σ 2 ) d z = ∫ 0 ∞ π 2 σ e − t d t = π 2 σ .
于是有
E ( ∣ x 1 − x ˉ ∣ ) = n n − 1 π 2 σ , E ( ∣ x 1 − x 2 ∣ ) = π 2 σ ,
从而给出
C 1 = 2 ( n − 1 ) nπ , C 2 = 2 π .
补充习题及解答
设分别自总体 N ( μ 1 , σ 2 ) 和 N ( μ 2 , σ 2 ) 中抽取容量为 n 1 和 n 2 的两独立样本,其样本方差分别为 s 1 2 , s 2 2 。试证,对于任意常数 a , b ( a + b = 1 ) ,Z = a s 1 2 + b s 2 2 都是 σ 2 的无偏估计,并确定常数 a , b 使 Var ( Z ) 达到最小。
解
由已知条件有
σ 2 ( n 1 − 1 ) s 1 2 ∼ χ 2 ( n 1 − 1 ) , σ 2 ( n 2 − 1 ) s 2 2 ∼ χ 2 ( n 2 − 1 ) ,
且 s 1 2 , s 2 2 独立,于是
E ( s 1 2 ) = E ( s 2 2 ) = σ 2 ,
故
E ( Z ) = E ( a s 1 2 + b s 2 2 ) = a E ( s 1 2 ) + b E ( s 2 2 ) = a σ 2 + b σ 2 = ( a + b ) σ 2 = σ 2 ,
这证明了 Z = a s 1 2 + b s 2 2 是 σ 2 的无偏估计。
又
Var ( s 1 2 ) = n 1 − 1 2 σ 4 , Var ( s 2 2 ) = n 2 − 1 2 σ 4 ,
从而
Var ( Z ) = a 2 Var ( s 1 2 ) + ( 1 − a ) 2 Var ( s 2 2 ) = 2 [ ( n 1 − 1 ) ( n 2 − 1 ) n 1 + n 2 − 2 a 2 − n 2 − 1 2 a + n 2 − 1 1 ] σ 4 .
因而当
a = n 1 + n 2 − 2 n 1 − 1
时,Var ( Z ) 达到最小,此时
b = n 1 + n 2 − 2 n 2 − 1 ,
该无偏估计为
σ ^ 2 = n 1 + n 2 − 2 i = 1 ∑ n 1 ( x i − x ˉ ) 2 + i = 1 ∑ n 2 ( y i − y ˉ ) 2 .
这个结果表明,对来自方差相等(不论均值是否相等)的两个正态总体的容量为 n 1 和 n 2 的样本,上述 σ ^ 2 是 σ 2 的线性无偏估计类
U = { a s 1 2 + ( 1 − a ) s 2 2 }
中方差最小的。
设 x 1 , x 2 , ⋯ , x n 是取自均匀分布总体 U ( θ 1 , θ 2 ) 的一个样本,若分别取
θ ^ 1 = min { x 1 , x 2 , ⋯ , x n } , θ ^ 2 = max { x 1 , x 2 , ⋯ , x n }
作为 θ 1 , θ 2 的估计量,问 θ ^ 1 , θ ^ 2 是否为 θ 1 , θ 2 的无偏估计?如果不是,如何修正才能获得 θ 1 , θ 2 的无偏估计?
解
令
Y = θ 2 − θ 1 X − θ 1 ,
则 Y ∼ U ( 0 , 1 ) ,记 y ( 1 ) , y ( 2 ) , ⋯ , y ( n ) 为样本相应的次序统计量,于是有
E ( y ( 1 ) ) = n + 1 1 , E ( y ( n ) ) = n + 1 n ,
从而
E ( θ ^ 1 ) = θ 1 + ( θ 2 − θ 1 ) n + 1 1 = n + 1 θ 2 + n θ 1 ,
E ( θ ^ 2 ) = θ 1 + ( θ 2 − θ 1 ) n + 1 n = n + 1 n θ 2 + θ 1 .
可见 θ ^ 1 , θ ^ 2 不是 θ 1 , θ 2 的无偏估计。由
{ n θ 1 + θ 2 θ 1 + n θ 2 = ( n + 1 ) E ( x ( 1 ) ) , = ( n + 1 ) E ( x ( n ) ) ,
解之得
⎩ ⎨ ⎧ θ 1 θ 2 = n − 1 n E ( x ( 1 ) ) − E ( x ( n ) ) , = n − 1 n E ( x ( n ) ) − E ( x ( 1 ) ) ,
因而
θ ^ 1 = n − 1 n x ( 1 ) − x ( n ) , θ ^ 2 = n − 1 n x ( n ) − x ( 1 )
是 θ 1 , θ 2 的无偏估计。
设 x 1 , x 2 , ⋯ , x n 是来自二点分布 b ( 1 , p ) 的一个样本,
寻求 p 2 的无偏估计;
寻求 p ( 1 − p ) 的无偏估计;
证明 p 1 没有无偏估计。
解
(1) x ˉ 2 是 p 2 的一个直观估计,但不是 p 2 的无偏估计,这是因为
E ( x ˉ 2 ) = Var ( x ˉ ) + [ E ( x ˉ ) ] 2 = n p ( 1 − p ) + p 2 = n p + n n − 1 p 2 = p 2 ,
由此可见
p 2 ^ = n − 1 n ( x ˉ 2 − n x ˉ )
是 p 2 的无偏估计。
(2) x ˉ ( 1 − x ˉ ) = x ˉ − x ˉ 2 是 p ( 1 − p ) 的直观估计,但不是 p ( 1 − p ) 的无偏估计,这是因为
E ( x ˉ − x ˉ 2 ) = p − ( n p ( 1 − p ) + p 2 ) = n n − 1 p ( 1 − p ) = p ( 1 − p ) ,
由此可见
n − 1 n x ˉ ( 1 − x ˉ )
是 p ( 1 − p ) 的一个无偏估计。
(3) 反证法。倘若 g ( x 1 , x 2 , ⋯ , x n ) 是 p 1 的无偏估计,则有
x 1 , x 2 , ⋯ , x n ∑ g ( x 1 , x 2 , ⋯ , x n ) p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i = p 1 ,
或者
x 1 , x 2 , ⋯ , x n ∑ g ( x 1 , x 2 , ⋯ , x n ) p ∑ i = 1 n x i + 1 ( 1 − p ) n − ∑ i = 1 n x i − 1 = 0.
左端是关于 p 的 n + 1 次方程,但它对每个 p ∈ ( 0 , 1 ) 都成立,这是不可能的,故上述假设不成立。因此 p 1 没有无偏估计。
§6.2 矩估计及相合性
矩法估计 利用“替换原理”获得估计。总体矩可以用相应的样本矩替换;总体矩的函数可以用样本矩的同一函数替换。当总体分布形式未知时,可用样本均值估计 E ( X ) ,用样本方差 s 2 估计 Var ( X ) ,用频率估计 P ( A ) ,用样本分位数估计总体分位数。当总体分布的概率函数形式已知且矩存在时,可列出“总体矩等于样本矩”的方程组并解出未知参数。一般宜优先使用低阶矩,并注意参数的可辨识性。
相合性 对估计量 θ ^ n = θ ^ n ( x 1 , x 2 , ⋯ , x n ) ,若对于任意 ε > 0 及任意 θ ∈ Θ ,都有
n → ∞ lim P { ∣ θ ^ n − θ ∣ ≥ ε } = 0 ,
则称 θ ^ n 是 θ 的相合估计。相合性的实质是依概率收敛,矩估计一般都是相合的。
判断相合性的一些定理
若 n → ∞ lim E ( θ ^ n ) = θ 且 n → ∞ lim Var ( θ ^ n ) = 0 ,则 θ ^ n 是 θ 的相合估计;
若 θ ^ n 1 , θ ^ n 2 , ⋯ , θ ^ n k 分别是 θ 1 , θ 2 , ⋯ , θ k 的相合估计,而 η = g ( θ 1 , θ 2 , ⋯ , θ k ) 是连续函数,则
η ^ n = g ( θ ^ n 1 , θ ^ n 2 , ⋯ , θ ^ n k )
是 η 的相合估计;
大数定律。
习题与解答 6.2
现有一批电子元件,它们的寿命(单位:h )如下:
1050 , 1100 , 1130 , 1040 , 1250 , 1300 , 1200 , 1080.
试对这批元件的平均寿命以及寿命分布的标准差给出矩估计。
解
样本均值
x ˉ = 8 1050 + 1100 + 1130 + ⋯ + 1080 = 1143.75 ,
样本标准差
s = 7 1 i = 1 ∑ 8 ( x i − x ˉ ) 2 = 7 1 [ ( 1050 − 1143.75 ) 2 + ⋯ + ( 1080 − 1143.75 ) 2 ] = 96.0562.
因此,元件的平均寿命和寿命分布的标准差的矩估计分别为 1143.75 和 96.0562 。
设总体 X ∼ U ( 0 , θ ) ,现从该总体中抽取容量为 10 的样本,样本值为
0.5 , 1.3 , 0.6 , 1.7 , 2.2 , 1.2 , 0.8 , 1.5 , 2.0 , 1.6.
试对参数 θ 给出矩估计。
解
由于
E ( X ) = 2 θ ,
即 θ = 2 E ( X ) ,而样本均值
x ˉ = 10 0.5 + 1.3 + ⋯ + 1.6 = 1.34 ,
故 θ 的矩估计为
θ ^ = 2 x ˉ = 2.68.
设总体分布列如下,x 1 , x 2 , ⋯ , x n 是样本,试求未知参数的矩估计:
1.
P ( X = k ) = N 1 , k = 0 , 1 , 2 , ⋯ , N − 1 ,
其中 N (正整数)是未知参数;
1.
P ( X = k ) = ( k − 1 ) θ 2 ( 1 − θ ) k − 2 , k = 2 , 3 , ⋯ , 0 < θ < 1.
解
(1) 总体均值
E ( X ) = N 0 + 1 + ⋯ + N − 1 = 2 N − 1 ,
解之可得
N = 2 E ( X ) + 1.
故 N 的矩估计为
N ^ = 2 x ˉ + 1 ,
其中 x ˉ 为样本均值。若 2 x ˉ 不是整数,可取大于 2 x ˉ 的最小整数代替 2 x ˉ 。
(2) 总体均值
E ( X ) = k = 2 ∑ ∞ k ( k − 1 ) θ 2 ( 1 − θ ) k − 2 = θ 2 k = 2 ∑ ∞ k ( k − 1 ) ( 1 − θ ) k − 2 .
由于
k = 2 ∑ ∞ k ( k − 1 ) ( 1 − θ ) k − 2 = θ 3 2 ,
故有
E ( X ) = θ 2 ⋅ θ 3 2 = θ 2 ,
即
θ = E ( X ) 2 .
从而参数 θ 的矩估计为
θ ^ = x ˉ 2 .
设总体密度函数如下,x 1 , x 2 , ⋯ , x n 是样本,试求未知参数的矩估计:
1.
p ( x ; θ ) = θ 2 2 ( θ − x ) , 0 < x < θ , θ > 0 ;
p ( x ; θ ) = ( θ + 1 ) x θ , 0 < x < 1 , θ > 0 ;
p ( x ; θ ) = θ x θ − 1 , 0 < x < 1 , θ > 0 ;
p ( x ; θ , μ ) = θ 1 e − ( x − μ ) / θ , x > μ , θ > 0.
解
(1) 总体均值
E ( X ) = ∫ 0 θ θ 2 2 x ( θ − x ) d x = θ 2 2 ∫ 0 θ ( θ x − x 2 ) d x = 3 1 θ ,
即
θ = 3 E ( X ) ,
故参数 θ 的矩估计为
θ ^ = 3 x ˉ .
(2) 总体均值
E ( X ) = ∫ 0 1 x ( θ + 1 ) x θ d x = θ + 2 θ + 1 ,
所以
θ = E ( X ) − 1 1 − 2 E ( X ) ,
从而参数 θ 的矩估计为
θ ^ = x ˉ − 1 1 − 2 x ˉ .
(3) 由
E ( X ) = ∫ 0 1 x θ x θ − 1 d x = θ + 1 θ ,
可得
θ = ( 1 − E ( X ) E ( X ) ) 2 ,
由此,参数 θ 的矩估计为
θ ^ = ( 1 − x ˉ x ˉ ) 2 .
(4) 先计算总体均值与方差:
E ( X ) = ∫ μ ∞ x θ 1 e − ( x − μ ) / θ d x = ∫ 0 ∞ t θ 1 e − t / θ d t + ∫ 0 ∞ μ θ 1 e − t / θ d t = θ + μ ,
E ( X 2 ) = ∫ μ ∞ x 2 θ 1 e − ( x − μ ) / θ d x = ∫ 0 ∞ ( t + μ ) 2 θ 1 e − t / θ d t = ∫ 0 ∞ t 2 θ 1 e − t / θ d t + ∫ 0 ∞ 2 μ t θ 1 e − t / θ d t + ∫ 0 ∞ μ 2 θ 1 e − t / θ d t = 2 θ 2 + 2 μ θ + μ 2 .
于是
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = θ 2 .
由此可以推出
θ = Var ( X ) , μ = E ( X ) − Var ( X ) ,
从而参数 θ , μ 的矩估计为
θ ^ = s , μ ^ = x ˉ − s .
设总体为 N ( μ , 1 ) ,现对该总体观测 n 次,发现有 k 次观测值为正,使用频率替换方法求 μ 的估计。
解
由题意知,观测值为正的频率
f = n k .
下面计算观测值为正的概率。当总体为 N ( μ , 1 ) 时,
P ( X > 0 ) = 1 − P ( X < 0 ) = 1 − P ( X − μ < − μ ) = Φ ( μ ) ,
其中 Φ 为标准正态分布的分布函数。利用频率替换概率的方法有
Φ ( μ ^ ) = n k ,
这给出参数 μ 的矩估计为
μ ^ = Φ − 1 ( n k ) = u k / n .
譬如,若设 n k = 0.281 ,则由上式知 μ ^ 是标准正态分布的 0.281 分位数,查附表 2 得
μ ^ = u 0.281 = − 0.58.
甲、乙两个校对员彼此独立对同一本书的样稿进行校对,校完后,甲发现 a 个错字,乙发现 b 个错字,其中共同发现的错字有 c 个,试用矩估计给出如下两个未知参数的估计:
该书样稿的总错字个数;
未被发现的错字个数。
解
设该书样稿中的总错字的个数为 θ ,甲校对员识别出错字的概率为 p 1 ,乙校对员识别出错字的概率为 p 2 。由于甲、乙是彼此独立地进行校对,则同一错字能被甲、乙同时识别的概率为 p 1 p 2 ,根据频率替换思想有
p ^ 1 = θ a , p ^ 2 = θ b , p 1 p 2 = θ c .
由独立性可得矩法方程
θ a ⋅ θ b = θ c ,
解之得
θ ^ = c ab .
(2) 未被发现的错字个数的估计等于总错字个数的估计减去甲、乙发现的错字个数,即
c ab − a − b + c = c ( a − c ) ( b − c ) .
譬如,若设 a = 120 , b = 124 , c = 80 ,则该书样稿中总错字个数的矩法估计为
θ ^ = 80 120 × 124 = 186 ,
而未被发现的错字个数的矩法估计为
186 − 120 − 124 + 80 = 22.
设总体 X 服从二项分布 b ( m , p ) ,其中 m , p 为未知参数,x 1 , x 2 , ⋯ , x n 为 X 的一个样本,求 m 与 p 的矩估计。
解
因为有两个未知参数,所以要用 1 , 2 阶矩。由二项分布可知
E ( X ) = m p , Var ( X ) = m p ( 1 − p ) ,
列矩方程组
{ m p m p ( 1 − p ) = x ˉ , = s 2 ,
两式相除,可轻松解出
p ^ = 1 − x ˉ s 2 .
代入第一式,得
m ^ = p ^ x ˉ .
因为 m 为正整数,故
m ^ = [ x ˉ − s 2 x ˉ 2 ] ,
其中 [ ] 表示取整数。
补充习题及解答
设 x 1 , x 2 , ⋯ , x n 是来自对数级数分布
P ( X = k ) = − ln ( 1 − p ) 1 ⋅ k p k , 0 < p < 1 , k = 1 , 2 , ⋯
的一个样本,求参数 p 的矩估计。
解
由于
E ( X ) = k = 1 ∑ ∞ k P ( X = k ) = − ln ( 1 − p ) 1 k = 1 ∑ ∞ p k = − ( 1 − p ) ln ( 1 − p ) p ,
E ( X 2 ) = k = 1 ∑ ∞ k 2 P ( X = k ) = − ln ( 1 − p ) 1 k = 1 ∑ ∞ k p k = − ( 1 − p ) 2 ln ( 1 − p ) p ,
因此有
1 − p = E ( X 2 ) E ( X ) ,
从而得到 p 的一个矩估计
p ^ = 1 − ∑ x i 2 ∑ x i .
设 x 1 , x 2 , ⋯ , x n 独立同分布,E ( x 1 ) = μ ,Var ( x 1 ) < ∞ 。证明:
μ ^ = n ( n + 1 ) 2 i = 1 ∑ n i x i
是 μ 的相合估计。
解
由于
E ( μ ^ ) = n ( n + 1 ) 2 μ i = 1 ∑ n i = n ( n + 1 ) 2 μ ⋅ 2 n ( n + 1 ) = μ ,
Var ( μ ^ ) = n 2 ( n + 1 ) 2 4 Var ( x 1 ) i = 1 ∑ n i 2 = n 2 ( n + 1 ) 2 4 Var ( x 1 ) ⋅ 6 n ( n + 1 ) ( 2 n + 1 ) → 0 ( n → ∞ ) ,
这就证明了
μ ^ = n ( n + 1 ) 2 i = 1 ∑ n i x i
是 μ 的相合估计。
§6.3 最大似然估计与 EM 算法
最大似然估计 利用“最大似然原理”获得的估计,只能在总体概率函数形式已知的情况下使用。若总体的概率函数为 p ( x ; θ ) ,θ ∈ Θ ,x 1 , x 2 , ⋯ , x n 是来自该总体的样本,则似然函数为
L ( θ ) = L ( θ ; x 1 , x 2 , ⋯ , x n ) = p ( x 1 ; θ ) p ( x 2 ; θ ) ⋯ p ( x n ; θ ) .
使似然函数 L ( θ ) 达到最大的统计量 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) 称为 θ 的最大似然估计,简称 MLE,即
L ( θ ^ ) = θ ∈ Θ max L ( θ ) .
注意:使对数似然函数 ln L ( θ ) 达到最大的 θ ^ 也使似然函数 L ( θ ) 最大,寻找最大值时也常对 l ( θ ) = ln L ( θ ) 使用微分法。
最大似然估计的不变性 若 θ ^ 是 θ 的最大似然估计,则对任一函数 g ( θ ) ,g ( θ ^ ) 是 g ( θ ) 的最大似然估计。
EM 算法 当分布中有多余参数或数据为截尾或缺失时,其 MLE 的求取是比较困难的。Dempster 等人于 1977 年提出了 EM 算法,其出发点是把求 MLE 的过程分两步走:第一步求期望(E 步),以便把多余的部分去掉;第二步求极大值(M 步)。重复使用这两步直至收敛可得 MLE 的近似解。这是一种非常有效的方法。
MLE 的渐近正态性 在很一般条件下,总体分布 p ( x ; θ ) 中 θ 的 MLE θ ^ n 具有相合性与渐近正态性,即
θ ^ n ∼ A N ( θ , n I ( θ ) 1 ) ,
其中
I ( θ ) = ∫ − ∞ ∞ [ ∂ θ ∂ ln p ( x ; θ ) ] 2 p ( x ; θ ) d x
称为费希尔信息量。
习题与解答 6.3
试求下列未知参数的最大似然估计:
1.
p ( x ; θ ) = θ x θ − 1 , 0 < x < 1 , θ > 0 ;
p ( x ; θ ) = θ c θ x − ( θ + 1 ) , x > c , c > 0 已知 , θ > 1.
解
(1) 似然函数
L ( θ ) = ( θ ) n ( x 1 x 2 ⋯ x n ) θ − 1 ,
其对数似然函数为
ln L ( θ ) = 2 n ln θ + ( θ − 1 ) ( ln x 1 + ln x 2 + ⋯ + ln x n ) .
对 θ 求导并令其为 0 ,得
∂ θ ∂ ln L ( θ ) = 2 θ n + 2 θ ∑ i = 1 n ln x i = 0 ,
故最大似然估计为
θ ^ = ( n 1 i = 1 ∑ n ln x i ) − 2 .
再注意到
∂ θ 2 ∂ 2 ln L ( θ ) θ ^ = ( − 2 θ 2 n − 4 θ 3/2 ∑ i = 1 n ln x i ) θ ^ = − 4 n 3 3 ( ∑ i = 1 n ln x i ) 4 < 0 ,
故 θ ^ 为 θ 的最大似然估计。
(2) 似然函数
L ( θ ) = θ n c n θ ( x 1 x 2 ⋯ x n ) − ( θ + 1 ) ,
其对数似然函数为
ln L ( θ ) = n ln θ + n θ ln c − ( θ + 1 ) i = 1 ∑ n ln x i .
对 θ 求导并令其为 0 ,得
θ n + n ln c − i = 1 ∑ n ln x i = 0 ,
故最大似然估计为
θ ^ = ( n 1 i = 1 ∑ n ln x i − ln c ) − 1 .
又由于
∂ θ 2 ∂ 2 ln L ( θ ) = − θ 2 n < 0 ,
故 θ ^ 为 θ 的最大似然估计。
试求下列未知参数的最大似然估计:
1.
p ( x ; θ ) = c θ c x − ( c + 1 ) , x > θ , θ > 0 , c > 0 已知 ;
p ( x ; θ , μ ) = θ 1 e − ( x − μ ) / θ , x > μ , θ > 0 ;
p ( x ; θ ) = k θ 1 , θ < x < ( k + 1 ) θ , θ > 0 , k > 0 已知 .
解
(1) 似然函数为
L ( θ ) = c n θ n c ( x 1 x 2 ⋯ x n ) − ( c + 1 ) I { x ( 1 ) > θ } .
要使 L ( θ ) 达到最大,指示函数必须为 1 ,且在此条件下 θ n c 为 θ 的增函数,故应取满足约束条件的最大 θ ,即
θ ^ = x ( 1 ) .
(2) 似然函数为
L ( θ , μ ) = ( θ 1 ) n exp [ − θ 1 i = 1 ∑ n ( x i − μ ) ] , x ( 1 ) > μ .
其对数似然函数为
ln L ( θ , μ ) = − n ln θ − θ 1 i = 1 ∑ n ( x i − μ ) .
由于 ln L ( θ , μ ) 对 μ 为增函数,故应取满足约束条件的最大 μ ,即
μ ^ = x ( 1 ) .
再对 θ 求导并令其为 0 ,得
− θ n + θ 2 ∑ i = 1 n ( x i − μ ^ ) = 0 ,
所以
θ ^ = n 1 i = 1 ∑ n ( x i − μ ^ ) = x ˉ − x ( 1 ) .
(3) 似然函数为
L ( θ ) = ( k θ 1 ) n I { θ < x ( 1 ) ≤ x ( n ) < ( k + 1 ) θ } .
由于 ( k θ 1 ) n 是 θ 的减函数,故要使 L ( θ ) 达到最大,应在满足
k + 1 x ( n ) < θ < x ( 1 )
的条件下取最小的 θ ,因此
θ ^ = k + 1 x ( n ) .
试求下列未知参数的最大似然估计:
1.
p ( x ; θ ) = 2 θ 1 e − ∣ x ∣/ θ , θ > 0 ;
p ( x ; θ ) = 1 , θ − 2 1 < x < θ + 2 1 ;
p ( x ; θ 1 , θ 2 ) = θ 2 − θ 1 1 , θ 1 < x < θ 2 .
解
(1) 似然函数
L ( θ ) = ( 2 θ 1 ) n e − ∑ i = 1 n ∣ x i ∣/ θ ,
其对数似然函数为
ln L ( θ ) = − n ln ( 2 θ ) − θ 1 i = 1 ∑ n ∣ x i ∣.
对 θ 求导并令其为 0 ,得
− θ n + θ 2 ∑ i = 1 n ∣ x i ∣ = 0 ,
故
θ ^ = n 1 i = 1 ∑ n ∣ x i ∣.
又
∂ θ 2 ∂ 2 ln L ( θ ) θ ^ = − ( ∑ i = 1 n ∣ x i ∣ ) 2 n 3 < 0 ,
故 θ ^ 为最大似然估计。
(2) 似然函数为
L ( θ ) = I { θ − 2 1 < x ( 1 ) ≤ x ( n ) < θ + 2 1 } .
于是只要
x ( n ) − 2 1 < θ < x ( 1 ) + 2 1 ,
似然函数就取值为 1 。故该模型的最大似然估计不唯一,上述区间内任一值均为最大似然估计。
(3) 似然函数为
L ( θ 1 , θ 2 ) = ( θ 2 − θ 1 ) n 1 I { θ 1 < x ( 1 ) ≤ x ( n ) < θ 2 } .
为使 L ( θ 1 , θ 2 ) 达到最大,应在使指示函数为 1 的条件下令区间长度 θ 2 − θ 1 最小,故有
θ ^ 1 = x ( 1 ) , θ ^ 2 = x ( n ) .
某地质学家在某地区取了 100 个岩石样品,每个样品有 10 块石子。下面记录了每个样品中石灰石的块数,试求石灰石比例 p 的最大似然估计:
样本中的石子数 样品个数 0 0 1 1 2 6 3 7 4 23 5 26 6 21 7 12 8 3 9 1 10 0
解
设 X 表示一个样品中石灰石的块数,则
X ∼ b ( 10 , p ) , p ( X = x ) = ( x 10 ) p x ( 1 − p ) 10 − x .
若 x 1 , x 2 , ⋯ , x 100 为样本,则其似然函数为(忽略常数)
L ( p ) = p ∑ i = 1 100 x i ( 1 − p ) 10 × 100 − ∑ i = 1 100 x i .
对数似然函数为
ln L ( p ) = i = 1 ∑ 100 x i ln p + ( 10 × 100 − i = 1 ∑ 100 x i ) ln ( 1 − p ) .
将对数似然函数关于 p 求导并令其为 0 ,得到似然方程
∂ p ∂ ln L ( p ) = p ∑ i = 1 100 x i − 1 − p 10 × 100 − ∑ i = 1 100 x i = 0 ,
解之得
p ^ = 1000 ∑ i = 1 100 x i .
由于
∂ p 2 ∂ 2 ln L ( p ) = − p 2 ∑ i = 1 100 x i − ( 1 − p ) 2 1000 − ∑ i = 1 100 x i < 0 ,
由二阶导数的性质知,p 的最大似然估计为
p ^ = 1000 ∑ i = 1 100 x i = 1000 499 = 0.499.
在遗传学研究中经常要从截尾二项分布中抽样,其总体概率函数为
P ( X = k ; p ) = 1 − ( 1 − p ) m ( k m ) p k ( 1 − p ) m − k , k = 1 , 2 , ⋯ , m .
若已知 m = 2 ,x 1 , x 2 , ⋯ , x n 是样本,试求 p 的最大似然估计。
解
当 m = 2 时,该截尾二项分布只能取 1 与 2 。不妨设 x 1 , x 2 , ⋯ , x n 的样本中有 n 1 个 x i 为 1 ,有 n − n 1 个 x i 为 2 ,则其似然函数为(忽略常数)
L ( p ) = [ 1 − ( 1 − p ) 2 ] n p n 1 ( 1 − p ) n 1 p 2 ( n − n 1 ) = [ 1 − ( 1 − p ) 2 ] n p 2 n − n 1 ( 1 − p ) n 1 = ( 2 − p ) n p n − n 1 ( 1 − p ) n 1 .
对数似然函数为
ln L ( p ) = ( n − n 1 ) ln p + n 1 ln ( 1 − p ) − n ln ( 2 − p ) .
将对数似然函数关于 p 求导并令其为 0 ,得到似然方程
p n − n 1 − 1 − p n 1 + 2 − p n = 0 ,
解之得
p ^ = 2 n − n 1 2 ( n − n 1 ) .
又由于
i = 1 ∑ n x i = n 1 + 2 ( n − n 1 ) = n x ˉ ,
故
n 1 = 2 n − n x ˉ ,
代入上式即得
p ^ = 2 n − n 1 2 ( n − n 1 ) = x ˉ 2 ( x ˉ − 1 ) .
已知在文学家萧伯纳的《The Intelligent Woman’s Guide To Socialism and Capitalism 》一书中,一个句子的单词数 X 近似地服从对数正态分布,即
Z = ln X ∼ N ( μ , σ 2 ) .
今从该书中随机地取 20 个句子,这些句子中的单词数分别为
52 , 24 , 15 , 67 , 15 , 22 , 63 , 26 , 16 , 32 ,
7 , 33 , 28 , 14 , 7 , 29 , 10 , 6 , 59 , 30.
求该书中一个句子单词数均值
E ( X ) = e μ + σ 2 /2
的最大似然估计。
解
正态分布 N ( μ , σ 2 ) 的参数的最大似然估计分别为样本均值和方差,即
μ ^ = 20 1 i = 1 ∑ 20 ln x i = 3.0890 , σ ^ 2 = n 1 i = 1 ∑ n ( ln x i − 3.0890 ) 2 = 0.5081.
由于最大似然估计具有不变性,因而
E ( X ) = e μ + σ 2 /2
的最大似然估计为
E ( X ) = e 3.0890 + 0.5081/2 = 28.3053.
总体 X ∼ U ( θ , 2 θ ) ,其中 θ > 0 是未知参数,x 1 , x 2 , ⋯ , x n 为取自该总体的样本,x ˉ 为样本均值。
证明
θ ^ = 3 2 x ˉ
是参数 θ 的无偏估计和相合估计;
求 θ 的最大似然估计,它是无偏估计吗?是相合估计吗?
解
(1) 总体 X ∼ U ( θ , 2 θ ) ,则
E ( X ) = 2 3 θ , Var ( X ) = 12 θ 2 ,
从而
E ( x ˉ ) = 2 3 θ , Var ( x ˉ ) = 12 n θ 2 .
于是
E ( θ ^ ) = 3 2 E ( x ˉ ) = θ ,
这说明 θ ^ = 3 2 x ˉ 是参数 θ 的无偏估计。进一步,
Var ( θ ^ ) = 9 4 × 12 n θ 2 = 27 n θ 2 → 0.
这就证明了 θ ^ 也是 θ 的相合估计。
(2) 似然函数为
L ( θ ) = ( θ 1 ) n I { θ < x ( 1 ) ≤ x ( n ) < 2 θ } ,
显然 L ( θ ) 是 θ 的减函数,且 θ 的取值范围为
2 x ( n ) < θ < x ( 1 ) ,
因而 θ 的最大似然估计为
θ ^ = 2 x ( n ) .
下求 θ ^ 的均值与方差。由于 x ( n ) 的密度函数为
f ( x ) = n ( θ x − θ ) n − 1 ⋅ θ 1 = θ n n ( x − θ ) n − 1 , θ < x < 2 θ ,
故
E ( x ( n ) ) = ∫ θ 2 θ x θ n n ( x − θ ) n − 1 d x = θ n n ∫ 0 θ ( t + θ ) t n − 1 d t = n + 1 2 n + 1 θ ,
E ( x ( n ) 2 ) = ∫ θ 2 θ x 2 θ n n ( x − θ ) n − 1 d x = ( n + 2 ) ( n + 1 ) 4 n 2 + 8 n + 2 θ 2 ,
从而
Var ( x ( n ) ) = ( n + 2 ) ( n + 1 ) 2 n θ 2 .
于是
E ( θ ^ ) = 2 1 E ( x ( n ) ) = 2 ( n + 1 ) 2 n + 1 θ → θ ( n → ∞ ) ,
这说明 θ ^ 不是 θ 的无偏估计,而是 θ 的渐近无偏估计。又
Var ( θ ^ ) = 4 1 Var ( x ( n ) ) = 4 ( n + 1 ) 2 ( n + 2 ) n θ 2 → 0 ( n → ∞ ) ,
因而 θ ^ 是 θ 的相合估计。
设 x 1 , x 2 , ⋯ , x n 是来自密度函数为
p ( x ; θ ) = e − ( x − θ ) , x > θ
的总体的样本。
求 θ 的最大似然估计 θ ^ 1 ,它是否是相合估计?是否是无偏估计?
求 θ 的矩估计 θ ^ 2 ,它是否是相合估计?是否是无偏估计?
解
(1) 似然函数为
L ( θ ) = i = 1 ∏ n { e − ( x i − θ ) I { x i > θ } } = exp { − i = 1 ∑ n x i + n θ } I { x ( 1 ) > θ } .
显然 L ( θ ) 在示性函数为 1 的条件下是 θ 的严增函数,因此 θ 的最大似然估计为
θ ^ 1 = x ( 1 ) .
又 x ( 1 ) 的密度函数为
f ( x ) = n e − n ( x − θ ) , x > θ ,
故
E ( θ ^ 1 ) = ∫ θ ∞ x n e − n ( x − θ ) d x = ∫ 0 ∞ ( t + θ ) n e − n t d t = n 1 + θ ,
因此 θ ^ 1 不是 θ 的无偏估计,但是 θ 的渐近无偏估计。由于
E ( θ ^ 1 2 ) = ∫ θ ∞ x 2 n e − n ( x − θ ) d x = ∫ 0 ∞ ( t 2 + 2 θ t + θ 2 ) n e − n t d t = n 2 2 + n 2 θ + θ 2 ,
从而
Var ( θ ^ 1 ) = n 2 2 + n 2 θ + θ 2 − ( n 1 + θ ) 2 = n 2 1 → 0.
这说明 θ ^ 1 是 θ 的相合估计。
(2) 由于
E ( X ) = ∫ θ ∞ x e − ( x − θ ) d x = θ + 1 ,
这给出 θ = E ( X ) − 1 ,所以 θ 的矩估计为
θ ^ 2 = x ˉ − 1.
又
E ( X 2 ) = ∫ θ ∞ x 2 e − ( x − θ ) d x = θ 2 + 2 θ + 2 ,
所以
Var ( X ) = 1.
从而有
E ( θ ^ 2 ) = E ( x ˉ ) − 1 = θ , Var ( θ ^ 2 ) = n 1 Var ( X ) = n 1 → 0 ( n → ∞ ) .
这说明 θ ^ 2 既是 θ 的无偏估计,也是相合估计。
为了估计湖中有多少条鱼,从中捞出 1000 条,标上记号后放回湖中,然后再捞出 150 条鱼,发现其中有 10 条鱼有记号。问湖中有多少条鱼,才能使 150 条鱼中出现 10 条带记号的鱼的概率最大?
解
设第二次捞出的带有记号的鱼的数目为 X ,则 X 服从超几何分布,150 条鱼中出现 10 条带记号鱼的概率
P ( X = 10 ) = ( 150 N ) ( 10 1000 ) ( 140 N − 1000 ) ,
其中 N 表示湖中的鱼的条数,是未知参数。似然函数为
L ( N ; 10 ) = ( 150 N ) ( 10 1000 ) ( 140 N − 1000 ) .
考察相邻两项比值
A ( N , 10 ) = L ( N − 1 ; 10 ) L ( N ; 10 ) = N ( N − 1000 − 140 ) ( N − 1000 ) ( N − 150 ) = N ( N − 1140 ) ( N − 1000 ) ( N − 150 ) .
当且仅当 N < 15000 时,A ( N , 10 ) > 1 ;当且仅当 N > 15000 时,A ( N , 10 ) < 1 ,因此只有在 N = 15000 时,L ( N ; 10 ) 达到最大。这里的
N ^ = 15000
即为湖中鱼数的最大似然估计。
证明:对正态分布 N ( μ , σ 2 ) ,若只有一个观测值,则 σ 2 的最大似然估计不存在。
解
在只有一个观测值场合,对数似然函数为
l ( μ , σ 2 ; x ) = − ln ( 2 π σ ) − 2 σ 2 ( x − μ ) 2 .
当取 μ = x 且 σ → 0 时,该函数趋于 ∞ 。这说明该函数没有最大值,或者说极大值无法实现,从而 σ 2 的最大似然估计不存在。
补充习题及解答
若总体 X 服从如下柯西分布:
p ( x ) = π [ 1 + ( x − μ ) 2 ] 1 , − ∞ < x < ∞ ,
而 x 1 , x 2 , ⋯ , x n 是它的一个样本,试求 μ 的估计量。
解
由于柯西分布的数学期望不存在,因此不能用一阶矩法估计得到 μ 的估计量。但注意到 μ 是该总体分布的中位数,因此,若用替换原理,可以给出 μ 的一个矩估计为
μ ^ = m 0.5 .
若用最小二乘法(见第八章),即使
i = 1 ∑ n ( x i − μ ) 2
最小,则得 μ ^ = x ˉ ,很难说这是 μ 的一个合适的估计量,因为这时无偏性、有效性都失去意义,而且 x ˉ 与 x 1 同分布(读者自行验证),说明 x ˉ 也没有起到汇集 μ 的信息的作用,因而,这个估计量的相合性也就无从谈起。
我们转而讨论 μ 的最大似然估计。其似然函数为
L ( μ ) = i = 1 ∏ n π [ 1 + ( x i − μ ) 2 ] 1 ,
其对数似然函数为
ln L ( μ ) = − n ln π − i = 1 ∑ n ln ( 1 + ( x i − μ ) 2 ) .
对 μ 求导并令其为 0 可得对数似然方程
i = 1 ∑ n 1 + ( x i − μ ) 2 x i − μ = 0.
这个方程只能求数值解,比如用牛顿迭代法。由于 μ 是总体分布的中位数,因此可以用样本中位数 m 0.5 作为迭代的初值,求所得的这个数值解即为 μ 的最大似然估计。从似然角度看,该方法得到的估计要比样本中位数估计更好些。
一个罐子里装有黑球和白球,有放回地抽取一个容量为 n 的样本,其中有 k 个白球,求罐子里黑球数和白球数之比 R 的最大似然估计。
解
解法一 记 p 为罐子中白球的比例,令 x i 表示第 i 次有放回抽样所得的白球数,则
x i ∼ b ( 1 , p ) , i = 1 , 2 , ⋯ , n ,
故 p 的最大似然估计为
p ^ = x ˉ .
因为黑球数与白球数比值
R = n p n ( 1 − p ) = p 1 − p ,
根据最大似然估计的不变性,有
R ^ = p ^ 1 − p ^ = x ˉ 1 − x ˉ .
对具体的样本值,即 n 个中抽到 k 个白球来讲,R 的最大似然估计为
R ^ = k n − k .
解法二 设罐子里有白球 l 个,则有黑球 R l 个,从而罐中共有 ( 1 + R ) l 个球。从中有放回地抽一个球为白球的概率为
( 1 + R ) l l = 1 + R 1 .
从罐中有放回地抽 n 个球,可视为从二点分布
x p 0 (黑球) 1 + R R 1 (白球) 1 + R 1
中抽取一个样本容量为 n 的样本。当样本中有 k 个白球时,似然函数为
L ( R ) = ( 1 + R 1 ) k ( 1 + R R ) n − k = ( 1 + R ) n R n − k .
其对数似然函数为
ln L ( R ) = ( n − k ) ln R − n ln ( 1 + R ) ,
将对数似然函数对 R 求导,并令其为 0 ,得似然方程
R n − k − 1 + R n = 0 ,
解之可得
R ^ = k n − 1.
由于其对数似然函数的二阶导数为
∂ R 2 ∂ 2 ln L ( R ) R ^ = [ − R 2 n − k + ( 1 + R ) 2 n ] R ^ = − n ( n − k ) k 3 < 0 ,
所以
R ^ = k n − 1
是 R 的最大似然估计。
譬如,在 n = 10 , k = 2 场合,R 的最大似然估计
R ^ = 2 10 − 1 = 4 ,
即罐中黑球数与白球数之比的最大似然估计为 4 ,即白球 1 个、黑球 4 个,或者白球 2 个、黑球 8 个等。
设 x 1 , x 2 , ⋯ , x m 和 y 1 , y 2 , ⋯ , y n 分别为来自总体 N ( μ 1 , σ 2 ) 和 N ( μ 2 , σ 2 ) 的两个独立样本,试求
θ = ( μ 1 , μ 2 , σ 2 )
的最大似然估计。
解
合样本的似然函数为
L = ( 2 π σ 1 ) m + n exp { − 2 σ 2 1 i = 1 ∑ m ( x i − μ 1 ) 2 − 2 σ 2 1 i = 1 ∑ n ( y i − μ 2 ) 2 } ,
对数似然函数为
l = ln L = − 2 m + n ln ( 2 π σ 2 ) [ − 2 σ 2 1 i = 1 ∑ m ( x i − μ 1 ) 2 − 2 σ 2 1 i = 1 ∑ n ( y i − μ 2 ) 2 ] .
将对数似然函数对 μ 1 , μ 2 , σ 2 分别求导并令其为 0 (忽略常数),得
∂ μ 1 ∂ l μ ^ 1 = i = 1 ∑ m ( x i − μ ^ 1 ) = 0 , ∂ μ 2 ∂ l μ ^ 2 = i = 1 ∑ n ( y i − μ ^ 2 ) = 0 ,
∂ σ 2 ∂ l μ ^ 1 , μ ^ 2 , σ ^ 2 = − 2 σ ^ 2 m + n + 2 σ ^ 4 1 [ i = 1 ∑ m ( x i − μ ^ 1 ) 2 + i = 1 ∑ n ( y i − μ ^ 2 ) 2 ] = 0.
由此得到 μ 1 , μ 2 , σ 2 的最大似然估计为
μ ^ 1 = x ˉ , μ ^ 2 = y ˉ ,
σ ^ 2 = m + n i = 1 ∑ m ( x i − x ˉ ) 2 + i = 1 ∑ n ( y i − y ˉ ) 2 .
某批产品含有 N 件,其中 M 件为不合格品,现从中随机抽取 n 件中有 X 件不合格品,则 X 服从超几何分布,即
P ( X = x ) = ( n N ) ( x M ) ( n − x N − M ) , x = 1 , 2 , ⋯ , min { M , n } .
假如 N 与 n 已知,寻求该批产品中不合格品数 M 的最大似然估计。
解
记未知参数 M 的似然函数为
L ( M ; x ) = P ( X = x ) .
考察似然比
L ( M , x ) L ( M + 1 , x ) = ( x M ) ( n − x N − M ) ( x M + 1 ) ( n − x N − M − 1 ) = M + 1 − x M + 1 ⋅ N − M N − M − n + x .
要使似然比
L ( M , x ) L ( M + 1 , x ) ≥ 1 ,
必导致
( M + 1 ) ( N − M − n + x ) ≥ ( M + 1 − x ) ( N − M ) .
化简此式可得
M ≤ n x ( N + 1 ) − 1 = def M 0 ,
这表明:当 M 0 为整数和 M ≤ M 0 时,似然函数 L ( M , x ) 是 M 的增函数,即
L ( 0 , x ) ≤ L ( 1 , x ) ≤ ⋯ ≤ L ( M 0 , x ) ≤ L ( M 0 + 1 , x ) . ( 1 )
类似地,要使似然比
L ( M , x ) L ( M + 1 , x ) ≤ 1 ,
必导致
M ≥ n x ( N + 1 ) − 1 = M 0 ,
这表明:当 M 0 为整数且 M ≥ M 0 时,似然函数 L ( M , x ) 是 M 的减函数,即
L ( M 0 , x ) ≥ L ( M 0 + 1 , x ) ≥ ⋯ ≥ L ( M , x ) . ( 2 )
比较式 ( 1 ) 和式 ( 2 ) 可知,当 M 0 为整数时,M 的最大似然估计为 M ^ = M 0 或 M 0 + 1 ;而当 M 0 不为整数时,M 的最大似然估计为
M ^ = [ M 0 + 1 ] = [ n x ( N + 1 ) ] ,
其中 [ a ] 为不超过 a 的最大整数。综合上述,M 的最大似然估计为
M ^ = ⎩ ⎨ ⎧ n x ( N + 1 ) − 1 或 n x ( N + 1 ) , [ n x ( N + 1 ) ] , n x ( N + 1 ) 为整数 , n x ( N + 1 ) 不为整数 .
譬如,在 N = 19 , n = 5 , x = 2 场合,
M 0 = n x ( N + 1 ) − 1 = 5 2 × ( 19 + 1 ) − 1 = 7 ,
由于 M 0 为整数,故 M 的最大似然估计为 7 或 8 。下面以实际计算加以佐证,几个
L ( M , 2 ) = P ( X = 2 )
如下表所示:
M L ( M , 2 ) 6 0.3689 7 0.3973 8 0.3973 9 0.3715 10 0.3251
可见 M 取 7 或 8 可使似然函数达到最大。
又如,在 N = 16 , n = 5 , x = 2 场合,
M 0 = n x ( N + 1 ) − 1 = 5 2 × ( 16 + 1 ) − 1 = 5.8
(不为整数),这时 M 的最大似然估计
M ^ = [ M 0 + 1 ] = [ 5.8 + 1 ] = 6.
实际计算表明
M L ( M , 2 ) 5 0.3777 6 0.4121 7 0.4038 8 0.359
可见 M 取 6 可使似然函数达到最大。
§6.4 最小方差无偏估计
均方误差 设 θ ^ 是 θ 的一个估计(无偏的或有偏的),则称
MSE ( θ ^ ) = E ( θ ^ − θ ) 2 = Var ( θ ^ ) + [ E ( θ ^ ) − θ ] 2
为 θ ^ 的均方误差。均方误差较小意味着:θ ^ 不仅方差较小,而且偏差 E ( θ ^ ) − θ 也小,所以均方误差是评价点估计的一般标准。
使均方误差一致最小的估计量一般是不存在的,但两个估计的优劣可用均方误差评估;
在无偏估计类中使均方误差最小就是使方差最小。
一致最小方差无偏估计 设 θ ^ 是 θ 的一个无偏估计,如果对另外任意一个 θ 的无偏估计 θ ~ ,在参数空间 Θ = { θ } 上都有
Var θ ( θ ^ ) ≤ Var θ ( θ ~ ) ,
则称 θ ^ 是 θ 的一致最小方差无偏估计,简记为 UMVUE。
判断准则 设 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) 是 θ 的一个无偏估计,Var ( θ ^ ) < ∞ 。如果对任意一个满足
E ( φ ( x 1 , x 2 , ⋯ , x n ) ) = 0
和
Var ( φ ( x 1 , x 2 , ⋯ , x n ) ) < ∞
的 φ ,都有
Cov θ ( θ ^ , φ ) = 0 , ∀ θ ∈ Θ ,
则 θ ^ 是 θ 的 UMVUE。
充分性原则
任一参数 θ 的 UMVUE 不一定存在,若存在,则它一定可表示为充分统计量的函数;
若 θ 的某个无偏估计 θ ^ 不是充分统计量 T = T ( x 1 , x 2 , ⋯ , x n ) 的函数,则通过条件期望可以获得一个新的无偏估计 θ ~ = E ( θ ^ ∣ T ) ,且方差不超过原估计的方差;
考虑 θ 的估计时,只需要在其充分统计量的函数中寻找即可,这说法对所有统计推断都是正确的,这便是充分性原则。
费希尔信息量 I ( θ ) 设总体的概率函数 p ( x ; θ ) ,θ ∈ Θ 满足下列条件:
参数空间 Θ 是直线上的一个开区间;
支撑 S = { x : p ( x ; θ ) > 0 } 与 θ 无关;
导数 ∂ θ ∂ p ( x ; θ ) 对一切 θ ∈ Θ 都存在;
对 p ( x ; θ ) ,积分与微分运算可交换次序,即
∂ θ ∂ ∫ − ∞ ∞ p ( x ; θ ) d x = ∫ − ∞ ∞ ∂ θ ∂ p ( x ; θ ) d x ;
期望
I ( θ ) = E [ ∂ θ ∂ ln p ( x ; θ ) ] 2
存在。
则称该期望 I ( θ ) 为总体分布的费希尔信息量。若二阶导数对一切 θ ∈ Θ 都存在,则 I ( θ ) 还可用下式计算:
I ( θ ) = − E [ ∂ θ 2 ∂ 2 ln p ( x ; θ ) ] .
常用分布的费希尔信息量
二点分布 b ( 1 , p ) 的费希尔信息量 I ( p ) = [ p ( 1 − p ) ] − 1 ;
泊松分布 p ( λ ) 的费希尔信息量 I ( λ ) = λ − 1 ;
指数分布 Exp ( λ ) 的费希尔信息量 I ( λ ) = λ 2 ;
正态分布 N ( μ , 1 ) 的费希尔信息量 I ( μ ) = 1 ;
正态分布 N ( 0 , σ 2 ) 的费希尔信息量 I ( σ 2 ) = 2 σ 4 1 ;
正态分布 N ( μ , σ 2 ) 的费希尔信息量(信息矩阵)
I ( μ , σ 2 ) = ( 1/ σ 2 0 0 1/ ( 2 σ 4 ) ) .
C-R 不等式 设 T = T ( x 1 , x 2 , ⋯ , x n ) 是未知参数 g ( θ ) 的一个无偏估计,若
g ′ ( θ ) = ∂ θ ∂ g ( θ )
存在,则在费希尔信息量 I ( θ ) 也存在的条件下有
Var ( T ) ≥ n I ( θ ) [ g ′ ( θ ) ] 2 .
上式称为克拉默—拉奥(C-R)不等式,n I ( θ ) [ g ′ ( θ ) ] 2 称为 g ( θ ) 的无偏估计的方差的 C-R 下界,简称 g ( θ ) 的 C-R 下界。特别,对 θ 的无偏估计 θ ^ ,有
Var ( θ ^ ) ≥ [ n I ( θ ) ] − 1 .
注:g ( θ ) 的 C-R 下界并不是对任意参数函数 g ( θ ) 的无偏估计的方差都可达到,但能达到 C-R 下界的 g ( θ ) 的估计 T = T ( x 1 , x 2 , ⋯ , x n ) 一定是 g ( θ ) 的 UMVUE。方差达到 C-R 下界的无偏估计称为有效估计。
习题与解答 6.4
设总体概率函数是 p ( x ; θ ) ,x 1 , x 2 , ⋯ , x n 是其样本,T = T ( x 1 , x 2 , ⋯ , x n ) 是 θ 的充分统计量,则对 g ( θ ) 的任何一个估计 g ^ ,令
g ~ = E ( g ^ ∣ T ) ,
证明:
MSE ( g ~ ) ≤ MSE ( g ^ ) .
这说明,在均方误差准则下,人们只需要考虑基于充分统计量的估计。
解
我们将均方误差作如下分解
MSE ( g ^ ) = E ( g ^ − g ( θ ) ) 2 = E ( g ^ − g ~ + g ~ − g ( θ ) ) 2 = E ( g ^ − g ~ ) 2 + MSE ( g ~ ) + 2 E [ ( g ^ − g ~ ) ( g ~ − g ( θ )) ] .
注意到 g ~ = E ( g ^ ∣ T ) ,这说明
E [( g ^ − g ~ ) ∣ T ] = E ( g ^ ∣ T ) − E [ E ( g ^ ∣ T ) ∣ T ] = E ( g ^ ∣ T ) − E ( g ^ ∣ T ) = 0 ,
于是
E [ ( g ^ − g ~ ) ( g ~ − g ( θ )) ] = E { E [ ( g ^ − g ~ ) ( g ~ − g ( θ )) ∣ T ] } = E { ( g ~ − g ( θ )) E [( g ^ − g ~ ) ∣ T ] } = 0.
因而
MSE ( g ^ ) = E ( g ^ − g ~ ) 2 + MSE ( g ~ ) ≥ MSE ( g ~ ) .
设 T 1 , T 2 分别是 θ 1 , θ 2 的 UMVUE,证明:对任意的(非零)常数 a , b ,a T 1 + b T 2 是 a θ 1 + b θ 2 的 UMVUE。
解
由于 T 1 , T 2 分别是 θ 1 , θ 2 的 UMVUE,故
E ( T i ) = θ i , i = 1 , 2.
且对任意一个 ϕ ( x ) ,满足 E ( ϕ ) = 0 ,由判断准则知
Cov ( T i , ϕ ) = 0 , i = 1 , 2.
于是
E ( a T 1 + b T 2 ) = a θ 1 + b θ 2 ,
Cov ( a T 1 + b T 2 , ϕ ) = a Cov ( T 1 , ϕ ) + b Cov ( T 2 , ϕ ) = 0.
因此 a T 1 + b T 2 是 a θ 1 + b θ 2 的 UMVUE。
设 T 是 g ( θ ) 的 UMVUE,g ^ 是 g ( θ ) 的无偏估计,证明:若 Var ( g ^ ) < ∞ ,则
Cov ( T , g ^ ) ≥ 0.
解
因为 T 是 g ( θ ) 的 UMVUE,g ^ 是 g ( θ ) 的无偏估计,故其差
T − g ^
是 0 的无偏估计,即
E ( T − g ^ ) = 0 ,
且
Var ( T − g ^ ) < ∞.
由判断准则知
Cov ( T , T − g ^ ) = 0 ,
这说明
Var ( T ) − Cov ( T , g ^ ) = 0 ,
即
Cov ( T , g ^ ) = Var ( T ) ≥ 0.
设总体 X ∼ N ( μ , σ 2 ) ,x 1 , x 2 , ⋯ , x n 为样本,证明,
x ˉ = n 1 i = 1 ∑ n x i , s 2 = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2
分别为 μ , σ 2 的 UMVUE。
解
大家知道:x ˉ , s 2 分别是 μ , σ 2 的无偏估计,设 φ ( x 1 , x 2 , ⋯ , x n ) 是 0 的任一无偏估计,则
E ( φ ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ i = 1 ∏ n 2 π σ 1 exp { − 2 σ 2 ( x i − μ ) 2 } d x 1 ⋯ d x n = 0 ,
即
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ ( 2 π σ 2 ) − n /2 exp { − 2 σ 2 1 i = 1 ∑ n x i 2 + σ 2 n x ˉ μ − 2 σ 2 n μ 2 } d x 1 ⋯ d x n = 0. ( 1 )
将 ( 1 ) 式两端对 μ 求导,并注意到 E ( φ ) = 0 ,有
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ σ 2 n x ˉ φ ⋅ ( 2 π σ 2 ) − n /2 exp { − 2 σ 2 1 i = 1 ∑ n x i 2 + σ 2 n x ˉ μ − 2 σ 2 n μ 2 } d x 1 ⋯ d x n = 0. ( 2 )
这说明
E ( σ 2 n x ˉ φ ) = 0 ,
即
E ( x ˉ φ ) = 0 ,
于是
Cov ( x ˉ , φ ) = E ( x ˉ φ ) − E ( x ˉ ) E ( φ ) = 0 ,
从而 x ˉ 是 μ 的 UMVUE。
为证明 s 2 是 σ 2 的 UMVUE,我们将 ( 2 ) 式的两端再对 μ 求导,得
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ( σ 2 n x ˉ ) 2 φ ⋅ ( 2 π σ 2 ) − 2 n exp { − 2 σ 2 1 i = 1 ∑ n x i 2 + σ 2 n x ˉ μ − 2 σ 2 n μ 2 } d x 1 ⋯ d x n
− ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ σ 2 n x ˉ ⋅ σ 2 n μ φ ⋅ ( 2 π σ 2 ) − 2 n exp { − 2 σ 2 1 i = 1 ∑ n x i 2 + σ 2 n x ˉ μ − 2 σ 2 n μ 2 } d x 1 ⋯ d x n = 0 ,
由此可以得到 E ( x ˉ 2 φ ) = 0 。下一步,将 ① 式两端对 σ 2 求导,略去几个前面已经指出积分为 0 的项,有
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ i = 1 ∑ n x i 2 φ ⋅ ( 2 π σ 2 ) − 2 n exp { − 2 σ 2 1 i = 1 ∑ n x i 2 + σ 2 n x ˉ μ − 2 σ 2 n μ 2 } d x 1 ⋯ d x n = 0.
这表明 E ( φ ∑ i = 1 n x i 2 ) = 0 ,由此可得到 E ( s 2 φ ) = 0 ,因而
Cov ( s 2 , φ ) = E ( s 2 φ ) − E ( s 2 ) E ( φ ) = 0.
这就证明了 s 2 是 σ 2 的 UMVUE。
设总体 p ( x ; θ ) 的费希尔信息量存在,若二阶导数 ∂ θ 2 ∂ 2 p ( x ; θ ) 对一切的 θ ∈ Θ 存在,证明费希尔信息量
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) .
解
记
S θ = ∂ θ ∂ ln p ( x ; θ ) ,
则
E ( S θ ) = ∫ − ∞ ∞ p ( x ; θ ) 1 ⋅ ∂ θ ∂ p ( x ; θ ) ⋅ p ( x ; θ ) d x = ∫ − ∞ ∞ ∂ θ ∂ p ( x ; θ ) d x = ∂ θ ∂ ∫ − ∞ ∞ p ( x ; θ ) d x = 0 ,
所以
∂ θ ∂ E ( S θ ) = 0.
另一方面,
∂ θ ∂ E ( S θ ) = ∂ θ ∂ ∫ − ∞ ∞ S θ p ( x ; θ ) d x = ∫ − ∞ ∞ ∂ θ ∂ ( S θ p ( x ; θ ) ) d x = ∫ − ∞ ∞ ( ∂ θ ∂ S θ ⋅ p ( x ; θ ) + S θ ⋅ ∂ θ ∂ p ( x ; θ ) ) d x = ∫ − ∞ ∞ ∂ θ 2 ∂ 2 ln p ( x ; θ ) ⋅ p ( x ; θ ) d x + ∫ − ∞ ∞ ( ∂ θ ∂ ln p ( x ; θ ) ) 2 p ( x ; θ ) d x = E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) + E ( S θ 2 ) = E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) + I ( θ ) .
这就证明了
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) .
设总体密度函数为
p ( x ; θ ) = θ x θ − 1 , 0 < x < 1 , θ > 0 ,
x 1 , x 2 , ⋯ , x n 是样本。
求 g ( θ ) = 1/ θ 的最大似然估计;
求 g ( θ ) 的有效估计。
解
**(1)**似然函数为
L ( θ ) = i = 1 ∏ n θ x i θ − 1 ,
对数似然函数为
ln L ( θ ) = n ln θ + ( θ − 1 ) i = 1 ∑ n ln x i = − n ln g ( θ ) + ( g ( θ ) 1 − 1 ) i = 1 ∑ n ln x i .
将对数似然函数求导并令其为 0 ,得似然方程
∂ g ( θ ) ∂ ln L ( θ ) = − g ( θ ) n − g 2 ( θ ) 1 i = 1 ∑ n ln x i = 0.
解之得
g ^ ( θ ) = − n 1 i = 1 ∑ n ln x i .
**(2)**令 Y = − ln X ,则
P ( Y < y ) = P ( − ln X < y ) = P ( X > e − y ) = ∫ e − y 1 θ x θ − 1 d x = 1 − e − θ y ,
因此
Y ∼ E x p ( θ ) = G a ( 1 , θ ) ,
从而有
g ^ ( θ ) ∼ G a ( n , n θ ) .
于是
E ( g ^ ) = n θ n = θ 1 = g ( θ ) , Var ( g ^ ) = ( n θ ) 2 n = n θ 2 1 .
为求有效估计,需求出 θ 的费希尔信息量。注意到
ln p ( x ; θ ) = ln θ + ( θ − 1 ) ln x ,
∂ θ ∂ ln p ( x ; θ ) = θ 1 + ln x , ∂ θ 2 ∂ 2 ln p ( x ; θ ) = − θ 2 1 ,
于是
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) = θ 2 1 .
而
g ′ ( θ ) = − θ − 2 ,
于是 g ( θ ) 的任一无偏估计的 C-R 下界为
n I ( θ ) [ g ′ ( θ ) ] 2 = n θ 2 1 .
从而 g ^ ( θ ) = − n 1 ∑ i = 1 n ln x i 是 g ( θ ) 的无偏估计,且方差达到了 C-R 下界,所以 g ^ ( θ ) = − n 1 ∑ i = 1 n ln x i 是 g ( θ ) 的有效估计。
设总体密度函数为
p ( x ; θ ) = x 3 2 θ e − θ / x 2 , x > 0 , θ > 0 ,
求 θ 的费希尔信息量 I ( θ ) 。
解
对数密度函数为
ln p ( x ; θ ) = ln 2 + ln θ − 3 ln x − θ / x 2 ,
于是
∂ θ ∂ ln p ( x ; θ ) = θ 1 − x 2 1 , ∂ θ 2 ∂ 2 ln p ( x ; θ ) = − θ 2 1 ,
由此给出
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) = θ 2 1 .
设总体密度函数为
p ( x ; θ ) = θ c θ x − ( θ + 1 ) , x > c , c > 0 已知 , θ > 0 ,
求 θ 的费希尔信息量 I ( θ ) 。
解
对数密度函数为
ln p ( x ; θ ) = ln θ + θ ln c − ( θ + 1 ) ln x ,
将上式对 θ 求导,得到
∂ θ ∂ ln p ( x ; θ ) = θ 1 + ln c − ln x ,
二阶导函数为
∂ θ 2 ∂ 2 ln p ( x ; θ ) = − θ 2 1 ,
于是
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln p ( x ; θ ) ) = θ 2 1 .
设总体分布列为
P ( X = x ) = ( x − 1 ) θ 2 ( 1 − θ ) x − 2 , x = 2 , 3 , ⋯ , 0 < θ < 1 ,
求 θ 的费希尔信息量 I ( θ ) 。
解
对数分布列为
ln P ( X = x ) = ln ( x − 1 ) + 2 ln θ + ( x − 2 ) ln ( 1 − θ ) .
求一、二阶导数,有
∂ θ ∂ ln P ( X = x ) = θ 2 − 1 − θ x − 2 , ∂ θ 2 ∂ 2 ln P ( X = x ) = − θ 2 2 − ( 1 − θ ) 2 x − 2 .
在本章 6.2 节第 3 题中,我们已经算得
E ( x ) = θ 2 ,
于是
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln P ( X = x ) ) = θ 2 2 + ( 1 − θ ) 2 E ( x ) − 2 = θ 2 ( 1 − θ ) 2 .
设 x 1 , x 2 , ⋯ , x n 是来自 G a ( α , λ ) 的样本,α > 0 已知,试证明 x ˉ / α 是 g ( λ ) = 1/ λ 的有效估计,从而也是 UMVUE。
解
总体 G a ( α , λ ) 的密度函数为
p ( x ; λ ) = Γ ( α ) λ α x α − 1 e − λ x , x > 0 ,
于是
ln p ( x ; λ ) = α ln λ − ln Γ ( α ) + ( α − 1 ) ln x − λ x ,
∂ λ ∂ ln p ( x ; λ ) = λ α − x , ∂ λ 2 ∂ 2 ln p ( x ; λ ) = − λ 2 α .
所以 λ 的费希尔信息量为
I ( λ ) = λ 2 α ,
这就是说 g ( λ ) = λ 1 的任一无偏估计的 C-R 下界为
n I ( λ ) [ g ′ ( λ ) ] 2 = n α λ 2 1 .
又
E ( α x ˉ ) = α 1 ⋅ λ α = λ 1 , Var ( α x ˉ ) = α 2 1 ⋅ n 1 ⋅ λ 2 α = n α λ 2 1 .
这就证明了 x ˉ / α 是 g ( λ ) = 1/ λ 的有效估计,从而也是 UMVUE。
设 x 1 , x 2 , ⋯ , x m i.i.d. ∼ N ( a , σ 2 ) ,y 1 , y 2 , ⋯ , y n i.i.d. ∼ N ( a , 2 σ 2 ) ,求 a 和 σ 2 的 UMVUE。
解
直观上,可考虑 x ˉ 和 y ˉ 的凸线性组合
a ^ l = l x ˉ + ( 1 − l ) y ˉ ,
易知 a ^ l 为 a 的无偏估计,且当
l = 2 m + n 2 m
时,Var ( a ^ l ) 达到最小。下证
a ^ = 2 m + n 2 m x ˉ + n y ˉ
为 a 的 UMVUE。
( x 1 , x 2 , ⋯ , x m , y 1 , y 2 , ⋯ , y n ) 的联合密度函数为
p ( x 1 , ⋯ , x m , y 1 , ⋯ , y n , a , σ 2 ) = ( 2 π σ 1 ) m + n 2 − 2 n exp { − i = 1 ∑ m 2 σ 2 ( x i − a ) 2 − i = 1 ∑ n 4 σ 2 ( y i − a ) 2 } = ( 2 π σ 1 ) m + n 2 − 2 n exp { − 2 σ 2 1 ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) + σ 2 m x ˉ + 2 1 n y ˉ a − 2 σ 2 m + 2 1 n a 2 } .
设 φ ( x 1 , ⋯ , x m , y 1 , ⋯ , y n ) 是 0 的任一无偏估计,则
E ( φ ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ p ( x 1 , ⋯ , x m , y 1 , ⋯ , y n , a , σ 2 ) d x 1 ⋯ d x m d y 1 ⋯ d y n = 0 ,
即
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ ( 2 π σ 1 ) m + n 2 − 2 n exp { − 2 σ 2 1 ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) + σ 2 m x ˉ + 2 1 n y ˉ a − 2 σ 2 m + 2 1 n a 2 } d x 1 ⋯ d x m d y 1 ⋯ d y n = 0. ( 1 )
将 ① 式两端对 a 求导,并注意到 E ( φ ) = 0 ,有
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ σ 2 m x ˉ + 2 1 n y ˉ φ ⋅ ( 2 π σ 1 ) m + n 2 − 2 n exp { − 2 σ 2 1 ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) + σ 2 m x ˉ + 2 1 n y ˉ a − 2 σ 2 m + 2 1 n a 2 } d x 1 ⋯ d x m d y 1 ⋯ d y n = 0. ( 2 )
这说明
E ( σ 2 m x ˉ + 2 1 n y ˉ φ ) = 0 ,
即
E ( ( m x ˉ + 2 1 n y ˉ ) φ ) = 0.
于是
Cov ( m x ˉ + 2 1 n y ˉ , φ ) = E ( ( m x ˉ + 2 1 n y ˉ ) φ ) − E ( m x ˉ + 2 1 n y ˉ ) E ( φ ) = 0 ,
从而
a ^ = 2 m + n 2 m x ˉ + n y ˉ
是 a 的 UMVUE。
我们将 ② 式的两端再对 a 求导,得
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ( σ 4 ( m x ˉ + 2 1 n y ˉ ) 2 − ( m + 2 1 n ) σ 2 1 σ 2 m x ˉ + 2 1 n y ˉ a ) φ ⋅ ( 2 π σ 1 ) m + n 2 − 2 n × exp { − 2 σ 2 1 ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) + σ 2 m x ˉ + 2 1 n y ˉ a − 2 σ 2 m + 2 1 n a 2 } d x 1 ⋯ d x m d y 1 ⋯ d y n = 0.
由此可以得到
E ( ( m x ˉ + 2 1 n y ˉ ) 2 φ ) = 0.
下一步,将 ① 式两端对 σ 2 求导,略去几个前面已经指出积分为 0 的项,有
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) φ ⋅ ( 2 π σ 1 ) m + n 2 − 2 n exp { − 2 σ 2 1 ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) + σ 2 m x ˉ + 2 1 n y ˉ a − 2 σ 2 m + 2 1 n a 2 } d x 1 ⋯ d x m d y 1 ⋯ d y n = 0.
这表明
E [ φ ⋅ ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) ] = 0.
记
T = i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 − m + 2 1 n ( m x ˉ + 2 1 n y ˉ ) 2 ,
由此可得到 E ( T φ ) = 0 ,因而 Cov ( T , φ ) = 0 。
由于
E ( i = 1 ∑ m x i 2 + 2 1 i = 1 ∑ n y i 2 ) = ( m + 2 1 n ) a 2 + ( m + n ) σ 2 ,
E ( m x ˉ + 2 1 n y ˉ ) 2 = ( m + 2 1 n ) 2 a 2 + ( m + 2 1 n ) σ 2 ,
所以,
E ( T ) = ( m + 2 1 n ) a 2 + ( m + n ) σ 2 − ( m + 2 1 n ) a 2 − σ 2 = ( m + n − 1 ) σ 2 ,
故
( m + n − 1 ) − 1 T
是 σ 2 的 UMVUE。
注意,这里 σ 2 的估计不能是 s x 2 和 s y 2 的凸组合,为什么?留给读者思考。
设 x 1 , x 2 , ⋯ , x n i.i.d. ∼ N ( μ , 1 ) ,求 μ 2 的 UMVUE。证明此 UMVUE 达不到 C-R 不等式的下界,即它不是有效估计。
解
设 φ ( x 1 , x 2 , ⋯ , x n ) 是 0 的任一无偏估计,则
E ( φ ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ i = 1 ∏ n 2 π 1 exp { − 2 ( x i − μ ) 2 } d x 1 ⋯ d x n = 0 ,
即
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ φ ⋅ ( 2 π ) − 2 n exp { − 2 1 i = 1 ∑ n x i 2 + n x ˉ μ − 2 n μ 2 } d x 1 ⋯ d x n = 0. ( 1 )
将 ① 式两端对 μ 求导,并注意到 E ( φ ) = 0 ,有
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ n x ˉ φ ⋅ ( 2 π ) − 2 n exp { − 2 1 i = 1 ∑ n x i 2 + n x ˉ μ − 2 n μ 2 } d x 1 ⋯ d x n = 0. ( 2 )
这说明 E ( n x ˉ φ ) = 0 ,即 E ( x ˉ φ ) = 0 。
我们将 ② 式的两端再对 μ 求导,得
∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ( n x ˉ ) 2 φ ⋅ ( 2 π ) − 2 n exp { − 2 1 i = 1 ∑ n x i 2 + n x ˉ μ − 2 n μ 2 } d x 1 ⋯ d x n
− ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ n x ˉ ⋅ n μ φ ⋅ ( 2 π ) − 2 n exp { − 2 1 i = 1 ∑ n x i 2 + n x ˉ μ − 2 n μ 2 } d x 1 ⋯ d x n = 0 ,
由此可以得到
E ( x ˉ 2 φ ) = 0.
记
T = x ˉ 2 − n 1 ,
则
Cov ( T , φ ) = 0 , E ( T ) = μ 2 ,
从而
T = x ˉ 2 − n 1
为 μ 2 的 UMVUE。
进一步,
Var ( T ) = Var ( x ˉ 2 ) = n 2 2 + n 4 μ 2 ,
C-R 下界为
n I ( μ ) 4 μ 2 = n 4 μ 2 .
故此 UMVUE 的方差还达不到 C-R 不等式的下界。
对泊松分布 P ( θ ) ,
求 I ( θ 1 ) ;
找一个函数 g ( ⋅ ) ,使 g ( θ ) 的费希尔信息量与 θ 无关。
解
(1)
I ( θ 1 ) = I ( θ ) ( d ( 1/ θ ) d θ ) 2 = θ 4 I ( θ ) = θ 3 .
(2)
I ( g ( θ )) = I ( θ ) ( d g ( θ ) d θ ) 2 .
令
I ( g ( θ )) = c
(其中 c 为大于 0 的任意常数),则
d g ( θ ) d θ = c θ .
所以,
g ( θ ) = c 2 θ + c 2
(其中 c 2 为任意常数)。
设 x 1 , x 2 , ⋯ , x n 为独立同分布变量,0 < θ < 1 ,
P ( x 1 = − 1 ) = 2 1 − θ , P ( x 1 = 0 ) = 2 1 , P ( x 1 = 1 ) = 2 θ .
求 θ 的 MLE θ ^ 1 ,并问 θ ^ 1 是否是无偏的;
求 θ 的矩估计 θ ^ 2 ;
计算 θ 的无偏估计的方差的 C-R 下界。
解
**(1)**方法一 设 x 1 , x 2 , ⋯ , x n 中取值 − 1 , 0 , 1 分别有 n − 1 , n 0 , n 1 次,有 n − 1 + n 0 + n 1 = n ,则似然函数
L ( θ ) = ( 2 1 − θ ) n − 1 ( 2 1 ) n 0 ( 2 θ ) n 1 = 2 n ( 1 − θ ) n − 1 θ n 1 ,
有
ln L ( θ ) = n − 1 ln ( 1 − θ ) + n 1 ln θ − n ln 2 ,
令
d θ d ln L ( θ ) = n − 1 ⋅ 1 − θ − 1 + n 1 ⋅ θ 1 = 0 ,
得
θ = n − 1 + n 1 n 1 ,
故 θ 的 MLE θ ^ 1 = n − 1 + n 1 n 1 。
方法二 总体 X 的密度函数为
p ( x ; θ ) = ( 2 1 − θ ) 2 x ( x − 1 ) ( 2 1 ) − ( x + 1 ) ( x − 1 ) ( 2 θ ) 2 x ( x + 1 ) = 2 1 ( 1 − θ ) 2 x 2 − x θ 2 x 2 + x , x = − 1 , 0 , 1 ,
则似然函数
L ( θ ) = i = 1 ∏ n 2 1 ( 1 − θ ) 2 x i 2 − x i θ 2 x i 2 + x i = 2 n 1 ( 1 − θ ) 2 1 ( ∑ i = 1 n x i 2 − ∑ i = 1 n x i ) θ 2 1 ( ∑ i = 1 n x i 2 + ∑ i = 1 n x i ) ,
有
ln L ( θ ) = 2 1 ( i = 1 ∑ n x i 2 − i = 1 ∑ n x i ) ln ( 1 − θ ) + 2 1 ( i = 1 ∑ n x i 2 + i = 1 ∑ n x i ) ln θ − n ln 2 ,
令
d θ d ln L ( θ ) = 2 1 ( i = 1 ∑ n x i 2 − i = 1 ∑ n x i ) 1 − θ − 1 + 2 1 ( i = 1 ∑ n x i 2 + i = 1 ∑ n x i ) θ 1 = 0 ,
得
θ = 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 + ∑ i = 1 n x i = 2 1 + 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i ,
故 θ 的 MLE
θ ^ 1 = 2 1 + 2 ∑ i = 1 n X i 2 ∑ i = 1 n X i .
注:因 X i 全部可能取值 − 1 , 0 , 1 ,有
i = 1 ∑ n X i 2 = n − 1 + n 1 , i = 1 ∑ n X i = n 1 − n − 1 ,
即以上两个结果一致。
因
E ( θ ^ 1 ) = E ( n − 1 + n 1 n 1 ) = E [ E ( n − 1 + n 1 n 1 n − 1 + n 1 ) ] ,
且
P ( x 1 = 1 ∣ x 1 = − 1 或 x 1 = 1 ) = P ( x 1 = − 1 或 x 1 = 1 ) P ( x 1 = 1 ) = ( 1 − θ ) /2 + θ /2 θ /2 = θ ,
则在 n − 1 + n 1 = m 的条件下,n 1 服从二项分布 b ( m , θ ) ,E ( n 1 ∣ n − 1 + n 1 = m ) = m θ ,
可得
E ( n − 1 + n 1 n 1 n − 1 + n 1 ) = θ ,
即
E ( θ ^ 1 ) = E [ E ( n − 1 + n 1 n 1 n − 1 + n 1 ) ] = E ( θ ) = θ .
θ ^ 1 是 θ 的无偏估计。
**(2)**因为
E ( x 1 ) = − 1 × 2 1 − θ + 0 × 2 1 + 1 × 2 θ = θ − 2 1 ,
所以 θ 的矩估计为
θ ^ 2 = x ˉ + 2 1 .
(3)
ln p ( x ; θ ) = 2 1 ( x 2 − x ) ln ( 2 1 − θ ) − ( 1 − x 2 ) ln 2 + 2 1 ( x 2 + x ) ln ( 2 θ ) ,
关于 θ 求导,得
d θ d ln p ( x ; θ ) = − 2 1 ( x 2 − x ) 1 − θ 1 + 2 1 ( x 2 + x ) θ 1 ,
I ( θ ) = E ( d θ d ln p ( x ; θ ) ) 2 = ( − 1 − θ 1 ) 2 2 1 − θ + 0 × 2 1 + ( θ 1 ) 2 2 θ = 2 1 ( 1 − θ 1 + θ 1 ) = 2 θ ( 1 − θ ) 1 .
所以,θ 的无偏估计的方差的 C-R 下界为
n 2 θ ( 1 − θ ) .
设总体 X ∼ E x p ( 1/ θ ) ,x 1 , x 2 , ⋯ , x n 是样本,θ 的矩估计和最大似然估计都是 x ˉ ,它也是 θ 的相合估计和无偏估计,试证明在均方误差准则下存在优于 x ˉ 的估计(提示:考虑 θ ^ a = a x ˉ ,找均方误差最小者)。
解
令
θ ^ a = a x ˉ ,
则
MSE ( θ ^ a ) = Var ( θ ^ a ) + ( E θ ^ a − θ ) 2 = a 2 Var ( x ˉ ) + ( a E ( x ˉ ) − θ ) 2 = a 2 n θ 2 + θ 2 ( a − 1 ) 2 .
对上式求导易知,当
a = n + 1 n
时上式达到最小,最小值为
n + 1 θ 2 ,
它小于 x ˉ 的均方误差
n θ 2 .
补充习题及解答
设 x 1 , x 2 , ⋯ , x n 独立同分布,x 1 的取值有四种可能,其概率分别为
p 1 = 1 − θ , p 2 = θ − θ 2 , p 3 = θ 2 − θ 3 , p 4 = θ 3 ,
记 N j 为 x 1 , x 2 , ⋯ , x n 中出现各种可能结果的次数,N 1 + N 2 + N 3 + N 4 = n 。
确定 a 1 , a 2 , a 3 , a 4 ,使 T = ∑ i = 1 4 a i N i 为 θ 的无偏估计;
将 Var ( T ) 与 θ 的无偏估计方差的 C-R 下界比较。
解
**(1)**由于 N i ∼ b ( n , p i ) ,i = 1 , 2 , 3 , 4 ,所以 E ( N i ) = n p i ,从而有
E ( T ) = j = 1 ∑ 4 a j E ( N j ) = a 1 n ( 1 − θ ) + a 2 n ( θ − θ 2 ) + a 3 n ( θ 2 − θ 3 ) + a 4 n θ 3 = n a 1 + n ( a 2 − a 1 ) θ + n ( a 3 − a 2 ) θ 2 + n ( a 4 − a 3 ) θ 3 .
若使 T 为 θ 的无偏估计,即要求
⎩ ⎨ ⎧ n a 1 = 0 , n ( a 2 − a 1 ) = 1 , n ( a 3 − a 2 ) = 0 , n ( a 4 − a 3 ) = 0 ,
解之得
a 1 = 0 , a 2 = a 3 = a 4 = n 1 .
即
T = n N 2 + N 3 + N 4
是 θ 的无偏估计。
(2)
P ( N j = n j , j = 1 , 2 , 3 , 4 ) = n 1 ! n 2 ! n 3 ! n 4 ! n ! ( 1 − θ ) n 1 ( θ − θ 2 ) n 2 ( θ 2 − θ 3 ) n 3 ( θ 3 ) n 4
= n 1 ! n 2 ! n 3 ! n 4 ! n ! θ n 2 + 2 n 3 + 3 n 4 ( 1 − θ ) n 1 + n 2 + n 3 ,
对数似然函数为(略去与 θ 无关的项)
ln L = ( n 2 + 2 n 3 + 3 n 4 ) ln θ + ( n 1 + n 2 + n 3 ) ln ( 1 − θ ) .
于是
∂ θ ∂ ln L = θ n 2 + 2 n 3 + 3 n 4 − 1 − θ n 1 + n 2 + n 3 ,
∂ θ 2 ∂ 2 ln L = − θ 2 n 2 + 2 n 3 + 3 n 4 − ( 1 − θ ) 2 n 1 + n 2 + n 3 .
注意到观测量 n 1 , n 2 , n 3 , n 4 是随机变量,且 E ( n j ) = n p j ,故
E ( n 2 + 2 n 3 + 3 n 4 ) = n ( ( θ − θ 2 ) + 2 ( θ 2 − θ 3 ) + 3 θ 3 ) = n ( θ + θ 2 + θ 3 ) ,
E ( n 1 + n 2 + n 3 ) = n ( ( 1 − θ ) + ( θ − θ 2 ) + ( θ 2 − θ 3 ) ) = n ( 1 − θ 3 ) .
从而费希尔信息量为
I ( θ ) = − E ( ∂ θ 2 ∂ 2 ln L ) = θ 2 n ( θ + θ 2 + θ 3 ) + ( 1 − θ ) 2 n ( 1 − θ 3 ) = θ ( 1 − θ ) n ( 1 + θ + θ 2 ) .
所以 θ 的无偏估计方差的 C-R 下界为
n ( 1 + θ + θ 2 ) θ ( 1 − θ ) .
由于
N 2 + N 3 + N 4 = n − N 1 ∼ b ( n , θ ) ,
于是
Var ( T ) = n 2 1 Var ( N 2 + N 3 + N 4 ) = n θ ( 1 − θ ) n ( 1 + θ + θ 2 ) θ ( 1 − θ ) ,
即 T 的方差没有达到 θ 的无偏估计方差的 C-R 下界。
设 x 1 , x 2 , ⋯ , x n 是来自正态总体 N ( μ , σ 2 ) 的一个样本,若均值 μ 已知,证明:
σ ^ 2 = n 1 ∑ i = 1 n ( x i − μ ) 2 是 σ 2 的有效估计;
σ ^ = n 1 2 π ∑ i = 1 n ∣ x i − μ ∣ 是 σ 的无偏估计,但不是有效估计。
解
**(1)**由
σ 2 n σ ^ 2 ∼ χ 2 ( n )
知 E ( σ ^ 2 ) = σ 2 ,
Var ( σ ^ 2 ) = n 2 σ 4 .
为了获得 σ 2 的无偏估计的 C-R 下界,需要费希尔信息量。正态分布 N ( μ , σ 2 ) 的密度函数 p ( x ) 的对数是
ln p ( x ) = − 2 1 ln 2 π − 2 1 ln σ 2 − 2 σ 2 ( x − μ ) 2 ,
∂ σ 2 ∂ ln p ( x ) = − 2 σ 2 1 + 2 σ 4 ( x − μ ) 2 = 2 σ 4 1 [ ( x − μ ) 2 − σ 2 ] .
由此得 σ 2 的费希尔信息量
I ( σ 2 ) = E [ ∂ σ 2 ∂ ln p ( x ) ] 2 = 4 σ 8 1 [ E ( x − μ ) 4 − 2 σ 2 E ( x − μ ) 2 + σ 4 ] = 4 σ 8 1 [ 3 σ 4 − 2 σ 4 + σ 4 ] = 2 σ 4 1 .
从而 σ 2 的无偏估计的 C-R 下界为
[ n I ( σ 2 ) ] − 1 = [ 2 σ 4 n ] − 1 = n 2 σ 4 ,
此下界与上述 σ ^ 2 无偏估计的方差相等,故此 σ ^ 2 是 σ 2 的有效估计。
**(2)**由于
E ( ∣ x i − μ ∣ ) = 2 π σ 1 ∫ − ∞ ∞ ∣ x − μ ∣ e − 2 σ 2 ( x − μ ) 2 d x = 2 π 2 σ ∫ 0 ∞ y e − y 2 /2 d y = π 2 σ .
可见,
E ( σ ^ ) = σ ,
即 σ ^ 是 σ 的无偏估计,其方差为
Var ( σ ^ ) = 2 n 2 π i = 1 ∑ n Var ( ∣ x i − μ ∣ ) = 2 n π [ E ( x i − μ ) 2 − ( E ∣ x i − μ ∣ ) 2 ] = 2 n π ( σ 2 − π 2 σ 2 ) = 2 n π − 2 σ 2 .
为了获得 σ 的无偏估计的 C-R 下界,需要知道 σ 的费希尔信息量。由于
∂ σ ∂ ln p ( x ) = − σ 1 + σ 3 ( x − μ ) 2 = σ 3 1 [ ( x − μ ) 2 − σ 2 ] ,
I ( σ ) = E ( ∂ σ ∂ ln p ( x ) ) 2 = σ 6 1 [ E ( x − μ ) 4 − 2 σ 2 E ( x − μ ) 2 + σ 4 ] = σ 6 1 [ 3 σ 4 − 2 σ 4 + σ 4 ] = σ 2 2 .
从而 σ 的无偏估计的 C-R 下界为
[ n I ( σ ) ] − 1 = [ σ 2 2 n ] − 1 = 2 n σ 2 ,
由于无偏估计 σ ^ 的方差
2 n π − 2 σ 2 > 2 n σ 2 ,
故 σ ^ 不是 σ 的有效估计。此处,σ 的无偏估计的 C-R 下界与 σ ^ 方差的比为
( π − 2 ) σ 2 / ( 2 n ) σ 2 / ( 2 n ) = π − 2 1 = 0.876 ,
该比值常称为无偏估计 σ ^ 的效。
证明:若 T 1 与 T 2 是未知参数 g ( θ ) 的两个 UMVUE,则 T 1 = T 2 依概率几乎处处成立。这个命题表明:g ( θ ) 的 UMVUE 在几乎处处的意义下是唯一的。
解
首先指出 T 1 − T 2 是 0 的无偏估计,则由教材中定理 6.4.1 知
Cov ( T i , T 1 − T 2 ) = E [ T i ( T 1 − T 2 )] = 0 , i = 1 , 2 ,
于是
E ( ( T 1 − T 2 ) 2 ) = E ( T 1 2 + T 2 2 − 2 T 1 T 2 ) = E [ T 1 ( T 1 − T 2 )] + E [ T 2 ( T 2 − T 1 )] = 0 ,
由此立即可得 ( T 1 − T 2 ) 2 = 0 ,即 T 1 = T 2 ,几乎处处成立。
设 x 1 , x 2 , ⋯ , x n 是来自正态总体 N ( μ , σ 2 ) 的一个样本,对 σ 2 考虑如下三个估计:
σ ^ 1 2 = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2 , σ ^ 2 2 = n 1 i = 1 ∑ n ( x i − x ˉ ) 2 , σ ^ 3 2 = n + 1 1 i = 1 ∑ n ( x i − x ˉ ) 2 .
哪一个是 σ 2 的无偏估计?
哪一个均方误差最小?
解
**(1)**由于
σ 2 1 i = 1 ∑ n ( x i − x ˉ ) 2 ∼ χ 2 ( n − 1 ) ,
故有
E [ i = 1 ∑ n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 ,
从而
E ( σ ^ 1 2 ) = σ 2 , E ( σ ^ 2 2 ) = n n − 1 σ 2 , E ( σ ^ 3 2 ) = n + 1 n − 1 σ 2 .
这说明仅有 σ ^ 1 2 是 σ 2 的无偏估计,而 σ ^ 2 2 与 σ ^ 3 2 是 σ 2 的有偏估计。
**(2)**我们知道,估计的均方误差是估计的方差加上偏差的平方,即
E ( σ ^ 2 − σ 2 ) 2 = Var ( σ ^ 2 ) + ( E ( σ ^ 2 ) − σ 2 ) 2 .
而
Var ( i = 1 ∑ n ( x i − x ˉ ) 2 ) = 2 ( n − 1 ) σ 4 ,
这给出
Var ( σ ^ 1 2 ) = n − 1 2 σ 4 , Var ( σ ^ 2 2 ) = n 2 2 ( n − 1 ) σ 4 , Var ( σ ^ 3 2 ) = ( n + 1 ) 2 2 ( n − 1 ) σ 4 .
于是
MSE ( σ ^ 1 2 ) = Var ( σ ^ 1 2 ) = n − 1 2 σ 4 ,
MSE ( σ ^ 2 2 ) = n 2 2 ( n − 1 ) σ 4 + ( n n − 1 σ 2 − σ 2 ) 2 = n 2 2 n − 1 σ 4 ,
MSE ( σ ^ 3 2 ) = ( n + 1 ) 2 2 ( n − 1 ) σ 4 + ( n + 1 n − 1 σ 2 − σ 2 ) 2 = n + 1 2 σ 4 .
显然
n − 1 2 > n + 1 2 , n 2 2 n − 1 > n + 1 2 ( n > 1 ) ,
所以 σ ^ 3 2 的均方误差最小。
注意,这里 σ ^ 3 2 是 σ 2 的有偏估计,上述结论表明,在均方误差意义下,有时有偏估计要比无偏估计更为优。
事实上,我们还可讨论 σ 2 的估计类
σ ^ l 2 = l ∑ ( x i − x ˉ ) 2
中的均方误差的最小性问题。易知
MSE ( σ ^ l 2 ) = ( E ( σ ^ l 2 ) − σ 2 ) 2 + Var ( σ ^ l 2 ) = ( ( n − 1 ) l − 1 ) 2 σ 4 + 2 ( n − 1 ) l 2 σ 4 .
不难求出当
l = n + 1 1
时,上式达到最小。所以,在形如 σ ^ l 2 的估计类中,上述 σ ^ 3 2 均方误差最小。
设 x 1 , x 2 独立同分布,其共同的密度函数为
p ( x ; θ ) = θ 3 3 x 2 , 0 < x < θ , θ > 0.
证明:T 1 = 3 2 ( x 1 + x 2 ) 和 T 2 = 6 7 max { x 1 , x 2 } 都是 θ 的无偏估计;
计算 T 1 和 T 2 的均方误差并进行比较;
证明:在均方误差意义下,在形如 T c = c max { x 1 , x 2 } 的估计中,T 8/7 最优。
解
**(1)**先计算总体均值为
E ( X ) = ∫ 0 θ x ⋅ θ 3 3 x 2 d x = 4 3 θ ,
故
E ( T 1 ) = 3 2 ⋅ 2 E ( X ) = θ ,
这说明 T 1 是 θ 的无偏估计。又总体分布函数
F ( x ; θ ) = ∫ 0 x θ 3 3 u 2 d u = ( θ x ) 3 , 0 < x < θ ,
记
Y = max { x 1 , x 2 } ,
则 Y 的密度函数为
f ( y ; θ ) = 2 F ( y ; θ ) p ( y ; θ ) = θ 6 6 y 5 , 0 < y < θ .
于是有
E ( T 2 ) = 6 7 E ( Y ) = 6 7 ∫ 0 θ y ⋅ θ 6 6 y 5 d y = 6 7 ⋅ 7 6 θ = θ .
这表明 T 2 也是 θ 的无偏估计。
**(2)**无偏估计的方差就是均方误差。由于
E ( x 1 2 ) = ∫ 0 θ x 2 ⋅ θ 3 3 x 2 d x = 5 3 θ 2 ,
Var ( x 1 ) = E ( x 1 2 ) − ( E ( x 1 ) ) 2 = 5 3 θ 2 − ( 4 3 θ ) 2 = 80 3 θ 2 ,
故有
MSE ( T 1 ) = Var ( T 1 ) = 9 4 ⋅ 2 Var ( x 1 ) = 9 8 ⋅ 80 3 θ 2 = 30 1 θ 2 .
又
E ( Y 2 ) = ∫ 0 θ y 2 ⋅ θ 6 6 y 5 d y = 4 3 θ 2 ,
Var ( Y ) = E ( Y 2 ) − ( E ( Y ) ) 2 = 4 3 θ 2 − ( 7 6 θ ) 2 = 196 3 θ 2 ,
从而
MSE ( T 2 ) = Var ( T 2 ) = 36 49 ⋅ 196 3 θ 2 = 48 1 θ 2 .
由于 MSE ( T 1 ) > MSE ( T 2 ) ,因此在均方误差意义下,T 2 优于 T 1 。
**(3)**对形如
T c = c max { x 1 , x 2 }
的估计有
E ( T c ) = 7 6 c θ , E ( T c 2 ) = 4 3 c 2 θ 2 ,
故
MSE ( T c ) = E ( T c − θ ) 2 = E ( T c 2 ) − 2 θ E ( T c ) + θ 2 = ( 4 3 c 2 − 7 12 c + 1 ) θ 2 .
因此当
c = 3/2 12/7 = 7 8
时,上述均方误差最小。所以在均方误差意义下,在形如 T c = c max { x 1 , x 2 } 的估计中,T 8/7 最优。
§6.5 贝叶斯估计
贝叶斯统计推断使用的三种信息
总体信息,总体分布或总体所属分布族提供的信息;
样本信息,从总体中抽取样本所得观测值提供的信息;
先验信息,在试验前人们对要做的问题在经验上和资料上所了解的信息。
贝叶斯统计的基本观点 任一未知量 θ 都可看作随机变量,用一个概率分布来描述 θ 是最好的办法,在获得样本以前这个分布称为先验分布;在获得样本以后,这个分布称为后验分布。
贝叶斯公式的密度函数形式
总体依赖于参数 θ 的概率函数在贝叶斯统计中记为 p ( x ∣ θ ) ,它表示在随机变量 θ 取某个给定值时总体的条件概率函数;
根据参数 θ 的先验信息设法确定先验分布 π ( θ ) ;
从贝叶斯观点看,样本 x 1 , x 2 , ⋯ , x n 的产生分两步进行。首先从先验分布 π ( θ ) 产生一个样本 θ 0 ,然后从 p ( x 1 , x 2 , ⋯ , x n ∣ θ 0 ) 中产生一组样本。这时样本的联合条件概率函数为
p ( x 1 , x 2 , ⋯ , x n ∣ θ 0 ) = i = 1 ∏ n p ( x i ∣ θ 0 ) ,
这个分布综合了总体信息和样本信息;
θ 0 是不可知的,它是按先验分布 π ( θ ) 产生的。为把先验信息综合进去,不能只考虑 θ 0 ,对 θ 的其他值发生的可能性也要加以考虑,故要用 π ( θ ) 进行综合。这样一来,样本 x 1 , x 2 , ⋯ , x n 和参数 θ 的联合分布为
h ( x 1 , x 2 , ⋯ , x n , θ ) = p ( x 1 , x 2 , ⋯ , x n ∣ θ ) ⋅ π ( θ ) ,
这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了;
分析的目的是要对未知参数 θ 作统计推断。在没有样本信息时,人们只能依据先验分布对 θ 作出推断;在有了样本观测值 x 1 , x 2 , ⋯ , x n 之后,则应依据 h ( x 1 , x 2 , ⋯ , x n , θ ) 对 θ 作出推断。由于
h ( x 1 , x 2 , ⋯ , x n , θ ) = π ( θ ∣ x 1 , x 2 , ⋯ , x n ) m ( x 1 , x 2 , ⋯ , x n ) ,
其中
m ( x 1 , x 2 , ⋯ , x n ) = ∫ Θ h ( x 1 , x 2 , ⋯ , x n , θ ) d θ = ∫ Θ p ( x 1 , x 2 , ⋯ , x n ∣ θ ) π ( θ ) d θ
是 $x_1,x_2,\cdots,x_n$ 的边际概率函数,它与 $\theta$ 无关,不含 $\theta$ 的任何信息。因此能用来对 $\theta$ 作出推断的仅是条件分布 $\pi(\theta\mid x_1,x_2,\cdots,x_n)$,它的计算公式是
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = m ( x 1 , x 2 , ⋯ , x n ) h ( x 1 , x 2 , ⋯ , x n , θ ) = ∫ Θ p ( x 1 , x 2 , ⋯ , x n ∣ θ ) π ( θ ) d θ p ( x 1 , x 2 , ⋯ , x n ∣ θ ) π ( θ ) .
这个条件分布称为 $\theta$ 的后验分布,它集中了总体、样本和先验中有关 $\theta$ 的一切信息。后验分布 $\pi(\theta\mid x_1,x_2,\cdots,x_n)$ 的计算公式就是用密度函数表示的贝叶斯公式。它是用总体和样本对先验分布 $\pi(\theta)$ 作调整的结果,贝叶斯统计的一切推断都基于后验分布进行。
贝叶斯估计 基于后验分布 π ( θ ∣ x 1 , x 2 , ⋯ , x n ) 对 θ 所作的贝叶斯估计有多种,常用有如下三种:
使用后验分布的密度函数最大值作为 θ 的点估计,称为最大后验估计;
使用后验分布的中位数作为 θ 的点估计,称为后验中位数估计;
使用后验分布的均值作为 θ 的点估计,称为后验期望估计。这是使用最为频繁的贝叶斯估计。
在不注明的情况下,通常提到的贝叶斯估计指后验期望估计。
共轭先验分布 设 θ 是总体分布中的参数,π ( θ ) 是其先验分布,若对任意的样本观测值得到的后验分布 π ( θ ∣ X ) 与 π ( θ ) 属于同一个分布族,则称该分布族是 θ 的共轭先验分布(族)。
二项分布 b ( n , θ ) 中的成功概率 θ 的共轭先验分布是贝塔分布 B e ( a , b ) ;
泊松分布 P ( θ ) 中的均值 θ 的共轭先验分布是伽马分布 G a ( α , λ ) ;
在方差已知时,正态均值 θ 的共轭先验分布是正态分布 N ( μ , τ 2 ) ;
在均值已知时,正态方差 σ 2 的共轭先验分布是倒伽马分布 I G a ( α , λ ) (若 X ∼ G a ( α , λ ) ,则 X − 1 的分布称为倒伽马分布 I G a ( α , λ ) )。
超参数 先验分布中的未知参数称为超参数。应尽力对各种先验信息进行加工,获得超参数的估计。
习题与解答 6.5
设一箱产品中的不合格品个数服从泊松分布 P ( λ ) ,λ 有两个可能取值:1.5 和 1.8 ,且先验分布为
P ( λ = 1.5 ) = 0.45 , P ( λ = 1.8 ) = 0.55 ,
现检查了一箱产品,发现有 3 个不合格品,试求 λ 的后验分布。
解
P ( X = 3 ∣ λ = 1.5 ) = 3 ! 1. 5 3 e − 1.5 , P ( X = 3 ∣ λ = 1.8 ) = 3 ! 1. 8 3 e − 1.8 ,
因此
P ( X = 3 ) = P ( X = 3 ∣ λ = 1.5 ) P ( λ = 1.5 ) + P ( X = 3 ∣ λ = 1.8 ) P ( λ = 1.8 )
= 6 1.51875 e − 1.5 + 3.2076 e − 1.8 .
由以上结果我们可以得到 λ 的后验分布
P ( λ = 1.5 ∣ X = 3 ) = P ( X = 3 ) P ( X = 3 ∣ λ = 1.5 ) P ( λ = 1.5 ) = 1.51875 e − 1.5 + 3.2076 e − 1.8 1.51875 e − 1.5 = 0.3899 ,
P ( λ = 1.8 ∣ X = 3 ) = 1 − 0.3899 = 0.6101.
设总体为均匀分布 U ( θ , θ + 1 ) ,θ 的先验分布是均匀分布 U ( 10 , 16 ) 。现有三个观测值:11.7 , 12.1 , 12.0 。求 θ 的后验分布。
解
当 θ < x i < θ + 1 ,i = 1 , 2 , 3 ,10 < θ < 16 ,即
10 < θ < x ( 1 ) < x ( 3 ) < θ + 1
时,x 1 , x 2 , x 3 , θ 的联合分布为
h ( x 1 , x 2 , x 3 , θ ) = p ( x 1 , x 2 , x 3 ∣ θ ) π ( θ ) = 6 1 ,
其中 θ < x ( 1 ) < x ( 3 ) < θ + 1 或 x ( 3 ) − 1 < θ < x ( 1 ) 。此处观测值为 x ( 1 ) = 11.7 ,x ( 3 ) = 12.1 ,
11.1 < θ < 11.7 ,
它位于区间 ( 10 , 16 ) 内,故后验密度函数为
π ( θ ∣ x 1 , x 2 , x 3 ) = ∫ 11.1 11.7 h ( x 1 , x 2 , x 3 , θ ) d θ h ( x 1 , x 2 , x 3 , θ ) = ∫ 11.1 11.7 ( 1/6 ) d θ 1/6 = 0.6 1 ,
即 θ 的后验分布为
U ( 11.1 , 11.7 ) .
设 x 1 , x 2 , ⋯ , x n 是来自几何分布的样本,总体分布列为
P ( X = k ∣ θ ) = θ ( 1 − θ ) k , k = 0 , 1 , 2 , ⋯ ,
θ 的先验分布是均匀分布 U ( 0 , 1 ) 。
求 θ 的后验分布;
若 4 次观测值为 4 , 3 , 1 , 6 ,求 θ 的贝叶斯估计。
解
**(1)**样本和 θ 的联合密度函数为
h ( x 1 , x 2 , ⋯ , x n , θ ) = θ n ( 1 − θ ) ∑ i = 1 n x i ,
于是
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ 0 1 h ( x 1 , x 2 , ⋯ , x n , θ ) d θ h ( x 1 , x 2 , ⋯ , x n , θ ) = ∫ 0 1 θ n ( 1 − θ ) ∑ i = 1 n x i d θ θ n ( 1 − θ ) ∑ i = 1 n x i
= Γ ( n + 1 ) Γ ( ∑ i = 1 n x i + 1 ) Γ ( n + ∑ i = 1 n x i + 2 ) θ n ( 1 − θ ) ∑ i = 1 n x i ,
因此,θ 的后验分布为
B e ( n + 1 , i = 1 ∑ n x i + 1 ) .
**(2)**当有观测值为 4 , 3 , 1 , 6 时,θ 的后验分布为
B e ( 5 , 15 ) ,
采用后验期望估计,则有
θ ^ B = 5 + 15 5 = 0.25.
验证:泊松分布的均值 λ 的共轭先验分布是伽马分布。
解
泊松分布的概率函数为
P ( X = x ∣ λ ) = x ! λ x e − λ ,
若 λ 的先验分布为伽马分布 G a ( α , β ) ,其密度函数为
π ( λ ) = Γ ( α ) β α λ α − 1 e − β λ ,
对来自泊松分布 P ( λ ) 的样本 x 1 , x 2 , ⋯ , x n ,λ 的后验分布为
π ( λ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ 0 ∞ ( ∏ i = 1 n x i ! λ x i e − λ ) ⋅ Γ ( α ) β α λ α − 1 e − β λ d λ ( ∏ i = 1 n x i ! λ x i e − λ ) ⋅ Γ ( α ) β α λ α − 1 e − β λ
= ∫ 0 ∞ λ ∑ i = 1 n x i + α − 1 e − ( β + n ) λ d λ λ ∑ i = 1 n x i + α − 1 e − ( β + n ) λ
= Γ ( ∑ i = 1 n x i + α ) ( β + n ) ∑ i = 1 n x i + α λ ∑ i = 1 n x i + α − 1 e − ( β + n ) λ ,
即 λ 的后验分布为
G a ( i = 1 ∑ n x i + α , β + n ) ,
仍为伽马分布,这说明伽马分布是泊松分布的均值 λ 的共轭先验分布。
验证:正态总体方差(均值已知)的共轭先验分布是倒伽马分布(称 X 服从倒伽马分布,如果 1/ x 服从伽马分布)。
解
设总体 X ∣ σ 2 ∼ N ( μ 0 , σ 2 ) ,其中 μ 0 已知,x 1 , x 2 , ⋯ , x n 为其样本,取 σ 2 的先验分布为倒伽马分布 I G a ( α , λ ) ,其密度函数为
π ( σ 2 ) = Γ ( α ) λ α ( σ 2 1 ) α + 1 e − λ / σ 2 , σ 2 > 0 ,
则 σ 2 的后验分布为
π ( σ 2 ∣ x 1 , x 2 , ⋯ , x n ) = ∫ 0 ∞ p ( x 1 , x 2 , ⋯ , x n ∣ σ 2 ) ⋅ π ( σ 2 ) d σ 2 p ( x 1 , x 2 , ⋯ , x n ∣ σ 2 ) ⋅ π ( σ 2 )
= ∫ 0 ∞ ( 2 π σ 2 ) − n /2 exp { − 2 σ 2 1 ∑ i = 1 n ( x i − μ 0 ) 2 } ⋅ Γ ( α ) λ α ( σ 2 1 ) α + 1 e − λ / σ 2 d σ 2 ( 2 π σ 2 ) − n /2 exp { − 2 σ 2 1 ∑ i = 1 n ( x i − μ 0 ) 2 } ⋅ Γ ( α ) λ α ( σ 2 1 ) α + 1 e − λ / σ 2
= ∫ 0 ∞ ( σ 2 1 ) α + 2 n + 1 exp { − σ 2 1 [ λ + 2 1 ∑ i = 1 n ( x i − μ 0 ) 2 ] } d σ 2 ( σ 2 1 ) α + 2 n + 1 exp { − σ 2 1 [ λ + 2 1 ∑ i = 1 n ( x i − μ 0 ) 2 ] }
= Γ ( α + 2 n ) [ λ + 2 1 ∑ i = 1 n ( x i − μ 0 ) 2 ] α + 2 n ( σ 2 1 ) α + 2 n + 1 exp { − σ 2 1 [ λ + 2 1 i = 1 ∑ n ( x i − μ 0 ) 2 ] } ,
即
σ 2 ∣ x 1 , x 2 , ⋯ , x n ∼ I G a ( α + 2 n , λ + 2 1 i = 1 ∑ n ( x i − μ 0 ) 2 ) ,
这就证明了倒伽马分布是正态总体方差(均值已知)的共轭先验分布。
设 x 1 , x 2 , ⋯ , x n 是来自如下总体的一个样本
p ( x ∣ θ ) = θ 2 2 x , 0 < x < θ .
若 θ 的先验分布为均匀分布 U ( 0 , 1 ) ,求 θ 的后验分布;
若 θ 的先验分布为 π ( θ ) = 3 θ 2 ,0 < θ < 1 ,求 θ 的后验分布。
解
x 1 , x 2 , ⋯ , x n 的联合密度函数为
p ( x 1 , x 2 , ⋯ , x n ∣ θ ) = θ 2 n 2 n i = 1 ∏ n x i I { x ( n ) < θ } .
**(1)**对先验分布 U ( 0 , 1 ) ,当 x ( n ) < θ < 1 时,后验分布为
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ x ( n ) 1 θ − 2 n d θ θ − 2 n = θ 2 n ( x ( n ) − 2 n + 1 − 1 ) 2 n − 1 .
**(2)**对该先验分布,当 x ( n ) < θ < 1 时,后验分布为
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ x ( n ) 1 θ − 2 n + 2 d θ θ − 2 n + 2 = θ 2 n − 2 ( x ( n ) − 2 n + 3 − 1 ) 2 n − 3 .
设 x 1 , x 2 , ⋯ , x n 是来自如下总体的一个样本
p ( x ∣ θ ) = θ x θ − 1 , 0 < x < 1.
若取 θ 的先验分布为伽马分布,即 θ ∼ G a ( α , λ ) ,求 θ 的后验期望估计。
解
x 1 , x 2 , ⋯ , x n 与 θ 的联合分布为
h ( x 1 , x 2 , ⋯ , x n , θ ) = θ n i = 1 ∏ n x i θ − 1 ⋅ Γ ( α ) λ α θ α − 1 e − λ θ = Γ ( α ) λ α θ n + α − 1 exp { − θ ( λ − i = 1 ∑ n ln x i ) } i = 1 ∏ n x i − 1 .
于是 θ 的后验分布为
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ h ( x 1 , x 2 , ⋯ , x n , θ ) d θ h ( x 1 , x 2 , ⋯ , x n , θ )
= Γ ( n + α ) ( λ − ∑ i = 1 n ln x i ) n + α θ n + α − 1 exp { − θ ( λ − i = 1 ∑ n ln x i ) } ,
这是一个伽马分布
G a ( n + α , λ − i = 1 ∑ n ln x i ) ,
因而 θ 的后验期望估计为
θ ^ B = λ − ∑ i = 1 n ln x i n + α .
设 x 1 , x 2 , ⋯ , x n 是来自均匀分布 U ( 0 , θ ) 的样本,θ 的先验分布是帕雷托分布,其密度函数为
π ( θ ) = θ β + 1 β θ 0 β , θ > θ 0 ,
其中 β , θ 0 是两个已知的常数。
验证:帕雷托分布是 θ 的共轭先验分布;
求 θ 的贝叶斯估计。
解
(1) x 1 , x 2 , ⋯ , x n 与 θ 的联合分布为
h ( x 1 , x 2 , ⋯ , x n , θ ) = θ n 1 ⋅ θ β + 1 β θ 0 β , θ > θ 0 , x ( n ) < θ .
要使 θ > θ 0 与 θ > x ( n ) 同时成立,必须 θ > max { x ( n ) , θ 0 } ,所以 θ 的后验分布为
π ( θ ∣ x 1 , x 2 , ⋯ , x n ) = ∫ m a x { x ( n ) , θ 0 } ∞ θ n 1 ⋅ θ β + 1 β θ 0 β d θ θ n 1 ⋅ θ β + 1 β θ 0 β = ∫ m a x { x ( n ) , θ 0 } ∞ θ n + β + 1 1 d θ θ n + β + 1 1
= θ n + β + 1 ( n + β ) [ max { x ( n ) , θ 0 } ] n + β , θ > max { x ( n ) , θ 0 } .
这是一个参数为 n + β + 1 与 max { x ( n ) , θ 0 } 的帕雷托分布,因此帕雷托分布是 θ 的共轭先验分布。
**(2)**若选用后验期望估计,则
θ ^ B = ∫ θ ⋅ π ( θ ∣ x 1 , x 2 , ⋯ , x n ) d θ = ∫ m a x { x ( n ) , θ 0 } ∞ θ n + β ( n + β ) [ max { x ( n ) , θ 0 } ] n + β d θ
= n + β − 1 ( n + β ) max { x ( n ) , θ 0 } .
设指数分布 E x p ( θ ) 中未知参数 θ 的先验分布为伽马分布 G a ( α , λ ) ,现从先验信息得知:先验均值为 0.0002 ,先验标准差为 0.01 ,试确定先验分布。
解
由于伽马分布 G a ( α , λ ) 的均值和方差分别为 α / λ , α / λ 2 ,由已知条件,可建立如下方程组
⎩ ⎨ ⎧ λ α = 0.0002 , λ 2 α = 0.01 ,
解之得
{ α = 0.0004 , λ = 2 ,
所以 θ 的先验分布为伽马分布 G a ( 0.0004 , 2 ) 。
设 x 1 , x 2 , ⋯ , x n 为来自如下幂级数分布的样本,总体分布密度为
p ( x ; c , θ ) = c x c − 1 θ − c I { 0 ≤ x ≤ θ } ( c > 0 , θ > 0 ) ,
证明:
若 c 已知,则 θ 的共轭先验分布为帕雷托分布;
若 θ 已知,则 c 的共轭先验分布为伽马分布。
解
**(1)**当 c 已知时,不妨取
π ( θ ) = α μ α θ − ( α + 1 ) I { θ ≥ μ } ,
其中 α ≥ 1 和 μ > 0 都已知,常记为 P A ( α , μ ) 。则在给出样本 x = ( x 1 , x 2 , ⋯ , x n ) 后 θ 的后验分布密度函数为
π ( θ ∣ x ) = ∫ 0 ∞ p ( x ∣ θ ) π ( θ ) d θ p ( x ∣ θ ) π ( θ )
= ∫ 0 ∞ c n ( ∏ i = 1 n x i ) c − 1 θ − n c I { θ ≥ x ( n ) } ⋅ α μ α θ − ( 1 + α ) I { θ ≥ μ } d θ c n ( ∏ i = 1 n x i ) c − 1 θ − n c I { θ ≥ x ( n ) } ⋅ α μ α θ − ( 1 + α ) I { θ ≥ μ }
= ∫ 0 ∞ θ − n c ⋅ θ − ( 1 + α ) d θ θ − n c ⋅ θ − ( 1 + α ) I { θ ≥ θ 0 } = ( n c + α ) θ 0 n c + α θ − ( n c + α + 1 ) I { θ ≥ θ 0 } ,
其中
θ 0 = max { x ( n ) , μ } .
因此,
π ( θ ∣ x ) ∼ P A ( n c + α , θ 0 ) ,
所以当 c 已知时帕雷托分布为 θ 的共轭先验分布。
**(2)**当 θ 已知时,不妨取
π ( c ) = Γ ( α ) λ α e − λ c c α − 1 I { c > 0 } ,
其中 α > 0 , λ > 0 都已知。则给出样本
x = ( x 1 , x 2 , ⋯ , x n )
后 c 的后验分布密度函数
π ( c ∣ x ) = ∫ 0 ∞ p ( x ∣ c ) π ( c ) d c p ( x ∣ c ) π ( c )
= ∫ 0 ∞ c n ( ∏ i = 1 n x i ) c − 1 θ − n c ⋅ e − λ c c α − 1 d c c n ( ∏ i = 1 n x i ) c − 1 θ − n c ⋅ e − λ c c α − 1
= Γ ( n + α ) ( λ − ∑ i = 1 n ( ln x i − ln θ ) ) n + α c n + α − 1 exp { − c [ λ − i = 1 ∑ n ( ln x i − ln θ ) ] } .
这说明
c ∣ x ∼ G a ( n + α , λ − i = 1 ∑ n ( ln x i − ln θ ) ) ,
证明完成。
某人每天早上在汽车站等公共汽车的时间(单位:min )服从均匀分布 U ( 0 , θ ) ,其中 θ 未知,假设 θ 的先验分布为
π ( θ ) = { 192/ θ 4 , 0 , θ ≥ 4 , θ < 4 ,
假如此人在三个早上等车的时间分别为 5 min , 3 min , 8 min ,求 θ 的后验分布。
解
x 1 , x 2 , ⋯ , x n 与 θ 的联合分布为
h ( x 1 , x 2 , ⋯ , x n , θ ) = θ − n θ 4 192 , 0 < x ( 1 ) < x ( n ) < θ , θ ≥ 4 ,
此处 x ( 1 ) = 3 , x ( 3 ) = 8 ,所以 x 1 , x 2 , x 3 与 θ 的联合分布为
h ( x 1 , x 2 , x 3 , θ ) = 192 θ − 3 − 4 , θ > 8 ,
于是 θ 的后验分布为
π ( θ ∣ x 1 , x 2 , x 3 ) = ∫ 8 ∞ 192 θ − 3 − 4 d θ 192 θ − 3 − 4 = 6 × 8 6 θ − 7 = 1572864 θ − 7 , θ > 8.
从正态总体 N ( θ , 2 2 ) 中随机抽取容量为 100 的样本,又设 θ 的先验分布为正态分布,证明:不管先验分布的标准差为多少,后验分布的标准差一定小于 1/5 。
解
设 θ 的先验分布为 N ( μ , τ 2 ) ,由其共轭先验可知,θ 的后验分布仍为正态分布
N ( a , σ 2 ) ,
其中
a = n /4 + τ − 2 n x ˉ /4 + μ τ − 2 , σ 2 = n /4 + τ − 2 1 .
由于 n = 100 ,所以
σ 2 = 25 + τ − 2 1 < 25 1 ,
故,不管先验分布的标准差为多少,后验分布的标准差一定小于 1/5 。
设随机变量 X 服从负二项分布,其概率分布为
f ( x ∣ p ) = ( k − 1 x − 1 ) p k ( 1 − p ) x − k , x = k , k + 1 , ⋯ .
证明其成功概率 p 的共轭先验分布族为贝塔分布族。
解
取成功概率 p 的先验分布为 B e ( a , b ) ,a > 0 , b > 0 ,则 x 1 , x 2 , ⋯ , x n 与 p 的联合分布为
h ( x 1 , x 2 , ⋯ , x n ; p ) = i = 1 ∏ n ( k − 1 x i − 1 ) p nk ( 1 − p ) ∑ i = 1 n x i − nk Γ ( a ) Γ ( b ) Γ ( a + b ) p a − 1 ( 1 − p ) b − 1 ,
所以,
m ( x 1 , x 2 , ⋯ , x n ) = ∫ 0 1 h ( x 1 , x 2 , ⋯ , x n ; p ) d p
= i = 1 ∏ n ( k − 1 x i − 1 ) Γ ( a ) Γ ( b ) Γ ( a + b ) Γ ( ∑ i = 1 n x i + a + b ) Γ ( nk + a ) Γ ( ∑ i = 1 n x i − nk + b ) ,
π ( p ∣ x 1 , x 2 , ⋯ , x n ) = m ( x 1 , x 2 , ⋯ , x n ) h ( x 1 , x 2 , ⋯ , x n ; p )
= Γ ( nk + a ) Γ ( ∑ i = 1 n x i − nk + b ) Γ ( ∑ i = 1 n x i + a + b ) p nk + a − 1 ( 1 − p ) ∑ i = 1 n x i − nk + b − 1 .
即成功概率 p 的后验分布为
B e ( nk + a , i = 1 ∑ n x i − nk + b ) ,
故成功概率 p 的共轭先验分布族为贝塔分布族。
从一批产品中抽检 100 个,发现 3 个不合格,假定该产品不合格品率 θ 的先验分布为贝塔分布 B e ( 2 , 200 ) ,求 θ 的后验分布。
解
根据不合格品率 θ 的共轭先验可知,θ 的后验分布为
B e ( x + 2 , n − x + 200 ) .
这里 n = 100 ,x = 3 ,所以,θ 的后验分布为 Be ( 5 , 297 ) 。
补充习题及解答
设 x = ( x 1 , x 2 , … , x k ) 服从多项分布 M ( n , θ ) ,其概率函数为
p ( x ; θ ) = x 1 ! x 2 ! ⋯ x k ! n ! θ 1 x 1 θ 2 x 2 ⋯ θ k x k ,
其中 θ = ( θ 1 , θ 2 , … , θ k ) 为参数,∑ i = 1 k θ i = 1 ,∑ i = 1 k x i = n 。若 θ = ( θ 1 , θ 2 , … , θ k ) 的先验分布为狄利克雷(Dirichlet)分布,即
π ( θ ) = ∏ i = 1 k Γ ( α i ) Γ ( α 0 ) i = 1 ∏ k θ i α i − 1 , ( 0 ≤ θ i ≤ 1 , 1 ≤ i ≤ k ) ,
其中 α i > 0 ,i = 1 , 2 , … , k ;∑ i = 1 k α i = α 0 ,记 α = ( α 1 , α 2 , … , α k ) ,并把这一分布记作 D ( α ) 。证明:θ 的后验分布为狄利克雷分布 D ( α + x ) 。
解
因为 θ 的后验概率函数为
π ( θ ∣ x ) = c ( x ) ⋅ x 1 ! x 2 ! ⋯ x k ! n ! i = 1 ∏ k θ i x i ⋅ ∏ i = 1 k Γ ( α i ) Γ ( α 0 ) i = 1 ∏ k θ i α i − 1 = c ∗ ( x ) i = 1 ∏ k θ i α i + x i − 1 ,
所以 θ 的后验分布服从 Dirichlet 分布 D ( α + x ) ,其中
α + x = ( α 1 + x 1 , α 2 + x 2 , … , α k + x k ) .
设 x 1 , x 2 , … , x n 是来自正态分布 N ( θ 1 , σ 2 ) 的一个样本,令 θ 2 = 2 σ 2 1 ,又设 ( θ 1 , θ 2 ) 的联合先验分布如下给定:θ 2 ∼ G a ( α , λ ) ,在固定 θ 2 时,θ 1 的条件分布为
N ( 0 , 2 θ 2 1 ) ,
其中 α , λ 已知。
求:
(1) ( θ 1 , θ 2 ) 的后验分布为 π ( θ 1 , θ 2 ∣ x 1 , x 2 , … , x n ) ;
(2) θ 2 的后验边际分布;
(3) θ 2 给定条件下 θ 1 的后验边际分布。
解
(1) ( θ 1 , θ 2 ) 的先验分布为
π ( θ 1 , θ 2 ) = π ( θ 1 ∣ θ 2 ) π ( θ 2 ) = 2 π 2 θ 2 exp { − θ 2 θ 1 2 } ⋅ Γ ( α ) λ α θ 2 α − 1 exp { − λ θ 2 } = π 1 Γ ( α ) λ α θ 2 α + 2 1 − 1 exp { − ( λ + θ 1 2 ) θ 2 } .
x 1 , x 2 , … , x n 与 ( θ 1 , θ 2 ) 的联合分布为
h ( x 1 , x 2 , … , x n ; θ 1 , θ 2 ) = p ( x 1 , x 2 , … , x n ∣ θ 1 , θ 2 ) π ( θ 1 , θ 2 ) = ( π θ 2 ) n exp { − θ 2 i = 1 ∑ n ( x i − θ 1 ) 2 } ⋅ π 1 Γ ( α ) λ α θ 2 α + 2 1 − 1 exp { − ( λ + θ 1 2 ) θ 2 } = ( π 1 ) n + 1 Γ ( α ) λ α θ 2 α + 2 1 + n − 1 exp { − [ ( n + 1 ) θ 1 2 − 2 θ 1 i = 1 ∑ n x i + λ + i = 1 ∑ n x i 2 ] θ 2 } .
所以,( θ 1 , θ 2 ) 的后验分布为
π ( θ 1 , θ 2 ∣ x 1 , x 2 , … , x n ) = c ( x 1 , x 2 , … , x n ) θ 2 α + 2 1 + n − 1 exp { − [ ( n + 1 ) θ 1 2 − 2 θ 1 i = 1 ∑ n x i + λ + i = 1 ∑ n x i 2 ] θ 2 } .
(2) 对 π ( θ 1 , θ 2 ∣ x 1 , x 2 , … , x n ) 关于 θ 1 求积分,则
π ( θ 2 ∣ x 1 , x 2 , … , x n ) = c ( x 1 , x 2 , … , x n ) θ 2 α + 2 1 + n − 1 exp { − ( λ + i = 1 ∑ n x i 2 ) θ 2 } × ∫ − ∞ ∞ exp { − [ ( n + 1 ) θ 1 2 − 2 θ 1 i = 1 ∑ n x i ] θ 2 } d θ 1 = c 1 ( x 1 , x 2 , … , x n ) θ 2 α + 2 n − 1 exp { − ( λ + i = 1 ∑ n x i 2 − n + 1 ( n x ˉ ) 2 ) θ 2 } .
据此可知,
θ 2 ∣ x 1 , x 2 , … , x n ∼ G a ( α + 2 n , λ + i = 1 ∑ n x i 2 − n + 1 ( n x ˉ ) 2 ) .
(3) 由
π ( θ 1 ∣ θ 2 , x 1 , x 2 , … , x n ) = π ( θ 2 ∣ x 1 , x 2 , … , x n ) π ( θ 1 , θ 2 ∣ x 1 , x 2 , … , x n )
可得,
π ( θ 1 ∣ θ 2 , x 1 , x 2 , … , x n ) = c 2 ( x 1 , x 2 , … , x n ) exp { − θ 2 ( n + 1 ) ( θ 1 − n + 1 n x ˉ ) 2 } .
据此可知,
θ 1 ∣ θ 2 , x 1 , x 2 , … , x n ∼ N ( n + 1 n x ˉ , 2 θ 2 ( n + 1 ) 1 ) .
这说明该先验分布为 ( θ 1 , θ 2 ) 的共轭先验分布。
§6.6 区间估计
1. 置信区间 设 θ 是总体的一个参数,其参数空间为 Θ ,x 1 , x 2 , … , x n 是来自该总体的样本,对给定的一个 α ( 0 < α < 1 ) ,若有两个统计量
θ ^ L = θ ^ L ( x 1 , x 2 , … , x n ) , θ ^ U = θ ^ U ( x 1 , x 2 , … , x n ) ,
使得对任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) ≥ 1 − α ,
则称随机区间 [ θ ^ L , θ ^ U ] 是 θ 的置信水平为 1 − α 的置信区间,或简称 [ θ ^ L , θ ^ U ] 是 θ 的 1 − α 置信区间;θ ^ L 和 θ ^ U 分别称为 θ 的(双侧)置信下限和置信上限。
这里置信水平 1 − α 的含义是指在大量使用该置信区间时,大约有不少于 100 ( 1 − α ) % 的区间包含 θ 。
2. 同等置信区间 在上述记号下,若对给定的 α ( 0 < α < 1 ) ,对任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) = 1 − α ,
则称 [ θ ^ L , θ ^ U ] 为 θ 的 1 − α 同等置信区间。
同等置信区间是把给定的置信水平 1 − α 用足了。常在总体为连续分布场合下可以实现。
3. 置信限 在上述记号下,若对给定的 α ( 0 < α < 1 ) 和任意的 θ ∈ Θ ,有
P θ ( θ ^ L ≤ θ ) ≥ 1 − α , ∀ θ ∈ Θ ,
则称 θ ^ L 是 θ 的置信水平为 1 − α 的(单侧)置信下限。假如等号对一切 θ ∈ Θ 成立,则称 θ ^ L 是 θ 的 1 − α 同等置信下限。若对给定的 α ( 0 < α < 1 ) 和任意的 θ ∈ Θ ,有
P θ ( θ ^ U ≥ θ ) ≥ 1 − α ,
则称 θ ^ U 是 θ 的置信水平为 1 − α 的(单侧)置信上限。若等号对一切 θ ∈ Θ 成立,则称 θ ^ U 是 θ 的 1 − α 同等置信上限。
4. 枢轴量法 寻找同等置信区间常采用枢轴量法,其步骤如下:
设法构造一个样本和 θ 的函数 G = G ( x 1 , x 2 , … , x n , θ ) ,使得 G 的分布不依赖于未知参数。此种 G 被称为枢轴量;
适当地选择两个常数 c , d ,使对给定的 α ( 0 < α < 1 ) ,有 P ( c ≤ G ≤ d ) = 1 − α ;
若能将 c ≤ G ≤ d 进行不等式等价变形化为 θ ^ L ≤ θ ≤ θ ^ U ,则有
P θ ( θ ^ L ≤ θ ≤ θ ^ U ) = 1 − α ,
最后的 [ θ ^ L , θ ^ U ] 就是 θ 的 1 − α 同等置信区间。
关于置信区间的构造有两点说明:
满足置信水平要求的 c 与 d 通常不唯一。若有可能,应选平均长度 E ( θ ^ U − θ ^ L ) 达到最短的 c 与 d ,这在 G 的分布为对称分布场合通常容易实现。
实际中,选平均长度 E ( θ ^ U − θ ^ L ) 尽可能短的 c 与 d 往往很难实现,此时,常这样选择 c 与 d ,使得两个尾部概率各为 α /2 ,即 P ( G < c ) = P ( G > d ) = α /2 ,这样的置信区间称为等尾置信区间。这是在 G 的分布为偏态分布场合常采用的方法。
5. 常用的置信区间
(1) 设 x 1 , x 2 , … , x n 是来自 N ( μ , σ 2 ) 的样本,x ˉ 为样本均值,s 为样本标准差,u p 为标准正态分布的 p 分位数,t p ( k ) 为自由度是 k 的 t 分布 t ( k ) 的 p 分位数,χ p 2 ( k ) 为自由度是 k 的 χ 2 分布 χ 2 ( k ) 的 p 分位数,取置信水平 1 − α ,则
σ 已知时 μ 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] ;
σ 未知时 μ 的置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] ;
σ 2 (μ 未知)的置信区间为
[ χ 1 − α /2 2 ( n − 1 ) ( n − 1 ) s 2 , χ α /2 2 ( n − 1 ) ( n − 1 ) s 2 ] ;
σ (μ 未知)的置信区间为
χ 1 − α /2 2 ( n − 1 ) s n − 1 , χ α /2 2 ( n − 1 ) s n − 1 .
(2) 设 x 1 , x 2 , … , x m 是来自 N ( μ 1 , σ 1 2 ) 的样本,x ˉ 为其样本均值,s x 为其样本标准差;y 1 , y 2 , … , y n 是来自 N ( μ 2 , σ 2 2 ) 的样本,y ˉ 为其样本均值,s y 为其样本标准差;u p , t p ( k ) 含义同上,F p ( k 1 , k 2 ) 为自由度是 ( k 1 , k 2 ) 的 F 分布 F ( k 1 , k 2 ) 的 p 分位数,取置信水平 1 − α ,则
σ 1 2 与 σ 2 2 均已知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − u 1 − α /2 m σ 1 2 + n σ 2 2 , x ˉ − y ˉ + u 1 − α /2 m σ 1 2 + n σ 2 2 ] ;
σ 1 2 = σ 2 2 未知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − mn m + n s w t 1 − α /2 ( m + n − 2 ) , x ˉ − y ˉ + mn m + n s w t 1 − α /2 ( m + n − 2 ) ] ,
其中
s w 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 ;
σ 2 2 σ 1 2 = c 已知时,μ 1 − μ 2 的置信区间为
[ x ˉ − y ˉ − mn m c + n s t t 1 − α /2 ( m + n − 2 ) , x ˉ − y ˉ + mn m c + n s t t 1 − α /2 ( m + n − 2 ) ] ,
其中
s t 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 / c ;
m 与 n 都很大时,μ 1 − μ 2 的近似置信区间为
[ x ˉ − y ˉ − u 1 − α /2 m s x 2 + n s y 2 , x ˉ − y ˉ + u 1 − α /2 m s x 2 + n s y 2 ] ;
一般场合下 μ 1 − μ 2 的近似置信区间为
[ x ˉ − y ˉ − s 0 t 1 − α /2 ( l ) , x ˉ − y ˉ + s 0 t 1 − α /2 ( l ) ] ,
其中
s 0 2 = m s x 2 + n s y 2 , l = m 2 ( m − 1 ) s x 4 + n 2 ( n − 1 ) s y 4 s 0 4 .
方差比 σ 2 2 σ 1 2 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( m − 1 , n − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( m − 1 , n − 1 ) 1 ] .
(3) 设 x 1 , x 2 , … , x n 是来自 b ( 1 , p ) 的样本,x ˉ 为其样本均值,则 n 很大时比例 p 的置信水平为 1 − α 的近似置信区间为
[ x ˉ − u 1 − α /2 n x ˉ ( 1 − x ˉ ) , x ˉ + u 1 − α /2 n x ˉ ( 1 − x ˉ ) ] .
6. 样本量的确定 控制比率 p 的 1 − α 置信区间长度不超过 2 d 0 的最小样本量为
n ≥ ( 2 d 0 u 1 − α /2 ) 2 .
习题与解答 6.6
某厂生产的化纤强度服从正态分布,长期以来其标准差稳定在 σ = 0.85 ,现抽取了一个容量为 n = 25 的样本,测定其强度,算得样本均值为 x ˉ = 2.25 ,试求这批化纤平均强度的置信水平为 0.95 的置信区间。
解
这是方差已知时正态均值的区间估计问题。由题设条件 1 − α = 0.95 ,α = 0.05 ,查表知 u 0.975 = 1.96 ,于是这批化纤平均强度的置信水平为 0.95 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] = [ 2.25 − 1.96 × 25 0.85 , 2.25 + 1.96 × 25 0.85 ] .
即这批化纤平均强度的置信水平为 0.95 的置信区间为
[ 1.9168 , 2.5832 ] .
总体 X ∼ N ( μ , σ 2 ) ,σ 2 已知,问样本容量 n 取多大时才能保证 μ 置信水平为 95% 的置信区间的长度不大于 k 。
解
已知条件下得 μ 的 0.95 置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] ,
其区间长度为 2 u 1 − α /2 σ / n ,若使 2 u 1 − α /2 σ / n ≤ k ,只需
n ≥ ( k 2 ) 2 σ 2 u 1 − α /2 2 .
由于 u 1 − α /2 = 1.96 ,故
n ≥ ( k 2 ) 2 σ 2 ⋅ 1.9 6 2 = ( k 3.92 σ ) 2 ,
即样本容量 n 至少取 ( k 3.92 σ ) 2 时,才能保证 μ 的置信水平为 95% 的置信区间的长度不大于 k 。
0.50 , 1.25 , 0.80 , 2.00 是取自总体 X 的样本,已知 Y = ln X 服从正态分布 N ( μ , 1 ) 。
(1) 求 μ 的置信水平为 95% 的置信区间;
(2) 求 X 的数学期望的置信水平为 95% 的置信区间。
解
(1) 将数据进行对数变换,得到 Y = ln X 的样本值为
− 0.6931 , 0.2231 , − 0.2231 , 0.6931.
它可看作是来自正态总体 N ( μ , 1 ) 的样本,其样本均值为 y ˉ = 0 ,由于 σ = 1 已知,因此,μ 的置信水平为 95% 的置信区间为
[ y ˉ − u 1 − α /2 n 1 , y ˉ + u 1 − α /2 n 1 ] = [ − 0.9800 , 0.9800 ] .
(2) 由于
E ( X ) = e μ + 2 1
是 μ 的严格函数,利用 (1) 的结果,可算得 X 的数学期望的置信水平为 95% 的置信区间为
[ e − 0.98 + 0.5 , e 0.98 + 0.5 ] = [ 0.6188 , 4.3929 ] .
用一个仪表测量某一物理量 9 次,得样本均值 x ˉ = 56.32 ,样本标准差 s = 0.22 。
(1) 测量标准差 σ 的大小反映了测量仪表的精度,试求 σ 的置信水平为 0.95 的置信区间;
(2) 求该物理量真值的置信水平为 0.99 的置信区间。
解
(1) 此处 ( n − 1 ) s 2 = 8 × 0.2 2 2 = 0.3872 。查表知
χ 0.025 2 ( 8 ) = 2.1797 , χ 0.975 2 ( 8 ) = 17.5345 ,
σ 2 的 1 − α 置信区间为
[ χ 1 − α /2 2 ( n − 1 ) ( n − 1 ) s 2 , χ α /2 2 ( n − 1 ) ( n − 1 ) s 2 ] = [ 17.5345 0.3872 , 2.1797 0.3872 ] = [ 0.0221 , 0.1776 ] ,
从而 σ 的置信水平为 0.95 的置信区间为
[ 0.1487 , 0.4214 ] .
(2) 当 σ 未知时,μ 的 1 − α 置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] .
查表得 t 1 − 0.005 ( 8 ) = 3.3554 ,因而 μ 的置信水平为 0.99 的置信区间为
[ 56.32 − 3.3554 × 9 0.22 , 56.32 + 3.3554 × 9 0.22 ] = [ 56.0739 , 56.5661 ] .
已知某种材料的抗压强度 X ∼ N ( μ , σ 2 ) ,现随机地抽取 10 个试件进行抗压试验,测得数据如下:
482 , 493 , 457 , 471 , 510 , 446 , 435 , 418 , 394 , 469.
(1) 求平均抗压强度 μ 的置信水平为 95% 的置信区间;
(2) 若已知 σ = 30 ,求平均抗压强度 μ 的置信水平为 95% 的置信区间;
(3) 求 σ 的置信水平为 95% 的置信区间。
解
(1) 经计算得,
x ˉ = 457.5 , s = 35.2176.
在 σ 未知时,μ 的置信水平为 95% 的置信区间为
[ x ˉ − t 1 − α /2 ( n − 1 ) n s , x ˉ + t 1 − α /2 ( n − 1 ) n s ] .
查表得 t 1 − 0.025 ( 9 ) = 2.2622 ,因而 μ 的置信水平为 95% 的置信区间为
[ 457.5 − 2.2622 × 10 35.2176 , 457.5 + 2.2622 × 10 35.2176 ] = [ 432.3064 , 482.6936 ] .
(2) 在 σ = 30 已知时,μ 的置信水平为 95% 的置信区间为
[ x ˉ − u 1 − α /2 n σ , x ˉ + u 1 − α /2 n σ ] .
查表得 u 1 − α /2 = 1.96 ,因而 μ 的置信水平为 95% 的置信区间为
[ 457.5 − 1.96 × 10 30 , 457.5 + 1.96 × 10 30 ] = [ 438.9058 , 476.0942 ] .
(3) 此处 ( n − 1 ) s 2 = 11162.5141 。取 α = 0.05 ,查表得
χ 0.025 2 ( 9 ) = 2.7004 , χ 0.975 2 ( 9 ) = 19.0228 ,
因而 σ 2 的置信水平为 95% 的置信区间为
[ 19.0228 11162.5141 , 2.7004 11162.5141 ] = [ 586.7966 , 4133.6521 ] ,
由此可以得到 σ 的置信水平为 95% 的置信区间为
[ 24.2239 , 64.2935 ] .
在一批货物中随机抽取 80 件,发现有 11 件不合格品,试求这批货物的不合格品率的置信水平为 0.90 的置信区间。
解
此处 n = 80 较大,可用正态分布求其近似置信区间。不合格品率的 1 − α 近似置信区间为
[ x ˉ − u 1 − α /2 n x ˉ ( 1 − x ˉ ) , x ˉ + u 1 − α /2 n x ˉ ( 1 − x ˉ ) ] .
此处
x ˉ = 80 11 = 0.1375 , u 0.95 = 1.645 ,
因而不合格品率的置信水平为 0.90 的置信区间为
[ 0.1375 − 1.645 80 0.1375 × 0.8625 , 0.1375 + 1.645 80 0.1375 × 0.8625 ] = [ 0.0742 , 0.2008 ] .
设 x 1 , x 2 , … , x n 是来自泊松分布 P ( λ ) 的样本,证明:λ 的近似 1 − α 置信区间为
x ˉ + 2 n 1 u 1 − α /2 2 − 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 , x ˉ + 2 n 1 u 1 − α /2 2 + 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
解
由中心极限定理知,当样本量 n 较大时,样本均值 x ˉ 近似服从
N ( λ , n λ ) ,
因而
u = λ / n x ˉ − λ
近似服从 N ( 0 , 1 ) ,此 u 可作为枢轴量。对给定 α ,利用标准正态分布的 1 − α /2 分位数 u 1 − α /2 可得
P ( λ / n x ˉ − λ ≤ u 1 − α /2 ) ≈ 1 − α .
括号里的事件等价于
( x ˉ − λ ) 2 ≤ n u 1 − α /2 2 λ ,
因而得
λ 2 − ( 2 x ˉ + n u 1 − α /2 2 ) λ + x ˉ 2 ≤ 0.
其左侧 λ 的二次多项式二次项系数为正,故二次曲线开口向上,而其判别式
( 2 x ˉ + n u 1 − α /2 2 ) 2 − 4 x ˉ 2 = n 4 x ˉ u 1 − α /2 2 + ( n u 1 − α /2 2 ) 2 > 0 ,
故此二次曲线与 λ 轴有两个交点,记为 λ L 和 λ U (λ L < λ U ),则有
P ( λ L ≤ λ ≤ λ U ) = 1 − α ,
其中 λ L 和 λ U 可表示为
2 2 x ˉ + n 1 u 1 − α /2 2 ± ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
这就证明了 λ 的近似 1 − α 置信区间为
x ˉ + 2 n 1 u 1 − α /2 2 − 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 , x ˉ + 2 n 1 u 1 − α /2 2 + 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 .
事实上,上述近似区间是在 n 比较大时使用的,此时有
2 n 1 u 1 − α /2 2 ≈ 0 , 2 1 ( 2 x ˉ + n 1 u 1 − α /2 2 ) 2 − 4 x ˉ 2 ≈ u 1 − α /2 n x ˉ .
于是,λ 的近似 1 − α 置信区间可进一步简化为
[ x ˉ − u 1 − α /2 n x ˉ , x ˉ + u 1 − α /2 n x ˉ ] .
某商店某种商品的月销售量服从泊松分布,为合理进货,必须了解销售情况。现记录了该商店过去的一些销售量,数据如下:
月销售量 月份数 9 1 10 6 11 13 12 12 13 9 14 4 15 2 16 1
试求平均月销售量的置信水平为 0.95 的置信区间。
解
平均月销售量
x ˉ = ∑ i = 1 8 n i ∑ i = 1 8 n i x i = 48 575 = 11.9792.
此处 α = 0.05 ,u 1 − α /2 = 1.96 ,n = 48 较大,利用上一题的结果,平均月销售量的近似 0.95 置信区间为
[ 11.9792 − 1.96 48 11.9792 , 11.9792 + 1.96 48 11.9792 ] = [ 11.0000 , 12.9584 ] .
若用较为精确的近似公式,得置信区间为
[ 11.0392 , 12.9992 ] ,
二者相差不大。
设从总体 X ∼ N ( μ 1 , σ 1 2 ) 和总体 Y ∼ N ( μ 2 , σ 2 2 ) 中分别抽取容量为 n 1 = 10 ,n 2 = 15 的独立样本,可计算得
x ˉ = 82 , s x 2 = 56.5 , y ˉ = 76 , s y 2 = 52.4.
(1) 若已知 σ 1 2 = 64 ,σ 2 2 = 49 ,求 μ 1 − μ 2 的置信水平为 95% 的置信区间;
(2) 若已知 σ 1 2 = σ 2 2 ,求 μ 1 − μ 2 的置信水平为 95% 的置信区间;
(3) 若对 σ 1 2 , σ 2 2 一无所知,求 μ 1 − μ 2 的置信水平为 95% 的近似置信区间;
(4) 求 σ 1 2 / σ 2 2 的置信水平为 95% 的置信区间。
解
(1) 在 σ 1 2 , σ 2 2 都已知时,μ 1 − μ 2 的置信水平为 1 − α 的置信区间为
x ˉ − y ˉ − u 1 − α /2 n 1 σ 1 2 + n 2 σ 2 2 , x ˉ − y ˉ + u 1 − α /2 n 1 σ 1 2 + n 2 σ 2 2 .
经计算 x ˉ − y ˉ = 6 ,查表得 u 0.975 = 1.96 ,因而 μ 1 − μ 2 的置信水平为 95% 的置信区间为
[ 6 − 1.96 10 64 + 15 49 , 6 + 1.96 10 64 + 15 49 ] = [ − 0.0939 , 12.0939 ] .
(2) 当 σ 1 2 = σ 2 2 时,μ 1 − μ 2 的置信水平为 1 − α 的置信区间为
[ x ˉ − y ˉ − n 1 n 2 n 1 + n 2 s w t 1 − α /2 ( n 1 + n 2 − 2 ) , x ˉ − y ˉ + n 1 n 2 n 1 + n 2 s w t 1 − α /2 ( n 1 + n 2 − 2 ) ] .
这里
s w 2 = n 1 + n 2 − 2 ( n 1 − 1 ) s x 2 + ( n 2 − 1 ) s y 2 = 23 9 × 56.5 + 14 × 52.4 = 54.0043 ,
而 t 0.975 ( 23 ) = 2.0687 ,因而 μ 1 − μ 2 的置信水平为 95% 的置信区间为
[ 82 − 76 − 2.0687 54.0043 10 × 15 10 + 15 , 82 − 76 + 2.0687 54.0043 10 × 15 10 + 15 ] = [ − 0.2063 , 12.2063 ] .
(3) 当 σ 1 2 , σ 2 2 未知时,由于两个样本量不是很大,故可采用一般场合下的近似置信区间,即 μ 1 − μ 2 的置信水平为 1 − α 的近似置信区间为
[ x ˉ − y ˉ − s 0 t 1 − α /2 ( l ) , x ˉ − y ˉ + s 0 t 1 − α /2 ( l ) ] .
这里
s 0 2 = n 1 s x 2 + n 2 s y 2 = 10 56.5 + 15 52.4 = 9.1433 ,
l = n 1 2 ( n 1 − 1 ) s x 4 + n 2 2 ( n 2 − 1 ) s y 4 s 0 4 = 900 56. 5 2 + 3150 52. 4 2 9.143 3 2 = 18.9199 ≈ 19.
又查表得 t 0.975 ( 19 ) = 2.0930 ,因而 μ 1 − μ 2 的置信水平为 95% 的近似置信区间为
[ 82 − 76 − 2.0930 9.1433 , 82 − 76 + 2.0930 9.1433 ] = [ − 0.3288 , 12.3288 ] .
(4) σ 1 2 / σ 2 2 的置信水平为 1 − α 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( n 1 − 1 , n 2 − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( n 1 − 1 , n 2 − 1 ) 1 ] .
查表得
F 0.975 ( 9 , 14 ) = 3.21 , F 0.025 ( 9 , 14 ) = F 0.975 ( 14 , 9 ) 1 = 3.80 1 ,
因而 σ 1 2 / σ 2 2 的置信水平为 95% 的置信区间为
[ 52.4 56.5 ⋅ 3.21 1 , 52.4 56.5 ⋅ 3.80 ] = [ 0.3359 , 4.0973 ] .
假设人体身高服从正态分布,今抽测甲、乙两地区 18 岁至 25 岁女青年身高得数据如下:甲地区抽取 10 名,样本均值 1.64 m ,样本标准差 0.2 m ;乙地区抽取 10 名,样本均值 1.62 m ,样本标准差 0.4 m 。求:
(1) 两正态总体方差比的置信水平为 95% 的置信区间;
(2) 两正态总体均值差的置信水平为 95% 的置信区间。
解
设 x 1 , x 2 , … , x 10 为甲地区抽取的女青年身高,y 1 , y 2 , … , y 10 为乙地区抽取的女青年身高,由题设条件,
x ˉ = 1.64 , s x = 0.2 , y ˉ = 1.62 , s y = 0.4.
(1) σ 甲 2 / σ 乙 2 的置信水平为 1 − α 的置信区间为
[ s y 2 s x 2 ⋅ F 1 − α /2 ( m − 1 , n − 1 ) 1 , s y 2 s x 2 ⋅ F α /2 ( m − 1 , n − 1 ) 1 ] .
此处 α = 0.05 ,m = n = 10 ,查表得
F 0.975 ( 9 , 9 ) = 4.03 , F 0.025 ( 9 , 9 ) = F 0.975 ( 9 , 9 ) 1 = 4.03 1 ,
由此,σ 甲 2 / σ 乙 2 的置信水平为 95% 的置信区间为
[ 0. 4 2 0. 2 2 ⋅ 4.03 1 , 0. 4 2 0. 2 2 ⋅ 4.03 ] = [ 0.0620 , 1.0075 ] .
(2) 由 (1),σ 甲 2 / σ 乙 2 的置信水平为 95% 的置信区间包含 1 ,因此有一定理由假定两个正态总体的方差相等,此时
s w 2 = m + n − 2 ( m − 1 ) s x 2 + ( n − 1 ) s y 2 = 10 + 10 − 2 9 × 0. 2 2 + 9 × 0. 4 2 = 18 1.8 = 0.1.
查表得 t 0.975 ( 18 ) = 2.1009 ,故两正态总体均值差的置信水平为 95% 的置信区间为
[ 1.64 − 1.62 − 2.1009 0.1 10 × 10 10 + 10 , 1.64 − 1.62 + 2.1009 0.1 10 × 10 10 + 10 ] = [ − 0.2771 , 0.3171 ] .
还有另一种解法就是不对方差相等作假定,而采用近似方法求均值差的置信区间,由于
s 0 2 = m s x 2 + n s y 2 = 10 0.04 + 10 0.16 = 0.02 , l = 900 0.0 4 2 + 900 0.1 6 2 0.0 2 2 = 13 ,
查表知 t 0.975 ( 13 ) = 2.1604 ,从而两正态总体均值差的置信水平为 95% 的近似置信区间为
[ 1.64 − 1.62 − 2.1604 0.02 , 1.64 − 1.62 + 2.1604 0.02 ] = [ − 0.2855 , 0.3255 ] .
这两个置信区间相差不算太小,所以在应用中条件“方差相等”是否成立是要加以考证的。
设总体 X 的密度函数为
p ( x , λ ) = λ e − λ x I { x > 0 } ,
其中 λ > 0 为未知参数,x 1 , x 2 , … , x n 为抽自此总体的简单随机样本,求 λ 的置信水平为 1 − α 的置信区间。
解
由指数分布和伽马分布的关系知
i = 1 ∑ n x i ∼ G a ( n , λ ) ,
根据伽马分布的性质,
2 λ i = 1 ∑ n x i ∼ G a ( n , 2 1 ) = χ 2 ( 2 n ) .
从而,
P ( χ α /2 2 ( 2 n ) ≤ 2 λ i = 1 ∑ n x i ≤ χ 1 − α /2 2 ( 2 n ) ) = 1 − α ,
因此可得 λ 的置信水平为 1 − α 的置信区间为
[ 2 n x ˉ χ α /2 2 ( 2 n ) , 2 n x ˉ χ 1 − α /2 2 ( 2 n ) ] .
设某电子产品的寿命服从指数分布,其密度函数为
λ e − λ x I { x > 0 } ,
现从此批产品中抽取容量为 9 的样本,测得寿命(单位:千时)
15 , 45 , 50 , 53 , 60 , 65 , 70 , 83 , 90 ,
求平均寿命 1/ λ 的置信水平为 0.9 的置信区间和置信上、下限。
解
这是上题的一个具体应用。计算得
2 n x ˉ = 1062 ,
查表可得,
χ 0.05 2 ( 18 ) = 9.3905 , χ 0.1 2 ( 18 ) = 10.8649 , χ 0.9 2 ( 18 ) = 25.9894 , χ 0.95 2 ( 18 ) = 28.8693.
根据上题结论可知,λ 的置信水平为 0.9 的置信区间为
[ 0.0088 , 0.0272 ] ,
单侧置信上限为 0.0245 ,单侧置信下限为 0.0102 。所以,平均寿命 1/ λ 的置信水平为 0.9 的置信区间为
[ 36.76 , 113.64 ] ,
单侧置信上限为 98.04 ,单侧置信下限为 40.82 。
设总体 X 的密度函数为
p ( x , θ ) = π [ 1 + ( x − θ ) 2 ] 1 , − ∞ < x < ∞ , − ∞ < θ < ∞ ,
x 1 , x 2 , … , x n 为抽自此总体的简单随机样本,求位置参数 θ 的置信水平近似为 1 − α 的置信区间。
解
由于此柯西分布关于 θ 对称,故 θ 是总体中位数。其样本中位数
m 0.5 ∼ N ( θ , 4 n π 2 ) ,
所以
P ( − u 1 − α /2 ≤ π 2 n ( m 0.5 − θ ) ≤ u 1 − α /2 ) ≈ 1 − α ,
从而可知位置参数 θ 的置信水平近似为 1 − α 的置信区间为
[ m 0.5 − 2 n π u 1 − α /2 , m 0.5 + 2 n π u 1 − α /2 ] .
设 x 1 , x 2 , … , x n 为抽自正态总体 N ( μ , 16 ) 的简单随机样本,为使得 μ 的置信水平为 1 − α 的置信区间的长度不大于给定的 L ,试问样本容量 n 至少要多少?
解
μ 的置信水平为 1 − α 的置信区间为
[ x ˉ − u 1 − α /2 n 4 , x ˉ + u 1 − α /2 n 4 ] ,
对应的区间长度为
u 1 − α /2 n 8 .
令
u 1 − α /2 n 8 ≤ L ,
得
n ≥ u 1 − α /2 2 L 2 64 .
因此,样本容量 n 至少为
u 1 − α /2 2 L 2 64 .
设 x 1 , x 2 , … , x n 为抽自正态总体 N ( μ , σ 2 ) 的简单随机样本。试证
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ )
为枢轴量,其中 k 为已知常数。
解
因为
σ x ˉ − ( μ + k σ ) ∼ N ( − k , n 1 ) , σ 2 1 i = 1 ∑ n ( x i − x ˉ ) 2 ∼ χ 2 ( n − 1 ) ,
故
[ σ 2 ( n − 1 ) 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 σ x ˉ − ( μ + k σ ) ∼ t ( n − 1 , δ ) ,
其中 t ( n − 1 , δ ) 是自由度为 n − 1 的非中心 t 分布,其非中心参数 δ = − k n 为已知常数。又
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ ) = [ σ 2 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 σ x ˉ − ( μ + k σ ) ,
所以
[ ∑ i = 1 n ( x i − x ˉ ) 2 ] 1/2 x ˉ − ( μ + k σ )
的分布与 ( μ , σ 2 ) 无关,即为枢轴量。
设 x 1 , x 2 , … , x n 是来自
U ( θ − 2 1 , θ + 2 1 )
的样本,求 θ 的置信水平为 1 − α 的置信区间(提示:证明 2 x ( n ) + x ( 1 ) − θ 为枢轴量,并求出对应的密度函数)。
解
本题是下一题 (2) 的特殊情形,此处过程从略,答案为
[ 2 x ( n ) + x ( 1 ) − 2 1 − α 1/ n , 2 x ( n ) + x ( 1 ) + 2 1 − α 1/ n ] .
设 x 1 , x 2 , … , x n 为抽自均匀分布 U ( θ 1 , θ 2 ) 的简单随机样本,记
x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n )
为其次序统计量。求:
(1) θ 2 − θ 1 的置信水平为 1 − α 的置信区间;
(2) 2 θ 2 + θ 1 的置信水平为 1 − α 的置信区间。
解
(1) 令
y i = θ 2 − θ 1 x i − θ 1 , i = 1 , 2 , … , n ,
则 y 1 , y 2 , … , y n 独立同分布于 U ( 0 , 1 ) 。由教材例 5.3.9 可知,
y ( n ) − y ( 1 ) ∼ B e ( n − 1 , 2 ) ,
所以,
P ( B e α /2 ( n − 1 , 2 ) ≤ y ( n ) − y ( 1 ) ≤ B e 1 − α /2 ( n − 1 , 2 ) ) = 1 − α ,
这里 B e p ( n − 1 , 2 ) 表示 B e ( n − 1 , 2 ) 的 p 分位数。从而,θ 2 − θ 1 的置信水平为 1 − α 的置信区间为
[ B e 1 − α /2 ( n − 1 , 2 ) x ( n ) − x ( 1 ) , B e α /2 ( n − 1 , 2 ) x ( n ) − x ( 1 ) ] .
(2) 令
u = x ( n ) − x ( 1 ) ( x ( n ) + x ( 1 ) ) − ( θ 2 + θ 1 ) , v = x ( n ) − x ( 1 ) ,
则
⎩ ⎨ ⎧ x ( 1 ) x ( n ) = 2 uv − v + θ 1 + θ 2 , = 2 uv + v + θ 1 + θ 2 ,
且
J = ∂ ( u , v ) ∂ ( x ( 1 ) , x ( n ) ) = v /2 v /2 ( u − 1 ) /2 ( u + 1 ) /2 = 2 v .
( x ( 1 ) , x ( n ) ) 的联合密度函数为
f ( x ( 1 ) , x ( n ) ; θ 1 , θ 2 ) = ( θ 2 − θ 1 ) n n ( n − 1 ) ( x ( n ) − x ( 1 ) ) n − 2 , θ 1 < x ( 1 ) ≤ x ( n ) < θ 2 ,
所以,( u , v ) 的联合密度函数为
g ( u , v ; θ 1 , θ 2 ) = 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 ,
并且
θ 1 < 2 uv − v + θ 1 + θ 2 ≤ 2 uv + v + θ 1 + θ 2 < θ 2 .
由于
{( u , v ) : θ 1 < 2 uv − v + θ 1 + θ 2 ≤ 2 uv + v + θ 1 + θ 2 < θ 2 } = {( u , v ) : θ 1 − θ 2 < uv − v ≤ uv + v < θ 2 − θ 1 } ,
下面讨论在 u 给定后 v 的取值范围,显然有 v > 0 ,故主要是确定 v 的上界。若 u ≥ 0 ,则上式给出
v < 1 + u θ 2 − θ 1 ,
而若 u < 0 ,则上式给出
v < 1 − u θ 2 − θ 1 ,
从而 u 的密度函数为
h ( u ) = I { u ≥ 0 } ∫ 0 ( θ 2 − θ 1 ) / ( 1 + u ) 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 d v + I { u < 0 } ∫ 0 ( θ 2 − θ 1 ) / ( 1 − u ) 2 ( θ 2 − θ 1 ) n n ( n − 1 ) v n − 1 d v = 2 ( 1 + ∣ u ∣ ) n n − 1 .
注意到该密度函数是对称的,对任意给定的 c > 0 ,有
P ( ∣ u ∣ ≤ c ) = ∫ 0 c ( 1 + u ) n n − 1 d u = 1 − ( 1 + c ) − ( n − 1 ) .
取
c 0 = α − n − 1 1 − 1 ,
则
P ( − c 0 ≤ u ≤ c 0 ) = 1 − α ,
即
P ( − c 0 ≤ x ( n ) − x ( 1 ) [( x ( n ) + x ( 1 ) ) − ( θ 2 + θ 1 )] ≤ c 0 ) = 1 − α ,
因此,2 θ 2 + θ 1 的置信水平为 1 − α 的置信区间为
[ 2 x ( n ) + x ( 1 ) − 2 c 0 ( x ( n ) − x ( 1 ) ) , 2 x ( n ) + x ( 1 ) + 2 c 0 ( x ( n ) − x ( 1 ) ) ] .
设 x 1 , x 2 , … , x m 独立同分布于 U ( 0 , θ 1 ) ,y 1 , y 2 , … , y n 独立同分布于 U ( 0 , θ 2 ) ,θ 1 > 0 , θ 2 > 0 皆未知,且两样本独立,求 θ 1 / θ 2 的一个置信水平为 1 − α 的置信区间(提示:令 T 1 = x ( m ) ,T 2 = y ( n ) ,证明 T 1 T 2 ⋅ θ 2 θ 1 的分布与 θ 1 , θ 2 无关,并求出对应的密度函数)。
解
记
T 1 = x ( m ) , T 2 = y ( n ) ,
则
X = θ 1 T 1 ∼ B e ( m , 1 ) , Y = θ 2 T 2 ∼ B e ( n , 1 ) ,
故
T = Y X = T 2 / θ 2 T 1 / θ 1 = T 2 T 1 ⋅ θ 1 θ 2
的分布完全已知,可作为枢轴量。下求 T 的分布。
利用商的公式,只是要注意 y 的积分范围。此处变量取值范围为
0 < x < 1 , 0 < y < 1 ,
即
0 < t y < 1 , 0 < y < 1.
故当 t ∈ ( 0 , 1 ) 时,0 < y < 1 ,有
p ( t ) = ∫ 0 1 m ( y t ) m − 1 n y n − 1 ⋅ y d y = m + n mn t m − 1 .
而当 t ≥ 1 时,0 < y < 1/ t ,
p ( t ) = ∫ 0 1/ t m ( y t ) m − 1 n y n − 1 ⋅ y d y = m + n mn t − n − 1 .
由此可写出其分布函数(更加简洁),为
F ( t ) = ⎩ ⎨ ⎧ m + n n t m , 1 − m + n m t − n , 0 < t < 1 , t ≥ 1.
对给定的充分小的 α ,由上式不难给出两个分位数,如取
t 1 = ( n m + n 2 α ) 1/ m , t 2 = ( m m + n 2 α ) − 1/ n ,
则
P ( t 1 ≤ T ≤ t 2 ) = 1 − α ,
于是给出了 θ 1 / θ 2 的一个置信水平为 1 − α 的置信区间为
[ y ( n ) x ( m ) ( m m + n 2 α ) 1/ n , y ( n ) x ( m ) ( n m + n 2 α ) − 1/ m ] .
设总体 X 的密度函数为
p ( x , θ ) = e − ( x − θ ) I { x > θ } , − ∞ < θ < ∞ ,
x 1 , x 2 , … , x n 为抽自此总体的简单随机样本。
(1) 证明:x ( 1 ) − θ 的分布与 θ 无关,并求出此分布;
(2) 求 θ 的置信水平为 1 − α 的置信区间。
解
(1) 令
y i = x i − θ , i = 1 , 2 , … , n ,
则 y 1 , y 2 , … , y n 独立同分布于 E x p ( 1 ) ,y ( 1 ) 的密度函数为
g ( y ) = n e − n y , y > 0 ,
即 x ( 1 ) − θ 的分布与 θ 无关,其密度函数为
g ( y ) = n e − n y , y > 0.
(2) 取 c , d 使得
P ( c ≤ x ( 1 ) − θ ≤ d ) = ∫ c d n e − n y d y = 1 − α .
由于 g ( y ) = n e − n y 在 y > 0 上单调递减,为使得区间长度最短,故应取 c = 0 ,从而求得
d = − n ln α .
所以,θ 的置信水平为 1 − α 的置信区间为
[ x ( 1 ) + n ln α , x ( 1 ) ] .
补充习题及解答
随机选取 9 发炮弹,测得炮弹的炮口速度的样本标准差 s = 11 m/s ,若炮弹的炮口速度服从正态分布,求其标准差 σ 的 0.95 置信上限。
解
在正态分布下,对样本方差 s 2 有
σ 2 8 s 2 ∼ χ 2 ( 8 ) ,
从而有
P ( σ 2 8 s 2 ≥ χ α 2 ( 8 ) ) = 1 − α .
等价地,
P ( σ ≤ χ α 2 ( 8 ) 8 s 2 ) = 1 − α ,
故标准差 σ 的 1 − α 置信上限为
σ ^ U = χ α 2 ( 8 ) 8 s 2 .
现 α = 0.05 ,查表知
χ 0.05 2 ( 8 ) = 2.7326 ,
故标准差 σ 的 0.95 置信上限为
σ ^ U = 2.7326 8 × 1 1 2 = 18.82.
有两位化验员 A 与 B 独立地对一批聚合物含氯量用同样方法各进行 10 次重复测定,其样本方差分别为 s A 2 = 0.5419 与 s B 2 = 0.6065 ,若 A 与 B 的测量值都服从正态分布,求其方差比
R = σ B 2 σ A 2
的 0.95 置信上限。
解
在正态分布下,两样本方差比服从 F 分布,具体是
s B 2 / σ B 2 s A 2 / σ A 2 = s B 2 s A 2 ⋅ σ A 2 σ B 2 ∼ F ( 9 , 9 ) .
从而有
P ( s B 2 s A 2 ⋅ σ A 2 σ B 2 ≥ F α ( 9 , 9 ) ) = 1 − α ,
即
P ( R ≤ F α ( 9 , 9 ) s A 2 / s B 2 ) = 1 − α ,
故 R 的 1 − α 置信上限为
R ^ U = F α ( 9 , 9 ) s A 2 / s B 2 .
现 α = 0.05 ,查表知
F 0.05 ( 9 , 9 ) = F 0.95 ( 9 , 9 ) 1 = 3.18 1 ,
故 R 的 1 − α 置信上限为
R ^ U = F 0.05 ( 9 , 9 ) s A 2 / s B 2 = 0.6065 0.5419 × 3.18 = 2.84.
为估计某台光谱仪测量材料中金属含量的测量误差,特置备了 5 个金属试块,其成分、金属含量、均匀性都有差别,设每个试块的测量值都服从正态分布,现对每个试块重复测量 6 次,计算得其样本标准差分别为
s 1 = 0.09 , s 2 = 0.11 , s 3 = 0.14 , s 4 = 0.10 , s 5 = 0.11 ,
试求 σ 的 0.95 置信区间。
解
从题意可知,这里 s i 可以看作来自正态总体 N ( μ i , σ 2 ) 的容量为 n = 6 的样本标准差,i = 1 , 2 , … , 5 ,由此可知
( n − 1 ) σ 2 s i 2 ∼ χ 2 ( n − 1 ) ,
即
5 σ 2 s i 2 ∼ χ 2 ( 5 ) .
由于各试块的测量可以为相互独立的,故有
i = 1 ∑ 5 σ 2 5 s i 2 ∼ χ 2 ( 5 × 5 ) = χ 2 ( 25 ) ,
从而
P ( χ α /2 2 ( 25 ) ≤ σ 2 1 i = 1 ∑ 5 5 s i 2 ≤ χ 1 − α /2 2 ( 25 ) ) = 1 − α ,
即
P χ 1 − α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 ≤ σ ≤ χ α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 = 1 − α .
故 σ 的 1 − α 置信区间为
χ 1 − α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 , χ α /2 2 ( 25 ) 5 i = 1 ∑ 5 s i 2 .
现算出
i = 1 ∑ 5 s i 2 = 0.0619.
对 α = 0.05 ,查表知
χ 0.025 2 ( 25 ) = 13.1197 , χ 0.975 2 ( 25 ) = 40.6465 ,
代入可算得 σ 的 0.95 置信区间为
[ 40.6465 5 × 0.0619 , 13.1197 5 × 0.0619 ] = [ 0.0873 , 0.1536 ] .
为研究某型号汽车轮胎的磨耗,随机选择 16 只轮胎,每只轮胎行驶到磨坏为止,记录所行驶路程(单位:km)如下:
4125040187431754101039265418724265441287 3897040200425504109540680435003977540400
假设这些数据来自正态总体 N ( μ , σ 2 ) ,其中 μ , σ 2 未知,求 μ 的置信水平为 0.95 的单侧置信下限。
解
先计算样本均值 x ˉ 与样本标准差 s ,
x ˉ = 41116.9 , s = 1346.84.
利用 σ 未知场合的 μ 的单侧置信下限
μ ^ L = x ˉ − t 1 − α ( n − 1 ) n s ,
这里 n = 16 ,t 0.95 ( 15 ) = 1.7531 ,代入可得
μ ^ L = 41116.9 − 1.7531 × 16 1346.84 = 40526.6 (km) .
有一位市场调查员,他感兴趣的是该地区成年人中将购买某种产品的比例 θ (即该商品的市场占有率)。现他要事先确定需要访问多少顾客(样本量 n = ? )才能使 [ x ˉ − d , x ˉ + d ] 是 θ 的置信水平为 0.95 的置信区间,其中 x ˉ 是样本中购买此种商品的顾客的比例,d 是事先给定的常数。假如事先知道 θ ≤ 1/4 ,结果又是如何?
解
对第一个问题,教科书中例 6.6.8 对类似的问题进行了讨论,给出了一种解法,此处我们换一种思路对该问题进行讨论。
设 x 1 , x 2 , … , x n 是来自二点分布 b ( 1 , θ ) 的一个样本,x ˉ 就是样本中购买此种商品的顾客的比例,由中心极限定理知,当 n 较大时,
θ ( 1 − θ ) n ( x ˉ − θ ) ≈ N ( 0 , 1 ) .
在 θ 未知时,有
θ ( 1 − θ ) ≤ 4 1 ,
从而
P ( 1/4 n ( x ˉ − θ ) < u 1 − α /2 ) ≥ P ( θ ( 1 − θ ) n ( x ˉ − θ ) < u 1 − α /2 ) = 1 − α ,
即
P ( x ˉ − 2 n u 1 − α /2 ≤ θ ≤ x ˉ + 2 n u 1 − α /2 ) ≥ 1 − α .
这说明
[ x ˉ − 2 n u 1 − α /2 , x ˉ + 2 n u 1 − α /2 ]
是 θ 的置信水平 1 − α 的置信区间。要求该置信区间的长度不超过 2 d ,即得
2 u 1 − α /2 / ( 2 n ) ≤ 2 d ,
或
n ≥ ( 2 d u 1 − α /2 ) 2 .
若 α = 0.05 ,u 0.975 = 1.96 ,当 d = 0.01 , 0.02 , 0.03 时可分别算得
n ≥ 9604 , 2401 , 1067.
样本量随 d 的增加(精度减小)迅速降低。
对第二个问题,当已知 θ ≤ θ 0 (θ 0 < 1/2 )(或已知 θ ≥ θ 0 (θ 0 > 1/2 ),处理方法完全一样)时,由于
f ( θ ) = θ ( 1 − θ )
在 ( 0 , θ 0 ) 是增函数,所以
θ ( 1 − θ ) ≤ θ 0 ( 1 − θ 0 ) ,
从而
P ( θ 0 ( 1 − θ 0 ) n ( x ˉ − θ ) < u 1 − α /2 ) ≥ P ( θ ( 1 − θ ) n ( x ˉ − θ ) < u 1 − α /2 ) = 1 − α .
这说明
[ x ˉ − u 1 − α /2 n θ 0 ( 1 − θ 0 ) , x ˉ + u 1 − α /2 n θ 0 ( 1 − θ 0 ) ]
是 θ 的置信水平 1 − α 的置信区间。类似地,要求该置信区间的长度不超过 2 d ,即得
n ≥ ( d u 1 − α /2 ) 2 θ 0 ( 1 − θ 0 ) .
譬如,若已知 θ ≤ 1/4 (即 θ 0 = 1/4 ),则
θ 0 ( 1 − θ 0 ) = 16 3 ,
于是关于样本量的要求化为
n ≥ ( d u 1 − α /2 ) 2 16 3 .
仍取 α = 0.05 ,当 d = 0.01 , 0.02 , 0.03 时分别算得
n ≥ 7203 , 1801 , 800 ,
与 θ 完全未知情况相比样本量约减少 25% 。由此可见,若对 θ 事先有若干信息可利用,得知市场占有率不会超过 θ 0 ,那么就应利用这个信息,减少样本量,也即减少调查费用。
评论
支持 Markdown 和 LaTeX 数学公式。