§6.3 最大似然估计与 EM 算法
依赖于
被以下题目直接调用
正文部分
§6.3 最大似然估计与 EM 算法
- 最大似然估计 利用“最大似然原理”获得的估计,只能在总体概率函数形式已知的情况下使用。若总体的概率函数为 p(x;θ),θ∈Θ,x1,x2,⋯,xn 是来自该总体的样本,则似然函数为
L(θ)=L(θ;x1,x2,⋯,xn)=p(x1;θ)p(x2;θ)⋯p(xn;θ).
使似然函数 L(θ) 达到最大的统计量 θ^=θ^(x1,x2,⋯,xn) 称为 θ 的最大似然估计,简称 MLE,即
L(θ^)=θ∈ΘmaxL(θ).
注意:使对数似然函数 lnL(θ) 达到最大的 θ^ 也使似然函数 L(θ) 最大,寻找最大值时也常对 l(θ)=lnL(θ) 使用微分法。
- 最大似然估计的不变性 若 θ^ 是 θ 的最大似然估计,则对任一函数 g(θ),g(θ^) 是 g(θ) 的最大似然估计。
- EM 算法 当分布中有多余参数或数据为截尾或缺失时,其 MLE 的求取是比较困难的。Dempster 等人于 1977 年提出了 EM 算法,其出发点是把求 MLE 的过程分两步走:第一步求期望(E 步),以便把多余的部分去掉;第二步求极大值(M 步)。重复使用这两步直至收敛可得 MLE 的近似解。这是一种非常有效的方法。
- MLE 的渐近正态性 在很一般条件下,总体分布 p(x;θ) 中 θ 的 MLE θ^n 具有相合性与渐近正态性,即
θ^n∼AN(θ,nI(θ)1),
其中
I(θ)=∫−∞∞[∂θ∂lnp(x;θ)]2p(x;θ)dx
称为费希尔信息量。
习题与解答 6.3
试求下列未知参数的最大似然估计:
- p(x;θ)=θxθ−1,0<x<1, θ>0;
- p(x;θ)=θcθx−(θ+1),x>c, c>0 已知, θ>1.
解
(1) 似然函数
L(θ)=(θ)n(x1x2⋯xn)θ−1,
其对数似然函数为
lnL(θ)=2nlnθ+(θ−1)(lnx1+lnx2+⋯+lnxn).
对 θ 求导并令其为 0,得
∂θ∂lnL(θ)=2θn+2θ∑i=1nlnxi=0,
故最大似然估计为
θ^=(n1i=1∑nlnxi)−2.
再注意到
∂θ2∂2lnL(θ)θ^=(−2θ2n−4θ3/2∑i=1nlnxi)θ^=−4n33(∑i=1nlnxi)4<0,
故 θ^ 为 θ 的最大似然估计。
(2) 似然函数
L(θ)=θncnθ(x1x2⋯xn)−(θ+1),
其对数似然函数为
lnL(θ)=nlnθ+nθlnc−(θ+1)i=1∑nlnxi.
对 θ 求导并令其为 0,得
θn+nlnc−i=1∑nlnxi=0,
故最大似然估计为
θ^=(n1i=1∑nlnxi−lnc)−1.
又由于
∂θ2∂2lnL(θ)=−θ2n<0,
故 θ^ 为 θ 的最大似然估计。
试求下列未知参数的最大似然估计:
- p(x;θ)=cθcx−(c+1),x>θ, θ>0, c>0 已知;
- p(x;θ,μ)=θ1e−(x−μ)/θ,x>μ, θ>0;
- p(x;θ)=kθ1,θ<x<(k+1)θ, θ>0, k>0 已知.
解
(1) 似然函数为
L(θ)=cnθnc(x1x2⋯xn)−(c+1)I{x(1)>θ}.
要使 L(θ) 达到最大,指示函数必须为 1,且在此条件下 θnc 为 θ 的增函数,故应取满足约束条件的最大 θ,即
θ^=x(1).
(2) 似然函数为
L(θ,μ)=(θ1)nexp[−θ1i=1∑n(xi−μ)],x(1)>μ.
其对数似然函数为
lnL(θ,μ)=−nlnθ−θ1i=1∑n(xi−μ).
由于 lnL(θ,μ) 对 μ 为增函数,故应取满足约束条件的最大 μ,即
μ^=x(1).
再对 θ 求导并令其为 0,得
−θn+θ2∑i=1n(xi−μ^)=0,
所以
θ^=n1i=1∑n(xi−μ^)=xˉ−x(1).
(3) 似然函数为
L(θ)=(kθ1)nI{θ<x(1)≤x(n)<(k+1)θ}.
由于 (kθ1)n 是 θ 的减函数,故要使 L(θ) 达到最大,应在满足
k+1x(n)<θ<x(1)
的条件下取最小的 θ,因此
θ^=k+1x(n).
试求下列未知参数的最大似然估计:
- p(x;θ)=2θ1e−∣x∣/θ,θ>0;
- p(x;θ)=1,θ−21<x<θ+21;
- p(x;θ1,θ2)=θ2−θ11,θ1<x<θ2.
解
(1) 似然函数
L(θ)=(2θ1)ne−∑i=1n∣xi∣/θ,
其对数似然函数为
lnL(θ)=−nln(2θ)−θ1i=1∑n∣xi∣.
对 θ 求导并令其为 0,得
−θn+θ2∑i=1n∣xi∣=0,
故
θ^=n1i=1∑n∣xi∣.
又
∂θ2∂2lnL(θ)θ^=−(∑i=1n∣xi∣)2n3<0,
故 θ^ 为最大似然估计。
(2) 似然函数为
L(θ)=I{θ−21<x(1)≤x(n)<θ+21}.
于是只要
x(n)−21<θ<x(1)+21,
似然函数就取值为 1。故该模型的最大似然估计不唯一,上述区间内任一值均为最大似然估计。
(3) 似然函数为
L(θ1,θ2)=(θ2−θ1)n1I{θ1<x(1)≤x(n)<θ2}.
为使 L(θ1,θ2) 达到最大,应在使指示函数为 1 的条件下令区间长度 θ2−θ1 最小,故有
θ^1=x(1),θ^2=x(n).
某地质学家在某地区取了 100 个岩石样品,每个样品有 10 块石子。下面记录了每个样品中石灰石的块数,试求石灰石比例 p 的最大似然估计:
样本中的石子数样品个数001126374235266217128391100
解
设 X 表示一个样品中石灰石的块数,则
X∼b(10,p),p(X=x)=(x10)px(1−p)10−x.
若 x1,x2,⋯,x100 为样本,则其似然函数为(忽略常数)
L(p)=p∑i=1100xi(1−p)10×100−∑i=1100xi.
对数似然函数为
lnL(p)=i=1∑100xilnp+(10×100−i=1∑100xi)ln(1−p).
将对数似然函数关于 p 求导并令其为 0,得到似然方程
∂p∂lnL(p)=p∑i=1100xi−1−p10×100−∑i=1100xi=0,
解之得
p^=1000∑i=1100xi.
由于
∂p2∂2lnL(p)=−p2∑i=1100xi−(1−p)21000−∑i=1100xi<0,
由二阶导数的性质知,p 的最大似然估计为
p^=1000∑i=1100xi=1000499=0.499.
在遗传学研究中经常要从截尾二项分布中抽样,其总体概率函数为
P(X=k;p)=1−(1−p)m(km)pk(1−p)m−k,k=1,2,⋯,m.
若已知 m=2,x1,x2,⋯,xn 是样本,试求 p 的最大似然估计。
解
当 m=2 时,该截尾二项分布只能取 1 与 2。不妨设 x1,x2,⋯,xn 的样本中有 n1 个 xi 为 1,有 n−n1 个 xi 为 2,则其似然函数为(忽略常数)
L(p)=[1−(1−p)2]npn1(1−p)n1p2(n−n1)=[1−(1−p)2]np2n−n1(1−p)n1=(2−p)npn−n1(1−p)n1.
对数似然函数为
lnL(p)=(n−n1)lnp+n1ln(1−p)−nln(2−p).
将对数似然函数关于 p 求导并令其为 0,得到似然方程
pn−n1−1−pn1+2−pn=0,
解之得
p^=2n−n12(n−n1).
又由于
i=1∑nxi=n1+2(n−n1)=nxˉ,
故
n1=2n−nxˉ,
代入上式即得
p^=2n−n12(n−n1)=xˉ2(xˉ−1).
已知在文学家萧伯纳的《The Intelligent Woman’s Guide To Socialism and Capitalism》一书中,一个句子的单词数 X 近似地服从对数正态分布,即
Z=lnX∼N(μ,σ2).
今从该书中随机地取 20 个句子,这些句子中的单词数分别为
52, 24, 15, 67, 15, 22, 63, 26, 16, 32,
7, 33, 28, 14, 7, 29, 10, 6, 59, 30.
求该书中一个句子单词数均值
E(X)=eμ+σ2/2
的最大似然估计。
解
正态分布 N(μ,σ2) 的参数的最大似然估计分别为样本均值和方差,即
μ^=201i=1∑20lnxi=3.0890,σ^2=n1i=1∑n(lnxi−3.0890)2=0.5081.
由于最大似然估计具有不变性,因而
E(X)=eμ+σ2/2
的最大似然估计为
E(X)=e3.0890+0.5081/2=28.3053.
总体 X∼U(θ,2θ),其中 θ>0 是未知参数,x1,x2,⋯,xn 为取自该总体的样本,xˉ 为样本均值。
- 证明
θ^=32xˉ
是参数 θ 的无偏估计和相合估计;
- 求 θ 的最大似然估计,它是无偏估计吗?是相合估计吗?
解
(1) 总体 X∼U(θ,2θ),则
E(X)=23θ,Var(X)=12θ2,
从而
E(xˉ)=23θ,Var(xˉ)=12nθ2.
于是
E(θ^)=32E(xˉ)=θ,
这说明 θ^=32xˉ 是参数 θ 的无偏估计。进一步,
Var(θ^)=94×12nθ2=27nθ2→0.
这就证明了 θ^ 也是 θ 的相合估计。
(2) 似然函数为
L(θ)=(θ1)nI{θ<x(1)≤x(n)<2θ},
显然 L(θ) 是 θ 的减函数,且 θ 的取值范围为
2x(n)<θ<x(1),
因而 θ 的最大似然估计为
θ^=2x(n).
下求 θ^ 的均值与方差。由于 x(n) 的密度函数为
f(x)=n(θx−θ)n−1⋅θ1=θnn(x−θ)n−1,θ<x<2θ,
故
E(x(n))=∫θ2θxθnn(x−θ)n−1dx=θnn∫0θ(t+θ)tn−1dt=n+12n+1θ,
E(x(n)2)=∫θ2θx2θnn(x−θ)n−1dx=(n+2)(n+1)4n2+8n+2θ2,
从而
Var(x(n))=(n+2)(n+1)2nθ2.
于是
E(θ^)=21E(x(n))=2(n+1)2n+1θ→θ(n→∞),
这说明 θ^ 不是 θ 的无偏估计,而是 θ 的渐近无偏估计。又
Var(θ^)=41Var(x(n))=4(n+1)2(n+2)nθ2→0(n→∞),
因而 θ^ 是 θ 的相合估计。
设 x1,x2,⋯,xn 是来自密度函数为
p(x;θ)=e−(x−θ),x>θ
的总体的样本。
- 求 θ 的最大似然估计 θ^1,它是否是相合估计?是否是无偏估计?
- 求 θ 的矩估计 θ^2,它是否是相合估计?是否是无偏估计?
解
(1) 似然函数为
L(θ)=i=1∏n{e−(xi−θ)I{xi>θ}}=exp{−i=1∑nxi+nθ}I{x(1)>θ}.
显然 L(θ) 在示性函数为 1 的条件下是 θ 的严增函数,因此 θ 的最大似然估计为
θ^1=x(1).
又 x(1) 的密度函数为
f(x)=ne−n(x−θ),x>θ,
故
E(θ^1)=∫θ∞xne−n(x−θ)dx=∫0∞(t+θ)ne−ntdt=n1+θ,
因此 θ^1 不是 θ 的无偏估计,但是 θ 的渐近无偏估计。由于
E(θ^12)=∫θ∞x2ne−n(x−θ)dx=∫0∞(t2+2θt+θ2)ne−ntdt=n22+n2θ+θ2,
从而
Var(θ^1)=n22+n2θ+θ2−(n1+θ)2=n21→0.
这说明 θ^1 是 θ 的相合估计。
(2) 由于
E(X)=∫θ∞xe−(x−θ)dx=θ+1,
这给出 θ=E(X)−1,所以 θ 的矩估计为
θ^2=xˉ−1.
又
E(X2)=∫θ∞x2e−(x−θ)dx=θ2+2θ+2,
所以
Var(X)=1.
从而有
E(θ^2)=E(xˉ)−1=θ,Var(θ^2)=n1Var(X)=n1→0(n→∞).
这说明 θ^2 既是 θ 的无偏估计,也是相合估计。
为了估计湖中有多少条鱼,从中捞出 1000 条,标上记号后放回湖中,然后再捞出 150 条鱼,发现其中有 10 条鱼有记号。问湖中有多少条鱼,才能使 150 条鱼中出现 10 条带记号的鱼的概率最大?
解
设第二次捞出的带有记号的鱼的数目为 X,则 X 服从超几何分布,150 条鱼中出现 10 条带记号鱼的概率
P(X=10)=(150N)(101000)(140N−1000),
其中 N 表示湖中的鱼的条数,是未知参数。似然函数为
L(N;10)=(150N)(101000)(140N−1000).
考察相邻两项比值
A(N,10)=L(N−1;10)L(N;10)=N(N−1000−140)(N−1000)(N−150)=N(N−1140)(N−1000)(N−150).
当且仅当 N<15000 时,A(N,10)>1;当且仅当 N>15000 时,A(N,10)<1,因此只有在 N=15000 时,L(N;10) 达到最大。这里的
N^=15000
即为湖中鱼数的最大似然估计。
证明:对正态分布 N(μ,σ2),若只有一个观测值,则 σ2 的最大似然估计不存在。
解
在只有一个观测值场合,对数似然函数为
l(μ,σ2;x)=−ln(2πσ)−2σ2(x−μ)2.
当取 μ=x 且 σ→0 时,该函数趋于 ∞。这说明该函数没有最大值,或者说极大值无法实现,从而 σ2 的最大似然估计不存在。
补充习题及解答
若总体 X 服从如下柯西分布:
p(x)=π[1+(x−μ)2]1,−∞<x<∞,
而 x1,x2,⋯,xn 是它的一个样本,试求 μ 的估计量。
解
由于柯西分布的数学期望不存在,因此不能用一阶矩法估计得到 μ 的估计量。但注意到 μ 是该总体分布的中位数,因此,若用替换原理,可以给出 μ 的一个矩估计为
μ^=m0.5.
若用最小二乘法(见第八章),即使
i=1∑n(xi−μ)2
最小,则得 μ^=xˉ,很难说这是 μ 的一个合适的估计量,因为这时无偏性、有效性都失去意义,而且 xˉ 与 x1 同分布(读者自行验证),说明 xˉ 也没有起到汇集 μ 的信息的作用,因而,这个估计量的相合性也就无从谈起。
我们转而讨论 μ 的最大似然估计。其似然函数为
L(μ)=i=1∏nπ[1+(xi−μ)2]1,
其对数似然函数为
lnL(μ)=−nlnπ−i=1∑nln(1+(xi−μ)2).
对 μ 求导并令其为 0 可得对数似然方程
i=1∑n1+(xi−μ)2xi−μ=0.
这个方程只能求数值解,比如用牛顿迭代法。由于 μ 是总体分布的中位数,因此可以用样本中位数 m0.5 作为迭代的初值,求所得的这个数值解即为 μ 的最大似然估计。从似然角度看,该方法得到的估计要比样本中位数估计更好些。
一个罐子里装有黑球和白球,有放回地抽取一个容量为 n 的样本,其中有 k 个白球,求罐子里黑球数和白球数之比 R 的最大似然估计。
解
解法一 记 p 为罐子中白球的比例,令 xi 表示第 i 次有放回抽样所得的白球数,则
xi∼b(1,p),i=1,2,⋯,n,
故 p 的最大似然估计为
p^=xˉ.
因为黑球数与白球数比值
R=npn(1−p)=p1−p,
根据最大似然估计的不变性,有
R^=p^1−p^=xˉ1−xˉ.
对具体的样本值,即 n 个中抽到 k 个白球来讲,R 的最大似然估计为
R^=kn−k.
解法二 设罐子里有白球 l 个,则有黑球 Rl 个,从而罐中共有 (1+R)l 个球。从中有放回地抽一个球为白球的概率为
(1+R)ll=1+R1.
从罐中有放回地抽 n 个球,可视为从二点分布
xp0(黑球)1+RR1(白球)1+R1
中抽取一个样本容量为 n 的样本。当样本中有 k 个白球时,似然函数为
L(R)=(1+R1)k(1+RR)n−k=(1+R)nRn−k.
其对数似然函数为
lnL(R)=(n−k)lnR−nln(1+R),
将对数似然函数对 R 求导,并令其为 0,得似然方程
Rn−k−1+Rn=0,
解之可得
R^=kn−1.
由于其对数似然函数的二阶导数为
∂R2∂2lnL(R)R^=[−R2n−k+(1+R)2n]R^=−n(n−k)k3<0,
所以
R^=kn−1
是 R 的最大似然估计。
譬如,在 n=10,k=2 场合,R 的最大似然估计
R^=210−1=4,
即罐中黑球数与白球数之比的最大似然估计为 4,即白球 1 个、黑球 4 个,或者白球 2 个、黑球 8 个等。
设 x1,x2,⋯,xm 和 y1,y2,⋯,yn 分别为来自总体 N(μ1,σ2) 和 N(μ2,σ2) 的两个独立样本,试求
θ=(μ1,μ2,σ2)
的最大似然估计。
解
合样本的似然函数为
L=(2πσ1)m+nexp{−2σ21i=1∑m(xi−μ1)2−2σ21i=1∑n(yi−μ2)2},
对数似然函数为
l=lnL=−2m+nln(2πσ2)[−2σ21i=1∑m(xi−μ1)2−2σ21i=1∑n(yi−μ2)2].
将对数似然函数对 μ1,μ2,σ2 分别求导并令其为 0(忽略常数),得
∂μ1∂lμ^1=i=1∑m(xi−μ^1)=0,∂μ2∂lμ^2=i=1∑n(yi−μ^2)=0,
∂σ2∂lμ^1,μ^2,σ^2=−2σ^2m+n+2σ^41[i=1∑m(xi−μ^1)2+i=1∑n(yi−μ^2)2]=0.
由此得到 μ1,μ2,σ2 的最大似然估计为
μ^1=xˉ,μ^2=yˉ,
σ^2=m+ni=1∑m(xi−xˉ)2+i=1∑n(yi−yˉ)2.
某批产品含有 N 件,其中 M 件为不合格品,现从中随机抽取 n 件中有 X 件不合格品,则 X 服从超几何分布,即
P(X=x)=(nN)(xM)(n−xN−M),x=1,2,⋯,min{M,n}.
假如 N 与 n 已知,寻求该批产品中不合格品数 M 的最大似然估计。
解
记未知参数 M 的似然函数为
L(M;x)=P(X=x).
考察似然比
L(M,x)L(M+1,x)=(xM)(n−xN−M)(xM+1)(n−xN−M−1)=M+1−xM+1⋅N−MN−M−n+x.
要使似然比
L(M,x)L(M+1,x)≥1,
必导致
(M+1)(N−M−n+x)≥(M+1−x)(N−M).
化简此式可得
M≤nx(N+1)−1=defM0,
这表明:当 M0 为整数和 M≤M0 时,似然函数 L(M,x) 是 M 的增函数,即
L(0,x)≤L(1,x)≤⋯≤L(M0,x)≤L(M0+1,x).(1)
类似地,要使似然比
L(M,x)L(M+1,x)≤1,
必导致
M≥nx(N+1)−1=M0,
这表明:当 M0 为整数且 M≥M0 时,似然函数 L(M,x) 是 M 的减函数,即
L(M0,x)≥L(M0+1,x)≥⋯≥L(M,x).(2)
比较式 (1) 和式 (2) 可知,当 M0 为整数时,M 的最大似然估计为 M^=M0 或 M0+1;而当 M0 不为整数时,M 的最大似然估计为
M^=[M0+1]=[nx(N+1)],
其中 [a] 为不超过 a 的最大整数。综合上述,M 的最大似然估计为
M^=⎩⎨⎧nx(N+1)−1 或 nx(N+1),[nx(N+1)],nx(N+1) 为整数,nx(N+1) 不为整数.
譬如,在 N=19,n=5,x=2 场合,
M0=nx(N+1)−1=52×(19+1)−1=7,
由于 M0 为整数,故 M 的最大似然估计为 7 或 8。下面以实际计算加以佐证,几个
L(M,2)=P(X=2)
如下表所示:
ML(M,2)60.368970.397380.397390.3715100.3251
可见 M 取 7 或 8 可使似然函数达到最大。
又如,在 N=16,n=5,x=2 场合,
M0=nx(N+1)−1=52×(16+1)−1=5.8
(不为整数),这时 M 的最大似然估计
M^=[M0+1]=[5.8+1]=6.
实际计算表明
ML(M,2)50.377760.412170.403880.359
可见 M 取 6 可使似然函数达到最大。
评论
支持 Markdown 和 LaTeX 数学公式。