§6.3 最大似然估计与 EM 算法

依赖于

无显式依赖

被以下题目直接调用

正文部分

§6.3 最大似然估计与 EM 算法

最大似然估计 利用“最大似然原理”获得的估计，只能在总体概率函数形式已知的情况下使用。若总体的概率函数为 $p (x; θ)$ ， $θ \in Θ$ ， $x_{1}, x_{2}, \dots, x_{n}$ 是来自该总体的样本，则似然函数为

L (θ) = L (θ; x_{1}, x_{2}, \dots, x_{n}) = p (x_{1}; θ) p (x_{2}; θ) \dots p (x_{n}; θ) .

使似然函数 $L (θ)$ 达到最大的统计量 $\hat{θ} = \hat{θ} (x_{1}, x_{2}, \dots, x_{n})$ 称为 $θ$ 的最大似然估计，简称 MLE，即

L (\hat{θ}) = θ \in Θ max L (θ) .

注意：使对数似然函数 $ln L (θ)$ 达到最大的 $\hat{θ}$ 也使似然函数 $L (θ)$ 最大，寻找最大值时也常对 $l (θ) = ln L (θ)$ 使用微分法。

最大似然估计的不变性 若 $\hat{θ}$ 是 $θ$ 的最大似然估计，则对任一函数 $g (θ)$ ， $g (\hat{θ})$ 是 $g (θ)$ 的最大似然估计。
EM 算法 当分布中有多余参数或数据为截尾或缺失时，其 MLE 的求取是比较困难的。Dempster 等人于 $1977$ 年提出了 EM 算法，其出发点是把求 MLE 的过程分两步走：第一步求期望（E 步），以便把多余的部分去掉；第二步求极大值（M 步）。重复使用这两步直至收敛可得 MLE 的近似解。这是一种非常有效的方法。
MLE 的渐近正态性 在很一般条件下，总体分布 $p (x; θ)$ 中 $θ$ 的 MLE $\hat{θ}_{n}$ 具有相合性与渐近正态性，即

\hat{θ}_{n} \sim A N (θ, \frac{1}{n I ( θ )}),

其中

I (θ) = \int_{- \infty}^{\infty} [\frac{\partial}{\partial θ} ln p (x; θ)]^{2} p (x; θ) d x

称为费希尔信息量。

习题与解答 6.3

习题 6.3-1

试求下列未知参数的最大似然估计：

$p (x; θ) = θ x^{θ - 1}, 0 < x < 1, θ > 0;$

$p (x; θ) = θ c^{θ} x^{- (θ + 1)}, x > c, c > 0 已知, θ > 1.$

解 (1) 似然函数

L (θ) = (θ)^{n} (x_{1} x_{2} \dots x_{n})^{θ - 1},

其对数似然函数为

ln L (θ) = \frac{n}{2} ln θ + (θ - 1) (ln x_{1} + ln x_{2} + \dots + ln x_{n}) .

对 $θ$ 求导并令其为 $0$ ，得

\frac{\partial ln L ( θ )}{\partial θ} = \frac{n}{2 θ} + \frac{\sum _{i = 1}^{n} ln x _{i}}{2 θ} = 0,

故最大似然估计为

\hat{θ} = (\frac{1}{n} i = 1 \sum n ln x_{i})^{- 2} .

再注意到

\frac{\partial ^{2} ln L ( θ )}{\partial θ ^{2}}_{\hat{θ}} = (- \frac{n}{2 θ ^{2}} - \frac{\sum _{i = 1}^{n} ln x _{i}}{4 θ ^{3/2}})_{\hat{θ}} = - \frac{3 ( \sum _{i = 1}^{n} ln x _{i} ) ^{4}}{4 n ^{3}} < 0,

故 $\hat{θ}$ 为 $θ$ 的最大似然估计。

(2) 似然函数

L (θ) = θ^{n} c^{n θ} (x_{1} x_{2} \dots x_{n})^{- (θ + 1)},

其对数似然函数为

ln L (θ) = n ln θ + n θ ln c - (θ + 1) i = 1 \sum n ln x_{i} .

对 $θ$ 求导并令其为 $0$ ，得

\frac{n}{θ} + n ln c - i = 1 \sum n ln x_{i} = 0,

故最大似然估计为

\hat{θ} = (\frac{1}{n} i = 1 \sum n ln x_{i} - ln c)^{- 1} .

又由于

\frac{\partial ^{2} ln L ( θ )}{\partial θ ^{2}} = - \frac{n}{θ ^{2}} < 0,

故 $\hat{θ}$ 为 $θ$ 的最大似然估计。

习题 6.3-2

试求下列未知参数的最大似然估计：

$p (x; θ) = c θ^{c} x^{- (c + 1)}, x > θ, θ > 0, c > 0 已知;$

$p (x; θ, μ) = \frac{1}{θ} e^{- (x - μ) / θ}, x > μ, θ > 0;$

$p (x; θ) = \frac{1}{k θ}, θ < x < (k + 1) θ, θ > 0, k > 0 已知 .$

解 (1) 似然函数为

L (θ) = c^{n} θ^{n c} (x_{1} x_{2} \dots x_{n})^{- (c + 1)} I_{{x_{(1)} > θ}} .

要使 $L (θ)$ 达到最大，指示函数必须为 $1$ ，且在此条件下 $θ^{n c}$ 为 $θ$ 的增函数，故应取满足约束条件的最大 $θ$ ，即

\hat{θ} = x_{(1)} .

(2) 似然函数为

L (θ, μ) = (\frac{1}{θ})^{n} exp [- \frac{1}{θ} i = 1 \sum n (x_{i} - μ)], x_{(1)} > μ .

其对数似然函数为

ln L (θ, μ) = - n ln θ - \frac{1}{θ} i = 1 \sum n (x_{i} - μ) .

由于 $ln L (θ, μ)$ 对 $μ$ 为增函数，故应取满足约束条件的最大 $μ$ ，即

\overset{μ}{^} = x_{(1)} .

再对 $θ$ 求导并令其为 $0$ ，得

- \frac{n}{θ} + \frac{\sum _{i = 1}^{n} ( x _{i} - μ ^ )}{θ ^{2}} = 0,

所以

\hat{θ} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{μ}{^}) = \overset{x}{ˉ} - x_{(1)} .

(3) 似然函数为

L (θ) = (\frac{1}{k θ})^{n} I_{{θ < x_{(1)} \leq x_{(n)} < (k + 1) θ}} .

由于 $(\frac{1}{k θ})^{n}$ 是 $θ$ 的减函数，故要使 $L (θ)$ 达到最大，应在满足

\frac{x _{(n)}}{k + 1} < θ < x_{(1)}

的条件下取最小的 $θ$ ，因此

\hat{θ} = \frac{x _{(n)}}{k + 1} .

习题 6.3-3

试求下列未知参数的最大似然估计：

$p (x; θ) = \frac{1}{2 θ} e^{- ∣ x ∣/ θ}, θ > 0;$

$p (x; θ) = 1, θ - \frac{1}{2} < x < θ + \frac{1}{2};$

$p (x; θ_{1}, θ_{2}) = \frac{1}{θ _{2} - θ _{1}}, θ_{1} < x < θ_{2} .$

解 (1) 似然函数

L (θ) = (\frac{1}{2 θ})^{n} e^{- \sum_{i = 1}^{n} ∣ x_{i} ∣/ θ},

其对数似然函数为

ln L (θ) = - n ln (2 θ) - \frac{1}{θ} i = 1 \sum n ∣ x_{i} ∣.

对 $θ$ 求导并令其为 $0$ ，得

- \frac{n}{θ} + \frac{\sum _{i = 1}^{n} ∣ x _{i} ∣}{θ ^{2}} = 0,

故

\hat{θ} = \frac{1}{n} i = 1 \sum n ∣ x_{i} ∣.

又

\frac{\partial ^{2} ln L ( θ )}{\partial θ ^{2}}_{\hat{θ}} = - \frac{n ^{3}}{( \sum _{i = 1}^{n} ∣ x _{i} ∣ ) ^{2}} < 0,

故 $\hat{θ}$ 为最大似然估计。

(2) 似然函数为

L (θ) = I_{{θ - \frac{1}{2} < x_{(1)} \leq x_{(n)} < θ + \frac{1}{2}}} .

于是只要

x_{(n)} - \frac{1}{2} < θ < x_{(1)} + \frac{1}{2},

似然函数就取值为 $1$ 。故该模型的最大似然估计不唯一，上述区间内任一值均为最大似然估计。

(3) 似然函数为

L (θ_{1}, θ_{2}) = \frac{1}{( θ _{2} - θ _{1} ) ^{n}} I_{{θ_{1} < x_{(1)} \leq x_{(n)} < θ_{2}}} .

为使 $L (θ_{1}, θ_{2})$ 达到最大，应在使指示函数为 $1$ 的条件下令区间长度 $θ_{2} - θ_{1}$ 最小，故有

\hat{θ}_{1} = x_{(1)}, \hat{θ}_{2} = x_{(n)} .

习题 6.3-4

某地质学家在某地区取了 $100$ 个岩石样品，每个样品有 $10$ 块石子。下面记录了每个样品中石灰石的块数，试求石灰石比例 $p$ 的最大似然估计：
$样本中的石子数样品个数 001126374235266217128391100$

解设 $X$ 表示一个样品中石灰石的块数，则

X \sim b (10, p), p (X = x) = (x 10) p^{x} (1 - p)^{10 - x} .

若 $x_{1}, x_{2}, \dots, x_{100}$ 为样本，则其似然函数为（忽略常数）

L (p) = p^{\sum_{i = 1}^{100} x_{i}} (1 - p)^{10 \times 100 - \sum_{i = 1}^{100} x_{i}} .

对数似然函数为

ln L (p) = i = 1 \sum 100 x_{i} ln p + (10 \times 100 - i = 1 \sum 100 x_{i}) ln (1 - p) .

将对数似然函数关于 $p$ 求导并令其为 $0$ ，得到似然方程

\frac{\partial ln L ( p )}{\partial p} = \frac{\sum _{i = 1}^{100} x _{i}}{p} - \frac{10 \times 100 - \sum _{i = 1}^{100} x _{i}}{1 - p} = 0,

解之得

\overset{p}{^} = \frac{\sum _{i = 1}^{100} x _{i}}{1000} .

由于

\frac{\partial ^{2} ln L ( p )}{\partial p ^{2}} = - \frac{\sum _{i = 1}^{100} x _{i}}{p ^{2}} - \frac{1000 - \sum _{i = 1}^{100} x _{i}}{( 1 - p ) ^{2}} < 0,

由二阶导数的性质知， $p$ 的最大似然估计为

\overset{p}{^} = \frac{\sum _{i = 1}^{100} x _{i}}{1000} = \frac{499}{1000} = 0.499.

习题 6.3-5

在遗传学研究中经常要从截尾二项分布中抽样，其总体概率函数为
$P (X = k; p) = \frac{( k m ) p ^{k} ( 1 - p ) ^{m - k}}{1 - ( 1 - p ) ^{m}}, k = 1, 2, \dots, m .$
若已知 $m = 2$ ， $x_{1}, x_{2}, \dots, x_{n}$ 是样本，试求 $p$ 的最大似然估计。

解当 $m = 2$ 时，该截尾二项分布只能取 $1$ 与 $2$ 。不妨设 $x_{1}, x_{2}, \dots, x_{n}$ 的样本中有 $n_{1}$ 个 $x_{i}$ 为 $1$ ，有 $n - n_{1}$ 个 $x_{i}$ 为 $2$ ，则其似然函数为（忽略常数）

L (p) = \frac{p ^{n_{1}} ( 1 - p ) ^{n_{1}} p ^{2 (n - n_{1})}}{[ 1 - ( 1 - p ) ^{2} ] ^{n}} = \frac{p ^{2 n - n_{1}} ( 1 - p ) ^{n_{1}}}{[ 1 - ( 1 - p ) ^{2} ] ^{n}} = \frac{p ^{n - n_{1}} ( 1 - p ) ^{n_{1}}}{( 2 - p ) ^{n}} .

对数似然函数为

ln L (p) = (n - n_{1}) ln p + n_{1} ln (1 - p) - n ln (2 - p) .

将对数似然函数关于 $p$ 求导并令其为 $0$ ，得到似然方程

\frac{n - n _{1}}{p} - \frac{n _{1}}{1 - p} + \frac{n}{2 - p} = 0,

解之得

\overset{p}{^} = \frac{2 ( n - n _{1} )}{2 n - n _{1}} .

又由于

i = 1 \sum n x_{i} = n_{1} + 2 (n - n_{1}) = n \overset{x}{ˉ},

故

n_{1} = 2 n - n \overset{x}{ˉ},

代入上式即得

\overset{p}{^} = \frac{2 ( n - n _{1} )}{2 n - n _{1}} = \frac{2 ( x ˉ - 1 )}{x ˉ} .

习题 6.3-6

已知在文学家萧伯纳的《The Intelligent Woman’s Guide To Socialism and Capitalism》一书中，一个句子的单词数 $X$ 近似地服从对数正态分布，即
$Z = ln X \sim N (μ, σ^{2}) .$
今从该书中随机地取 $20$ 个句子，这些句子中的单词数分别为
$52, 24, 15, 67, 15, 22, 63, 26, 16, 32,$ $7, 33, 28, 14, 7, 29, 10, 6, 59, 30.$
求该书中一个句子单词数均值
$E (X) = e^{μ + σ^{2} /2}$
的最大似然估计。

解正态分布 $N (μ, σ^{2})$ 的参数的最大似然估计分别为样本均值和方差，即

\overset{μ}{^} = \frac{1}{20} i = 1 \sum 20 ln x_{i} = 3.0890, \overset{σ}{^}^{2} = \frac{1}{n} i = 1 \sum n (ln x_{i} - 3.0890)^{2} = 0.5081.

由于最大似然估计具有不变性，因而

E (X) = e^{μ + σ^{2} /2}

的最大似然估计为

E (X) = e^{3.0890 + 0.5081/2} = 28.3053.

习题 6.3-7

总体 $X \sim U (θ, 2 θ)$ ，其中 $θ > 0$ 是未知参数， $x_{1}, x_{2}, \dots, x_{n}$ 为取自该总体的样本， $\overset{x}{ˉ}$ 为样本均值。

证明

$\hat{θ} = \frac{2}{3} \overset{x}{ˉ}$
是参数 $θ$ 的无偏估计和相合估计；

求 $θ$ 的最大似然估计，它是无偏估计吗？是相合估计吗？

解 (1) 总体 $X \sim U (θ, 2 θ)$ ，则

E (X) = \frac{3 θ}{2}, Var (X) = \frac{θ ^{2}}{12},

从而

E (\overset{x}{ˉ}) = \frac{3 θ}{2}, Var (\overset{x}{ˉ}) = \frac{θ ^{2}}{12 n} .

于是

E (\hat{θ}) = \frac{2}{3} E (\overset{x}{ˉ}) = θ,

这说明 $\hat{θ} = \frac{2}{3} \overset{x}{ˉ}$ 是参数 $θ$ 的无偏估计。进一步，

Var (\hat{θ}) = \frac{4}{9} \times \frac{θ ^{2}}{12 n} = \frac{θ ^{2}}{27 n} \to 0.

这就证明了 $\hat{θ}$ 也是 $θ$ 的相合估计。

(2) 似然函数为

L (θ) = (\frac{1}{θ})^{n} I_{{θ < x_{(1)} \leq x_{(n)} < 2 θ}},

显然 $L (θ)$ 是 $θ$ 的减函数，且 $θ$ 的取值范围为

\frac{x _{(n)}}{2} < θ < x_{(1)},

因而 $θ$ 的最大似然估计为

\hat{θ} = \frac{x _{(n)}}{2} .

下求 $\hat{θ}$ 的均值与方差。由于 $x_{(n)}$ 的密度函数为

f (x) = n (\frac{x - θ}{θ})^{n - 1} \cdot \frac{1}{θ} = \frac{n}{θ ^{n}} (x - θ)^{n - 1}, θ < x < 2 θ,

故

E (x_{(n)}) = \int_{θ}^{2 θ} x \frac{n}{θ ^{n}} (x - θ)^{n - 1} d x = \frac{n}{θ ^{n}} \int_{0}^{θ} (t + θ) t^{n - 1} d t = \frac{2 n + 1}{n + 1} θ,

E (x_{(n)}^{2}) = \int_{θ}^{2 θ} x^{2} \frac{n}{θ ^{n}} (x - θ)^{n - 1} d x = \frac{4 n ^{2} + 8 n + 2}{( n + 2 ) ( n + 1 )} θ^{2},

从而

Var (x_{(n)}) = \frac{n θ ^{2}}{( n + 2 ) ( n + 1 ) ^{2}} .

于是

E (\hat{θ}) = \frac{1}{2} E (x_{(n)}) = \frac{2 n + 1}{2 ( n + 1 )} θ \to θ (n \to \infty),

这说明 $\hat{θ}$ 不是 $θ$ 的无偏估计，而是 $θ$ 的渐近无偏估计。又

Var (\hat{θ}) = \frac{1}{4} Var (x_{(n)}) = \frac{n θ ^{2}}{4 ( n + 1 ) ^{2} ( n + 2 )} \to 0 (n \to \infty),

因而 $\hat{θ}$ 是 $θ$ 的相合估计。

习题 6.3-8

设 $x_{1}, x_{2}, \dots, x_{n}$ 是来自密度函数为
$p (x; θ) = e^{- (x - θ)}, x > θ$
的总体的样本。

求 $θ$ 的最大似然估计 $\hat{θ}_{1}$ ，它是否是相合估计？是否是无偏估计？

求 $θ$ 的矩估计 $\hat{θ}_{2}$ ，它是否是相合估计？是否是无偏估计？

解 (1) 似然函数为

L (θ) = i = 1 \prod n {e^{- (x_{i} - θ)} I_{{x_{i} > θ}}} = exp {- i = 1 \sum n x_{i} + n θ} I_{{x_{(1)} > θ}} .

显然 $L (θ)$ 在示性函数为 $1$ 的条件下是 $θ$ 的严增函数，因此 $θ$ 的最大似然估计为

\hat{θ}_{1} = x_{(1)} .

又 $x_{(1)}$ 的密度函数为

f (x) = n e^{- n (x - θ)}, x > θ,

故

E (\hat{θ}_{1}) = \int_{θ}^{\infty} x n e^{- n (x - θ)} d x = \int_{0}^{\infty} (t + θ) n e^{- n t} d t = \frac{1}{n} + θ,

因此 $\hat{θ}_{1}$ 不是 $θ$ 的无偏估计，但是 $θ$ 的渐近无偏估计。由于

E (\hat{θ}_{1}^{2}) = \int_{θ}^{\infty} x^{2} n e^{- n (x - θ)} d x = \int_{0}^{\infty} (t^{2} + 2 θ t + θ^{2}) n e^{- n t} d t = \frac{2}{n ^{2}} + \frac{2 θ}{n} + θ^{2},

从而

Var (\hat{θ}_{1}) = \frac{2}{n ^{2}} + \frac{2 θ}{n} + θ^{2} - (\frac{1}{n} + θ)^{2} = \frac{1}{n ^{2}} \to 0.

这说明 $\hat{θ}_{1}$ 是 $θ$ 的相合估计。

(2) 由于

E (X) = \int_{θ}^{\infty} x e^{- (x - θ)} d x = θ + 1,

这给出 $θ = E (X) - 1$ ，所以 $θ$ 的矩估计为

\hat{θ}_{2} = \overset{x}{ˉ} - 1.

又

E (X^{2}) = \int_{θ}^{\infty} x^{2} e^{- (x - θ)} d x = θ^{2} + 2 θ + 2,

所以

Var (X) = 1.

从而有

E (\hat{θ}_{2}) = E (\overset{x}{ˉ}) - 1 = θ, Var (\hat{θ}_{2}) = \frac{1}{n} Var (X) = \frac{1}{n} \to 0 (n \to \infty) .

这说明 $\hat{θ}_{2}$ 既是 $θ$ 的无偏估计，也是相合估计。

习题 6.3-9

为了估计湖中有多少条鱼，从中捞出 $1000$ 条，标上记号后放回湖中，然后再捞出 $150$ 条鱼，发现其中有 $10$ 条鱼有记号。问湖中有多少条鱼，才能使 $150$ 条鱼中出现 $10$ 条带记号的鱼的概率最大？

解设第二次捞出的带有记号的鱼的数目为 $X$ ，则 $X$ 服从超几何分布， $150$ 条鱼中出现 $10$ 条带记号鱼的概率

P (X = 10) = \frac{( 10 1000 ) ( 140 N - 1000 )}{( 150 N )},

其中 $N$ 表示湖中的鱼的条数，是未知参数。似然函数为

L (N; 10) = \frac{( 10 1000 ) ( 140 N - 1000 )}{( 150 N )} .

考察相邻两项比值

A (N, 10) = \frac{L ( N ; 10 )}{L ( N - 1 ; 10 )} = \frac{( N - 1000 ) ( N - 150 )}{N ( N - 1000 - 140 )} = \frac{( N - 1000 ) ( N - 150 )}{N ( N - 1140 )} .

当且仅当 $N < 15000$ 时， $A (N, 10) > 1$ ；当且仅当 $N > 15000$ 时， $A (N, 10) < 1$ ，因此只有在 $N = 15000$ 时， $L (N; 10)$ 达到最大。这里的

\hat{N} = 15000

即为湖中鱼数的最大似然估计。

习题 6.3-10

证明：对正态分布 $N (μ, σ^{2})$ ，若只有一个观测值，则 $σ^{2}$ 的最大似然估计不存在。

解在只有一个观测值场合，对数似然函数为

l (μ, σ^{2}; x) = - ln (2 π σ) - \frac{( x - μ ) ^{2}}{2 σ ^{2}} .

当取 $μ = x$ 且 $σ \to 0$ 时，该函数趋于 $\infty$ 。这说明该函数没有最大值，或者说极大值无法实现，从而 $σ^{2}$ 的最大似然估计不存在。

补充习题及解答

补充习题 11

若总体 $X$ 服从如下柯西分布：
$p (x) = \frac{1}{π [ 1 + ( x - μ ) ^{2} ]}, - \infty < x < \infty,$
而 $x_{1}, x_{2}, \dots, x_{n}$ 是它的一个样本，试求 $μ$ 的估计量。

解由于柯西分布的数学期望不存在，因此不能用一阶矩法估计得到 $μ$ 的估计量。但注意到 $μ$ 是该总体分布的中位数，因此，若用替换原理，可以给出 $μ$ 的一个矩估计为

\overset{μ}{^} = m_{0.5} .

若用最小二乘法（见第八章），即使

i = 1 \sum n (x_{i} - μ)^{2}

最小，则得 $\overset{μ}{^} = \overset{x}{ˉ}$ ，很难说这是 $μ$ 的一个合适的估计量，因为这时无偏性、有效性都失去意义，而且 $\overset{x}{ˉ}$ 与 $x_{1}$ 同分布（读者自行验证），说明 $\overset{x}{ˉ}$ 也没有起到汇集 $μ$ 的信息的作用，因而，这个估计量的相合性也就无从谈起。

我们转而讨论 $μ$ 的最大似然估计。其似然函数为

L (μ) = i = 1 \prod n \frac{1}{π [ 1 + ( x _{i} - μ ) ^{2} ]},

其对数似然函数为

ln L (μ) = - n ln π - i = 1 \sum n ln (1 + (x_{i} - μ)^{2}) .

对 $μ$ 求导并令其为 $0$ 可得对数似然方程

i = 1 \sum n \frac{x _{i} - μ}{1 + ( x _{i} - μ ) ^{2}} = 0.

这个方程只能求数值解，比如用牛顿迭代法。由于 $μ$ 是总体分布的中位数，因此可以用样本中位数 $m_{0.5}$ 作为迭代的初值，求所得的这个数值解即为 $μ$ 的最大似然估计。从似然角度看，该方法得到的估计要比样本中位数估计更好些。

补充习题 12

一个罐子里装有黑球和白球，有放回地抽取一个容量为 $n$ 的样本，其中有 $k$ 个白球，求罐子里黑球数和白球数之比 $R$ 的最大似然估计。

解 解法一 记 $p$ 为罐子中白球的比例，令 $x_{i}$ 表示第 $i$ 次有放回抽样所得的白球数，则

x_{i} \sim b (1, p), i = 1, 2, \dots, n,

故 $p$ 的最大似然估计为

\overset{p}{^} = \overset{x}{ˉ} .

因为黑球数与白球数比值

R = \frac{n ( 1 - p )}{n p} = \frac{1 - p}{p},

根据最大似然估计的不变性，有

\hat{R} = \frac{1 - p ^}{p ^} = \frac{1 - x ˉ}{x ˉ} .

对具体的样本值，即 $n$ 个中抽到 $k$ 个白球来讲， $R$ 的最大似然估计为

\hat{R} = \frac{n - k}{k} .

解法二 设罐子里有白球 $l$ 个，则有黑球 $R l$ 个，从而罐中共有 $(1 + R) l$ 个球。从中有放回地抽一个球为白球的概率为

\frac{l}{( 1 + R ) l} = \frac{1}{1 + R} .

从罐中有放回地抽 $n$ 个球，可视为从二点分布

x p 0 （黑球） \frac{R}{1 + R} 1 （白球） \frac{1}{1 + R}

中抽取一个样本容量为 $n$ 的样本。当样本中有 $k$ 个白球时，似然函数为

L (R) = (\frac{1}{1 + R})^{k} (\frac{R}{1 + R})^{n - k} = \frac{R ^{n - k}}{( 1 + R ) ^{n}} .

其对数似然函数为

ln L (R) = (n - k) ln R - n ln (1 + R),

将对数似然函数对 $R$ 求导，并令其为 $0$ ，得似然方程

\frac{n - k}{R} - \frac{n}{1 + R} = 0,

解之可得

\hat{R} = \frac{n}{k} - 1.

由于其对数似然函数的二阶导数为

\frac{\partial ^{2} ln L ( R )}{\partial R ^{2}}_{\hat{R}} = [- \frac{n - k}{R ^{2}} + \frac{n}{( 1 + R ) ^{2}}]_{\hat{R}} = - \frac{k ^{3}}{n ( n - k )} < 0,

所以

\hat{R} = \frac{n}{k} - 1

是 $R$ 的最大似然估计。

譬如，在 $n = 10, k = 2$ 场合， $R$ 的最大似然估计

\hat{R} = \frac{10}{2} - 1 = 4,

即罐中黑球数与白球数之比的最大似然估计为 $4$ ，即白球 $1$ 个、黑球 $4$ 个，或者白球 $2$ 个、黑球 $8$ 个等。

补充习题 13

设 $x_{1}, x_{2}, \dots, x_{m}$ 和 $y_{1}, y_{2}, \dots, y_{n}$ 分别为来自总体 $N (μ_{1}, σ^{2})$ 和 $N (μ_{2}, σ^{2})$ 的两个独立样本，试求
$θ = (μ_{1}, μ_{2}, σ^{2})$
的最大似然估计。

解合样本的似然函数为

L = (\frac{1}{2 π σ})^{m + n} exp {- \frac{1}{2 σ ^{2}} i = 1 \sum m (x_{i} - μ_{1})^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (y_{i} - μ_{2})^{2}},

对数似然函数为

l = ln L = - \frac{m + n}{2} ln (2 π σ^{2}) [- \frac{1}{2 σ ^{2}} i = 1 \sum m (x_{i} - μ_{1})^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (y_{i} - μ_{2})^{2}] .

将对数似然函数对 $μ_{1}, μ_{2}, σ^{2}$ 分别求导并令其为 $0$ （忽略常数），得

\frac{\partial l}{\partial μ _{1}}_{\overset{μ}{^}_{1}} = i = 1 \sum m (x_{i} - \overset{μ}{^}_{1}) = 0, \frac{\partial l}{\partial μ _{2}}_{\overset{μ}{^}_{2}} = i = 1 \sum n (y_{i} - \overset{μ}{^}_{2}) = 0,

\frac{\partial l}{\partial σ ^{2}}_{\overset{μ}{^}_{1}, \overset{μ}{^}_{2}, \overset{σ}{^}^{2}} = - \frac{m + n}{2 σ ^ ^{2}} + \frac{1}{2 σ ^ ^{4}} [i = 1 \sum m (x_{i} - \overset{μ}{^}_{1})^{2} + i = 1 \sum n (y_{i} - \overset{μ}{^}_{2})^{2}] = 0.

由此得到 $μ_{1}, μ_{2}, σ^{2}$ 的最大似然估计为

\overset{μ}{^}_{1} = \overset{x}{ˉ}, \overset{μ}{^}_{2} = \overset{y}{ˉ},

\overset{σ}{^}^{2} = \frac{i = 1 \sum m ( x _{i} - x ˉ ) ^{2} + i = 1 \sum n ( y _{i} - y ˉ ) ^{2}}{m + n} .

补充习题 14

某批产品含有 $N$ 件，其中 $M$ 件为不合格品，现从中随机抽取 $n$ 件中有 $X$ 件不合格品，则 $X$ 服从超几何分布，即
$P (X = x) = \frac{( x M ) ( n - x N - M )}{( n N )}, x = 1, 2, \dots, min {M, n} .$
假如 $N$ 与 $n$ 已知，寻求该批产品中不合格品数 $M$ 的最大似然估计。

解记未知参数 $M$ 的似然函数为

L (M; x) = P (X = x) .

考察似然比

\frac{L ( M + 1 , x )}{L ( M , x )} = \frac{( x M + 1 ) ( n - x N - M - 1 )}{( x M ) ( n - x N - M )} = \frac{M + 1}{M + 1 - x} \cdot \frac{N - M - n + x}{N - M} .

要使似然比

\frac{L ( M + 1 , x )}{L ( M , x )} \geq 1,

必导致

(M + 1) (N - M - n + x) \geq (M + 1 - x) (N - M) .

化简此式可得

M \leq \frac{x}{n} (N + 1) - 1 = def M_{0},

这表明：当 $M_{0}$ 为整数和 $M \leq M_{0}$ 时，似然函数 $L (M, x)$ 是 $M$ 的增函数，即

L (0, x) \leq L (1, x) \leq \dots \leq L (M_{0}, x) \leq L (M_{0} + 1, x) . (1)

类似地，要使似然比

\frac{L ( M + 1 , x )}{L ( M , x )} \leq 1,

必导致

M \geq \frac{x}{n} (N + 1) - 1 = M_{0},

这表明：当 $M_{0}$ 为整数且 $M \geq M_{0}$ 时，似然函数 $L (M, x)$ 是 $M$ 的减函数，即

L (M_{0}, x) \geq L (M_{0} + 1, x) \geq \dots \geq L (M, x) . (2)

比较式 $(1)$ 和式 $(2)$ 可知，当 $M_{0}$ 为整数时， $M$ 的最大似然估计为 $\hat{M} = M_{0}$ 或 $M_{0} + 1$ ；而当 $M_{0}$ 不为整数时， $M$ 的最大似然估计为

\hat{M} = [M_{0} + 1] = [\frac{x}{n} (N + 1)],

其中 $[a]$ 为不超过 $a$ 的最大整数。综合上述， $M$ 的最大似然估计为

\hat{M} = ⎩ ⎨ ⎧ \frac{x}{n} (N + 1) - 1 或 \frac{x}{n} (N + 1), [\frac{x}{n} (N + 1)], \frac{x}{n} (N + 1) 为整数, \frac{x}{n} (N + 1) 不为整数 .

譬如，在 $N = 19, n = 5, x = 2$ 场合，

M_{0} = \frac{x}{n} (N + 1) - 1 = \frac{2}{5} \times (19 + 1) - 1 = 7,

由于 $M_{0}$ 为整数，故 $M$ 的最大似然估计为 $7$ 或 $8$ 。下面以实际计算加以佐证，几个

L (M, 2) = P (X = 2)

如下表所示：

M L (M, 2) 6 0.3689 7 0.3973 8 0.3973 9 0.3715 10 0.3251

可见 $M$ 取 $7$ 或 $8$ 可使似然函数达到最大。

又如，在 $N = 16, n = 5, x = 2$ 场合，

M_{0} = \frac{x}{n} (N + 1) - 1 = \frac{2}{5} \times (16 + 1) - 1 = 5.8

（不为整数），这时 $M$ 的最大似然估计

\hat{M} = [M_{0} + 1] = [5.8 + 1] = 6.

实际计算表明

M L (M, 2) 5 0.3777 6 0.4121 7 0.4038 8 0.359

可见 $M$ 取 $6$ 可使似然函数达到最大。

群知识库

AI 找笔记

Explorer

6.3 最大似然估计与 EM 算法

§6.3 最大似然估计与 EM 算法

依赖于

被以下题目直接调用

正文部分

§6.3 最大似然估计与 EM 算法

习题与解答 6.3

补充习题及解答

评论

Graph View

目录

反向链接