§7.4 似然比检验与分布拟合检验

依赖于

无显式依赖

被以下题目直接调用

正文部分

§7.4 似然比检验与分布拟合检验

1. 似然比检验 设 $x_{1}, x_{2}, \dots, x_{n}$ 为来自密度函数为 $p (x; θ)$ ， $θ \in Θ$ 的总体的样本，则对检验问题

H_{0} : θ \in Θ_{0} vs H_{1} : θ \in Θ_{1} = Θ - Θ_{0},

可用似然比统计量

Λ = \frac{sup _{θ \in Θ} p ( x _{1} , x _{2} , \dots , x _{n} ; θ )}{sup _{θ \in Θ_{0}} p ( x _{1} , x _{2} , \dots , x _{n} ; θ )}

作检验统计量，该检验称为似然比（likelihood ratio）检验，有时也称之为广义似然比检验。

检验统计量也可以写为

Λ = \frac{p ( x _{1} , x _{2} , \dots , x _{n} ; θ ^ )}{p ( x _{1} , x _{2} , \dots , x _{n} ; θ ^ _{0} )},

其中 $\hat{θ}$ 表示在全参数空间 $Θ$ 上 $θ$ 的最大似然估计， $\hat{θ}_{0}$ 表示在原假设成立时子参数空间 $Θ_{0}$ 上 $θ$ 的最大似然估计。拒绝域为

W = {Λ \geq c},

其中临界值 $c$ 由

P_{θ} (Λ \geq c) \leq α, (\forall θ \in Θ_{0})

确定。

似然比检验是寻找检验统计量的一种思路。该似然比统计量没有统一的精确分布形式，但其对数似然比的 $2$ 倍，即 $2 ln Λ$ ，渐近服从 $χ^{2} (k)$ 分布，其中 $k$ 为 $Λ$ 中独立参数个数。

2. 总体可以分成 $k$ 类： $A_{1}, A_{2}, \dots, A_{k}$ 时的分布拟合优度检验

原假设

H_{0} : P (A_{i}) = p_{i}, i = 1, 2, \dots, k,

其中诸 $p_{i} \geq 0$ ，且 $\sum_{i = 1}^{k} p_{i} = 1$ ；

数据：对总体作 $n$ 次观察， $k$ 个类各出现的频数分别为 $n_{1}, n_{2}, \dots, n_{k}$ ，且 $\sum_{i = 1}^{k} n_{i} = n$ 。

分两种情况给出检验统计量及其拒绝域：

诸 $p_{i}$ 均已知，检验统计量

χ^{2} = i = 1 \sum k \frac{( n _{i} - n p _{i} ) ^{2}}{n p _{i}},

拒绝域为

W = {χ^{2} \geq χ_{1 - α}^{2} (k - 1)};

诸 $p_{i}$ 不完全已知，检验统计量

χ^{2} = i = 1 \sum k \frac{( n _{i} - n p ^ _{i} ) ^{2}}{n p ^ _{i}},

拒绝域为

W = {χ^{2} \geq χ_{1 - α}^{2} (k - r - 1)},

其中 $r$ 为 $p_{1}, p_{2}, \dots, p_{k}$ 中独立参数个数， $\overset{p}{^}_{i}$ 为 $p_{i}$ 的最大似然估计。

这个检验被 K. 皮尔逊称为 $χ^{2}$ 拟合优度检验， $p = P (χ^{2} \geq χ_{0}^{2})$ 被称为拟合优度， $p$ 值愈大拟合优度愈好， $p$ 值愈小拟合优度愈差，从而拒绝原假设 $H_{0}$ 。

3. 列联表的独立性检验 $r \times c$ 的二维列联表：总体按两个属性 $A$ 与 $B$ 分类， $A$ 有 $r$ 个类： $A_{1}, A_{2}, \dots, A_{r}$ ， $B$ 有 $c$ 个类： $B_{1}, B_{2}, \dots, B_{c}$ ，共有 $r c$ 个类；若进行 $n$ 次试验，其中所属 $A_{i}$ 又属 $B_{j}$ 的结果有 $n_{ij}$ 个，按矩阵排列，就得 $r \times c$ 二维列联表。

\renewcommand{\arraystretch}{1.2}

A	$B$	行和
	$1$	$\dots$	$j$	$\dots c$
$1$	$n_{11}$	$\dots$	$n_{1 j}$	$\dots n_{1 c}$	$n_{1 \cdot}$
\vdots	\vdots		\vdots		\vdots
$i$	$n_{i 1}$	$\dots$	$n_{ij}$	$\dots n_{i c}$	$n_{i \cdot}$
\vdots	\vdots		\vdots		\vdots
$r$	$n_{r 1}$	$\dots$	$n_{r j}$	$\dots n_{r c}$	$n_{r \cdot}$
列和	$n_{\cdot 1}$	$\dots$	$n_{\cdot j}$	$\dots n_{\cdot c}$	$n$

原假设

H_{0} : P (A_{i} B_{j}) = p_{ij} = p_{i \cdot} p_{\cdot j} = P (A_{i}) P (B_{j}), i = 1, 2, \dots, r, j = 1, 2, \dots, c,

其意为：属性 $A$ 与 $B$ 相互独立；

在诸 $p_{ij}$ 未知（常见）场合，检验统计量为

χ^{2} = i = 1 \sum r j = 1 \sum c \frac{( n _{ij} - n p ^ _{ij} ) ^{2}}{n p ^ _{ij}},

其中

\overset{p}{^}_{ij} = \overset{p}{^}_{i \cdot} \overset{p}{^}_{\cdot j} = \frac{n _{i \cdot}}{n} \cdot \frac{n _{\cdot j}}{n}

是 $p_{ij}$ 的最大似然估计；

对给定显著性水平 $α (0 < α < 1)$ ，在 $n$ 较大场合该检验的拒绝域为

W = {χ^{2} \geq χ_{1 - α}^{2} ((r - 1) (c - 1))} .

习题与解答 7.4

习题 7.4-1

设 $x_{1}, x_{2}, \dots, x_{n}$ 为来自 $b (1, p)$ 的样本，试求
$H_{0} : p = p_{0} vs H_{1} : p \neq = p_{0}$
的似然比检验。

解样本的联合概率函数为

P (X_{1} = x_{1}, X_{2} = x_{2}, \dots, X_{n} = x_{n}) = p^{\sum_{i = 1}^{n} x_{i}} (1 - p)^{n - \sum_{i = 1}^{n} x_{i}} .

两个参数空间分别为

Θ_{0} = {p : p = p_{0}}, Θ = {p : 0 < p < 1},

利用微分法，在 $Θ$ 上 $p$ 的 MLE 为

\overset{p}{^} = \overset{x}{ˉ} .

则似然比统计量为

Λ (x_{1}, x_{2}, \dots, x_{n}) = \frac{x ˉ ^{n \overset{x}{ˉ}} ( 1 - x ˉ ) ^{n - n \overset{x}{ˉ}}}{p _{0}^{n \overset{x}{ˉ}} ( 1 - p _{0} ) ^{n - n \overset{x}{ˉ}}} = (\frac{x ˉ}{1 - x ˉ} \cdot \frac{1 - p _{0}}{p _{0}})^{\overset{x}{ˉ} n} (\frac{1 - x ˉ}{1 - p _{0}})^{n} .

通过稍显复杂的求导可知，当 $\overset{x}{ˉ} > p_{0}$ 时，

(\frac{x ˉ}{1 - x ˉ} \cdot \frac{1 - p _{0}}{p _{0}})^{\overset{x}{ˉ}} (\frac{1 - x ˉ}{1 - p _{0}})

为 $x$ 的严格增函数，而当 $\overset{x}{ˉ} < p_{0}$ 时，它为 $x$ 的严格减函数。从而拒绝域

{Λ (x_{1}, x_{2}, \dots, x_{n}) \geq c} ⟺ {i = 1 \sum n x_{i} \leq d_{1}} \cup {i = 1 \sum n x_{i} \geq d_{2}} .

这说明此时的似然比检验与传统的关于比率 $p$ 的检验是等价的，其中临界值 $d_{1}$ 与 $d_{2}$ 由显著性水平 $α$ 确定。

习题 7.4-2

设 $x_{1}, x_{2}, \dots, x_{n}$ 为来自 $N (μ, σ^{2})$ 的样本，试求
$H_{0} : σ^{2} = σ_{0}^{2} vs H_{1} : σ^{2} \neq = σ_{0}^{2}$
的似然比检验。

解记 $θ = (μ, σ^{2})$ ，样本的联合密度函数为

P (x_{1}, x_{2}, \dots, x_{n}; θ) = (2 π σ^{2})^{- n /2} exp {- \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}} .

两个参数空间分别为

Θ_{0} = {(μ, σ_{0}^{2}) ∣ μ \in R}, Θ = {(μ, σ^{2}) ∣ μ \in R, σ^{2} > 0} .

利用微分法可求出在 $Θ$ 上

\overset{μ}{^} = \overset{x}{ˉ}, s_{*}^{2} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2}

分别为 $μ, σ^{2}$ 的 MLE，而在 $Θ_{0}$ 上

\overset{μ}{^}_{0} = \overset{x}{ˉ}

为 $μ$ 的 MLE，于是似然比统计量为

Λ = \frac{( 2 π s _{*}^{2} ) ^{- n /2} exp { - n /2 }}{( 2 π σ _{0}^{2} ) ^{- n /2} exp { - \frac{n s _{*}^{2}}{2 σ _{0}^{2}} }} = [\frac{s _{*}^{2}}{σ _{0}^{2}} exp {1 - \frac{s _{*}^{2}}{σ _{0}^{2}}}]^{- n /2} .

通过简单的求导计算可知，函数 $x e^{- x}$ 在 $(0, 1)$ 区间内单调递增，在 $(1, + \infty)$ 上单调递减，于是

{Λ \geq c} ⟺ {\frac{n s _{*}^{2}}{σ _{0}^{2}} \leq d_{1}} \cup {\frac{n s _{*}^{2}}{σ _{0}^{2}} \geq d_{2}} .

从而似然比检验等价于采用

χ^{2} = \frac{n s _{*}^{2}}{σ _{0}^{2}}

做检验统计量，也就是说，似然比检验与传统的双侧卡方检验是等价的。

习题 7.4-3

设 $x_{1}, x_{2}, \dots, x_{n}$ 为来自指数分布 $E x p (λ_{1})$ 的样本， $y_{1}, y_{2}, \dots, y_{m}$ 为来自指数分布 $E x p (λ_{2})$ 的样本，且两组样本独立，其中 $λ_{1}, λ_{2}$ 是未知的正参数。

求

$H_{0} : λ_{1} = λ_{2} vs H_{1} : λ_{1} \neq = λ_{2}$
的似然比检验；

证明上述检验法的拒绝域仅依赖于比值

$i = 1 \sum n x_{i} / j = 1 \sum m y_{j};$

求统计量

$i = 1 \sum n x_{i} / j = 1 \sum m y_{j}$
在原假设成立下的分布。

解样本的联合密度函数为

P (x_{1}, x_{2}, \dots, x_{n}, y_{1}, y_{2}, \dots, y_{m}; θ) = λ_{1}^{n} e^{- λ_{1} \sum_{i = 1}^{n} x_{i}} λ_{2}^{m} e^{- λ_{2} \sum_{j = 1}^{m} y_{j}} .

参数空间分别为

Θ_{0} = {λ_{1} = λ_{2} = λ ∣ λ > 0}, Θ = {(λ_{1}, λ_{2}) ∣ λ_{1} > 0, λ_{2} > 0},

由微分法容易求出在 $Θ$ 下参数的最大似然估计为

\hat{λ}_{1} = \frac{n}{\sum _{i = 1}^{n} x _{i}}, \hat{λ}_{2} = \frac{m}{\sum _{j = 1}^{m} y _{j}} .

而在 $Θ_{0}$ 下参数的最大似然估计为

\hat{λ}_{0} = \frac{n + m}{\sum _{i = 1}^{n} x _{i} + \sum _{j = 1}^{m} y _{j}} .

则似然比统计量为

Λ = \frac{( \frac{n}{\sum _{i = 1}^{n} x _{i}} ) ^{n} ( \frac{m}{\sum _{j = 1}^{m} y _{j}} ) ^{m}}{( \frac{n + m}{\sum _{i = 1}^{n} x _{i} + \sum _{j = 1}^{m} y _{j}} ) ^{n + m}}

= \frac{n ^{n} m ^{m}}{( n + m ) ^{n + m}} (1 + \frac{\sum _{i = 1}^{n} x _{i}}{\sum _{j = 1}^{m} y _{j}})^{m} (1 + \frac{\sum _{j = 1}^{m} y _{j}}{\sum _{i = 1}^{n} x _{i}})^{n} .

由求导可知，函数

(1 + x)^{m} (1 + \frac{1}{x})^{n}

为先减后增的单峰函数，故此似然比检验拒绝域可等价写为

{Λ \geq c} ⟺ {i = 1 \sum n x_{i} / j = 1 \sum m y_{j} \leq d_{1}} \cup {i = 1 \sum n x_{i} / j = 1 \sum m y_{j} \geq d_{2}},

这就证明了（2）的结论。

注意到指数分布、伽马分布与卡方分布间的关系，可得

i = 1 \sum n x_{i} \sim G a (n, λ_{1}), 2 λ_{1} i = 1 \sum n x_{i} \sim G a (\frac{2 n}{2}, \frac{1}{2}) = χ^{2} (2 n),

j = 1 \sum m y_{j} \sim G a (m, λ_{2}), 2 λ_{2} j = 1 \sum m y_{j} \sim G a (\frac{2 m}{2}, \frac{1}{2}) = χ^{2} (2 m) .

再注意到诸 $x_{i}$ 与诸 $y_{j}$ 间的独立性，在原假设 $H_{0} : λ_{1} = λ_{2}$ 成立下，有如下抽样分布：

i = 1 \sum n x_{i} / j = 1 \sum m y_{j} \sim F (2 n, 2 m) .

习题 7.4-4

设 $x_{1}, x_{2}, \dots, x_{n}$ 为来自正态总体 $N (μ, σ^{2})$ 的 i.i.d. 样本，其中 $μ, σ^{2}$ 未知。证明关于检验问题
$H_{0} : μ \leq μ_{0} vs H_{1} : μ > μ_{0}$
的单侧 $t$ 检验是似然比检验（显著性水平 $α < 1/2$ ）。

解记 $θ = (μ, σ^{2})$ ，样本的联合密度函数为

p (x_{1}, x_{2}, \dots, x_{n}; θ) = (2 π σ^{2})^{- n /2} exp {- \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}},

两个参数空间分别为

Θ_{0} = {(μ, σ^{2}) ∣ μ \leq μ_{0}, σ^{2} > 0}, Θ = {(μ, σ^{2}) ∣ μ \in R, σ^{2} > 0} .

利用微分法，在 $Θ$ 下

\overset{μ}{^} = \overset{x}{ˉ}, \overset{σ}{^}^{2} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2}

分别为 $μ, σ^{2}$ 的 MLE，而在 $Θ_{0}$ 下 $μ, σ^{2}$ 的 MLE 为

\overset{μ}{^}_{0} = min {\overset{x}{ˉ}, μ_{0}}, \overset{σ}{^}_{0}^{2} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{μ}{^}_{0})^{2} .

于是似然比统计量为

Λ = (\frac{σ ^ ^{2}}{σ ^ _{0}^{2}})^{- n /2} = ⎩ ⎨ ⎧ 1, (1 + \frac{n ( x ˉ - μ _{0} ) ^{2}}{( n - 1 ) s ^{2}})^{n /2}, \overset{x}{ˉ} \leq μ_{0}, \overset{x}{ˉ} > μ_{0} .

在 $μ = μ_{0}$ 时 $P (\overset{x}{ˉ} \leq μ_{0}) = 1/2$ ，由于 $α < 1/2$ ，故只需考虑 $\overset{x}{ˉ} > μ_{0}$ 的情形，此时

Λ

为

t = \frac{n ( x ˉ - μ _{0} )}{s}

的单调增函数，故此时的似然比统计量 $Λ$ 是传统的 $t$ 统计量的增函数，即此时的似然比检验等价于单侧的 $t$ 检验，拒绝域

{Λ \geq c} ⟺ {\frac{n ( x ˉ - μ _{0} )}{s} \geq d} .

由 $t$ 检验的结论知，

d = t_{1 - α} (n - 1),

这就完成了证明。

习题 7.4-5

按孟德尔遗传规律，让开淡红花的豌豆随机交配，子代可区分为红花、淡红花和白花三类，其比例是 $1 : 2 : 1$ ，为了验证这一理论，观察一次实验，得到红花、淡红花和白花的豌豆株数分别为 $26, 66, 28$ ，这些数据与孟德尔定律是否一致（ $α = 0.05$ ）？

解这是一个分类数据的拟合优度检验，总体可分为三类。若记子代出现红花、淡红花和白花的分别概率为 $p_{1}, p_{2}, p_{3}$ ，则要检验的假设为

H_{0} : p_{10} = \frac{1}{4}, p_{20} = \frac{1}{2}, p_{30} = \frac{1}{4} .

此处 $r = 3, n = 120, n_{1} = 26, n_{2} = 66, n_{3} = 28$ ，

n p_{10} = 30, n p_{20} = 60, n p_{30} = 30.

故

χ^{2} = i = 1 \sum r \frac{( n _{i} - n p _{i 0} ) ^{2}}{n p _{i 0}} = \frac{( 26 - 30 ) ^{2}}{30} + \frac{( 66 - 60 ) ^{2}}{60} + \frac{( 28 - 30 ) ^{2}}{30} = 1.2667.

而

χ_{0.95}^{2} (2) = 5.9915 > 1.2667,

故没有理由拒绝 $H_{0}$ ，即认为孟德尔定律是可接受的。经计算，该检验的 $p$ 值为

p = P (χ^{2} (2) \geq 1.2667) = 0.5308.

习题 7.4-6

掷一颗骰子 $60$ 次，结果如下：
$点数次数 172831241159613$
试在显著性水平 $0.05$ 下检验这颗骰子是否均匀。

解这是一个分布拟合优度检验，总体总共分 $6$ 类。若记出现点数 $i$ 的概率为 $p_{i}$ ，则要检验的假设为

H_{0} : p_{1} = p_{2} = \dots = p_{6} = \frac{1}{6} .

这里 $k = 6$ ，检验拒绝域为

{χ^{2} \geq χ_{1 - α}^{2} (5)} .

若取 $α = 0.05$ ，则查表知

χ_{0.95}^{2} (5) = 11.0705,

检验的统计量为

χ^{2} = \frac{( 7 - 10 ) ^{2}}{10} + \frac{( 8 - 10 ) ^{2}}{10} + \dots + \frac{( 13 - 10 ) ^{2}}{10} = 2.8.

由于 $χ^{2} = 2.8$ 未落入拒绝域，故不拒绝原假设。在显著性水平为 $0.05$ 下可以认为这颗骰子是均匀的。此处检验的 $p$ 值为

p = P (χ^{2} (5) \geq 2.8) = 0.7308.

习题 7.4-7

检查了一批产品的 $100$ 箱，记录各箱中的不合格品的个数，其结果如下：
$不合格品个数箱数 035140219334251 \geq 6 0$
问能否认为一箱的不合格品个数服从泊松分布（取 $α = 0.05$ ）？

解这是一个要检验总体是否服从泊松分布的假设检验问题。由于有几类的观察个数偏少，为使用近似分布，需要把后面四类合并为一类。于是我们把总体分成 $4$ 类；在原假设下，每类出现的概率为

p_{i} = \frac{λ ^{i}}{i !} e^{- λ}, i = 0, 1, 2, p_{3} = i = 3 \sum \infty \frac{λ ^{i}}{i !} e^{- λ} .

未知参数 $λ$ 可采用最大似然方法进行估计，为

\hat{λ} = \frac{1}{100} (1 \times 40 + 2 \times 19 + \dots + 5 \times 1) = 1.

将 $\hat{λ}$ 代入可以估计出诸 $\overset{p}{^}_{i}$ 。于是可计算出检验统计量 $χ^{2}$ ，如下表：

\renewcommand{\arraystretch}{1.2}

$i$	$n_{i}$	$\overset{p}{^}_{i}$	$n \overset{p}{^}_{i}$	$(n_{i} - n \overset{p}{^}_{i})^{2} / n \overset{p}{^}_{i}$
$0$	$35$	$0.3679$	$36.79$	$0.0871$
$1$	$40$	$0.3679$	$36.79$	$0.2801$
$2$	$19$	$0.1839$	$18.39$	$0.0202$
$3$	$6$	$0.0803$	$8.03$	$0.5132$
合计	$100$	$1.0000$	$100$	$χ^{2} = 0.9006$

若取 $α = 0.05$ ，查表知

χ_{0.95}^{2} (2) = 5.9915,

故拒绝域为

W = {χ^{2} \geq 5.9915} .

由于 $χ^{2} = 0.9006 < 5.9915$ ，故不拒绝原假设，在显著性水平 $0.05$ 下可以认为一箱的不合格品数是服从泊松分布的。此处检验的 $p$ 值为

p = P (χ^{2} \geq 0.9006) = 0.6374.

习题 7.4-8

某建筑工地每天发生事故数现场记录如下：
$一天发生的事故数天数 0102159230384051 \geq 6 0 合计 200$
试在显著性水平 $α = 0.05$ 下检验这批数据是否服从泊松分布。

解本题与上题完全类似，仍为检验总体是否服从泊松分布的分布拟合检验问题。由于有几类的观察个数偏少，为使用近似分布，需要把后面四类合并为一类。于是我们把总体分成 $4$ 类；在原假设下，每类出现的概率为

p_{i} = \frac{λ ^{i}}{i !} e^{- λ}, i = 0, 1, 2, p_{3} = i = 3 \sum \infty \frac{λ ^{i}}{i !} e^{- λ} .

未知参数 $λ$ 采用最大似然估计得

\hat{λ} = \frac{1}{200} (1 \times 59 + 2 \times 30 + 3 \times 8 + 5 \times 1) = 0.74.

将 $\hat{λ}$ 代入可估计出诸 $\overset{p}{^}_{i}$ 。于是可计算出检验统计量 $χ^{2}$ ，如下表：

\renewcommand{\arraystretch}{1.2}

$i$	$n_{i}$	$\overset{p}{^}_{i}$	$n \overset{p}{^}_{i}$	$(n_{i} - n \overset{p}{^}_{i})^{2} / n \overset{p}{^}_{i}$
$0$	$102$	$0.4771$	$95.42$	$0.4537$
$1$	$59$	$0.3531$	$70.62$	$1.9120$
$2$	$30$	$0.1306$	$26.12$	$0.5764$
$3$	$9$	$0.0392$	$7.84$	$0.1716$
合计	$200$	$1.0000$	$200$	$χ^{2} = 3.1137$

若取 $α = 0.05$ ，查表知

χ_{0.95}^{2} (2) = 5.9915,

故拒绝域为

W = {χ^{2} \geq 5.9915} .

由于 $χ^{2} = 3.1137 < 5.9915$ ，故不拒绝原假设，在显著性水平 $0.05$ 下可以认为这批数据服从泊松分布。此处检验的 $p$ 值为

p = P (χ^{2} \geq 3.1137) = 0.2108.

习题 7.4-9

在一批灯泡中抽取 $300$ 只作寿命试验，其结果如下：
$寿命 /h 灯泡数 < 100 121 [100, 200) 78 [200, 300) 43 \geq 300 58$
在显著性水平 $0.05$ 下能否认为灯泡寿命服从指数分布 $E x p (0.005)$ ？

解这是一个检验总体是否服从指数分布 $E x p (0.005)$ 的假设检验问题。本题中总体分成 $4$ 类；在原假设成立下，每类出现的概率 $p_{i}$ 及 $n p_{i}$ 分别为

p_{1} = 1 - e^{- λ t} = 1 - e^{- 0.005 \times 100} = 0.3935, n p_{1} = 300 \times 0.3935 = 118.05,

p_{2} = e^{- 100 λ} - e^{- 200 λ} = 0.2387, n p_{2} = 300 \times 0.2387 = 71.61,

p_{3} = e^{- 200 λ} - e^{- 300 λ} = 0.1447, n p_{3} = 300 \times 0.1447 = 43.41,

p_{4} = e^{- 300 λ} = 0.2231, n p_{4} = 300 \times 0.2231 = 66.93.

因而，检验的统计量为

χ^{2} = \frac{( 121 - 118.05 ) ^{2}}{118.05} + \frac{( 78 - 71.61 ) ^{2}}{71.61} + \frac{( 43 - 43.41 ) ^{2}}{43.41} + \frac{( 58 - 66.93 ) ^{2}}{66.93} = 1.8393.

这里 $r = 4$ ，检验拒绝域为

{χ^{2} \geq χ_{1 - α}^{2} (3)} .

若取 $α = 0.05$ ，则

χ_{0.95}^{2} (3) = 7.8147.

由于 $χ^{2} = 1.8393$ 未落入拒绝域，故不拒绝原假设，在显著性水平 $0.05$ 下可以认为灯泡寿命服从指数分布 $E x p (0.005)$ 。此处检验的 $p$ 值为

p = P (χ^{2} \geq 1.8393) = 0.6064.

习题 7.4-10

下表是上海 1875 年到 1955 年的 81 年间，根据其中 63 年观察到的一年中（5 月到 9 月）下暴雨次数的整理资料
$i n_{i} 041821431941054627181 \geq 9 0$
试检验一年中暴雨次数是否服从泊松分布（ $α = 0.05$ ）。

解这是一个检验总体是否服从泊松分布的假设检验问题。为了满足每一类出现的样本观测次数不小于 $5$ ，我们把 $k \leq 1$ 和 $k \geq 5$ 分别合并为一类，把总体分为 $5$ 类，在原假设下每类出现的概率为

p_{1} = (λ + 1) e^{- λ}, p_{i} = \frac{λ ^{i}}{i !} e^{- λ}, i = 2, 3, 4, p_{5} = i = 5 \sum \infty \frac{λ ^{i}}{i !} e^{- λ} .

未知参数 $λ$ 采用最大似然方法估计得

\hat{λ} = \frac{1}{63} (1 \times 8 + 2 \times 14 + 3 \times 19 + 4 \times 10 + 5 \times 4 + 6 \times 2 + 7 \times 1 + 8 \times 1) = 2.8571.

将 $\hat{λ}$ 代入可计算相关概率估计值 $\overset{p}{^}_{k}, k = 1, 2, \dots, 9$ ，进而算出检验统计量 $χ^{2}$ ，如下表：

序号 i 12345 总和 暴雨次数 \leq 1 234 \geq 5 n_{i} 12141910863 \overset{p}{^}_{i} 0.2215 0.2344 0.2233 0.1595 0.1613 1 n \overset{p}{^}_{i} 13.95 14.77 14.07 10.05 10.16 63 \frac{( n _{i} - n p ^ _{i} ) ^{2}}{n p ^ _{i}} 0.2726 0.0401 1.7274 0.0002 0.4592 2.4995

而

χ_{0.95}^{2} (r - k - 1) = χ_{0.95}^{2} (3) = 7.8147,

故拒绝域为

W = {χ^{2} \geq 7.8147},

观察结果 $χ^{2}$ 不落在拒绝域，因此不能拒绝 $H_{0}$ ，即可以认为一年中暴雨的次数服从泊松分布。此处的 $p$ 值为

p = P (χ^{2} \geq 2.4995) = 0.4754.

习题 7.4-11

某种配偶的后代按体格的属性分为三类，各类的数目分别是 $10, 53, 46$ 。按照某种遗传模型其频率之比应为
$p^{2} : 2 p (1 - p) : (1 - p)^{2},$
问数据与模型是否相符（ $α = 0.05$ ）？

解这是一个分布拟合优度检验，总体可分为三类。若记三类出现的概率分别为 $p_{1}, p_{2}, p_{3}$ ，则要检验的假设为

H_{0} : p_{1} = p^{2}, p_{2} = 2 p (1 - p), p_{3} = (1 - p)^{2} .

此处 $r = 3, n = 109, n_{1} = 10, n_{2} = 53, n_{3} = 46$ 。由于含有一个未知参数 $p$ ，需要将之估计出来，用最大似然法估计 $p$ 。其似然函数为

L = (p^{2})^{n_{1}} \cdot [2 p (1 - p)]^{n_{2}} \cdot [(1 - p)^{2}]^{n_{3}} = 2^{n_{2}} p^{2 n_{1} + n_{2}} (1 - p)^{n_{2} + 2 n_{3}},

ln L = (2 n_{1} + n_{2}) ln p + (n_{2} + 2 n_{3}) ln (1 - p) + n_{2} ln 2,

再微分法可得

\overset{p}{^} = \frac{2 n _{1} + n _{2}}{2 n} = \frac{2 \times 10 + 53}{2 ( 10 + 53 + 46 )} = 0.3349,

于是

\overset{p}{^}_{1} = 0.1121, \overset{p}{^}_{2} = 0.4455, \overset{p}{^}_{3} = 0.4424,

从而

χ^{2} = \frac{( 10 - 109 \times 0.1121 ) ^{2}}{109 \times 0.1121} + \frac{( 53 - 109 \times 0.4455 ) ^{2}}{109 \times 0.4455} + \frac{( 46 - 109 \times 0.4424 ) ^{2}}{109 \times 0.4424} = 0.9114.

查表知

χ_{0.95}^{2} (1) = 3.8415,

故拒绝域为

W = {χ^{2} \geq 3.8415},

观察结果 $χ^{2}$ 不落在拒绝域，因此不能拒绝 $H_{0}$ ，即可认为数据与模型是相符的。此处的 $p$ 值为

p = P (χ^{2} \geq 0.9114) = 0.3397.

习题 7.4-12

设按有无特性 $A$ 与 $B$ 将 $n$ 个样品分成四类，组成 $2 \times 2$ 列联表：
$A \overset{ˉ}{A} 合计 B a c a + c \overset{ˉ}{B} b d b + d 合计 a + b c + d n$
其中 $n = a + b + c + d$ ，试证明此列联表独立性检验的 $χ^{2}$ 统计量可以表示成
$χ^{2} = \frac{n ( a d - b c ) ^{2}}{( a + b ) ( c + d ) ( a + c ) ( b + d )} .$

解检验的假设问题为 $H_{0} : A$ 与 $B$ 是独立的。统计表示如下：

H_{0} : p_{ij} = p_{i \cdot} p_{\cdot j}, i = 1, 2, j = 1, 2.

在原假设成立下，我们计算诸参数的最大似然估计，为

\overset{p}{^}_{1 \cdot} = \frac{a + b}{n}, \overset{p}{^}_{2 \cdot} = \frac{c + d}{n}, \overset{p}{^}_{\cdot 1} = \frac{a + c}{n}, \overset{p}{^}_{\cdot 2} = \frac{b + d}{n} .

进而得到

n \overset{p}{^}_{11} = \frac{( a + b ) ( a + c )}{n}, n \overset{p}{^}_{12} = \frac{( a + b ) ( b + d )}{n},

n \overset{p}{^}_{21} = \frac{( a + c ) ( c + d )}{n}, n \overset{p}{^}_{22} = \frac{( c + d ) ( b + d )}{n} .

因而检验统计量为

χ^{2} = \frac{( a - \frac{( a + b ) ( a + c )}{n} ) ^{2}}{\frac{( a + b ) ( a + c )}{n}} + \frac{( b - \frac{( a + b ) ( b + d )}{n} ) ^{2}}{\frac{( a + b ) ( b + d )}{n}} + \frac{( c - \frac{( a + c ) ( c + d )}{n} ) ^{2}}{\frac{( a + c ) ( c + d )}{n}} + \frac{( d - \frac{( c + d ) ( b + d )}{n} ) ^{2}}{\frac{( c + d ) ( b + d )}{n}} = \frac{\frac{[ na - ( a + b ) ( a + c ) ] ^{2}}{n}}{( a + b ) ( a + c )} + \frac{\frac{[ nb - ( a + b ) ( b + d ) ] ^{2}}{n}}{( a + b ) ( b + d )} + \frac{\frac{[ n c - ( a + c ) ( c + d ) ] ^{2}}{n}}{( a + c ) ( c + d )} + \frac{\frac{[ n d - ( c + d ) ( b + d ) ] ^{2}}{n}}{( c + d ) ( b + d )} = \frac{\frac{( a d - b c ) ^{2}}{n} ( c + d ) ( b + d )}{( a + b ) ( a + c ) ( c + d ) ( b + d )} + \frac{\frac{( a d - b c ) ^{2}}{n} ( a + c ) ( c + d )}{( a + b ) ( a + c ) ( c + d ) ( b + d )} + \frac{\frac{( a d - b c ) ^{2}}{n} ( a + b ) ( b + d )}{( a + b ) ( a + c ) ( c + d ) ( b + d )} + \frac{\frac{( a d - b c ) ^{2}}{n} ( a + b ) ( a + c )}{( a + b ) ( a + c ) ( c + d ) ( b + d )} = \frac{\frac{( a d - b c ) ^{2}}{n}}{( a + b ) ( a + c ) ( c + d ) ( b + d )} [n (a + b) + n (c + d)] = \frac{n ( a d - b c ) ^{2}}{( a + b ) ( a + c ) ( c + d ) ( b + d )} .

证明完成。

习题 7.4-13

在研究某种新措施对猪白痢的防治效果问题时，获得了如下数据：
$对照新措施合计存活数 114132246 死亡数 361854 合计 150150300 死亡率 24% 12% 18%$
试问新旧措施对防治该种疾病的疗效是否有显著差异（ $α = 0.05$ ）？

解用 $A$ 表示有无使用新措施，它有两个水平： $A_{1}$ 表示对照组， $A_{2}$ 表示新措施组，用 $B$ 表示防治效果，它也有两个水平： $B_{1}$ 表示存活， $B_{2}$ 表示死亡。检验的假设为

H_{0} : 新措施与防治该疾病无关系，即 A 与 B 是独立的。

统计表示如下：

H_{0} : p_{ij} = p_{i \cdot} p_{\cdot j}, i = 1, 2, j = 1, 2.

由第 $12$ 题可知，此列联表独立性检验的 $χ^{2}$ 统计量可以表示成

χ^{2} = \frac{300 \times ( 114 \times 18 - 132 \times 36 ) ^{2}}{( 114 + 36 ) ( 132 + 18 ) ( 114 + 132 ) ( 36 + 18 )} = \frac{300 \times ( - 2700 ) ^{2}}{150 \times 150 \times 246 \times 54} = 7.3171.

此处 $r = c = 2, (r - 1) (c - 1) = 1$ ，

χ_{0.95}^{2} (1) = 3.8415 < χ^{2} = 7.3171,

故拒绝原假设，即认为新旧措施对防治该疾病的疗效有显著差异。此处的 $p$ 值为

p = P (χ^{2} \geq 7.3171) = 0.0068.

习题 7.4-14

某单位调查了 $520$ 名中年以上的脑力劳动者，其中 $136$ 人有高血压史，另外 $384$ 人则无。在有高血压史的 $136$ 人中，经诊断冠心病及可疑者的有 $48$ 人，在无高血压史的 $384$ 人中，经诊断为冠心病及可疑者的有 $36$ 人。从这个资料，对高血压与冠心病有无关系作检验，取 $α = 0.01$ 。

解该题完全类似于上题。用 $A$ 表示有无高血压，它有两个水平： $A_{1}$ 表示有高血压史， $A_{2}$ 表示无高血压史；用 $B$ 表示诊断结果，它也有两个水平： $B_{1}$ 表示诊断为冠心病及可疑者， $B_{2}$ 表示诊断结果正常。则由已知得下表：

A_{1} A_{2} 合计 B_{1} 483684 B_{2} 88348436 合计 136384520

检验的假设为

H_{0} : 高血压与冠心病无关联，即 A 与 B 是独立的。

统计表示如下：

H_{0} : p_{ij} = p_{i \cdot} p_{\cdot j}, i = 1, 2, j = 1, 2.

由 $12$ 题可知，此列联表独立性检验的 $χ^{2}$ 统计量可以表示成

χ^{2} = \frac{520 \times ( 48 \times 348 - 88 \times 36 ) ^{2}}{( 48 + 88 ) ( 36 + 348 ) ( 48 + 36 ) ( 88 + 348 )} = \frac{520 \times 1353 6 ^{2}}{136 \times 384 \times 84 \times 436} = 49.8136.

此处 $r = c = 2, (r - 1) (c - 1) = 1$ ，

χ_{0.99}^{2} (1) = 6.6349,

此处观测值远远超过临界值，故拒绝原假设，即认为高血压与冠心病有关系。此处的 $p$ 值为

p = P (χ^{2} \geq 49.8136) ≐ 0.

习题 7.4-15

一项是否应提高小学生的计算机课程的比例的调查结果如下：
$年龄 55 岁以上 36 \sim 55 岁 15 \sim 35 岁同意 324447 不同意 282112 不知道 141713$
问年龄因素是否影响了对问题的回答（ $α = 0.05$ ）？

解待检验的假设为

H_{0} : 年龄因素对问题的回答无关联。

统计表示如下：

H_{0} : p_{ij} = p_{i \cdot} p_{\cdot j}, i = 1, 2, 3, j = 1, 2, 3.

在原假设成立下，我们计算诸参数的最大似然估计，为

\overset{p}{^}_{\cdot 1} = \frac{74}{228} = 0.3246, \overset{p}{^}_{\cdot 2} = \frac{82}{228} = 0.3596, \overset{p}{^}_{\cdot 3} = \frac{72}{228} = 0.3158,

\overset{p}{^}_{1 \cdot} = \frac{123}{228} = 0.5395, \overset{p}{^}_{2 \cdot} = \frac{61}{228} = 0.2675, \overset{p}{^}_{3 \cdot} = \frac{44}{228} = 0.1930.

进而利用 $\overset{p}{^}_{ij} = \overset{p}{^}_{i \cdot} \overset{p}{^}_{\cdot j}$ 得到

n \overset{p}{^}_{11} = 39.9277, n \overset{p}{^}_{12} = 19.7974, n \overset{p}{^}_{13} = 14.2837,

n \overset{p}{^}_{21} = 44.2330, n \overset{p}{^}_{22} = 21.9320, n \overset{p}{^}_{23} = 15.8238,

n \overset{p}{^}_{31} = 38.8453, n \overset{p}{^}_{32} = 19.2606, n \overset{p}{^}_{33} = 13.8965.

由以上结果可计算出检验的统计量

χ^{2} = i = 1 \sum 3 j = 1 \sum 3 \frac{( n _{ij} - n p ^ _{ij} ) ^{2}}{n p ^ _{ij}} = 9.6133.

此处 $r = c = 3, (r - 1) (c - 1) = 4$ ，

χ_{0.95}^{2} (4) = 9.4877 < χ^{2} = 9.6133,

故拒绝原假设，即认为年龄因素与问题的回答有关联。此处的 $p$ 值为

p = P (χ^{2} \geq 9.6133) = 0.0475.

群知识库

AI 找笔记

Explorer

7.4 似然比检验与分布拟合检验

§7.4 似然比检验与分布拟合检验

依赖于

被以下题目直接调用

正文部分

§7.4 似然比检验与分布拟合检验

习题与解答 7.4

评论

Graph View

目录

反向链接