§7.4 似然比检验与分布拟合检验

依赖于

  • 无显式依赖

被以下题目直接调用

正文部分

§7.4 似然比检验与分布拟合检验

1. 似然比检验 为来自密度函数为 的总体的样本,则对检验问题

可用似然比统计量

作检验统计量,该检验称为似然比(likelihood ratio)检验,有时也称之为广义似然比检验。

检验统计量也可以写为

其中 表示在全参数空间 的最大似然估计, 表示在原假设成立时子参数空间 的最大似然估计。拒绝域为

其中临界值

确定。

似然比检验是寻找检验统计量的一种思路。该似然比统计量没有统一的精确分布形式,但其对数似然比的 倍,即 ,渐近服从 分布,其中 中独立参数个数。

2. 总体可以分成 类: 时的分布拟合优度检验

  1. 原假设

其中诸 ,且

  1. 数据:对总体作 次观察, 个类各出现的频数分别为 ,且

分两种情况给出检验统计量及其拒绝域:

  1. 均已知,检验统计量

拒绝域为

  1. 不完全已知,检验统计量

拒绝域为

其中 中独立参数个数, 的最大似然估计。

这个检验被 K. 皮尔逊称为 拟合优度检验, 被称为拟合优度, 值愈大拟合优度愈好, 值愈小拟合优度愈差,从而拒绝原假设

3. 列联表的独立性检验 的二维列联表:总体按两个属性 分类, 个类: 个类:,共有 个类;若进行 次试验,其中所属 又属 的结果有 个,按矩阵排列,就得 二维列联表。

\renewcommand{\arraystretch}{1.2}

A行和
\vdots\vdots\vdots\vdots
\vdots\vdots\vdots\vdots
列和
  1. 原假设

其意为:属性 相互独立;

  1. 在诸 未知(常见)场合,检验统计量为

其中

的最大似然估计;

  1. 对给定显著性水平 ,在 较大场合该检验的拒绝域为

习题与解答 7.4

习题 7.4-1

为来自 的样本,试求

的似然比检验。

样本的联合概率函数为

两个参数空间分别为

利用微分法,在 的 MLE 为

则似然比统计量为

通过稍显复杂的求导可知,当 时,

的严格增函数,而当 时,它为 的严格减函数。从而拒绝域

这说明此时的似然比检验与传统的关于比率 的检验是等价的,其中临界值 由显著性水平 确定。

习题 7.4-2

为来自 的样本,试求

的似然比检验。

,样本的联合密度函数为

两个参数空间分别为

利用微分法可求出在

分别为 的 MLE,而在

的 MLE,于是似然比统计量为

通过简单的求导计算可知,函数 区间内单调递增,在 上单调递减,于是

从而似然比检验等价于采用

做检验统计量,也就是说,似然比检验与传统的双侧卡方检验是等价的。

习题 7.4-3

为来自指数分布 的样本, 为来自指数分布 的样本,且两组样本独立,其中 是未知的正参数。

的似然比检验;

  1. 证明上述检验法的拒绝域仅依赖于比值
  1. 求统计量

在原假设成立下的分布。

样本的联合密度函数为

参数空间分别为

由微分法容易求出在 下参数的最大似然估计为

而在 下参数的最大似然估计为

则似然比统计量为

由求导可知,函数

为先减后增的单峰函数,故此似然比检验拒绝域可等价写为

这就证明了(2)的结论。

注意到指数分布、伽马分布与卡方分布间的关系,可得

再注意到诸 与诸 间的独立性,在原假设 成立下,有如下抽样分布:

习题 7.4-4

为来自正态总体 的 i.i.d. 样本,其中 未知。证明关于检验问题

的单侧 检验是似然比检验(显著性水平 )。

,样本的联合密度函数为

两个参数空间分别为

利用微分法,在

分别为 的 MLE,而在 的 MLE 为

于是似然比统计量为

,由于 ,故只需考虑 的情形,此时

的单调增函数,故此时的似然比统计量 是传统的 统计量的增函数,即此时的似然比检验等价于单侧的 检验,拒绝域

检验的结论知,

这就完成了证明。

习题 7.4-5

按孟德尔遗传规律,让开淡红花的豌豆随机交配,子代可区分为红花、淡红花和白花三类,其比例是 ,为了验证这一理论,观察一次实验,得到红花、淡红花和白花的豌豆株数分别为 ,这些数据与孟德尔定律是否一致()?

这是一个分类数据的拟合优度检验,总体可分为三类。若记子代出现红花、淡红花和白花的分别概率为 ,则要检验的假设为

此处

故没有理由拒绝 ,即认为孟德尔定律是可接受的。经计算,该检验的 值为

习题 7.4-6

掷一颗骰子 次,结果如下:

试在显著性水平 下检验这颗骰子是否均匀。

这是一个分布拟合优度检验,总体总共分 类。若记出现点数 的概率为 ,则要检验的假设为

这里 ,检验拒绝域为

若取 ,则查表知

检验的统计量为

由于 未落入拒绝域,故不拒绝原假设。在显著性水平为 下可以认为这颗骰子是均匀的。此处检验的 值为

习题 7.4-7

检查了一批产品的 箱,记录各箱中的不合格品的个数,其结果如下:

问能否认为一箱的不合格品个数服从泊松分布(取 )?

这是一个要检验总体是否服从泊松分布的假设检验问题。由于有几类的观察个数偏少,为使用近似分布,需要把后面四类合并为一类。于是我们把总体分成 类;在原假设下,每类出现的概率为

未知参数 可采用最大似然方法进行估计,为

代入可以估计出诸 。于是可计算出检验统计量 ,如下表:

\renewcommand{\arraystretch}{1.2}

合计

若取 ,查表知

故拒绝域为

由于 ,故不拒绝原假设,在显著性水平 下可以认为一箱的不合格品数是服从泊松分布的。此处检验的 值为

习题 7.4-8

某建筑工地每天发生事故数现场记录如下:

试在显著性水平 下检验这批数据是否服从泊松分布。

本题与上题完全类似,仍为检验总体是否服从泊松分布的分布拟合检验问题。由于有几类的观察个数偏少,为使用近似分布,需要把后面四类合并为一类。于是我们把总体分成 类;在原假设下,每类出现的概率为

未知参数 采用最大似然估计得

代入可估计出诸 。于是可计算出检验统计量 ,如下表:

\renewcommand{\arraystretch}{1.2}

合计

若取 ,查表知

故拒绝域为

由于 ,故不拒绝原假设,在显著性水平 下可以认为这批数据服从泊松分布。此处检验的 值为

习题 7.4-9

在一批灯泡中抽取 只作寿命试验,其结果如下:

在显著性水平 下能否认为灯泡寿命服从指数分布

这是一个检验总体是否服从指数分布 的假设检验问题。本题中总体分成 类;在原假设成立下,每类出现的概率 分别为

因而,检验的统计量为

这里 ,检验拒绝域为

若取 ,则

由于 未落入拒绝域,故不拒绝原假设,在显著性水平 下可以认为灯泡寿命服从指数分布 。此处检验的 值为

习题 7.4-10

下表是上海 1875 年到 1955 年的 81 年间,根据其中 63 年观察到的一年中(5 月到 9 月)下暴雨次数的整理资料

试检验一年中暴雨次数是否服从泊松分布()。

这是一个检验总体是否服从泊松分布的假设检验问题。为了满足每一类出现的样本观测次数不小于 ,我们把 分别合并为一类,把总体分为 类,在原假设下每类出现的概率为

未知参数 采用最大似然方法估计得

代入可计算相关概率估计值 ,进而算出检验统计量 ,如下表:

故拒绝域为

观察结果 不落在拒绝域,因此不能拒绝 ,即可以认为一年中暴雨的次数服从泊松分布。此处的 值为

习题 7.4-11

某种配偶的后代按体格的属性分为三类,各类的数目分别是 。按照某种遗传模型其频率之比应为

问数据与模型是否相符()?

这是一个分布拟合优度检验,总体可分为三类。若记三类出现的概率分别为 ,则要检验的假设为

此处 。由于含有一个未知参数 ,需要将之估计出来,用最大似然法估计 。其似然函数为

再微分法可得

于是

从而

查表知

故拒绝域为

观察结果 不落在拒绝域,因此不能拒绝 ,即可认为数据与模型是相符的。此处的 值为

习题 7.4-12

设按有无特性 个样品分成四类,组成 列联表:

其中 ,试证明此列联表独立性检验的 统计量可以表示成

检验的假设问题为 是独立的。统计表示如下:

在原假设成立下,我们计算诸参数的最大似然估计,为

进而得到

因而检验统计量为

证明完成。

习题 7.4-13

在研究某种新措施对猪白痢的防治效果问题时,获得了如下数据:

试问新旧措施对防治该种疾病的疗效是否有显著差异()?

表示有无使用新措施,它有两个水平: 表示对照组, 表示新措施组,用 表示防治效果,它也有两个水平: 表示存活, 表示死亡。检验的假设为

统计表示如下:

由第 题可知,此列联表独立性检验的 统计量可以表示成

此处

故拒绝原假设,即认为新旧措施对防治该疾病的疗效有显著差异。此处的 值为

习题 7.4-14

某单位调查了 名中年以上的脑力劳动者,其中 人有高血压史,另外 人则无。在有高血压史的 人中,经诊断冠心病及可疑者的有 人,在无高血压史的 人中,经诊断为冠心病及可疑者的有 人。从这个资料,对高血压与冠心病有无关系作检验,取

该题完全类似于上题。用 表示有无高血压,它有两个水平: 表示有高血压史, 表示无高血压史;用 表示诊断结果,它也有两个水平: 表示诊断为冠心病及可疑者, 表示诊断结果正常。则由已知得下表:

检验的假设为

统计表示如下:

题可知,此列联表独立性检验的 统计量可以表示成

此处

此处观测值远远超过临界值,故拒绝原假设,即认为高血压与冠心病有关系。此处的 值为

习题 7.4-15

一项是否应提高小学生的计算机课程的比例的调查结果如下:

问年龄因素是否影响了对问题的回答()?

待检验的假设为

统计表示如下:

在原假设成立下,我们计算诸参数的最大似然估计,为

进而利用 得到

由以上结果可计算出检验的统计量

此处

故拒绝原假设,即认为年龄因素与问题的回答有关联。此处的 值为