05-第五章 统计量及其分布
依赖于
被以下题目直接调用
正文部分
§5.1 总体与样本
1. 总体 在一个统计问题中,研究对象的全体称为总体,构成总体的每个成员称为个体。
若关心的是总体中每个个体的一个数量指标,则该总体称为一维总体,总体就是一个一维分布。
若关心的是总体中的每个个体的两个数量指标,则该总体称为二维总体,二维总体就是一个二维分布。以此类推。
2. 有限总体与无限总体 若总体中的个体数是有限的,此总体称为有限总体。若总体中的个体数是无限的,此总体称为无限总体。
实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。
3. 样本 从总体中随机抽取的部分个体组成的集合称为样本,样本中的个体称为样品,样品个数称为样本容量或样本量。
样本常用 n 个指标值 x1,x2,…,xn 表示。样本具有二重性:它可看作 n 个随机变量,又可看作其观察值,这可由上下文加以区别。
4. 分组样本 只知样本观测值所在区间,而不知具体值的样本称为分组样本。
缺点:与完全样本相比损失部分信息。
优点:在样本量较大时,用分组样本既简明扼要,又能帮助人们更好地认识总体。
5. 简单随机样本 若样本 x1,x2,…,xn 是 n 个相互独立的、具有同一分布(总体分布)的随机变量,则称该样本为简单随机样本,仍简称样本。
若总体的分布函数为 F(x),则其样本的(联合)分布函数为
i=1∏nF(xi);
若总体的密度函数为 p(x),则其样本的(联合)密度函数为
i=1∏np(xi);
若总体的分布列为 {p(xi)},则其样本的(联合)分布列为
i=1∏np(xi).
习题与解答 5.1
某地电视台想了解某电视栏目(如:每晚九点至九点半的体育节目)在该地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。
- 该项研究的总体是什么?
- 该项研究的样本是什么?
解
- 该项研究的总体是该地区全体电视观众;
- 该项研究的样本是该地区被电话访查的电视观众。
某市要调查成年男子的吸烟率,特聘请 50 名统计专业本科生作街头随机调查,要求每位学生调查 100 名成年男子,问该项调查的总体和样本分别是什么,总体用什么分布描述为宜?
解
- 总体是该市所有成年男子(的吸烟情况);
- 样本是被调查的 5000 名成年男子(的吸烟情况);
- 总体分布为二点分布 b(1,p),其中 p 为该市成年男子的吸烟率。
设某厂大量生产某种产品,其不合格品率 p 未知,每 m 件产品包装为一盒。为了检查产品的质量,任意抽取 n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布。
解
总体为该厂生产的每盒产品中的不合格品数;样本是任意抽取的 n 盒中每盒产品的不合格品数。
样本中每盒产品中的不合格品数为 x1,x2,…,xn,因
xi∼b(m,p),i=1,2,…,n,
所以样本 (x1,x2,…,xn) 的分布为
i=1∏n(xim)pxi(1−p)m−xi=(i=1∏n(xim))pt(1−p)nm−t,
其中
t=x1+x2+⋯+xn.
为估计鱼塘里有多少鱼,一位统计学家设计了一个方案如下:从鱼塘中打捞出一网鱼,计有 n 条,涂上不会被水冲刷掉的红漆后放回,一天后再从鱼塘里打捞一网,发现共有 m 条鱼,而涂有红漆的鱼则有 k 条,能估计出鱼塘里大概有多少条鱼么?该问题的总体和样本又分别是什么呢?
解
直观上我们可以给出鱼数的估计,按照成比例的设想,我们应能估算出鱼塘里大概有 nm/k 条鱼,这就是我们将在第六章介绍的频率替换的思想。该问题中总体为鱼塘里所有的鱼,而样本为一天后从鱼塘里打捞出的鱼,主要观测其是否有记号。
思考:如果要提高估计精度,可作何设想?
某厂生产的电容器的使用寿命服从指数分布,为了了解其平均寿命,从中抽出 n 件产品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布。
解
总体是该厂生产的电容器的寿命全体,或者可以说总体是指数分布,其分布为 Exp(λ);
样本是该厂中抽出的 n 个电容器的寿命;
记第 i 个电容器的寿命为 xi,则
xi∼Exp(λ),i=1,2,…,n,
样本 (x1,x2,…,xn) 的分布为
i=1∏nλe−λxi=λne−λt,
其中
t=x1+x2+⋯+xn.
美国某高校根据毕业生返校情况记录,宣布该校毕业生的年平均工资为 5 万美元,你对此有何评论?
解
毕业生返校记录是全体毕业生中的一个特殊群体(子总体)的一个样本,它只能反映该子总体的特征,不能反映全体毕业生的状况,故此说法有失偏颇。
补充习题及解答
设有 N 个产品,其中有 M 个不合格品。进行放回抽样,定义 xi 如下:
xi={1,0,第 i 次取得不合格品,第 i 次取得合格品.
求样本 x1,x2,…,xn 的联合分布。
解
总体的分布列为
P(X=1)=NM,P(X=0)=1−NM,
也可以写成
P(X=x)=(NM)x(1−NM)1−x,x=0,1.
因此样本 x1,x2,…,xn 的联合分布列为
P(x1,x2,…,xn)=i=1∏n(NM)xi(1−NM)1−xi=(NM)t(1−NM)n−t,
其中 xi=0,1,
t=x1+x2+⋯+xn.
设离散总体的分布列为
P(X=k)=N1,k=1,2,…,N.
现进行不放回抽样,x1,x2,…,xn 为样本,
x=n1i=1∑nxi
为样本均值,求 E(x) 与 Var(x)(表示成 N 的函数)。
解
由于 N 有限,抽样是不放回的,所以样本 x1,x2,…,xn 中诸 xi 的分布列与总体的分布列相同,但诸 xi 间不相互独立,即此样本不是简单随机样本。以下我们先求诸 xi 的期望、方差与协方差:
E(xi)=k=1∑NNk=N1⋅2N(N+1)=2N+1,i=1,2,…,n,
Var(xi)=E(xi2)−[E(xi)]2=k=1∑NNk2−(2N+1)2=12N2−1,i=1,2,…,n,
Cov(xi,xj)=E(xixj)−E(xi)E(xj)=N(N−1)1k=l∑kl−(2N+1)2,
其中
k=l∑kl=(k=1∑Nk)2−k=1∑Nk2=4N2(N+1)2−6N(N+1)(2N+1)
=12N(N+1)(N−1)(3N+2).
代回原协方差表达式,可得
Cov(xi,xj)=12N(N−1)N(N+1)(N−1)(3N+2)−4(N+1)2=−12N+1,
其中 i=j 且 i,j=1,2,…,n。
由此可得样本均值 x 的期望与方差
E(x)=n1i=1∑nE(xi)=2N+1,
Var(x)=n21i=1∑nVar(xi)+i=j∑Cov(xi,xj)
=n21[12n(N2−1)−n(n−1)⋅12N+1]=12n1(N+1)(N−n).
§5.2 样本数据的整理与显示
1. 经验分布函数 若将样本观测值 x1,x2,…,xn 由小到大进行排列,得有序样本
x(1)≤x(2)≤⋯≤x(n),
用有序样本定义如下函数
Fn(x)=⎩⎨⎧0,k/n,1,x<x(1),x(k)≤x<x(k+1), k=1,2,…,n−1,x≥x(n),
则称 Fn(x) 为该样本的经验分布函数。
格利文科定理 设 x1,x2,…,xn 是取自总体分布函数为 F(x) 的样本,Fn(x) 是该样本的经验分布函数,则当 n→∞ 时,有
P(−∞<x<∞sup∣Fn(x)−F(x)∣→0)=1.
此定理表明:当 n 相当大时,经验分布函数 Fn(x) 是总体分布函数 F(x) 的一个良好的近似。它是经典统计学的一块基石。
2. 频数频率表 由样本数据 x1,x2,…,xn 制作频数频率表的操作步骤如下:
- 确定组数 k;
- 确定每组组距,通常取每组组距相等为 d;
- 确定每组组限;
- 统计样本数据落入每个区间的频数,并计算频率。
综合上述,列表表中,即得该样本的频数频率表。该表就是一个分组样本,它能简明扼要地把样本特点表达出来。不足之处是该表依赖于分组,不同的分组方式有不同的频数频率表。
3. 样本数据的图形表示
(1)直方图
- 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作出频数直方图;
- 若把纵坐标改为频率就得频率直方图;
- 若把纵坐标改为频率/组距,就得到单位频率直方图。这时长条矩形的面积之和为 1。
此三种直方图的差别仅在纵坐标的设置上,直方图图形本身并无变化。
(2)茎叶图
把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图。比较两个样本时,可画出背靠背的茎叶图。
茎叶图保留数据中全部信息。当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。
习题与解答 5.2
以下是某工厂通过抽样调查得到的 10 名工人一周内生产的产品数:
149, 156, 160, 138, 149, 153, 153, 169, 156, 156.
试由这批数据构造经验分布函数并作图。
解
此样本容量为 10,经排序可得有序样本:
x(1)=138, x(2)=x(3)=149, x(4)=x(5)=153,
x(6)=x(7)=x(8)=156, x(9)=160, x(10)=169,
其经验分布函数
Fn(x)=⎩⎨⎧0,0.1,0.3,0.5,0.8,0.9,1,x<138,138≤x<149,149≤x<153,153≤x<156,156≤x<160,160≤x<169,x≥169.
\FigureFiveOne
下表是经过整理后得到的分组样本:
组序分组区间频数1(38,48]32(48,58]43(58,68]84(68,78]35(78,88]2
试写出此分组样本的经验分布函数。
解
样本的经验分布函数为
Fn(x)=⎩⎨⎧0,0.15,0.35,0.75,0.9,1,x<38,38≤x<48,48≤x<58,58≤x<68,68≤x<78,x≥78.
假若某地区 30 名 2018 年某专业毕业生实习期满后的月薪数据如下:
9090107108250120308710108601081091401025011640112001130099201096097109990133601232080809500132009670950012240866010910157207750104407380
- 构造该批数据的频数分布表(分 6 组);
- 画出直方图。
解
此处数据最大观察值为 15720,最小观察值为 7380,故组距近似为
d=615720−7380≈1390,
取 d=1400,确定每组区间端点为 a0,a0+d=a1,a0+2d=a2,…,a0+kd=ak,此处可取 a0=7350,于是分组区间为
(7350,8750], (8750,10150], (10150,11550], (11550,12950], (12950,14350], (14350,15750].
其频数频率表如下:
组序123456合计分组区间(7350,8750](8750,10150](10150,11550](11550,12950](12950,14350](14350,15750]组中值8050945010850122501365015050频数68942130频率0.200.270.300.130.070.031累计频率/%2047779097100
\FigureFiveTwo
某公司对其 250 名职工上班所需时间(单位:min)进行了调查,下面是不完整的频率分布表:
所需时间0∼1010∼2020∼3030∼4040∼50频率0.100.240.180.14
- 试将频率分布表补充完整;
- 该公司上班所需时间在半小时以内有多少人?
解
- 由于频率和为 1,故空缺的频率为
1−0.1−0.24−0.18−0.14=0.34.
- 该公司上班所需时间在半小时以内的人所占频率为
0.1+0.24+0.34=0.68,
该公司有职工 250 人,故该公司上班所需时间在半小时以内的人有
250×0.68=170 人.
40 种刊物的月发行量(单位:百册)如下:
59541208307771412235022385299359231257914667618353600613588658230081426314267731568701268171416974538184019781112713876133042662796369264001161545082048204722808612
- 建立该批数据的频数分布表,取组距为 1700(百册);
- 画出直方图。
解
此处数据最大观察值为 14667,最小观察值为 353,由于组距为 1700,故组数为
k≥170014667−353=8.42,
所以分 9 组。接下来确定每组区间端点,要求
a0<353,a0+9×1700>14667.
此处可取 a0=300,于是可列出其频数频率表:
组序123456789合计分组区间(300,2000](2000,3700](3700,5400](5400,7100](7100,8800](8800,10500](10500,12200](12200,13900](13900,15600]组中值115028504550625079509650113501305014750频数126563014340频率0.30.150.1250.150.07500.0250.10.0751累计频率/%304557.572.5808082.592.5100
\FigureFiveThree
对下列数据构造茎叶图
472400418429381425382392428443447366372430441377425418413433341399374405399369398385381379412423439403386399384408479387
解
取百位数与十位数组成茎,个位数为叶,这组数据的茎叶图如下:
343536373839404142434445464716 92 4 7 91 1 2 4 5 6 72 8 9 9 90 3 5 82 3 8 83 5 5 8 90 3 91 3 72 9
根据调查,某集团公司的中层管理人员的年薪(单位:万元)数据如下:
40.638.638.937.139.639.637.937.737.840.037.039.236.234.735.136.938.841.736.738.3
试画出茎叶图。
解
取整数部分为茎,小数部分为叶,这组数据的茎叶图如下:
3435363738394041712 7 90 1 7 8 93 6 8 92 6 60 67
补充习题及解答
设总体 X 的分布函数为 F(x),经验分布函数为 Fn(x),试证
E[Fn(x)]=F(x),Var[Fn(x)]=n1F(x)[1−F(x)].
解
设 x1,x2,…,xn 是取自总体分布函数为 F(x) 的样本,则经验分布函数为
Fn(x)=⎩⎨⎧0,k/n,1,当 x<x(1),当 x(k)≤x<x(k+1), k=1,2,…,n−1,当 x≥x(n).
若令
yi=I{xi≤x},i=1,2,…,n,
则 y1,y2,…,yn 是独立同分布的随机变量,且
E(y1)=P(X1≤x)=F(x),E(y12)=P(X1≤x)=F(x),
于是
Var(y1)=F(x)−[F(x)]2=F(x)[1−F(x)].
又 Fn(x) 可写为
Fn(x)=n1i=1∑nyi,
故有
E[Fn(x)]=E(y1)=F(x),Var[Fn(x)]=n1Var(y1)=n1F(x)[1−F(x)].
§5.3 统计量及其分布
1. 统计量 不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。
2. 样本均值 样本 x1,x2,…,xn 的算术平均值称为样本均值,记为 x。
分组样本均值:
x=n1i=1∑kxifi,
其中 n 为样本量,k 为组数,xi 与 fi 为第 i 组的组中值与频数,分组样本均值是完全样本均值的一种较好的近似。
样本均值是样本的位置特征,样本中大多数值位于 x 左右。平均可消除一些随机干扰,等价交换也是在平均数中实现的。
样本均值的性质:
1.
i=1∑n(xi−x)=0,
样本数据 xi 对样本均值 x 的偏差之和为零;
- 样本数据 xi 与样本均值 x 的偏差平方和最小,即对任意的实数 c 有
i=1∑n(xi−x)2≤i=1∑n(xi−c)2;
- 若总体分布为 N(μ,σ2),则 x 的精确分布为 N(μ,σ2/n);
- 若总体分布未知,但其期望 μ 与方差 σ2 存在,则当 n 较大时,x 的渐近分布为 N(μ,σ2/n)。
3. 样本方差与样本标准差 样本方差有两个,样本方差 sn2 与样本无偏方差 s2
sn2=n1i=1∑n(xi−x)2,s2=n−11i=1∑n(xi−x)2.
实际中常用的是无偏样本方差 s2,这是因为:当 σ2 为总体方差时,总有
E(sn2)=nn−1σ2,E(s2)=σ2.
这表明:sn2 系统偏小而 s2 无此系统偏差。今后称 s2 为样本方差;s=s2 为样本标准差。
样本方差是样本的散布特征,s2 愈大样本愈分散,s2 愈小样本愈集中,样本标准差 s 与样本均值 x 有相同单位,s 使用更频繁,但 s 的计算必须通过 s2 才能获得。
s2 的计算有如下三个公式可供选用:
s2=n−1n⋅n1∑(xi−x)2=n−11[∑xi2−n(∑xi)2]=n−11(∑xi2−nx2).
在分组样本场合,样本方差可如下计算
s2=n−11i=1∑kfi(xi−x)2=n−11(i=1∑kfixi2−nx2),
其中 k 为组数,xi,fi 分别为第 i 个区间的组中值与频数,x 为分组样本的均值。
4. 样本矩及其函数
- 样本的 k 阶原点矩
ak=n1i=1∑nxik,
样本均值 x 为样本的一阶原点矩;
- 样本的 k 阶中心矩
bk=n1i=1∑n(xi−x)k,
样本方差 s2 和 sn2 都为样本的二阶中心矩;
- 样本变异系数
Cr=s/x;
- 样本的偏度
β^s=b23/2b3;
- 样本的峰度
β^k=b22b4−3.
5. 次序统计量及其分布 设 x1,x2,…,xn 是取自某总体的一个样本,x(i) 称为该样本的第 i 个次序统计量,如果 x(i) 的取值是将样本观测值由小到大排序后得到的第 i 个观测值。
- x(1)=min{x1,x2,…,xn} 称为最小次序统计量;
- x(n)=max{x1,x2,…,xn} 称为最大次序统计量;
- (x(1),x(2),…,x(n)) 称为次序统计量。
R=x(n)−x(1)
称为样本极差。
设连续总体 X 的密度函数为 p(x),分布函数为 F(x),x1,x2,…,xn 为样本,则有
- 样本第 k 个次序统计量 x(k) 的密度函数为
pk(x)=(k−1)!(n−k)!n!(F(x))k−1(1−F(x))n−kp(x);
- 样本第 i 个与第 j 个次序统计量的联合密度函数为
pij(y,z)=(i−1)!(j−i−1)!(n−j)!n![F(y)]i−1[F(z)−F(y)]j−i−1[1−F(z)]n−jp(y)p(z),
其中 y≤z, 1≤i<j≤n。
6. 样本中位数与样本分位数 设 x1,x2,…,xn 是取自某总体的样本,x(1)≤x(2)≤⋯≤x(n) 为该样本的次序统计量,则样本中位数 m0.5 定义为
m0.5=⎩⎨⎧x(2n+1),21(x(2n)+x(2n+1)),n为奇数,n为偶数.
而样本的 p 分位数 mp 定义为
mp={x([np+1]),21(x(np)+x(np+1)),np不是整数,np是整数,
其中 [x] 表示小于或等于 x 的最大整数。相比于样本均值,中位数对样本的极端值有抗干扰性,或称有稳健性。
样本分位数的渐近分布:设总体的密度函数为 p(x),xp 为总体的 p 分位数。若 p(x) 在 xp 处连续且 p(xp)>0,则当 n 充分大时,有
mp∼˙N(xp,n⋅p2(xp)p(1−p)),
m0.5∼˙N(x0.5,4n⋅p2(x0.5)1).
7. 五数概括与箱线图 五数概括是指用样本的五个次序统计量
xmin=x(1),Q1=m0.25,Q2=m0.5,Q3=m0.75,xmax=x(n).
大致描述一个样本的轮廓,其图形表示称为箱线图。它在证券市场分析等场合常用到。
当样本量较大时,箱线图可用来对总体分布形状进行大致的判断。
习题与解答 5.3
在一批产品中我们随机检查了 10 箱,发现每箱中的不合格品数为
4, 5, 6, 0, 3, 1, 4, 2, 1, 4.
试计算其样本均值、样本方差和样本标准差。
解
样本均值
x=nx1+x2+⋯+xn=104+5+⋯+4=3,
样本方差
s2=n−11i=1∑n(xi−x)2=91[(4−3)2+(5−3)2+⋯+(4−3)2]=3.78,
样本标准差
s=s2=1.94.
证明:对任意常数 c,d,有
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x)(yi−y)+n(x−c)(y−d).
解
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x+x−c)(yi−y+y−d)
=i=1∑n(xi−x)(yi−y)+i=1∑n(x−c)(yi−y)
+i=1∑n(xi−x)(y−d)+i=1∑n(x−c)(y−d),
由
i=1∑n(xi−x)=0,i=1∑n(yi−y)=0,
得
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x)(yi−y)+n(x−c)(y−d),
因而结论成立。
设 x1,x2,…,xn 和 y1,y2,…,yn 是两组样本观测值,且有如下关系:
yi=3xi−4,i=1,2,…,n,
试求样本均值 y 和 x 间的关系以及样本方差 sy2 和 sx2 间的关系。
解
y=n1i=1∑nyi=n1i=1∑n(3xi−4)=3x−4,
sy2=n−11i=1∑n(yi−y)2=n−11i=1∑n(3xi−4−3x+4)2
=n−11i=1∑n9(xi−x)2=9sx2.
因而得
y=3x−4,sy2=9sx2.
记
xn=n1i=1∑nxi,sn2=n−11i=1∑n(xi−xn)2,n=1,2,…,
证明
xn+1=xn+n+11(xn+1−xn),
sn+12=nn−1sn2+n+11(xn+1−xn)2.
解
xn+1=n+1x1+x2+⋯+xn+xn+1=n+1nxn+xn+1
=n+1(n+1)xn+xn+1−xn=xn+n+11(xn+1−xn),
sn+12=n1i=1∑n+1(xi−xn+1)2=n1[i=1∑n(xi−xn+1)2+(xn+1−xn+1)2]
=n1i=1∑n(xi−xn+xn−xn+1)2+n1(xn+1−xn+1)2
=n1i=1∑n(xi−xn)2+n2i=1∑n(xi−xn)(xn−xn+1)
+n1i=1∑n(xn−xn+1)2+n1(xn+1−xn+1)2.
由
i=1∑n(xi−xn)=0,
n1i=1∑n(xn−xn+1)2=(xn−xn+1)2,
以及
xn+1=xn+n+11(xn+1−xn)
得
sn+12=n1i=1∑n(xi−xn)2+(n+11)2(xn+1−xn)2
+n1(n+1n)2(xn+1−xn)2
=nn−1×n−11i=1∑n(xi−xn)2+n+11(xn+1−xn)2
=nn−1sn2+n+11(xn+1−xn)2.
从同一总体中抽取两个容量分别为 n,m 的样本,样本均值分别为 x1,x2,样本方差分别为 s12,s22,将两组样本合并,其均值、方差分别为 x,s2,证明:
x=n+mnx1+mx2,
s2=n+m−1(n−1)s12+(m−1)s22+(n+m)(n+m−1)nm(x1−x2)2.
解
设取自同一总体的两个样本为
x11,x12,…,x1n; x21,x22,…,x2m.
由
x1=nx11+x12+⋯+x1n,x2=mx21+x22+⋯+x2m,
得
x=n+mx11+⋯+x1n+x21+⋯+x2m=n+mnx1+mx2.
由 s12=n−11i=1∑n(x1i−x1)2,s22=m−11i=1∑m(x2i−x2)2,
得
s2=n+m−11[i=1∑n(x1i−x)2+i=1∑m(x2i−x)2]
=n+m−11[i=1∑n(x1i−x1+x1−x)2+i=1∑m(x2i−x2+x2−x)2]
=n+m−11[i=1∑n(x1i−x1)2+n(x1−x)2+i=1∑m(x2i−x2)2+m(x2−x)2]
=n+m−1(n−1)s12+(m−1)s22+n+m−1n(x1−n+mnx1+mx2)2+m(x2−n+mnx1+mx2)2
=n+m−1(n−1)s12+(m−1)s22+(n+m)(n+m−1)nm(x1−x2)2.
设有容量为 n 的样本 A,它的样本均值为 xA,样本标准差为 sA,样本极差为 RA,样本中位数为 mA。现对样本中每一个观测值施行变换
y=ax+b,
如此得到样本 B,试写出样本 B 的均值、标准差、极差和中位数。
解
不妨设样本 A 为 x1,x2,…,xn,样本 B 为 y1,y2,…,yn,且
yi=axi+b,i=1,2,…,n,
则
yB=ny1+y2+⋯+yn=nax1+b+ax2+b+⋯+axn+b=axA+b,
sB2=n−11i=1∑n(yi−yB)2=n−11i=1∑n(axi+b−axA−b)2=a2sA2,
因而
sB=∣a∣sA.
又
RB=y(n)−y(1)=ax(n)+b−ax(1)−b=a(x(n)−x(1))=aRA,
mB=⎩⎨⎧y(2n+1),21(y(2n)+y(2n+1)),n为奇数,n为偶数,
=⎩⎨⎧ax(2n+1)+b,21(ax(2n)+b+ax(2n+1)+b),n为奇数,n为偶数,
所以
mB=amA+b.
证明:容量为 2 的样本 x1,x2 的方差为
s2=21(x1−x2)2.
解
s2=(x1−x)2+(x2−x)2=(x1−2x1+x2)2+(x2−2x1+x2)2
=4(x1−x2)2+4(x2−x1)2=2(x1−x2)2.
设 x1,x2,…,xn 是来自 U(−1,1) 的样本,试求 E(x) 和 Var(x)。
解
均匀分布 U(−1,1) 的均值和方差分别为 0 和 1/3,该样本容量为 n,因而得
E(x)=0,Var(x)=3n1.
设总体二阶矩存在,x1,x2,…,xn 是样本,证明 xi−x 与 xj−x(i=j)的相关系数为 −(n−1)−1。
解
不妨设总体的方差为 σ2,则相关系数
Corr(xi−x,xj−x)=Var(xi−x)Var(xj−x)Cov(xi−x,xj−x).
由
Cov(xi−x,xj−x)=Cov(xi,xj)−Cov(xi,x)−Cov(xj,x)+Cov(x,x),
由于
Cov(xi,xj)=0,Cov(x,x)=nσ2,
Cov(xi,x)=Cov(xj,x)=Cov(xi,n1i=1∑nxi)=nσ2,
因而
Cov(xi−x,xj−x)=−nσ2,
Var(xi−x)=Var(xj−x)=Var(x1−x)=Var(n(n−1)x1−x2−⋯−xn)
=n2(n−1)2σ2+(n−1)σ2=n(n−1)σ2,
所以
Corr(xi−x,xj−x)=−(n−1)−1.
设 x1,x2,…,xn 为一个样本,
s2=n−11i=1∑n(xi−x)2
是样本方差,试证:
n(n−1)1i<j∑(xi−xj)2=s2.
解
注意到
i<j∑(xi−xj)2=(n−1)i=1∑nxi2−2i<j∑xixj,
(i=1∑nxi)2=i=1∑nxi2+2i<j∑xixj,
故
i<j∑(xi−xj)2=ni=1∑nxi2−(i=1∑nxi)2=ni=1∑n(xi−x)2.
证明完成。
设总体 4 阶中心矩
v4=E[x−E(x)]4
存在,试证:对样本方差
s2=n−11i=1∑n(xi−x)2,
有
Var(s2)=(n−1)2n(v4−σ4)−(n−1)22(v4−2σ4)+n(n−1)2v4−3σ4=nv4−n(n−1)(n−3)σ4,
其中 σ2 为总体 X 的方差。
解
为书写方便起见,记
y=x−E(x),
并以 ∑ 简记应从 1 到 n 的求和,于是
[∑(xi−x)2]2=[∑(xi−E(x))2−n(x−E(x))2]2=(∑yi2−ny2)2
=(∑yi2)2−n2∑yi2(∑yj)2+n21(∑yj)4
=∑yi4+i=j∑yi2yj2−n2∑yi4+i=j∑yi2yj2+i∑j=k∑yi2yjyk
+n21∑yi4+3!1!4!i=j∑yi3yj+2!2!4!i=j∑yi2yj2+2!1!1!4!i=j=k∑yi2yjyk+1!1!1!1!4!i=j=k=l∑yiyjykyl.
由于诸 yi 间相互独立,且 E(yi)=0,所以
E[∑(xi−x)2]2=nv4+n(n−1)v22−n2[nv4+n(n−1)v22]
+n21[nv4+3n(n−1)v22]
=(n−2+n1)v4+(n−1)(n−2+n3)v22,
E(s4)=(n−1)21[(n−2+n1)v4+(n−1)(n−2+n3)v22],
故
Var(s2)=E(s4)−[E(s2)]2
=(n−1)21[(n−2+n1)v4+(n−1)(n−2+n3)v22]−v22
=(n−1)2n(v4−σ4)−(n−1)22(v4−2σ4)+n(n−1)2v4−3σ4
=nv4−n(n−1)(n−3)σ4.
设总体 X 的 3 阶矩存在,若 x1,x2,…,xn 是取自该总体的简单随机样本,x 为样本均值,s2 为样本方差,试证:
Cov(x,s2)=nv3,
其中
v3=E[x−E(x)]3.
解
注意到
Cov(x,s2)=E[(x−μ)s2],
而
(x−μ)s2=n−11[(x−μ)i=1∑n(xi−μ)2−n(x−μ)3],
又
E[(x−μ)(xi−μ)2]=n1E(xi−μ)3+Ej=i∑(xj−μ)(xi−μ)2=nv3,
E(x−μ)3=n31E[i=1∑n(xi−μ)3]=n2v3.
由此,
E[(x−μ)s2]=n−11(v3−nv3)=nv3.
设 x1 与 x2 是从同一正态总体 N(μ,σ2) 独立抽取的容量相同的两个样本均值。试确定样本容量 n,使得两样本均值的差超过 σ 的概率不超过 0.01。
解
由于
xi∼N(μ,nσ2),i=1,2,
且相互独立,所以
x1−x2∼N(0,n2σ2),
于是有
P(∣x1−x2∣>σ)=P(2σ2/nx1−x2>2σ2/nσ)=2[1−Φ(2n)]≤0.01.
等价地,
Φ(2n)≥0.995,2n≥u0.995=2.575,n≥2.5752×2=13.26.
利用切比雪夫不等式求抛均匀硬币多少次才能使正面朝上的频率落在 (0.4,0.6) 间的概率至少为 0.9。如何才能更精确地计算这个次数?是多少?
解
均匀硬币正面朝上的概率 p=0.5,设 xn 为 n 次抛硬币中正面朝上的次数,则有
xn∼b(n,p).
据题意取次数 n 应满足
P(0.4<nxn<0.6)≥0.9,
此式等价于
P(∣xn−0.5n∣≥0.1n)≤0.1,
利用切比雪夫不等式估计上式左端概率的上界
P(∣xn−0.5n∣≥0.1n)≤(0.1n)2n×0.5(1−0.5)=n25,
再由不等式
n25≤0.1
可得粗糙的估计 n≥250。即抛均匀硬币 250 次后可满足要求。
讨论:利用 x 的渐近正态性可以得到更精确的结论。由中心极限定理,样本均值
x=nxn,0.5×0.5n(x−0.5)∼˙N(0,1),
故
P(0.4<x<0.6)=P(0.5n∣x−0.5∣<5n)=2Φ(5n)−1≥0.9,
即
Φ(5n)≥0.95,
故
5n≥1.645,
这就给出较精确的上界
n≥(5×1.645)2=67.65,
这表明只需抛均匀硬币 68 次就可满足要求。两个结果差异很大,说明切比雪夫不等式是一个较为粗糙的不等式,在能够使用大样本结果的情况下应尽量使用中心极限定理。
从指数总体 Exp(1/θ) 抽取了 40 个样品,试求 xˉ 的渐近分布。
解
由于指数总体 Exp(1/θ) 的均值为 θ,方差为 θ2,于是 xˉ 的渐近分布为
N(θ,40θ2).
设 x1,x2,⋯,x25 是从均匀分布 U(0,5) 抽取的样本,试求样本均值 xˉ 的渐近分布。
解
均匀分布 U(0,5) 的均值和方差分别为 25 和 1225,样本容量为 25,因而样本均值 xˉ 的渐近分布为
N(25,121).
设 x1,x2,⋯,x20 是从二点分布 b(1,p) 抽取的样本,试求样本均值 xˉ 的渐近分布。
解
二点分布 b(1,p) 的均值和方差分别为 p 和 p(1−p),样本容量为 20,因而样本均值 xˉ 的渐近分布为
N(p,20p(1−p)).
设 x1,x2,⋯,x8 是从正态总体 N(10,9) 中抽取的样本,试求样本均值 xˉ 的标准差。
解
来自正态分布的样本均值仍服从正态分布,均值保持不变,方差为原来方差的 1/n,此处总体方差为 9,样本容量为 8,因而
Var(xˉ)=89,
xˉ 的标准差为
432=1.06.
切尾均值也是一个常用的反映样本数据的特征量,其想法是将数据的两端的值舍去,而用剩下的当中的值来计算样本均值,其计算公式是
xˉα=n−2[nα]x([nα]+1)+x([nα]+2)+⋯+x(n−[nα]),
其中 0<α<21 是切尾系数,x(1)≤x(2)≤⋯≤x(n) 是有序样本。现我们在某高校采访了 16 名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间(单位:h):
15, 14, 12, 9, 20, 4, 17, 26, 15, 18, 6, 10, 16, 15, 5, 8.
取 α=1/16,试计算其切尾均值。
解
将样本进行排序得
x(1)=4, x(2)=5, ⋯, x(16)=26.
当 α=1/16 时,由题意得切尾均值
xˉ1/16=14x(2)+x(3)+⋯+x(15)=145+6+⋯+20=14180=12.86.
有一个分组样本如下:
区间(145,155](155,165](165,175](175,185]组中值150160170180频数4862
试求该分组样本的样本均值、样本标准差、样本偏度和样本峰度。
解
计算过程列表如下:
组中值 x150160170180和频数 f486220xf600128010203603260(x−xˉ)2f676722945781620(x−xˉ)3f−8788−216205898262880(x−xˉ)4f11424464814406167042296340
因而可得样本均值、样本标准差、样本偏度和样本峰度分别为
xˉ=203260=163,s=191620=9.23,
β^s=(1620/20)3/22880/20=0.198,β^k=(1620/20)2296340/20−3=−0.742.
检查四批产品,其批量与不合格品率如下:
批号1234批量100300250150不合格品率0.050.060.040.03
试求这四批产品的总不合格品率。
解
这批产品的总不合格品率为
p=100+300+250+150100×0.05+300×0.06+250×0.04+150×0.03=0.047.
设总体以等概率取 1,2,3,4,5,现从中抽取一个容量为 4 的样本,试分别求 x(1) 和 x(4) 的分布。
解
由古典概率可得
P(x(1)≥k)=(56−k)4,k=1,2,3,4,5.
所以
P(x(1)=1)P(x(1)=2)P(x(1)=3)P(x(1)=4)P(x(1)=5)=P(x(1)≥1)−P(x(1)≥2)=1−(54)4=0.5904,=P(x(1)≥2)−P(x(1)≥3)=(54)4−(53)4=0.28,=P(x(1)≥3)−P(x(1)≥4)=(53)4−(52)4=0.104,=P(x(1)≥4)−P(x(1)≥5)=(52)4−(51)4=0.024,=P(x(1)≥5)=(51)4=0.0016.
这就给出了 x(1) 的分布列
x(1)P10.590420.2830.10440.02450.0016
类似地,
P(x(4)≤k)=(5k)4,k=1,2,3,4,5.
从而
P(x(4)=1)P(x(4)=2)P(x(4)=3)P(x(4)=4)P(x(4)=5)=P(x(4)≤1)=0.0016,=P(x(4)≤2)−P(x(4)≤1)=0.024,=P(x(4)≤3)−P(x(4)≤2)=0.104,=P(x(4)≤4)−P(x(4)≤3)=0.28,=1−P(x(4)≤4)=0.5904.
这就给出 x(4) 的分布列
x(4)P10.001620.02430.10440.2850.5904
设总体 X 服从几何分布,即
P(X=k)=pqk−1,k=1,2,⋯,
其中 0<p<1, q=1−p,x1,x2,⋯,xn 为该总体的样本。分别求 x(n)、x(1) 的概率分布。
解
容易看出
P(X≤k)=i=1∑kpqi−1=1−qk,k=1,2,⋯,
所以
P(x(n)≤k)=P(x1≤k,x2≤k,⋯,xn≤k)=(P(x1≤k))n=(1−qk)n,k=1,2,⋯.
同样可以得到
P(x(n)≤k−1)=(1−qk−1)n,k=1,2,⋯.
此式对 k=1 也成立,因为 P(x(n)≤0)=0。所以 x(n) 的分布列为
P(x(n)=k)=P(x(n)≤k)−P(x(n)≤k−1)=(1−qk)n−(1−qk−1)n,k=1,2,⋯.
下面来求 x(1) 的分布列。由于
P(X≥k)=1−P(X≤k−1)=qk−1,k=1,2,⋯,
所以
P(x(1)≥k)=(P(x1≥k))n=qn(k−1),k=1,2,⋯,
类似有
P(x(1)≥k+1)=qnk,k=1,2,⋯.
因此 x(1) 的分布列为
P(x(1)=k)=P(x(1)≥k)−P(x(1)≥k+1)=qn(k−1)(1−qn),k=1,2,⋯.
设 x1,x2,⋯,x16 是来自 N(8,4) 的样本,试求下列概率:
- P(x(16)>10);
- P(x(1)>5)。
解
(1)
P(x(16)>10)=1−P(x(16)≤10)=1−(P(x1≤10))16=1−(Φ(210−8))16=1−0.841316=0.9370.
(2)
P(x(1)>5)=(P(x1>5))16=(1−Φ(25−8))16=[Φ(1.5)]16=0.3308.
设总体为韦布尔分布,其密度函数为
p(x;m,η)=ηmmxm−1exp[−(ηx)m],x>0, m>0, η>0.
现从中得到样本 x1,x2,⋯,xn,证明 x(1) 仍服从韦布尔分布,并指出其参数。
解
由总体分布的密度函数可得总体的分布函数 F(x) 为
F(x)=∫0xηmmtm−1exp[−(ηt)m]dt=1−e−(x/η)m.
因而最小次序统计量 x(1) 的分布函数为
P(x(1)≤x)=1−P(x(1)>x)=1−(e−(x/η)m)n=1−e−(x/(ηn−1/m))m,x>0.
这说明
x(1)∼W(m,ηn−1/m).
设总体密度函数为
p(x)=6x(1−x),0<x<1,
x1,x2,⋯,x9 是来自该总体的样本,试求样本中位数的分布。
解
总体分布函数为
F(x)=∫0x6t(1−t)dt=3x2−2x3=x2(3−2x),0≤x≤1,
故
1−F(x)=(1−x)2(2x+1),0≤x≤1.
样本中位数 m0.5=x(5) 的精确分布密度函数为
pm0.5(x)=(49)(15)(F(x))4p(x)(1−F(x))4=(49)(15)(x2(3−2x))4⋅6x(1−x)⋅((1−x)2(2x+1))4=3780x9(1−x)9(3−2x)4(2x+1)4.
这个精确密度函数是 26 次多项式,使用是不方便的,譬如 P(m0.5<0.7) 用上述密度函数是可以求的,可是不方便,寻求近似计算就十分必要。
下面来寻求 m0.5 的渐近分布,由于总体中位数是 x0.5=0.5,且
p(x0.5)=6×0.5×(1−0.5)=1.5,
故在 n=9 时 m0.5 的渐近分布为
m0.5∼N(x0.5,4np2(x0.5)1)=N(0.5,811).
利用此渐近分布容易算出概率
P(m0.5<0.7)≈Φ(1.8)=0.9641.
证明公式
k=0∑r(kn)pk(1−p)n−k=r!(n−r−1)!n!∫p1xr(1−x)n−r−1dx,0≤p≤1.
解
为了证明此公式,可以对积分部分施行分部积分法,更加简单的方法是对等号两边分别关于 p 求导,证明其导函数相等。
先看等式右边,由微积分基本定理可得
∂p∂[r!(n−r−1)!n!∫p1xr(1−x)n−r−1dx]=−r!(n−r−1)!n!pr(1−p)n−r−1.
再看等式左边。对 k=0,有
∂p∂[(0n)p0(1−p)n]=∂p∂(1−p)n=−n(1−p)n−1.
对 k=1,2,⋯,r,有
∂p∂[(kn)pk(1−p)n−k]=(k−1)!(n−k)!n!pk−1(1−p)n−k−k!(n−k−1)!n!pk(1−p)n−k−1.
其和前后两项之间正好相互抵消,最后仅留下最后一项,也为
−r!(n−r−1)!n!pr(1−p)n−r−1.
这就证明了两者导函数相等,并注意到两者在 p=1 时都为 0,等式得证。
设总体 X 的分布函数 F(x) 是连续的,x(1),x(2),⋯,x(n) 为取自此总体的次序统计量,设 ηi=F(x(i)),试证:
- η1≤η2≤⋯≤ηn,且 ηi 是来自均匀分布 U(0,1) 总体的次序统计量;
- E(ηi)=n+1i,Var(ηi)=(n+1)2(n+2)i(n+1−i),1≤i≤n;
- ηi 和 ηj 的协方差矩阵为
n+2a1(1−a1)n+2a1(1−a2)n+2a1(1−a2)n+2a2(1−a2),
其中 a1=n+1i,a2=n+1j。
解
(1)由分布函数 F(x) 的单调性可知,η1≤η2≤⋯≤ηn 成立。又由分布函数 F(x) 的连续性可知,F(X) 服从均匀分布 U(0,1),故而 ηi 是来自均匀分布 U(0,1) 总体的次序统计量。
(2)ηi 是来自均匀分布 U(0,1) 总体的次序统计量,所以
ηi∼Be(i,n−i+1).
故
E(ηi)=n+1i,Var(ηi)=(n+1)2(n+2)i(n+1−i),1≤i≤n.
(3)ηi 和 ηj 的联合分布密度为
pij(y,z)=(i−1)!(j−i−1)!(n−j)!n!yi−1(z−y)j−i−1(1−z)n−j,y≤z,
则
E(ηiηj)=∫01∫0zyz(i−1)!(j−i−1)!(n−j)!n!yi−1(z−y)j−i−1(1−z)n−jdydz=(i−1)!(j−i−1)!(n−j)!n!∫01(1−z)n−jzj−i∫0zyi(1−y/z)j−i−1dydz=t=y/z(i−1)!(j−i−1)!(n−j)!n!∫01(1−z)n−jzj−i⋅zi+1∫01ti(1−t)j−i−1dtdz=(i−1)!(j−i−1)!(n−j)!n!⋅j!i!(j−i−1)!∫01(1−z)n−jzj+1−1dz=j!i(n−j)!n!⋅(n+2)!(j+1)!(n−j)!=(n+1)(n+2)ij+i.
所以
Cov(ηi,ηj)=(n+1)(n+2)ij+i−(n+1)2ij=(n+1)2(n+2)−ij+(n+1)i=n+2a1(1−a2).
结合(2)可知,ηi 和 ηj 的协方差矩阵为
n+2a1(1−a1)n+2a1(1−a2)n+2a1(1−a2)n+2a2(1−a2).
设总体 X 服从 N(0,1),从此总体获得一组样本观测值
x1=0, x2=0.2, x3=0.25, x4=−0.3, x5=−0.1, x6=2, x7=0.15, x8=1, x9=−0.7, x10=−1.
- 计算 x=0.15(即 x(6))处的 E{F(x(6))}、Var{F(x(6))};
- 计算 F(x(6)) 在 x=0.15 处的分布函数值。
解
(1)由第 28 题的结论可知,
E{F(x(6))}=116,Var{F(x(6))}=(10+1)2(10+2)6(10+1−6)=2425.
(2)F(x(6))∼Be(6,5),所以 F(x(6)) 在 x=0.15 处的分布函数值为
betacdf(0.15,6,5)=0.0014.
在下列密度函数下分别寻求容量为 n 的样本中位数 m0.5 的渐近分布:
- p(x)=6x(1−x), 0<x<1;
- p(x)=2πσ1exp{−2σ2(x−μ)2};
p(x)={2x,0,0<x<1,其他.
- p(x)=2λe−λ∣x∣。
解
(1)先求出总体的中位数。该分布是贝塔分布 Be(2,2),可以看出 p(x) 关于 0.5 对称,所以
x0.5=0.5,
于是样本中位数 m0.5 的渐近分布为
N(0.5,9n1).
(2)正态分布 N(μ,σ2) 的中位数为 μ,所以 m0.5 的渐近分布为
N(μ,2nπσ2).
(3)该分布的分布函数为
F(x)=⎩⎨⎧0,x2,1,x<0,0≤x<1,x≥1,
所以相应的中位数为
22,
因而
m0.5∼N(22,4n(2×2/2)21)=N(22,8n1).
(4)该分布的密度函数关于 y 轴对称,故相应的中位数为 0,所以 m0.5 的渐近分布为
N(0,4n(λ/2)21)=N(0,nλ21).
设总体 X 服从双参数指数分布,其分布函数为
F(x)=⎩⎨⎧1−exp{−σx−μ},0,x>μ,x≤μ,
其中 −∞<μ<∞, σ>0,x(1)≤x(2)≤⋯≤x(n) 为样本的次序统计量。试证明,
σ2(n−i+1)(x(i)−x(i−1))
服从自由度为 2 的 χ2 分布(i=2,3,⋯,n)。
解
令
yi=σxi−μ∼Exp(1),
则 y(1),y(2),⋯,y(n) 的联合密度为
p(y1,y2,⋯,yn)=n!exp{−i=1∑nyi}.
作变换
⎩⎨⎧t1=ny(1),t2=(n−1)(y(2)−y(1)),⋯⋯⋯⋯ti=(n−i+1)(y(i)−y(i−1)),⋯⋯⋯⋯tn=y(n)−y(n−1).
其雅可比行列式为
∣J∣=n!1,
t1,t2,⋯,tn 的联合密度为
f(t1,t2,⋯,tn)=exp{−i=1∑nti}.
由该联合密度我们可以知道 T1,T2,⋯,Tn 是独立同分布的随机变量,且
Ti∼Exp(1).
从而
P(σ2(n−i+1)(x(i)−x(i−1))≤x)=P(2(n−i+1)(y(i)−y(i−1))≤x)=P(2Ti≤x)=P(Ti≤x/2)=1−e−x/2.
这是指数分布 Exp(1/2) 的分布函数。我们知道,Exp(1/2) 就是 Ga(1,1/2),也就是 χ2(2)。这就证明了
σ2(n−i+1)(x(i)−x(i−1))∼χ2(2).
设总体 X 的密度函数为
p(x)={3x2,0,0<x<1,其他,
x(1)≤x(2)≤⋯≤x(5) 为容量为 5 的取自此总体的次序统计量,试证
x(4)x(2)
与 x(4) 相互独立。
解
先求 (x(2),x(4)) 的联合密度。由于总体 X 的分布函数为
F(x)=x3,0<x≤1,
所以 (x(2),x(4)) 的联合密度为
p(x,y)=1!1!1!5!x3(y3−x3)(1−y3)⋅3x2⋅3y2,0<x<y<1.
下求
(x(4)x(2),x(4))
的联合密度,为此,令
⎩⎨⎧u=yx,v=y,其逆变换为{x=uv,y=v.
其雅可比行列式的绝对值为
∣J∣=v0u1=v.
由 0<x<y<1 得 0<u<1, 0<v<1,于是
p(u,v)=p(uv,v)v=120v3u3(v3−u3v3)(1−v3)⋅3v2u2⋅3v2⋅v=1080u5(1−u3)v11(1−v3).
另外,我们还可以求出边际密度,
U=x(4)x(2)∼p1(u)=∫01p(u,v)dv=1080u5(1−u3)∫01v11(1−v3)dv=18u5(1−u3),0<u<1,
类似可求得
V=x(4)∼p2(v)=60v11(1−v3),0<v<1.
显然
p(u,v)=p1(u)⋅p2(v),
这就证明了 x(4)x(2) 与 x(4) 独立。
- 设 x(1) 和 x(n) 分别为容量 n 的样本的最小和最大次序统计量,证明极差
Rn=x(n)−x(1)
的分布函数
FRn(x)=n∫−∞∞[F(y+x)−F(y)]n−1p(y)dy,
其中 F(y) 与 p(y) 分别为总体的分布函数与密度函数;
- 利用(1)的结论,求总体为指数分布 Exp(λ) 时,样本极差 Rn 的分布。
解
(1)x(1) 与 x(n) 的联合密度函数为
f(x(1),x(n))=(n−2)!n!p(x(1))p(x(n))(F(x(n))−F(x(1)))n−2,x(1)≤x(n).
作变换
{Rn=x(n)−x(1),Y=x(1),其逆变换为{x(1)=Y,x(n)=Rn+Y.
雅可比行列式绝对值为 ∣J∣=1,于是 Rn 与 x(1) 的联合密度为
fRn,Y(x,y)=n(n−1)p(y)p(x+y)(F(x+y)−F(y))n−2.
由此可以算得 Rn 的边际密度为
fRn(x)=∫−∞∞n(n−1)p(y)p(x+y)(F(x+y)−F(y))n−2dy,
Rn 的分布函数为
FRn(x)=∫0x∫−∞∞n(n−1)p(y)p(t+y)(F(t+y)−F(y))n−2dydt=∫−∞∞n(n−1)p(y)∫0x(F(t+y)−F(y))n−2d(F(t+y)−F(y))dt=∫−∞∞np(y)(F(x+y)−F(y))n−1dy.
(2)对于指数分布 Exp(λ),由(1)中结果,有
FRn(x)=∫0∞nλe−λy(1−e−λ(x+y)−1+e−λy)n−1dy=∫0∞nλe−nλy(1−e−λx)n−1dy=(1−e−λx)n−1,x≥0.
设 x1,x2,⋯,xn 是来自 U(0,θ) 的样本,x(1)≤x(2)≤⋯≤x(n) 为其次序统计量,令
yi=x(i+1)x(i), i=1,2,⋯,n−1,yn=x(n),
证明 y1,y2,⋯,yn 相互独立。
解
令 Ui=x(i),i=1,2,⋯,n,则 U1,U2,⋯,Un 的联合密度函数为
p(u1,u2,⋯,un)=θnn!,0≤u1≤u2≤⋯≤un≤θ.
作变换
⎩⎨⎧y1=U1/U2,⋯⋯⋯yn−1=Un−1/Un,yn=Un,其逆变换为⎩⎨⎧U1=y1y2⋯yn,⋯⋯⋯Un−1=yn−1yn,Un=yn.
其中 0<yi<1, i=1,2,⋯,n−1, 0<yn<θ,其雅可比行列式绝对值为
∣J∣=y2y32⋯ynn−1,
联合密度函数为
p(y1,y2,⋯,yn)=n!y2y32⋯ynn−1(θ1)n=(2y2)(3y32)⋯(nθ−nynn−1),0<yi<1, i=1,2,⋯,n−1, 0<yn<θ.
该联合密度函数可分离变量,因而 y1,y2,⋯,yn 相互独立,且
y1∼Be(1,1)=U(0,1), y2∼Be(2,1), ⋯, yn−1∼Be(n−1,1), yn/θ∼Be(n,1).
对下列数据构造箱线图
472400418429381425382392428443447366372430441377425418413433341399374405419369398385381379412423439403386419384428479387
解
这批数据 n=40,最小值为 x(1)=341,最大值为 x(40)=479,中位数、第一四分位数和第三四分位数分别为
m0.5=21(x(20)+x(21))=21(405+412)=408.5,
Q1=21(x(10)+x(11))=21(382+384)=383,
Q3=21(x(30)+x(31))=21(428+428)=428.
\FigureFiveFour
根据调查,某集团公司的中层管理人员的年薪数据如下(单位:万元):
40.638.644.937.139.942.139.639.645.437.742.241.543.840.037.039.243.540.636.234.735.136.944.838.940.841.736.744.537.742.237.345.441.340.434.740.339.236.938.138.436.335.842.937.837.938.939.739.2
试画出箱线图。
解
这批数据 n=48,最小值为 x(1)=34.7,最大值为 x(48)=45.4,中位数、第一四分位数和第三四分位数分别为
m0.5=21(x(24)+x(25))=21(39.2+39.6)=39.4,
Q1=21(x(12)+x(13))=21(37.3+37.7)=37.5,
Q3=21(x(36)+x(37))=21(41.5+41.7)=41.6.
\FigureFiveFive
补充习题及解答
设 x1,x2,⋯,xn 是来自分布函数为 F(x)、密度函数为 p(x) 的一个样本,x(1),x(2),⋯,x(n) 是其次序统计量,试求在 x(r+1),⋯,x(n) 给定时,x(1),⋯,x(r) 的联合条件密度函数。
解
次序统计量 x(1),x(2),⋯,x(n) 联合密度函数为
p(x(1),x(2),⋯,x(n))=n!i=1∏np(x(i)).
而后 n−r 个次序统计量 x(r+1),⋯,x(n) 的联合密度函数为
p(x(r+1),⋯,x(n))=r!n![F(x(r+1))]ri=r+1∏np(x(i)),
故所求的联合条件密度函数为
p(x(1),⋯,x(r)∣x(r+1),⋯,x(n))=p(x(r+1),⋯,x(n))p(x(1),x(2),⋯,x(n))=r!i=1∏rp(x(i))[F(x(r+1))]−r.
最后结果表明:所求条件密度函数只与 x(1),⋯,x(r),x(r+1) 有关,而与 x(r+2),⋯,x(n) 的取值无关。从而,其分布也仅依赖于 X(r+1) 的给定值 x(r+1)。这样一来,条件密度函数
p(x(1),⋯,x(r)∣x(r+1),⋯,x(n))
完全可以写成
p(x(1),⋯,x(r)∣x(r+1)).
来自正态总体 N(μ,σ2) 的容量为 n=2k+1 的样本中位数是 x(k+1),证明 x(k+1) 的密度函数关于 μ 对称,且 E(x(k+1))=μ。
解
记正态分布 N(μ,σ2) 的分布函数与密度函数分别为 F(x) 与 f(x),则容量为 n=2k+1 的样本中位数 x(k+1) 的密度函数为
g(x)=k!k!(2k+1)![F(x)]kf(x)[1−F(x)]k.
令
y=σx(k+1)−μ,
此变换的雅可比行列式的绝对值 ∣J∣=σ,于是 y 的密度函数为
gY(y)=k!k!(2k+1)![Φ(y)]k[1−Φ(y)]kφ(y),
其中 Φ(y) 与 φ(y) 分别是标准正态分布 N(0,1) 的分布函数与密度函数。依据它们的性质
Φ(−y)=1−Φ(y),φ(−y)=φ(y),
可得
gY(−y)=k!k!(2k+1)![Φ(−y)]k[1−Φ(−y)]kφ(−y)=k!k!(2k+1)![1−Φ(y)]k[Φ(y)]kφ(y)=gY(y).
这表明密度函数 gY(y) 是偶函数,从而 x(k+1) 的密度函数 g(x) 关于 μ 对称,同时还有
E(y)=0,E(x(k+1))=μ.
§5.4 三大抽样分布
1. 三大抽样分布:χ2 分布,F 分布,t 分布
设 x1,x2,⋯,xn 和 y1,y2,⋯,ym 是来自标准正态分布的两个相互独立的样本,则此三个统计量的构造及其抽样分布如下表所示。
\small
\renewcommand{\arraystretch}{1.45}
| 统计量的构造 | 抽样分布密度函数 | 期望 | 方差 |
|---|
| χ2=x12+x22+⋯+xn2 | p(y)=Γ(2n)2n/21y2n−1e−y/2,(y>0) | n | 2n |
| F=(x12+x22+⋯+xn2)/n(y12+y22+⋯+ym2)/m | p(y)=Γ(2m)Γ(2n)Γ(2m+n)(nm)m/2y2m−1(1+nmy)−2m+n | n−2n \newline (n>2) | m(n−2)2(n−4)2n2(m+n−2) \newline (n>4) |
| t=(x12+x22+⋯+xn2)/ny1 | p(y)=nπΓ(2n)Γ(2n+1)(1+ny2)−2n+1,(−∞<y<∞) | 0 \newline (n>1) | n−2n \newline (n>2) |
正态总体参数的置信区间与假设检验大多将基于这三大抽样分布获得。
2. 一个重要定理
设 x1,x2,⋯,xn 是来自正态总体 N(μ,σ2) 的一个样本,其样本均值和样本方差分别为
xˉ=n1i=1∑nxi,s2=n−11i=1∑n(xi−xˉ)2,
则有
- xˉ 与 s2 相互独立;
- xˉ∼N(μ,σ2/n);
- σ2(n−1)s2∼χ2(n−1)。
3. 两个重要推论
(1)设 x1,x2,⋯,xn 是来自正态总体 N(μ,σ2) 的样本,则有
t=sn(xˉ−μ)∼t(n−1),
其中 xˉ 为样本均值,s 为样本标准差。
(2)设 x1,x2,⋯,xm 是来自 N(μ1,σ12) 的样本,y1,y2,⋯,yn 是来自 N(μ2,σ22) 的样本,且此两样本相互独立,则有
F=sy2/σ22sx2/σ12∼F(m−1,n−1),
其中 sx2,sy2 分别是两个样本方差。若 σ12=σ22,则
F=sy2sx2∼F(m−1,n−1).
4. 三个说明
- t(n) 分布的密度函数呈“中间高,两边低,左右对称”,与标准正态曲线类似,但峰比 N(0,1) 低,两侧尾部概率比 N(0,1) 大。当自由度 n→∞ 时,t(n) 分布趋向 N(0,1) 分布;当 n>30 时,两者相差已不大,可用 N(0,1) 近似 t(n) 分布。
- 关于 t(n) 分布分位数有 tα(n)+t1−α(n)=0(互为相反数);关于 F(m,n) 分布分位数有 Fα(m,n)⋅F1−α(n,m)=1(互为倒数)。
- t2(n)=F(1,n)。
习题与解答 5.4
在总体 N(7.6,4) 中抽取容量为 n 的样本,如果要求样本均值落在 (5.6,9.6) 内的概率不小于 0.95,则 n 至少为多少?
解
样本均值 xˉ∼N(7.6,n4),按题意可建立如下不等式
P(5.6<xˉ<9.6)=P(4/n5.6−7.6<4/nxˉ−7.6<4/n9.6−7.6)≥0.95.
即
2Φ(n)−1≥0.95,
所以
Φ(n)≥0.975.
查表得 Φ(1.96)=0.975,故 n≥1.96,或 n≥3.84,即样本量 n 至少为 4。
设 x1,x2,⋯,xn 是来自 N(μ,16) 的样本,问 n 多大时才能使得
P(∣xˉ−μ∣<1)≥0.95
成立?
解
样本均值
xˉ∼N(μ,n16),
因而
P(∣xˉ−μ∣<1)=P(16/nxˉ−μ<16/n1)=2Φ(4n)−1≥0.95.
所以
Φ(4n)≥0.975,4n≥1.96.
这给出
n≥61.47,
即 n 至少为 62 时,上述概率不等式成立。
由正态总体 N(100,4) 抽取两个独立样本,样本均值分别为 xˉ,yˉ,样本容量分别为 15,20,试求
P(∣xˉ−yˉ∣>0.2).
解
由条件得
xˉ∼N(100,154),yˉ∼N(100,204),
且 xˉ 和 yˉ 相互独立,从而
xˉ−yˉ∼N(0,154+204)=N(0,157).
于是
P(∣xˉ−yˉ∣>0.2)=P(7/15xˉ−yˉ>7/150.2)=2(1−Φ(0.29))=0.7718.
由正态总体 N(μ,σ2) 抽取容量为 20 的样本,试求
P(10σ2≤i=1∑20(xi−μ)2≤30σ2).
解
因为
xi∼N(μ,σ2),
所以
σxi−μ∼N(0,1),i=1∑20σ2(xi−μ)2∼χ2(20).
用 k20(x) 表示服从 χ2(20) 的随机变量的分布函数,则
P(10σ2≤i=1∑20(xi−μ)2≤30σ2)=P(10≤i=1∑20σ2(xi−μ)2≤30)=k20(30)−k20(10).
利用统计软件可计算上式。譬如,可使用 MATLAB 软件计算上式:在命令行输入 \texttt{chi2cdf(30,20)} 则给出 0.9301,输入 \texttt{chi2cdf(10,20)} 则给出 0.0318,直接输入 \texttt{chi2cdf(30,20)-chi2cdf(10,20)} 则一次性给出 0.8983。这里的 \texttt{chi2cdf(x,k)} 就表示自由度为 k 的 χ2 分布在 x 处的分布函数值。于是有
P(10σ2≤i=1∑20(xi−μ)2≤30σ2)=0.8983.
设 x1,x2,⋯,x16 是来自 N(μ,σ2) 的样本,经计算 xˉ=9,s2=5.32,试求
P(∣xˉ−μ∣<0.6).
解
因为
sn(xˉ−μ)=(n−1)s2/σ2/(n−1)(xˉ−μ)/(σ/n)∼t(n−1),
用 t15(x) 表示服从 t(15) 的随机变量的分布函数,注意到 t 分布是对称的,故
P(∣xˉ−μ∣<0.6)=P(s4∣xˉ−μ∣<s4×0.6)=2t15(1.0405)−1.
利用统计软件可计算上式。譬如,使用 MATLAB 软件在命令行输入 \texttt{tcdf(1.0405,15)} 则给出 0.8427,直接输入 \texttt{2*tcdf(1.0405,15)-1} 则给出 0.6854。这里的 \texttt{tcdf(x,k)} 就表示自由度为 k 的 t 分布在 x 处的分布函数值。于是有
P(∣xˉ−μ∣<0.6)=2×0.8427−1=0.6854.
设 x1,x2,⋯,xn 是来自 N(μ,1) 的样本,试确定最大的常数 c,使得对任意的 μ≥0,有
P(∣xˉ∣<c)≤α.
解
由于
xˉ∼N(μ,n1),
所以 P(∣xˉ∣<c) 的值依赖于 μ,它是 μ 的函数,记为 g(μ),于是
g(μ)=Pμ(∣xˉ∣<c)=P(−c<xˉ<c)=Φ(n(c−μ))−Φ(n(−c−μ)),
其导数为
g′(μ)=−n[φ(n(c−μ))−φ(n(−c−μ))],
其中 φ(x) 表示 N(0,1) 的密度函数,由于 c≥0,μ≥0,故 ∣−c−μ∣≥∣c−μ∣,从而
φ(n(−c−μ))≤φ(n(c−μ)),
这说明 g′(μ)≤0,g(μ) 为减函数,并在 μ=0 处取最大值,即
μ≥0max{Φ(n(c−μ))−Φ(n(−c−μ))}=Φ(nc)−Φ(−nc)=2Φ(nc)−1.
于是,只要
2Φ(nc)−1≤α,
即
(0≤)c≤nu(1+α)/2,
就可保证对任意的 μ≥0,有
P(∣xˉ∣<c)≤α.
最大的常数为
c=nu(1+α)/2.
设随机变量 X∼F(n,n),证明 P(X<1)=0.5。
解
证 若随机变量 X∼F(n,n),则 Y=1/X 也服从 F(n,n),从而
P(X<1)=P(Y<1)=P(1/X<1)=P(X>1).
而
P(X<1)+P(X>1)=1.
这就证明了
P(X<1)=0.5.
设随机变量 X∼F(n,m),证明:
Z=1+mnXmnX
服从贝塔分布,并指出其参数。
解
证 若 X∼F(n,m),则 X 的密度函数为
pX(x)=Γ(2n)Γ(2m)Γ(2m+n)(mn)n/2x2n−1(1+mnx)−2m+n.
由
z=mnx/(1+mnx)
在 (0,∞) 上是严格单调增函数,其反函数为
x=n(1−z)mz,dzdx=n(1−z)2m.
故 Z 的密度函数为
pZ(z)=Γ(2n)Γ(2m)Γ(2m+n)(mn)n/2(n(1−z)mz)2n−1(1+1−zz)−2m+nn(1−z)2m=Γ(2n)Γ(2m)Γ(2m+n)z2n−1(1−z)2m−1,0<z<1.
这说明
Z∼Be(2n,2m),
其两个参数分别为 F 分布两个自由度的一半。
设 x1,x2 是来自 N(0,σ2) 的样本,试求
Y=(x1−x2x1+x2)2
的分布。
解
由条件,
x1+x2∼N(0,2σ2),x1−x2∼N(0,2σ2),
又
Cov(x1+x2,x1−x2)=Var(x1)−Var(x2)=0,
且 x1+x2 与 x1−x2 服从二元正态分布,故 x1+x2 与 x1−x2 独立,于是
(2σx1+x2)2∼χ2(1),(2σx1−x2)2∼χ2(1),
从而
Y=(x1−x2x1+x2)2=((x1−x2)/2σ)2((x1+x2)/2σ)2∼F(1,1).
设总体为 N(0,1),x1,x2 为样本,试求常数 k,使得
P((x1−x2)2+(x1+x2)2(x1+x2)2>k)=0.05.
解
由上题,
Y=(x1−x2x1+x2)2∼F(1,1),
又令
Z=(x1−x2)2+(x1+x2)2(x1+x2)2=1+YY.
由于 Z 取值于 (0,1),故所需要求有 0<k<1,从而
P(Z>k)=P(1+YY>k)=P(Y>1−kk)=0.05.
于是
1−kk=F0.95(1,1)=161.45,
这给出
k=1+161.45161.45=0.9938.
设 x1,x2,⋯,xn 是来自 N(μ1,σ2) 的样本,y1,y2,⋯,ym 是来自 N(μ2,σ2) 的样本,c,d 是任意两个不为 0 的常数,证明:
t=swnc2+md2c(xˉ−μ1)+d(yˉ−μ2)∼t(n+m−2),
其中
sw2=n+m−2(n−1)sx2+(m−1)sy2,
sx2 与 sy2 分别是两个样本方差。
解
由条件有
c(xˉ−μ1)∼N(0,nc2σ2),d(yˉ−μ2)∼N(0,md2σ2),
σ2(n−1)sx2∼χ2(n−1),σ2(m−1)sy2∼χ2(m−1),
且 xˉ,yˉ,sx2,sy2 相互独立,故
c(xˉ−μ1)+d(yˉ−μ2)∼N(0,nc2σ2+md2σ2),
σ2(n+m−2)sw2=σ2(n−1)sx2+σ2(m−1)sy2∼χ2(n+m−2).
于是
t=n+m−2(n+m−2)sw2/σ2[c(xˉ−μ1)+d(yˉ−μ2)]/nc2σ2+md2σ2∼t(n+m−2).
设 x1,x2,⋯,xn,xn+1 是来自 N(μ,σ2) 的样本,
xˉn=n1i=1∑nxi,sn2=n−11i=1∑n(xi−xˉn)2,
试求常数 c 使得
tc=csnxn+1−xˉn
服从 t 分布,并指出分布的自由度。
解
由条件:
xn+1∼N(μ,σ2),xˉn∼N(μ,nσ2),σ2(n−1)sn2∼χ2(n−1),
且 xn+1,xˉn,sn2 相互独立,因而
xn+1−xˉn∼N(0,σ2+nσ2)=N(0,nn+1σ2),
故
n−1(n−1)sn2/σ2(xn+1−xˉn)nn+1/nn+1σ2∼t(n−1).
这说明当
c=n+1n
时,
tc=csnxn+1−xˉn∼t(n−1),
自由度为 n−1。
设从方差相等的两个独立正态总体中分别抽取容量为 15,20 的样本,其样本方差分别为 s12,s22,试求
P(s22s12>2).
解
不妨设正态总体的方差为 σ2,则有
σ214s12∼χ2(14),σ219s22∼χ2(19),
于是
F=s22s12∼F(14,19).
利用统计软件计算可算出
P(s22s12>2)=P(F>2)=0.0798.
譬如,可使用 MATLAB 软件计算上式:在命令行输入 \texttt{1-fcdf(2,14,19)} 则给出 0.0798,这里的 \texttt{fcdf(x,k_1,k_2)} 就表示自由度为 (k1,k2) 的 F 分布在 x 处的分布函数。
设 x1,x2,⋯,x15 是总体 N(0,σ2) 的一个样本,求
y=2(x112+x122+⋯+x152)x12+x22+⋯+x102
的分布。
解
由于 xi/σ 为独立同分布的 N(0,1) 随机变量,故
σ21(x12+x22+⋯+x102)∼χ2(10),
σ21(x112+x122+⋯+x152)∼χ2(5),
且两者独立,故
y=σ21(x112+x122+⋯+x152)/5σ21(x12+x22+⋯+x102)/10∼F(10,5).
设 (x1,x2,⋯,x17) 是来自正态分布 N(μ,σ2) 的一个样本,xˉ 与 s2 分别是样本均值与样本方差。求 k,使得
P(xˉ>μ+ks)=0.95.
解
在正态总体下,
sn(xˉ−μ)∼t(n−1),
所以
P(xˉ>μ+ks)=P(sxˉ−μ>k)=P(sn(xˉ−μ)>kn)=0.95,
即
P(sn(xˉ−μ)≤kn)=0.05.
故 kn 是自由度为 n−1 的 t 分布 t(n−1) 的 0.05 分位数,即
kn=t0.05(n−1).
如令 n=17,查表知
t0.05(16)=−1.7459,
从而
k=17−1.7459=−0.4234.
设总体 X 服从 N(μ,σ2),σ2>0,从该总体中抽取样本 x1,x2,⋯,x2n (n≥1),其样本均值为
xˉ=2n1i=1∑2nxi,
求统计量
y=i=1∑n(xi+xn+i−2xˉ)2
的数学期望。
解
记
yi=xi+xn+i,i=1,2,⋯,n,
则 y1,y2,⋯,yn 可看成来自 N(2μ,2σ2) 样本,而
y=i=1∑n(xi+xn+i−2xˉ)2=i=1∑n(yi−yˉ)2.
由《概率论与数理统计教程(第三版)》中定理 5.4.1,
2σ2y∼χ2(n−1),
从而
E(y)=2(n−1)σ2.
证明:若随机变量 T∼t(k),则对 r<k 有
E(Tr)=⎩⎨⎧0,πΓ(2k)kr/2Γ(2r+1)Γ(2k−r),r 为奇数,r 为偶数,
并由此写出 E(T) 与 Var(T)。
解
证 由 T 变量的结构知,T 变量可表示为
T=V/kU=k1/2U⋅V−1/2,
其中 U∼N(0,1),V∼χ2(k)=Ga(2k,21),且 U 与 V 独立,从而有
E(Tr)=kr/2E(Ur)E(V−r/2).
由于
E(Ur)=⎩⎨⎧0,π2r/2Γ(2r+1),r 为奇数,r 为偶数,
以及
E(V−r/2)=Γ(k/2)2−k/2∫0∞v−r/2vk/2−1e−v/2dv=Γ(k/2)2−r/2Γ(2k−r),r<k,
将两者代回可知,在 r<k 时,若 r 为奇数,则 E(Tr)=0,若 r 为偶数,则
E(Tr)=πΓ(2k)kr/2Γ(2r+1)Γ(2k−r).
证明完成。
进一步,当 r=1 时,
E(T)=0
(此时要求 k>1,否则均值不存在);当 r=2 时,
Var(T)=E(T2)=k−2k
(此时要求 k>2,否则方差不存在)。
证明:若随机变量 F∼F(k,m),则当
−2k<r<2m
时有
E(Fr)=krΓ(2k)Γ(2m)mrΓ(2k+r)Γ(2m−r),
由此写出 E(F) 与 Var(F)。
解
证 由 F 变量的构造知
F=w/mv/k=kmv⋅w−1,
其中 v∼χ2(k),w∼χ2(m),且 v 与 w 相互独立,因此 F 变量的 r 阶矩为
E(Fr)=krmrE(vr)E(w−r).
由于 χ2(k)=Ga(2k,21),容易算得
E(vr)=(1/2)rΓ(2k)Γ(2k+r),r>−2k,
E(w−r)=(1/2)−rΓ(2m)Γ(2m−r),r<2m,
从而可得
E(Fr)=krΓ(2k)Γ(2m)mrΓ(2k+r)Γ(2m−r),−2k<r<2m,
在其他场合,E(Fr) 不存在。
当 r=1 时,由于 k>0,只要 m>2,就有
E(F)=kΓ(2k)Γ(2m)mΓ(2k+1)Γ(2m−1)=m−2m.
当 r=2 时,只要 m>4,就有
E(F2)=k2Γ(2k)Γ(2m)m2Γ(2k+2)Γ(2m−2)=k(m−2)(m−4)m2(k+2).
从而
Var(F)=E(F2)−(E(F))2=k(m−2)2(m−4)2m2(k+m−2).
设 x1,x2,⋯,xn 是来自某连续总体的一个样本。该总体的分布函数 F(x) 是连续严格增函数,证明:统计量
T=−2i=1∑nlnF(xi)
服从 χ2(2n)。
解
证 分几步进行:
(1)若 X∼F(x),且 F(x) 为连续严格增函数,则
Y=F(X)∼U(0,1).
这是因为 F(x) 的反函数 F−1 也存在。于是 Y=F(X) 的分布函数为
FY(y)=P(F(X)≤y)=P(X≤F−1(y))=F(F−1(y))=y,
其中 y∈(0,1),当 y≤0 时,FY(y)=0,当 y≥1 时,FY(y)=1,所以 F(X)∼U(0,1)。
(2)若 Y∼U(0,1),则
Z=−2lnY∼χ2(2).
这是由于 Y 仅在 (0,1) 上取值,故 Z=−2lnY 仅在 (0,∞) 上取值,所以当 z≤0 时,FZ(z)=0;当 z>0 时,有
FZ(z)=P(−2lnY≤z)=P(Y≥e−z/2)=1−e−z/2.
这是自由度为 2 的 χ2 分布函数,即 Z=−2lnY∼χ2(2)。
(3)由 X1,X2,⋯,Xn 的相互独立性可知 F(X1),F(X2),⋯,F(Xn) 相互独立,由(1)与(2)可知
T=−2i=1∑nlnF(xi)∼χ2(2n).
设 x1,x2,⋯,xn 是来自正态总体 N(μ,σ2) 的一个样本,
sn2=n−11i=1∑n(xi−xˉ)2
是样本方差,试求满足
P(σ2sn2≤1.5)≥0.95
的最小 n 值。
解
由于
σ2(n−1)sn2∼χ2(n−1),
所以要使
P(σ2sn2≤1.5)≥0.95,
等价于要使 χ2(n−1) 分布的 0.95 分位数 χ0.952(n−1) 不大于 1.5(n−1),即
χ0.952(n−1)≤1.5(n−1).
满足上述不等式的最小 n 可用搜索法获得,如下表:
n2510χ0.952(n−1)3.84159.487716.91901.5(n−1)1.5613.5
| n | χ0.952(n−1) | 1.5(n−1) |
|---|
| 15 | 23.6848 | 21 |
| 20 | 30.1435 | 28.5 |
| 25 | 36.4150 | 36 |
| 26 | 37.6525 | 37.5 |
| 27 | 38.8851 | 39 |
| 28 | 40.1133 | 40.5 |
由此可见,当 n≥27 时,就可使上述不等式成立。
设 x1,x2,…,xn 独立同分布服从 N(μ,σ2),
xˉ=n1i=1∑nxi,s2=n−11i=1∑n(xi−xˉ)2,
记
ξ=sx1−xˉ.
试找出 ξ 与 t 分布的联系(提示:作正交变换
y1=nxˉ,y2=n−1n(x1−xˉ),yi=j=1∑ncijxj, i=3,4,…,n
)。
解
x1,x2,…,xn 的联合密度函数为
p(x1,x2,…,xn)=(2πσ2)−n/2exp{−2σ21i=1∑n(xi−μ)2}=(2πσ2)−n/2exp{−2σ2∑i=1nxi2−2nxˉμ+nμ2}.
记 X=(x1,x2,…,xn)T,取一个 n 维正交矩阵 A,其第一行为元素全为 1/n,第二行为
(nn−1,−n(n−1)1,−n(n−1)1,…,−n(n−1)1),
其余元素只要满足正交性即可。令 Y=AX,则该变换的雅可比行列式为 1,且注意到
y1=nxˉ,y2=n−1n(x1−xˉ),i=1∑nyi2=YTY=XTATAX=i=1∑nxi2.
于是 y1,y2,…,yn 的联合密度函数为
p(y1,y2,…,yn)=(2πσ2)−n/2exp{−2σ2∑i=2nyi2−2nμy1+nμ2}=(2πσ2)−n/2exp{−2σ2∑i=2nyi2+(y1−nμ)2}.
由此,y2,y3,…,yn 独立同分布于 N(0,σ2),且
(n−1)s2=i=2∑nyi2.
令
t=(y32+⋯+yn2)/(n−2)y2=[(n−1)s2−y22]/(n−2)y2,
则 t∼t(n−2),而
ξ=sx1−xˉ=nn−1⋅(n−1)s2y2
=nn−1⋅[(n−1)s2−y22]/(n−2)(n−1)s2[(n−1)s2−y22]/(n−2)y2
=nn−1⋅n−2+t2t.
这就建立了 ξ 与 t 分布的联系。
设 x1,x2,…,xm 相互独立,xi 服从 χ2(ni),i=1,2,…,m。令
U1=x1+x2x1,U2=x1+x2+x3x1+x2,…,Um−1=x1+⋯+xmx1+⋯+xm−1.
证明:U1,U2,…,Um−1 相互独立,且
Ui∼Be(2n1+n2+⋯+ni,2ni+1),i=1,2,…,m−1.
(提示:令 Um=x1+x2+⋯+xm,作变换
x1=U1U2⋯Um,x2=U2U3⋯Um−U1U2⋯Um,…,xm=Um−Um−1Um
。)
解
令 Um=x1+x2+⋯+xm,则
⎩⎨⎧x1x2xm=U1⋯Um,=U2⋯Um−U1⋯Um, ⋮=Um−Um−1Um.
再令
St=UtUt+1⋯Um,t=1,2,…,m,
则
⎩⎨⎧x1x2xm=S1,=S2−S1, ⋮=Sm−Sm−1.
所以变换的雅可比行列式为
J=∂(u1,u2,…,um)∂(x1,x2,…,xm)=u1s1−u1s10⋮0u2s1u2s2−s1−u2s2⋮0u3s1u3s2−s1u3s3−s2⋮0⋯⋯⋯⋱⋯ums1ums2−s1ums3−s2⋮umsm−sm−1.
计算该行列式,可得
J=i=2∏muii−1.
因为
p(x1,x2,…,xm)=i=1∏m2ni/2Γ(2ni)1exp{−21i=1∑mxi}i=1∏mxini/2−1,
把雅可比行列式代入上式可得
p(u1,u2,…,um)=i=1∏m2ni/2Γ(2ni)1exp{−21um}um2n1+n2+⋯+nm−1⋅i=1∏m−1ui2n1+n2+⋯+ni−1(1−ui)2ni+1−1.
由此可知 U1,U2,…,Um−1 相互独立,且
Ui∼Be(2n1+n2+⋯+ni,2ni+1),i=1,2,…,m−1.
补充习题及解答
设 (xi,yi),i=1,2,…,n 是取自二维正态分布
N(μ1,μ2,σ12,σ22,ρ) 的样本,记
xˉ=n1i=1∑nxi,yˉ=n1i=1∑nyi,
sx2=n−11i=1∑n(xi−xˉ)2,sy2=n−11i=1∑n(yi−yˉ)2,
r=∑i=1n(xi−xˉ)2⋅∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ).
试求统计量
T=nsx2+sy2−2rsxsyxˉ−yˉ−(μ1−μ2)
的分布。
解
容易看出 xˉ−yˉ 仍服从正态分布,且
E(xˉ−yˉ)=μ1−μ2,Var(xˉ−yˉ)=nσ12+nσ22−n2ρσ1σ2.
所以
nσ12+σ22−2ρσ1σ2xˉ−yˉ−(μ1−μ2)∼N(0,1).
另外,
(n−1)(sx2+sy2−2rsxsy)=i=1∑n(xi−xˉ)2+i=1∑n(yi−yˉ)2−2i=1∑n(xi−xˉ)(yi−yˉ)=i=1∑n[(xi−yi)−(xˉ−yˉ)]2.
类似于一维正态变量场合,可证:
(n−1)(sx2+sy2−2rsxsy)
与 xˉ−yˉ 相互独立,且
σ12+σ22−2ρσ1σ2(n−1)(sx2+sy2−2rsxsy)∼χ2(n−1).
于是根据 t 变量的构造可知
(σ12+σ22−2ρσ1σ2)(n−1)(n−1)(sx2+sy2−2rsxsy)σ12+σ22−2ρσ1σ2n[xˉ−yˉ−(μ1−μ2)]=nsx2+sy2−2rsxsyxˉ−yˉ−(μ1−μ2)∼t(n−1).
这就是我们要求的分布。
设 Tn 是自由度为 n 的 t 变量,试证:Tn 的渐近分布为标准正态分布 N(0,1)。
解
据自由度为 n 的 t 变量的构造知
Tn=Y/nX,
其中 X∼N(0,1),Y∼χ2(n),且 X 与 Y 相互独立。由 Y 的特征函数为
(1−2it)−n/2,
故 Y/n 的特征函数为
(1−n2it)−n/2.
考察其极限知
n→∞lim(1−n2it)−n/2=n→∞lim(1−n2it)−n/(2it)=eit.
由特征函数性质知
nYP1,
从而由
nYP1,
再按依概率收敛性知
Tn=XY/n1PX,
这就证明了 Tn 的渐近分布为标准正态分布 N(0,1)。
注:此结论也可从自由度为 n 的 t 分布的密度函数直接导出,只是推算稍微复杂一些。
§5.5 充分统计量
1. 充分统计量
设 x1,x2,…,xn 是来自总体分布函数为 F(x;θ) 的一个样本,统计量
T=T(x1,x2,…,xn) 称为 θ 的充分统计量(也称为该分布的充分统计量),如果在给定 T 的取值后,x1,x2,…,xn 的条件分布与 θ 无关。其中条件分布可以是条件分布列(离散场合)或条件密度函数(连续场合)。
充分统计量 T(x1,x2,…,xn) 不仅可简化样本,还不损失样本中有关参数 θ 的信息。在充分统计量存在场合要尽量使用它作各种统计推断。
2. 因子分解定理
设总体的概率函数为 f(x;θ),x1,x2,…,xn 为其样本,则
T=T(x1,x2,…,xn) 为充分统计量的充要条件是:存在如下两个函数
g(t,θ),h(x1,x2,…,xn),
其中 g(t,θ) 是通过统计量 T 的取值 t 而依赖于样本的函数,h(x1,x2,…,xn) 是样本的函数,与 θ 无关,使得
f(x1,x2,…,xn;θ)=g(T(x1,x2,…,xn),θ)h(x1,x2,…,xn).
3. 充分统计量的一一对应变换仍是充分统计量
4. 一些常见分布的常用充分统计量
\renewcommand{\arraystretch}{1.25}
| 分布 | 分布列或密度函数 | 参数 | 常用充分统计量 |
|---|
| 二点分布 b(1,p) | px(1−p)1−x, x=0,1 | p | T=x1+x2+⋯+xn |
| 泊松分布 p(λ) | x!λxe−λ, x=0,1,2,… | λ | T=x1+x2+⋯+xn |
| 几何分布 Ge(θ) | θ(1−θ)x, x=0,1,2,… | θ | T=x1+x2+⋯+xn |
| 均匀分布 U(0,θ) | θ1, 0<x<θ | θ | T=max{x1,x2,…,xn} |
| 均匀分布 U(θ1,θ2) | θ2−θ11, θ1<x<θ2 | θ1,θ2 | T1=x(1), T2=x(n) |
| 均匀分布 U(θ,2θ) | θ1, θ<x<2θ | θ | T1=x(1), T2=x(n) |
| 正态分布 N(μ,σ2) | 2πσ1exp{−2σ2(x−μ)2} | μ,σ2 | xˉ 与 ∑i=1n(xi−xˉ)2 |
| 幂分布 | p(x;θ)=θxθ−1, 0<x<1 | θ | T=∏i=1nxi 或 T=−∑i=1nlnxi |
| 指数分布 Exp(λ) | λe−λx, x>0 | λ | T=x1+x2+⋯+xn |
| 双参数指数分布 | p(x;θ,μ)=θ1e−(x−μ)/θ, x>μ | μ,θ | T1=x(1), T2=∑i=1nxi |
| 伽马分布 Ga(α,λ) | Γ(α)λαxα−1e−λx, x>0 | α,λ | T1=∑i=1nxi, T2=∏i=1nxi |
| 对数正态分布 LN(μ,σ2) | 2πσx1exp{−2σ2(lnx−μ)2} | μ,σ2 | T1=∑i=1nlnxi, T2=∑i=1n(lnxi)2 |
| 贝塔分布 Be(a,b) | B(a,b)1xa−1(1−x)b−1, 0<x<1 | a,b | T1=∑i=1nlnxi, T2=∑i=1nln(1−xi) |
习题与解答 5.5
设 x1,x2,…,xn 是来自几何分布
P(X=x)=θ(1−θ)x,x=0,1,2,…
的样本,证明
T=i=1∑nxi
是充分统计量。
解
由几何分布性质知,
T∼Nb(n,θ),
其分布列为
P(T=t)=(tn+t−1)θn(1−θ)t,t=0,1,2,…
在给定 T=t 后,对任意的一个样本 x1,x2,…,xn(∑i=1nxi=t),有
P(X1=x1,…,Xn=xn∣T=t)=P(T=t)P(X1=x1,…,Xn−1=xn−1,Xn=t−∑i=1n−1xi)=(tn+t−1)θn(1−θ)ti=1∏n−1P(Xi=xi)⋅P(Xn=t−i=1∑n−1xi)=(tn+t−1)θn(1−θ)ti=1∏n−1θ(1−θ)xi⋅θ(1−θ)t−∑i=1n−1xi=(tn+t−1)1.
该条件分布与 θ 无关,因而
T=i=1∑nxi
是充分统计量。
讨论:这个条件分布是离散均匀分布,可用等可能模型给其一个解释:设想有 n−1 个“1”和 t 个“0”,把它们随机地排成一行,并在最后位置上添上 1 个“1”,譬如
0,…,0,1,0,…,0,1,…,0,…,0,1,0,…,0,1.
这 n 个“1”把此序列分成 n 段,每段中“0”的个数依次记为 x1,x2,…,xn,这里诸 xi 服从几何分布,且
x1+x2+⋯+xn=t.
这种序列共有
(tn+t−1)
个(这是重复组合),而每一个出现是等可能的,即每一个出现的概率都是
(tn+t−1)1,
这就是在 x1+x2+⋯+xn=t 给定后 x1,x2,…,xn 的条件联合分布。
这个条件分布还表明:当已知统计量
T=i=1∑nxi
的值 t 后,就可按此条件分布产生一个样本 (x1′,x2′,…,xn′),它虽与原样本不尽相同,但其分布相同。在功能上这等价于恢复了原样本。
设 x1,x2,…,xn 是来自泊松分布 P(λ) 的样本,证明
T=i=1∑nxi
是充分统计量。
解
由泊松分布性质知
T∼P(nλ).
在给定 T=t 后,对任意的 x1,x2,…,xn(∑i=1nxi=t),有
P(X1=x1,…,Xn=xn∣T=t)=P(T=t)P(X1=x1,…,Xn−1=xn−1,Xn=t−∑i=1n−1xi)=t!(nλ)te−nλi=1∏n−1P(Xi=xi)⋅P(Xn=t−i=1∑n−1xi)=t!(nλ)te−nλi=1∏n−1xi!λxie−λ⋅xn!λxne−λ=nt∏i=1nxi!t!.
该条件分布与 λ 无关,因而
T=i=1∑nxi
是充分统计量。
讨论:对来自泊松分布 P(λ) 的样本 x1,x2,…,xn,若诸 ci,i=1,2,…,n 不等,则
i=1∑ncixi
不是充分统计量。譬如,当 n=2 时,可以证明 x1+2x2 不是充分统计量。事实上,若设
T′=x1+2x2=2,
则 x1,x2 的取值有两种可能:
x1=2,x2=0或x1=0,x2=1.
可以算得条件概率为
P(x1=0,x2=1∣x1+2x2=2)=P(x1=0,x2=1)+P(x1=2,x2=0)P(x1=0,x2=1)=e−λ⋅λe−λ+2λ2e−λ⋅e−λe−λ⋅λe−λ=λ+22.
该条件概率与 λ 有关,所以
T′=x1+2x2
不是 λ 的充分统计量。
设总体为如下离散型分布:
xpa1p1a2p2⋯⋯akpk
x1,x2,…,xn 是来自该总体的样本。
- 证明次序统计量 (x(1),x(2),…,x(n)) 是充分统计量;
- 以 nj 表示 x1,x2,…,xn 中等于 aj 的个数,证明 (n1,n2,…,nk) 是充分统计量。
解
(1) 给定 (x(1),x(2),…,x(n)) 的取值 y1,y2,…,yn,设 y1,y2,…,yn 中有 ni 个 ai,ni 可以为 0,但必有
n1+n2+⋯+nk=n.
于是,对任一组 x1,x2,…,xn,满足 x1,x2,…,xn 中有 ni 个 ai,有
P(Xi=xi, i=1,2,…,n∣x(i)=yi, i=1,2,…,n)=P(x(i)=yi, i=1,2,…,n)P(Xi=xi, i=1,2,…,n)=n1!n2!⋯nk!n!p1n1p2n2⋯pknk∏i=1kpini=n!n1!n2!⋯nk!.
该条件分布不依赖于未知参数,因而次序统计量 (x(1),x(2),…,x(n)) 是充分统计量。
(2) (n1,n2,…,nk) 与 (x(1),x(2),…,x(n)) 是一一对应的,因为给出 (x(1),x(2),…,x(n)) 就可算得 (n1,n2,…,nk),反之,给出 (n1,n2,…,nk) 也可构造出 (x(1),x(2),…,x(n)),这只要通过令
x(1)=⋯=x(n1)=a1,x(n1+1)=⋯=x(n1+n2)=a2,…,x(n1+⋯+nk−1+1)=⋯=x(n)=ak
即可实现(这里默认 a1<a2<⋯<ak),因此 (n1,n2,…,nk) 是充分统计量。
思考:该结论亦可直接由条件概率出发导出,留作练习。
设 x1,x2,…,xn 是来自正态分布 N(μ,1) 的样本,证明
T=i=1∑nxi
是充分统计量。
解
由条件,
T=i=1∑nxi∼N(nμ,n).
在给定 T=t 下 x1,x2,…,xn 的条件密度函数为
pμ(x1,x2,…,xn∣T=t)=pμ(t)pμ(x1,x2,…,xn)(其中 xn=t−i=1∑n−1xi)=(2πn)−1/2exp{−2n1(t−nμ)2}(2π)−n/2exp{−21∑i=1n(xi−μ)2}=(2πn)−1/2exp{−2n1(t2−2nμt+n2μ2)}(2π)−n/2exp{−21(∑i=1nxi2−2μt+nμ2)}=n(2π)−(n−1)/2exp{−21(i=1∑nxi2−nt2)}.
它与 μ 无关,从而
T=i=1∑nxi
是充分统计量。
讨论:T=∑i=1nxi 是 μ 的充分统计量,T1=xˉ 也是 μ 的充分统计量,因为 T1 与 T 是一一对应的,但是
T2=(xˉ)2
则不是 μ 的充分统计量。事实上,由于
xˉ∼N(μ,n1),
记其密度函数为
f(xˉ)=2πne−n(xˉ−μ)2/2,
则 T2=(xˉ)2 的密度函数为
g(t)=f(t)2t1+f(−t)2t1=2t12πn[e−n(t−μ)2/2+e−n(t+μ)2/2].
于是条件密度函数(注意到 t=∣xˉ∣)
f(x1,x2,…,xn∣T2=t)=2t12πn(e−n(t−μ)2/2+e−n(t+μ)2/2)(2π)−n/2e−21∑i=1n(xi−μ)2.
它是依赖于 μ 的,所以
T2=(xˉ)2
不是 μ 的充分统计量。
设 x1,x2,…,xn 是来自
p(x;θ)=θxθ−1,0<x<1, θ>0
的样本,试给出一个充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;θ)=θn(x1x2⋯xn)θ−1=θn(i=1∏nxi)θ−1.
令
T=i=1∏nxi,
取
g(t;θ)=tθ−1θn,h(x1,x2,…,xn)=1,
由因子分解定理,T=∏i=1nxi 为 θ 的充分统计量。另外,T 的一一变换得到的统计量,如 x1,x2,…,xn 的几何平均
(x1x2⋯xn)1/n
或其对数
−n1i=1∑nlnxi
都是 θ 的充分统计量。
设 x1,x2,…,xn 是来自韦布尔分布
p(x;θ)=mxm−1θ−me−(x/θ)m,x>0, θ>0
的样本(m>0 已知),试给出一个充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;θ)=mn(x1x2⋯xn)m−1θ−mne−∑i=1nxim/θm.
若令
T=i=1∑nxim,
取
g(t;θ)=θ−mnexp{−θmt},h(x1,x2,…,xn)=mn(i=1∏nxi)m−1,
由因子分解定理,
T=i=1∑nxim
是 θ 的充分统计量。
设 x1,x2,…,xn 是来自帕雷托(Pareto)分布
p(x;θ)=θaθx−(θ+1),x>a, θ>0
的样本(a>0 已知),试给出一个充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;θ)=θnanθ(x1x2⋯xn)−(θ+1),xi>a, i=1,2,…,n.
令
T=i=1∏nxi,
取
g(t;θ)=θnanθt−(θ+1),h(x1,x2,…,xn)=1,
由因子分解定理,
T=i=1∏nxi
或
S=n1i=1∑nlnxi
是 θ 的充分统计量。
设 x1,x2,…,xn 是来自拉普拉斯(Laplace)分布
p(x;θ)=2θ1e−∣x∣/θ,θ>0
的样本,试给出一个充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;θ)=(2θ1)ne−∑i=1n∣xi∣/θ.
取
T=i=1∑n∣xi∣,g(t;θ)=(2θ1)ne−t/θ,h(x1,x2,…,xn)=1,
由因子分解定理,
T=i=1∑n∣xi∣
为 θ 的充分统计量。
设 x1,x2,…,xn 独立同分布,x1 服从以下分布,求相应的充分统计量:
- 负二项分布
x1∼p(x1;θ)=(r−1x1+r−1)θr(1−θ)x1,x1=0,1,2,…, r 已知;
- 离散均匀分布
x1∼p(x1;m)=m1,x1=1,2,…,m, m 未知;
- 对数正态分布
x1∼p(x1;μ,σ)=2πσx11exp{−2σ21(lnx1−μ)2},x1>0;
- 瑞利(Rayleigh)分布
x1∼p(x1;λ)=2λx1e−λx12I[x1≥0].
解
(1) 样本的联合密度函数为
p(x1,x2,…,xn;θ)=i=1∏n(r−1xi+r−1)θr(1−θ)xi=(i=1∏n(r−1xi+r−1))θnr(1−θ)∑i=1nxi=h(x)θnr(1−θ)∑i=1nxi,
其中
h(x)=i=1∏n(r−1xi+r−1).
由因子分解定理知
T=i=1∑nxi
是充分统计量。
(2) 样本的联合密度函数为
p(x1,x2,…,xn;m)=mn1I[x(1)≥1]I[x(n)≤m],
由因子分解定理知
T=x(n)
是充分统计量。
(3) 样本的联合密度函数为
p(x1,x2,…,xn;μ,σ2)=i=1∏n2πσxi1exp{−2σ21i=1∑n(lnxi−μ)2}=(i=1∏n2πxi1)σ−nexp{−2σ21i=1∑n(lnxi)2+σ2μi=1∑nlnxi−2σ2nμ2}.
由因子分解定理知
T=(i=1∑nlnxi, i=1∑n(lnxi)2)
是充分统计量。
(4) 样本的联合密度函数为
p(x1,x2,…,xn;λ)=i=1∏n[2λxie−λxi2I[xi≥0]]=2n(i=1∏nxi)λne−λ∑i=1nxi2I[x(1)≥0].
由因子分解定理知
T=i=1∑nxi2
是充分统计量。
设 x1,x2,…,xn 是来自正态分布 N(μ,σ2) 的样本。
- 在 μ 已知时给出 σ2 的一个充分统计量;
- 在 σ2 已知时给出 μ 的一个充分统计量。
解
(1) 在 μ 已知时,样本联合密度函数为
p(x1,x2,…,xn;σ2)=(2πσ2)−n/2exp{−2σ21i=1∑n(xi−μ)2}.
令
T=i=1∑n(xi−μ)2,
取
g(t;σ2)=(2πσ2)−n/2exp{−2σ2t},h(x1,x2,…,xn)=1,
由因子分解定理,
T=i=1∑n(xi−μ)2
为 σ2 的充分统计量。
(2) 在 σ2 已知时,样本联合密度函数为
p(x1,x2,…,xn;μ)=(2πσ2)−n/2exp{−2σ21i=1∑n(xi−μ)2}=(2πσ2)−n/2exp{−2σ21i=1∑nxi2}exp{−2σ21(nμ2−2μi=1∑nxi)}.
令
xˉ=n1i=1∑nxi,
取
g(xˉ;μ)=exp{−2σ21(nμ2−2nμxˉ)},h(x)=(2πσ2)−n/2exp{−2σ21i=1∑nxi2},
由因子分解定理,xˉ 为 μ 的充分统计量。
设 x1,x2,…,xn 是来自均匀分布 U(θ1,θ2) 的样本,试给出一个充分统计量。
解
总体的密度函数为
p(x;θ1,θ2)=⎩⎨⎧θ2−θ11,0,θ1<x<θ2,其他.
于是样本的联合密度函数为
p(x1,x2,…,xn;θ1,θ2)=(θ2−θ11)nI{θ1<x(1)≤x(n)<θ2}.
令
t1=x(1),t2=x(n),
并取
g(t;θ1,θ2)=(θ2−θ11)nI{θ1<t1≤t2<θ2},h(x1,x2,…,xn)=1,
由因子分解定理,
T=(t1,t2)=(x(1),x(n))
为参数 (θ1,θ2) 的充分统计量。
设 x1,x2,…,xn 是来自均匀分布 U(θ,2θ),θ>0 的样本,试给出充分统计量。
解
总体的密度函数为
p(x;θ)=⎩⎨⎧θ1,0,θ<x<2θ,其他.
于是样本的联合密度为
p(x1,x2,…,xn;θ)=(θ1)nI{θ<x(1)≤x(n)<2θ}.
令
t1=x(1),t2=x(n),
并取
g(t;θ)=(θ1)nI{θ<t1≤t2<2θ},h(x1,x2,…,xn)=1,
由因子分解定理,
T(t1,t2)=(x(1),x(n))
为 θ 的充分统计量(这里没有一维的充分统计量)。这表明:充分统计量的维数不一定能够等于未知参数个数。
设 x1,x2,…,xn 是来自伽马分布族 {Ga(α,λ):α>0,λ>0} 的一个样本,寻求 (α,λ) 的充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;α,λ)=λnα(Γ(α))−n(i=1∏nxi)α−1e−λ∑i=1nxi.
由因子分解定理,
T=(i=1∏nxi, i=1∑nxi)
或
S=(n1i=1∑nlnxi, xˉ)
是充分统计量。
设 x1,x2,…,xn 是来自贝塔分布族 {Be(a,b):a>0,b>0} 的一个样本,寻求 (a,b) 的充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;a,b)=(Γ(a)Γ(b)Γ(a+b))n(i=1∏nxi)a−1(i=1∏n(1−xi))b−1.
由因子分解定理,
T=(i=1∏nxi, i=1∏n(1−xi))
是充分统计量。
若 x=(x1,x2,…,xn) 为从分布族
f(x,θ)=C(θ)exp{i=1∑kQi(θ)Ti(x)}h(x)
中抽取的简单样本,试证
T(x)=(j=1∑nT1(xj), j=1∑nT2(xj), …, j=1∑nTk(xj))
为充分统计量。
解
样本的联合密度函数为
p(x1,x2,…,xn;θ)=(C(θ))nexp{j=1∑ni=1∑kQi(θ)Ti(xj)}j=1∏nh(xj).
由因子分解定理知,
T(x)=(j=1∑nT1(xj), j=1∑nT2(xj), …, j=1∑nTk(xj))
为充分统计量。
设 x1,x2,…,xn 是来自正态总体 N(μ,σ12) 的样本,y1,y2,…,ym 是来自另一正态总体 N(μ,σ22) 的样本,这两个样本相互独立,试给出 (μ,σ12,σ22) 的充分统计量。
解
样本 x1,x2,…,xn,y1,y2,…,ym 的联合密度函数为
p(x1,x2,…,xn,y1,y2,…,ym)=i=1∏n{2πσ11e−2σ121(xi−μ)2}i=1∏m{2πσ21e−2σ221(yi−μ)2}=(2π)−(n+m)/2σ1−nσ2−mexp{−2σ121i=1∑nxi2−2σ221i=1∑myi2+(σ12nxˉ+σ22myˉ)μ−(2σ12n+2σ22m)μ2}.
其中
xˉ=n1i=1∑nxi,yˉ=m1i=1∑myi,
令
t=(t1,t2,t3,t4)=(xˉ,yˉ,i=1∑nxi2,i=1∑myi2),
取
g(t,μ,σ12,σ22)=(2π)−(n+m)/2σ1−nσ2−m⋅exp{−2σ121t3−2σ221t4+(σ12nt1+σ22mt2)μ−(2σ12n+2σ22m)μ2},
h(x1,x2,…,xn,y1,y2,…,ym)=1,
由因子分解定理,
t=(t1,t2,t3,t4)=(xˉ,yˉ,i=1∑nxi2,i=1∑myi2)
是 (μ,σ12,σ22) 的充分统计量。
设
(yixi),i=1,2,…,n
是来自正态分布族
{N((θ2θ1),(σ12ρσ1σ2ρσ1σ2σ22)), −∞<θ1,θ2<∞, σ1,σ2>0, ∣ρ∣≤1}
的一个二维样本,寻求 (θ1,σ1,θ2,σ2,ρ) 的充分统计量。
解
p(x1,y1;…;xn,yn)=(2πσ1σ21−ρ21)n×exp{−2(1−ρ2)1i=1∑n[(σ1xi−θ1)2−2ρ(σ1xi−θ1)(σ2yi−θ2)+(σ2yi−θ2)2]}=(2πσ1σ21−ρ21)nexp{−2(1−ρ2)n[(σ1θ1)2−σ1σ22θ1θ2ρ+(σ2θ2)2]}×exp{−2(1−ρ2)σ12∑i=1nxi2−2nxˉθ1+(1−ρ2)σ1σ2ρ(∑i=1nxiyi−nθ1yˉ−nθ2xˉ)−2(1−ρ2)σ22∑i=1nyi2−2nyˉθ2}.
由因子分解定理,
(i=1∑nxi, i=1∑nxi2, i=1∑nyi, i=1∑nyi2, i=1∑nxiyi)
为充分统计量。
设二维随机变量
X=(X2X1)
服从二元正态分布,其均值向量为零向量,协方差阵为
(σ2+r2σ2−r2σ2−r2σ2+r2),σ>0, r>0.
(x2ix1i),i=1,2,…,n
是来自该总体的样本,证明:二维统计量
T=(i=1∑n(x1i+x2i)2, i=1∑n(x1i−x2i)2)
是该二元正态分布族的充分统计量。
解
该二元正态分布的密度函数为
p(x1,x2)=2πσ1σ21−ρ21exp{−2(1−ρ2)1[(σ1x1)2−2ρ(σ1x1)(σ2x2)+(σ2x2)2]},
此处,
σ12=σ22=σ2+r2,ρ=σ1σ2Cov(x1,x2)=σ2+r2σ2−r2,
故
(σ1x1)2−2ρ(σ1x1)(σ2x2)+(σ2x2)2=σ2+r21(x12+x22−2σ2+r2σ2−r2x1x2)=(σ2+r2)21[(σ2+r2)(x12+x22)−2(σ2−r2)x1x2]=(σ2+r2)21[σ2(x1−x2)2+r2(x1+x2)2].
从而
p(x1,x2)=2π(σ2+r2)1−ρ21exp{−2(1−ρ2)1⋅(σ2+r2)21[σ2(x1−x2)2+r2(x1+x2)2]}.
注意到
1−ρ2=(σ2+r2)24σ2r2,
上式可化为
p(x1,x2)=4πσr1exp{−8σ2r21[σ2(x1−x2)2+r2(x1+x2)2]}.
于是样本的联合密度函数为
p(x11,x21,…,x1n,x2n)=(4πσr1)nexp{−8σ2r21[σ2i=1∑n(x1i−x2i)2+r2i=1∑n(x1i+x2i)2]}.
由因子分解定理,结论成立。
设 x1,x2,…,xn 是来自两参数指数分布
p(x;θ,μ)=θ1e−(x−μ)/θ,x>μ, θ>0
的样本,证明 (xˉ,x(1)) 是充分统计量。
解
由已知,样本联合密度函数为
p(x1,x2,…,xn;θ,μ)=(θ1)ne−∑i=1n(xi−μ)/θI{x(1)>μ}=(θ1)ne(−nxˉ+nμ)/θI{x(1)>μ}.
令
g(t;θ,μ)=(θ1)ne(−nxˉ+nμ)/θI{x(1)>μ},h(x1,x2,…,xn)=1,
由因子分解定理,
(xˉ,x(1))
是 (μ,θ) 的充分统计量。
设随机变量
Yi∼N(β0+β1xi,σ2),i=1,2,…,n,
诸 Yi 独立,x1,x2,…,xn 是已知常数,试证明
(i=1∑nYi, i=1∑nxiYi, i=1∑nYi2)
是充分统计量。
解
Y1,Y2,…,Yn 的联合密度函数为
p(y1,y2,…,yn)=i=1∏n{2πσ1exp[−2σ21(yi−β0−β1xi)2]}=(2πσ2)−n/2exp{−2σ21i=1∑n(yi−β0−β1xi)2}=(2πσ2)−n/2exp{−2σ21(i=1∑nyi2+nβ02+β12i=1∑nxi2−2β0i=1∑nyi−2β1i=1∑nxiyi+2β0β1i=1∑nxi)}.
注意到 x1,x2,…,xn 是已知常数,令
t=(t1,t2,t3)=(i=1∑nyi, i=1∑nxiyi, i=1∑nyi2),
取
g(t,σ2,β0,β1)=(2πσ2)−n/2exp{−2σ21(nβ02+β12i=1∑nxi2+2β0β1i=1∑nxi)}⋅exp{−2σ21(t3−2β0t1−2β1t2)},
h(y1,y2,…,yn)=1.
由因子分解定理,
(i=1∑nYi, i=1∑nxiYi, i=1∑nYi2)
是 (β0,β1,σ2) 的充分统计量。
评论
支持 Markdown 和 LaTeX 数学公式。