§5.3 统计量及其分布
依赖于
被以下题目直接调用
正文部分
§5.3 统计量及其分布
1. 统计量 不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。
2. 样本均值 样本 x1,x2,…,xn 的算术平均值称为样本均值,记为 x。
分组样本均值:
x=n1i=1∑kxifi,
其中 n 为样本量,k 为组数,xi 与 fi 为第 i 组的组中值与频数,分组样本均值是完全样本均值的一种较好的近似。
样本均值是样本的位置特征,样本中大多数值位于 x 左右。平均可消除一些随机干扰,等价交换也是在平均数中实现的。
样本均值的性质:
- ∑i=1n(xi−x)=0,
样本数据 xi 对样本均值 x 的偏差之和为零;
- 样本数据 xi 与样本均值 x 的偏差平方和最小,即对任意的实数 c 有
i=1∑n(xi−x)2≤i=1∑n(xi−c)2;
- 若总体分布为 N(μ,σ2),则 x 的精确分布为 N(μ,σ2/n);
- 若总体分布未知,但其期望 μ 与方差 σ2 存在,则当 n 较大时,x 的渐近分布为 N(μ,σ2/n)。
3. 样本方差与样本标准差 样本方差有两个,样本方差 sn2 与样本无偏方差 s2
sn2=n1i=1∑n(xi−x)2,s2=n−11i=1∑n(xi−x)2.
实际中常用的是无偏样本方差 s2,这是因为:当 σ2 为总体方差时,总有
E(sn2)=nn−1σ2,E(s2)=σ2.
这表明:sn2 系统偏小而 s2 无此系统偏差。今后称 s2 为样本方差;s=s2 为样本标准差。
样本方差是样本的散布特征,s2 愈大样本愈分散,s2 愈小样本愈集中,样本标准差 s 与样本均值 x 有相同单位,s 使用更频繁,但 s 的计算必须通过 s2 才能获得。
s2 的计算有如下三个公式可供选用:
s2=n−1n⋅n1∑(xi−x)2=n−11[∑xi2−n(∑xi)2]=n−11(∑xi2−nx2).
在分组样本场合,样本方差可如下计算
s2=n−11i=1∑kfi(xi−x)2=n−11(i=1∑kfixi2−nx2),
其中 k 为组数,xi,fi 分别为第 i 个区间的组中值与频数,x 为分组样本的均值。
4. 样本矩及其函数
- 样本的 k 阶原点矩
ak=n1i=1∑nxik,
样本均值 x 为样本的一阶原点矩;
- 样本的 k 阶中心矩
bk=n1i=1∑n(xi−x)k,
样本方差 s2 和 sn2 都为样本的二阶中心矩;
- 样本变异系数
Cr=s/x;
- 样本的偏度
β^s=b23/2b3;
- 样本的峰度
β^k=b22b4−3.
5. 次序统计量及其分布 设 x1,x2,…,xn 是取自某总体的一个样本,x(i) 称为该样本的第 i 个次序统计量,如果 x(i) 的取值是将样本观测值由小到大排序后得到的第 i 个观测值。
- x(1)=min{x1,x2,…,xn} 称为最小次序统计量;
- x(n)=max{x1,x2,…,xn} 称为最大次序统计量;
- (x(1),x(2),…,x(n)) 称为次序统计量。
R=x(n)−x(1)
称为样本极差。
设连续总体 X 的密度函数为 p(x),分布函数为 F(x),x1,x2,…,xn 为样本,则有
- 样本第 k 个次序统计量 x(k) 的密度函数为
pk(x)=(k−1)!(n−k)!n!(F(x))k−1(1−F(x))n−kp(x);
- 样本第 i 个与第 j 个次序统计量的联合密度函数为
pij(y,z)=(i−1)!(j−i−1)!(n−j)!n![F(y)]i−1[F(z)−F(y)]j−i−1[1−F(z)]n−jp(y)p(z),
其中 y≤z, 1≤i<j≤n。
6. 样本中位数与样本分位数 设 x1,x2,…,xn 是取自某总体的样本,x(1)≤x(2)≤⋯≤x(n) 为该样本的次序统计量,则样本中位数 m0.5 定义为
m0.5=⎩⎨⎧x(2n+1),21(x(2n)+x(2n+1)),n为奇数,n为偶数.
而样本的 p 分位数 mp 定义为
mp={x([np+1]),21(x(np)+x(np+1)),np不是整数,np是整数,
其中 [x] 表示小于或等于 x 的最大整数。相比于样本均值,中位数对样本的极端值有抗干扰性,或称有稳健性。
样本分位数的渐近分布:设总体的密度函数为 p(x),xp 为总体的 p 分位数。若 p(x) 在 xp 处连续且 p(xp)>0,则当 n 充分大时,有
mp∼˙N(xp,n⋅p2(xp)p(1−p)),
m0.5∼˙N(x0.5,4n⋅p2(x0.5)1).
7. 五数概括与箱线图 五数概括是指用样本的五个次序统计量
xmin=x(1),Q1=m0.25,Q2=m0.5,Q3=m0.75,xmax=x(n).
大致描述一个样本的轮廓,其图形表示称为箱线图。它在证券市场分析等场合常用到。
当样本量较大时,箱线图可用来对总体分布形状进行大致的判断。
习题与解答 5.3
在一批产品中我们随机检查了 10 箱,发现每箱中的不合格品数为
4, 5, 6, 0, 3, 1, 4, 2, 1, 4.
试计算其样本均值、样本方差和样本标准差。
解
样本均值
x=nx1+x2+⋯+xn=104+5+⋯+4=3,
样本方差
s2=n−11i=1∑n(xi−x)2=91[(4−3)2+(5−3)2+⋯+(4−3)2]=3.78,
样本标准差
s=s2=1.94.
证明:对任意常数 c,d,有
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x)(yi−y)+n(x−c)(y−d).
解
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x+x−c)(yi−y+y−d)
=i=1∑n(xi−x)(yi−y)+i=1∑n(x−c)(yi−y)
+i=1∑n(xi−x)(y−d)+i=1∑n(x−c)(y−d),
由
i=1∑n(xi−x)=0,i=1∑n(yi−y)=0,
得
i=1∑n(xi−c)(yi−d)=i=1∑n(xi−x)(yi−y)+n(x−c)(y−d),
因而结论成立。
设 x1,x2,…,xn 和 y1,y2,…,yn 是两组样本观测值,且有如下关系:
yi=3xi−4,i=1,2,…,n,
试求样本均值 y 和 x 间的关系以及样本方差 sy2 和 sx2 间的关系。
解
y=n1i=1∑nyi=n1i=1∑n(3xi−4)=3x−4,
sy2=n−11i=1∑n(yi−y)2=n−11i=1∑n(3xi−4−3x+4)2
=n−11i=1∑n9(xi−x)2=9sx2.
因而得
y=3x−4,sy2=9sx2.
记
xn=n1i=1∑nxi,sn2=n−11i=1∑n(xi−xn)2,n=1,2,…,
证明
xn+1=xn+n+11(xn+1−xn),
sn+12=nn−1sn2+n+11(xn+1−xn)2.
解
xn+1=n+1x1+x2+⋯+xn+xn+1=n+1nxn+xn+1
=n+1(n+1)xn+xn+1−xn=xn+n+11(xn+1−xn),
sn+12=n1i=1∑n+1(xi−xn+1)2=n1[i=1∑n(xi−xn+1)2+(xn+1−xn+1)2]
=n1i=1∑n(xi−xn+xn−xn+1)2+n1(xn+1−xn+1)2
=n1i=1∑n(xi−xn)2+n2i=1∑n(xi−xn)(xn−xn+1)
+n1i=1∑n(xn−xn+1)2+n1(xn+1−xn+1)2.
由
i=1∑n(xi−xn)=0,
n1i=1∑n(xn−xn+1)2=(xn−xn+1)2,
以及
xn+1=xn+n+11(xn+1−xn)
得
sn+12=n1i=1∑n(xi−xn)2+(n+11)2(xn+1−xn)2
+n1(n+1n)2(xn+1−xn)2
=nn−1×n−11i=1∑n(xi−xn)2+n+11(xn+1−xn)2
=nn−1sn2+n+11(xn+1−xn)2.
从同一总体中抽取两个容量分别为 n,m 的样本,样本均值分别为 x1,x2,样本方差分别为 s12,s22,将两组样本合并,其均值、方差分别为 x,s2,证明:
x=n+mnx1+mx2,
s2=n+m−1(n−1)s12+(m−1)s22+(n+m)(n+m−1)nm(x1−x2)2.
解
设取自同一总体的两个样本为
x11,x12,…,x1n; x21,x22,…,x2m.
由
x1=nx11+x12+⋯+x1n,x2=mx21+x22+⋯+x2m,
得
x=n+mx11+⋯+x1n+x21+⋯+x2m=n+mnx1+mx2.
由 s12=n−11i=1∑n(x1i−x1)2,s22=m−11i=1∑m(x2i−x2)2,
得
s2=n+m−11[i=1∑n(x1i−x)2+i=1∑m(x2i−x)2]
=n+m−11[i=1∑n(x1i−x1+x1−x)2+i=1∑m(x2i−x2+x2−x)2]
=n+m−11[i=1∑n(x1i−x1)2+n(x1−x)2+i=1∑m(x2i−x2)2+m(x2−x)2]
=n+m−1(n−1)s12+(m−1)s22+n+m−1n(x1−n+mnx1+mx2)2+m(x2−n+mnx1+mx2)2
=n+m−1(n−1)s12+(m−1)s22+(n+m)(n+m−1)nm(x1−x2)2.
设有容量为 n 的样本 A,它的样本均值为 xA,样本标准差为 sA,样本极差为 RA,样本中位数为 mA。现对样本中每一个观测值施行变换
y=ax+b,
如此得到样本 B,试写出样本 B 的均值、标准差、极差和中位数。
解
不妨设样本 A 为 x1,x2,…,xn,样本 B 为 y1,y2,…,yn,且
yi=axi+b,i=1,2,…,n,
则
yB=ny1+y2+⋯+yn=nax1+b+ax2+b+⋯+axn+b=axA+b,
sB2=n−11i=1∑n(yi−yB)2=n−11i=1∑n(axi+b−axA−b)2=a2sA2,
因而
sB=∣a∣sA.
又
RB=y(n)−y(1)=ax(n)+b−ax(1)−b=a(x(n)−x(1))=aRA,
mB=⎩⎨⎧y(2n+1),21(y(2n)+y(2n+1)),n为奇数,n为偶数,
=⎩⎨⎧ax(2n+1)+b,21(ax(2n)+b+ax(2n+1)+b),n为奇数,n为偶数,
所以
mB=amA+b.
证明:容量为 2 的样本 x1,x2 的方差为
s2=21(x1−x2)2.
解
s2=(x1−x)2+(x2−x)2=(x1−2x1+x2)2+(x2−2x1+x2)2
=4(x1−x2)2+4(x2−x1)2=2(x1−x2)2.
设 x1,x2,…,xn 是来自 U(−1,1) 的样本,试求 E(x) 和 Var(x)。
解
均匀分布 U(−1,1) 的均值和方差分别为 0 和 1/3,该样本容量为 n,因而得
E(x)=0,Var(x)=3n1.
设总体二阶矩存在,x1,x2,…,xn 是样本,证明 xi−x 与 xj−x(i=j)的相关系数为 −(n−1)−1。
解
不妨设总体的方差为 σ2,则相关系数
Corr(xi−x,xj−x)=Var(xi−x)Var(xj−x)Cov(xi−x,xj−x).
由
Cov(xi−x,xj−x)=Cov(xi,xj)−Cov(xi,x)−Cov(xj,x)+Cov(x,x),
由于
Cov(xi,xj)=0,Cov(x,x)=nσ2,
Cov(xi,x)=Cov(xj,x)=Cov(xi,n1i=1∑nxi)=nσ2,
因而
Cov(xi−x,xj−x)=−nσ2,
Var(xi−x)=Var(xj−x)=Var(x1−x)=Var(n(n−1)x1−x2−⋯−xn)
=n2(n−1)2σ2+(n−1)σ2=n(n−1)σ2,
所以
Corr(xi−x,xj−x)=−(n−1)−1.
设 x1,x2,…,xn 为一个样本,
s2=n−11i=1∑n(xi−x)2
是样本方差,试证:
n(n−1)1i<j∑(xi−xj)2=s2.
解
注意到
i<j∑(xi−xj)2=(n−1)i=1∑nxi2−2i<j∑xixj,
(i=1∑nxi)2=i=1∑nxi2+2i<j∑xixj,
故
i<j∑(xi−xj)2=ni=1∑nxi2−(i=1∑nxi)2=ni=1∑n(xi−x)2.
证明完成。
设总体 4 阶中心矩
v4=E[x−E(x)]4
存在,试证:对样本方差
s2=n−11i=1∑n(xi−x)2,
有
Var(s2)=(n−1)2n(v4−σ4)−(n−1)22(v4−2σ4)+n(n−1)2v4−3σ4=nv4−n(n−1)(n−3)σ4,
其中 σ2 为总体 X 的方差。
解
为书写方便起见,记
y=x−E(x),
并以 ∑ 简记应从 1 到 n 的求和,于是
[∑(xi−x)2]2=[∑(xi−E(x))2−n(x−E(x))2]2=(∑yi2−ny2)2
=(∑yi2)2−n2∑yi2(∑yj)2+n21(∑yj)4
=∑yi4+i=j∑yi2yj2−n2∑yi4+i=j∑yi2yj2+i∑j=k∑yi2yjyk
+n21∑yi4+3!1!4!i=j∑yi3yj+2!2!4!i=j∑yi2yj2+2!1!1!4!i=j=k∑yi2yjyk+1!1!1!1!4!i=j=k=l∑yiyjykyl.
由于诸 yi 间相互独立,且 E(yi)=0,所以
E[∑(xi−x)2]2=nv4+n(n−1)v22−n2[nv4+n(n−1)v22]
+n21[nv4+3n(n−1)v22]
=(n−2+n1)v4+(n−1)(n−2+n3)v22,
E(s4)=(n−1)21[(n−2+n1)v4+(n−1)(n−2+n3)v22],
故
Var(s2)=E(s4)−[E(s2)]2
=(n−1)21[(n−2+n1)v4+(n−1)(n−2+n3)v22]−v22
=(n−1)2n(v4−σ4)−(n−1)22(v4−2σ4)+n(n−1)2v4−3σ4
=nv4−n(n−1)(n−3)σ4.
设总体 X 的 3 阶矩存在,若 x1,x2,…,xn 是取自该总体的简单随机样本,x 为样本均值,s2 为样本方差,试证:
Cov(x,s2)=nv3,
其中
v3=E[x−E(x)]3.
解
注意到
Cov(x,s2)=E[(x−μ)s2],
而
(x−μ)s2=n−11[(x−μ)i=1∑n(xi−μ)2−n(x−μ)3],
又
E[(x−μ)(xi−μ)2]=n1E(xi−μ)3+Ej=i∑(xj−μ)(xi−μ)2=nv3,
E(x−μ)3=n31E[i=1∑n(xi−μ)3]=n2v3.
由此,
E[(x−μ)s2]=n−11(v3−nv3)=nv3.
设 x1 与 x2 是从同一正态总体 N(μ,σ2) 独立抽取的容量相同的两个样本均值。试确定样本容量 n,使得两样本均值的差超过 σ 的概率不超过 0.01。
解
由于
xi∼N(μ,nσ2),i=1,2,
且相互独立,所以
x1−x2∼N(0,n2σ2),
于是有
P(∣x1−x2∣>σ)=P(2σ2/nx1−x2>2σ2/nσ)=2[1−Φ(2n)]≤0.01.
等价地,
Φ(2n)≥0.995,2n≥u0.995=2.575,n≥2.5752×2=13.26.
利用切比雪夫不等式求抛均匀硬币多少次才能使正面朝上的频率落在 (0.4,0.6) 间的概率至少为 0.9。如何才能更精确地计算这个次数?是多少?
解
均匀硬币正面朝上的概率 p=0.5,设 xn 为 n 次抛硬币中正面朝上的次数,则有
xn∼b(n,p).
据题意取次数 n 应满足
P(0.4<nxn<0.6)≥0.9,
此式等价于
P(∣xn−0.5n∣≥0.1n)≤0.1,
利用切比雪夫不等式估计上式左端概率的上界
P(∣xn−0.5n∣≥0.1n)≤(0.1n)2n×0.5(1−0.5)=n25,
再由不等式
n25≤0.1
可得粗糙的估计 n≥250。即抛均匀硬币 250 次后可满足要求。
讨论:利用 x 的渐近正态性可以得到更精确的结论。由中心极限定理,样本均值
x=nxn,0.5×0.5n(x−0.5)∼˙N(0,1),
故
P(0.4<x<0.6)=P(0.5n∣x−0.5∣<5n)=2Φ(5n)−1≥0.9,
即
Φ(5n)≥0.95,
故
5n≥1.645,
这就给出较精确的上界
n≥(5×1.645)2=67.65,
这表明只需抛均匀硬币 68 次就可满足要求。两个结果差异很大,说明切比雪夫不等式是一个较为粗糙的不等式,在能够使用大样本结果的情况下应尽量使用中心极限定理。
从指数总体 Exp(1/θ) 抽取了 40 个样品,试求 xˉ 的渐近分布。
解
由于指数总体 Exp(1/θ) 的均值为 θ,方差为 θ2,于是 xˉ 的渐近分布为
N(θ,40θ2).
设 x1,x2,⋯,x25 是从均匀分布 U(0,5) 抽取的样本,试求样本均值 xˉ 的渐近分布。
解
均匀分布 U(0,5) 的均值和方差分别为 25 和 1225,样本容量为 25,因而样本均值 xˉ 的渐近分布为
N(25,121).
设 x1,x2,⋯,x20 是从二点分布 b(1,p) 抽取的样本,试求样本均值 xˉ 的渐近分布。
解
二点分布 b(1,p) 的均值和方差分别为 p 和 p(1−p),样本容量为 20,因而样本均值 xˉ 的渐近分布为
N(p,20p(1−p)).
设 x1,x2,⋯,x8 是从正态总体 N(10,9) 中抽取的样本,试求样本均值 xˉ 的标准差。
解
来自正态分布的样本均值仍服从正态分布,均值保持不变,方差为原来方差的 1/n,此处总体方差为 9,样本容量为 8,因而
Var(xˉ)=89,
xˉ 的标准差为
432=1.06.
切尾均值也是一个常用的反映样本数据的特征量,其想法是将数据的两端的值舍去,而用剩下的当中的值来计算样本均值,其计算公式是
xˉα=n−2[nα]x([nα]+1)+x([nα]+2)+⋯+x(n−[nα]),
其中 0<α<21 是切尾系数,x(1)≤x(2)≤⋯≤x(n) 是有序样本。现我们在某高校采访了 16 名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间(单位:h):
15, 14, 12, 9, 20, 4, 17, 26, 15, 18, 6, 10, 16, 15, 5, 8.
取 α=1/16,试计算其切尾均值。
解
将样本进行排序得
x(1)=4, x(2)=5, ⋯, x(16)=26.
当 α=1/16 时,由题意得切尾均值
xˉ1/16=14x(2)+x(3)+⋯+x(15)=145+6+⋯+20=14180=12.86.
有一个分组样本如下:
区间(145,155](155,165](165,175](175,185]组中值150160170180频数4862
试求该分组样本的样本均值、样本标准差、样本偏度和样本峰度。
解
计算过程列表如下:
组中值 x150160170180和频数 f486220xf600128010203603260(x−xˉ)2f676722945781620(x−xˉ)3f−8788−216205898262880(x−xˉ)4f11424464814406167042296340
因而可得样本均值、样本标准差、样本偏度和样本峰度分别为
xˉ=203260=163,s=191620=9.23,
β^s=(1620/20)3/22880/20=0.198,β^k=(1620/20)2296340/20−3=−0.742.
检查四批产品,其批量与不合格品率如下:
批号1234批量100300250150不合格品率0.050.060.040.03
试求这四批产品的总不合格品率。
解
这批产品的总不合格品率为
p=100+300+250+150100×0.05+300×0.06+250×0.04+150×0.03=0.047.
设总体以等概率取 1,2,3,4,5,现从中抽取一个容量为 4 的样本,试分别求 x(1) 和 x(4) 的分布。
解
由古典概率可得
P(x(1)≥k)=(56−k)4,k=1,2,3,4,5.
所以
P(x(1)=1)P(x(1)=2)P(x(1)=3)P(x(1)=4)P(x(1)=5)=P(x(1)≥1)−P(x(1)≥2)=1−(54)4=0.5904,=P(x(1)≥2)−P(x(1)≥3)=(54)4−(53)4=0.28,=P(x(1)≥3)−P(x(1)≥4)=(53)4−(52)4=0.104,=P(x(1)≥4)−P(x(1)≥5)=(52)4−(51)4=0.024,=P(x(1)≥5)=(51)4=0.0016.
这就给出了 x(1) 的分布列
x(1)P10.590420.2830.10440.02450.0016
类似地,
P(x(4)≤k)=(5k)4,k=1,2,3,4,5.
从而
P(x(4)=1)P(x(4)=2)P(x(4)=3)P(x(4)=4)P(x(4)=5)=P(x(4)≤1)=0.0016,=P(x(4)≤2)−P(x(4)≤1)=0.024,=P(x(4)≤3)−P(x(4)≤2)=0.104,=P(x(4)≤4)−P(x(4)≤3)=0.28,=1−P(x(4)≤4)=0.5904.
这就给出 x(4) 的分布列
x(4)P10.001620.02430.10440.2850.5904
设总体 X 服从几何分布,即
P(X=k)=pqk−1,k=1,2,⋯,
其中 0<p<1, q=1−p,x1,x2,⋯,xn 为该总体的样本。分别求 x(n)、x(1) 的概率分布。
解
容易看出
P(X≤k)=i=1∑kpqi−1=1−qk,k=1,2,⋯,
所以
P(x(n)≤k)=P(x1≤k,x2≤k,⋯,xn≤k)=(P(x1≤k))n=(1−qk)n,k=1,2,⋯.
同样可以得到
P(x(n)≤k−1)=(1−qk−1)n,k=1,2,⋯.
此式对 k=1 也成立,因为 P(x(n)≤0)=0。所以 x(n) 的分布列为
P(x(n)=k)=P(x(n)≤k)−P(x(n)≤k−1)=(1−qk)n−(1−qk−1)n,k=1,2,⋯.
下面来求 x(1) 的分布列。由于
P(X≥k)=1−P(X≤k−1)=qk−1,k=1,2,⋯,
所以
P(x(1)≥k)=(P(x1≥k))n=qn(k−1),k=1,2,⋯,
类似有
P(x(1)≥k+1)=qnk,k=1,2,⋯.
因此 x(1) 的分布列为
P(x(1)=k)=P(x(1)≥k)−P(x(1)≥k+1)=qn(k−1)(1−qn),k=1,2,⋯.
设 x1,x2,⋯,x16 是来自 N(8,4) 的样本,试求下列概率:
- P(x(16)>10);
- P(x(1)>5)。
解
(1)
P(x(16)>10)=1−P(x(16)≤10)=1−(P(x1≤10))16=1−(Φ(210−8))16=1−0.841316=0.9370.
(2)
P(x(1)>5)=(P(x1>5))16=(1−Φ(25−8))16=[Φ(1.5)]16=0.3308.
设总体为韦布尔分布,其密度函数为
p(x;m,η)=ηmmxm−1exp[−(ηx)m],x>0, m>0, η>0.
现从中得到样本 x1,x2,⋯,xn,证明 x(1) 仍服从韦布尔分布,并指出其参数。
解
由总体分布的密度函数可得总体的分布函数 F(x) 为
F(x)=∫0xηmmtm−1exp[−(ηt)m]dt=1−e−(x/η)m.
因而最小次序统计量 x(1) 的分布函数为
P(x(1)≤x)=1−P(x(1)>x)=1−(e−(x/η)m)n=1−e−(x/(ηn−1/m))m,x>0.
这说明
x(1)∼W(m,ηn−1/m).
设总体密度函数为
p(x)=6x(1−x),0<x<1,
x1,x2,⋯,x9 是来自该总体的样本,试求样本中位数的分布。
解
总体分布函数为
F(x)=∫0x6t(1−t)dt=3x2−2x3=x2(3−2x),0≤x≤1,
故
1−F(x)=(1−x)2(2x+1),0≤x≤1.
样本中位数 m0.5=x(5) 的精确分布密度函数为
pm0.5(x)=(49)(15)(F(x))4p(x)(1−F(x))4=(49)(15)(x2(3−2x))4⋅6x(1−x)⋅((1−x)2(2x+1))4=3780x9(1−x)9(3−2x)4(2x+1)4.
这个精确密度函数是 26 次多项式,使用是不方便的,譬如 P(m0.5<0.7) 用上述密度函数是可以求的,可是不方便,寻求近似计算就十分必要。
下面来寻求 m0.5 的渐近分布,由于总体中位数是 x0.5=0.5,且
p(x0.5)=6×0.5×(1−0.5)=1.5,
故在 n=9 时 m0.5 的渐近分布为
m0.5∼N(x0.5,4np2(x0.5)1)=N(0.5,811).
利用此渐近分布容易算出概率
P(m0.5<0.7)≈Φ(1.8)=0.9641.
证明公式
k=0∑r(kn)pk(1−p)n−k=r!(n−r−1)!n!∫p1xr(1−x)n−r−1dx,0≤p≤1.
解
为了证明此公式,可以对积分部分施行分部积分法,更加简单的方法是对等号两边分别关于 p 求导,证明其导函数相等。
先看等式右边,由微积分基本定理可得
∂p∂[r!(n−r−1)!n!∫p1xr(1−x)n−r−1dx]=−r!(n−r−1)!n!pr(1−p)n−r−1.
再看等式左边。对 k=0,有
∂p∂[(0n)p0(1−p)n]=∂p∂(1−p)n=−n(1−p)n−1.
对 k=1,2,⋯,r,有
∂p∂[(kn)pk(1−p)n−k]=(k−1)!(n−k)!n!pk−1(1−p)n−k−k!(n−k−1)!n!pk(1−p)n−k−1.
其和前后两项之间正好相互抵消,最后仅留下最后一项,也为
−r!(n−r−1)!n!pr(1−p)n−r−1.
这就证明了两者导函数相等,并注意到两者在 p=1 时都为 0,等式得证。
设总体 X 的分布函数 F(x) 是连续的,x(1),x(2),⋯,x(n) 为取自此总体的次序统计量,设 ηi=F(x(i)),试证:
- η1≤η2≤⋯≤ηn,且 ηi 是来自均匀分布 U(0,1) 总体的次序统计量;
- E(ηi)=n+1i,Var(ηi)=(n+1)2(n+2)i(n+1−i),1≤i≤n;
- ηi 和 ηj 的协方差矩阵为
n+2a1(1−a1)n+2a1(1−a2)n+2a1(1−a2)n+2a2(1−a2),
其中 a1=n+1i,a2=n+1j。
解
(1)由分布函数 F(x) 的单调性可知,η1≤η2≤⋯≤ηn 成立。又由分布函数 F(x) 的连续性可知,F(X) 服从均匀分布 U(0,1),故而 ηi 是来自均匀分布 U(0,1) 总体的次序统计量。
(2)ηi 是来自均匀分布 U(0,1) 总体的次序统计量,所以
ηi∼Be(i,n−i+1).
故
E(ηi)=n+1i,Var(ηi)=(n+1)2(n+2)i(n+1−i),1≤i≤n.
(3)ηi 和 ηj 的联合分布密度为
pij(y,z)=(i−1)!(j−i−1)!(n−j)!n!yi−1(z−y)j−i−1(1−z)n−j,y≤z,
则
E(ηiηj)=∫01∫0zyz(i−1)!(j−i−1)!(n−j)!n!yi−1(z−y)j−i−1(1−z)n−jdydz=(i−1)!(j−i−1)!(n−j)!n!∫01(1−z)n−jzj−i∫0zyi(1−y/z)j−i−1dydz=t=y/z(i−1)!(j−i−1)!(n−j)!n!∫01(1−z)n−jzj−i⋅zi+1∫01ti(1−t)j−i−1dtdz=(i−1)!(j−i−1)!(n−j)!n!⋅j!i!(j−i−1)!∫01(1−z)n−jzj+1−1dz=j!i(n−j)!n!⋅(n+2)!(j+1)!(n−j)!=(n+1)(n+2)ij+i.
所以
Cov(ηi,ηj)=(n+1)(n+2)ij+i−(n+1)2ij=(n+1)2(n+2)−ij+(n+1)i=n+2a1(1−a2).
结合(2)可知,ηi 和 ηj 的协方差矩阵为
n+2a1(1−a1)n+2a1(1−a2)n+2a1(1−a2)n+2a2(1−a2).
设总体 X 服从 N(0,1),从此总体获得一组样本观测值
x1=0, x2=0.2, x3=0.25, x4=−0.3, x5=−0.1, x6=2, x7=0.15, x8=1, x9=−0.7, x10=−1.
- 计算 x=0.15(即 x(6))处的 E{F(x(6))}、Var{F(x(6))};
- 计算 F(x(6)) 在 x=0.15 处的分布函数值。
解
(1)由第 28 题的结论可知,
E{F(x(6))}=116,Var{F(x(6))}=(10+1)2(10+2)6(10+1−6)=2425.
(2)F(x(6))∼Be(6,5),所以 F(x(6)) 在 x=0.15 处的分布函数值为
betacdf(0.15,6,5)=0.0014.
在下列密度函数下分别寻求容量为 n 的样本中位数 m0.5 的渐近分布:
- p(x)=6x(1−x), 0<x<1;
- p(x)=2πσ1exp{−2σ2(x−μ)2};
p(x)={2x,0,0<x<1,其他.
- p(x)=2λe−λ∣x∣。
解
(1)先求出总体的中位数。该分布是贝塔分布 Be(2,2),可以看出 p(x) 关于 0.5 对称,所以
x0.5=0.5,
于是样本中位数 m0.5 的渐近分布为
N(0.5,9n1).
(2)正态分布 N(μ,σ2) 的中位数为 μ,所以 m0.5 的渐近分布为
N(μ,2nπσ2).
(3)该分布的分布函数为
F(x)=⎩⎨⎧0,x2,1,x<0,0≤x<1,x≥1,
所以相应的中位数为
22,
因而
m0.5∼N(22,4n(2×2/2)21)=N(22,8n1).
(4)该分布的密度函数关于 y 轴对称,故相应的中位数为 0,所以 m0.5 的渐近分布为
N(0,4n(λ/2)21)=N(0,nλ21).
设总体 X 服从双参数指数分布,其分布函数为
F(x)=⎩⎨⎧1−exp{−σx−μ},0,x>μ,x≤μ,
其中 −∞<μ<∞, σ>0,x(1)≤x(2)≤⋯≤x(n) 为样本的次序统计量。试证明,
σ2(n−i+1)(x(i)−x(i−1))
服从自由度为 2 的 χ2 分布(i=2,3,⋯,n)。
解
令
yi=σxi−μ∼Exp(1),
则 y(1),y(2),⋯,y(n) 的联合密度为
p(y1,y2,⋯,yn)=n!exp{−i=1∑nyi}.
作变换
⎩⎨⎧t1=ny(1),t2=(n−1)(y(2)−y(1)),⋯⋯⋯⋯ti=(n−i+1)(y(i)−y(i−1)),⋯⋯⋯⋯tn=y(n)−y(n−1).
其雅可比行列式为
∣J∣=n!1,
t1,t2,⋯,tn 的联合密度为
f(t1,t2,⋯,tn)=exp{−i=1∑nti}.
由该联合密度我们可以知道 T1,T2,⋯,Tn 是独立同分布的随机变量,且
Ti∼Exp(1).
从而
P(σ2(n−i+1)(x(i)−x(i−1))≤x)=P(2(n−i+1)(y(i)−y(i−1))≤x)=P(2Ti≤x)=P(Ti≤x/2)=1−e−x/2.
这是指数分布 Exp(1/2) 的分布函数。我们知道,Exp(1/2) 就是 Ga(1,1/2),也就是 χ2(2)。这就证明了
σ2(n−i+1)(x(i)−x(i−1))∼χ2(2).
设总体 X 的密度函数为
p(x)={3x2,0,0<x<1,其他,
x(1)≤x(2)≤⋯≤x(5) 为容量为 5 的取自此总体的次序统计量,试证
x(4)x(2)
与 x(4) 相互独立。
解
先求 (x(2),x(4)) 的联合密度。由于总体 X 的分布函数为
F(x)=x3,0<x≤1,
所以 (x(2),x(4)) 的联合密度为
p(x,y)=1!1!1!5!x3(y3−x3)(1−y3)⋅3x2⋅3y2,0<x<y<1.
下求
(x(4)x(2),x(4))
的联合密度,为此,令
⎩⎨⎧u=yx,v=y,其逆变换为{x=uv,y=v.
其雅可比行列式的绝对值为
∣J∣=v0u1=v.
由 0<x<y<1 得 0<u<1, 0<v<1,于是
p(u,v)=p(uv,v)v=120v3u3(v3−u3v3)(1−v3)⋅3v2u2⋅3v2⋅v=1080u5(1−u3)v11(1−v3).
另外,我们还可以求出边际密度,
U=x(4)x(2)∼p1(u)=∫01p(u,v)dv=1080u5(1−u3)∫01v11(1−v3)dv=18u5(1−u3),0<u<1,
类似可求得
V=x(4)∼p2(v)=60v11(1−v3),0<v<1.
显然
p(u,v)=p1(u)⋅p2(v),
这就证明了 x(4)x(2) 与 x(4) 独立。
- 设 x(1) 和 x(n) 分别为容量 n 的样本的最小和最大次序统计量,证明极差
Rn=x(n)−x(1)
的分布函数
FRn(x)=n∫−∞∞[F(y+x)−F(y)]n−1p(y)dy,
其中 F(y) 与 p(y) 分别为总体的分布函数与密度函数;
- 利用(1)的结论,求总体为指数分布 Exp(λ) 时,样本极差 Rn 的分布。
解
(1)x(1) 与 x(n) 的联合密度函数为
f(x(1),x(n))=(n−2)!n!p(x(1))p(x(n))(F(x(n))−F(x(1)))n−2,x(1)≤x(n).
作变换
{Rn=x(n)−x(1),Y=x(1),其逆变换为{x(1)=Y,x(n)=Rn+Y.
雅可比行列式绝对值为 ∣J∣=1,于是 Rn 与 x(1) 的联合密度为
fRn,Y(x,y)=n(n−1)p(y)p(x+y)(F(x+y)−F(y))n−2.
由此可以算得 Rn 的边际密度为
fRn(x)=∫−∞∞n(n−1)p(y)p(x+y)(F(x+y)−F(y))n−2dy,
Rn 的分布函数为
FRn(x)=∫0x∫−∞∞n(n−1)p(y)p(t+y)(F(t+y)−F(y))n−2dydt=∫−∞∞n(n−1)p(y)∫0x(F(t+y)−F(y))n−2d(F(t+y)−F(y))dt=∫−∞∞np(y)(F(x+y)−F(y))n−1dy.
(2)对于指数分布 Exp(λ),由(1)中结果,有
FRn(x)=∫0∞nλe−λy(1−e−λ(x+y)−1+e−λy)n−1dy=∫0∞nλe−nλy(1−e−λx)n−1dy=(1−e−λx)n−1,x≥0.
设 x1,x2,⋯,xn 是来自 U(0,θ) 的样本,x(1)≤x(2)≤⋯≤x(n) 为其次序统计量,令
yi=x(i+1)x(i), i=1,2,⋯,n−1,yn=x(n),
证明 y1,y2,⋯,yn 相互独立。
解
令 Ui=x(i),i=1,2,⋯,n,则 U1,U2,⋯,Un 的联合密度函数为
p(u1,u2,⋯,un)=θnn!,0≤u1≤u2≤⋯≤un≤θ.
作变换
⎩⎨⎧y1=U1/U2,⋯⋯⋯yn−1=Un−1/Un,yn=Un,其逆变换为⎩⎨⎧U1=y1y2⋯yn,⋯⋯⋯Un−1=yn−1yn,Un=yn.
其中 0<yi<1, i=1,2,⋯,n−1, 0<yn<θ,其雅可比行列式绝对值为
∣J∣=y2y32⋯ynn−1,
联合密度函数为
p(y1,y2,⋯,yn)=n!y2y32⋯ynn−1(θ1)n=(2y2)(3y32)⋯(nθ−nynn−1),0<yi<1, i=1,2,⋯,n−1, 0<yn<θ.
该联合密度函数可分离变量,因而 y1,y2,⋯,yn 相互独立,且
y1∼Be(1,1)=U(0,1), y2∼Be(2,1), ⋯, yn−1∼Be(n−1,1), yn/θ∼Be(n,1).
对下列数据构造箱线图
472400418429381425382392428443447366372430441377425418413433341399374405419369398385381379412423439403386419384428479387
解
这批数据 n=40,最小值为 x(1)=341,最大值为 x(40)=479,中位数、第一四分位数和第三四分位数分别为
m0.5=21(x(20)+x(21))=21(405+412)=408.5,
Q1=21(x(10)+x(11))=21(382+384)=383,
Q3=21(x(30)+x(31))=21(428+428)=428.
\FigureFiveFour
根据调查,某集团公司的中层管理人员的年薪数据如下(单位:万元):
40.638.644.937.139.942.139.639.645.437.742.241.543.840.037.039.243.540.636.234.735.136.944.838.940.841.736.744.537.742.237.345.441.340.434.740.339.236.938.138.436.335.842.937.837.938.939.739.2
试画出箱线图。
解
这批数据 n=48,最小值为 x(1)=34.7,最大值为 x(48)=45.4,中位数、第一四分位数和第三四分位数分别为
m0.5=21(x(24)+x(25))=21(39.2+39.6)=39.4,
Q1=21(x(12)+x(13))=21(37.3+37.7)=37.5,
Q3=21(x(36)+x(37))=21(41.5+41.7)=41.6.
\FigureFiveFive
补充习题及解答
设 x1,x2,⋯,xn 是来自分布函数为 F(x)、密度函数为 p(x) 的一个样本,x(1),x(2),⋯,x(n) 是其次序统计量,试求在 x(r+1),⋯,x(n) 给定时,x(1),⋯,x(r) 的联合条件密度函数。
解
次序统计量 x(1),x(2),⋯,x(n) 联合密度函数为
p(x(1),x(2),⋯,x(n))=n!i=1∏np(x(i)).
而后 n−r 个次序统计量 x(r+1),⋯,x(n) 的联合密度函数为
p(x(r+1),⋯,x(n))=r!n![F(x(r+1))]ri=r+1∏np(x(i)),
故所求的联合条件密度函数为
p(x(1),⋯,x(r)∣x(r+1),⋯,x(n))=p(x(r+1),⋯,x(n))p(x(1),x(2),⋯,x(n))=r!i=1∏rp(x(i))[F(x(r+1))]−r.
最后结果表明:所求条件密度函数只与 x(1),⋯,x(r),x(r+1) 有关,而与 x(r+2),⋯,x(n) 的取值无关。从而,其分布也仅依赖于 X(r+1) 的给定值 x(r+1)。这样一来,条件密度函数
p(x(1),⋯,x(r)∣x(r+1),⋯,x(n))
完全可以写成
p(x(1),⋯,x(r)∣x(r+1)).
来自正态总体 N(μ,σ2) 的容量为 n=2k+1 的样本中位数是 x(k+1),证明 x(k+1) 的密度函数关于 μ 对称,且 E(x(k+1))=μ。
解
记正态分布 N(μ,σ2) 的分布函数与密度函数分别为 F(x) 与 f(x),则容量为 n=2k+1 的样本中位数 x(k+1) 的密度函数为
g(x)=k!k!(2k+1)![F(x)]kf(x)[1−F(x)]k.
令
y=σx(k+1)−μ,
此变换的雅可比行列式的绝对值 ∣J∣=σ,于是 y 的密度函数为
gY(y)=k!k!(2k+1)![Φ(y)]k[1−Φ(y)]kφ(y),
其中 Φ(y) 与 φ(y) 分别是标准正态分布 N(0,1) 的分布函数与密度函数。依据它们的性质
Φ(−y)=1−Φ(y),φ(−y)=φ(y),
可得
gY(−y)=k!k!(2k+1)![Φ(−y)]k[1−Φ(−y)]kφ(−y)=k!k!(2k+1)![1−Φ(y)]k[Φ(y)]kφ(y)=gY(y).
这表明密度函数 gY(y) 是偶函数,从而 x(k+1) 的密度函数 g(x) 关于 μ 对称,同时还有
E(y)=0,E(x(k+1))=μ.
评论
支持 Markdown 和 LaTeX 数学公式。