§5.2 样本数据的整理与显示
依赖于
被以下题目直接调用
正文部分
§5.2 样本数据的整理与显示
1. 经验分布函数 若将样本观测值 x1,x2,…,xn 由小到大进行排列,得有序样本
x(1)≤x(2)≤⋯≤x(n),
用有序样本定义如下函数
Fn(x)=⎩⎨⎧0,k/n,1,x<x(1),x(k)≤x<x(k+1), k=1,2,…,n−1,x≥x(n),
则称 Fn(x) 为该样本的经验分布函数。
格利文科定理 设 x1,x2,…,xn 是取自总体分布函数为 F(x) 的样本,Fn(x) 是该样本的经验分布函数,则当 n→∞ 时,有
P(−∞<x<∞sup∣Fn(x)−F(x)∣→0)=1.
此定理表明:当 n 相当大时,经验分布函数 Fn(x) 是总体分布函数 F(x) 的一个良好的近似。它是经典统计学的一块基石。
2. 频数频率表 由样本数据 x1,x2,…,xn 制作频数频率表的操作步骤如下:
- 确定组数 k;
- 确定每组组距,通常取每组组距相等为 d;
- 确定每组组限;
- 统计样本数据落入每个区间的频数,并计算频率。
综合上述,列表表中,即得该样本的频数频率表。该表就是一个分组样本,它能简明扼要地把样本特点表达出来。不足之处是该表依赖于分组,不同的分组方式有不同的频数频率表。
3. 样本数据的图形表示
(1)直方图
- 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作出频数直方图;
- 若把纵坐标改为频率就得频率直方图;
- 若把纵坐标改为频率/组距,就得到单位频率直方图。这时长条矩形的面积之和为 1。
此三种直方图的差别仅在纵坐标的设置上,直方图图形本身并无变化。
(2)茎叶图
把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图。比较两个样本时,可画出背靠背的茎叶图。
茎叶图保留数据中全部信息。当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。
习题与解答 5.2
以下是某工厂通过抽样调查得到的 10 名工人一周内生产的产品数:
149, 156, 160, 138, 149, 153, 153, 169, 156, 156.
试由这批数据构造经验分布函数并作图。
解
此样本容量为 10,经排序可得有序样本:
x(1)=138, x(2)=x(3)=149, x(4)=x(5)=153,
x(6)=x(7)=x(8)=156, x(9)=160, x(10)=169,
其经验分布函数
Fn(x)=⎩⎨⎧0,0.1,0.3,0.5,0.8,0.9,1,x<138,138≤x<149,149≤x<153,153≤x<156,156≤x<160,160≤x<169,x≥169.
\FigureFiveOne
下表是经过整理后得到的分组样本:
组序分组区间频数1(38,48]32(48,58]43(58,68]84(68,78]35(78,88]2
试写出此分组样本的经验分布函数。
解
样本的经验分布函数为
Fn(x)=⎩⎨⎧0,0.15,0.35,0.75,0.9,1,x<38,38≤x<48,48≤x<58,58≤x<68,68≤x<78,x≥78.
假若某地区 30 名 2018 年某专业毕业生实习期满后的月薪数据如下:
9090107108250120308710108601081091401025011640112001130099201096097109990133601232080809500132009670950012240866010910157207750104407380
- 构造该批数据的频数分布表(分 6 组);
- 画出直方图。
解
此处数据最大观察值为 15720,最小观察值为 7380,故组距近似为
d=615720−7380≈1390,
取 d=1400,确定每组区间端点为 a0,a0+d=a1,a0+2d=a2,…,a0+kd=ak,此处可取 a0=7350,于是分组区间为
(7350,8750], (8750,10150], (10150,11550], (11550,12950], (12950,14350], (14350,15750].
其频数频率表如下:
组序123456合计分组区间(7350,8750](8750,10150](10150,11550](11550,12950](12950,14350](14350,15750]组中值8050945010850122501365015050频数68942130频率0.200.270.300.130.070.031累计频率/%2047779097100
\FigureFiveTwo
某公司对其 250 名职工上班所需时间(单位:min)进行了调查,下面是不完整的频率分布表:
所需时间0∼1010∼2020∼3030∼4040∼50频率0.100.240.180.14
- 试将频率分布表补充完整;
- 该公司上班所需时间在半小时以内有多少人?
解
- 由于频率和为 1,故空缺的频率为
1−0.1−0.24−0.18−0.14=0.34.
- 该公司上班所需时间在半小时以内的人所占频率为
0.1+0.24+0.34=0.68,
该公司有职工 250 人,故该公司上班所需时间在半小时以内的人有
250×0.68=170 人.
40 种刊物的月发行量(单位:百册)如下:
59541208307771412235022385299359231257914667618353600613588658230081426314267731568701268171416974538184019781112713876133042662796369264001161545082048204722808612
- 建立该批数据的频数分布表,取组距为 1700(百册);
- 画出直方图。
解
此处数据最大观察值为 14667,最小观察值为 353,由于组距为 1700,故组数为
k≥170014667−353=8.42,
所以分 9 组。接下来确定每组区间端点,要求
a0<353,a0+9×1700>14667.
此处可取 a0=300,于是可列出其频数频率表:
组序123456789合计分组区间(300,2000](2000,3700](3700,5400](5400,7100](7100,8800](8800,10500](10500,12200](12200,13900](13900,15600]组中值115028504550625079509650113501305014750频数126563014340频率0.30.150.1250.150.07500.0250.10.0751累计频率/%304557.572.5808082.592.5100
\FigureFiveThree
对下列数据构造茎叶图
472400418429381425382392428443447366372430441377425418413433341399374405399369398385381379412423439403386399384408479387
解
取百位数与十位数组成茎,个位数为叶,这组数据的茎叶图如下:
343536373839404142434445464716 92 4 7 91 1 2 4 5 6 72 8 9 9 90 3 5 82 3 8 83 5 5 8 90 3 91 3 72 9
根据调查,某集团公司的中层管理人员的年薪(单位:万元)数据如下:
40.638.638.937.139.639.637.937.737.840.037.039.236.234.735.136.938.841.736.738.3
试画出茎叶图。
解
取整数部分为茎,小数部分为叶,这组数据的茎叶图如下:
3435363738394041712 7 90 1 7 8 93 6 8 92 6 60 67
补充习题及解答
设总体 X 的分布函数为 F(x),经验分布函数为 Fn(x),试证
E[Fn(x)]=F(x),Var[Fn(x)]=n1F(x)[1−F(x)].
解
设 x1,x2,…,xn 是取自总体分布函数为 F(x) 的样本,则经验分布函数为
Fn(x)=⎩⎨⎧0,k/n,1,当 x<x(1),当 x(k)≤x<x(k+1), k=1,2,…,n−1,当 x≥x(n).
若令
yi=I{xi≤x},i=1,2,…,n,
则 y1,y2,…,yn 是独立同分布的随机变量,且
E(y1)=P(X1≤x)=F(x),E(y12)=P(X1≤x)=F(x),
于是
Var(y1)=F(x)−[F(x)]2=F(x)[1−F(x)].
又 Fn(x) 可写为
Fn(x)=n1i=1∑nyi,
故有
E[Fn(x)]=E(y1)=F(x),Var[Fn(x)]=n1Var(y1)=n1F(x)[1−F(x)].
评论
支持 Markdown 和 LaTeX 数学公式。