置信区间

置信区间的估计包含两个部分:点估计值和描述估计精确度的正负值。

区间估计的一般步骤:

(1)计算总体均值的点估计值即样本均值的值;

(2)计算抽样平均误差;

(3)根据给定的置信水平,计算极限误差;

(4)根据点估计值和极限误差构造总体均值的置信区间。

 分布

分布(t-distribution)是一种统计分布,也被称为学生 分布(Student's t-distribution)。其推导由威廉·戈塞(William Sealy Gosset)于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后检验以及相关理论经由罗纳德·费雪(罗纳德·费希尔(Ronald Fisher)的工作发扬光大,而正是他将此分布称为学生分布。在概率论和统计学中,分布(Student's t-distribution)经常应用在对呈正态分布的总体的均值进行估计。它是对两个样本均值差异进行显著性测试的检验的基础。检验改进了z检验(Z-test),不论样本数量大或小皆可应用。在样本数量大(经济应用统计中常认为样本容量在30以上即为大样本)时,可以应用z检验。z检验用在小的样本会产生很大的误差,因此样本很小的情况下得改用t检验。在数据有三组以上时,因为误差无法压低,此时可以用方差分析代替t检验。


其特点如下:

1.以0为中心,左右对称的单峰分布;

2.t分布曲线形态与n(确切地说与自由度v)大小有关。与标准正态分布曲线相比,自由度v越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v愈大,t分布曲线愈接近正态分布曲线,当自由度时,t分布曲线为标准正态分布曲线。

t分布在置信区间估计、显著性检验等问题的计算中发挥重要作用。




某模具制造公司拟引进一套新型的培训员工程序,以减少培训员工所需要的时间。为了对这种新培训方法的效果进行评估,培训部需要对这种程序所需要的平均时间进行估计。表2是利用新方法对20名员工进行培训的培训天数资料。

试根据上述资料建立置信度为90%的总体均值的置信区间(假定培训时间总体服从正态分布)。

解:依题意,总体服从正态分布,n=20(小样本),此时总体标准差未知。可用自由度为的t分布进行总体均值的区间估计。

根据表中数据计算样本平均数和样本标准差如下:

当,计算极限误差为:


由式(7.9)可以构造培训时间总体均值的90%的置信区间为54.3 ±2.43即(51.87,56.73)天。



[1]罗良清,平卫英.统计学.北京:北京邮电大学出版社,2015.1.

[2]徐慧植,傅波.概率论与数理统计.北京:中国财政经济出版社,2013.9.












小节练习