一、Z分数

1.概念:z分数通常被称为标准化数值。 Z表示观察值偏离平均数的标准差个数。

2.对数据进行标准化处理。

3.作用:了解变量值在整个分布中的地位并可直接进行对比。

二、切贝谢夫定理与经验法则

1.切贝谢夫定理:

在任意一组数据中,至少有(1-1/k2)个数据落在k倍标准差范围内,k是大于1的任意数值。

切贝谢夫定理可以确定在偏离平均数某一指定倍数标准差范围内的数据所占的百分比。

当k取值2,3,4时,切贝谢夫定理分别得出如下一些推论:

★ 至少75%的数据落在平均数加减2倍标准差范围内。

★ 至少89%的数据落在平均数加减3倍标准差范围内。

★ 至少94%的数据落在平均数加减4倍标准差范围内。

特点:具有普遍性但比较保守。

2.经验法则

对于呈对称分布的数据来说,大约68%的数据落在平均数加减1倍标准差的范围内;大约95%的数据落在平均数加减2倍标准差的范围内;大约99%的数据落在平均数加减3倍标准差的范围内。

一般来说,一组数据中落在平均数加减3倍标准差的范围之外的数据是很少见的。


3.异常值检测   

异常值,是指一组数据中出现的一个或几个非正常大或正常小的极端值。一般把Z分数小于-3或大于+3的数据都作为异常值。

异常值如果是被错误记录,在进一步分析之前能改则改,否则删除;如果是正常记录,则应保留。


小节练习