分散性与变异性的量度–距
平均数容易找出典型值,但平均数不能说明一切,能让你知道数据中心所在,但若要给数据下结论,仅有均值,中位数和众数往往无法提供充足信息。例如三个球员的平均分得分相同,但是各个数据集之间存在差异,观察球员得分相对于平均数的分布情况,以此区分各个数据集。知道了得分的分布情况,就可以知道球员得分的稳定性。
全距:通过计算全距(极差),可以知道数据分散情况。全距指出数据的扩展范围,有点像测量数据的宽度,即用数据集中的最大数减去数据集中的最小数。
最小值称为下界,最大值称为上界。是用于量度数据分散程度的一种方法,算法为 :上界-下界
但是,全距仅仅描述了数据的宽度,并没有描述数据在上下界之间的分布形态。两个相同数据集全距相同,但是很难得出数据中的真实分布形态,原因是全距容易受异常值影响。
解决办法:使用迷你距忽略异常值。找出全距的一部分,不包含异常值的部分。
迷你距: 起到将整批数据一分为四作用的几个数值就是所谓的四分位数,指的是将整批数据一分为四的几个数值。
最小的四分位数Q1称为下四分位数或第一四分位数,最大的四分位数Q3称为上四分位数或第三四分位数。中间的四分位数Q2就是中位数,因为它将数据一分为二。每两个四分位数之间的距被称为四分位距IQR.
四分位距 = 上四分位数(最大值) - 下四分位数(最小值)
四分位距的优点是:与全距相比,较少受到异常值的影响,因为仅使用了中间50% 的数据,如此将异常值弃而不用。
求上下四分位数的位置:
下四:首先 N/4 ,结果为整,下四位于整数位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四
如果不为整,向上取整,所得结果为下四的位置。 如6个数,6/4 =1.5, 向上取整得到2,表示下四的位置为2
上四:3n/4, 为整,则上四位于整数位置和下一个位置中间,将这两个位置上的书加起来,然后除以2.
如果不为整,则向上取整,所得到的新数字为上四的位置。
除了全距和四分位距还有百分位数。
百分位数:是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,第十百分位数就是位于数据范围10%处的数值
百分位数对于划分名词,排行有用,也可确定某个数值相对于其他数值的高低。
求百分位数:
首先将所有数值按升值排序;为了求出n个数字的第k百分位数的位置,先计算k(n/100);如果结果为整数,则百分位数处于第k(n/100)位和下一位
数之间。取这两个位置上的数字的平均值,得出百分位数。
如果k(n/100)不是整数,则将其向上取整,结果即百分位数的位置
全距与四分位距的问题是:仅仅告诉你最大值和最小值之间的差值,却无法告诉你球员们得到这些最高分或最低分的频率,以及球员们得到更接近数据
中心的得分的频率。
一个球员得分的变异性是指通过观察球员得分的分散性,并通过某种方法利用所得到的分散性看出球员的稳定性程度,即希望量度球员的变异性。
变异性比分散性更具体:获取每批数据的分散性,和通过某种方法利用所得到的分散性看出数据的稳定程度,即量度球员的变异性。实现以上目的一个方法是:观察每个数值与均值的距离。如果能够算出各个数值与均值的某种平均距离,就有办法量度变异性和分散性。结果越小,数值与均值的距离越近。
平均距离:计算平均距离是数据集中各个数值到均值的数除以个数。但是各个数值与均值的距离正,负相抵。
方差:是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。即各个数值与均值的距离的平方除以数据集中数据的个数。
方差 = ∑(x - μ )² / n
方差速算法: 方差 = ∑x² / n - μ ²
人们很难根据距离的平方数去考虑分散性,而是数值与均值的距离考虑分散性,标准差即对方法的平方根,对此进行修正,取方差的平方根:
标准差 =σ = √方差 ̄
均值体现了平均数,但均值没有体现事情的全部真相。真正需要知道的是变异,标准差会根据均值体现的典型值,指出该期望各个数值相对于这个典型值如何变化。标准差是一种量度数据的分散性的方法,体现了数值的变异度。标准差越小,离均值越近。
使用标准分比较不同数据集中的数值
使用标准分可以对不同数据集的数据进行比较,而这些不用数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法
通过数据集的均值和标准差可求出一个特定数值的标准分。标准分以字母 z 表示:
z = ( x - μ ) / σ 数值x 所在的数据集的均值,标准差
标准分为提供了一种对不同数据集的数据进行比较的办法,这些不同数据集的均值和标准差各部一样。可以吧这些数值视为来自同一个数据集或数据分布
标准分将每个数据集转化为更为通用的分布形态,这个分布的均值是0,标准差为1 ,标准分将数据有效转化为符合这个模型的数据,同时确保数据的基本形状不变。
标准分可以取任意值,表示相对于均值的位置。正的z 分表示数值高于均值,负的z分表述数值低于均值,为0,等于均值。数值体现了与均值的距离
标准分 = 距离均值的标准差个数
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。


