《深入浅出统计学》--笔记2

小编 2026-07-02 阅读:1186 评论:0
分散性与变异性的量度–距 平均数容易找出典型值,但平均数不能说明一切,能让你知道数据中心所在,但若要给数据下结论,仅有均值,中位数和众数往往无法提供充足信息。例如三个球员的平均分得分相同,但是...

分散性与变异性的量度–距

平均数容易找出典型值,但平均数不能说明一切,能让你知道数据中心所在,但若要给数据下结论,仅有均值,中位数和众数往往无法提供充足信息。例如三个球员的平均分得分相同,但是各个数据集之间存在差异,观察球员得分相对于平均数的分布情况,以此区分各个数据集。知道了得分的分布情况,就可以知道球员得分的稳定性。

全距:通过计算全距(极差),可以知道数据分散情况。全距指出数据的扩展范围,有点像测量数据的宽度,即用数据集中的最大数减去数据集中的最小数。
最小值称为下界,最大值称为上界。是用于量度数据分散程度的一种方法,算法为 :上界-下界
但是,全距仅仅描述了数据的宽度,并没有描述数据在上下界之间的分布形态。两个相同数据集全距相同,但是很难得出数据中的真实分布形态,原因是全距容易受异常值影响。
解决办法:使用迷你距忽略异常值。找出全距的一部分,不包含异常值的部分。

迷你距: 起到将整批数据一分为四作用的几个数值就是所谓的四分位数,指的是将整批数据一分为四的几个数值。
最小的四分位数Q1称为下四分位数或第一四分位数,最大的四分位数Q3称为上四分位数或第三四分位数。中间的四分位数Q2就是中位数,因为它将数据一分为二。每两个四分位数之间的距被称为四分位距IQR.
四分位距 = 上四分位数(最大值) - 下四分位数(最小值)
四分位距的优点是:与全距相比,较少受到异常值的影响,因为仅使用了中间50% 的数据,如此将异常值弃而不用。
求上下四分位数的位置
下四:首先 N/4 ,结果为整,下四位于整数位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四
如果不为整,向上取整,所得结果为下四的位置。 如6个数,6/4 =1.5, 向上取整得到2,表示下四的位置为2
上四:3n/4, 为整,则上四位于整数位置和下一个位置中间,将这两个位置上的书加起来,然后除以2.
如果不为整,则向上取整,所得到的新数字为上四的位置。

除了全距和四分位距还有百分位数。
百分位数:是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,第十百分位数就是位于数据范围10%处的数值
百分位数对于划分名词,排行有用,也可确定某个数值相对于其他数值的高低。
求百分位数
首先将所有数值按升值排序;为了求出n个数字的第k百分位数的位置,先计算k(n/100);如果结果为整数,则百分位数处于第k(n/100)位和下一位
数之间。取这两个位置上的数字的平均值,得出百分位数。
如果k(n/100)不是整数,则将其向上取整,结果即百分位数的位置

全距与四分位距的问题是:仅仅告诉你最大值和最小值之间的差值,却无法告诉你球员们得到这些最高分或最低分的频率,以及球员们得到更接近数据
中心的得分的频率。

一个球员得分的变异性是指通过观察球员得分的分散性,并通过某种方法利用所得到的分散性看出球员的稳定性程度,即希望量度球员的变异性

变异性比分散性更具体:获取每批数据的分散性,和通过某种方法利用所得到的分散性看出数据的稳定程度,即量度球员的变异性。实现以上目的一个方法是:观察每个数值与均值的距离。如果能够算出各个数值与均值的某种平均距离,就有办法量度变异性和分散性。结果越小,数值与均值的距离越近。

平均距离:计算平均距离是数据集中各个数值到均值的数除以个数。但是各个数值与均值的距离正,负相抵。
方差:是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。即各个数值与均值的距离的平方除以数据集中数据的个数。
方差 = ∑(x - μ )² / n
方差速算法: 方差 = ∑x² / n - μ ²

人们很难根据距离的平方数去考虑分散性,而是数值与均值的距离考虑分散性,标准差即对方法的平方根,对此进行修正,取方差的平方根:
标准差 =σ = √方差 ̄
均值体现了平均数,但均值没有体现事情的全部真相。真正需要知道的是变异,标准差会根据均值体现的典型值,指出该期望各个数值相对于这个典型值如何变化。标准差是一种量度数据的分散性的方法,体现了数值的变异度。标准差越小,离均值越近。

使用标准分比较不同数据集中的数值
使用标准分可以对不同数据集的数据进行比较,而这些不用数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法
通过数据集的均值和标准差可求出一个特定数值的标准分。标准分以字母 z 表示:

z = ( x - μ ) / σ 数值x 所在的数据集的均值,标准差

标准分为提供了一种对不同数据集的数据进行比较的办法,这些不同数据集的均值和标准差各部一样。可以吧这些数值视为来自同一个数据集或数据分布
标准分将每个数据集转化为更为通用的分布形态,这个分布的均值是0,标准差为1 ,标准分将数据有效转化为符合这个模型的数据,同时确保数据的基本形状不变。
标准分可以取任意值,表示相对于均值的位置。正的z 分表示数值高于均值,负的z分表述数值低于均值,为0,等于均值。数值体现了与均值的距离
标准分 = 距离均值的标准差个数

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

热门文章
  • Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

    Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering
    Problem Statement 我们考虑一个具有马尔可夫性质、非线性、非高斯的状态空间模型(State Space Model):对于一个时间序列上的观测结果{yt,t∈N}\\{ y_t , t \\in N \\}{yt​,t∈N},我们认为每个观测结果yty_tyt​的生成依赖于一个无法直接观察的隐变量xt∈{xt,t∈N}x_t \\in \\{x_t , t \\in N \\}xt​∈{xt​,t∈N},即:p(...
  • 机房智能化温湿度解决方式之POE供电以太网温湿度传感器

    机房智能化温湿度解决方式之POE供电以太网温湿度传感器
    机房智能化温湿度解决方式之POE供电以太网温湿度传感器 北京盈创力和电子科技有限公司 智能型TCP网口温湿度记录仪 北京IP网络温湿度记录仪厂家,北京盈创力和 北京智能型TCP网口温湿度记录仪IP网络温湿度记录仪是一种新型的基于TCP/IP协议双绞线以太网标准温湿度采集模块,利用它可以实现现场温度值、相对湿度值的采集,同时利用其自身的RJ45通信接口可以方便地和机房监控主机或交换机集线器进行联网。 工作于-40℃~85℃工业级带...
  • Hive 系统函数及示例

    Hive 系统函数及示例
    查看所有系统函数 show functions; 函数分类 内置函数【系统函数】 数学函数: floor、round、ceil、cos、log2等 字符串函数: length、reverse、trim、lower、get_json_object、repeat等 收集函数: size 转换函数: cast 日期函数: year、month、datediff、date、date_add等 条件函数: coalesce、case…w...
  • CSRF的原理和防范措施

    CSRF的原理和防范措施
    a)攻击原理:i.用户C访问正常网站A时进行登录,浏览器保存A的cookieii.用户C再访问攻击网站B,网站B上有某个隐藏的链接或者图片标签会自动请求网站A的URL地址,例如表单提交,传指定的参数iii.而攻击网站B在访问网站A的时候,浏览器会自动带上网站A的cookieiv.所以网站A在接收到请求之后可判断当前用户是登录状态,所以...
  • HTTP状态保持的原理

    HTTP状态保持的原理
    a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied)服务接收到请求之后可以请 request 对象中取到cookie 判断当前用户是否登录  Http是无状态的,就是连接时数据互通,关闭后...
标签列表