Vanson's Eternal Blog

统计学的基础概念

Statistics.png
Published on
/6 mins read/---

统计学的基础概念

  • 总体是你真正想知道的,样本是你实际拿到的。
  • 变量是你测量的指标,观测值是具体数字。
  • 均值看平均水平,中位数看中间水平,众数看最常见水平。
  • 极差、方差、标准差、四分位距都在描述分散程度。
  • 标准差越大,数据越不稳定。
  • 偏态分布下,中位数往往比均值更能代表典型水平。
  • 样本会波动,所以样本结论一定有不确定性。
  • 置信区间比点估计更完整,因为它表达了不确定性。
  • p值是在问:如果没差异,现在这种结果有多罕见。
  • 相关不等于因果。

引言

现实里你永远碰到这几种问题:

  • 一堆数据,想知道它的整体水平?
  • 想知道数据是稳定还是波动很大?
  • 想知道一个值是正常还是异常?
  • 想知道样本结果能不能代表总体?
  • 想知道两个现象之间有没有关系?
  • 想知道差异到底是真的,还是随机造成的?

描述统计

这组数据本身长什么样?”

比如:

  • 平均多少?
  • 中间水平多少?
  • 分散不分散?
  • 偏不偏?
  • 有没有异常值?

推断统计

根据样本,能不能推总体?

比如:

  • 抽查100人,能不能推断1万人
  • 两组平均数不同,这差异可靠吗
  • 这个关系是否显著

基础概念

总体

定义 总体是你真正关心的全部对象。

例子

  • 某学校全部学生
  • 某城市全部居民
  • 某电商平台全部用户
  • 某工厂某月生产的全部产品

作用 统计学的最终目标往往是认识总体,而不是只认识你手里那一点数据。

样本

定义 从总体中抽取的一部分对象。

例子

  • 从全校3000名学生里抽取100名学生
  • 从10万用户里抽取2000条消费记录

作用 因为总体通常太大、太贵、太难全部调查,所以我们只能用样本来近似总体。

变量

定义 每个对象身上被记录或测量的某个特征。

例子 对于学生:

  • 身高
  • 体重
  • 数学成绩
  • 性别
  • 每天学习时间

作用 统计分析本质上是在分析变量。

观测值

定义 某个对象在某个变量上的具体数值。

例子

  • 张三的身高是172 cm
  • 李四数学成绩是88分

作用

观测值组成数据集。

集中程度

均值

定义 把所有数加起来,再除以个数。

作用

总体平均水平

  • 平均产量
  • 平均得分
  • 平均身高
  • 平均成本

中位数

定义 把数据按从小到大排序:

若数据个数是奇数,中间那个数就是中位数

若数据个数是偶数,中间两个数的平均就是中位数

作用

中位数特别适合:

  • 收入
  • 房价
  • 医疗支出
  • 网络流量
  • 用户消费金额 因为这些数据经常有很大的极端值。

众数

定义 出现频数最多的数值或类别。

作用

众数尤其适用于分类变量。

比如:

  • 最常见血型
  • 最受欢迎品牌
  • 最常见尺码
  • 最多用户选择的套餐

对分类数据很重要

因为分类变量不能求均值,但可以求众数。

分散程度

极差

作用 极差能快速给你一个“跨度”的印象。

方差

每个数据离平均数的偏离程度,平方后再平均。它衡量的是“整体波动有多大”。

总体方差

样本方差

** 作用 **

方差是很多统计概念的基础:

  • 标准差 = 方差开根号
  • 正态分布靠方差描述宽窄
  • 回归分析、方差分析、误差分析都依赖方差
  • 风险分析里也常用方差衡量波动

标准差

平均来说,数据离均值大约有多远。

** 作用 **

  • 衡量考试成绩波动
  • 衡量企业收益波动
  • 衡量实验结果稳定性
  • 衡量制造精度
  • 判断数据是否异常

四分位数与四分位距IQR

方差、标准差又容易受极端值影响。 那有没有一种方式,既考虑分散,又不太怕异常值?

** 作用 **

  • 收入
  • 房价
  • 医疗账单
  • 电商客单价