统计学的基础概念
- 总体是你真正想知道的,样本是你实际拿到的。
- 变量是你测量的指标,观测值是具体数字。
- 均值看平均水平,中位数看中间水平,众数看最常见水平。
- 极差、方差、标准差、四分位距都在描述分散程度。
- 标准差越大,数据越不稳定。
- 偏态分布下,中位数往往比均值更能代表典型水平。
- 样本会波动,所以样本结论一定有不确定性。
- 置信区间比点估计更完整,因为它表达了不确定性。
- p值是在问:如果没差异,现在这种结果有多罕见。
- 相关不等于因果。
引言
现实里你永远碰到这几种问题:
- 一堆数据,想知道它的整体水平?
- 想知道数据是稳定还是波动很大?
- 想知道一个值是正常还是异常?
- 想知道样本结果能不能代表总体?
- 想知道两个现象之间有没有关系?
- 想知道差异到底是真的,还是随机造成的?
描述统计
这组数据本身长什么样?”
比如:
- 平均多少?
- 中间水平多少?
- 分散不分散?
- 偏不偏?
- 有没有异常值?
推断统计
根据样本,能不能推总体?
比如:
- 抽查100人,能不能推断1万人
- 两组平均数不同,这差异可靠吗
- 这个关系是否显著
基础概念
总体
定义 总体是你真正关心的全部对象。
例子
- 某学校全部学生
- 某城市全部居民
- 某电商平台全部用户
- 某工厂某月生产的全部产品
作用 统计学的最终目标往往是认识总体,而不是只认识你手里那一点数据。
样本
定义 从总体中抽取的一部分对象。
例子
- 从全校3000名学生里抽取100名学生
- 从10万用户里抽取2000条消费记录
作用 因为总体通常太大、太贵、太难全部调查,所以我们只能用样本来近似总体。
变量
定义 每个对象身上被记录或测量的某个特征。
例子 对于学生:
- 身高
- 体重
- 数学成绩
- 性别
- 每天学习时间
作用 统计分析本质上是在分析变量。
观测值
定义 某个对象在某个变量上的具体数值。
例子
- 张三的身高是172 cm
- 李四数学成绩是88分
作用
观测值组成数据集。
集中程度
均值
定义 把所有数加起来,再除以个数。
作用
总体平均水平
- 平均产量
- 平均得分
- 平均身高
- 平均成本
中位数
定义 把数据按从小到大排序:
若数据个数是奇数,中间那个数就是中位数
若数据个数是偶数,中间两个数的平均就是中位数
作用
中位数特别适合:
- 收入
- 房价
- 医疗支出
- 网络流量
- 用户消费金额 因为这些数据经常有很大的极端值。
众数
定义 出现频数最多的数值或类别。
作用
众数尤其适用于分类变量。
比如:
- 最常见血型
- 最受欢迎品牌
- 最常见尺码
- 最多用户选择的套餐
对分类数据很重要
因为分类变量不能求均值,但可以求众数。
分散程度
极差
作用 极差能快速给你一个“跨度”的印象。
方差
每个数据离平均数的偏离程度,平方后再平均。它衡量的是“整体波动有多大”。
总体方差
样本方差
** 作用 **
方差是很多统计概念的基础:
- 标准差 = 方差开根号
- 正态分布靠方差描述宽窄
- 回归分析、方差分析、误差分析都依赖方差
- 风险分析里也常用方差衡量波动
标准差
平均来说,数据离均值大约有多远。
** 作用 **
- 衡量考试成绩波动
- 衡量企业收益波动
- 衡量实验结果稳定性
- 衡量制造精度
- 判断数据是否异常
四分位数与四分位距IQR
方差、标准差又容易受极端值影响。 那有没有一种方式,既考虑分散,又不太怕异常值?
** 作用 **
- 收入
- 房价
- 医疗账单
- 电商客单价
← Previous postAI数学内容之学习路线
Next post →AI Agent架构设计

