「平均薪资 6 万」——但你身边大多数人明明只拿 3 万。这不是造假,而是平均数被少数高薪者拉偏的结果。描述统计就是帮你看穿这类数字陷阱的工具:用几个关键指标,快速掌握一组数据的全貌。
一、集中趋势:数据「中心」在哪里?
集中趋势衡量一组数据的代表值,常见有三种:
1. 平均数(Mean)
所有数值加总后除以个数。计算直观,但容易被极端值(离群值)拉偏。
例:10 个员工月薪分别为 3 万 × 9 人+老板 60 万,平均薪资 = (27 + 60) / 10 = 8.7 万。这个数字让任何员工看了都觉得「不是在说我」。
2. 中位数(Median)
把数据从小到大排列后,位于正中央的那个值。若个数为偶数,取中间两个值的平均。对离群值有强大的抵抗力,是薪资、房价、收入分布最常用的代表值。
同样的例子:排序后中间值为 3 万——更能代表大多数员工的实际状况。
3. 众数(Mode)
出现次数最多的数值,一组数据可能有多个众数,也可能没有众数。常用于类别型数据(例如:哪个口味最受欢迎、哪个城市订单最多)。
| 指标 | 最适合的情境 | 离群值影响 |
|---|---|---|
| 平均数 | 对称分布、无极端值 | 高(容易被拉偏) |
| 中位数 | 偏态分布(薪资、房价) | 低(稳健) |
| 众数 | 类别型数据、寻找热门选项 | 无关 |
二、分散程度:数据有多「散」?
光知道中心在哪还不够——「全班平均 75 分」可能是大家都考 75,也可能是一半人 50 分、另一半 100 分。分散程度告诉你数据的离散程度。
全距(Range)
最大值 − 最小值。计算最简单,但只依赖两个极端值,容易因单一异常值失真。
方差(Variance)
每个数值与平均数的差距的平方和平均。平方的目的是让正负偏差不互相抵消,并放大较大的偏差。
- 总体方差:分母用 n,适合已有完整数据时
- 样本方差:分母用 n−1(贝塞尔校正),适合用样本推估总体时
标准差(Standard Deviation)
方差的平方根,单位与原始数据相同,因此更易解读。例:平均身高 170 cm、标准差 8 cm,代表多数人身高落在 162~178 cm 之间(±1 个标准差约涵盖 68% 的数据)。
变异系数(CV,Coefficient of Variation)
标准差 ÷ 平均数 × 100%,用于比较不同量级数据的分散程度。例:月薪标准差 5,000 元 vs. 房价标准差 500 万,直接比较没有意义,但换算成 CV 就可以比较「相对分散程度」。
三、四分位数:更稳健的分散描述
标准差容易受离群值影响。四分位数提供了另一种分散程度的描述方式:
- Q1(第一四分位数):25% 的数据低于此值
- Q2(中位数):50% 的数据低于此值
- Q3(第三四分位数):75% 的数据低于此值
- IQR(四分位距)= Q3 − Q1:涵盖中间 50% 数据的范围
IQR 完全忽略最高和最低的 25% 数据,因此对离群值有强大的抵抗力。箱线图(Box Plot)就是以 Q1、Q2、Q3、IQR 为基础绘制的,是呈现数据分布最常用的可视化方式之一。
四、偏态与峰度:分布的「形状」
偏态(Skewness)
描述分布是否对称:
- 偏态 ≈ 0:接近对称分布,平均数 ≈ 中位数
- 偏态 > 0(右偏):长尾在右侧,少数极高值拉高平均数(例如薪资、财富分布)
- 偏态 < 0(左偏):长尾在左侧,少数极低值拉低平均数(例如考试成绩接近满分时)
右偏分布中,平均数 > 中位数 > 众数——这就是为什么薪资报告常强调「中位数」更能代表一般人的状况。
峰度(Kurtosis)
描述分布的尖峭程度:
- 高峰度:数据集中在平均数附近,但尾部较厚(极端值较多)
- 低峰度:数据较平均分散,没有明显的集中点
总结
- 平均数:最常用,但有离群值时容易失真,应搭配中位数判读
- 中位数:对偏态分布(薪资、房价)更有代表性
- 众数:类别型数据或寻找最热门选项时使用
- 标准差:量化数据的离散程度,与平均数搭配使用
- IQR:比标准差更稳健的分散指标,不受极端值影响
- 偏态:判断分布是否对称,决定应报告平均数还是中位数
描述统计不需要复杂的数学背景——理解每个指标背后的直觉含义,才是真正读懂数据的关键。下次看到「平均薪资」,记得先问:中位数是多少?