「平均薪資 6 萬」——但你身邊大多數人明明只領 3 萬。這不是造假,而是平均數被少數高薪者拉偏的結果。描述統計就是幫你看穿這類數字陷阱的工具:用幾個關鍵指標,快速掌握一組數據的全貌。
一、集中趨勢:資料「中心」在哪裡?
集中趨勢衡量一組數據的代表值,常見有三種:
1. 平均數(Mean)
所有數值加總後除以個數。計算直觀,但容易被極端值(離群值)拉偏。
例:10 個員工月薪分別為 3 萬 × 9 人+老闆 60 萬,平均薪資 = (27 + 60) / 10 = 8.7 萬。這個數字讓任何員工看了都覺得「不是在說我」。
2. 中位數(Median)
把資料從小到大排列後,位於正中央的那個值。若個數為偶數,取中間兩個值的平均。對離群值有強大的抵抗力,是薪資、房價、收入分布最常用的代表值。
同樣的例子:排序後中間值為 3 萬——更能代表大多數員工的實際狀況。
3. 眾數(Mode)
出現次數最多的數值,一組資料可能有多個眾數,也可能沒有眾數。常用於類別型資料(例如:哪個口味最受歡迎、哪個城市訂單最多)。
| 指標 | 最適合的情境 | 離群值影響 |
|---|---|---|
| 平均數 | 對稱分布、無極端值 | 高(容易被拉偏) |
| 中位數 | 偏態分布(薪資、房價) | 低(穩健) |
| 眾數 | 類別型資料、尋找熱門選項 | 無關 |
二、分散程度:資料有多「散」?
光知道中心在哪還不夠——「全班平均 75 分」可能是大家都考 75,也可能是一半人 50 分、另一半 100 分。分散程度告訴你資料的離散程度。
全距(Range)
最大值 − 最小值。計算最簡單,但只依賴兩個極端值,容易因單一異常值失真。
變異數(Variance)
每個數值與平均數的差距的平方和平均。平方的目的是讓正負偏差不互相抵消,並放大較大的偏差。
- 母體變異數:分母用 n,適合已有完整資料時
- 樣本變異數:分母用 n−1(貝塞爾校正),適合用樣本推估母體時
標準差(Standard Deviation)
變異數的平方根,單位與原始資料相同,因此更易解讀。例:平均身高 170 cm、標準差 8 cm,代表多數人身高落在 162~178 cm 之間(±1 個標準差約涵蓋 68% 的資料)。
變異係數(CV,Coefficient of Variation)
標準差 ÷ 平均數 × 100%,用於比較不同量級資料的分散程度。例:月薪標準差 5,000 元 vs. 房價標準差 500 萬,直接比較沒有意義,但換算成 CV 就可以比較「相對分散程度」。
三、四分位數:更穩健的分散描述
標準差容易受離群值影響。四分位數提供了另一種分散程度的描述方式:
- Q1(第一四分位數):25% 的資料低於此值
- Q2(中位數):50% 的資料低於此值
- Q3(第三四分位數):75% 的資料低於此值
- IQR(四分位距)= Q3 − Q1:涵蓋中間 50% 資料的範圍
IQR 完全忽略最高和最低的 25% 資料,因此對離群值有強大的抵抗力。箱型圖(Box Plot)就是以 Q1、Q2、Q3、IQR 為基礎繪製的,是呈現資料分布最常用的視覺化方式之一。
四、偏態與峰度:分布的「形狀」
偏態(Skewness)
描述分布是否對稱:
- 偏態 ≈ 0:接近對稱分布,平均數 ≈ 中位數
- 偏態 > 0(右偏):長尾在右側,少數極高值拉高平均數(例如薪資、財富分布)
- 偏態 < 0(左偏):長尾在左側,少數極低值拉低平均數(例如考試成績接近滿分時)
右偏分布中,平均數 > 中位數 > 眾數——這就是為什麼薪資報告常強調「中位數」更能代表一般人的狀況。
峰度(Kurtosis)
描述分布的尖峭程度:
- 高峰度:資料集中在平均數附近,但尾部較厚(極端值較多)
- 低峰度:資料較平均分散,沒有明顯的集中點
總結
- 平均數:最常用,但有離群值時容易失真,應搭配中位數判讀
- 中位數:對偏態分布(薪資、房價)更有代表性
- 眾數:類別型資料或尋找最熱門選項時使用
- 標準差:量化資料的離散程度,與平均數搭配使用
- IQR:比標準差更穩健的分散指標,不受極端值影響
- 偏態:判斷分布是否對稱,決定應報告平均數還是中位數
描述統計不需要複雜的數學背景——理解每個指標背後的直覺含義,才是真正讀懂數據的關鍵。下次看到「平均薪資」,記得先問:中位數是多少?