平均値・中央値・標準偏差の完全ガイド:記述統計の基本概念と使い分け

「平均年収 600 万円」と聞いても、周りにそんな人がいないと感じることはありませんか?それは嘘ではなく、少数の高収入者が平均値を引き上げているからです。記述統計はこうした数字のトリックを見抜くための道具です——いくつかの指標を理解するだけで、データの全体像をつかめるようになります。

1. 集中傾向:データの「中心」はどこか?

集中傾向はデータの代表値を表します。主な指標は3つです。

平均値(Mean)

すべての値を合計して個数で割った値。計算は簡単ですが、外れ値(異常値)の影響を受けやすいという欠点があります。

例:9人が年収300万円、社長が年収6,000万円の場合、平均値は約870万円——誰も「自分のこと」と思えない数字です。

中央値(Median)

データを小さい順に並べたときの中央の値(偶数の場合は中央2値の平均)。外れ値に強く、給与・住宅価格・所得分布などで最もよく使われます。

同じ例では、中央値は300万円——ほとんどの従業員の実情を正直に表しています。

最頻値(Mode)

最も多く出現する値。複数ある場合も、ない場合もあります。カテゴリデータ(最も人気のある商品、注文が最多の都市など)に適しています。

指標最適な場面外れ値の影響
平均値対称分布・外れ値なし高い(引き上げられやすい)
中央値歪んだ分布(給与・住宅価格)低い(ロバスト)
最頻値カテゴリデータ・人気選択肢関係なし

2. 散布度:データはどれくらい「ばらついている」か?

「クラス平均75点」という情報だけでは、全員が75点なのか、半分が50点で残り半分が100点なのかわかりません。散布度はそのばらつきを表します。

範囲(Range)

最大値 − 最小値。計算は最も簡単ですが、2つの極端な値だけに依存するため、外れ値に弱いです。

分散(Variance)

各値と平均値の差を2乗した値の平均。正負の偏差が打ち消し合わないよう、また大きな偏差を強調するために2乗します。

  • 母分散:分母に n を使用。全データが揃っている場合
  • 標本分散:分母に n−1 を使用(ベッセルの補正)。標本から母集団を推定する場合

標準偏差(Standard Deviation)

分散の平方根。元のデータと同じ単位なので解釈しやすいです。例:平均身長170 cm、標準偏差8 cm → 約68%の人が162〜178 cmの範囲に入ります(±1標準偏差)。

変動係数(CV)

標準偏差 ÷ 平均値 × 100%。スケールの異なるデータ同士のばらつきを比較するときに使います。

今すぐ試す:統計計算ツールにデータを貼り付けると、平均値・中央値・標準偏差・四分位数・ヒストグラムを一括で取得できます。CSV・XLS・XLSX のインポートに対応し、ブラウザ内で完結するためデータは外部に送信されません。

3. 四分位数:より堅牢な散布度の指標

標準偏差は外れ値の影響を受けます。四分位数はより安定した散布度の指標です。

  • Q1(第1四分位数):データの25%がこの値より低い
  • Q2(中央値):データの50%がこの値より低い
  • Q3(第3四分位数):データの75%がこの値より低い
  • IQR(四分位範囲)= Q3 − Q1:中央50%のデータが含まれる範囲

IQR は上下各25%のデータを完全に無視するため、外れ値の影響を受けません。箱ひげ図(Box Plot)は Q1・Q2・Q3・IQR をもとに作成されます。

4. 歪度と尖度:分布の「形」

歪度(Skewness)

  • 歪度 ≈ 0:ほぼ対称分布。平均値 ≈ 中央値
  • 正の歪度(右に歪んでいる):右側に長い尾。少数の高値が平均を引き上げる(給与・資産など)
  • 負の歪度(左に歪んでいる):左側に長い尾。少数の低値が平均を引き下げる

右に歪んだ分布では、平均値 > 中央値 > 最頻値——だから給与レポートでは「中央値」の方が実情を正直に伝えられます。

尖度(Kurtosis)

  • 高い尖度:データが平均値付近に集中しているが、裾が厚い(極端な値が多い)
  • 低い尖度:データが均等にばらついており、明確な集中点がない
データを可視化する:グラフ作成ツールでヒストグラムや折れ線グラフを作成し、統計計算の結果と組み合わせると分析がより充実します。グループ間のパーセント差を計算するにはパーセント計算ツールが最速です。

まとめ

  • 平均値:最もよく使われるが、外れ値があると歪む。中央値と合わせて確認
  • 中央値:歪んだ分布(給与・住宅価格)でより代表性が高い
  • 最頻値:カテゴリデータや最人気の選択肢を探すときに使う
  • 標準偏差:元の単位でばらつきを定量化する。平均値と組み合わせて使う
  • IQR:外れ値の影響を受けないロバストな散布度指標
  • 歪度:分布が対称かどうかを判断し、報告すべき代表値を選ぶ手がかりになる

記述統計は難しい数学を必要としません——各指標の背後にある直感を理解することが、データを正しく読む鍵です。次に「平均給与」を見たら、まずこう問いかけてみてください:中央値はいくらだろう?