「平均年収500万円!」「ユーザー満足度92%達成!」「コーヒーを飲む人は飲まない人より20%長生き!」——こうした文句は説得力があるように聞こえるが、あなたを誤誘導しているかもしれない。数字自体は嘘をつかないが、提示方法・サンプリング手法・分析の視点は落とし穴だらけだ。統計の誤りを見抜く力は、現代人に欠かせないデータ素養である。
1. 平均値の罠:「平均」は「典型」ではない
「平均」は最も誤用される統計概念だ。問題は、平均値は極端な値に非常に敏感なこと。いくつかの異常に高い値が全体の平均を引き上げ、「みんな似たようなもの」に見せてしまう。
例:給与の平均値 vs. 中央値
10人の小企業の月給(万円)が次のとおりだとする:
| 従業員 | 月給 |
|---|---|
| 社員 1〜8 | 30・30・35・35・40・40・45・45万円 |
| 部長 | 150万円 |
| 社長 | 500万円 |
平均月給 = 95万円
中央値(5番目と6番目の平均)= 40万円
「平均月給95万円」は事実だが、社員の80%は45万円以下だ。中央値こそが「典型的な社員」の給与を代表する指標である。
平均値と中央値の使い分け
- 平均値が適切:分布が対称的で外れ値がないとき(身長・試験の点数など)
- 中央値が適切:外れ値がある・大きく歪んでいるとき(給与・不動産価格・資産など)
- 最頻値が適切:カテゴリデータや「最も多い値」を知りたいとき
2. 生存者バイアス:見えているのは「生き残り」だけ
生存者バイアス(Survivorship Bias)は最も見えにくく、害の大きい統計の誤りの一つだ。核心は、データに含まれるのは「生き残った」ケースだけで、沈黙した失敗者は無視されているという点にある。
第二次世界大戦の爆撃機の話
軍は帰還した爆撃機の被弾箇所を調べ、翼と胴体に穴が多く、エンジン部には少ないことを発見した。直感的な結論:「翼の装甲を強化しよう。」
数学者のアブラハム・ウォールドはこう指摘した:これらは帰還できた機体だ。エンジンを撃たれた機体は帰ってこない。だからサンプルではエンジンの穴が少ないが、そこが最も致命的な場所なのだ。正しい判断:エンジンの防護を強化する。
日常の生存者バイアス
- 「成功した起業家は『継続が大切』と言う」——同様に頑張って失敗した人の声は聞こえない
- 「このビルは80年持ちこたえた」——品質の低い建物はとっくに解体されて見えない
- 「このファンドは10年間プラスだ」——途中で閉鎖された損失ファンドはデータベースから消えている
生存者バイアスを避けるには
自問しよう:「何らかの理由でサンプルに含まれていないケースは何か?」 失敗事例・廃業企業・未発表の研究を積極的に探し、データの全体像を補完しよう。
3. 相関は因果ではない:偶然の一致の罠
二つのことが同時に起きても、一方が他方を引き起こしているわけではない。相関関係(Correlation)≠ 因果関係(Causation)は統計学の最重要原則の一つだ。
笑えるが本当の相関
- 米国の溺死者数 vs. ニコラス・ケイジ出演映画数:毎年高い相関(r ≈ 0.67)
- アイスクリーム売上 vs. 溺死率:正の相関——「暑い天気」という第三変数が両方を動かしている
- 足のサイズ vs. 読解力(子供):正の相関——年齢が大きくなるにつれ足も大きくなり読解力も上がるだけ
相関を説明する三つの可能性
- AがBを引き起こす(真の因果)
- BがAを引き起こす(逆因果)——「幸せな人は健康」かもしれないが「健康な人が幸せ」かもしれない
- CがAとB両方を引き起こす(交絡変数)——暑い天気がアイスと水泳(溺死)の両方を増やす
4. グラフによる誤誘導:可視化のダークアート
数字は嘘をつかないが、グラフの設計次第で同じデータが全く違って見える。
Y軸の切り捨て
Y軸が0から始まらないと、わずかな差が大きく見える。満足度が87%から89%に上がっても、Y軸が85%スタートなら倍増したように見える。
恣意的な時間範囲の選択
株価チャートをボトムから始めれば上昇が劇的に見え、ピークから始めれば暴落に見える。都合のよい開始・終了点を選ぶのは最も一般的なデータ操作だ。
サンプルサイズの省略
「満足度92%」は聞こえが良いが、調査対象が13人なら統計的に無意味だ。メディア報道ではサンプル数と誤差範囲がしばしば省かれる。
5. 小サンプルの誤謬:「少数」から「全体」を推論する
サンプルが小さすぎると、結果はランダムな揺らぎに支配され、全体を代表できない。A/Bテストを数日で打ち切るのは典型的な失敗だ——通常、統計的有意性(p < 0.05)を得るには数千〜数万件のデータが必要だ。
6. 確証バイアス:見たいものしか見ない
私たちは既存の信念を支持する証拠を探し、反証を無視する傾向がある。確証バイアス(Confirmation Bias)は、「どのデータを集めるか」を決める段階で既に作動するため、最も克服しにくい統計の誤りだ。
- 仮説を事前に登録し、後から「分析方針を調整」することを防ぐ
- 「どんなデータが私の考えを変えるか?」を問い、そのデータを探す
- 反対意見を持つ人に分析を審査してもらう
7. 統計的有意性 ≠ 実際の重要性
p < 0.05 は統計的に有意だが、現実的な意味があるとは限らない。100万人規模の研究で「毎日100歩多く歩くと心臓病リスクが0.003%低下」が統計的に有意でも、実用上の意味はほぼない。p値だけでなく効果量(Effect Size)と信頼区間も必ず確認しよう。
まとめ:批判的データ思考のチェックリスト
- 使われているのは平均値か中央値か?分布は歪んでいないか?
- サンプルに生存者バイアスはないか?欠けているケースは何か?
- 合理的な因果メカニズムがあるか、それとも交絡変数の仕業か?
- グラフのY軸は0から始まっているか?時間範囲は恣意的ではないか?
- サンプル数は十分か?調査手法は信頼できるか?
- 統計的有意性の外に、実用的な効果量はどのくらいか?
データリテラシーとはすべての数字を疑うことではなく、正しい問いを立てることだ。データの前提と限界を理解することで、情報の洪水から真に価値あるシグナルを見つけ出せるようになる。