標本調査完全ガイド：サンプルサイズの決め方、世論調査、A/Bテストと信頼区間入門

「世論調査では候補者の支持率が48%、誤差範囲±3%」——この「誤差範囲」がどのように計算されるか知っていますか？なぜ1,000人に聞くだけで数千万人の意見を代表できるのでしょうか？標本統計はある核心的な問いに答えます：全員を調査しなくても、正しい方法さえ使えば、母集団について信頼できる推測ができるのです。

1. なぜ標本抽出が必要か？

全数調査（センサス）が理想ですが、現実には困難なことが多いです：

コストが高い：すべての顧客に意見を聞くのは膨大な時間とリソースがかかる
時間がない：調査が終わるころには問題が変わってしまう
破壊的試験：電球の寿命テストですべて使い切ることはできない
無限の母集団：将来のユーザーを事前に調査することはできない

標本統計の核心：無作為で代表性のある標本であれば、母集団のほんの一部でも、定量化された精度で母集団の特性を推測できます。

2. 信頼区間：不確実性の定量的表現

「48% ±3%」の完全な表現は：95%信頼区間は45%〜51%。これは：

同じ方法で100回繰り返し標本抽出した場合、約95回はその信頼区間に母集団の真の値が含まれる。

信頼区間の公式（比率）

CI = p̂ ± Z × √(p̂(1−p̂)/n)

p̂：標本比率（例：0.48）
Z：信頼水準に対応するZスコア（95% → 1.96、99% → 2.576）
n：標本数

試してみよう：統計計算ツールにデータを入力すれば、平均・標準偏差をすばやく計算できます。上記の公式と組み合わせて信頼区間を検証しましょう。

3. サンプルサイズの決め方

サンプルサイズの公式：n = Z² × p(1−p) / E²

誤差範囲	必要サンプルサイズ（95%CI、p=0.5）
±10%	96人
±5%	384人
±3%	1,067人
±2%	2,401人
±1%	9,604人

重要な発見：誤差を半分にするにはサンプル数が4倍必要です。また直感に反して、母集団のサイズはほとんど必要サンプル数に影響しません。

4. A/Bテスト：デジタル時代の実験設計

仮説検定の手順

帰無仮説 H₀：2グループに差はない（変更は効果なし）
対立仮説 H₁：グループBはグループAより優れている
ユーザーをAまたはBに無作為に割り当て、データを収集
p値を計算：H₀が真である場合にこれほど大きな差を観測する確率
p < 0.05なら H₀ を棄却、差は統計的に有意

統計的有意性 ≠ 実際の重要性。サンプルが十分大きければ、わずかな差でも統計的有意になります。p値だけでなく効果量（Effect Size）も評価しましょう。

結果を視覚化：グラフ作成ツールでABグループのデータ分布を棒グラフや折れ線グラフで表示し、p値だけに頼らず効果量を直感的に判断しましょう。

5. よくある標本バイアス

選択バイアス：標本が母集団を代表していない（例：インターネット調査はネット非利用者を除外）
生存バイアス：「生き残った」ケースだけを見て、消えたケースを無視
回答バイアス：回答者が本音ではなく社会的に望ましい答えをする傾向
多重比較の問題：20の検定を同時に行えば、偶然だけでも約1つが p < 0.05 になる

割合をすばやく計算：レポートを読む際に変化率や割合を確認するには、パーセント計算ツールが役立ちます。

まとめ

標本抽出の核心：無作為性と代表性が信頼できる推測の基礎
信頼区間：不確実性の定量化——「真の値が区間内にある確率95%」という意味ではない
サンプルサイズ：誤差を半分にするには4倍のサンプルが必要；母集団サイズはほぼ無関係
A/Bテスト：無作為割り当て＋仮説検定；統計的有意性は実際の重要性と異なる
p値：H₀が真のときに現在のデータを観測する確率——よく誤解される

統計的推測の究極の目標は精確な数値を算出することではなく、不確実性の中で根拠ある判断を下すことです。