「民調顯示候選人支持率 48%,誤差範圍 ±3%」——你知道這個「誤差範圍」是怎麼算出來的嗎?為什麼只問 1000 人,就能代表 2300 萬人的意見?抽樣統計解答了一個核心問題:我們不需要調查每個人,也能對全體做出可靠的推論——只要方法正確。
一、為什麼需要抽樣?
理想上,若能調查「所有人」(全普查),結果最準確。但實際上全普查往往不可行:
- 成本太高:訪問每個消費者的意見費時費力
- 時間來不及:等到調查完,問題早已改變
- 破壞性測試:測試燈泡壽命不能把每顆都點到壞
- 目標母體無限:未來的使用者無法事先調查
抽樣統計的核心洞見:只要樣本是隨機且有代表性的,即使只取母體的一小部分,也能以量化的精確度推論母體特性。
二、關鍵概念:母體與樣本
| 概念 | 定義 | 符號 | 範例 |
|---|---|---|---|
| 母體(Population) | 研究對象的全集合 | N | 全台灣 18 歲以上選民 |
| 樣本(Sample) | 從母體中抽取的子集合 | n | 隨機抽取的 1,068 名選民 |
| 母體參數 | 母體的真實特性(通常未知) | μ, p | 全體選民的真實支持率 |
| 樣本統計量 | 用樣本估計的數值 | x̄, p̂ | 樣本中的支持率 48% |
統計推論的任務,就是從「樣本統計量」推估「母體參數」,並量化這個估計的不確定性。
三、信賴區間:不確定性的量化表達
「48% ±3%」的完整說法是:95% 信賴區間為 45%~51%。它的意思是:
若用相同方法重複抽樣 100 次,約有 95 次所得的信賴區間會包含母體真實值。
注意這不是說「母體真實值有 95% 機率落在這個區間」——母體真實值是固定的,不是隨機變數。
信賴區間公式(比例)
對於比例型問題(如支持率):
信賴區間 = p̂ ± Z × √(p̂(1−p̂)/n)
- p̂:樣本比例(如 0.48)
- Z:對應信賴水準的 Z 分數(95% → 1.96,99% → 2.576)
- n:樣本數
範例:n=1,068,p̂=0.48,95% 信賴區間:
誤差 = 1.96 × √(0.48 × 0.52 / 1068) ≈ 1.96 × 0.0153 ≈ ±3%
四、樣本數怎麼決定?
這是最常被問到的問題。決定樣本數需要設定三個條件:
- 信賴水準(Confidence Level):通常選 95%(Z=1.96)
- 可接受的誤差範圍(Margin of Error, E):如 ±3%
- 預估的母體比例(p):若不知道,保守估計用 0.5(此時樣本數最大)
樣本數公式:n = Z² × p(1−p) / E²
| 誤差範圍 | 所需樣本數(95% 信賴水準,p=0.5) |
|---|---|
| ±10% | 96 人 |
| ±5% | 384 人 |
| ±3% | 1,067 人 |
| ±2% | 2,401 人 |
| ±1% | 9,604 人 |
重要發現:誤差縮小一半,樣本數要增加 4 倍。這就是為什麼從 ±5% 進步到 ±2.5% 成本會大幅提升,而媒體民調多選擇 ±3% 作為平衡點。
另一個反直覺的結論:母體大小幾乎不影響所需樣本數(只要母體遠大於樣本)。這正是為什麼 1,000 人的樣本既能代表台灣選民,也能代表美國選民——它們所需樣本數相差無幾。
五、A/B 測試:數位時代的實驗設計
A/B 測試是科技公司最常用的統計工具,本質上是一個「假設檢定」:
- 控制組 A:舊版設計(如舊版按鈕顏色)
- 實驗組 B:新版設計(如新版按鈕顏色)
- 評估指標:點擊率、轉換率、留存率等
假設檢定流程
- 虛無假設 H₀:兩組沒有差異(改版無效)
- 對立假設 H₁:B 組比 A 組更好
- 隨機將用戶分配到 A 或 B 組,收集數據
- 計算 p 值:若 H₀ 為真,觀察到「這麼大或更大差異」的機率
- 若 p < 0.05(顯著水準),拒絕 H₀,認為差異有統計顯著性
p 值的正確解讀
p 值是最常被誤解的統計概念之一:
- p 值不是「H₀ 為真的機率」
- p 值不是「結果是偶然的機率」
- p 值是:假設 H₀ 正確,觀察到現有數據(或更極端數據)的機率
p < 0.05 表示:若兩組真的沒差,得到這麼大差異的機率低於 5%——這讓我們有理由懷疑「兩組沒差」這個假設。
統計顯著 ≠ 實際重要
樣本數夠大時,即使微小差異也會達到統計顯著性。按鈕轉換率從 5.00% 提升到 5.01%,在百萬用戶規模下可能達到 p < 0.001,但這 0.01% 的提升在業務上意義不大。因此,除了 p 值,還要評估效應大小(Effect Size)。
六、常見的抽樣偏差與陷阱
選擇偏差(Selection Bias)
樣本不能代表母體的情況。例:只調查網路用戶的意見,無法代表全體國民(數位落差)。電話民調無法接觸沒有電話的族群。
倖存者偏差(Survivorship Bias)
只看到「倖存下來」的樣本,忽略了已消失的案例。例:研究成功企業的共同特質,卻忘了失敗企業可能也有相同特質。
回應偏差(Response Bias)
受訪者傾向給出「社會期望」的答案,而非真實想法。例:詢問飲酒習慣時,人們常低報飲酒量。
多重比較問題(Multiple Comparisons Problem)
同時做 20 個假設檢定,即使所有 H₀ 都成立,期望也有 1 個測試的 p < 0.05(純粹出於偶然)。這是許多「假陽性發現」的根源——需要用 Bonferroni 修正或控制偽發現率(FDR)來應對。
七、如何判讀媒體中的統計數字?
看到統計數字時,養成習慣問這幾個問題:
- 樣本數是多少? n=30 與 n=1,000 的可信度差很多
- 信賴區間是多少? 只報點估計(48%)而不報誤差範圍,資訊不完整
- 樣本如何取得? 隨機抽樣才有代表性;便利樣本(如網路投票)通常不具代表性
- 問題怎麼問的? 問題措辭會顯著影響受訪者回答
- 是否有顯著差異? 48% vs. 46%,誤差範圍 ±3% 的情況下,兩者在統計上沒有差異
總結
- 抽樣的核心:用少量隨機樣本推論母體,關鍵是「隨機」與「代表性」
- 信賴區間:量化估計的不確定性,95% CI 的含義是「重複抽樣 100 次,約 95 次區間含真值」
- 樣本數:誤差縮小一半需要 4 倍樣本;母體大小幾乎不影響所需樣本數
- A/B 測試:隨機分組 + 假設檢定,p < 0.05 表示統計顯著,但不代表實際重要
- p 值:假設 H₀ 成立時,觀察到現有數據的機率——不是「H₀ 為真的機率」
- 偏差警覺:選擇偏差、倖存者偏差、回應偏差都可能讓數據失去代表性
統計推論的終極目標,不是計算一個精確的數字,而是在不確定性中做出有依據的判斷。當你下次看到「誤差範圍 ±3%」,你已經知道背後的邏輯了。