抽樣調查完整指南:樣本數怎麼決定?民調、A/B 測試與信賴區間入門

「民調顯示候選人支持率 48%,誤差範圍 ±3%」——你知道這個「誤差範圍」是怎麼算出來的嗎?為什麼只問 1000 人,就能代表 2300 萬人的意見?抽樣統計解答了一個核心問題:我們不需要調查每個人,也能對全體做出可靠的推論——只要方法正確。

一、為什麼需要抽樣?

理想上,若能調查「所有人」(全普查),結果最準確。但實際上全普查往往不可行:

  • 成本太高:訪問每個消費者的意見費時費力
  • 時間來不及:等到調查完,問題早已改變
  • 破壞性測試:測試燈泡壽命不能把每顆都點到壞
  • 目標母體無限:未來的使用者無法事先調查

抽樣統計的核心洞見:只要樣本是隨機且有代表性的,即使只取母體的一小部分,也能以量化的精確度推論母體特性。

二、關鍵概念:母體與樣本

概念定義符號範例
母體(Population)研究對象的全集合N全台灣 18 歲以上選民
樣本(Sample)從母體中抽取的子集合n隨機抽取的 1,068 名選民
母體參數母體的真實特性(通常未知)μ, p全體選民的真實支持率
樣本統計量用樣本估計的數值x̄, p̂樣本中的支持率 48%

統計推論的任務,就是從「樣本統計量」推估「母體參數」,並量化這個估計的不確定性。

三、信賴區間:不確定性的量化表達

「48% ±3%」的完整說法是:95% 信賴區間為 45%~51%。它的意思是:

若用相同方法重複抽樣 100 次,約有 95 次所得的信賴區間會包含母體真實值。

注意這不是說「母體真實值有 95% 機率落在這個區間」——母體真實值是固定的,不是隨機變數。

信賴區間公式(比例)

對於比例型問題(如支持率):

信賴區間 = p̂ ± Z × √(p̂(1−p̂)/n)

  • :樣本比例(如 0.48)
  • Z:對應信賴水準的 Z 分數(95% → 1.96,99% → 2.576)
  • n:樣本數

範例:n=1,068,p̂=0.48,95% 信賴區間:

誤差 = 1.96 × √(0.48 × 0.52 / 1068) ≈ 1.96 × 0.0153 ≈ ±3%

計算看看:將你的數據輸入統計計算器,可以快速計算樣本的平均數、標準差,再配合上方公式計算信賴區間,驗證你對數據的直覺判斷。

四、樣本數怎麼決定?

這是最常被問到的問題。決定樣本數需要設定三個條件:

  1. 信賴水準(Confidence Level):通常選 95%(Z=1.96)
  2. 可接受的誤差範圍(Margin of Error, E):如 ±3%
  3. 預估的母體比例(p):若不知道,保守估計用 0.5(此時樣本數最大)

樣本數公式:n = Z² × p(1−p) / E²

誤差範圍所需樣本數(95% 信賴水準,p=0.5)
±10%96 人
±5%384 人
±3%1,067 人
±2%2,401 人
±1%9,604 人

重要發現:誤差縮小一半,樣本數要增加 4 倍。這就是為什麼從 ±5% 進步到 ±2.5% 成本會大幅提升,而媒體民調多選擇 ±3% 作為平衡點。

另一個反直覺的結論:母體大小幾乎不影響所需樣本數(只要母體遠大於樣本)。這正是為什麼 1,000 人的樣本既能代表台灣選民,也能代表美國選民——它們所需樣本數相差無幾。

五、A/B 測試:數位時代的實驗設計

A/B 測試是科技公司最常用的統計工具,本質上是一個「假設檢定」:

  • 控制組 A:舊版設計(如舊版按鈕顏色)
  • 實驗組 B:新版設計(如新版按鈕顏色)
  • 評估指標:點擊率、轉換率、留存率等

假設檢定流程

  1. 虛無假設 H₀:兩組沒有差異(改版無效)
  2. 對立假設 H₁:B 組比 A 組更好
  3. 隨機將用戶分配到 A 或 B 組,收集數據
  4. 計算 p 值:若 H₀ 為真,觀察到「這麼大或更大差異」的機率
  5. 若 p < 0.05(顯著水準),拒絕 H₀,認為差異有統計顯著性

p 值的正確解讀

p 值是最常被誤解的統計概念之一:

  • p 值不是「H₀ 為真的機率」
  • p 值不是「結果是偶然的機率」
  • p 值是:假設 H₀ 正確,觀察到現有數據(或更極端數據)的機率

p < 0.05 表示:若兩組真的沒差,得到這麼大差異的機率低於 5%——這讓我們有理由懷疑「兩組沒差」這個假設。

統計顯著 ≠ 實際重要

樣本數夠大時,即使微小差異也會達到統計顯著性。按鈕轉換率從 5.00% 提升到 5.01%,在百萬用戶規模下可能達到 p < 0.001,但這 0.01% 的提升在業務上意義不大。因此,除了 p 值,還要評估效應大小(Effect Size)

視覺化比較:將 A/B 兩組的數據分布輸入圖表產生器,用長條圖或折線圖呈現兩組數據的差異,幫助直觀判斷效應大小,而不只依賴 p 值的數字。

六、常見的抽樣偏差與陷阱

選擇偏差(Selection Bias)

樣本不能代表母體的情況。例:只調查網路用戶的意見,無法代表全體國民(數位落差)。電話民調無法接觸沒有電話的族群。

倖存者偏差(Survivorship Bias)

只看到「倖存下來」的樣本,忽略了已消失的案例。例:研究成功企業的共同特質,卻忘了失敗企業可能也有相同特質。

回應偏差(Response Bias)

受訪者傾向給出「社會期望」的答案,而非真實想法。例:詢問飲酒習慣時,人們常低報飲酒量。

多重比較問題(Multiple Comparisons Problem)

同時做 20 個假設檢定,即使所有 H₀ 都成立,期望也有 1 個測試的 p < 0.05(純粹出於偶然)。這是許多「假陽性發現」的根源——需要用 Bonferroni 修正或控制偽發現率(FDR)來應對。

七、如何判讀媒體中的統計數字?

看到統計數字時,養成習慣問這幾個問題:

  1. 樣本數是多少? n=30 與 n=1,000 的可信度差很多
  2. 信賴區間是多少? 只報點估計(48%)而不報誤差範圍,資訊不完整
  3. 樣本如何取得? 隨機抽樣才有代表性;便利樣本(如網路投票)通常不具代表性
  4. 問題怎麼問的? 問題措辭會顯著影響受訪者回答
  5. 是否有顯著差異? 48% vs. 46%,誤差範圍 ±3% 的情況下,兩者在統計上沒有差異
計算成長率與占比:閱讀報告時需要計算百分比變化、佔比或差異時,百分比計算機能幫你快速驗算數字,避免被誤導性的統計圖表欺騙。

總結

  • 抽樣的核心:用少量隨機樣本推論母體,關鍵是「隨機」與「代表性」
  • 信賴區間:量化估計的不確定性,95% CI 的含義是「重複抽樣 100 次,約 95 次區間含真值」
  • 樣本數:誤差縮小一半需要 4 倍樣本;母體大小幾乎不影響所需樣本數
  • A/B 測試:隨機分組 + 假設檢定,p < 0.05 表示統計顯著,但不代表實際重要
  • p 值:假設 H₀ 成立時,觀察到現有數據的機率——不是「H₀ 為真的機率」
  • 偏差警覺:選擇偏差、倖存者偏差、回應偏差都可能讓數據失去代表性

統計推論的終極目標,不是計算一個精確的數字,而是在不確定性中做出有依據的判斷。當你下次看到「誤差範圍 ±3%」,你已經知道背後的邏輯了。