抽樣調查完整指南：樣本數怎麼決定？民調、A/B 測試與信賴區間入門

「民調顯示候選人支持率 48%，誤差範圍 ±3%」——你知道這個「誤差範圍」是怎麼算出來的嗎？為什麼只問 1000 人，就能代表 2300 萬人的意見？抽樣統計解答了一個核心問題：我們不需要調查每個人，也能對全體做出可靠的推論——只要方法正確。

一、為什麼需要抽樣？

理想上，若能調查「所有人」（全普查），結果最準確。但實際上全普查往往不可行：

成本太高：訪問每個消費者的意見費時費力
時間來不及：等到調查完，問題早已改變
破壞性測試：測試燈泡壽命不能把每顆都點到壞
目標母體無限：未來的使用者無法事先調查

抽樣統計的核心洞見：只要樣本是隨機且有代表性的，即使只取母體的一小部分，也能以量化的精確度推論母體特性。

二、關鍵概念：母體與樣本

概念	定義	符號	範例
母體（Population）	研究對象的全集合	N	全台灣 18 歲以上選民
樣本（Sample）	從母體中抽取的子集合	n	隨機抽取的 1,068 名選民
母體參數	母體的真實特性（通常未知）	μ, p	全體選民的真實支持率
樣本統計量	用樣本估計的數值	x̄, p̂	樣本中的支持率 48%

統計推論的任務，就是從「樣本統計量」推估「母體參數」，並量化這個估計的不確定性。

三、信賴區間：不確定性的量化表達

「48% ±3%」的完整說法是：95% 信賴區間為 45%～51%。它的意思是：

若用相同方法重複抽樣 100 次，約有 95 次所得的信賴區間會包含母體真實值。

注意這不是說「母體真實值有 95% 機率落在這個區間」——母體真實值是固定的，不是隨機變數。

信賴區間公式（比例）

對於比例型問題（如支持率）：

信賴區間 = p̂ ± Z × √(p̂(1−p̂)/n)

p̂：樣本比例（如 0.48）
Z：對應信賴水準的 Z 分數（95% → 1.96，99% → 2.576）
n：樣本數

範例：n=1,068，p̂=0.48，95% 信賴區間：

誤差 = 1.96 × √(0.48 × 0.52 / 1068) ≈ 1.96 × 0.0153 ≈ ±3%

計算看看：將你的數據輸入統計計算器，可以快速計算樣本的平均數、標準差，再配合上方公式計算信賴區間，驗證你對數據的直覺判斷。

四、樣本數怎麼決定？

這是最常被問到的問題。決定樣本數需要設定三個條件：

信賴水準（Confidence Level）：通常選 95%（Z=1.96）
可接受的誤差範圍（Margin of Error, E）：如 ±3%
預估的母體比例（p）：若不知道，保守估計用 0.5（此時樣本數最大）

樣本數公式：n = Z² × p(1−p) / E²

誤差範圍	所需樣本數（95% 信賴水準，p=0.5）
±10%	96 人
±5%	384 人
±3%	1,067 人
±2%	2,401 人
±1%	9,604 人

重要發現：誤差縮小一半，樣本數要增加 4 倍。這就是為什麼從 ±5% 進步到 ±2.5% 成本會大幅提升，而媒體民調多選擇 ±3% 作為平衡點。

另一個反直覺的結論：母體大小幾乎不影響所需樣本數（只要母體遠大於樣本）。這正是為什麼 1,000 人的樣本既能代表台灣選民，也能代表美國選民——它們所需樣本數相差無幾。

五、A/B 測試：數位時代的實驗設計

A/B 測試是科技公司最常用的統計工具，本質上是一個「假設檢定」：

控制組 A：舊版設計（如舊版按鈕顏色）
實驗組 B：新版設計（如新版按鈕顏色）
評估指標：點擊率、轉換率、留存率等

假設檢定流程

虛無假設 H₀：兩組沒有差異（改版無效）
對立假設 H₁：B 組比 A 組更好
隨機將用戶分配到 A 或 B 組，收集數據
計算 p 值：若 H₀ 為真，觀察到「這麼大或更大差異」的機率
若 p < 0.05（顯著水準），拒絕 H₀，認為差異有統計顯著性

p 值的正確解讀

p 值是最常被誤解的統計概念之一：

p 值不是「H₀ 為真的機率」
p 值不是「結果是偶然的機率」
p 值是：假設 H₀ 正確，觀察到現有數據（或更極端數據）的機率

p < 0.05 表示：若兩組真的沒差，得到這麼大差異的機率低於 5%——這讓我們有理由懷疑「兩組沒差」這個假設。

統計顯著 ≠ 實際重要

樣本數夠大時，即使微小差異也會達到統計顯著性。按鈕轉換率從 5.00% 提升到 5.01%，在百萬用戶規模下可能達到 p < 0.001，但這 0.01% 的提升在業務上意義不大。因此，除了 p 值，還要評估效應大小（Effect Size）。

視覺化比較：將 A/B 兩組的數據分布輸入圖表產生器，用長條圖或折線圖呈現兩組數據的差異，幫助直觀判斷效應大小，而不只依賴 p 值的數字。

六、常見的抽樣偏差與陷阱

選擇偏差（Selection Bias）

樣本不能代表母體的情況。例：只調查網路用戶的意見，無法代表全體國民（數位落差）。電話民調無法接觸沒有電話的族群。

倖存者偏差（Survivorship Bias）

只看到「倖存下來」的樣本，忽略了已消失的案例。例：研究成功企業的共同特質，卻忘了失敗企業可能也有相同特質。

回應偏差（Response Bias）

受訪者傾向給出「社會期望」的答案，而非真實想法。例：詢問飲酒習慣時，人們常低報飲酒量。

多重比較問題（Multiple Comparisons Problem）

同時做 20 個假設檢定，即使所有 H₀ 都成立，期望也有 1 個測試的 p < 0.05（純粹出於偶然）。這是許多「假陽性發現」的根源——需要用 Bonferroni 修正或控制偽發現率（FDR）來應對。

七、如何判讀媒體中的統計數字？

看到統計數字時，養成習慣問這幾個問題：

樣本數是多少？ n=30 與 n=1,000 的可信度差很多
信賴區間是多少？ 只報點估計（48%）而不報誤差範圍，資訊不完整
樣本如何取得？ 隨機抽樣才有代表性；便利樣本（如網路投票）通常不具代表性
問題怎麼問的？ 問題措辭會顯著影響受訪者回答
是否有顯著差異？ 48% vs. 46%，誤差範圍 ±3% 的情況下，兩者在統計上沒有差異

計算成長率與占比：閱讀報告時需要計算百分比變化、佔比或差異時，百分比計算機能幫你快速驗算數字，避免被誤導性的統計圖表欺騙。

總結

抽樣的核心：用少量隨機樣本推論母體，關鍵是「隨機」與「代表性」
信賴區間：量化估計的不確定性，95% CI 的含義是「重複抽樣 100 次，約 95 次區間含真值」
樣本數：誤差縮小一半需要 4 倍樣本；母體大小幾乎不影響所需樣本數
A/B 測試：隨機分組 + 假設檢定，p < 0.05 表示統計顯著，但不代表實際重要
p 值：假設 H₀ 成立時，觀察到現有數據的機率——不是「H₀ 為真的機率」
偏差警覺：選擇偏差、倖存者偏差、回應偏差都可能讓數據失去代表性

統計推論的終極目標，不是計算一個精確的數字，而是在不確定性中做出有依據的判斷。當你下次看到「誤差範圍 ±3%」，你已經知道背後的邏輯了。