抽样调查完整指南:样本数怎么决定?民调、A/B 测试与置信区间入门

「民调显示候选人支持率 48%,误差范围 ±3%」——你知道这个「误差范围」是怎么算出来的吗?为什么只问 1000 人,就能代表数以亿计的人的意见?抽样统计解答了一个核心问题:我们不需要调查每个人,也能对全体做出可靠的推断——只要方法正确。

一、为什么需要抽样?

理想上,若能调查「所有人」(全普查),结果最准确。但实际上全普查往往不可行:

  • 成本太高:访问每个消费者的意见费时费力
  • 时间来不及:等到调查完,问题早已改变
  • 破坏性测试:测试灯泡寿命不能把每颗都点到坏
  • 目标母体无限:未来的用户无法事先调查

抽样统计的核心洞见:只要样本是随机且有代表性的,即使只取母体的一小部分,也能以量化的精确度推断母体特性。

二、关键概念:母体与样本

概念定义符号范例
母体(Population)研究对象的全集合N全体 18 岁以上选民
样本(Sample)从母体中抽取的子集合n随机抽取的 1,068 名选民
母体参数母体的真实特性(通常未知)μ, p全体选民的真实支持率
样本统计量用样本估计的数值x̄, p̂样本中的支持率 48%

统计推断的任务,就是从「样本统计量」推估「母体参数」,并量化这个估计的不确定性。

三、置信区间:不确定性的量化表达

「48% ±3%」的完整说法是:95% 置信区间为 45%~51%。它的意思是:

若用相同方法重复抽样 100 次,约有 95 次所得的置信区间会包含母体真实值。

置信区间公式(比例)

置信区间 = p̂ ± Z × √(p̂(1−p̂)/n)

  • :样本比例(如 0.48)
  • Z:对应置信水平的 Z 分数(95% → 1.96,99% → 2.576)
  • n:样本数
计算看看:将你的数据输入统计计算器,可以快速计算样本的均值、标准差,再配合上方公式计算置信区间,验证你对数据的直觉判断。

四、样本数怎么决定?

样本数公式:n = Z² × p(1−p) / E²

误差范围所需样本数(95% 置信水平,p=0.5)
±10%96 人
±5%384 人
±3%1,067 人
±2%2,401 人
±1%9,604 人

重要发现:误差缩小一半,样本数要增加 4 倍。另一个反直觉的结论:母体大小几乎不影响所需样本数——1,000 人的样本既能代表中国大陆人口,也能代表台湾人口,所需样本数相差无几。

五、A/B 测试:数字时代的实验设计

假设检验流程

  1. 零假设 H₀:两组没有差异(改版无效)
  2. 备择假设 H₁:B 组比 A 组更好
  3. 随机将用户分配到 A 或 B 组,收集数据
  4. 计算 p 值:若 H₀ 为真,观察到这么大差异的概率
  5. 若 p < 0.05,拒绝 H₀,认为差异有统计显著性

p 值的正确解读

p 值是最常被误解的统计概念:p 值是「假设 H₀ 正确时,观察到现有数据的概率」——不是「H₀ 为真的概率」。

统计显著 ≠ 实际重要:样本数够大时,即使微小差异也会达到统计显著性。除了 p 值,还要评估效应大小(Effect Size)。

视觉化比较:将 A/B 两组的数据分布输入图表生成器,用柱状图或折线图呈现两组数据的差异,帮助直观判断效应大小。

六、常见的抽样偏差

  • 选择偏差:样本不能代表母体(如只调查网络用户)
  • 幸存者偏差:只看到「幸存下来」的案例,忽略已消失的案例
  • 回应偏差:受访者倾向给出「社会期望」的答案
  • 多重比较问题:同时做 20 个假设检验,期望有 1 个纯偶然达到 p < 0.05

七、如何判读媒体中的统计数字?

  1. 样本数是多少? n=30 与 n=1,000 的可信度差很多
  2. 置信区间是多少? 只报点估计而不报误差范围,信息不完整
  3. 样本如何取得? 随机抽样才有代表性;网络投票通常不具代表性
  4. 是否有显著差异? 误差范围 ±3% 时,48% vs. 46% 在统计上没有差异
计算成长率与占比:阅读报告时需要计算百分比变化时,百分比计算器能帮你快速验算数字。

总结

  • 抽样的核心:随机与代表性是可靠推断的基础
  • 置信区间:量化估计的不确定性,不是「真值有 95% 概率落在此区间」
  • 样本数:误差缩小一半需要 4 倍样本;母体大小几乎不影响所需样本数
  • A/B 测试:随机分组 + 假设检验,统计显著不代表实际重要
  • p 值:假设 H₀ 成立时观察到现有数据的概率,常被误解

统计推断的终极目标,不是计算一个精确的数字,而是在不确定性中做出有依据的判断。