案例数据
300 条线下门店客户成交记录,记录顾客接受 5 种不同营销话术后的"单次成交金额(元)",用于演示单因素 ANOVA 显著后如何挑选合适的事后多重比较方法(LSD / Tukey / Bonferroni / Scheffe / Duncan / Dunnett),并对比不同方法在同一数据下的判定差异。
| 文件名 | post-hoc_test.xlsx |
|---|---|
| 数据规模 | 300 行 × 2 列(5 组 × 60 人) |
| 分组变量 | 话术:A / B / C / D / E 五种营销话术(A 为默认对照话术) |
| 结果变量 | 成交金额(元,连续变量) |
| 分析目标 | ANOVA 显著后,比较不同事后方法找出的"显著差异组对",理解保守 vs 自由方法的取舍。 |
完整案例
1. 背景
单因素方差分析(One-way ANOVA)只能回答"总体上 k 个组的均值是否完全相等",一旦总体 F 检验显著,研究者通常还要追问"具体是哪几对组之间存在差异"。如果直接对 k 组两两做独立 t 检验,会带来"族系错误率(family-wise error rate, FWER)"膨胀的问题——5 组共 10 对,每对单独取 α=0.05,整体犯一类错的概率可上升到 1−0.9510≈0.40。事后多重比较(post-hoc)的核心就是在控制 FWER 的同时找出真正显著的组对。不同方法在"统计功效"和"控制错误率"之间做不同取舍:LSD 几乎不校正、最敏感但最容易误判;Bonferroni 通用但偏保守;Tukey HSD 是均衡的默认选项;Scheffe 适合任意对比、最严苛;Duncan 折中;Dunnett 专门用于"多组 vs 一个对照组"。本案例用 300 条真实模拟数据,对同一份输入同时跑 LSD / Tukey / Bonferroni 三种方法,直观展示"选不同方法 → 得不同结论"。
2. 理论与公式
m 为检验次数;m=10 时 FWER≈0.40,远超 0.05。
用 ANOVA 池化的 MSE 做配对 t 检验,不做校正,最敏感。
基于学生化极差分布 q,等样本量下严格控制 FWER。
将原始 p 乘以比较次数 m,最通用但偏保守。
对任何线性对比都成立,是最保守的方法。
专为"多组 vs 一个对照组"设计,只做 k−1 次比较。
3. 数据结构
典型的"一列分组 + 一列因变量"长表结构。本案例 300 行 × 2 列:
| 话术(分组变量) | 成交金额(结果变量,元) |
|---|---|
| A | 212.97 |
| A | 340.86 |
| B | 194.71 |
| C | 415.13 |
| D | 351.99 |
| E | 401.32 |
分组列必须是分类变量(≥3 个水平),结果列必须是连续数值;建议每组样本量 n≥20,本案例每组 60。
4. 操作步骤
- 上传案例数据:工作台 → 上传
post-hoc_test.xlsx。 - 方差齐性预检:先跑一次 Levene 检验,若 p≥0.05 可放心用 LSD / Tukey / Bonferroni / Scheffe / Duncan;若 p<0.05 应改用 Games-Howell 或 Welch's ANOVA。
- 选择"单因素方差分析":定类自变量放"话术",定量因变量放"成交金额"。
- 勾选事后多重比较方法:对话框中按需勾选 LSD、Tukey、Bonferroni、Scheffe、Duncan、Dunnett("vs 对照组"时还需指定对照水平,本例选 A)。建议至少同时勾选 LSD 和 Tukey 作为参照。
- 运行并读取两类输出:"两两比较表"列出每对组的均值差、p 值、95% CI;"同质子集表"用字母标记,同字母组在该方法下视为同质。
- 撰写报告:正式发表通常以 Tukey HSD(或 Bonferroni)为主,LSD 作为辅助;如果是"治疗 vs 安慰剂"等多组对一组的场景,应直接报告 Dunnett。
5. 结果表格与结果阅读
| 话术 | n | 均值 | 标准差 | 最小值 | 最大值 |
|---|---|---|---|---|---|
| A(对照) | 60 | 274.371 | 51.206 | 165.28 | 370.83 |
| B | 60 | 290.523 | 46.197 | 194.71 | 418.44 |
| C | 60 | 328.145 | 42.980 | 198.60 | 415.13 |
| D | 60 | 335.660 | 42.725 | 247.76 | 441.77 |
| E | 60 | 389.925 | 39.831 | 302.67 | 478.47 |
| 方差分析:F(4, 295) = 60.526,p < 0.001;Levene p = 0.147(方差齐) | |||||
5 组均值阶梯式上升(A<B<C≈D<E),F 检验高度显著,下一步用事后多重比较定位"具体哪几对差异显著"。
| 组对 | 均值差 | LSD p | Tukey p | Bonferroni p | LSD | Tukey | Bonf |
|---|---|---|---|---|---|---|---|
| A vs B | 16.153 | 0.049 | 0.280 | 0.490 | 显著 * | 不显著 | 不显著 |
| A vs C | 53.774 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| A vs D | 61.289 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| A vs E | 115.554 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| B vs C | 37.621 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| B vs D | 45.137 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| B vs E | 99.401 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| C vs D | 7.515 | 0.359 | 0.889 | 1.000 | 不显著 | 不显著 | 不显著 |
| C vs E | 61.780 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| D vs E | 54.265 | <0.001 | <0.001 | <0.001 | 显著 * | 显著 * | 显著 * |
| 显著对总数:LSD 9/10,Tukey 8/10,Bonferroni 8/10。分歧仅出现在 A vs B(均值差 16.15 元、效应较弱)。Dunnett(vs A):B p=0.153 / C p<0.001 / D p<0.001 / E p<0.001。 | |||||||
同一数据 → LSD 多识别 1 对(A-B),代价是 FWER 不被严格控制;Tukey 与 Bonferroni 在 5 组场景下结论一致,但 Bonferroni 的 p 值更高、更保守。
| 方法 | FWER 控制 | 统计功效 | 适用场景 | 注意事项 |
|---|---|---|---|---|
| LSD(最小显著差) | 弱(不校正) | 最高 | 探索性分析、组数少(k=3)、对功效要求高 | 容易高估显著性,不建议作为唯一报告依据 |
| Tukey HSD | 严格 | 中等偏高 | 等样本量、方差齐、做所有两两比较的默认首选 | 样本量不等时改用 Tukey-Kramer |
| Bonferroni | 严格 | 偏低 | 比较次数少(≤6 对)、需要通用 p 校正 | 比较次数多时过于保守,损失功效 |
| Scheffe | 最严格 | 最低 | 需要做任意线性对比(不止两两) | 仅两两比较时偏保守,不必首选 |
| Duncan(新复极差) | 较弱 | 较高 | 农业/工业试验传统场景 | 逐步检验思路,FWER 控制不如 Tukey 严 |
| Dunnett | 严格 | 偏高(少做比较) | 多个处理组 vs 一个对照组 | 必须事先指定对照水平,只做 k-1 次比较 |
方差不齐(Levene p<0.05)时改用 Games-Howell;样本量极小时建议改用置换检验或事后 Welch。
重点查看顺序:① ANOVA 主效应是否显著(不显著则不做 post-hoc);② Levene 方差齐性;③ 选定方法的成对比较表(均值差、p 值、95% CI);④ 同质子集表(用字母标记快速看分组)。
7. 文字分析
- 总体差异显著:F(4, 295) = 60.526, p < 0.001,5 种话术的"单次成交金额"存在总体差异,可继续做事后多重比较;Levene p = 0.147,方差齐性满足,无需切换到 Games-Howell。
- LSD 最敏感:找出 9 / 10 对显著组对,唯一未达显著的是 C vs D(均值差 7.52 元,p = 0.359);这与"A≈B,C≈D,E 最高"的设计预期一致。
- Tukey 与 Bonferroni 更保守:各自找出 8 / 10 对显著,与 LSD 的分歧只在 A vs B —— LSD p = 0.049(贴边显著),Tukey p = 0.280、Bonferroni p = 0.490(不显著)。这正是"族系错误率校正"的典型代价:均值差小、效应弱的组对被校正后被压回到不显著。
- 对照组场景用 Dunnett 更省力:以 A 为对照组时,B 相对 A 不显著(p = 0.153),C / D / E 均显著优于 A(p < 0.001);Dunnett 只做 4 次比较(而非 10 次),统计功效高于 Bonferroni、又能严控 FWER,"多组 vs 一个对照"的实验报告应直接选它。
- 报告与决策建议:本案例正式报告应以 Tukey HSD 为主(5 组×10 对、等样本量、方差齐,是教科书级标准场景),结论是"E > D ≈ C > B ≈ A"——业务上推荐重点推广 E 话术,C / D 次之;A vs B 在 LSD 下贴边显著但被 Tukey/Bonferroni 推翻,应视为"差异微弱、不足以支持差异化策略",不能仅凭 LSD 改业务流程。
8. 剖析提醒
- 先看 ANOVA 主效应再做 post-hoc:如果总体 F 检验不显著,原则上不应继续做事后比较;强行做会显著放大假阳性。
- 方差不齐时改用 Games-Howell:Levene 检验 p < 0.05 说明各组方差差异显著,此时 LSD / Tukey / Bonferroni 都会失真,应改用基于 Welch 校正的 Games-Howell(或在选项中勾选"不假设方差齐")。
- 多组 vs 一个对照用 Dunnett:临床试验、A/B 多版本测试、药效对照实验等场景,待比较的只是"每个处理组 vs 同一个对照"——只做 k−1 次比较,Dunnett 在功效上显著优于 Bonferroni。
- 不要"凑出显著"切换方法:不应先跑 Tukey 不显著再换 LSD 报告,这等同于 p-hacking;事前确定主方法(一般 Tukey 或 Bonferroni),LSD 仅作为敏感性分析参考。
- 样本量极不均衡时谨慎:组间样本量差 5 倍以上,应改用 Tukey-Kramer 或 Scheffe;同时报告效应量(Cohen's d 或 η²)比单看 p 值更有说服力。
- 事先计划好"比较谁":如果一开始就只关心几对特定对比,做"事前对比(planned contrast)"会比事后法功效更高;事后多重比较是为"所有两两都关心"或"提前不知道哪几对差异"的探索场景设计的。