进阶方法

事后多重比较_LSD多重比较

案例数据

300 条线下门店客户成交记录,记录顾客接受 5 种不同营销话术后的"单次成交金额(元)",用于演示单因素 ANOVA 显著后如何挑选合适的事后多重比较方法(LSD / Tukey / Bonferroni / Scheffe / Duncan / Dunnett),并对比不同方法在同一数据下的判定差异。

文件名post-hoc_test.xlsx
数据规模300 行 × 2 列(5 组 × 60 人)
分组变量话术:A / B / C / D / E 五种营销话术(A 为默认对照话术)
结果变量成交金额(元,连续变量)
分析目标ANOVA 显著后,比较不同事后方法找出的"显著差异组对",理解保守 vs 自由方法的取舍。

完整案例

1. 背景

单因素方差分析(One-way ANOVA)只能回答"总体上 k 个组的均值是否完全相等",一旦总体 F 检验显著,研究者通常还要追问"具体是哪几对组之间存在差异"。如果直接对 k 组两两做独立 t 检验,会带来"族系错误率(family-wise error rate, FWER)"膨胀的问题——5 组共 10 对,每对单独取 α=0.05,整体犯一类错的概率可上升到 1−0.9510≈0.40。事后多重比较(post-hoc)的核心就是在控制 FWER 的同时找出真正显著的组对。不同方法在"统计功效"和"控制错误率"之间做不同取舍:LSD 几乎不校正、最敏感但最容易误判;Bonferroni 通用但偏保守;Tukey HSD 是均衡的默认选项;Scheffe 适合任意对比、最严苛;Duncan 折中;Dunnett 专门用于"多组 vs 一个对照组"。本案例用 300 条真实模拟数据,对同一份输入同时跑 LSD / Tukey / Bonferroni 三种方法,直观展示"选不同方法 → 得不同结论"。

2. 理论与公式

族系错误率

m 为检验次数;m=10 时 FWER≈0.40,远超 0.05。

LSD(最小显著差)

用 ANOVA 池化的 MSE 做配对 t 检验,不做校正,最敏感。

Tukey HSD

基于学生化极差分布 q,等样本量下严格控制 FWER。

Bonferroni

将原始 p 乘以比较次数 m,最通用但偏保守。

Scheffe

对任何线性对比都成立,是最保守的方法。

Dunnett

专为"多组 vs 一个对照组"设计,只做 k−1 次比较。

3. 数据结构

典型的"一列分组 + 一列因变量"长表结构。本案例 300 行 × 2 列:

表 0 数据结构示例(每组取前 1-2 行展示)
话术(分组变量)成交金额(结果变量,元)
A212.97
A340.86
B194.71
C415.13
D351.99
E401.32

分组列必须是分类变量(≥3 个水平),结果列必须是连续数值;建议每组样本量 n≥20,本案例每组 60。

4. 操作步骤

  1. 上传案例数据:工作台 → 上传 post-hoc_test.xlsx
  2. 方差齐性预检:先跑一次 Levene 检验,若 p≥0.05 可放心用 LSD / Tukey / Bonferroni / Scheffe / Duncan;若 p<0.05 应改用 Games-Howell 或 Welch's ANOVA。
  3. 选择"单因素方差分析":定类自变量放"话术",定量因变量放"成交金额"。
  4. 勾选事后多重比较方法:对话框中按需勾选 LSD、Tukey、Bonferroni、Scheffe、Duncan、Dunnett("vs 对照组"时还需指定对照水平,本例选 A)。建议至少同时勾选 LSD 和 Tukey 作为参照。
  5. 运行并读取两类输出:"两两比较表"列出每对组的均值差、p 值、95% CI;"同质子集表"用字母标记,同字母组在该方法下视为同质。
  6. 撰写报告:正式发表通常以 Tukey HSD(或 Bonferroni)为主,LSD 作为辅助;如果是"治疗 vs 安慰剂"等多组对一组的场景,应直接报告 Dunnett。

5. 结果表格与结果阅读

表 1 描述统计 + 单因素方差分析主效应
话术n均值标准差最小值最大值
A(对照)60274.37151.206165.28370.83
B60290.52346.197194.71418.44
C60328.14542.980198.60415.13
D60335.66042.725247.76441.77
E60389.92539.831302.67478.47
方差分析:F(4, 295) = 60.526,p < 0.001;Levene p = 0.147(方差齐)

5 组均值阶梯式上升(A<B<C≈D<E),F 检验高度显著,下一步用事后多重比较定位"具体哪几对差异显著"。

表 2 同一数据下三种事后方法的成对比较对比(共 10 对,均值差 = 后者 − 前者)
组对均值差LSD pTukey pBonferroni pLSDTukeyBonf
A vs B16.1530.0490.2800.490显著 *不显著不显著
A vs C53.774<0.001<0.001<0.001显著 *显著 *显著 *
A vs D61.289<0.001<0.001<0.001显著 *显著 *显著 *
A vs E115.554<0.001<0.001<0.001显著 *显著 *显著 *
B vs C37.621<0.001<0.001<0.001显著 *显著 *显著 *
B vs D45.137<0.001<0.001<0.001显著 *显著 *显著 *
B vs E99.401<0.001<0.001<0.001显著 *显著 *显著 *
C vs D7.5150.3590.8891.000不显著不显著不显著
C vs E61.780<0.001<0.001<0.001显著 *显著 *显著 *
D vs E54.265<0.001<0.001<0.001显著 *显著 *显著 *
显著对总数:LSD 9/10,Tukey 8/10,Bonferroni 8/10。分歧仅出现在 A vs B(均值差 16.15 元、效应较弱)。Dunnett(vs A):B p=0.153 / C p<0.001 / D p<0.001 / E p<0.001。

同一数据 → LSD 多识别 1 对(A-B),代价是 FWER 不被严格控制;Tukey 与 Bonferroni 在 5 组场景下结论一致,但 Bonferroni 的 p 值更高、更保守。

表 3 六种事后多重比较方法选择建议
方法FWER 控制统计功效适用场景注意事项
LSD(最小显著差)弱(不校正)最高探索性分析、组数少(k=3)、对功效要求高容易高估显著性,不建议作为唯一报告依据
Tukey HSD严格中等偏高等样本量、方差齐、做所有两两比较的默认首选样本量不等时改用 Tukey-Kramer
Bonferroni严格偏低比较次数少(≤6 对)、需要通用 p 校正比较次数多时过于保守,损失功效
Scheffe最严格最低需要做任意线性对比(不止两两)仅两两比较时偏保守,不必首选
Duncan(新复极差)较弱较高农业/工业试验传统场景逐步检验思路,FWER 控制不如 Tukey 严
Dunnett严格偏高(少做比较)多个处理组 vs 一个对照组必须事先指定对照水平,只做 k-1 次比较

方差不齐(Levene p<0.05)时改用 Games-Howell;样本量极小时建议改用置换检验或事后 Welch。

重点查看顺序:① ANOVA 主效应是否显著(不显著则不做 post-hoc);② Levene 方差齐性;③ 选定方法的成对比较表(均值差、p 值、95% CI);④ 同质子集表(用字母标记快速看分组)。

7. 文字分析

  • 总体差异显著:F(4, 295) = 60.526, p < 0.001,5 种话术的"单次成交金额"存在总体差异,可继续做事后多重比较;Levene p = 0.147,方差齐性满足,无需切换到 Games-Howell。
  • LSD 最敏感:找出 9 / 10 对显著组对,唯一未达显著的是 C vs D(均值差 7.52 元,p = 0.359);这与"A≈B,C≈D,E 最高"的设计预期一致。
  • Tukey 与 Bonferroni 更保守:各自找出 8 / 10 对显著,与 LSD 的分歧只在 A vs B —— LSD p = 0.049(贴边显著),Tukey p = 0.280、Bonferroni p = 0.490(不显著)。这正是"族系错误率校正"的典型代价:均值差小、效应弱的组对被校正后被压回到不显著。
  • 对照组场景用 Dunnett 更省力:以 A 为对照组时,B 相对 A 不显著(p = 0.153),C / D / E 均显著优于 A(p < 0.001);Dunnett 只做 4 次比较(而非 10 次),统计功效高于 Bonferroni、又能严控 FWER,"多组 vs 一个对照"的实验报告应直接选它。
  • 报告与决策建议:本案例正式报告应以 Tukey HSD 为主(5 组×10 对、等样本量、方差齐,是教科书级标准场景),结论是"E > D ≈ C > B ≈ A"——业务上推荐重点推广 E 话术,C / D 次之;A vs B 在 LSD 下贴边显著但被 Tukey/Bonferroni 推翻,应视为"差异微弱、不足以支持差异化策略",不能仅凭 LSD 改业务流程。

8. 剖析提醒

  • 先看 ANOVA 主效应再做 post-hoc:如果总体 F 检验不显著,原则上不应继续做事后比较;强行做会显著放大假阳性。
  • 方差不齐时改用 Games-Howell:Levene 检验 p < 0.05 说明各组方差差异显著,此时 LSD / Tukey / Bonferroni 都会失真,应改用基于 Welch 校正的 Games-Howell(或在选项中勾选"不假设方差齐")。
  • 多组 vs 一个对照用 Dunnett:临床试验、A/B 多版本测试、药效对照实验等场景,待比较的只是"每个处理组 vs 同一个对照"——只做 k−1 次比较,Dunnett 在功效上显著优于 Bonferroni。
  • 不要"凑出显著"切换方法:不应先跑 Tukey 不显著再换 LSD 报告,这等同于 p-hacking;事前确定主方法(一般 Tukey 或 Bonferroni),LSD 仅作为敏感性分析参考。
  • 样本量极不均衡时谨慎:组间样本量差 5 倍以上,应改用 Tukey-Kramer 或 Scheffe;同时报告效应量(Cohen's d 或 η²)比单看 p 值更有说服力。
  • 事先计划好"比较谁":如果一开始就只关心几对特定对比,做"事前对比(planned contrast)"会比事后法功效更高;事后多重比较是为"所有两两都关心"或"提前不知道哪几对差异"的探索场景设计的。