进阶方法

事后多重比较_LSD多重比较

案例数据

300 条线下门店客户成交记录，记录顾客接受 5 种不同营销话术后的"单次成交金额（元）"，用于演示单因素 ANOVA 显著后如何挑选合适的事后多重比较方法（LSD / Tukey / Bonferroni / Scheffe / Duncan / Dunnett），并对比不同方法在同一数据下的判定差异。

下载案例数据查看数据文件

文件名	post-hoc_test.xlsx
数据规模	300 行 × 2 列（5 组 × 60 人）
分组变量	话术：A / B / C / D / E 五种营销话术（A 为默认对照话术）
结果变量	成交金额（元，连续变量）
分析目标	ANOVA 显著后，比较不同事后方法找出的"显著差异组对"，理解保守 vs 自由方法的取舍。

完整案例

1. 背景

单因素方差分析（One-way ANOVA）只能回答"总体上 k 个组的均值是否完全相等"，一旦总体 F 检验显著，研究者通常还要追问"具体是哪几对组之间存在差异"。如果直接对 k 组两两做独立 t 检验，会带来"族系错误率（family-wise error rate, FWER）"膨胀的问题——5 组共 10 对，每对单独取 α=0.05，整体犯一类错的概率可上升到 1−0.95¹⁰≈0.40。事后多重比较（post-hoc）的核心就是在控制 FWER 的同时找出真正显著的组对。不同方法在"统计功效"和"控制错误率"之间做不同取舍：LSD 几乎不校正、最敏感但最容易误判；Bonferroni 通用但偏保守；Tukey HSD 是均衡的默认选项；Scheffe 适合任意对比、最严苛；Duncan 折中；Dunnett 专门用于"多组 vs 一个对照组"。本案例用 300 条真实模拟数据，对同一份输入同时跑 LSD / Tukey / Bonferroni 三种方法，直观展示"选不同方法 → 得不同结论"。

2. 理论与公式

族系错误率

m 为检验次数；m=10 时 FWER≈0.40，远超 0.05。

LSD（最小显著差）

用 ANOVA 池化的 MSE 做配对 t 检验，不做校正，最敏感。

Tukey HSD

基于学生化极差分布 q，等样本量下严格控制 FWER。

Bonferroni

将原始 p 乘以比较次数 m，最通用但偏保守。

Scheffe

对任何线性对比都成立，是最保守的方法。

Dunnett

专为"多组 vs 一个对照组"设计，只做 k−1 次比较。

3. 数据结构

典型的"一列分组 + 一列因变量"长表结构。本案例 300 行 × 2 列：

表 0 数据结构示例（每组取前 1-2 行展示）

话术（分组变量）	成交金额（结果变量，元）
A	212.97
A	340.86
B	194.71
C	415.13
D	351.99
E	401.32

分组列必须是分类变量（≥3 个水平），结果列必须是连续数值；建议每组样本量 n≥20，本案例每组 60。

4. 操作步骤

上传案例数据：工作台 → 上传 post-hoc_test.xlsx。
方差齐性预检：先跑一次 Levene 检验，若 p≥0.05 可放心用 LSD / Tukey / Bonferroni / Scheffe / Duncan；若 p<0.05 应改用 Games-Howell 或 Welch's ANOVA。
选择"单因素方差分析"：定类自变量放"话术"，定量因变量放"成交金额"。
勾选事后多重比较方法：对话框中按需勾选 LSD、Tukey、Bonferroni、Scheffe、Duncan、Dunnett（"vs 对照组"时还需指定对照水平，本例选 A）。建议至少同时勾选 LSD 和 Tukey 作为参照。
运行并读取两类输出："两两比较表"列出每对组的均值差、p 值、95% CI；"同质子集表"用字母标记，同字母组在该方法下视为同质。
撰写报告：正式发表通常以 Tukey HSD（或 Bonferroni）为主，LSD 作为辅助；如果是"治疗 vs 安慰剂"等多组对一组的场景，应直接报告 Dunnett。

5. 结果表格与结果阅读

表 1 描述统计 + 单因素方差分析主效应

话术	n	均值	标准差	最小值	最大值
A（对照）	60	274.371	51.206	165.28	370.83
B	60	290.523	46.197	194.71	418.44
C	60	328.145	42.980	198.60	415.13
D	60	335.660	42.725	247.76	441.77
E	60	389.925	39.831	302.67	478.47
方差分析：F(4, 295) = 60.526，p < 0.001；Levene p = 0.147（方差齐）

5 组均值阶梯式上升（A<B<C≈D<E），F 检验高度显著，下一步用事后多重比较定位"具体哪几对差异显著"。

表 2 同一数据下三种事后方法的成对比较对比（共 10 对，均值差 = 后者 − 前者）

组对	均值差	LSD p	Tukey p	Bonferroni p	LSD	Tukey	Bonf
A vs B	16.153	0.049	0.280	0.490	显著 *	不显著	不显著
A vs C	53.774	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
A vs D	61.289	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
A vs E	115.554	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
B vs C	37.621	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
B vs D	45.137	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
B vs E	99.401	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
C vs D	7.515	0.359	0.889	1.000	不显著	不显著	不显著
C vs E	61.780	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
D vs E	54.265	<0.001	<0.001	<0.001	显著 *	显著 *	显著 *
显著对总数：LSD 9/10，Tukey 8/10，Bonferroni 8/10。分歧仅出现在 A vs B（均值差 16.15 元、效应较弱）。Dunnett（vs A）：B p=0.153 / C p<0.001 / D p<0.001 / E p<0.001。

同一数据 → LSD 多识别 1 对（A-B），代价是 FWER 不被严格控制；Tukey 与 Bonferroni 在 5 组场景下结论一致，但 Bonferroni 的 p 值更高、更保守。

表 3 六种事后多重比较方法选择建议

方法	FWER 控制	统计功效	适用场景	注意事项
LSD（最小显著差）	弱（不校正）	最高	探索性分析、组数少（k=3）、对功效要求高	容易高估显著性，不建议作为唯一报告依据
Tukey HSD	严格	中等偏高	等样本量、方差齐、做所有两两比较的默认首选	样本量不等时改用 Tukey-Kramer
Bonferroni	严格	偏低	比较次数少（≤6 对）、需要通用 p 校正	比较次数多时过于保守，损失功效
Scheffe	最严格	最低	需要做任意线性对比（不止两两）	仅两两比较时偏保守，不必首选
Duncan（新复极差）	较弱	较高	农业/工业试验传统场景	逐步检验思路，FWER 控制不如 Tukey 严
Dunnett	严格	偏高（少做比较）	多个处理组 vs 一个对照组	必须事先指定对照水平，只做 k-1 次比较

方差不齐（Levene p<0.05）时改用 Games-Howell；样本量极小时建议改用置换检验或事后 Welch。

重点查看顺序：① ANOVA 主效应是否显著（不显著则不做 post-hoc）；② Levene 方差齐性；③ 选定方法的成对比较表（均值差、p 值、95% CI）；④ 同质子集表（用字母标记快速看分组）。

7. 文字分析

总体差异显著：F(4, 295) = 60.526, p < 0.001，5 种话术的"单次成交金额"存在总体差异，可继续做事后多重比较；Levene p = 0.147，方差齐性满足，无需切换到 Games-Howell。
LSD 最敏感：找出 9 / 10 对显著组对，唯一未达显著的是 C vs D（均值差 7.52 元，p = 0.359）；这与"A≈B，C≈D，E 最高"的设计预期一致。
Tukey 与 Bonferroni 更保守：各自找出 8 / 10 对显著，与 LSD 的分歧只在 A vs B —— LSD p = 0.049（贴边显著），Tukey p = 0.280、Bonferroni p = 0.490（不显著）。这正是"族系错误率校正"的典型代价：均值差小、效应弱的组对被校正后被压回到不显著。
对照组场景用 Dunnett 更省力：以 A 为对照组时，B 相对 A 不显著（p = 0.153），C / D / E 均显著优于 A（p < 0.001）；Dunnett 只做 4 次比较（而非 10 次），统计功效高于 Bonferroni、又能严控 FWER，"多组 vs 一个对照"的实验报告应直接选它。
报告与决策建议：本案例正式报告应以 Tukey HSD 为主（5 组×10 对、等样本量、方差齐，是教科书级标准场景），结论是"E > D ≈ C > B ≈ A"——业务上推荐重点推广 E 话术，C / D 次之；A vs B 在 LSD 下贴边显著但被 Tukey/Bonferroni 推翻，应视为"差异微弱、不足以支持差异化策略"，不能仅凭 LSD 改业务流程。

8. 剖析提醒

先看 ANOVA 主效应再做 post-hoc：如果总体 F 检验不显著，原则上不应继续做事后比较；强行做会显著放大假阳性。
方差不齐时改用 Games-Howell：Levene 检验 p < 0.05 说明各组方差差异显著，此时 LSD / Tukey / Bonferroni 都会失真，应改用基于 Welch 校正的 Games-Howell（或在选项中勾选"不假设方差齐"）。
多组 vs 一个对照用 Dunnett：临床试验、A/B 多版本测试、药效对照实验等场景，待比较的只是"每个处理组 vs 同一个对照"——只做 k−1 次比较，Dunnett 在功效上显著优于 Bonferroni。
不要"凑出显著"切换方法：不应先跑 Tukey 不显著再换 LSD 报告，这等同于 p-hacking；事前确定主方法（一般 Tukey 或 Bonferroni），LSD 仅作为敏感性分析参考。
样本量极不均衡时谨慎：组间样本量差 5 倍以上，应改用 Tukey-Kramer 或 Scheffe；同时报告效应量（Cohen's d 或 η²）比单看 p 值更有说服力。
事先计划好"比较谁"：如果一开始就只关心几对特定对比，做"事前对比（planned contrast）"会比事后法功效更高；事后多重比较是为"所有两两都关心"或"提前不知道哪几对差异"的探索场景设计的。