案例数据
300 名中学生 × 5 列连续变量。围绕"学习时长是否真的影响数学成绩"这个问题,构造了家庭月收入、课外辅导支出两个典型混杂变量,用于演示在控制第三变量后,原始相关系数会如何被"挤干水分"乃至消失。
| 文件名 | par_correlation.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 5 列(3 核心变量 + 2 混杂变量) |
| 数据用途 | 教育研究:在控制家庭社会经济地位(家庭月收入、课外辅导支出)后,"自主学习时长"和"睡眠时长"是否还能独立解释数学成绩。 |
| 变量说明 | 学习时长(小时/天,连续)、睡眠时长(小时/天,连续)、数学成绩(0-150,连续)、家庭月收入(千元,连续)、课外辅导支出(元/月,连续)。 |
完整案例
1. 背景
一所重点中学想知道"每天多学一小时,成绩就一定会提高吗?"。最常见的做法是直接算 Pearson 相关:学习时长越长,数学成绩越高,r=0.71,p<0.001,看似"非常显著"。但教育研究中,"家庭社会经济地位"是出了名的混杂变量 —— 高收入家庭的孩子既更愿意/有能力延长学习时间,也能购买更多课外辅导,更可能拿到高分。也就是说,学习时长↔数学成绩的高相关,可能不是因果,而是被家庭收入和课外辅导"共同推高"的伪相关。偏相关分析(Partial Correlation)通过先回归剔除控制变量的影响,再对残差求相关,等价于"在收入和课外辅导都相同的孩子中再看一次",把混杂的部分清洗掉。本案例用 300 名学生展示:当我们把家庭月收入和课外辅导支出作为控制变量后,原本"高度显著"的学习时长↔数学成绩相关会发生怎样的反转。
2. 理论与公式
偏相关本质是"去除控制变量影响后的两残差之相关"。当控制变量只有一个时,可直接代入公式;当控制变量为多个时,通常通过 OLS 残差法计算。
控制 Z 后 X 与 Y 的相关。
先把 X、Y 各自对控制变量集 Z 做 OLS 回归,再对两个残差求 Pearson 相关。
n=样本量,k=控制变量个数;t 统计量服从 df=n−2−k 的 t 分布。
3. 数据结构
每行 1 名学生,5 列均为连续变量,按角色分为"核心变量"与"控制变量":
| 角色 | 变量名 | 类型 | 说明 |
|---|---|---|---|
| 核心变量 | 学习时长 | 连续 0.5-8 h/天 | 学生自主报告的每日有效学习时间 |
| 睡眠时长 | 连续 5-11 h/天 | 每日实际睡眠时间 | |
| 数学成绩 | 连续 30-150 | 期末数学卷面分(满分 150) | |
| 控制变量 | 家庭月收入 | 连续 3-30 千元 | 家庭税后月收入 |
| 课外辅导支出 | 连续 100-3000 元/月 | 每月校外补课/网课的总投入 |
所有变量均为连续数值。偏相关要求变量近似正态分布、关系近似线性;如果存在严重偏态或非线性,应改用 Spearman 偏相关(基于秩转换后求残差相关)。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
par_correlation.xlsx - 左侧方法栏 → 进阶方法 → 点击 偏相关分析
- 把 学习时长、睡眠时长、数学成绩 拖入 分析变量 框(系统会两两计算)
- 把 家庭月收入、课外辅导支出 拖入 控制变量 框
- 方法选择 Pearson(默认);若数据偏态严重可切换 Spearman
- 点击 开始分析,系统会同时输出"原始 Pearson 矩阵"与"偏相关矩阵",方便对比
- 关注每个变量对的 r 值变化、p 值、95% CI,判断混杂效应大小
5. 结果表格与结果阅读
结果区先给出未控制的 Pearson 相关矩阵作为参考基线,再给出控制 家庭月收入 + 课外辅导支出 后的偏相关矩阵,最后用一张对比表突出两者的差异。
| 变量 | 学习时长 | 睡眠时长 | 数学成绩 | 家庭月收入 | 课外辅导支出 |
|---|---|---|---|---|---|
| 学习时长 | — | <0.001 | <0.001 | <0.001 | <0.001 |
| 睡眠时长 | −0.367*** | — | 0.001 | <0.001 | <0.001 |
| 数学成绩 | 0.709*** | −0.189** | — | <0.001 | <0.001 |
| 家庭月收入 | 0.792*** | −0.259*** | 0.831*** | — | <0.001 |
| 课外辅导支出 | 0.743*** | −0.277*** | 0.755*** | 0.799*** | — |
| * p<0.05 ** p<0.01 *** p<0.001;下三角为 Pearson r,上三角为对应双尾 p | |||||
仅看原始相关:学习时长↔数学成绩 r=0.709 高度显著,似乎"多学就能多得分";但同时家庭月收入(0.792)、课外辅导支出(0.743) 与学习时长也都强相关 —— 这意味着学习时长本身可能就是"被家庭条件推高"的,混杂嫌疑非常大。
| 变量对 | 偏相关 r | 95% CI | p 值 | 判断 |
|---|---|---|---|---|
| 学习时长 — 数学成绩 | 0.075 | [−0.04, 0.19] | 0.196 | 不显著 |
| 学习时长 — 睡眠时长 | −0.252 | [−0.36, −0.14] | <0.001 | 显著负相关 |
| 睡眠时长 — 数学成绩 | 0.084 | [−0.03, 0.20] | 0.147 | 不显著 |
| 偏相关通过 OLS 残差法计算:将每个核心变量分别对家庭月收入、课外辅导支出做 OLS 回归,对两残差再求 Pearson 相关 | ||||
核心发现:学习时长↔数学成绩 在控制后 r 从 0.709 塌缩到 0.075(p=0.196,CI 跨过 0),即"多学就能多分"的关系在剔除家庭社会经济地位后并不成立;只有学习时长↔睡眠时长保持显著负相关,说明"学习时间挤占睡眠"是真实存在的,不依赖家庭条件。
| 变量对 | 原始 r | 偏 r | Δr | 显著性变化 |
|---|---|---|---|---|
| 学习时长 — 数学成绩 | 0.709 | 0.075 | −0.634 | 显著 → 不显著 |
| 学习时长 — 睡眠时长 | −0.367 | −0.252 | +0.115 | 显著 → 显著(减弱) |
| 睡眠时长 — 数学成绩 | −0.189 | 0.084 | +0.273 | 显著(负) → 不显著(方向反转) |
| Δr = 偏 r − 原始 r;|Δr| 越大说明该相关被控制变量"解释/吸收"得越多 | ||||
三对相关的命运完全不同:①学习时长—数学成绩"几乎全部被混杂解释";②学习时长—睡眠时长"主要是真实关系,少部分被混杂稀释";③睡眠时长—数学成绩"原始的负相关其实是被家庭条件伪造出来的"。
7. 文字分析
对中学生学习时长 / 睡眠时长 / 数学成绩三者关系的偏相关综合分析:
- 原始 Pearson 给出的"危险结论":学习时长与数学成绩 r=0.709(p<0.001),睡眠时长与数学成绩 r=−0.189(p=0.001)。若停在这一层,结论会是"多学少睡能拿高分",但这正是教育研究中典型的伪相关 —— 因为家庭月收入和课外辅导支出与这三个核心变量都强相关(r≥0.74);
- 控制后真实关系暴露:偏相关把家庭月收入、课外辅导支出剔除后,学习时长↔数学成绩 r=0.075(95% CI [−0.04, 0.19],p=0.196)不再显著,即"在家庭经济条件相同的学生中,多学一小时和分数几乎没有关系"。睡眠时长↔数学成绩 r=0.084(p=0.147)也不显著,且方向由负转正,证明原始的负相关其实是被家庭条件"伪造"的;
- 残存的真实关系:学习时长↔睡眠时长 偏相关 r=−0.252(95% CI [−0.36, −0.14],p<0.001)仍显著,但绝对值从 0.367 下降到 0.252,说明"学习时间挤占睡眠"是真实的、不依赖家庭条件的现象,但其中约 1/3 的强度其实是由家庭条件共同作用驱动的;
- 显著性变化的解读:从 p<0.001 到 p≈0.2 不是"统计力不够",而是该相关本身就是混杂引起的;偏相关 95% CI 横跨 0,是判断"原始显著性是否被解释掉"的关键证据;
- 业务结论:①不要单凭"学习时长—成绩"的简单相关给学生施压;②家长真正能改变的是"家庭支持环境(含辅导资源)",而不是单纯延长孩子学习时间;③学校如要研究"自主学习时长"的纯效应,必须把家庭社经地位作为协变量纳入分析(偏相关或回归均可);④对"睡眠和成绩负相关"这类反直觉发现,应当先排查混杂再下结论。
8. 剖析提醒
偏相关解决的是混杂问题,但不能解决因果问题 —— 即便控制后仍显著,也只能说"在控制变量取相同值的子样本中两变量仍相关",而非"X 因果地影响 Y"。控制变量的选择必须基于理论:盲目堆控制变量可能引入"碰撞器偏差"(控制了 X 和 Y 共同的下游变量),反而扭曲真实关系。变量需近似线性且无极端离群点;偏态严重时改用 Spearman 偏相关或先做变量变换。