通用方法

SPSS正态性检验

案例数据

300 行 × 4 列,刻意设计 4 个不同分布形态的定量变量(2 个近似正态 + 2 个明显右偏),便于对照阅读"通过正态"与"拒绝正态"两种结论。

文件名normality.xlsx
样本量300 行
变量数4 列(全部为定量)
数据用途正态性检验:分布形态判断 + 后续方法选型依据
变量说明身高(cm)/ 体重(kg):近似正态;月收入(元)/ 反应时(ms):明显右偏。

完整案例

1. 背景

研究者在跑 t 检验/方差分析/回归前,需要先判断核心变量是否服从正态分布,以决定后续使用参数方法(要求正态)还是非参数方法(不要求正态)。本案例提供 4 个分布形态不同的变量,演示"通过"和"拒绝"两种典型结论及对应的方法学决策。

2. 理论与公式

正态性检验的原假设通常是变量服从正态分布,实际判断时需要同时结合检验 p 值和分布图形。

标准化偏度

用于判断分布是否明显偏斜。

Jarque-Bera 统计量

S 为偏度,K 为峰度。

判定规则

p 值较小时,拒绝正态分布原假设。

3. 数据结构

每行 1 位受访者,4 列均为定量变量,刻意设计为不同分布:

变量名单位期望分布形态教学用途
身高cm正态 N(170, 8)演示通过正态性检验
体重kg正态 N(65, 10)演示通过正态性检验
月收入对数正态(强右偏)演示拒绝正态(偏度 1.5)
反应时msGamma 分布(中右偏)演示拒绝正态(偏度 0.95)

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 normality.xlsx
  2. 左侧方法栏 → 通用方法 → 点击 正态性检验
  3. 身高 / 体重 / 月收入 / 反应时 4 个变量全部拖入 分析项
  4. 点击 开始分析

大样本(n > 50)建议看 K-S 检验;小样本(n < 50)建议看 Shapiro-Wilk 检验。SPSSzero 默认同时输出两种,方便对照。

正态性检验变量选择截图
4 个变量全部放入分析项(实际截图待补)

5. 结果表格与结果阅读

结果区按"主检验 + Jarque-Bera 辅助检验"输出,并附 QQ 图。下面展示 2 张紧凑三线表:

表1 正态性检验主结果(N=300)
名称MSD偏度峰度K-S pS-W p判定
身高169.947.790.100.220.9080.783✅ 通过
体重64.799.620.14-0.080.9390.810✅ 通过
月收入9454.025058.931.502.770.000***0.000***❌ 拒绝
反应时247.68126.990.950.680.008**0.000***❌ 拒绝
* p<0.05 ** p<0.01 *** p<0.001;p>0.05 → 通过正态;p<0.05 → 拒绝正态

注意:原假设是"数据服从正态"。p 大表示证据不足以拒绝(即"近似正态"),p 小才表示明显偏离正态。这与 t 检验等"想要 p 小"的逻辑相反。

表2 Jarque-Bera 检验(基于偏度 + 峰度联合判断)
名称χ²dfp结论
身高0.98820.610通过
体重1.02020.601通过
月收入203.54220.000***拒绝
反应时49.70020.000***拒绝
JB 与 K-S / S-W 结果一致,4 个变量的结论稳健

实务中通常以 K-S(n > 50)或 S-W(n < 50)为主,JB 检验作为辅证。三个检验结果一致时结论最可靠。

7. 文字分析

对 4 个变量的正态性检验综合分析:

  • 身高:M=169.94±7.79,偏度 0.10、峰度 0.22 均接近 0;K-S p=0.908, S-W p=0.783, JB p=0.610 —— 三检验全通过,可视为正态分布,可放心使用 t 检验 / 方差分析等参数方法;
  • 体重:M=64.79±9.62,偏度 0.14、峰度 -0.08;三检验 p 均>0.5 —— 同样通过正态性
  • 月收入:M=9454±5059,偏度 1.50(强右偏)、峰度 2.77(尖峰);K-S/S-W/JB 三检验 p<0.001 一致拒绝 —— 明显偏离正态,应改用非参数方法(如 Wilcoxon、Kruskal-Wallis)或先做 log 变换;
  • 反应时:M=247.68±126.99,偏度 0.95(中度右偏);三检验拒绝 —— 同样不能直接用参数方法

结论:本案例中 身高、体重 可使用参数方法(t / ANOVA / 线性回归),月收入、反应时 需改用非参数方法或对数变换后再检验。这就是正态性检验作为"前置筛选"的核心价值。

8. 剖析提醒

大样本下正态性检验很敏感,轻微偏离也可能显著,不能只凭 p 值机械决定方法。

方法定位

正态性检验用于判断定量变量是否近似服从正态分布。它常作为 t 检验、方差分析、线性回归残差诊断等方法的前置检查,也可用于了解变量是否存在偏态。

正态性检验不是越显著越好。常见原假设是“数据服从正态分布”,当 p 值小于显著性水平时,说明数据偏离正态分布的证据较强。

数据与变量准备

正态性检验适用于定量变量。分类变量不适合做正态性检验。若需要分组检验,应先确定分组变量,再分别查看各组内的定量变量分布。

场景 推荐做法
单个定量变量 直接放入检验变量
分组后的定量变量 按组查看每组正态性
回归模型 更关注残差正态性
样本量很大 结合图形和偏度峰度判断

SPSSzero 操作建议

将需要检查的定量变量放入分析项。若系统同时输出 Shapiro-Wilk、Kolmogorov-Smirnov、Anderson-Darling 或 Jarque-Bera 等结果,建议结合样本量和图形共同判断。

样本量较小时,Shapiro-Wilk 更常用;样本量较大时,检验会非常敏感,轻微偏离也可能显著,因此应结合直方图、Q-Q 图和实际研究目的。

结果解读

结果情况 常见解释
p 值大于 0.05 未发现明显偏离正态的证据
p 值小于 0.05 数据与正态分布存在显著差异
图形近似钟形但检验显著 大样本下常见,应结合偏度峰度
偏度峰度较大 可能存在偏态或重尾

如果变量不满足正态,可考虑非参数检验、变量转换、稳健方法,或在样本量足够大时依据中心极限定理谨慎使用参数检验。

写作模板

可写为:“对主要定量变量进行正态性检验,结果显示,变量 xx 的 Shapiro-Wilk 检验 p 值为 xx。结合直方图和 Q-Q 图观察,该变量整体分布近似或不近似正态,因此后续采用 xx 方法进行分析。”

如果样本量很大,可写为:“由于样本量较大,正态性检验对轻微偏离较敏感,本文同时参考偏度、峰度及图形判断。”

常见问题

直方图看起来正常但检验显著怎么办

大样本时检验容易显著。建议结合 Q-Q 图、偏度峰度、研究目的以及后续方法的稳健性综合判断。

不满足正态就不能做 t 检验吗

不一定。t 检验对轻微偏离正态通常较稳健,尤其样本量较大且无严重极端值时。若样本量小且偏态明显,可使用非参数检验。

检验原假设是什么

正态性检验通常以“数据服从正态分布”为原假设。p 值小表示拒绝该假设,提示偏离正态。

与相近方法区分

目标 推荐方法
检查定量变量分布是否近似正态 正态性检验
查看变量均值和标准差 描述探索分析
比较非正态两组差异 非参数检验
查看残差是否近似正态 回归诊断或残差正态性检验