通用方法

SPSS描述探索分析

案例数据

300 行、6 个职场人群定量变量，覆盖正态、右偏、有界等不同分布形态，可演示均值/中位数/CV/偏度全套描述指标。

文件名	descriptive.xlsx
样本量	300 行
变量数	6 列（全部为定量）
数据用途	职场人群基础画像描述（年龄/收入/工作时长/满意度等）
变量说明	年龄、月收入、工作年限、每周工作小时、每月加班小时、工作满意度。

完整案例

1. 背景

某公司在做员工敬业度调研，回收 300 份问卷。在跑差异性 / 关联性建模之前，研究者希望先做一份"描述性统计快照"：①每个变量的平均水平和波动情况 ②是否存在异常或极端样本 ③分布形态是否对称（决定后续是否要做 log 变换 / 用中位数报告）。本案例的 6 个变量被刻意设计成不同分布特征，便于演示 SPSSzero 描述性统计输出的基础指标、深入指标（CV / 偏度 / 峰度 / 95% CI）和百分位数三张表的用途差异。

2. 理论与公式

描述探索分析通过均值、标准差、四分位数和极值概括定量变量的集中趋势与离散程度。

均值

表示变量的平均水平。

标准差

表示样本值围绕均值的离散程度。

四分位距

用于描述中间 50% 数据的波动范围。

3. 数据结构

每行代表 1 位员工，6 列均为定量变量。各变量被特意设计成不同分布形态，方便对比描述指标的差异：

变量名	单位	分布特征	教学用途
年龄	岁	近似正态 (M≈中位数)	演示对称分布
月收入	元	右偏（M ≫ 中位数）	演示均值/中位数差异，引出"为什么要看中位数"
工作年限	年	轻度右偏	演示工龄与年龄的派生关系
每周工作小时	小时	窄正态（CV 很小）	演示 CV ≈ 11% 的低变异指标
每月加班小时	小时	强右偏 + 零膨胀	演示偏度 ≈ 1、CV > 80% 的高波动指标
工作满意度	分 (1-10)	有界量表，近似对称	演示有界变量的描述

4. 操作步骤

登录 SPSSzero，进入 工作台 → 点击 上传数据，选择 descriptive.xlsx
左侧方法栏 → 通用方法 → 点击描述
把 6 个定量变量全部拖入 分析项 框
点击 开始分析，等待结果区刷新

SPSSzero 描述探索变量选择截图 — 变量已全部放入"分析项"框（实际截图待补）

5. 结果表格与结果阅读

结果区会输出三张三线表：表1 基础指标（n / 最小值 / 最大值 / 均值 / 标准差 / 中位数）、表2 深入指标（CV / 偏度 / 峰度 / 95% CI 等）和 表3 百分位数（P2.5 ~ P97.5 共 13 个分位点）。基础指标用于快速描述，深入指标用于判断分布形态，百分位数用于报告参考区间和异常值阈值。

表1 基础指标（N=300）

名称	n	最小值	最大值	M	SD	中位数
年龄	300	22.000	65.000	35.090	7.594	35.000
月收入	300	3000.000	29980.000	8172.100	3789.488	7440.000
工作年限	300	0.000	27.900	9.433	5.691	9.300
每周工作小时	300	35.000	57.700	45.579	5.098	45.850
每月加班小时	300	0.000	44.900	9.956	8.702	8.900
工作满意度	300	1.000	10.000	6.212	1.710	6.300

月收入的均值 8172 元、中位数 7440 元，相差 732 元 → 提示分布右偏，建议正式报告同时给出均值与中位数。

表2 深入指标（N=300）

名称	M±SD	P25	中位数	P75	SE	95% CI	IQR	峰度	偏度	CV(%)
年龄	35.090±7.594	29.750	35.000	40.000	0.438	34.231 ~ 35.949	10.250	0.246	0.402	21.6
月收入	8172.100±3789.488	5460.000	7440.000	9900.000	218.786	7743.279 ~ 8600.921	4440.000	4.073	1.559	46.4
工作年限	9.433±5.691	4.900	9.300	13.325	0.329	8.789 ~ 10.077	8.425	-0.139	0.354	60.3
每周工作小时	45.579±5.098	42.100	45.850	48.900	0.294	45.002 ~ 46.156	6.800	-0.430	-0.040	11.2
每月加班小时	9.956±8.702	2.875	8.900	14.625	0.502	8.972 ~ 10.940	11.750	0.915	0.956	87.4
工作满意度	6.212±1.710	5.000	6.300	7.400	0.099	6.018 ~ 6.405	2.400	-0.033	-0.159	27.5

月收入偏度 1.56、峰度 4.07，右偏 + 尖峰；加班小时 CV=87.4%，极强波动，应优先用中位数 + IQR 报告。

表3 百分位数（N=300）

名称	P2.5	P5	P10	P25	P50	P75	P90	P95	P97.5
年龄	22.0	23.0	25.0	29.8	35.0	40.0	44.0	48.0	51.1
月收入	3277.5	3638.5	4368.0	5460.0	7440.0	9900.0	13114.0	15615.5	17946.3
工作年限	0.0	0.1	1.8	4.9	9.3	13.3	16.9	18.9	21.2
每周工作小时	35.1	36.8	38.3	42.1	45.9	48.9	52.2	54.0	55.8
每月加班小时	0.0	0.0	0.0	2.9	8.9	14.6	22.6	27.5	30.6
工作满意度	2.7	3.4	4.0	5.0	6.3	7.4	8.3	9.0	9.5

百分位数表常用于报告参考区间（P2.5 ~ P97.5 即 95% 数据范围）或定义异常值阈值（如 > P95 视为高加班群体）。

7. 文字分析

本案例 300 位员工的描述性统计可概括为：

年龄：M=35.09 ± 7.59 岁，与中位数 35.00 几乎一致，偏度 0.40 接近正态，主体集中在 30-40 岁；
月收入：M=8172 元，但中位数仅 7440 元，偏度 1.56 提示明显右偏，少数高收入员工拉高了均值，正式汇报建议以中位数为主、均值为辅；
工作年限：M=9.43 年，CV=60.3% 波动较大，与团队员工年龄差距和入职批次有关；
每周工作小时：M=45.58 ± 5.10 小时，CV 仅 11.2%，工时执行整齐稳定；
每月加班小时：M=9.96 但分布极端不均（CV=87.4%，最高 44.9 小时），存在加班集中的少数人，建议结合 P75=14.6 / P95=27.5 设定关注线；
工作满意度：M=6.21 ± 1.71 分，分布接近对称，整体处于中上水平。

综上，本样本主要为中青年（35±8 岁）、月收入 7-8 千元、工时稳定但加班分化严重的职场人群，满意度处于中上水平。后续如做差异性 / 回归分析，月收入与加班小时建议做 log 变换或使用稳健方法。

8. 剖析提醒

分类变量应使用频数分析；均值和中位数差异明显时，应结合偏态和异常值解释。

方法定位

描述探索分析用于概括定量变量的集中趋势、离散程度和分布形态，是多数统计分析前的基础检查。它适合回答“变量平均水平是多少”“数据波动大不大”“是否存在异常值”“分布是否偏斜”等问题。

它本身不用于检验因果关系，也不用于比较组间差异。若需要比较组间均值，应使用 t 检验或方差分析；若需要检验变量关系，应使用相关或回归分析。

数据与变量准备

描述探索分析通常选择定量变量，如收入、年龄、评分、测量值、销售额等。分类变量可以做频数分析，不建议只用均值解释。

变量类型	推荐处理
连续型定量变量	使用均值、标准差、最小值、最大值
偏态明显变量	同时查看中位数和四分位数
分类编码变量	优先使用频数分析
量表维度得分	可作为定量变量描述

SPSSzero 操作建议

将需要描述的定量变量放入分析项。若用于正式报告，建议同时查看样本量、均值、标准差、中位数、最小值和最大值。若担心异常值，可结合箱线图或散点图进一步检查。

如果多个题项代表同一维度，应先在数据处理中生成维度均值，再对维度变量做描述分析。

结果解读

建议按以下顺序阅读结果：

查看有效样本量，确认缺失情况。
查看均值和中位数，判断中心位置。
查看标准差、四分位距、最小值和最大值，判断离散程度。
查看偏度、峰度或图形，判断是否存在明显偏态。

指标	含义	解读提示
均值	平均水平	适合近似对称分布
中位数	中间位置	偏态或异常值较多时更稳健
标准差	波动程度	越大代表离散越明显
四分位数	中间 50% 数据范围	适合描述偏态数据
最小值和最大值	极端范围	用于发现异常输入

写作模板

可写为：“对核心变量进行描述性统计，结果显示，变量 xx 的均值为 xx，标准差为 xx，说明样本整体水平处于 xx 附近且离散程度为 xx。最小值和最大值分别为 xx 和 xx，未发现明显超出合理范围的异常取值。”

如果均值和中位数差异较大，可补充：“该变量均值与中位数存在一定差异，提示分布可能存在偏态，后续分析将结合稳健统计量或变量转换进行判断。”

常见问题

为什么系统提示更适合看中位数

当数据偏态明显或极端值较多时，均值会被少数极端值拉动，中位数能更稳定地表示典型水平。

描述分析能不能说明显著差异

不能。描述分析只展示数值特征，不提供显著性判断。差异是否显著需要使用 t 检验、方差分析或非参数检验。

缺失值如何处理

描述统计通常按变量分别排除缺失值，因此不同变量的有效样本量可能不同。报告中应说明各变量的 N 值。

与相近方法区分

目标	推荐方法
描述定量变量水平和离散程度	描述探索分析
描述分类变量比例	频数分析
判断数据是否近似正态	正态性检验
比较不同组均值差异	t 检验或方差分析