| 文件名 | descriptive.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 6 列(全部为定量) |
| 数据用途 | 职场人群基础画像描述(年龄/收入/工作时长/满意度等) |
| 变量说明 | 年龄、月收入、工作年限、每周工作小时、每月加班小时、工作满意度。 |
完整案例
1. 背景
某公司在做员工敬业度调研,回收 300 份问卷。在跑差异性 / 关联性建模之前,研究者希望先做一份"描述性统计快照":①每个变量的平均水平和波动情况 ②是否存在异常或极端样本 ③分布形态是否对称(决定后续是否要做 log 变换 / 用中位数报告)。本案例的 6 个变量被刻意设计成不同分布特征,便于演示 SPSSzero 描述性统计输出的基础指标、深入指标(CV / 偏度 / 峰度 / 95% CI)和百分位数三张表的用途差异。
2. 理论与公式
描述探索分析通过均值、标准差、四分位数和极值概括定量变量的集中趋势与离散程度。
表示变量的平均水平。
表示样本值围绕均值的离散程度。
用于描述中间 50% 数据的波动范围。
3. 数据结构
每行代表 1 位员工,6 列均为定量变量。各变量被特意设计成不同分布形态,方便对比描述指标的差异:
| 变量名 | 单位 | 分布特征 | 教学用途 |
|---|---|---|---|
| 年龄 | 岁 | 近似正态 (M≈中位数) | 演示对称分布 |
| 月收入 | 元 | 右偏(M ≫ 中位数) | 演示均值/中位数差异,引出"为什么要看中位数" |
| 工作年限 | 年 | 轻度右偏 | 演示工龄与年龄的派生关系 |
| 每周工作小时 | 小时 | 窄正态(CV 很小) | 演示 CV ≈ 11% 的低变异指标 |
| 每月加班小时 | 小时 | 强右偏 + 零膨胀 | 演示偏度 ≈ 1、CV > 80% 的高波动指标 |
| 工作满意度 | 分 (1-10) | 有界量表,近似对称 | 演示有界变量的描述 |
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 点击 上传数据,选择
descriptive.xlsx - 左侧方法栏 → 通用方法 → 点击 描述
- 把 6 个定量变量全部拖入 分析项 框
- 点击 开始分析,等待结果区刷新

5. 结果表格与结果阅读
结果区会输出三张三线表:表1 基础指标(n / 最小值 / 最大值 / 均值 / 标准差 / 中位数)、表2 深入指标(CV / 偏度 / 峰度 / 95% CI 等)和 表3 百分位数(P2.5 ~ P97.5 共 13 个分位点)。基础指标用于快速描述,深入指标用于判断分布形态,百分位数用于报告参考区间和异常值阈值。
| 名称 | n | 最小值 | 最大值 | M | SD | 中位数 |
|---|---|---|---|---|---|---|
| 年龄 | 300 | 22.000 | 65.000 | 35.090 | 7.594 | 35.000 |
| 月收入 | 300 | 3000.000 | 29980.000 | 8172.100 | 3789.488 | 7440.000 |
| 工作年限 | 300 | 0.000 | 27.900 | 9.433 | 5.691 | 9.300 |
| 每周工作小时 | 300 | 35.000 | 57.700 | 45.579 | 5.098 | 45.850 |
| 每月加班小时 | 300 | 0.000 | 44.900 | 9.956 | 8.702 | 8.900 |
| 工作满意度 | 300 | 1.000 | 10.000 | 6.212 | 1.710 | 6.300 |
月收入的均值 8172 元、中位数 7440 元,相差 732 元 → 提示分布右偏,建议正式报告同时给出均值与中位数。
| 名称 | M±SD | P25 | 中位数 | P75 | SE | 95% CI | IQR | 峰度 | 偏度 | CV(%) |
|---|---|---|---|---|---|---|---|---|---|---|
| 年龄 | 35.090±7.594 | 29.750 | 35.000 | 40.000 | 0.438 | 34.231 ~ 35.949 | 10.250 | 0.246 | 0.402 | 21.6 |
| 月收入 | 8172.100±3789.488 | 5460.000 | 7440.000 | 9900.000 | 218.786 | 7743.279 ~ 8600.921 | 4440.000 | 4.073 | 1.559 | 46.4 |
| 工作年限 | 9.433±5.691 | 4.900 | 9.300 | 13.325 | 0.329 | 8.789 ~ 10.077 | 8.425 | -0.139 | 0.354 | 60.3 |
| 每周工作小时 | 45.579±5.098 | 42.100 | 45.850 | 48.900 | 0.294 | 45.002 ~ 46.156 | 6.800 | -0.430 | -0.040 | 11.2 |
| 每月加班小时 | 9.956±8.702 | 2.875 | 8.900 | 14.625 | 0.502 | 8.972 ~ 10.940 | 11.750 | 0.915 | 0.956 | 87.4 |
| 工作满意度 | 6.212±1.710 | 5.000 | 6.300 | 7.400 | 0.099 | 6.018 ~ 6.405 | 2.400 | -0.033 | -0.159 | 27.5 |
月收入偏度 1.56、峰度 4.07,右偏 + 尖峰;加班小时 CV=87.4%,极强波动,应优先用中位数 + IQR 报告。
| 名称 | P2.5 | P5 | P10 | P25 | P50 | P75 | P90 | P95 | P97.5 |
|---|---|---|---|---|---|---|---|---|---|
| 年龄 | 22.0 | 23.0 | 25.0 | 29.8 | 35.0 | 40.0 | 44.0 | 48.0 | 51.1 |
| 月收入 | 3277.5 | 3638.5 | 4368.0 | 5460.0 | 7440.0 | 9900.0 | 13114.0 | 15615.5 | 17946.3 |
| 工作年限 | 0.0 | 0.1 | 1.8 | 4.9 | 9.3 | 13.3 | 16.9 | 18.9 | 21.2 |
| 每周工作小时 | 35.1 | 36.8 | 38.3 | 42.1 | 45.9 | 48.9 | 52.2 | 54.0 | 55.8 |
| 每月加班小时 | 0.0 | 0.0 | 0.0 | 2.9 | 8.9 | 14.6 | 22.6 | 27.5 | 30.6 |
| 工作满意度 | 2.7 | 3.4 | 4.0 | 5.0 | 6.3 | 7.4 | 8.3 | 9.0 | 9.5 |
百分位数表常用于报告参考区间(P2.5 ~ P97.5 即 95% 数据范围)或定义异常值阈值(如 > P95 视为高加班群体)。
7. 文字分析
本案例 300 位员工的描述性统计可概括为:
- 年龄:M=35.09 ± 7.59 岁,与中位数 35.00 几乎一致,偏度 0.40 接近正态,主体集中在 30-40 岁;
- 月收入:M=8172 元,但中位数仅 7440 元,偏度 1.56 提示明显右偏,少数高收入员工拉高了均值,正式汇报建议以中位数为主、均值为辅;
- 工作年限:M=9.43 年,CV=60.3% 波动较大,与团队员工年龄差距和入职批次有关;
- 每周工作小时:M=45.58 ± 5.10 小时,CV 仅 11.2%,工时执行整齐稳定;
- 每月加班小时:M=9.96 但分布极端不均(CV=87.4%,最高 44.9 小时),存在加班集中的少数人,建议结合 P75=14.6 / P95=27.5 设定关注线;
- 工作满意度:M=6.21 ± 1.71 分,分布接近对称,整体处于中上水平。
综上,本样本主要为中青年(35±8 岁)、月收入 7-8 千元、工时稳定但加班分化严重的职场人群,满意度处于中上水平。后续如做差异性 / 回归分析,月收入与加班小时建议做 log 变换或使用稳健方法。
8. 剖析提醒
分类变量应使用频数分析;均值和中位数差异明显时,应结合偏态和异常值解释。
方法定位
描述探索分析用于概括定量变量的集中趋势、离散程度和分布形态,是多数统计分析前的基础检查。它适合回答“变量平均水平是多少”“数据波动大不大”“是否存在异常值”“分布是否偏斜”等问题。
它本身不用于检验因果关系,也不用于比较组间差异。若需要比较组间均值,应使用 t 检验或方差分析;若需要检验变量关系,应使用相关或回归分析。
数据与变量准备
描述探索分析通常选择定量变量,如收入、年龄、评分、测量值、销售额等。分类变量可以做频数分析,不建议只用均值解释。
| 变量类型 | 推荐处理 |
|---|---|
| 连续型定量变量 | 使用均值、标准差、最小值、最大值 |
| 偏态明显变量 | 同时查看中位数和四分位数 |
| 分类编码变量 | 优先使用频数分析 |
| 量表维度得分 | 可作为定量变量描述 |
SPSSzero 操作建议
将需要描述的定量变量放入分析项。若用于正式报告,建议同时查看样本量、均值、标准差、中位数、最小值和最大值。若担心异常值,可结合箱线图或散点图进一步检查。
如果多个题项代表同一维度,应先在数据处理中生成维度均值,再对维度变量做描述分析。
结果解读
建议按以下顺序阅读结果:
- 查看有效样本量,确认缺失情况。
- 查看均值和中位数,判断中心位置。
- 查看标准差、四分位距、最小值和最大值,判断离散程度。
- 查看偏度、峰度或图形,判断是否存在明显偏态。
| 指标 | 含义 | 解读提示 |
|---|---|---|
| 均值 | 平均水平 | 适合近似对称分布 |
| 中位数 | 中间位置 | 偏态或异常值较多时更稳健 |
| 标准差 | 波动程度 | 越大代表离散越明显 |
| 四分位数 | 中间 50% 数据范围 | 适合描述偏态数据 |
| 最小值和最大值 | 极端范围 | 用于发现异常输入 |
写作模板
可写为:“对核心变量进行描述性统计,结果显示,变量 xx 的均值为 xx,标准差为 xx,说明样本整体水平处于 xx 附近且离散程度为 xx。最小值和最大值分别为 xx 和 xx,未发现明显超出合理范围的异常取值。”
如果均值和中位数差异较大,可补充:“该变量均值与中位数存在一定差异,提示分布可能存在偏态,后续分析将结合稳健统计量或变量转换进行判断。”
常见问题
为什么系统提示更适合看中位数
当数据偏态明显或极端值较多时,均值会被少数极端值拉动,中位数能更稳定地表示典型水平。
描述分析能不能说明显著差异
不能。描述分析只展示数值特征,不提供显著性判断。差异是否显著需要使用 t 检验、方差分析或非参数检验。
缺失值如何处理
描述统计通常按变量分别排除缺失值,因此不同变量的有效样本量可能不同。报告中应说明各变量的 N 值。
与相近方法区分
| 目标 | 推荐方法 |
|---|---|
| 描述定量变量水平和离散程度 | 描述探索分析 |
| 描述分类变量比例 | 频数分析 |
| 判断数据是否近似正态 | 正态性检验 |
| 比较不同组均值差异 | t 检验或方差分析 |