通用方法

SPSS描述探索分析

案例数据

300 行、6 个职场人群定量变量,覆盖正态、右偏、有界等不同分布形态,可演示均值/中位数/CV/偏度全套描述指标。

文件名descriptive.xlsx
样本量300 行
变量数6 列(全部为定量)
数据用途职场人群基础画像描述(年龄/收入/工作时长/满意度等)
变量说明年龄、月收入、工作年限、每周工作小时、每月加班小时、工作满意度。

完整案例

1. 背景

某公司在做员工敬业度调研,回收 300 份问卷。在跑差异性 / 关联性建模之前,研究者希望先做一份"描述性统计快照":①每个变量的平均水平和波动情况 ②是否存在异常或极端样本 ③分布形态是否对称(决定后续是否要做 log 变换 / 用中位数报告)。本案例的 6 个变量被刻意设计成不同分布特征,便于演示 SPSSzero 描述性统计输出的基础指标深入指标(CV / 偏度 / 峰度 / 95% CI)百分位数三张表的用途差异。

2. 理论与公式

描述探索分析通过均值、标准差、四分位数和极值概括定量变量的集中趋势与离散程度。

均值

表示变量的平均水平。

标准差

表示样本值围绕均值的离散程度。

四分位距

用于描述中间 50% 数据的波动范围。

3. 数据结构

每行代表 1 位员工,6 列均为定量变量。各变量被特意设计成不同分布形态,方便对比描述指标的差异:

变量名单位分布特征教学用途
年龄近似正态 (M≈中位数)演示对称分布
月收入右偏(M ≫ 中位数)演示均值/中位数差异,引出"为什么要看中位数"
工作年限轻度右偏演示工龄与年龄的派生关系
每周工作小时小时窄正态(CV 很小)演示 CV ≈ 11% 的低变异指标
每月加班小时小时强右偏 + 零膨胀演示偏度 ≈ 1、CV > 80% 的高波动指标
工作满意度分 (1-10)有界量表,近似对称演示有界变量的描述

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 点击 上传数据,选择 descriptive.xlsx
  2. 左侧方法栏 → 通用方法 → 点击 描述
  3. 把 6 个定量变量全部拖入 分析项
  4. 点击 开始分析,等待结果区刷新
SPSSzero 描述探索变量选择截图
变量已全部放入"分析项"框(实际截图待补)

5. 结果表格与结果阅读

结果区会输出三张三线表:表1 基础指标(n / 最小值 / 最大值 / 均值 / 标准差 / 中位数)、表2 深入指标(CV / 偏度 / 峰度 / 95% CI 等)和 表3 百分位数(P2.5 ~ P97.5 共 13 个分位点)。基础指标用于快速描述,深入指标用于判断分布形态,百分位数用于报告参考区间和异常值阈值。

表1 基础指标(N=300)
名称n最小值最大值MSD中位数
年龄30022.00065.00035.0907.59435.000
月收入3003000.00029980.0008172.1003789.4887440.000
工作年限3000.00027.9009.4335.6919.300
每周工作小时30035.00057.70045.5795.09845.850
每月加班小时3000.00044.9009.9568.7028.900
工作满意度3001.00010.0006.2121.7106.300

月收入的均值 8172 元、中位数 7440 元,相差 732 元 → 提示分布右偏,建议正式报告同时给出均值与中位数。

表2 深入指标(N=300)
名称M±SDP25中位数P75SE95% CIIQR峰度偏度CV(%)
年龄35.090±7.59429.75035.00040.0000.43834.231 ~ 35.94910.2500.2460.40221.6
月收入8172.100±3789.4885460.0007440.0009900.000218.7867743.279 ~ 8600.9214440.0004.0731.55946.4
工作年限9.433±5.6914.9009.30013.3250.3298.789 ~ 10.0778.425-0.1390.35460.3
每周工作小时45.579±5.09842.10045.85048.9000.29445.002 ~ 46.1566.800-0.430-0.04011.2
每月加班小时9.956±8.7022.8758.90014.6250.5028.972 ~ 10.94011.7500.9150.95687.4
工作满意度6.212±1.7105.0006.3007.4000.0996.018 ~ 6.4052.400-0.033-0.15927.5

月收入偏度 1.56、峰度 4.07,右偏 + 尖峰;加班小时 CV=87.4%,极强波动,应优先用中位数 + IQR 报告。

表3 百分位数(N=300)
名称P2.5P5P10P25P50P75P90P95P97.5
年龄22.023.025.029.835.040.044.048.051.1
月收入3277.53638.54368.05460.07440.09900.013114.015615.517946.3
工作年限0.00.11.84.99.313.316.918.921.2
每周工作小时35.136.838.342.145.948.952.254.055.8
每月加班小时0.00.00.02.98.914.622.627.530.6
工作满意度2.73.44.05.06.37.48.39.09.5

百分位数表常用于报告参考区间(P2.5 ~ P97.5 即 95% 数据范围)或定义异常值阈值(如 > P95 视为高加班群体)。

7. 文字分析

本案例 300 位员工的描述性统计可概括为:

  • 年龄:M=35.09 ± 7.59 岁,与中位数 35.00 几乎一致,偏度 0.40 接近正态,主体集中在 30-40 岁;
  • 月收入:M=8172 元,但中位数仅 7440 元,偏度 1.56 提示明显右偏,少数高收入员工拉高了均值,正式汇报建议以中位数为主、均值为辅;
  • 工作年限:M=9.43 年,CV=60.3% 波动较大,与团队员工年龄差距和入职批次有关;
  • 每周工作小时:M=45.58 ± 5.10 小时,CV 仅 11.2%,工时执行整齐稳定
  • 每月加班小时:M=9.96 但分布极端不均(CV=87.4%,最高 44.9 小时),存在加班集中的少数人,建议结合 P75=14.6 / P95=27.5 设定关注线;
  • 工作满意度:M=6.21 ± 1.71 分,分布接近对称,整体处于中上水平。

综上,本样本主要为中青年(35±8 岁)、月收入 7-8 千元、工时稳定但加班分化严重的职场人群,满意度处于中上水平。后续如做差异性 / 回归分析,月收入与加班小时建议做 log 变换或使用稳健方法。

8. 剖析提醒

分类变量应使用频数分析;均值和中位数差异明显时,应结合偏态和异常值解释。

方法定位

描述探索分析用于概括定量变量的集中趋势、离散程度和分布形态,是多数统计分析前的基础检查。它适合回答“变量平均水平是多少”“数据波动大不大”“是否存在异常值”“分布是否偏斜”等问题。

它本身不用于检验因果关系,也不用于比较组间差异。若需要比较组间均值,应使用 t 检验或方差分析;若需要检验变量关系,应使用相关或回归分析。

数据与变量准备

描述探索分析通常选择定量变量,如收入、年龄、评分、测量值、销售额等。分类变量可以做频数分析,不建议只用均值解释。

变量类型 推荐处理
连续型定量变量 使用均值、标准差、最小值、最大值
偏态明显变量 同时查看中位数和四分位数
分类编码变量 优先使用频数分析
量表维度得分 可作为定量变量描述

SPSSzero 操作建议

将需要描述的定量变量放入分析项。若用于正式报告,建议同时查看样本量、均值、标准差、中位数、最小值和最大值。若担心异常值,可结合箱线图或散点图进一步检查。

如果多个题项代表同一维度,应先在数据处理中生成维度均值,再对维度变量做描述分析。

结果解读

建议按以下顺序阅读结果:

  1. 查看有效样本量,确认缺失情况。
  2. 查看均值和中位数,判断中心位置。
  3. 查看标准差、四分位距、最小值和最大值,判断离散程度。
  4. 查看偏度、峰度或图形,判断是否存在明显偏态。
指标 含义 解读提示
均值 平均水平 适合近似对称分布
中位数 中间位置 偏态或异常值较多时更稳健
标准差 波动程度 越大代表离散越明显
四分位数 中间 50% 数据范围 适合描述偏态数据
最小值和最大值 极端范围 用于发现异常输入

写作模板

可写为:“对核心变量进行描述性统计,结果显示,变量 xx 的均值为 xx,标准差为 xx,说明样本整体水平处于 xx 附近且离散程度为 xx。最小值和最大值分别为 xx 和 xx,未发现明显超出合理范围的异常取值。”

如果均值和中位数差异较大,可补充:“该变量均值与中位数存在一定差异,提示分布可能存在偏态,后续分析将结合稳健统计量或变量转换进行判断。”

常见问题

为什么系统提示更适合看中位数

当数据偏态明显或极端值较多时,均值会被少数极端值拉动,中位数能更稳定地表示典型水平。

描述分析能不能说明显著差异

不能。描述分析只展示数值特征,不提供显著性判断。差异是否显著需要使用 t 检验、方差分析或非参数检验。

缺失值如何处理

描述统计通常按变量分别排除缺失值,因此不同变量的有效样本量可能不同。报告中应说明各变量的 N 值。

与相近方法区分

目标 推荐方法
描述定量变量水平和离散程度 描述探索分析
描述分类变量比例 频数分析
判断数据是否近似正态 正态性检验
比较不同组均值差异 t 检验或方差分析