| 文件名 | categorical.xlsx |
|---|---|
| 数据用途 | 分类汇总案例数据 |
| 变量说明 | 省份、季度 为分组变量,销售额 为需要汇总的定量指标。 |
完整案例
1. 背景
希望按不同类别分组,查看某个定量指标在各组中的均值、样本量和总和。
2. 理论与公式
分类汇总是在每个分组内分别计算目标指标的统计量,常用统计量包括样本量、均值、标准差和总和。
g 表示某个类别组,n_g 为该组样本量。
用于描述组内波动程度。
适合销售额、金额、次数等可加总指标。
3. 数据结构
省份、季度 为分组变量,销售额 为需要汇总的定量指标。
4. 操作截图
- 上传案例数据
- 选择分类汇总
- 将 省份 或 季度 放入分组位置
- 将 销售额 放入汇总变量
- 选择均值、样本量或总和
当前方法暂无独立截图资源,后续会随 SPSSzero 页面截图补充。
5. 结果表格与结果阅读
| 分组变量 | 类别 | 样本量 | 均值 | 标准差 | 总和 |
|---|---|---|---|---|---|
| 省份 | A 组 | 8 | 4.12 | 0.81 | 32.96 |
| 省份 | B 组 | 9 | 3.76 | 0.94 | 33.84 |
| 省份 | C 组 | 8 | 4.45 | 0.73 | 35.60 |
分类汇总只描述组间差异,不提供显著性结论。
先看每个分组的样本量,再比较均值或总和。样本量很少的组不宜过度解读。
6. 辅助截图
当前方法暂无独立截图资源,后续会随 SPSSzero 页面截图补充。
7. 文字分析
分类汇总结果显示,不同组别在 销售额 指标上的平均水平存在描述性差异,其中某组均值最高。
8. 剖析提醒
分类汇总只做描述,不提供显著性判断;需要检验组间差异时,应继续使用 t 检验或方差分析。
方法定位
分类汇总用于按一个或多个分类变量分组,统计某些指标在各组中的样本量、均值、标准差、总和等汇总值。它常用于描述“不同性别的平均满意度”“不同地区的销售额合计”“不同学历人群的指标均值差异概况”。
分类汇总偏向描述,不直接给出显著性检验。如果需要判断组间均值差异是否显著,应进一步使用 t 检验或方差分析。
数据与变量准备
分类汇总至少需要一个分组变量和一个汇总指标。分组变量通常是定类或定序变量,汇总指标通常是定量变量。
| 变量角色 | 放置内容 | 示例 |
|---|---|---|
| 分组变量 | 用于拆分样本的类别变量 | 性别、地区、学历 |
| 汇总变量 | 需要计算统计量的数值变量 | 收入、满意度、销售额 |
| 可选层级 | 第二个分组维度 | 年份、门店类型 |
如果分组变量存在过多类别,结果表会变得很长。正式分析前可先合并低频类别,或只保留研究需要的分组。
SPSSzero 操作建议
在工作台中选择分类汇总,将类别变量放入分组位置,将需要汇总的定量变量放入分析项。根据研究目的选择均值、标准差、最小值、最大值、总和或样本量等统计量。
如果目标是论文中的样本描述,常用“样本量、均值、标准差”;如果目标是业务汇总,常用“总和、均值、占比”。
结果解读
分类汇总结果先看每组样本量,再看核心统计量。样本量过小的组不宜过度解读,因为均值和标准差容易受极端值影响。
| 解读步骤 | 关注点 |
|---|---|
| 样本量 | 每个分组是否足够稳定 |
| 均值或总和 | 哪个组水平更高 |
| 标准差 | 组内差异是否明显 |
| 多层分组 | 是否存在交叉分布特征 |
写作模板
可写为:“按 xx 分组进行分类汇总后发现,A 组在 yy 指标上的均值最高,为 xx;B 组均值较低,为 xx。各组样本量分别为 xx、xx,整体上可以看出不同类别之间存在一定描述性差异。”
如果用于业务报表,可写为:“从总量看,A 类贡献最高;从均值看,B 类单样本水平更高,说明其单位表现更突出。”
常见问题
分类汇总能不能替代方差分析
不能。分类汇总只能描述组间差异,不判断差异是否显著。需要显著性结论时,应使用 t 检验或方差分析。
为什么某些分组结果为空
常见原因是该组没有有效样本,或汇总变量在该组中全部缺失。建议先用频数分析查看分组变量分布,再检查汇总变量缺失情况。
多个分组变量如何解释
多个分组变量会形成交叉分组。解释时应先说明第一层分组,再说明第二层分组下的差异,避免把交叉表读成单一变量的总体结论。
与相近方法区分
| 目标 | 推荐方法 |
|---|---|
| 按类别汇总均值、总和、样本量 | 分类汇总 |
| 展示单个分类变量的比例 | 频数分析 |
| 判断两组均值差异 | t 检验 |
| 判断三组及以上均值差异 | 方差分析 |