案例数据
300 行 × 2 列定类数据,1 个行变量(职业,5 类)、1 个列变量(主要媒体,5 类),演示 SVD 对应分析 + χ² 独立性检验,结论为职业与媒体偏好存在显著关联。
| 文件名 | correspondence.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 2 列(行变量 × 列变量,均为定类) |
| 数据用途 | 市场研究:不同职业人群的主要媒体接触渠道差异,用于受众画像与媒介投放策略 |
| 变量说明 | 职业(行变量,5 类:学生 / 企业职员 / 公务员 / 自由职业 / 退休)、主要媒体(列变量,5 类:微博 / 微信公众号 / 抖音 / B 站 / 知乎)。 |
完整案例
1. 背景
某媒体调研机构希望验证:"不同职业的人群(X)在主要媒体使用偏好(Y)上是否存在系统性差异?"——若两者独立,则可以"一刀切"投放;若存在显著关联,则需要按职业差异化投放。本案例使用 300 份问卷数据验证三个关键问题:①职业 × 媒体的列联表是否拒绝独立性假设(χ² 检验)?②前 2 维能否解释足够多的关联结构(≥ 80%)?③在二维对应图中,哪些"职业–媒体"对距离最近,可作为受众–渠道匹配建议?
2. 理论与公式
对应分析(CA)通过对标准化残差矩阵做 SVD,把行列类别投影到低维空间,距离越近代表两个类别共现频次相对其期望越高。
独立假设下的频数,与实际频数差异越大关联越强。
偏离独立的总体程度,由各维度特征值(惯量)之和构成。
第 k 维度对关联结构的解释比例,前 2 维 ≥ 80% 时二维图可信。
3. 数据结构
每行 1 位受访者,2 列均为定类变量。对应分析既可输入原始两列定类数据(系统自动 crosstab),也可输入已汇总的列联表(行=类别1、列=类别2、单元格=频数):
| 变量名 | 角色 | 说明 |
|---|---|---|
| 职业 | 行变量 | 5 个类别:学生 / 企业职员 / 公务员 / 自由职业 / 退休 |
| 主要媒体 | 列变量 | 5 个类别:微博 / 微信公众号 / 抖音 / B 站 / 知乎 |
对应分析对低频类别敏感:建议每个类别 ≥ 5 例,整体期望频数 ≥ 5 的格子占比 ≥ 80%;类别过多(>10)会让对应图重叠难读,必要时先做类别合并。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
correspondence.xlsx - 左侧方法栏 → 问卷研究 → 点击 对应分析
- 把 职业 拖入 行变量(分组变量),主要媒体 拖入 列变量(自变量)
- (可选)若已是汇总的列联表,可设置 权重列 指向频数
- 点击 开始分析
5. 结果表格与结果阅读
结果区按 SVD 对应分析流程输出 3 张紧凑三线表:①列联表 + 边缘合计;②卡方独立性检验与惯量分解;③前 2 维行列点主坐标(用于绘制对应图)。
| 职业 \ 媒体 | 微博 | 微信公众号 | 抖音 | B 站 | 知乎 | 行合计 |
|---|---|---|---|---|---|---|
| 学生 | 21 | 5 | 17 | 23 | 11 | 77 |
| 企业职员 | 14 | 28 | 8 | 10 | 28 | 88 |
| 公务员 | 9 | 24 | 3 | 2 | 6 | 44 |
| 自由职业 | 5 | 11 | 18 | 4 | 16 | 54 |
| 退休 | 1 | 22 | 11 | 1 | 2 | 37 |
| 列合计 | 50 | 90 | 57 | 40 | 63 | 300 |
| 加粗 = 各行的最大频次格子,可初步判断职业与媒体的主导对应关系。 | ||||||
学生集中在 B 站(23/77),企业职员集中在知乎(28/88),公务员/退休集中在微信公众号(24/44、22/37),自由职业集中在抖音(18/54)—— 已能看到明显的非均匀模式,需要卡方检验确认是否显著。
| 指标 | 取值 | 说明 |
|---|---|---|
| χ² 统计量 | 100.699 | 偏离独立的总体强度 |
| 自由度 df | 16 | (5-1)×(5-1) |
| p 值 | <0.001*** | 拒绝独立性假设,两变量显著关联 |
| 总惯量 Φ² | 0.3357 | χ² / N = 100.699 / 300 |
| Dim1 惯量 / 解释率 | 0.2034 / 60.59% | 主导维度 |
| Dim2 惯量 / 解释率 | 0.0703 / 20.95% | 次要维度 |
| 前 2 维累计解释率 | 81.54% | ≥ 80% → 二维对应图可信 |
| * p<0.05 ** p<0.01 *** p<0.001;总惯量 = χ²/N,等于所有维度惯量之和 | ||
χ²=100.699(df=16, p<0.001)拒绝独立 → 职业与媒体偏好显著关联;前 2 维累计 81.54% > 80% → 用二维图解读对应结构是可信的。
| 类型 | 类别 | Dim1(60.59%) | Dim2(20.95%) |
|---|---|---|---|
| 行点(职业) | 学生 | −0.664 | +0.010 |
| 企业职员 | +0.068 | +0.206 | |
| 公务员 | +0.471 | +0.331 | |
| 自由职业 | −0.011 | −0.406 | |
| 退休 | +0.676 | −0.312 | |
| 列点(媒体) | 微博 | −0.361 | +0.282 |
| 微信公众号 | +0.607 | +0.102 | |
| 抖音 | −0.081 | −0.525 | |
| B 站 | −0.722 | +0.096 | |
| 知乎 | −0.049 | +0.044 | |
| 行点与列点距离最近的对应关系(按欧氏距离升序):学生 ↔ B 站(d=0.10)、自由职业 ↔ 抖音(d=0.14)、企业职员 ↔ 知乎(d=0.20)、公务员 ↔ 微信公众号(d=0.27)、退休 ↔ 微信公众号(d=0.42)。 | |||
Dim1 区分"年轻–年长"语义(左侧 学生/B 站;右侧 退休/公务员/微信公众号);Dim2 区分"娱乐–专业"语义(下方 抖音/自由职业;上方 微博/微信公众号/公务员)。系统会基于这张表自动绘制对应分析散点图。
7. 文字分析
对职业 × 主要媒体的对应分析综合解读:
- 整体显著性:χ² = 100.699(df=16, p < 0.001),强烈拒绝独立假设,说明不同职业人群在媒体偏好上确实存在系统性差异;
- 降维可信度:前 2 维累计解释 81.54%(Dim1 60.59% + Dim2 20.95%),> 80% 阈值 → 二维对应图能充分概括原始 5×5 列联表的关联结构;
- 四对强关联(按距离升序):
- 学生 ↔ B 站(d=0.10):年轻群体的视频社区偏好;
- 自由职业 ↔ 抖音(d=0.14):时间灵活,短视频消费高;
- 企业职员 ↔ 知乎(d=0.20):白领倾向专业内容与深度问答;
- 公务员 ↔ 微信公众号(d=0.27):官方资讯渠道偏好;
- 退休群体:距离微信公众号也较近(d=0.42),同时与抖音存在二次关联(短视频高龄渗透)。
结论:职业是媒介接触渠道的有效细分变量,单一通道难以覆盖所有受众。媒介投放建议——①面向学生客群优先选 B 站;②面向白领(企业职员)选知乎深度内容;③面向公务员/退休群体选微信公众号官方号;④面向自由职业群体选抖音;⑤跨群体通用渠道可考虑微信公众号(最大列合计 90/300=30%)。
8. 剖析提醒
对应分析偏探索性,图上接近不等于因果;低频类别可能导致位置不稳定。当某类别样本 < 5 或前 2 维累计 < 60% 时,应慎重解读二维图,必要时增加第 3 维或合并相近类别。