问卷研究

多多分析

案例数据

300 行 × 8 列 0/1 多选编码,模拟"消费者购物渠道偏好(4 项)× 常购商品品类(4 项)"双多选场景,用于演示两组多选题的共现交叉分析与 Φ 相关检验。

文件名multiple_to_multiple.xlsx
样本量300 行
变量数8 列(组 X:4 个渠道 + 组 Y:4 个品类,均为 0/1)
数据用途电商消费者研究:购物渠道偏好与商品品类购买之间的共现关联画像
变量说明组 X:渠道_淘宝 / 渠道_京东 / 渠道_抖音直播 / 渠道_拼多多;组 Y:品类_服装鞋包 / 品类_家电数码 / 品类_美妆护肤 / 品类_食品零食。1=该渠道/品类被选中,0=未选中,每位受访者可同时多选。

完整案例

1. 背景

某电商运营团队想搞清楚一个核心问题:"不同购物渠道的用户,他们最常买的品类是否真的不一样?" 例如直觉上"淘宝服装、京东数码、抖音美妆、拼多多零食"的人群标签是否真在数据上成立?此类问题涉及两组多选题(受访者可同时选多个渠道、同时买多个品类),不能用普通卡方表分析,必须做多 × 多 共现交叉。本案例回答三个层级的问题:①每个渠道-品类组合的共现人数有多少?②哪些组合的 Φ 相关系数显著(不是巧合)?③能否据此为各渠道画出鲜明的"品类标签"指导精准投放?

2. 理论与公式

多 × 多分析对两组 0/1 多选题做笛卡尔积式两两共现统计,每个 (Xj, Yk) 单元都是一个独立的 2×2 列联表,并据此计算 Φ 系数判断关联强度。

共现响应率(个案 %)

同时选中 X 组第 j 项与 Y 组第 k 项的样本占总样本的比例。

条件选择率(行 %)

选中 X 组 j 的人当中,也选中 Y 组 k 的比例,反映"渠道用户的品类偏好"。

Φ 相关系数

取自 2×2 列联表,范围 [-1, 1]:>0 同向共现,<0 反向排斥;|Φ|>0.3 强关联,0.1-0.3 弱关联。

3. 数据结构

每行 1 位消费者,前 4 列为渠道组(X)的 0/1 多选编码,后 4 列为品类组(Y)的 0/1 多选编码。两组均为多重响应变量(multiple-response set):

变量名所属组说明
渠道_淘宝组 X(渠道,4 项)是否在淘宝/天猫购物(1=是, 0=否)
渠道_京东组 X是否在京东购物
渠道_抖音直播组 X是否在抖音/快手直播间购物
渠道_拼多多组 X是否在拼多多购物
品类_服装鞋包组 Y(品类,4 项)近 3 个月是否购买服装/鞋/箱包
品类_家电数码组 Y是否购买家电/3C 数码
品类_美妆护肤组 Y是否购买美妆/护肤品
品类_食品零食组 Y是否购买食品/零食/生鲜

多 × 多分析的矩阵规模 = m × n(本案例 4×4=16 个共现单元);列百分比之和不会等于 100%,因为每人可同时选多个选项。两组变量必须均为 0/1 编码,不可使用"用逗号分隔的文本答案"列。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 multiple_to_multiple.xlsx
  2. 左侧方法栏 → 问卷研究 → 点击 多多分析
  3. 把 4 个 渠道_* 列拖入组 1(X),把 4 个 品类_* 列拖入组 2(Y)
  4. (可选)若编码不是 1/0 而是 "是/否",在计数值处填写代表"选中"的取值(默认 1)
  5. 点击 开始分析

5. 结果表格与结果阅读

结果区按"边缘分布 → 共现矩阵 → 关联强度"三层输出:

表1 两组多选选项边缘分布(N=300)
选项所属组选中人数响应率(组内 %)普及率(占样本 %)
淘宝渠道(X)17431.6%58.0%
京东渠道(X)12823.3%42.7%
抖音直播渠道(X)12222.2%40.7%
拼多多渠道(X)12622.9%42.0%
服装鞋包品类(Y)14627.7%48.7%
家电数码品类(Y)10119.2%33.7%
美妆护肤品类(Y)13225.0%44.0%
食品零食品类(Y)14828.1%49.3%
渠道合计响应 550 次(人均 1.83 个渠道);品类合计响应 527 次(人均 1.76 个品类)。淘宝普及率最高(58.0%)、服装鞋包与食品零食次之,符合大盘电商常识。
表2 渠道 × 品类 共现交叉表(频数 / 个案 %) & Φ 相关系数
渠道 \ 品类服装鞋包家电数码美妆护肤食品零食行响应合计
淘宝(n=174)94 (31.3%)
Φ=0.126*
56 (18.7%)
Φ=-0.037
77 (25.7%)
Φ=0.006
87 (29.0%)
Φ=0.016
314
京东(n=128)57 (19.0%)
Φ=-0.071
57 (19.0%)
Φ=0.198**
48 (16.0%)
Φ=-0.113
55 (18.3%)
Φ=-0.110
217
抖音直播(n=122)57 (19.0%)
Φ=-0.032
37 (12.3%)
Φ=-0.058
62 (20.7%)
Φ=0.114*
56 (18.7%)
Φ=-0.057
212
拼多多(n=126)65 (21.7%)
Φ=0.050
35 (11.7%)
Φ=-0.106
56 (18.7%)
Φ=0.008
71 (23.7%)
Φ=0.119*
227
列响应合计273185243269970
单元格上行为共现频数(个案 %),个案 % = 同时选中两项的人 / N=300;下行为该 2×2 列联表的 Φ 系数。* p<0.05  ** p<0.01。粗体为每行最强正向关联对。

关键阅读路径:先看主对角线(粗体单元)—— 4 个渠道的最高共现品类恰好与业务直觉吻合Φ 均显著(淘宝-服装 31.3% / 京东-数码 19.0% / 抖音-美妆 20.7% / 拼多多-零食 23.7%);再看非对角线—— 京东 × 美妆/食品的 Φ 均为负值(-0.11 左右),说明京东用户主动回避非数码品类。

7. 文字分析

对 300 位消费者"购物渠道 × 商品品类"的 4×4=16 个共现单元综合分析:

  • 边缘画像:淘宝渗透率最高(58.0%),其余三个渠道在 40-43% 之间相近;品类侧服装鞋包(48.7%)和食品零食(49.3%)平分秋色,家电数码渗透率最低(33.7%),属于"低频高客单"品类;
  • 四大主轴关联(均通过显著性检验):京东 × 家电数码Φ=0.198, p=0.001)关联最强,是 16 对组合中唯一达到 p<0.01 的;其次是 淘宝 × 服装鞋包Φ=0.126, p=0.029)、拼多多 × 食品零食Φ=0.119, p=0.039)、抖音直播 × 美妆护肤Φ=0.114, p=0.049);
  • 反向排斥信号:京东用户对非数码品类(美妆 Φ=-0.113、食品 Φ=-0.110)均呈弱负相关,说明京东用户画像专一;拼多多 × 家电数码 Φ=-0.106,反映拼多多在大件耐用消费品上信任度仍不足;
  • 条件偏好(行 % 视角):选拼多多的人 56.3% 也买食品零食、淘宝的人 54.0% 买服装鞋包、抖音的人 50.8% 买美妆—— 这些条件比例都明显高于该品类的整体普及率,证实"渠道用户标签"确实成立。

结论:四个购物渠道呈现清晰的"品类专属"画像—— 淘宝-服装-广覆盖京东-数码-单品类专注抖音-美妆-直播带货拼多多-零食-性价比。营销启示:①投放服装新品优先淘宝,3C 新品主投京东;②美妆品牌应加大抖音直播预算,零食快消优先拼多多;③京东上做美妆/食品的转化率会偏低,不建议把它当作综合电商对待。

8. 剖析提醒

多 × 多分析的所有百分比应以"频数 / 总样本 N"为基准(个案 %),不要写成"两项交集 / 任一项被选人数"等容易产生歧义的口径;Φ 系数仅适用 2×2 列联表,多分类变量须改用 Cramer's V;样本量须 ≥ 行×列×5(本案例 300 远大于 4×4×5=80)才可靠;编码不规范时(如同一列混用 1/2/是/否)需先在数据预处理里统一为 0/1 再分析。

算法说明:本案例的 χ² 与 Φ 均采用不带 Yates 连续性校正的标准 Pearson χ² 公式(与 SPSS / SPSSAU 默认一致)。若使用 scipy.stats.chi2_contingency 默认参数(带 Yates 校正)复现,4 对主轴中"抖音×美妆"、"拼多多×食品"会落在 p≈0.05-0.07 边缘 —— 这是连续性校正的差异,不是数据错误。