通用方法

SPSS卡方分析

案例数据

300 行 × 5 列,1 个分组变量(性别)+ 4 个分类因变量,演示一次性对多个分类变量做卡方差异检验,并对比显著与非显著两种结果。

文件名chisquare.xlsx
样本量300 行(样本级,1 行 = 1 位受访者)
变量数5 列(1 分组 + 4 因变量,均为分类)
数据用途用户调研:性别对购买行为、推荐意愿、渠道偏好、价格敏感度的影响差异
变量说明性别(分组);是否购买本产品 / 推荐意愿 / 购买渠道偏好 / 价格敏感度(因变量)。

完整案例

1. 背景

某消费品调研团队回收 300 份问卷,希望回答:"不同性别的受访者在购买行为、推荐意愿、渠道偏好、价格敏感度这 4 个方面是否存在显著差异?" 这是典型的卡方分析场景:分组变量与多个分类因变量逐一做交叉表检验,并通过 Cramer's V 比较关联强度。

2. 理论与公式

卡方分析比较交叉表中的实际频数与期望频数,判断两个分类变量是否存在显著关联。

期望频数

R_i 为第 i 行合计,C_j 为第 j 列合计。

Pearson 卡方

比较实际频数与期望频数的偏离程度。

效应量

Cramer's V 用于判断关联强度。

3. 数据结构

每行代表 1 位受访者,所有变量都是分类(定类或有序定类)。本案例数据已用文字标签录入,无需再设值标签:

变量名角色选项
性别分组变量(X)男 / 女
是否购买本产品因变量(Y₁)是 / 否
推荐意愿因变量(Y₂)一定推荐 / 可能推荐 / 不推荐
购买渠道偏好因变量(Y₃)实体店 / 电商 / 直播 / 其他
价格敏感度因变量(Y₄)低 / 中 / 高

本案例数据为样本级(每行 1 位受访者),无需额外指定频数权重列;已汇总的频数表请参考"加权卡方"用法。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 点击 上传数据,选择 chisquare.xlsx
  2. 左侧方法栏 → 通用方法 → 点击 交叉(卡方)
  3. 性别 拖到 分组项 框,把 是否购买本产品 / 推荐意愿 / 购买渠道偏好 / 价格敏感度 4 个变量拖入 分析项
  4. 点击 开始分析
SPSSzero 卡方分析变量选择截图
分组项放性别,分析项放 4 个因变量(实际截图待补)

5. 结果表格与结果阅读

结果区先输出效应量汇总表(一眼看哪几项显著),再按变量逐一给出交叉表明细。下面挑两张演示:①显著的「性别 × 是否购买本产品」②非显著的「性别 × 价格敏感度」,对照阅读最直观。

表1 卡方检验效应量汇总(4 个分析项)
分析项χ²dfpCramer's V
是否购买本产品12.23310.000***0.202
推荐意愿18.24520.000***0.247
购买渠道偏好22.18430.000***0.272
价格敏感度0.26720.8750.030

Cramer's V:0.1 弱、0.3 中、0.5 强;本案例 3 项显著(V 在 0.20-0.27 之间,弱-中度关联),1 项非显著(价格敏感度)。

表2 性别 × 是否购买本产品(χ²=12.233, p=0.000***, V=0.202)
性别合计
67 (41.10%)96 (58.90%)163
85 (62.04%)52 (37.96%)137
合计152148300

女性购买率 58.90%,男性 37.96%,差值约 21 个百分点;显著(p<0.001)。

表3 性别 × 价格敏感度(χ²=0.267, p=0.875,非显著对比)
性别合计
52 (31.90%)74 (45.40%)37 (22.70%)163
40 (29.20%)64 (46.72%)33 (24.09%)137
合计9213870300

三列百分比几乎一致,差值都在 2 个百分点内;不显著(p=0.875),可结论"性别对价格敏感度无明显影响"。

7. 文字分析

从上表可知,性别对 4 个因变量中的 3 项表现出显著差异(p<0.05),1 项无显著差异:

  • 是否购买本产品:χ²=12.233, p<0.001, V=0.202 —— 女性购买率(58.90%)显著高于男性(37.96%);
  • 推荐意愿:χ²=18.245, p<0.001, V=0.247 —— 女性"一定推荐"占 41.10% 远高于男性 23.36%;
  • 购买渠道偏好:χ²=22.184, p<0.001, V=0.272 —— 女性偏好电商(36.81%)/直播(31.29%),男性偏好实体店(37.23%);
  • 价格敏感度:χ²=0.267, p=0.875, V=0.030 —— 男女在三档价格敏感度上分布几乎一致,无显著差异

结论:本样本中性别对购买决策(是否购买、推荐意愿、渠道偏好)有弱至中等影响(V 在 0.20-0.27 之间),但对价格敏感度无影响。后续可针对女性群体优化电商/直播渠道的推荐内容。

8. 剖析提醒

已汇总数据必须使用权重列;不要把二维汇总表直接当作原始数据。

方法定位

卡方分析用于研究两个分类变量之间是否存在关联,例如性别与购买意愿、地区与渠道偏好、是否使用产品与是否复购。它比较的是分类交叉表中的实际频数与理论频数是否存在明显差异。

卡方分析不能说明因果关系,也不用于比较定量变量均值。如果研究的是均值差异,应使用 t 检验或方差分析。

数据与变量准备

卡方分析需要两个分类变量。每一行代表一个样本,两个变量分别记录该样本所属类别。

变量角色 要求 示例
行变量 分类变量 性别、地区
列变量 分类变量 是否购买、满意等级
可选权重 已汇总数据的频数列 加权项

如果数据已经是汇总表,应整理为“行类别、列类别、频数”三列格式,并在分析中指定权重变量。

SPSSzero 操作建议

将两个分类变量分别放入分析位置。若系统提供交叉表、百分比和卡方检验结果,建议同时查看行百分比或列百分比,以便说明差异具体体现在哪些类别上。

当期望频数过低时,普通卡方检验可能不稳定。2x2 表或小样本场景可考虑 Fisher 精确检验。

结果解读

输出内容 解读重点
交叉表 各类别组合的频数和比例
Pearson 卡方 判断两个分类变量是否有关联
p 值 判断关联是否显著
期望频数 判断检验前提是否满足
效应量 判断关联强度

若 p 值小于 0.05,可认为两个分类变量之间存在显著关联。解释时应结合交叉表说明哪一类比例更高,而不是只写“存在差异”。

写作模板

可写为:“采用卡方检验分析 xx 与 yy 的关联。结果显示,Pearson 卡方值为 xx,p 值为 xx,说明二者存在或不存在显著关联。从交叉表看,A 类样本中选择 B 的比例更高,提示其分布具有明显差异。”

常见问题

卡方显著说明哪个类别不同吗

卡方显著只说明整体分布有关联。具体差异要结合行百分比、列百分比、标准化残差或分组比例描述。

期望频数过小怎么办

可以合并低频类别,或在适合场景下使用 Fisher 精确检验。不要在大量空格子的情况下强行解释普通卡方。

已经汇总好的数据如何分析

需要整理为类别组合加频数列,并使用权重变量。不能直接把二维汇总表原样上传后当作原始样本。

与相近方法区分

目标 推荐方法
两个分类变量关联 卡方分析
单个分类变量分布 频数分析
两组定量均值比较 t 检验
多组定量均值比较 方差分析