| 文件名 | pca.xlsx |
|---|---|
| 样本量 | 300 行(300 个城市) |
| 变量数 | 8 列指标 + 1 列城市编号 |
| 数据用途 | 城市营商环境综合评价:用 PCA 把 8 个指标降维并加权合成综合得分 |
| 变量说明 | 政务效率 / 金融环境 / 法治水平 / 基础设施 / 创新活力 / 人才供给 / 生活成本(已逆向化)/ 产业配套,全部为 1-7 评分,分值越高越好。 |
完整案例
1. 背景
某省发改委要发布"全省 300 城营商环境年度榜单",前期已采集到 8 项核心指标的专家打分。这 8 项指标彼此高度相关——政务效率好的城市,金融、法治、基础设施往往也强;创新活力高的地方一般人才供给也充足。如果直接把 8 列加总或简单平均,不仅权重无法服众,还会因指标重复计入夸大某些维度。主成分分析(PCA)正是解决这类问题的经典工具:用相关结构自动提取少量正交主成分,把 8 维信息压缩到 2-3 个综合维度,再按各主成分的方差解释率加权得到最终综合得分,既客观赋权又避免冗余。
2. 理论与公式
PCA 在标准化后的相关矩阵上做特征分解,主成分依次是方差最大、彼此正交的线性组合;先用 KMO + Bartlett 判断是否值得做 PCA,再按特征值>1 决定保留多少主成分。
主成分是原 p 个标准化指标的线性组合。
第 k 个主成分的特征值 λₖ 占总特征值的比例。
按保留主成分的方差解释率加权得到综合得分。
3. 数据结构
每行 1 个城市,8 列为标准化前的 Likert 1-7 评分。生活成本已做逆向化处理(数值越大代表生活成本越低、越宜居),保证 8 个指标方向一致,可直接进入 PCA。
| 城市编号 | 政务效率 | 金融环境 | 法治水平 | 基础设施 | 创新活力 | 人才供给 | 生活成本逆向化 | 产业配套 |
|---|---|---|---|---|---|---|---|---|
| C001 | 3 | 3 | 4 | 4 | 5 | 4 | 5 | 5 |
| C002 | 5 | 6 | 6 | 6 | 5 | 5 | 3 | 4 |
| C003 | 4 | 3 | 4 | 4 | 4 | 4 | 3 | 3 |
| C004 | 5 | 5 | 4 | 5 | 4 | 5 | 4 | 4 |
| C005 | 2 | 3 | 2 | 3 | 5 | 4 | 4 | 5 |
PCA 要求所有分析项为连续或近似连续变量(Likert ≥ 5 点视为近似连续);指标方向必须统一("越大越好"或"越小越好"二选一,否则需先做正/逆向化);样本量建议 N ≥ 指标数 × 10,本案例 8 × 37.5 = 300,满足。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
pca.xlsx - 左侧方法栏 → 进阶方法 → 点击 主成分分析
- 把 8 个指标(政务效率 / 金融环境 / ... / 产业配套)拖入 分析项 框
- 勾选 KMO 与 Bartlett 检验、碎石图、载荷矩阵、成分得分
- 主成分数 选"特征值>1 自动确定"(也可手动固定为 3);勾选 Varimax 正交旋转 便于解释
- 点击 开始分析,结果区会自动输出特征值表、载荷矩阵和综合得分公式
5. 结果表格与结果阅读
结果区按 PCA 标准流程输出 3 张表:先用 KMO + Bartlett 判断是否值得做 PCA,再看特征值确定主成分数,最后用旋转后载荷矩阵解读各主成分的业务含义。
| 检验指标 | 统计量 | 判断标准 | 本案例 |
|---|---|---|---|
| KMO 取样适切性量数 | 0.741 | ≥ 0.9 极佳 / ≥ 0.8 良好 / ≥ 0.7 适合 / < 0.6 不宜 | 适合 ✅ |
| Bartlett 球形检验 χ² | 2197.246 | p < 0.05 表示变量间相关显著,适合做 PCA | 显著 ✅ |
| df | 28 | ||
| p | < 0.001 | ||
| KMO=0.741 + Bartlett p<0.001 同时通过 → 8 个指标之间存在足够的公共方差,适合做 PCA 降维 | |||
KMO 衡量"偏相关相对于简单相关的比例"——值越大说明变量间共享方差越多;Bartlett 检验变量两两独立的零假设,p<0.05 拒绝独立、可继续 PCA。
| 主成分 | 初始特征值 | 旋转后载荷平方和 | ||||
|---|---|---|---|---|---|---|
| 特征值 | 方差% | 累计% | SS 载荷 | 方差% | 累计% | |
| PC1 | 3.640 | 45.50% | 45.50% | 3.498 | 43.73% | 43.73% |
| PC2 | 2.156 | 26.95% | 72.45% | 1.973 | 24.67% | 68.40% |
| PC3 | 1.504 | 18.80% | 91.24% | 1.828 | 22.85% | 91.24% |
| PC4 | 0.174 | 2.17% | 93.42% | — | — | — |
| PC5-PC8 | < 0.16 | 各 < 2.0% | ... | — | — | — |
| 特征值 > 1 的主成分共 3 个(3.640 / 2.156 / 1.504),累计解释 91.24%(远超 80% 阈值);碎石图在 PC3 与 PC4 间出现陡崖 → 保留 3 个主成分 | ||||||
3 个判据共同支持 3 主成分方案:①Kaiser 准则(λ>1);②累计方差解释 91.24%;③碎石图拐点(PC3→PC4 特征值从 1.504 跌到 0.174)。旋转后三主成分方差被略微均衡化(43.73 / 24.67 / 22.85%),有利于业务命名。
| 指标 | PC1 | PC2 | PC3 | 共同度 h² |
|---|---|---|---|---|
| 政务效率 | 0.953 | 0.042 | -0.070 | 0.916 |
| 金融环境 | 0.896 | 0.293 | -0.064 | 0.893 |
| 法治水平 | 0.944 | -0.010 | 0.078 | 0.898 |
| 基础设施 | 0.929 | -0.010 | 0.126 | 0.879 |
| 创新活力 | -0.023 | 0.955 | 0.119 | 0.927 |
| 人才供给 | 0.177 | 0.947 | 0.074 | 0.933 |
| 生活成本逆向化 | 0.013 | -0.042 | 0.965 | 0.933 |
| 产业配套 | 0.030 | 0.273 | 0.920 | 0.922 |
| 每个指标在主导成分上的载荷均 ≥ 0.90,跨载荷均 < 0.30;共同度 0.879-0.933 全部 > 0.85 → 8 个指标都被 3 个主成分高质量解释 | ||||
主成分命名依据:PC1(政务效率 / 金融环境 / 法治水平 / 基础设施 全部 >0.89)→ 政商硬环境;PC2(创新活力 / 人才供给 均 >0.94)→ 创新人才;PC3(生活成本逆向化 / 产业配套 均 >0.92)→ 生活与配套。综合得分公式:Score = 0.4793·PC1 + 0.2703·PC2 + 0.2504·PC3(权重 = 各主成分旋转后方差% / 累计 91.24%)。
7. 文字分析
对 300 个城市 8 项营商环境指标的 PCA 综合评价结果如下:
- 取样适切性:KMO=0.741("适合"区间)、Bartlett χ²=2197.246,p<0.001 → 8 个指标存在显著公共方差,适合用 PCA 降维;
- 主成分数:特征值 > 1 的主成分共 3 个(3.640 / 2.156 / 1.504),累计解释方差 91.24%,碎石图在 PC3-PC4 间陡崖 → 保留 3 个主成分;
- 成分命名:PC1(政务效率 + 金融环境 + 法治水平 + 基础设施,载荷 0.896-0.953)→ 政商硬环境;PC2(创新活力 + 人才供给,载荷 0.947-0.955)→ 创新人才;PC3(生活成本逆向化 + 产业配套,载荷 0.920-0.965)→ 生活与配套;
- 综合得分公式:Score = 0.4793·PC1 + 0.2703·PC2 + 0.2504·PC3(权重为 3 个主成分旋转后方差解释率归一化后的结果)。PC1 权重最大,意味着政商硬环境是城市营商最重要的维度;
- 排名应用:得分前列的城市(如 C133、C225、C042,综合得分 1.63-1.69)三维表现均衡且偏强;末位城市(如 C237、C242,综合得分 -1.56 至 -1.86)在政商硬环境与创新人才两维同时偏弱,建议优先补政商硬环境短板。
结论:PCA 把 8 维原始评价压缩到 3 个相互独立、含义清晰的综合维度,仍保留 91.24% 的原始信息,可作为"政商硬环境-创新人才-生活与配套"三维综合榜单对外发布。若后续要研究综合得分与 GDP、招商引资额等结果指标的关系,可直接把 PC1/PC2/PC3 作为自变量代入回归分析。
8. 剖析提醒
PCA 是数据驱动的降维方法,主成分的业务命名必须结合载荷大的指标人工解读,不能只看数字;指标方向必须事先统一(本案例对生活成本做了逆向化);样本量过小(N < 指标数 × 5)或 KMO < 0.6 时应放弃 PCA,改用专家赋权或 AHP。