主成分分析在SPSS中的操作应用

主成分分析在SPSS中的操作应用

主成分分析原理

主成分分析是设法将原来众多具有一定相关性 ( 比如 $P$ 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 $P$ 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 $F_1$ ( 选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即 $Var(F_1)$ 越大, 表示 $F_1$ 包含的信息越多。因此在所有的线性组合中选取的 $F_1$ 应该是方差最大的, 故称 $F_1$ 为第一主成分。如果第一主成分不足以代表原来 $P$ 个指标的信息, 再考虑选取 $F_2$ 即选第二个线性组合, 为了有效地反映原来信息, $F_1$ 已有的信息就不需要再出现在 $F_2$ 中, 用数学语言表达就是要求 $Cov(F_1 , F_2 )=0$ , 则称 $F_2$ 为第二主成分, 依此类推可以构造出第三、第四, ⋯⋯, 第 $P$ 个主成分。

主成分分析法简介

一项十分著名的工作是美国的统计学家斯通( ( stone) 在1947 年关于国民经济的研究。他曾利用美国 1929 一 1938年各年的数据，得到了 17 个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。

在进行主成分分析后，竟以 97.4 ％的精度，用三新变量就取代了原 17 个变量。根据经济学知识，斯通给这三个新变量分别命名为总收入 $F_1$ 、总收入变化率 $F_2$ 和经济发展或衰退的趋势 $F_3$ 。

主成分与原始变量之间的关系：

主成分保留了原始变量绝大多数信息。
主成分的个数大大少于原始变量的数目。
各个主成分之间互不相关。
每个主成分都是原始变量的线性组合。

主成分分析数学模型

{\begin{matrix} F_{1} = a_{11} Z X_{1} + a_{21} Z X_{2} + \dots \dots + a_{p 1} Z X_{p} \\ F_{2} = a_{12} Z X_{1} + a_{22} Z X_{2} + \dots \dots + a_{p 2} Z X_{p} \\ \dots \dots \\ F_{3} = a_{1 m} Z X_{1} + a_{2 m} Z X_{2} + \dots \dots + a_{p m} Z X_{p} \end{matrix}

$\left\{ \begin{array}{c} F_1=a_{11}ZX_1+a_{21}ZX_2+\cdots\cdots+a_{p1}ZX_p \\ F_2=a_{12}ZX_1+a_{22}ZX_2+\cdots\cdots+a_{p2}ZX_p \\ \cdots \cdots \\ F_3=a_{1m}ZX_1+a_{2m}ZX_2+\cdots\cdots+a_{pm}ZX_p \\ \end{array} \right.$

其中 $a_{1i} , a_{2i} , ⋯⋯ ,a_{pi} (i=1, ⋯⋯ ,m)$ 为 $X$ 的协方差阵 $\sum$ 的特征值多对应的特征向量, $ZX_1 , ZX_2 , ⋯⋯ , ZX_p$ 是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响 [ 注: 本文指的数据标准化是指 $Z$ 标准化 ] 。
$A=(a_{ij})_{p×m}=(a_1 ,a_2 , ⋯ a_m ,)$ , $Ra_i =\lambda_ia_i$ , $R$ 为相关系数矩阵, $λ_i$ 、 $a_i$ 是相应的特征值和单位特征向量 , $λ_1 ≥λ_2 ≥ ⋯ ≥λ_p ≥0$ 。

进行主成分分析主要步骤如下:

根据研究问题选取指标与数据;
进行指标数据标准化( SPSS 软件 Factor 过程自动执行) ;
进行指标之间的相关性判定;
确定主成分个数 $m$ ;
确定主成分 $F_i$ 表达式;
进行主成分 $F_i$ 命名;
计算综合主成分值并进行评价与研究。

对沿海 10 个省市经济综合指标进行主成分分析

地区	GDP	人均GDP	农业增加值	工业增加值	第三产业增加值	固定资产投资	基本建设投资	社会消费品零售总额	海关出口总额	地方财政收入
辽宁	5458.2	13000	14883.3	1376.2	2258.4	1315.9	529	2258.4	123.7	399.7
山东	10550	11643	1390	3502.5	3851	2288.7	1070.7	3181.9	211.1	610.2
河北	6076.6	9047	950.2	1406.7	2092.6	1161.6	597.1	1968.3	45.9	302.3
天津	2022.6	22068	83.9	822.8	960	703.7	361.9	941.4	115.7	171.8
江苏	10636	14397	1122.6	3536.3	3967.2	2320	1141.3	3215.8	384.7	643.7
上海	5408.8	40627	86.2	2196.2	2755.8	1970.2	779.3	2035.2	320.5	709
浙江	7670	16570	680	2356.5	3065	2296.6	1180.6	2877.5	294.2	566.9
福建	4682	13510	663	1047.1	1859	964.5	397.9	1663.3	173.7	272.9
广东	11770	15030	1023.9	4224.6	4793.6	3022.9	1275.5	5013.6	1843.7	1202
广西	2437.2	5062	591.4	367	995.7	542.2	352.7	1025.5	15.1	186.7

运用 SPSS 统计分析软件 Factor 过程 [2] 对沿海 10 个省市经济综合指标进行主成分分析。具体操作步骤如下:

点击：分析→降维→因子… , 弹出因子分析对话框；
把 $X_1 ～X_{10}$ 选入变量框；
点击：描述→系数（勾选）；提取→碎石图；得分→显示因子得分系数矩阵；最后点击确定；

生成图表

SPSS 在调用 Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但 SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用 Descriptives 过程进行计算。
这里写图片描述

如，GDP和GDP的相关性为1，自己和自己相关性最强；人均GDP和GDP的相关性为-0.094，说明两者相关性不强；等等；
从上表可知 GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。

这里写图片描述

左图：可以看出第一个特征GDP占72.205%，前两个特征累计占84.551%；所以提取2个主成分，即m=2。
右图：可知 GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均 GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。

方法一

用成分矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数；
例如： $F_1$ 系数 $a_{11}=\frac{0.949}{\sqrt{7.220}}=0.353$ ， $F_2$ 中 $a_{11}=\frac{0.195}{\sqrt{1.235}}=0.175$

$F_1 =0.353ZX_1 +0.042ZX_2 - 0.041ZX_3 +0.364ZX_4 +0.367ZX_5 +0.366ZX_6 +0.352ZX_7 +0.364ZX_8 +0.298ZX_9 +0.355ZX_{10}$

$F_2 =0.175ZX_1 - 0.741ZX_2 +0.609ZX_3 - 0.004ZX_4 +0.063ZX_5 - 0.061ZX_6 - 0.022ZX_7 +0.158ZX_8 - 0.046ZX_9 -0.115ZX_{10}$

上式中 $ZX_i$ 是归一化之后的数据，使用SPSS进行数据标准化，方法如下：
1. 点击：分析→描述统计→描述；
2. 将所有选项导入变量中；
3. 勾选标准化值；
这里写图片描述

生成归一化之后的Z值：
这里写图片描述
例如：求辽宁的 $F_1=0.353*-0.35567+0.042*-0.31866+……+0.355*-0.34163$ ；
求 $F_2$ 方法类似；
$F=(72.2/84.5)F_1+(12.3/84.5)F_2$

方法二

使用成份得分矩阵求 $F_1和F_2$ 。
这里写图片描述
直接使用成分得分系数做为系数，如下公式：
$F_1 =0.131ZX_1 +0.015ZX_2 - 0.015ZX_3 +0.135ZX_4+0.137ZX_5 +0.136ZX_6 +0.131ZX_7 +0.135ZX_8+0.111ZX_9 +0.132ZX_{10}$

$F_2 =0.158ZX_1 - 0.667ZX_2 +0.548ZX_3 - 0.004ZX_4+0.056ZX_5 - 0.055ZX_6 - 0.020ZX_7 +0.142ZX_8 -0.041ZX_9 -0.104ZX_{10}$

$F=(72.2/84.5)F_1+(12.3/84.5)F_2$

方法一结果

这里写图片描述

方法二结果

这里写图片描述

参考链接

论文：主成分分析在SPSS中的操作应用
视频：主成分分析法