spss主成分分析步骤,spss主成分分析详细过程
摘要:主成分分析,英文全称为Principal Component Analysis,简称为PCA。它是把原始变量进行线性组合,生成新的变量就是主成分,可以用下面的方程的表示主成分与原始变量的关系:ym= u1mx1+u2mx2+……+ummxm。用少数几个主成分表示原来很多变量的一种分析方法。
1什么是主成分分析
主成分分析,英文全称为Principal Component Analysis,简称为PCA。
主成分分析是在损失很少信息的前提下,把多个指标转化为少数几个综合指标进行分析的方法,也称之为降维,转化生成的综合指标称之为主成分。
每个主成分都是原始变量的线性组合,而且各主成分之间不相关。
由协方差矩阵求解主成分所得的结果与相关矩阵求解得到的主成分结果有很大的不同,怎么选择呢?
相关矩阵得到主成分:当度量单位不同,或者取值范围差异很大的指标,不能由协方差矩阵得到主成分,应该把数据标准化后,从相关性矩阵求得主成分;
协方差矩阵得到主成分:对于度量单位相同,取值范围在同一数量级的指标,可以直接从协方差矩阵求得主成分;
2主成分分析的使用条件
要对多维数据进行主成分分析,数据先要满足2个假设:
(1) 观测的变量是连续变量或者是有序分类变量;
(2) 变量之间存在线性关系;
主成分分析适用于变量之间存在较强相关性的数据,当原始数据的大部分变量的相关系数都小于0.3时,应用主成分分析取得的效果就不是很理想。
3 主成分分析的步骤
(1) 数据标准化;
目的是使数据度量一致;
标准化的方法见链接:
(2) 建立相关系数矩阵,检验变量之间是否相关
主成分分析的前提条件数据之间存在相关关系,所以要提前检验数据之间是否存在相关性;
检验相关的方法:
相关系数不小于0.3;
KMO值应该大于等于0.6, Bartlett的球形度检验的Sig值应该小于等于0.05;
(3) 计算协方差矩阵
(4) 计算特征值与特征向量
相关系数矩阵R的特征值λ1≥λ2≥……≥λm≥0
相关系数矩阵特征向量μ1,μ2….,μm;
(5) 计算主成分的贡献率和累积贡献率
(6) 确定主成分
案例分析:
由19个样品,分别测定里面的8种金属元素K、Ca、P、Fe、Zn、Al、Na和Mg的含量,现在要通过主成分分析,了解19个样品之间的差异程度;
分析:
目的是要了解样品之间的差异,每个样品有8个指标,也就是8个变量,或称之为8维数据;
8个指标=8个变量=8维数据
两组数据还可以使用散点图来很直观地区分和判断,例如每个样品只有两个指标,分别是Ca和K的含量,可以使用下面的平面散点图来表示样品之间的分布;
如果每个样品是三个指标,可以使用三维的散点图来表示,例如每个样品测定了Ca、K和P三个指标,可以使用下面的三维散点图来表示:
现在的问题是,每个样品有8个指标,也没有八维的散点图可以表示,那怎么办?
主成分分析就可以解决这种问题,可以把8个指标采用线性组合,生成新的指标,用来表示原来的8个指标,这就是主成分;
y1=u11x1+u21x2+……+um1xm
y2= u12x1+u22x2+……+um2xm
……
ym= u1mx1+u2mx2+……+ummxm
其中y就是主成分,有多少个变量,就有多少个主成分,上面的案例有8个指标,也就是8个变量,到时候就可以有8个主成分;
u1……um,就是相关系数矩阵的特征向量;
对于每一个m,都有:
u112+u212+……+um12=1
u122+u222+……+um22=1 ……
u1m2+u2m2+……+umm2=1
原始变量有8个,主成分也有8个,变量数量没有改变,怎么就降维了呢?
8个主成分根据对原始变量的解释程度,我们可以选取解释原始变量80%(根据实际情况而定)的主成分即可,意思是只用选取其中几个主成分就可以表示原始的变量,不用全部选择。
本文地址:百科问答频道 https://www.neebe.cn/wenda/929212.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!