主成分分析中的信息损失与效率估计_主成分分析论文

主成分分析中的信息损失及其效率估计，本文主要内容关键词为：成分论文,效率论文,损失论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：O212.4　文献标识码：A

一、主成分中信息损失的不可避免性

主成分分析是常用的多元统计数据分析方法之一，它就是设法将原来众多具有一定相关性的指标重新组合成一组新的互相无关的综合指标，同时根据实际需要从中选取较少的几个综合指标尽可能多的反映原有指标的信息[1]。从空间的角度看，就是建立由p个指标组成的高维空间到低维空间的映射。

目前主成分分析已得到了广泛的认同，普遍的应用于社会经济各个领域，形成了一套比较成熟的方法步骤[2]。但是采用主成分方法，也经常会出现结果同实际相差较远的情况，这说明用主成分分析得到的结果并不能完全反映出原始变量（指标）的信息，在处理过程中有大量信息的丢失，导致事实的扭曲。针对这种情况，本文首先分析了在主成分一般步骤下，可能会出现的信息损失。

表1 主成分方法中的信息损失

基本步骤可能出现的问题

1　指标的选择指标代表性和全面性的矛盾[3,4]

2　原始指标数据的标准化

　由于几何的相似变换而改变了原有的数据

结构，改变了变量的变异信息，丢失了部分

信息[5～7]

3　求相关系数矩阵及其特

对存在非线性关系的数据（包括

征根、特征向量成分数据）进行线性处理，损失了部分

信息[8,9]相关矩阵特征向量的方向问题[7,10,11]

4　根据累积贡献率确定主　

降维，用较少的新变量替代较

成分的个数　多的原变量，损失部分原始信息[8,12]

5　合成主成分得到综合评价值　信息权在合成主成分和综合评价值的两次赋权造

成对样本差异的二次放大，并且指标间存在重要

性的差异[13,14]

从表1可以看到：在进行主成分分析时，每一步都可能存在或多或少的信息损失，这样得到的结果就直接影响了对事实结论的评判。虽然对这些可能出现的问题已经有了许多行之有效的处理办法，但仍不能从根本上解决信息损失问题。这是因为主成分分析的核心仍是降维的思想，那么在从高维到低维的映射中必然伴随着信息的损失。所以，在主成分分析中信息损失是不可避免的，只是信息损失量大小的差别而已。

二、主成分分析的效率估计

实际中，对于一些原始变量较少、数据结构比较简单的问题采用主成分分析可能不是一种最好的方法[11]。因为这些数据在用主成分处理时降维效果不显著，不能体现出主成分的优点，所以效率是比较低的。

由此引出一个问题：如何衡量一组数据是否适合利用主成分分析法？即数据处理结果是否有较好的降维效果，是否能较完整的反映出原始变量的信息等等。我们将这些都统称为主成分的效率估计。也就是说，效率估计是用来估计一组数据采用主成分分析处理效果程度的。估计值越大，说明该组数据降维效果越好、丢失信息越少、越适合采用主成分分析；反之，亦反。

下面构造效率统计量β。

首先，累积贡献率Q表示选出的主成分反映全部变量指标信息的大小。Q越大，说明选出的主成分包含原始变量的信息越多，则效率越高；若Q越小，说明信息在主成分的降维过程中损失的越多，则效率越低。所以累积贡献率Q和效率统计量是成正比的。

但是，单从累积贡献率是无法区分出效率大小的。因为可以增加主成分的个数来提高累积贡献率，但是降维的效果就大大降低了。可见，统计效率同选取的主成分的个数有关。

同时注意到选取的主成分的个数同原始变量（指标）的个数也有密切的关系。一般的，变量（指标）越多，所选出的主成分个数就越多。这是因为原始变量增加，空间的维数增加，样本点更加分散，信息就越分散，这样就势必要靠增加主成分的个数来提高所选主成分占有的信息量。

因此，设p表示原始变量（指标）的个数，m表示选出的主成分的个数。令

核心主成分表明这些选出的前k个主成分包含了大部分的原始信息，则在主成分中起核心作用。一般的，核心主成分越大，说明原始信息越集中在前几个核心主成分得以体现而不是分散于各主成分上，则降维效果越好、效率越高。

三、效率统计量的模拟分布

对统计量β的分布，不仅涉及更多的未知参数r、η等，而且主成分中原始指标个数不同、评价对象不同，β也就会不同，所以很难得到β的理论分布。但可以对同一样本进行β的模拟分布实验。这样通过大量的实践，可以得到判断变量（指标）采用主成分效率高低的阈值。

目前主成分分析已广泛的应用于上市公司经营效益的评价中[15]。这里选取宝钢股份、格力电器等100家上市公司2001年的年报数据为样本（数据来源http://www.stockstar.com)，按照标准[16]选取评价指标。每次从总体中随机抽取15家公司的资料，并利用SAS统计软件做标准的主成分分析，可计算得到对应的效率统计量。连续进行50次随机实验，可得到关于β的模拟分布值（认为进行50次，就可以近似模拟出β的分布了）。对这些模拟分布值进行正态性检验[17]，可得部分结果如表2。

首先看最后一行。W:Normal值(W=0.9803)越大越表明数据来自正态分布。Pr＜W的值表示对分布具有正态性的怀疑程度，其值越接近于0，则表明越拒绝数据来自正态分布的假设。由p=0.7398，可推断β的模拟数据与来自正态总体的样本没有显著性差异。

另从偏度值(Skewness=-0.14445)利峰度值(Kurtosis=0.016643)都接近于0，也可看出β的正态性。此时均值Mean=0.795044，方差Variance=0.000559。附图为模拟统计量的直方图。

表2　正态性检验结果

统计量　数值　

统计量

　数值

50 　 Sum Wgts　50

Mean　0.795044　Sum 　

39.7522

Std Dev0.02365Variance0.000559

Skewness -0.14445　 Kurtosis0.016643

USS 　

31.63215 　

CSS

0.027406

2.974645Std Mean0.003345

T:Mean=0 237.7114 　Pr＞｜T｜0.0001

Num=0

Num＞0

M(Sign) 　

25　Pr＞＝｜M｜0.0001

Sgn Rank637.5Pr＞＝｜S｜　

0.0001

W:Normal 0.980316　Pr＜W　0.7398

附图模拟统计量直方图

用同样的方法对其他样本进行β的模拟分布实验，实验结果也都大体相同。故可认为β效率统计量服从正态分布，并且可选定阈值β[,0]=80%（也可根据实际情况调整）。

这样，若一组数据进行主成分分析后得到的效率估计值大于β[,0]，则可认为该组数据用主成分分析效果较好，效率高；反之，亦反。

因此，利用效率统计量就可以刻画出变量（指标）是否适宜采用主成分分析，它有利于我们选择更好的方法来评判被研究对象，提高使用方法的效率，得到更好更优的结果。

标签：主成分分析论文; 检验统计量论文;

主成分分析中的信息损失与效率估计_主成分分析论文

猜你喜欢