数据挖掘在经济分析中的应用论文_王炜

（重庆交通大学，重庆 400074）

摘要：随着大数据时代的到来，各行各业面对着新的机遇与挑战，一些新思路被运用到经济分析中，丰富了经济分析的数据基础和分析手段。本文在简介算法基础上，对国内学者在数据挖掘对经济分析的研究进行总结，以期未来更深入的研究。

关键词：大数据；数据挖掘；经济分析

中图分类号：F015 文献标识码：A

本世纪以来，计算机的普及和互联网的迅猛发展使得我们的生活面貌日新月异，已经成为日常生活中不可缺少的一部分。近十年来，互联网信息量呈爆炸式增长，人类社会进入了一个以“PB”为单位的数据信息新时代。数据的量级增长使得诸多行业进行着革命性的变化，如何在大数据时代进行生产研究是一个很值得思考的命题。

数据挖掘指的是通过各种数据分析方法与分析工具，从海量的、模糊的甚至是残缺的实际社会经济数据集中提取有价值的信息与知识，并进一步进行归纳整合以进行更深入分析。数据挖掘能够提供企业管理层有价值的信息，以在决策时进行参考。大数据背景下的数据挖掘重点在前期的特征提取、维数约简以及数据处理算法。

经济学从亚当斯密“国富论”算起至今已有200多年历史，经济学研究的方法也在随着时代不断变迁着。近年来，经济学获奖论文越来越趋向于实证分析，越来越重视与经济社会的实际运行状态相结合，这是在驾驭复杂经济系统的客观需要的同时更加注重与实际问题相结合。实证即用数据来检验理论，从数据中发现规律，并指导理论的提出，因此数据对于经济学的分析是至关重要的。在如今的大数据时代，数据的形势、结构、数量都有了显著改变，传统的计量经济学或许可以与时下流行的数据挖掘与分析相结合，将经济学研究推向新高度。

1数据挖掘

在进行数据处理前，首先需要对数据进行预处理，去除噪声、冗余。根据所研究具体问题的不同，构建不同种类的模型，比较有代表性的有分类问题分析模型、回归问题分析模型、聚类问题分析模型和关联分析模型等，再去适配不同的算法，包括监督学习、半监督学习、无监督学习类的算法。

(1)特征约简

特征约简也称为属性约简，通过移除冗余特征或对原始特征重新表示来减少所分析数据的特征数。特征约简的作用在于降低数据挖掘时的计算代价，提高时效性的同时提升数据分析质量。特征约简的经典方法有主成分分析（PCA）和粗糙集。主成分分析法从特征中计算一组与元特征不相关的新特征并按重要性进行排列，用新特征表征原始数据。粗糙集通过遍历所有特征子集，以特征信息熵作为特征筛选指标，进行特征约简。粗糙集的处理方式相比主成分分析能够在保留基本信息的同时不改变原特征[1]。

(2)朴素贝叶斯

贝叶斯决策论基于概率和误判损失来选择最优的类别标记，算法逻辑简单,易于实现，时间复杂度小，假设特征相互独立，只会涉及到二维存储。基于贝叶斯的方法对缺失数据有容忍度，因此常被用于文本分类；但在多属性问题或属性见相关性较大的问题中，分类效果不好。

(3)决策树

决策树是一种很常见的学习算法，用于处理分类问题，也可以用于分析回归问题。ID3决策树学习算法以信息增益为准则来划分属性，然后对每一个分支结点做进一步划分，最终得到一颗决策树。在ID3基础上把信息增益准则优化为增益率来选择最优划分属性，形成另一种决策树算法C4.5。

期刊文章分类查询,尽在期刊图书馆CART分类回归树算法使用基尼指数来选择划分属性，同时可以处理分类问题与回归问题。决策树的一大优势就是易于解释，生成的决策树具有很强的直观性，但是容易发生过拟合，通过使用随机森林能够很大程度上减少过拟合[2]。

(4)聚类

以上的算法多是有监督学习，聚类通过对样本划分为数个不相交子集实现无监督分类。常用的聚类方式有k-means算法，通过贪心策略，选择K个点作为初始质心，将每个点指派到最近的质心，形成K个簇，重新计算每个簇的质心，簇不发生变化或达到最大迭代次数时达到目的。

(5)深度学习

深度学习的源于人工神经网络的研究。神经网络算法的研究始于BP神经网络，后逐步发展到卷积神经网络、对抗生成网络等等，在谷歌用深度学习打败围棋世界冠军后被公众所熟知。人工神经网络分类的准确度高，并行分布处理能力强，分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，但神经网络计算过程是一个黑箱，不能够很好地针对其过程进行解释，并且需要大量的参数，学习时间很长，甚至可能达不到学习的目的。

2在经济分析中的应用

大数据时代下经济的发展发生着巨大的变化，数据在商业中变得价值连城，并切实的带来巨大的利益。万达一直致力于建设“智慧广场”，用数据对经营状况进行实时分析；淘宝通过对浏览记录、购物记录进行精准商品推荐；视频网站根据用户点播行为，来投放合适的广告类型，使广告的投放更加精准。大数据的商业应用日趋成熟，与此同时不少其他行业的从业者也在积极应用大数据分析技术，经济学者也在宏观经济的分析中引入数据挖掘与机器学习方法，提高了分析与预测的准确定和实效性。

现实世界中的经济问题是复杂且多变的，受经济要素投入、政策制度和社会结构影响外，群体文化、政治体系和自然地理条件也会参与其中。因此，仅仅分析传统的宏观经济指标难以全面准确地判断和预测宏观经济发展趋势。诸多学者在经济分析指标以及模型构建上与大数据技术相结合，得出很好的研究成果。传统的计量经济学模型也可做一定程度上的预测，但指标的选取通常采用结构化的政府统计指标，例如消费者价格指数、进出口总值、生产价格指数、流通的货币量等等，而预测结果通常不够准确。使用互联网大数据对经济运行状态进行分析预测在数据时效性和数据样本量方面有明显优势，通过在互联网中进行搜索与经济相关关键词，并进一步对关键词提取和指数计算，结果显著的提高了预测准确率[3]。

大数据在给经济分析带来更多可能性的同时也面临着不少挑战，例如大数据分析所需大量原始数据，但是缺乏有效的数据筛选标准导致信息可能存在偏差，可能对分析造成不确定的影响[4]。通过数据挖掘可以获得大量解释变量，其高维度与潜在内生性会产生所谓的“维数灾难”与研究偏误[5]。由于大数据分析技术的门槛较高，而针对宏观经济分析的大数据处理平台尚未成熟，需要针对不同的研究问题与数据框架开发不同的大数据分析工具[6]。

参考文献

[1]陈黎飞.数据挖掘中的特征约简[M].科学出版社,2016.

[2]周志华.机器学习[M].北京:清华大学出版社,2016.

[3]刘涛雄,徐晓飞.互联网搜索行为能帮助我们预测宏观经济吗?[J].经济研究,2015,(12):68-83.

[4]刘锋昌.大数据与宏观经济的分析与研究[J].中国市场,2016,(42):28-29.

[5]刘涛雄,徐晓飞.大数据与宏观经济分析研究综述[J].国外理论动态,2015,(1):57-64.

[6]申红艳,吴晨生,扆铁梅,滕飞.大数据时代宏观经济分析面临的机遇与挑战[J].经济研究参考,2014,(63):19-25.

论文作者:王炜

论文发表刊物:《知识－力量》2020年1月1期

论文发表时间:2020/3/26

标签：数据论文; 特征论文; 算法论文; 数据挖掘论文; 神经网络论文; 经济分析论文; 模型论文; 《知识－力量》2020年1月1期论文;

数据挖掘在经济分析中的应用论文_王炜

猜你喜欢