数据挖掘算法研究与应用

数据挖掘算法研究与应用

张佳民[1]2008年在《基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用》文中提出近年来,数据仓库系统在电信业、银行业、零售业、政府机关等都有广泛的应用。数据仓库系统数据量迅速增长和对数据仓库系统需求的发展,对当代数据仓库系统有了新的要求,因此对数据仓库系统及其相关技术的研究有着重要的现实意义。本文通过对实现数据仓库系统的数据仓库、OLAP、数据挖掘叁方面技术进行研究,最后以某市公安信息系统为例,设计实现了公安数据仓库系统。在数据仓库设计技术方面,主要包括实时数据仓库架构的设计和维护数据仓库中缓慢变化维的代理键的研究。实验表明:基于系统数据日志的实时ETL算法和混合型实时数据仓库架构,实现了实时数据仓库与业务系统数据零延时的要求;在数据仓库中,代理键自增序列算法的使用,除了可以维护缓慢变化维,还可以极大的缩减数据仓库的存储容量。在OLAP研究方面,主要研究了OLAP的实现技术与数据存储技术,提出了MOLAP基于Cuboid的数据立方体压缩存储算法,和基于该存储结构的解压缩算法和语义查询算法。实验表明:该算法在压缩稀疏数据的同时,改进了以往多维数组压缩算法对非稀疏数据的敏感性,解决了索引维信息冗余问题。在数据挖掘研究方面,介绍了数据挖掘在数据仓库中的应用,提出最大模糊后验假设,对朴素贝叶斯分类算法进行改进,并与OLAP结合,设计了基于数据立方体的改进朴素贝叶斯分类算法,实验通过对模糊系数的调整,明显提高了朴素贝叶斯分类算法的准确率。在公安数据仓库系统设计方面,结合了公安现有的信息管理系统、全国刑侦联查系统数据接口,设计实现了行政治安和全国刑事侦查两个数据集市组成的实时数据仓库系统。

王斌[2]2008年在《决策树算法的研究及应用》文中指出数据挖掘是致力于数据分析和理解、揭示数据内部隐藏知识的技术,它成为当今信息技术应用的重要目标之一。分类是数据挖掘中的一个重要研究内容,而决策树分类是一种非常有效的分类方法。迄今为止,人们提出了很多种不同的决策树分类算法,各种算法在执行速度、可扩展性、输出结果的可理解性,分类的准确性等方面各有千秋。但它们在理论和实现方法上仍有不足之处。对决策树算法的进一步优化研究不仅有助于算法理论的完善,也有助于算法的推广和应用。ID3算法作为一种流行的决策树算法,因为其算法简单、易实现而被广泛使用。但其生成的树结构往往过于庞大、复杂,也影响了算法效率。为了优化树的结构,提高树生成的效率,避免“过拟合”效应,本文对ID3算法进行了改进。改进算法充分考虑到每个决策属性分类后的效果,即,在分类效果达到某个预定的阈值时则停止继续分类,并引入了最大支持度的概念,采用了前剪枝策略。实验结果显示,改进算法能够使生成的决策树在保证精度的基础上更加精简。文章重点介绍了针对决策树ID3算法的改进,并通过实验对算法的效果进行了验证。接下来,以校园一卡通数据的数据挖掘为项目背景,就备餐问题对数据样本进行了挖掘。对餐饮数据的挖掘分为两个阶段,第一阶段利用SQL语句对一卡通数据进行了预处理,利用SPSS工具对就餐时间进行聚类,将聚类结果作为第二阶段挖掘即分类的输入之一,第二阶段的分类算法使用了改进ID3算法,取得了较好的效果。

马俊贤[3]2008年在《数据挖掘算法在人才测评中的研究与应用》文中认为本文对数据挖掘算法在人才测评中的应用作了研究。随着人力资源管理日益成为企业生存关键的时候,人才测评作为人力资源管理的一项专门技术也越来越受到人们的重视。人才测评是以心理学、管理学、行为科学和计算机技术等学科为基础的一种综合选才的方法体系,为企业的人才招聘、选拔以及调用都起到了重要的作用,是企业有效科学地进行人力资源管理的保证。通过对目前国内外人才测评状况的了解得知,现在企业的人才测评大多处在单一的专家评估上面,主观性太大。而一些人才测评的方法也只是处在简单的线形加权法,这种方法不能将人才测评中的定性方面问题完全解决。为次,本文利用数据挖掘技术对人才测评中的一些问题如人才绩效考核、人才选拔以及分类进行研究,改进了以前算法中的一些不成熟的地方。数据挖掘技术是数据库技术和人工智能技术相结合的产物,解决了在信息技术发展中存在拥有大量数据但缺乏有用信息的问题,完成从业务数据到决策信息的转换。数据挖掘技术能从一些大型的人力资源数据库中找到隐藏在其中的信息,帮助决策人员找到数据间潜在的联系,从而发现企业内部人才的构成情况,有效地进行人才测评。本文首先介绍了国内外研究背景以及发展现状,接着分别介绍了人才测评和数据挖掘的基本理论。在此基础上引入了基于数据挖掘算法的人才测评,包括人才测评体系的构建,权重的确定与量化,人才的分类与选拔,绩效考核以及人才素质评测,最后对各个算法的优缺点进行分析。

吕圣军[4]2008年在《数据挖掘在房地产客户关系管理中的应用研究》文中指出客户关系管理(CRM)是企业的一种商业策略,它在现代企业中扮演越来越重要的角色,是企业提升竞争力的必经之路。在客户关系管理流程中,如何将大量的客户资料和交易数据转化为能够为企业决策提供支持的各种信息是房产企业面临的一个重要问题。面对快速增长的海量数据收集,企业需要有力的数据分析工具将丰富的数据转换成有价值的知识。数据挖掘是一个从大量数据中提取有用的、有趣的知识的处理过程。数据挖掘发现的知识模式有多种不同的类型,常见的模式有:关联模式、分类模式、聚类模式、决策树等。本文着重介绍了关联模式(关联规则)的基本概念、常用的算法和改进算法,以及研究现状,并指出关联规则挖掘是当前的热门。关联规则挖掘算法中,大部分算法都基于Apriori算法进行计算,其在挖掘过程中会产生大量候选项集,降低了关联规则挖掘的效率;同时关联规则挖掘会得到大量冗余规则,降低了关联规则挖掘的效率;并且关联规则挖掘的用户交互性能也较差。本文在深入研究现有算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了一种关联规则挖掘方法—Apriori+算法。Apriori+算法改进了事务数据库的存放形式,提高关联规则的效率和交互性,采用新数据预处理和用户导向的关联规则数据挖掘,其效率有明显的提高。本文基于某房地产开发企业实施的CRM项目,从房地产客户关系管理的实际需求入手,在分析了关联规则挖掘的基本原理和技术特点后,重点讨论了关联规则挖掘技术进行房地产业客户意向分析的问题,对数据挖掘技术在房地产客户管理系统中应用的方式和方法进行了详细探讨,并给出了一个成功实施的案例。

周秀芬[5]2008年在《关联规则算法及度量方法研究》文中研究指明数据挖掘是知识发现(KDD)过程中的核心部分,数据挖掘是从大量数据中发现有趣模式,即从数据库海量的数据中找出隐含的、未知的、但却是非常有用的信息。关联规则是数据挖掘重要技术之一,本文对关联规则进行分析研究,主要包括以下内容:(1)对Apriori算法进行深入研究。分析算法思想,针对算法缺陷,本文分别给出改进算法。实例证明,改进后的算法能有效减少候选项集个数,提高执行效率;有效减少扫描数据库次数,减小I/O负担。(2)深入研究FP-Growth算法思想和FP-Tree存储结构。通过分析算法,得到影响FP-Tree大小的因素,建树的过程中确保压缩效果最好,从而减小I/O负担,提高算法效率。结合实例,比较了Apriori算法和FP-Growth算法性能。(3)对关联规则度量方法进行了深入研究。本文分别从数学和规则度量两个方面,重点分析了兴趣度度量存在的问题。针对现有度量标准存在的不足,结合规则有效性原则,提出一种度量改进方法。分析结果表明,该改进方法可有效屏蔽掉无效规则。最后给出了关联规则一个应用实例,将算法引入到银行客户信息系统中,实验结果表明,改进后的度量可以有效约束规则,改进效果较好。

宿爱霞[6]2008年在《数据挖掘在铝电解槽槽况趋势控制中的研究与应用》文中研究指明本文针对传统铝电解系统中现有的系统数据共享度、集成度低,且只能进行简单的数据录入、查询、统计等事务性的处理过程,不能发现这些海量的数据中蕴含的对企业生产和管理具有重要指导作用的规则和规律,以及决策者迫切需要从海量数据中提取有价值的信息和知识,以用于电解槽的管理,提高生产效益等问题,将数据挖掘技术引入到铝电解控制系统中,并结合计算机网络技术,进行深入的理论和实验研究,主要内容及创新如下:1)在数据库的预处理过程中,对缺失数据,根据新老信息对其的影响,构造加权算子实现空缺值填充,形成等时距序列,最终实现数据挖掘。2)基于Apriori、FP-Growth以及改进的Apriori关联规则算法,挖掘不同槽况之间的关联关系;考虑到挖掘数据是在时间上具有先后顺序的时间序列,提出了基于时间序列挖掘的改进Apriori算法,使挖掘出的规律对生产更有指导价值。3)借鉴时间窗口滑动的思想,建立基于槽况状态窗口滑动的时间序列相似性搜索模型,实现对单槽槽况的预测。4)建立基于ID3算法的分类模型,并利用该模型挖掘出来的规则,实现对系列槽槽况的预测。5)将灰关联分析引入数据挖掘,建立灰关联规则的挖掘框架;在框架内对控制系统产生的数据进行挖掘,获得的灰关联规则表明在给定的时间属性区间内,非主属性对主属性影响程度的大小,为调整电解槽的控制参数提供决策支持,并最终实现电解槽槽况的趋势控制。在上述基础上,设计和开发铝电解数据挖掘系统,并将本系统应用于铝电解生产行业的数据处理中,能够有效指导电解槽的稳定生产、延长槽寿命、提高生产效率,为科学化管理提供依据。

魏晓艳[7]2008年在《多维优化案例推理检索算法研究》文中进行了进一步梳理智能化数据挖掘系统的主要功能是根据用户提交的任务书,在算法库中查找相应的算法自动实现数据挖掘,将用户从繁重的算法设计、算法选择中解脱出来。2006年以来课题组对智能数据挖掘系统展开了相关研究,主要工作有:构建了系统架构;将案例推理技术引入到智能数据挖掘系统;研究了案例的组织和表示,利用模糊商空间进行案例组织;对数据挖掘在银行业的运用进行了详细的分析,构建了基于银行业的案例库,并通过实验验证了所采用案例组织和表示方法的优越性。存在的问题主要表现在:案例知识表示不完善,不能完整地表达出不同任务的关键特性;没有考虑案例推理核心技术-案例检索的优化处理,造成案例的匹配效果不佳;对案例改编和案例自学习的问题研究不充分。针对目前的问题,首先,本文对案例推理技术做了详细的分析,并且对案例检索技术的优化进行了研究,设计了一种结合了遗传算法和分层权重确立法的多维优化模型,从选择属性、确定权值,选择案例叁方面对以最邻近检索策略为主的检索策略进行了优化处理,使得检索更具有目标性。其次,本文对案例库的表示进行了扩展,从问题描述、过程描述、目标类型、系统要求、用户评价五个方面分别对案例进行描述。第叁,考虑到用户在某一段时间对于数据的关注有一定的规律性,本文建立了用户信息库,利用用户信息为案例检索提供反馈信息,构成一个反馈式的案例推理系统,从而减少了案例推理所带来的时间上的耗费。最后在案例改编上本文采用了在案例库中多加一个案例改编表,该表记录了案例曾经的修改经验。通过这种改编经验来改编案例。基于不同的算法对不同的数据类型的反应不同,所以改编主要是针对算法的参数进行修改。修改的时候也是采用改编记录和常规修改函数两种方式相结合。在案例学习上也就是案例库的更新上本文使用以用户的评价和使用率的平均值作为依据进行剔除和更新。在实验方面主要是做了两个验证,一个是关于多维优化算法的验证,选取基于遗传算法的单目标和两维优化经典模式代表,与本文的模式做比较,从搜索空间和案例推理结果上做了比较。证明了多维优化的优越性。另外,对本系统的整体表现做了评估,主要是取目前开源的比较好的机器学习工具WEKA作为对比对象。从时间和结果上进行了对比,得到了比较满意的结果。

黎敏[8]2004年在《数据挖掘算法研究与应用》文中指出数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。目前数据挖掘逐渐发展成为一个多学科领域,涉及到多方面的技术,特别是和计算智能方法的结合越来越紧密。 本文首先介绍了数据挖掘的基本概念、任务、功能、应用及发展方向等。接着介绍了关联分析的基本概念、分类及经典的Apriori算法思想。然后,提出了一种基于双向关系的优对关联关系的挖掘算法。并详细介绍了这个规则的数学描述及数学关系,最后给出了算法,并用实例验证了算法。聚类算法是数据挖掘中的核心技术之一,在整个数据挖掘过程中有着非常重要的作用。聚类算法的选择取决于聚类的数据、聚类的目的和应用。本文通过对数据挖掘技术中的常用聚类分析方法进行了详细的对比,并从综合评价聚类算法的几个方面对常用的聚类方法作了比较分析。在此基础上提出一种改进的K-Means算法,主要是改进原来的算法对孤立点比较敏感的缺点。最后介绍了遗传算法的基本概念、数学理论和实现技术等,然后结合遗传算法的全局寻优能力和聚类分析的局部搜索能力,提出了一种混合的聚类算法。该算法能很好的改进聚类,从而得到较佳的聚类结果。

秦亚辉[9]2016年在《大数据环境下企业销售数据处理方法与市场感知研究》文中研究表明随着企业信息化的推进与发展,销售数据急聚增加,由于销售数据在企业决策中的重要作用,挖掘销售数据中的有用信息是亟待公司解决的问题。研究出能够在大数据环境下挖掘销售数据有效信息的数据处理方法,正确地使用海量数据中挖掘出来的有效信息也是企业的迫切需求。本文利用海量销售数据中包含的销售数据走势预测未来销售数据的趋势,感知市场状况,掌握市场动向,给企业销售决策者提供有效的销售数据动向参考信息,为生产、营销,以及判断市场状况提供决策依据。围绕以上问题,本文对于大数据环境下的企业销售数据挖掘算法和企业市场的预测模型做了一下主要研究:(1)运用Hadoop平台存储大数据,并且运用Hadoop的MapReduce抽取需要处理的数据,并导入到关系型数据库中,根据数据挖掘算法中对数据结构的需求,针对数据中的不同的数据异常对数据使用不同的清洗策略进行清洗与数据规范,再将处理后的数据交付给关系型数据库。(2)针对传统的大数据挖掘算法存在的问题,本文提出了基于分块后重迭k-means聚类的KNN分类算法,算法通过给传统KNN算法增加一个训练过程的方式让KNN算法能够运用于大数据环境,并且能够快速准确地对数据进行分类,大大提升了分类算法的效率。并且通过新算法,对零售户数据中的几个规格卷烟的销售详情进行分类,统计其分类结果,与实际的数据进行了对比,验证了算法的可行性与准确性。(3)分析各类预测模型对于本文的研究内容的适用性,根据本文的数据特点以及预期的预测结果数据特点选择了适合的预测模型:差分自回归滑动平均模型(ARIMA(p,d,q))与灰色模型,作为本文的市场感知模型的基础。(4)以企业的零售数据为实验数据,建立结合ARIMA差分自回归滑动平均模型与灰色模型的市场感知模型。根据ARIMA自回归移动平均模型能够准确地预测未来短期的销售数据,但是,由于随着预测时间越长预测的准确率越低的特点,在ARIMA模型的基础上使用灰色拓扑模型进行长期的销售数据预测,让企业能够看到的不仅仅是未来半年或者一年内的销售数据的预测,而且能给企业提供更加准确掌握未来市场动向的数据。

肖亚飞[10]2017年在《加权关联规则在钻井作业安全预警中的研究与应用》文中进行了进一步梳理关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储中的大量数据项之间隐藏的、有趣的规律。加权关联规则在关联规则的基础上引入权值的概念,改善了把所有规则都视为同等重要、产生大量无效规则的缺点,和传统算法相比,加权关联规则更有利于解决数据库中项目分配不均和重要程度不同的问题。本文研究了关联规则经典算法Apriori,通过Apriori算法的思想和挖掘规则的流程知道了 Apriori算法的不足之处,然后提出了算法的优化思想。Apriori算法不能挖掘出小权值项,因此我们对关联规则加入权值思想。本文重点研究了加权关联规则算法。首先重点介绍了几种关联规则的算法模型,分析了这些算法模型的优缺点。然后研究了 New-Apriori算法、MINWAL(O)算法、权重归一化和基于概率的加权关联挖掘算法等,同时分析这些算法的优缺点,并对这些算法的不足提出优化思想。然后提出一种改进加权关联规则算法,该算法把数据存储在0-1矩阵中,利用矩阵运算提高了项的支持度运算速度,并且在整个挖掘过程中只需要扫描一次数据库,减少了存储空间占用;保留频繁项的向下封闭性,加入候选项集的剪枝操作,减少了算法中间项的产生,提升算法运行速度;在传统支持度和置信度的基础上加入兴趣度阈值,提高产生规则的有趣性。把改进的算法应用于在钻井作业安全预警中,采用石油公司日程作业安全隐患记录数据。钻井作业安全预警的隐患可以分为人的违章、物的隐患和环境因素叁大类,在挖掘过程中对这叁类危险源设置不同的权值进行实验。根据实验结果验证了基于加权关联规则的挖掘可以应用于油气钻井作业领域的安全预警、改进加权关联规则挖掘出的隐患关联规则是具有意义的、改进算法比之前的算法在时间效率和空间效率更优。

参考文献:

[1]. 基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用[D]. 张佳民. 吉林大学. 2008

[2]. 决策树算法的研究及应用[D]. 王斌. 东华大学. 2008

[3]. 数据挖掘算法在人才测评中的研究与应用[D]. 马俊贤. 中北大学. 2008

[4]. 数据挖掘在房地产客户关系管理中的应用研究[D]. 吕圣军. 浙江工业大学. 2008

[5]. 关联规则算法及度量方法研究[D]. 周秀芬. 南京理工大学. 2008

[6]. 数据挖掘在铝电解槽槽况趋势控制中的研究与应用[D]. 宿爱霞. 北方工业大学. 2008

[7]. 多维优化案例推理检索算法研究[D]. 魏晓艳. 太原理工大学. 2008

[8]. 数据挖掘算法研究与应用[D]. 黎敏. 大连理工大学. 2004

[9]. 大数据环境下企业销售数据处理方法与市场感知研究[D]. 秦亚辉. 浙江理工大学. 2016

[10]. 加权关联规则在钻井作业安全预警中的研究与应用[D]. 肖亚飞. 西南石油大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘算法研究与应用
下载Doc文档

猜你喜欢