关联规则分布式挖掘算法研究和实现

关联规则分布式挖掘算法研究和实现

王越[1]2003年在《分布式关联规则挖掘的方法研究》文中认为数据挖掘是当前KDD中的一个重要领域,而关联规则的挖掘是数据挖掘的一个重要组成部分。Internet/Intranet的高速发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的。本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(C-DMA),分布式多层概念的关联规则挖掘算法,以及分布式元学习可变精度关联规则的挖掘算法;并且,在分析和研究了分布式关联规则挖掘中常见的数量型关联规则、关联规则的兴趣度问题的基础上提出了数量关联规则的聚类划分方法以及兴趣度过滤方法。本文的主要工作和结论如下:(1)对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法。但是,在实际的网络应用环境中,用户基于成本和管理等方面的需要,使用的网络结构往往是星型结构的,所以CD算法和FDM算法在网络结构和实际的网络结构不相适应,本文在CD算法及FDM算法的基础上提出以中心结点结构的分布式关联规则挖掘算法,并且从算法分析和仿真试验两个方面证明了算法的有效性和可扩展性。(2)在分布式挖掘过程中,分布式数据库中存在着大量的数量属性,这些数量属性的处理好坏,直接影响着关联规则的挖掘效果和效率。本文在分析了数量型属性划分的基础上,提出了改进的FCM聚类及其利用遗传算法优化FCM聚类来处理数量型关联规则的方法。(3)在实际的关联规则挖掘应用中,多层概念关联规则是用户经常考虑的问题。本文在设计并分析了单数据库多层关联规则挖掘算法的基础上,提出了在多层概念上进行分布式关联规则挖掘的算法。仿真试验表明,算法是有效的。(4)由于大量数据的分布,提高分布式关联规则挖掘的效率是十分重要的一个环节。本文在Sampling算法的基础上提出了分布式元学习可变精度关联规则挖掘算法。算法分析表明,该算法是有效的。(5)在关联规则挖掘中,关联规则结果的评价是关联规则应用的关键。本文在详细分析了目前国内外关联规则兴趣度评价的基础上,提出了利用Klementinen模版理论与相似性理论向结合的关联规则结果的处理算法。

胡斌[2]2008年在《基于网格技术的分布式空间数据挖掘算法研究》文中研究指明空间数据挖掘是空间信息技术发展的必然结果,其产生主要来自两个方面的推动力。首先,由于数据挖掘研究领域的不断拓展,由最初的关系数据和事务数据挖掘,发展到对空间数据库的挖掘。其次,在地学领域,随着卫星和遥感技术的广泛应用,日益丰富的空间和非空间数据得到收集和存储,海量的地理数据在一定程度上已经超过了人们的处理能力,而传统的地学分析难以胜任从这些海量数据中提取和发现地学知识,正如John Naisbett所说,“我们已被信息所淹没,但是却正在忍受缺乏知识的煎熬”。因此,从空间数据库中自动地挖掘知识,寻找隐藏在空间数据库中不明确的、隐含的知识、空间关系或其它模式,即空间数据挖掘(Spatial Data Mining,SDM),变得越来越重要。但是,GIS空间数据库一般都具有海量特性并且往往分布存储,利用SDM技术从空间数据库或数据仓库中获取隐含的知识和信息,如果仅仅采用传统的集中式处理模式,则无论从数据处理的效率还是空间数据本身的安全性方面来说,都提出了很大的挑战。因此,分布式并行数据挖掘处理模式是目前研究的热点问题之一。而空间知识网格技术的研究与发展,为数据挖掘提供了良好的计算环境和应用前景。本文主要从空间数据挖掘中关联规则发现的串行算法入手,探讨了关联规则挖掘算法的并行化处理问题,并对网格技术应用于空间数据挖掘的相关体系结构进行了研究。本文的主要贡献在于:(1)对空间关联规则挖掘算法进行了系统研究。首先重点研究了Apriori算法、FP-growth算法及其对它们的改进,并将这两个算法分别在5个不同大小的数据集上进行了性能测试和对比;然后研究了空间统计学理论在空间数据挖掘领域的应用,并以湖南省2004年到2006年各市州的GDP增长率为例,成功的挖掘了各市州GDP增长率之间的空间关联关系;(2)研究了空间关联规则挖掘算法的并行化处理模式。为了适应GIS空间数据库海量且往往分布存储的特性,本文给出了分布式空间关联规则挖掘算法的一般结构,并基于Apriori算法介绍了4种并行计算方法:CD算法、CD-LGP算法、DD算法和HD算法,并对它们做了算法性能分析;(3)研究了基于网格技术的空间数据挖掘体系结构。在遵循OGSA体系结构的基础上,本文对面向服务的空间数据挖掘体系结构基本特征进行了分析,并对该体系结构中的数据访问服务、数据代理服务及空间数据挖掘服务的实现方式和流程做了深入的研究:(4)研究了网格环境下空间数据划分的一般策略和方法。通过基于GridSim的网格仿真实验,证实了在特定情形下该数据划分策略存在一个最优解,为网格代理在接收用户提交的任务后对整个任务进行自动化分解和在网格中进行优化调度提供了依据。

韦素云[3]2006年在《分布式关联规则挖掘若干算法研究》文中认为随着数据库和计算机网络技术的广泛应用,许多大型数据库都以分布式形式存在。如何从分布式数据库中挖掘有价值的知识是一个具有挑战性的研究课题。关联规则挖掘是数据挖掘的核心任务之一,它在金融、电信、保险业、市场营销、异常监测、网络安全、科学决策等方面具有十分重要的应用价值,因此受到研究人员的高度重视。本文就约束性关联规则分布式挖掘与更新、模糊数量关联规则分布式挖掘、面向XML数据的关联规则分布式挖掘、关联规则的冗余删除与聚类、关联规则可视化等方面作了较深入的研究。本文的主要研究工作包括以下几个方面: (1) 引入向导集的概念,提出了面向全局-局部模式的分布式约束性频繁项目集挖掘算法DCAR,包括局部约束性频繁项目集挖掘算法CLF和全局约束性频繁项目集挖掘算法CGF,为用户在分布式数据库中挖掘感兴趣的关联规则提供新的方法。 (2) 提出了面向全局-局部模式的约束性频繁项目集的分布式更新算法DUCAR,包括局部约束性频繁项目集更新算法UCLF和全局约束性频繁项目集更新算法UCGF,为在分布式数据库更新情况下快速挖掘约束性关联规则提供新的途径。 (3) 利用模糊集理论,提出了一种基于聚类构造模糊集及相应隶属度函数的算法FAM,在此基础上提出了模糊数量关联规则挖掘算法FAR,考虑在分布式环境中利用分布式聚类构造全局模糊集和全局隶属度函数的算法GFAM,实现模糊数量关联规则分布式挖掘。 (4) 提出了从XML数据中快速挖掘频繁模式的增量式算法FreqtTree,对分布式数据库环境中面向XML数据的关联规则挖掘问题进行研究。 (5) 针对关联规则挖掘中存在大量冗余规则的问题,提出了关联规则的冗余删除算法ADRR,关联规则的聚类算法ACAR,从而方便用户对关联规则进行分析。 (6) 提出了关联规则可视化的一种新方法ARVir,利用Java3D技术实现了基于ARVir的关联规则可视化系统原型,方便用户对结果进行观察和分析。 (7) 实现分布式关联规则挖掘原型系统DDMINER,验证各个算法的正确性,测试各个算法的性能,实验结果表明本文提出的各个算法是有效可行的,且具有较高的效率。

何洪德[4]2012年在《关联规则挖掘算法的研究》文中提出数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则挖掘是数据挖掘研究领域中的一个重要分支,其主要是研究和发现实际应用中数据属性之间的关联关系。本文针对关联规则挖掘算法的相关问题在广泛查阅国内外文献的基础上进行了研究和分析。本文的研究工作主要集中在以下两点。首先,提出了一种分布式全局最大频繁模式挖掘算法(DMGMFP)。该算法包含局部挖掘与全局挖掘两个阶段。在局部挖掘阶段,首先在各站点上分别建立频繁模式树(IFP_tree),并使用有序方式存储频繁项目,然后通过对各局部数据库的扫描,来挖掘出局部最大频繁模式。在全局挖掘阶段,利用各局部数据库生成的最大频繁模式和组通信播报消息的方式,从而挖掘出全局最大频繁模式的集合。通过对算法的实现以及与相关算法的测试比较和在多种情况下的测试结果表明,DMGMFP算法具有较好的性能。其次,提出了一种滑动窗口模型与时间衰减模型相结合的数据流频繁闭合模式挖掘算法(MFCPA-stream)。当数据流流过时,该算法通过动态构建带项目头表的完全合并排序模式树(HMSP-tree),及时捕获数据流上最新的模式信息。同时利用剪枝与合并策略维护HMSP-tree。实验表明,MFCPA-stream算法具有较好的性能。

沈旭昌[5]2004年在《隐私保护的分布式数据挖掘系统》文中认为随着信息时代的到来和计算机网络技术的飞速发展,在分布式环境下,如何进行有效的数据挖掘成为信息科学研究领域一个新的课题。关联规则是数据挖掘研究领域的一个重要问题,目前所面临的最大挑战是计算效率和内存问题,解决的途径之一是开发高效的分布式算法。因此本文主要从分布式的角度出发,针对关联规则的理论和方法进行了深入研究。 本论文主要研究以下叁个问题 ●数据量很大,不能一次载入内存。 ●数据的安全性和隐私性。很多时候客户只愿意提供从数据中学习的结果而不是数据本身的细节。 ●数据是分布式存放的。 分布式数据挖掘的研究尚处于起步阶段,许多问题还有待于解决。其中最重要的两个问题是分布式数据挖掘系统的结构和挖掘算法。 本论文在这两个方面进行了一些有意义的探索: 先提出了一种分布式数据挖掘系统模型,用来实现大容量的数据在分布式存放情况下的数据挖掘。因为该系统模型只传送数据挖掘的中间结果,所以大大减少了网络的数据传输量,并加强了数据的安全和保密性。同时由于该系统模型采用CORBA接口编程技术,使得整个系统模型不依赖于编程语言、计算平台等。 然后在这个原型系统模型的基础上,对分布式数据挖掘算法提出了一些新的思想和好的实现方法。本论文中,主要考虑关联规则挖掘算法,从两个不同的角度从理论上探讨了分布式或并行数据挖掘:(a)由规则到规则:先由各个独立的站点生成各自的关联规则,再在这些关联规则的基础上生成总的关联规则:(b)由数据到规则:由各个独立的站点交换各自的中间结果来生成总的关联规则。然后针对第二种方法,结合安全向量计算协议,提出了一种新的保持隐私的分布式关联规则挖掘算法。 最后,本论文给出了结论,并概述了今后进一步研究的方向。

李海磊[6]2013年在《垂直划分分布数据的多维关联规则挖掘研究》文中指出分布式关联规则挖掘是数据挖掘的重要的研究领域,现在的研究主要集中在水平划分分布的数据,对垂直划分分布数据的研究较少,并且已有的对垂直划分分布数据的关联规则算法研究仅限于垂直划分分布的布尔型数据,没有算法直接处理非布尔量化类型的数据。围绕垂直划分分布数据关联规则挖掘这个主题,对国内外研究现状进行深入分析,结合课题背景,展开了垂直划分分布的非布尔类型数据多维关联规则挖掘研究。首先,针对已有的两方垂直划分分布关联规则算法仅能处理布尔类型数据的缺点,提出了一种基于连接键子集约束的两方垂直划分分布数据的关联规则挖掘算法RTVP。然后,由于课题背景中数据中心与申请者之间有两种对应关系:1)数据中心与单个申请者;2)数据中心与多个申请者。对应关系不同导致数据划分分布方式不同,为了实现这两种关系的分布式多维关联规则挖掘算法,利用RTVP的基本原理,结合数据立方体技术,提出了对这两种不同对应关系情况的全局多维关联规则挖掘算法MDOA和MDMA。最后,为了验证算法正确性,设计了算法验证方案,选取实验数据集,为了模拟数据中心与申请者的两种对应关系,对数据集按照数据的分布关系进行拆分等预处理操作,并建立相应的数据立方体。利用开发工具Visual Studio2008和AnalysisServices将算法程序实现,对算法进行验证。

赵辉[7]2006年在《基于组播的分布式关联规则挖掘算法研究》文中认为随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部门通过自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。由于数据量庞大且分布于不同的地理位置,以及数据库系统中分析方法的严重缺乏,人们无法发现数据中隐藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,其目的就是要从大量数据中找出有意义的模式。 本文详细讨论关联规则挖掘的理论及方法,对如何高效的挖掘关联规则,主要是分布式关联规则进行了深入研究。本文在分析了现有的关联规则挖掘算法及分布式关联规则挖掘算法之后,提出了几个高效的分布式关联规则挖掘算法。 现有的分布式关联规则挖掘算法大多有通信量过大、数据库扫描次数过多的缺点,针对这些问题提出了四个分布式关联规则挖掘算法:PDDM算法,GDS算法,DFP算法和MGMF算法。PDDM算法用接近于实际的频繁项集的通信量,改善了以往分布式算法中通信量过载、算法难于拓展的问题。GDS算法与DFP算法相对于基于Aprioir的算法减少了数据库扫描的次数,相对于其他的分布式算法如FDM算法则减少了算法的通信量,比其他的分布式算法更具拓展型和并行性。MGMF算法不同于以往的最大频繁项集挖掘算法需要不断的更新最大频繁繁项集集合,而是利用高度压缩的FP一树顺序地挖掘出所有的最大频繁项集,只需要扫描数据库两遍,就将所有的最大频繁模式挖掘出来。 本文的主要创新在于: (1)对DDM算法的改进,提出了带权值的PDDM算法,减少了分布式算法的通信量,也提高了算法的拓展性。 (2)将PDDM算法分别和Sampling算法、FP增长算法相结合,提出了GDS算法和DFP算法。GDS算法和DFP算法减少了数据库的扫描次数,提高了分布式算法的拓展性、并行性及挖掘效率。 (3)基于高度压缩关联信息的FP-树结构提出MGMF算法,MGMF算法避免了以往最大频繁项集挖掘算法反复更新候选项集的缺点,而且超集的检测比较

郭俊凤[8]2008年在《分布式关联规则挖掘算法研究》文中提出数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘应用最广泛的技术之一。现有的关联规则挖掘算法和模型主要是基于数据库或数据仓库的,采用集中式处理。随着分布式数据库和网络技术的发展,大量分散的数据不可能集中起来处理,本文就这个问题对分布式关联规则的挖掘的算法进行了研究。本文首先分析和介绍了关联规则的基本概念和方法以及分布式关联规则挖掘方法和技术,讨论了关联规则挖掘的叁种不同频繁项集的关系,基于完全频繁项集存在的问题,提出把挖掘最大频繁项集作为本文的切入点。为了更好的对分布式关联规则挖掘算法进行改进,对现有的典型算法做了实验,通过实验得出了改进的策略和解决方案。并提出一种基于被约束子树的分布式关联规则挖掘算法,该算法不同于以往的最大频繁项集挖掘算法需要不断更新最大频繁项集集合,而是利用高度压缩的FP_树顺序地挖掘出每个站点的最大频繁项集,只需扫描数据库两次,然后站点间采用加优先权值的方法来挖掘全局最大频繁项目集。由全局最大频繁项目集易得全局频繁项目集,再生成用户感兴趣的关联规则。最后,把本文改进的算法应用到分布式存储的高校教学科研数据挖掘中,得到教师教学科研工作的潜在规则,以辅助决策下一阶段的教学科研管理工作。

杨莉[9]2011年在《分布式最大频繁模式挖掘算法的研究》文中指出关联规则挖掘是数据挖掘领域的一个重要研究方向,而频繁模式挖掘作为其中的一个关键技术和步骤,目前已经取得了较丰硕的成果。然而由于频繁模式挖掘的计算复杂度,因此业界提出了最大频繁模式挖掘问题。最大频繁模式不但隐含了所有的频繁模式,而且某些数据挖掘应用只需挖掘最大频繁模式。此外,随着网络技术和分布式数据库技术的迅速发展,使得分布式挖掘最大频繁模式的研究成为必然。另外,在实际挖掘应用中,由于事务数据库可能发生变化,并且用户可能不断调整最小支持度阈值来寻找更有价值的信息,因此如何对挖掘结果进行有效更新也是一个值得研究的问题。本文的研究工作主要体现在以下几个方面。首先,提出了用于挖掘分布式全局最大频繁模式的DMFP算法。该算法在各站点采用改进的频繁模式树(HSFP-tree)来压缩存储事务数据库,并在HSFP-tree上采用深度优先搜索策略来挖掘各局部最大频繁模式,并通过站点间的相互通信最终得到全局最大频繁模式。由于在挖掘过程中,不需产生条件模式树以及候选模式,从而减少了算法挖掘过程中的时间和空间开销。实验结果表明,该算法具有较好的性能。其次,提出了用于解决最小支持度阈值发生变化时的分布式全局最大频繁模式更新挖掘算法UDMFP。该算法在新的最小支持度阈值下,充分利用已挖掘的结果和频繁模式树,能够快速地进行全局最大频繁模式的更新挖掘。实验结果表明,该更新算法具有较好的执行效率。最后,提出了用于解决数据库记录发生变化时更新挖掘分布式全局最大频繁模式问题的CDMFP算法。该算法通过扫描新添加的数据记录得到新的局部最大频繁模式,并充分利用已建立的频繁模式树以及已挖掘的结果,可有效地降低网络通信量,从而提高更新效率。实验结果表明,该更新算法是行之有效的。

荀亚玲[10]2017年在《集群环境下的关联规则挖掘及应用》文中提出大数据催生了各行各业的迅猛发展,各领域呈现出了新产品、技术、服务和发展业态。大数据的战略意义不在于拥有庞大的数据资源,而在于提高对数据的"加工能力",通过"加工"实现数据的"增值"。数据挖掘是实现大数据知识发现的有效手段和途径,利用数据挖掘技术能够深层次地了解大数据背后的价值。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,有效发现大量数据项集之间有趣的关联信息。现有的关联规则挖掘算法因其时空复杂性和I/O代价高,难以适应大数据分析处理任务。本文充分利用MapReduce集群系统的强大数据处理能力,研究了面向大数据的关联规则挖掘方法和性能优化技术,并将其应用于冷轧辊加工质量分析。主要研究成果如下:(1)提出了两种Hadoop集群环境下的频繁项集并行挖掘FiDoop和FiDoop-HD算法。FiDoop算法充分利用了 MapReduce编程模型强大的计算能力,并实现了频繁模式树的压缩存储,避免了条件模式基的递归建立,有效提高了并行挖掘效率;FiDoop的扩展算法FiDoop-HD通过降低项目集的分解代价,从而能够有效地适应于高维数据集。在Hadoop集群平台上,实验验证了该并行算法的可行性和有效性。(2)针对包含FiDoop在内的频繁模式并行挖掘任务存在的数据非本地性问题,提出一种面向频繁项集并行挖掘的数据划分策略FiDoop-DP。该策略利用Voronoi图和LSH技术,尽量将相关性高的事物尽量划分在同一个数据分区,有效地降低了网络传输和计算代价,提高了海量数据的分析效率。在Hadoop集群平台上,实验验证了该数据划分策略的有效性。(3)提出了一种基于Spark内存计算的并行频繁项集挖掘算法。该算法充分利用了 Spark集群的内存计算优势和对迭代式数据处理的支持,并利用新定义的节点计算量预估模型,解决了其在计算过程中出现的负载不均衡问题。在Spark集群平台上,实验验证了该算法的有效性。(4)设计与实现了集群环境下的冷轧辊加工质量分析原型系统。以某钢铁企业的冷轧辊产品生产为背景,利用上述频繁项集挖掘算法和数据划分策略,开发了冷轧辊质量分析原型系统,并对其冷轧辊生产数据预处理、软件体系结构及各模块功能给出了详细分析。运行结果表明该原型系统可以有效发现冷轧辊加工过程中的关键工序及工序间的相关性,从而为企业开展产品质量控制提供了一种新的技术和解决思路。

参考文献:

[1]. 分布式关联规则挖掘的方法研究[D]. 王越. 重庆大学. 2003

[2]. 基于网格技术的分布式空间数据挖掘算法研究[D]. 胡斌. 中南大学. 2008

[3]. 分布式关联规则挖掘若干算法研究[D]. 韦素云. 南京师范大学. 2006

[4]. 关联规则挖掘算法的研究[D]. 何洪德. 西安科技大学. 2012

[5]. 隐私保护的分布式数据挖掘系统[D]. 沈旭昌. 浙江工业大学. 2004

[6]. 垂直划分分布数据的多维关联规则挖掘研究[D]. 李海磊. 燕山大学. 2013

[7]. 基于组播的分布式关联规则挖掘算法研究[D]. 赵辉. 郑州大学. 2006

[8]. 分布式关联规则挖掘算法研究[D]. 郭俊凤. 哈尔滨工程大学. 2008

[9]. 分布式最大频繁模式挖掘算法的研究[D]. 杨莉. 西安科技大学. 2011

[10]. 集群环境下的关联规则挖掘及应用[D]. 荀亚玲. 太原科技大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

关联规则分布式挖掘算法研究和实现
下载Doc文档

猜你喜欢