关联规则挖掘算法及其在Web挖掘上应用的研究

关联规则挖掘算法及其在Web挖掘上应用的研究

王永利[1]2003年在《关联规则挖掘算法及其在Web挖掘上应用的研究》文中提出由于应用性的数据的爆炸式增长(如商业分析),及计算机的软硬件技术的发展完备,数据挖掘已经成为近几年来应用最广泛的分析数据的工具。挖掘重要数据仍然需要配合许多其他领域的技术才能得到完善有效的结果,其中包括机器学习,人工智能,统计学原理,数据库系统,数据可视化等。然而目前大多数挖掘关联规则的算法往往必需多次扫描事务数据库才能达到要求的目标,这样重复性的数据库存取动作将会导致过多的执行时问浪费在I/O动作上,另外在频繁集生成规则时现有的算法没有考虑到规则的大量冗余,为了解决这个问题本文提出了一个不需要生成候选集同时有效的去除生成规则时产生大量冗余的算法QAIS,来提高关联规则生成的速度,并且在此算法基础上提出了新颖的关联规则增量更新算法AIU,通过应用合成数据验证了QAIS/AIU算法的有效性,由试验结果来看这个方法确实能更有效且准确地获得事务数据库的关联规则,尤其适合挖掘超大数据库中高支持度下长模式的挖掘。然后论文介绍了关联规则的一种扩展—时间序列模式挖掘方面的算法,给出了Web日志文件挖掘的高效、新颖的改进算法,并用实验验证了此种方法的有效性。论文的最后讨论了关联规则挖掘领域面临的几个问题。

班秋成[2]2018年在《基于Hadoop的Web日志存储和分析系统的研究与实现》文中研究指明随着互联网技术的高速发展,Web上的信息服务越来越丰富,挖掘Web日志中用户访问行为潜在的信息,对于Web站点优化、业务扩展、用户个性化服务等都有着重大意义。但是随着Web日志数据量的与日俱增,现有的Web挖掘算法处理海量小日志文件时,在小文件的存储和关联规则挖掘方面都存在诸多问题,主要体现在合并小文件时没有考虑异步方案而导致合并阻塞,同时在进行关联规则挖掘时因为数据的分散影响了挖掘的效率。本文基于Hadoop的分布式文件存储系统HDFS(Hadoop Distributed File System),研究和设计了针对Web日志数据的小文件异步存储方案,提出了一种优化的聚类算法来对大量的日志数据进行分类,同时实现了一套高效的Web日志关联规则挖掘系统。主要研究成果如下:首先,针对HDFS存储小文件消耗大量内存和读取效率慢的缺点,提出一种基于监听任务队列的小文件异步合并方案和预取策略,使文件上传和下载能够高效的执行。实验表明,相对现有的解决方案节约了 60%以上的小文件上传和下载的时间以及减少了 40%以上的主节点内存消耗。其次,提出基于全局误差函数的K-means聚类划分算法,同时基于聚类用FP-Growth算法对日志数据进行关联规则挖掘,避免构建FP树内存消耗过大的缺点。实验表明,在日志关联规则挖掘上节约了 50%以上的执行时间,同时挖掘的频繁项和关联规则数量也提升了 60%以上。最后,为了准确挖掘页面之间的关联关系以及动态配置挖掘参数,实现了 Web日志关联规则挖掘系统。通过对数据进行了对称加密和数字验证,确保了日志的安全性,同时结合改进的HDFS存储方案和优化的聚类算法对日志数据进行关联规则的挖掘,可以实时监控任务执行情况和获取执行结果。

胡新新[3]2014年在《一类电子商务软件的智能搜索引擎的设计与研究》文中指出随着互联网的迅速发展,特别表现在电子商务这种商业模式下,电子商务平台上每天就会产生大量的隐含有价值信息的交易数据与浏览数据,这些数据又是不确定性和非结构化的,如何将这些数据中的有价值的信息提取出来,Web数据挖掘技术也就诞生了。现在很多大型电子商务系统从不同程度上运用数据挖掘技术,从而能够给用户提供个性化的服务。本课题主要是建立一个基于Web数据挖掘技术的电子商城系统,用户能够在该系统中的个性化服务管理模块获得个性化的服务。本文主要做了以下工作:(1)首先综述了Web数据挖掘的基本概念、分类与方法,还有Web数据挖掘的具体实现过程与相关的理论。然后综述了搜索引擎的基本概念、分类、工作原理、关键技术和框架原理。通过对Web服务与移动Agent技术的理论的研究,提出运用Web服务分布式思想和移动Agent的智能性,来实现基于Web数据挖掘技术的电子商城系统。(2)在对Web挖掘算法的研究上,对关联规则中的Apriori算法与聚类中的k-means算法的缺点经过了改进,而且用试验检验了改进算法的有效性,提高了查询效率。(3)最后在Myeclipse的运行环境下,采用Java语言在struts框架结构之下,采用JavaServlet和JSP技术来构造MVC设计模式,该系统实现了用户管理模块、商品管理模块、系统管理模块与个性化服务管理模块的部分功能。本文的工作重点是放在了个性化服务管理模块,该模块能够给用户提供个性化的服务,该模块的功能是智能搜索和智能推荐,在用户浏览某个商品时,智能推荐模块能够自动地将与此商品相关联的商品显示在该浏览商品的页面中。

马海兵[4]2005年在《频繁模式挖掘相关技术研究》文中指出随着计算机与信息技术的普及及大容量存储技术的发展,人们在日常事务处理和科学研究中积累了大量宝贵的数据。如何从中提取或“挖掘”用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。频繁模式挖掘是数据挖掘领域的一个基本问题,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。 本文对频繁模式挖掘相关技术进行了研究。重点研究了以下几个问题:将互关联后继树模型引入频繁模式挖掘方法;利用静态IS树高效挖掘频繁项集和频繁闭合项集;利用模式增长方法在有序树构成的森林中挖掘嵌入式频繁子树;在无序树构成的森林中挖掘直接频繁子树;及相关的实现技术等。本文研究内容和创新工作主要包括以下五个方面: 1)基于IS~+-树模型的频繁模式挖掘 互关联后继树模型是一种新型的全文存储索引模型。这种模型充分利用了字符序列的有序性和冗余性,适用于海量的全文存储和索引。互关联后继树模型是一种通用的模型。本文扩展了互关联后继树模型的应用领域,首次提出一种基于间接互关联后继树模型(IS~+-树)的频繁模式挖掘算法。算法特点是:挖掘任务只局部关联于一棵根树;动态更新性好,仅做增量变化:算法简单实用。与传统方法相比,该算法具有较好的挖掘效率。 2)基于静态IS-树的频繁模式挖掘 间接互关联后继树在强调了通用性的同时损失了效率。本文进一步提出一种基于静态IS-树专用模型的频繁项集挖掘算法IS-mine。IS—mine直接构造频繁项集,不进行候选集产生与测试操作;算法采用深度优先,模式增长的策略,挖掘任务只在一棵静态的IS-树上进行,避免代价较高的动态树的构建;针对不同特征的数据集,算法采用不同的过滤技术缩小搜索空间。实验与理论分析表明,对于稠密和稀疏数据两类数据集,算法都具有较好的时空效率。 3)高效频繁闭合模式 频繁闭合模式提供了完全频繁模式的所有信息,但数量却可以少几个数量级。本文提出一种基于静态IS-树的频繁闭合项集有效算法IS-Close。算法采用静态投影,模式增长的方法;用多种策略,尽量在算法运行的早期利用闭合项集的各种

赵文兵[5]2002年在《基于概念格及其扩展模型的数据挖掘研究》文中认为形式概念分析是对哲学的概念进行形式化描述的一种数学工具,己在软件工程、信息检索、数据挖掘等各个领域得到广泛应用,备受国内外研究者的重视。 本文主要关注基于概念格及其扩展模型的数据挖掘研究,其中内容涉及形式概念分析两个主要方面:概念格的构造和概念格的应用。 在概念格的构造方面,本文总结已有的构造算法,提出一种基于最佳不完全覆盖的概念格构造算法,算法至上而下,以图的广度优先搜索方式生成概念节点和概念的图表结构。此外,本文还提出并实现了一种相对约简格的构造算法。 在概念格的应用方面,将概念格模型应用于数据挖掘中。从概念外延的角度,提出最小可信度格和最小支持度格的构造方法,并示例说明最小支持度格在概念聚类和蕴含规则挖掘上的应用。从概念内涵的角度,度量概念节点之间的距离,以此为依据提出并实现一种基于最小支持度格的概念聚类算法。同时本文着重研究了利用量化的相对约简格来发现分类规则的问题,所提算法的生成结果剔除了冗余的分类规则,算法在时间性能、空间性能等方面较前人的算法有较大的改进。 另外,本文在相关章节对形式概念分析和聚类分析进行比较以及分析总结了基于概念格的分类和决策树分类法的异同。

牛瑞敏[6]2016年在《数据挖掘在国内教育领域应用的研究综述》文中研究说明本文试图通过对我国数据挖掘应用研究的相关文献中分析数据挖掘在中国教育领域的应用现状。介绍了数据挖掘在教育领域应用的一些主要技术及其在教育领域的应用现状,虽然数据挖掘也在慢慢的被应用于教育领域,但是也在国内的教育领域的应用还存在一些问题,总结教育领域常用的几种技术,以及在教育领域的应用综述,探索分析其在应用中的一些问题,最后做出总结。

谭军[7]2013年在《面向产品持续质量控制的数据挖掘技术与应用研究》文中提出知识是制造企业最有价值的资产。数据挖掘能够从大量的各种业务数据中提炼出有价值的知识,从而极大促进了制造技术和制造模式的发展。关联规则挖掘是一种最重要的数据挖掘技术之一,它可以有效地发现数据项之间的关联,并且规则的表达形式简洁,易于理解和解释,因此关联规则挖掘算法的研究具有重要的理论意义和广阔的应用前景,一直是数据挖掘领域研究的热点。本文对关联规则挖掘关键技术及其在产品持续质量改善中的应用做了深入的研究,主要的创新性工作包括:(1)为了构建条件FP-tree,FP-growth算法必须扫描数据库两次,这极大制约了它的应用。针对这一局限性,本文提出一种新颖的FP阵列技术,直接从FP阵列得到频繁项的计数,从而极大减少了遍历FP-tree的需要。本文将FP-tree数据结构与FP阵列有效地结合起来,分别提出了挖掘频繁项集和闭频繁项集的新算法。实验评测表明这两种算法在运行时间、内存消耗和可扩展性方面都具有稳定优良的性能,尤其对于稀疏数据库。(2)Apriori算法和FP-growth算法都是以批处理方式处理所有事务,无法满足动态更新关联规则的需要。本文在FUFP算法的基础上提出了一种基于次频繁项的改进算法,在算法中引入两个支持度阈值:阈值上限和阈值下限。如果处理的新事务数没有达到一定的值(由两个支持度阈值和数据库的规模决定),该算法就不需要重新扫描原数据库,从而提高了关联规则更新的效率。实验评测表明数据库的规模越大,算法的性能优势越明显。(3)传统关联规则挖掘算法不能同时处理多种类型的数据,无法适应多样性客户需求数据挖掘的需要。针对这一局限性,本文首先给出了各种数据类型的定义以及挖掘的规则模式的定义,提出用相似度统计项目的支持度计数,然后提出一种基于模糊集的新方法以统一的方式处理各种数据类型,最后提出一种基于Apriori的模糊关联规则挖掘算法,并将其应用到电动自行车问卷调查数据的关联分析。(4)以上述研究工作为基础,本文开发了一个产品持续质量改善信息系统(ARMS),其目标是以低成本、低资源消耗为代价生产高质量产品,提高客户的满意度。ARMS由叁个模块组成:流程数据集成模块、关联规则挖掘模块和关联规则优化模块。ARMS系统采用基于XML的流程质量语言将各有关部门的流程数据集成到中央数据仓库,在此基础上采用本文提出的新算法发现不同部门的流程参数组合与产品质量特性之间的关联规则,再运用遗传算法优化这些规则,从而帮助流程工程师调整流程参数的设置以持续提高产品的质量。图92幅,表19个,参考文献202篇。

佚名[8]2007年在《自动化技术、计算机技术》文中研究说明TP132007042003一种智能PID复合控制器的设计/伍铁斌,刘祖润,徐学军,李文(湖南科技大学信息与电气工程学院)//自动化与仪表.―2006,21(4).―45~48.提出一种新型PID复合控制算法,将模糊控制和混沌PID控制结合起来,既具有模糊控制快速、鲁棒性强的优点,又具有PID稳态精度高的优点。仿真表明该算法使用可靠、精度高,而且具有较强的抗干扰能力和较好的鲁棒性,优于常规的PID控制与模糊控制。图2表1参13

刘贵林[9]2008年在《数据挖掘在ERP与电子商务平台整合中的应用研究》文中研究指明在经济全球化时代,基于互联网技术的电子商务正在改变着各个行业的经营模式,企业对信息的需求日益强烈,信息技术的发展使得ERP成为企业管理的重要手段。电子商务(E-Commerce)主要是研究如何利用计算机网络和先进的数字化传媒技术进行各项商业贸易、活动,从而改变了现代企业的商务模式。而ERP主要是研究如何利用现代企业管理理念、业务流程、基础数据、人力物力、计算机软件与硬件来实现企业的资源优化。ERP与电子商务平台的整合成为现代企业发展的必然趋势,数据挖掘是从大规模的数据中抽取非平凡的、隐含的、事先未知的、有潜在使用价值的信息的技术。在网络时代,数据挖掘技术也自然被应用到对电子商务网站的海量数据进行分析和处理中来。本文就数据挖掘技术在ERP与电子商务整合中的应用进行了研究。将数据挖掘的思想和方法应用到电子商务和ERP的整合中,可以使电子商务系统为用户提供更加智能化的服务。利用Web数据挖掘的结果,可以优化电子商务网站的结构,提高系统的性能,在实际应用中发现有价值的商业信息,并针对不同的用户提供个性化的页面或商品推荐。通过Web数据挖掘,对用户访问行为、频度、内容等的分析,可以提取每个用户的描述特征,从而得到关于群体用户访问行为和方式的知识。通过对这些用户特征的理解和分析,可以开展有针对性地进行电子商务活动。在对电子商务网站的应用需求进行分析的基础上,提出了一个面向数据挖掘的电子商务网站体系架构。该体系架构针对电子商务网站运营中数据挖掘的需求,从结构上进行了优化,以便提高挖掘可信的效率。在识别用户的会话事务问题中,本文提出了一种对网站访问日志进行预处理的方法。基于该方法,系统可形成用户会话的数据库,以便用于进一步的用户模式挖掘。在用户访问模式的挖掘中,采用了将最大向前引用方法和一种改进的频繁路径的挖掘算法相结合的方法,提高了用户访问模式挖掘的效率。

参考文献:

[1]. 关联规则挖掘算法及其在Web挖掘上应用的研究[D]. 王永利. 哈尔滨工程大学. 2003

[2]. 基于Hadoop的Web日志存储和分析系统的研究与实现[D]. 班秋成. 北京邮电大学. 2018

[3]. 一类电子商务软件的智能搜索引擎的设计与研究[D]. 胡新新. 青岛科技大学. 2014

[4]. 频繁模式挖掘相关技术研究[D]. 马海兵. 复旦大学. 2005

[5]. 基于概念格及其扩展模型的数据挖掘研究[D]. 赵文兵. 合肥工业大学. 2002

[6]. 数据挖掘在国内教育领域应用的研究综述[J]. 牛瑞敏. 中山大学研究生学刊(人文社会科学版). 2016

[7]. 面向产品持续质量控制的数据挖掘技术与应用研究[D]. 谭军. 中南大学. 2013

[8]. 自动化技术、计算机技术[J]. 佚名. 中国无线电电子学文摘. 2007

[9]. 数据挖掘在ERP与电子商务平台整合中的应用研究[D]. 刘贵林. 西华大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

关联规则挖掘算法及其在Web挖掘上应用的研究
下载Doc文档

猜你喜欢