基于关联规则发现的Web挖掘

基于关联规则发现的Web挖掘

王欣如[1]2007年在《基于关联规则的Web日志挖掘技术研究》文中研究说明数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识的过程。互联网的发展与快速普及,使得人类真正体会到了数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新技术和自动工具的帮助,将这巨大的数据资源转换为有用的知识与信息资源。这种技术应不仅能获得数据的表层信息,而且要能在对数据充分理解的基础上获得数据属性的内在关系和隐含信息,即能获得重要的知识。Web挖掘技术为把这种海量的数据转化成有用的信息和知识提供了强有力的手段。本文主要研究如何利用Web挖掘分析日志得到用户对网站的访问模式,据此提出一种能帮助站点所有新老用户提高访问效率的推荐技术,完善站点拓扑结构,以提高站点访问效率。为此,本文主要做了以下几个方面的研究工作:1)为了从Web日志文件内容向各种挖掘算法提供准确的数据源,对Web日志挖掘数据进行预处理工作,并对其中的问题进行了讨论。2)为了提高Web日志预处理质量,讨论了提取网站拓扑结构信息的技术。3)结合Apriori算法,对侯选序列生成进行研究,采用了一种基于图结构的侯选序列生成的算法SCG。4)设计并实现了一个Web日志挖掘原型系统,从而验证了SCG算法可行性和适用性。本文应用Web日志挖掘技术从访问日志中提取用户访问模式,将挖掘到的知识转变为站点的智能。用户访问模式的研究有利于提高站点信息服务质量,促进智能信息处理领域的发展,在理论和实践上都有重要的研究意义。

周世东[2]2008年在《Web数据挖掘在电子商务中的应用研究》文中进行了进一步梳理随着Internet的迅速发展和普及,一种新型的商务模式——电子商务的发展越来越引起研究者们的关注,人们希望充分利用其优点,获得更多的经济效益。将数据挖掘的思想和方法应用到电子商务中,帮助电子商务网站从海量信息中获得真正有价值的知识,以指导企业决策、为电子商务网站的客户提供更方便的服务成为现在研究的一个热点问题。数据挖掘是随着数据库技术的发展出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知、有效和有用的知识。本文在对数据挖掘和Web挖掘的相关概念和功能特点进行详细综述的基础上,进一步研究了Web数据挖掘的主要挖掘方式和具体实现形式;然后探讨了电子商务及个性化推荐系统的定义、分类、特点及数据挖掘技术在其中应用的特点等问题;在以上工作的基础上,本文设计了一个面向Web数据挖掘技术的电子商务平台,同时构建了基于Web使用挖掘的个性化服务推荐系统。本系统通过对Web服务器日志数据的挖掘,获得用户聚类和浏览模式,为不同类用户提供个性化服务。在对个性化服务推荐系统的描述中引入了关联规则的Apriori算法和聚类分析的k-means算法,通过对数据预处理、数据挖掘、推荐模型等一系列问题的解决,研究数据挖掘技术在电子商务中实现的过程,实现个性化服务推荐。最后,给出了本文的总结及对今后工作的展望。

王婷[3]2007年在《基于Web挖掘的电子商务推荐系统的应用研究》文中认为随着Internet普及和飞速发展,电子商务以其独特的优势在世界流行,提供给人们越来越多的商品和选择空间,改变着人们的生活方式,但同时也出现了新的问题。用户无法在海量的商品中找到自己需要的商品,商家也失去了与用户的联系,无法有效地满足用户需求,提高用户对网站的忠诚度。在这样的背景下,电子商务推荐系统应运而生。本文首先阐述了电子商务推荐系统的研究意义、国内外研究现状以及基本理论,在此基础上研究和设计了基于Web挖掘的电子商务推荐系统模型,详细分析模型中四大模块的功能和作用,以及它们之间如何协调工作;然后研究关联规则在系统中的应用并对其进行优化;最后对优化后的关联规则算法进行实验分析,验证优化算法的有效性。

李亭枫[4]2010年在《面向网络用户行为模式发现的数据挖掘技术探索》文中认为自20世纪90年代以来,随着信息技术的高速发展,互联网在人们日常生活和工作中的地位越来越重要。广阔的互联网给人们带来丰富信息资源的同时,也带来了巨大的商机。各种互联网服务和电子商务活动都取得了巨大的进展。用户的需求就是商机,如何从用户在Web服务器上留下的访问信息中找出用户访问行为的规律和模式,成为电子商务服务提供者和数据挖掘研究者关注的焦点,由此产生了对Web日志挖掘技术的研究工作。本文主要的研究内容是Web日志挖掘中关键步骤的理论和算法改进问题,并针对实例数据对改进的方法进行验证。Web日志挖掘过程中数据预处理工作和模式挖掘工作是两个最主要的阶段。本文首先详细的就数据预处理阶段的各个处理环节进行研究分析,对每个环节的处理原则进行了总结,提出了相应的处理机制和算法实现。重点就用户会话识别方法深入研究,针对目前常见的基于统一固定时间阈值的会话识别方法存在的无法适应页面访问多样性的问题,提出了创新的个性化时间阈值构成方法,并将其和页面引用方法相结合,给出了新的用户会话识别算法,然后通过实验对方法进行了验证。针对模式挖掘过程,本文主要研究从频繁序列模式挖掘的角度进行用户行为模式发现的方法。论文对频繁序列发现的过程进行了分析,从关联规则挖掘算法Apriori出发,重点研究了对该算法进行修改从而应用到频繁序列模式挖掘过程的改进算法。在研究分析该算法执行过程和性能特点的基础上指出了算法存在的缺陷和不足。针对挖掘结果过于冗余的问题,提出了新的改进思路,即引入多重因子约束的方法对挖掘过程进行修正,过滤低价值的访问路径。文章研究并提出了相关因子的构造方法,给出了改进方法的算法实现,并通过实验对比,对算法的优化改进效果进行了验证。

陈振[5]2005年在《基于关联规则分类的web用户兴趣预测》文中指出Web挖掘是数据挖掘的一个重要的研究方向。Web挖掘突破传统意义上的数据格式的限制,随着Web的发展,它会变得越来越重要,成为web用户更好的获得信息的一个有效的途径。 如何对网上用户分类是web挖掘领域应用最多的任务之一。对网上用户分类可以使网站针对不同的用户提供不同的服务,这样,用户就能方便快捷的获得自己所需的信息。如何有效的找出关于web用户的分类模式知识是web挖掘研究的热点问题,具有重要的理论意义和实用价值。 本文针对数据挖掘技术在web挖掘中的应用进行了研究工作。在第一章绪论中介绍了本论文的研究背景、研究意义,以及论文的主要工作。第二章对数据挖掘技术的定义,结构,过程以及一些分析方法进行了综述。第叁章分析Web挖掘当前研究现状,指出了Web挖掘的困难,着重讨论了Web内容挖掘技术。第四章讨论了Web使用挖掘的过程,模式发现的常用算法,详细分析了日志预处理的各个过程。 第五章中对关联规则的经典算法Apriori进行分析,并指出它的一些缺陷,存在的问题,同时,也讨论FP-growth算法,指出用FP-growth算法来挖掘频繁项集可以避免产生大量候选集,并且算法效率有很大的提高。在此基础上,分析了传统分类关联规则挖掘算法产生的问题,提出一种用于web挖掘的分类关联规则挖掘算法。 第六章运用不同的方法来对web用户兴趣预测。试验表明用于web挖掘的分类关联规则挖掘算法是有效的。在全文的分析基础上,提出一种基于web挖掘的网站个性化推荐系统结构。 第七章是全文的总结和研究工作展望。 论文主要做了以下工作: ● 通过对经典关联规则挖掘算法Apriori进行分析,同时,也讨论FP-growth算法,指出用FP-growth算法来挖掘频繁项集可以避免产生大量候选集,并且算法效率有很大的提高。在此分析基础上,分析了传统分类关联规则

宁海霞[6]2006年在《一种基于XML的Web访问模式发现模型研究》文中提出WWW技术蓬勃发展,由于Web站点的规模和复杂度的增加,网站的一些主要工作,如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用户与网站的会话过程产生的大量多种多样的信息中挖掘出对企业和网站设计人员有用的知识。将传统的数据挖掘技术应用于商务站点数据处理工作,并提供一种高效的Web挖掘解决方案,是当今国际数据挖掘领域关注的热门课题。当今得到广泛应用的是传统的Web访问挖掘技术,如基于Web访问日志的挖掘技术。Web访问日志主要记录了用户登录网站期间的浏览路径,作为挖掘用户访问模式的数据源,数据信息量不够,且准确度不高。因此,为了将数据挖掘技术更好地服务于以电子商务为代表的Web应用领域,在研究基于Web日志的挖掘技术的基础上,一种基于XML的Web访问模式发现模型被提出,试图为提高Web挖掘效率和质量提供一种新思路。新的模式发现处理模型结合了XML技术的可扩展性和层次性,以及Web站点信息的构成特性,以此达到高效、主动、智能地采集各方面数据,使来自客户端、服务器端日志以及数据库的叁方数据达到动态融合,并为挖掘工作提供丰富而又真实可信的数据源;在下一步的挖掘工作中,模型采用XML相关技术:采用定义了会话格式的XML文档记录数据,会话和用户识别工作简单而又准确;异构数据采用XML格式存储,易于在不同数据库之间传输;在应用程序中既可以生成单维,也可以生成多维数据集;模式挖掘环节中对传统的模式挖掘算法,例如FP-tree算法进行优化,整个Web挖掘的准确度和效率都将得到提高。基于XML的Web访问模式发现需要实现数据采集、数据预处理和模式挖掘等功能。数据采集模块在.NET平台下设计实现,生成的XML文档利用XML相关技术进行数据抽取,模式挖掘利用单维数据集,采用改进后的FP算法实现。

王飞[7]2006年在《面向电子商务的web数据挖掘的研究与设计》文中研究表明数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展广告、推销、购买商品或服务等商务活动。相对于传统商务活动,电子商务具有不受地域限制、节省成本等众多优点本文对Web数据挖掘在电子商务中的应用进行了研究,主要做了以下工作:1.总结了数据挖掘研究现状及最新进展。提出了数据挖掘逻辑模型及存在的一些问题。2.描述了Web数据挖掘技术,Web数据挖掘的过程、数据源及用途。3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购买模式及浏览模式,并就其中的路径分析和序列模式分析提出了实现的方法。4.论述了Web访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价,在以上工作的基础上,设计并实现了一个Web数据挖掘原型系统(EWMiner)。web数据挖掘在电子商务里表现为在大型数据库里面搜索有价值的商业信息。数据仓库、数据挖掘技术和Internet/intranet的完美结合,使其在21世纪的电子商务中有广泛的应用前景。

周宇[8]2003年在《基于WUM的个性化智能推荐技术研究》文中研究表明随着Interent的迅速发展和WWW(world wide web)技术日渐成熟并向社会生活各方面渗透,可利用的信息资源的数量越来越大,类型越来越多,人类交互信息也不可避免地电子化和海量化。巨量的、无组织的信息,以及Interent上信息资源分布的广泛性,给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源。而且,现有的信息发布和搜索引擎,由于其固有的缺点,无法有效地解决这两类问题。 传统的数据挖掘技术和WEB相结合衍生的WEB挖掘技术为有效解决这一问题开辟了崭新的途径。本文尝试利用WEB挖掘技术对海量的WEB访问日志数据进行深入地分析和研究,挖掘出用户的个性化访问事务模式,并在此基础上对用户进行智能地信息推荐,达到个性化主动信息服务的目的。所做的工作主要包括以下几个方面: (1) 分析了数据挖掘技术的产生原因和发展背景,介绍了当前国内外数据挖掘技术研究的现状。 (2) 对WEB数据挖掘体系结构进行了深入的分析和研究,综述了WEB数据挖掘,给出了相关的定义和分类,并就WEB日志和半结构化数据的挖掘技术进行详细地探讨,描述了WEB日志数据挖掘的一般过程。 (3) 讨论了WEB使用记录挖掘的预处理方法的一般流程及相关定义。提出了基于引用时长的事务模式识别方法、基于最大前向引用的事务模式识别方法和基于时间窗的事务模式方法。 (4) 讨论了两种用户事务模式的聚类方法,即基于最大前向访问路径导航-内容事务模式的聚类方法和基于内容事务模式的聚类方法,并分别提出了基于结构系数的用户事务之间的相似度计算方法和基于共同祖先、子孙相似系数的相似度计算方法。试验结果显示。基于最大前向访问路径导航-内容事务模式的聚类将访问路径相似的用户事务模式聚类到一起,因此,比较适合在线个性化推荐服务。而基于内容事务模式的聚类方法则较适合关联性强的WEB页的聚类分析。 (5) 研究了基于WEB使用模式挖掘的在线个性化智能信息推荐服务,分为在线部分和离线部分。离线部分主要完成从站点服务浙江工业大学硕士论文器的访问109文件中挖掘出适合在线智能个性化推荐服务的用户事务模式,分别采用了基于关联规则挖掘方法和聚类用户事务方法获取用户个性化模式。在线部分,实现基于关联规则挖掘的个性化智能推荐服务和基于URL聚类模式的个性化智能推荐服务。本文对这两种智能推荐方法进行了分析、比较,总结了它们的优缺点。实验结果显示,该智能推荐系统是可行和有效的。

李红宇[9]2007年在《Web日志中浏览模式挖掘算法的研究》文中指出Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前,以电子商务、电子图书馆、远程教育等为Web的主要应用,促使Web以更快的速度发展,在给人们带来丰富信息和极大便利的同时,对Web站点的设计和功能提出了更高的要求。要求Web具有智能性,能快速、准确地找到用户所需要的信息;能为不同用户提供不同的服务;能允许用户根据自己的需要定制页面:能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志,即利用数据挖掘的原则和思想,针对Web日志的新特性,对传统挖掘方法进行扩展和改进,将其应用到Web日志上,挖掘出有用的模式,根据用户的浏览模式,可以改进站点的设计和服务,开展个性化服务和构建智能化网站。目前,Web日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程,重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中,采用传统的关联规则挖掘算法要频繁扫描数据库,产生大量候选集,效率低;另外,现有的算法很少考虑到浏览模式的时效性,为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作,只对数据库扫描一次,求出所有连续子序列集,利用集合运算求得支持度,同时逐步修正会话时间得到浏览模式的有效时间,与类Apriori算法相比运行时间少,扩展性好,并且挖掘出的模式具有时效性。在此基础上,对现有的增量更新挖掘算法进行改进,增加了时态因素,能很好地适应Web日志的不断变化。最后,设计并实现了一个Web日志挖掘原型系统,证明了此算法的快速性和有效性。

周绪倩[10]2010年在《基于电子商务的Web数据挖掘系统架构研究》文中研究指明随着网络技术的发展和Internet的普及,电子商务这一现代新兴商业模式也以惊人的速度蓬勃发展起来,正在影响着整个社会的经济运行结构。电子商务系统每天都会产生蕴涵着大量重要信息的原始交易数据和访问数据,这些数据主要以Web日志文件格式存储于Web服务器中。如何将这些异构的、不确定性的和非结构化的海量数据转化为有用的信息成为当前电子商务系统建设的重要任务之一。数据挖掘技术是从大量复杂的数据中,提取潜在有用的信息和知识的过程。把Web数据挖掘技术应用于电子商务系统的建设具有重要的意义。目前,几乎所有的大型电子商务系统,都不同程度地使用了各种形式的数据挖掘技术,为客户提供个性化服务,如Amazon(亚马逊)、dangdang(当当网)等。但是多数系统仅提供基于OLAP的简单统计分析,且多数系统的挖掘架构均是基于封闭体系设计的,在需求多变的电子商务挖掘应用中显得不足。本课题致力于构建一个基于电子商务环境下的开放式的数据挖掘架构,把Web服务和移动Agent技术应用到此架构中。本文主要做了如下工作:(1)分析和总结了目前电子商务系统架构的研究现状与动态,指出了传统用于电子商务的Web挖掘系统所存在的问题。通过研究Web服务和移动Agent技术的相关理论,提出了利用Web服务分布式思想和移动Agent的智能性,实现电子商务环境中Web数据挖掘架构的优越性。(2)在研究应用于电子商务环境的多种Web挖掘算法的基础上,对关键的Apriori关联规则和k-means聚类核心算法存在的不足进行了改进,并对改进的算法用实验检验了其有效性。同时在挖掘架构阶段对多种Web算法做了封装,共同完成挖掘任务。(3)研究了电子商务系统的实现技术,并对基于J2EE平台的实现和应用其它平台的实现进行比较。最后采用基于J2EE平台的叁层结构模式和MVC等设计模式进行原型系统的简单设计。

参考文献:

[1]. 基于关联规则的Web日志挖掘技术研究[D]. 王欣如. 重庆大学. 2007

[2]. Web数据挖掘在电子商务中的应用研究[D]. 周世东. 北京交通大学. 2008

[3]. 基于Web挖掘的电子商务推荐系统的应用研究[D]. 王婷. 华北电力大学(河北). 2007

[4]. 面向网络用户行为模式发现的数据挖掘技术探索[D]. 李亭枫. 电子科技大学. 2010

[5]. 基于关联规则分类的web用户兴趣预测[D]. 陈振. 安徽大学. 2005

[6]. 一种基于XML的Web访问模式发现模型研究[D]. 宁海霞. 华中科技大学. 2006

[7]. 面向电子商务的web数据挖掘的研究与设计[D]. 王飞. 四川大学. 2006

[8]. 基于WUM的个性化智能推荐技术研究[D]. 周宇. 浙江工业大学. 2003

[9]. Web日志中浏览模式挖掘算法的研究[D]. 李红宇. 哈尔滨工程大学. 2007

[10]. 基于电子商务的Web数据挖掘系统架构研究[D]. 周绪倩. 河北工程大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于关联规则发现的Web挖掘
下载Doc文档

猜你喜欢