基于Web的数据挖掘研究

周世东^[1]2008年在《Web数据挖掘在电子商务中的应用研究》文中指出随着Internet的迅速发展和普及,一种新型的商务模式——电子商务的发展越来越引起研究者们的关注,人们希望充分利用其优点,获得更多的经济效益。将数据挖掘的思想和方法应用到电子商务中,帮助电子商务网站从海量信息中获得真正有价值的知识,以指导企业决策、为电子商务网站的客户提供更方便的服务成为现在研究的一个热点问题。数据挖掘是随着数据库技术的发展出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知、有效和有用的知识。本文在对数据挖掘和Web挖掘的相关概念和功能特点进行详细综述的基础上,进一步研究了Web数据挖掘的主要挖掘方式和具体实现形式;然后探讨了电子商务及个性化推荐系统的定义、分类、特点及数据挖掘技术在其中应用的特点等问题;在以上工作的基础上,本文设计了一个面向Web数据挖掘技术的电子商务平台,同时构建了基于Web使用挖掘的个性化服务推荐系统。本系统通过对Web服务器日志数据的挖掘,获得用户聚类和浏览模式,为不同类用户提供个性化服务。在对个性化服务推荐系统的描述中引入了关联规则的Apriori算法和聚类分析的k-means算法,通过对数据预处理、数据挖掘、推荐模型等一系列问题的解决,研究数据挖掘技术在电子商务中实现的过程,实现个性化服务推荐。最后,给出了本文的总结及对今后工作的展望。

李明晶^[2]2008年在《基于web挖掘的电子商务个性化推荐系统研究》文中认为随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。在日趋激烈的竞争环境下,商品推荐系统能有效留住客户、防止客户流失,提高电子商务企业的销售力及竞争力。商品推荐系统在电子商务系统中具有良好的发展和应用前景,逐渐成为电子商务IT技术的一个重要研究内容,但是随着电子商务系统规模的进一步扩大,商品推荐系统也面临一系列挑战。针对商品推荐系统所面临的主要挑战,本文在以下叁个方面对电子商务推荐系统进行了有益的探索和研究。第一,详细分析了数据挖掘技术的特点和web挖掘的优越性及其在电子商务中的重要作用。然后对电子商务推荐系统进行了介绍和分析,并说明其工作流程。第二,给出了电子商务推荐系统的体系结构框架。在介绍了电子商务推荐系统的概念之后,从日志预处理、模式发现、模式分析和模式应用的各个阶段说明了电子商务推荐系统的工作流程和关键技术。第叁,给出了适合Web日志挖掘的推荐算法。针对电子商务推荐系统面临的实时性挑战,利用模糊聚类技术,对Markov模型进行了分析和改进,利用其对web数据进行分析处理。文中在分析该算法特点之后给出了算法的描述,并说明了该算法的优缺点和改进的方向。但该模型中仍有许多不足之处有待改进:特别是准确性和效率问题。其中提高算法的效率是当前聚类领域中研究的又一个重要问题。随着对Web日志数据的分析和研究的不断深入,我们相信面向用户的电子商务个性化推荐服务将会更加完善。

任正国^[3]2008年在《点击流数据仓库与数据挖掘研究》文中指出电子商务网站每天都产生大量的点击流数据。它们中包含很多对企业非常有用的信息。但是,面对众多的网站,展现在我们面前的都是前端系统,而对于网站结构、用户访问时间、停留时间、页面关系等缺乏足够的重视。日志分析工具也可以很好的对网站运行的基本数据进行统计,然而日志分析工具没有涉及一个网站统计的重要内容,即访问网站的用户行为分析。而建立点击流数据仓库的目的正是通过用户行为分析来推动网站的商务发展。点击流数据仓库(Web日志数据仓库)是数据仓库的一个重要类型。与传统的数据仓库相比点击流数据仓库的主要数据来源是人们在进行各种网络活动时,在各个网络服务器中所留下的Web日志文件以及其它的相关数据库数据。建立结构合理的点击流数据仓库,并结合数据挖掘等技术对其海量数据进行有效的分析,不仅可以解决海量数据的存储问题,而且可以很好得保证电子商务系统的可用性和高效性,保证数据的安全性。在本文中点击流数据仓库的建立主要是面向用户信息兴趣的分析。在实施应用的过程中,本文针对电子商务环境对响应时间的敏感性,引入了操作型数据存储(ODS)的概念。同时,针对传统的数据仓库系统的DB-DW两层体系结构存在的缺点,重点提出并分析一种基于ODS的叁层结构点击流数据仓库构建方案。在数据预处理过程中,重点研究Cookies技术在处理本地缓存和代理服务器等方面的应用。利用基于SQL Server 2005平台构建的点击流数据仓库和相应的数据分析、数据挖掘等辅助技术,结合以Java实现的数据挖掘系统对大连海事大学一个高校电子商务平台—海易网的Web日志数据进行有效的分析,获取用户潜在的访问信息,从而为Web用户提供更加优质的服务。以数据仓库为基础,深入分析用户行为特征,将成熟的数据挖掘算法迁移到Web日志领域是将来发展的趋势。

方元康^[4]2008年在《基于模糊聚类的Web日志挖掘研究》文中认为Web数据挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘。Web使用挖掘主要是针对Web日志数据进行分析处理。通过对用户访问日志进行聚类分析,可以获得主要的感兴趣的访问模式。由于Web日志数据通常是大量和冗余的,日志中的页面之间关系是模糊和不确定的,为此,本文基于模糊聚类方法进行Web日志的分析研究,主要工作如下:(1)概述了Web挖掘以及Web日志挖掘的相关领域的发展和技术及其理论基础。(2)在详细研究Web日志挖掘的预处理技术的基础上,提出一个基于页面访问时间阈值与会话重组的会话识别算法,并通过实际的Web日志数据加以验证。(3)针对Web用户聚类及Web页面聚类,通过Web日志中的数据,根据用户对Web页面的浏览情况分别建立Web用户和Web页面的模糊集,在此基础上用最大-最小法的模糊相似性度量构造模糊相似矩阵,并由此构造模糊动态聚类算法DDFCA。与传递闭包法和最大树法相比,该算法在时间性能上有所改进。(4)在上述工作的基础上,同时结合各种关键技术,设计了一个Web日志挖掘的原型系统。

吕子泉^[5]2007年在《基于Web的图像数据挖掘研究与应用》文中提出WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息,具有十分重要的现实意义和广泛的应用前景。数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前,数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据,如何对分布于网络环境下的图像数据进行挖掘还未有充分研究。本文首先简单阐述了数据挖掘和知识发现的基本理论;分析了网络信息检索与挖掘的特征,特别是Web数据挖掘和基于内容的图像检索;进而探讨了基于Web的图像数据挖掘研究与应用的一系列基本问题,包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及系统的框架结构和功能模块的分析与设计等,力图为该方向的深入研究提供一些有益的思路。本文还研究了基于内容的图像检索技术(CBIR)的特点和方式,CBIR技术主要依据图像的画面内容特征和主题对象特征来进行检索;讨论了图像的颜色、纹理、形状、空间关系等方面的特征;提出了目前图像挖掘的主要技术,包括分类、聚类、关联规则和神经网络;总结了图像数据挖掘的重点和难点在于特征的提取和图像的表示方式、图像的比较策略、机器学习和图像的自动标注、检索系统的评价标准等几个方面。结合基于Web数据挖掘的方法和基于内容的图像检索,本文对WWW上的图像信息挖掘和检索系统进行了一些研究和探索,分析了Web图像搜索引擎的原理、图像分割方法和MPEG—7标准,为实现本文所设计的实验系统打下基础并构建了一个框架。通过上述内容的分析和研究,构建本文所设计的基于Web的图像数据挖掘的实验系统,首先分析了系统所需功能,为系统的实现打下理论基础,提出了多维数据立方在图像数据挖掘中的具体实现方法,针对图像数据和复杂性,简化了多维数据立方结构;采用最大出现次数算法,提高了系统计算规则的速度,设计了一个较为完整的实验系统模型,绘制了各功能模块的框图,给出了一个简化的Cdib类代码,并在系统中引入了徒手绘草图方法,试图增强系统的适用性。

王利^[6]2006年在《Web使用挖掘方法及其在个性化学习系统中的应用研究》文中进行了进一步梳理数据挖掘就是从海量数据的集合中发现有效的、新颖的、有用的、可理解的模式。Web使用挖掘是数据挖掘技术在Web使用数据上的应用，它的主要任务是研究用户的浏览行为，发现用户对网页的兴趣度和访问模式，从而可以改进网站结构，为用户提供个性化服务。本文的研究内容包括：(1)对Web使用挖掘的特点、方法及相关技术分析，指出了现有Web使用挖掘的数据采集技术的不足；(2)提出一种综合获取用户浏览信息的方法；(3)讨论基于图结构的Web访问序列模式挖掘方法；(4)提出基于内容过滤和协同过滤相结合的个性化推荐算法；(5)将Web使用挖掘技术应用于远程学习系统，通过Web使用模式挖掘对学习者访问学习网站和使用学习资源的信息进行挖掘分析，及时了解学习者的学习需求、学习进度、兴趣爱好，适时推出个性化的学习模式，构建个性化的网络学习系统。本文的主要特色：把基于内容过滤的推荐算法和协同过滤的推荐算法相结合；在传统的学习网站中加入了个性化推荐模块，从而更加适应现代的个性化教育理念。

何丽^[7]2005年在《基于Web挖掘的决策支持系统模型研究》文中进行了进一步梳理随着信息技术和电子商务的不断发展,web环境下的知识发现和决策支持模型研究正在成为电子商务、管理科学以及人工智能等领域关注的一个新的热点。研究基于web挖掘的知识发现和智能决策支持系统模型具有重要的学术价值和现实意义。本文研究的主要内容如下:总结和回顾了数据挖掘的过程,方法、功能以及各个阶段的任务和目标,阐述了web数据挖掘的概念和主要任务。建立了基于概念特征向量的web文档分类模型。为实现对半结构化web文档的有效管理和分类,提出了概念特征向量的概念,阐述了概念特征词的提取及其权重的计算方法,并构造了基于概念特征向量的NB和关联规则的web文档分类模型,最后通过实验验证了基于概念特征向量的web文档分类模型的有效性和正确性。建立了基于web使用数据管理的知识发现模型。阐述了用户浏览行为的URL-UserID关联矩阵表示方法,建立了基于URL-UserID关联矩阵的web页面聚类模型、web用户聚类模型;建立了基于相似用户群的多马尔可夫链用户浏览行为预测模型,构造基于相似用户群和后缀树的最大频繁序列挖掘模型。探讨了语义web环境下的知识发现模型。阐述了语义web的产生背景、语义web体系结构和web本体等内容。详细描述了领域本体的表示模型,讨论了基于领域本体的web页面分类过程,建立了基于领域本体的web页面分类模型和基于语义用户分布的web使用知识发现模型。分析并建立了基于语义web挖掘的多Agent智能决策支持系统模型。主要探讨了语义web环境下的智能决策支持系统的体系结构模型,阐述了该模型中各个Agent系统的任务和目标,不同Agent之间的通信以及基于web挖掘的智能决策支持系统实现的关键技术等。最后探讨了基于语义web挖掘的多Agent决策支持模型在智能电子学习系统中的应用。主要分析了智能电子学习系统的决策功能模型,知识体系的表示以及相关库的设计等,讨论了智能电子学习决策支持系统的体系结构及其各个子系统的任务。

徐飞^[8]2008年在《基于Web的数据挖掘在高考志愿分析中的应用》文中进行了进一步梳理随着数据库技术的飞速发展,在各个应用领域都存储了大量的数据,其中包含了很多有用的信息,如何发现各种数据库中隐藏的、预先未知的信息,是数据挖掘技术的关键所在,对它的研究,目前国内外己经取得了许多令人瞩目的成就,并成功地应用到了许多领域,但在高考志愿分析中的应用尚处于起步阶段。根据相关规定,有关高考志愿的相关数据和由此得到的挖掘模型只能存放于招生办公室的专用服务器中,而各招生部门和考生却是一个潜在的多用户群体。为了解决这个问题,需要将Web服务用于数据挖掘系统中来,为用户提供基于Web的数据挖掘查询环境,并在系统设计中着力解安全性问题。本文首先探讨了数据挖掘技术和Web服务安全技术的基础理论,并且采用数据挖掘技术对河南省近几年的高考志愿相关数据进行分析,探索数据背后隐藏的信息与知识,以达到为志愿决策支持提供参考建议的目的。在此基础上,提出了结合Web服务技术的数据挖掘系统模型,对数据挖掘系统的体系结构和代价模型进行了深入的分析,并给出了它的解决方案。相应地设计并实现了一个高考志愿分析系统(GZZYDM)。该系统针对Web服务安全机制中存在的安全性、性能及扩展性方面的问题,对Web服务的SOAP消息进行基于消息的签名和加密,加强了高考志愿数据的安全性及隐私性。GZZYDM系统根据高考志愿数据的特点,在对其进行预处理的基础上,根据考生的成绩、科类、报考的专业和学校等特点对高考录取影响情况进行分类和预测。并通过使用OLE DB for Data Mining数据挖掘平台的开放接口实现系统对多种数据挖掘算法的支持,可以在系统中使用SLIQ,Naive Bayesd等多种分类算法。在数据挖掘技术在高考志愿分析的应用方面,本文主要的贡献是:(1)将数据挖掘技术同Web服务技术结合,设计并实现了一个高考志愿分析系统;(2)通过对Web服务的SOAP消息进行基于消息的签名和加密,保障了志愿数据的安全性及隐私性;

李红宇^[9]2007年在《Web日志中浏览模式挖掘算法的研究》文中研究表明Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前，以电子商务、电子图书馆、远程教育等为Web的主要应用，促使Web以更快的速度发展，在给人们带来丰富信息和极大便利的同时，对Web站点的设计和功能提出了更高的要求。要求Web具有智能性，能快速、准确地找到用户所需要的信息；能为不同用户提供不同的服务；能允许用户根据自己的需要定制页面：能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志，即利用数据挖掘的原则和思想，针对Web日志的新特性，对传统挖掘方法进行扩展和改进，将其应用到Web日志上，挖掘出有用的模式，根据用户的浏览模式，可以改进站点的设计和服务，开展个性化服务和构建智能化网站。目前，Web日志挖掘已经成为国际上一个新兴的重要研究领域，其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程，重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中，采用传统的关联规则挖掘算法要频繁扫描数据库，产生大量候选集，效率低；另外，现有的算法很少考虑到浏览模式的时效性，为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作，只对数据库扫描一次，求出所有连续子序列集，利用集合运算求得支持度，同时逐步修正会话时间得到浏览模式的有效时间，与类Apriori算法相比运行时间少，扩展性好，并且挖掘出的模式具有时效性。在此基础上，对现有的增量更新挖掘算法进行改进，增加了时态因素，能很好地适应Web日志的不断变化。最后，设计并实现了一个Web日志挖掘原型系统，证明了此算法的快速性和有效性。

张友华^[10]2006年在《面向智能服务的Web内容计算研究与应用》文中提出WEB是人们获取信息与知识的重要途径，它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度，也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题；如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务；如何使用户获取个性化信息，从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为叁类：内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data)，因此也形成WEB研究的叁个大的方向：WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面，它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象，研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上，重点研究并取得如下创新性成果： (1) 提出了一种增量式挖掘方法iFP-Growth，使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征，使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法，针对Web内容数据的特点，提出的增量式挖掘方法iFP-Growth，使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例，挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题，利用语料库，提出了一种基于句子的文本特征选择，利用训练文本自动生成类别语料库，根据句内词元的类别相关性和句子位置信息，给出了基于句子类别相关度矩阵的文本分类方法，从而在分类阶段避免了分词处理，同时该方法对于词的多义性具有不敏感性。

参考文献：

[1]. Web数据挖掘在电子商务中的应用研究[D]. 周世东. 北京交通大学. 2008

[2]. 基于web挖掘的电子商务个性化推荐系统研究[D]. 李明晶. 北京交通大学. 2008

[3]. 点击流数据仓库与数据挖掘研究[D]. 任正国. 大连海事大学. 2008

[4]. 基于模糊聚类的Web日志挖掘研究[D]. 方元康. 合肥工业大学. 2008

[5]. 基于Web的图像数据挖掘研究与应用[D]. 吕子泉. 山东大学. 2007

[6]. Web使用挖掘方法及其在个性化学习系统中的应用研究[D]. 王利. 苏州大学. 2006

[7]. 基于Web挖掘的决策支持系统模型研究[D]. 何丽. 天津大学. 2005

[8]. 基于Web的数据挖掘在高考志愿分析中的应用[D]. 徐飞. 河南大学. 2008

[9]. Web日志中浏览模式挖掘算法的研究[D]. 李红宇. 哈尔滨工程大学. 2007

[10]. 面向智能服务的Web内容计算研究与应用[D]. 张友华. 中国科学技术大学. 2006

标签：互联网技术论文; 数据挖掘论文; 电子商务论文; 聚类论文; 数据仓库论文; 大数据论文; 推荐算法论文; 数据挖掘算法论文; 推荐系统论文; 文本挖掘论文; web技术论文; 用户研究论文; 电子商务环境论文; 分类数据论文; 图像融合论文; 电子商务模式论文; 用户分析论文; 系统日志论文; 系统学习论文; 网站分析论文; 数据分析论文;

基于Web的数据挖掘研究

猜你喜欢