基于Web的数据挖掘技术研究

基于Web的数据挖掘技术研究

徐飞[1]2008年在《基于Web的数据挖掘在高考志愿分析中的应用》文中进行了进一步梳理随着数据库技术的飞速发展,在各个应用领域都存储了大量的数据,其中包含了很多有用的信息,如何发现各种数据库中隐藏的、预先未知的信息,是数据挖掘技术的关键所在,对它的研究,目前国内外己经取得了许多令人瞩目的成就,并成功地应用到了许多领域,但在高考志愿分析中的应用尚处于起步阶段。根据相关规定,有关高考志愿的相关数据和由此得到的挖掘模型只能存放于招生办公室的专用服务器中,而各招生部门和考生却是一个潜在的多用户群体。为了解决这个问题,需要将Web服务用于数据挖掘系统中来,为用户提供基于Web的数据挖掘查询环境,并在系统设计中着力解安全性问题。本文首先探讨了数据挖掘技术和Web服务安全技术的基础理论,并且采用数据挖掘技术对河南省近几年的高考志愿相关数据进行分析,探索数据背后隐藏的信息与知识,以达到为志愿决策支持提供参考建议的目的。在此基础上,提出了结合Web服务技术的数据挖掘系统模型,对数据挖掘系统的体系结构和代价模型进行了深入的分析,并给出了它的解决方案。相应地设计并实现了一个高考志愿分析系统(GZZYDM)。该系统针对Web服务安全机制中存在的安全性、性能及扩展性方面的问题,对Web服务的SOAP消息进行基于消息的签名和加密,加强了高考志愿数据的安全性及隐私性。GZZYDM系统根据高考志愿数据的特点,在对其进行预处理的基础上,根据考生的成绩、科类、报考的专业和学校等特点对高考录取影响情况进行分类和预测。并通过使用OLE DB for Data Mining数据挖掘平台的开放接口实现系统对多种数据挖掘算法的支持,可以在系统中使用SLIQ,Naive Bayesd等多种分类算法。在数据挖掘技术在高考志愿分析的应用方面,本文主要的贡献是:(1)将数据挖掘技术同Web服务技术结合,设计并实现了一个高考志愿分析系统;(2)通过对Web服务的SOAP消息进行基于消息的签名和加密,保障了志愿数据的安全性及隐私性;

吕子泉[2]2007年在《基于Web的图像数据挖掘研究与应用》文中提出WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息,具有十分重要的现实意义和广泛的应用前景。数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前,数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据,如何对分布于网络环境下的图像数据进行挖掘还未有充分研究。本文首先简单阐述了数据挖掘和知识发现的基本理论;分析了网络信息检索与挖掘的特征,特别是Web数据挖掘和基于内容的图像检索;进而探讨了基于Web的图像数据挖掘研究与应用的一系列基本问题,包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及系统的框架结构和功能模块的分析与设计等,力图为该方向的深入研究提供一些有益的思路。本文还研究了基于内容的图像检索技术(CBIR)的特点和方式,CBIR技术主要依据图像的画面内容特征和主题对象特征来进行检索;讨论了图像的颜色、纹理、形状、空间关系等方面的特征;提出了目前图像挖掘的主要技术,包括分类、聚类、关联规则和神经网络;总结了图像数据挖掘的重点和难点在于特征的提取和图像的表示方式、图像的比较策略、机器学习和图像的自动标注、检索系统的评价标准等几个方面。结合基于Web数据挖掘的方法和基于内容的图像检索,本文对WWW上的图像信息挖掘和检索系统进行了一些研究和探索,分析了Web图像搜索引擎的原理、图像分割方法和MPEG—7标准,为实现本文所设计的实验系统打下基础并构建了一个框架。通过上述内容的分析和研究,构建本文所设计的基于Web的图像数据挖掘的实验系统,首先分析了系统所需功能,为系统的实现打下理论基础,提出了多维数据立方在图像数据挖掘中的具体实现方法,针对图像数据和复杂性,简化了多维数据立方结构;采用最大出现次数算法,提高了系统计算规则的速度,设计了一个较为完整的实验系统模型,绘制了各功能模块的框图,给出了一个简化的Cdib类代码,并在系统中引入了徒手绘草图方法,试图增强系统的适用性。

杨涛[3]2007年在《基于Web的个性化学习系统的研究》文中认为互联网的飞速发展改变着传统教育,同时也加快和推动了新型教育模式的出现。基于Web的个性化学习是在远程学习和个性化服务相结合的基础之上发展起来的。由于用户兴趣建模是个性化学习的基础和核心,所以本文围绕如何创建用户模型以及准确表示用户模型进行了详细研究,同时对用户兴趣模型如何在个性化学习系统中的应用也作出了相关研究。首先,分析了用户兴趣模型常用表示方法和兴趣建模的基本技术,并研究了用户长期兴趣和短期兴趣的变化和迁移,利用Web数据挖掘技术,针对用户的浏览内容和访问行为进行挖掘,自动地创建用户长期兴趣模型;另一方面,为了提高用户模型表示的精度,改进了基于关键词表示用户模型的常用方式,提出了一种基于概念表示用户特征项的方法,一定程度上消除了语义的多义性和歧义性。其次,利用已经建立的用户兴趣模型,调度适合用户个性的学习资源时,通过分析常用文档聚类方法以及研究互信息相关理论的基础之上,提出了一种基于互信息的Web文档聚类方法,对相关信息进行聚类,以达到更好地向用户推荐学习内容的目的。最后,对个性化学习系统中的主要功能模块进行设计和实现,并且通过实验验证了论文提出方法的可行性和有效性。

胡秀[4]2015年在《基于Web的数据挖掘技术研究》文中指出随着因特网的迅速发展,数据资源量越来越庞大,为从这些资源里迅速、准确找到需要的知识,数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术,阐述了该技术的特征并分类作了介绍,对数据挖掘技术的几大研究方向作了展望。

瞿继合[5]2004年在《基于Web的数据挖掘技术研究》文中进行了进一步梳理近年来,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,激增的数据背后隐藏着许多重要的信息。人们不再满足于数据库的查询功能,希望能够对其进行更高层次的分析,以便能从数据中提取信息或者知识为决策服务。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致“数据爆炸但知识贫乏”的现象。同样,传统的统计技术也面临着极大的挑战,这就急需有新的方法来处理这些海量数据。数据挖掘就是为顺应这种需要发展起来的数据处理技术。尽管数据挖掘是近年来出现的新技术,但是它已用于企业决策支持,市场策略制定等,并将成为决策支持系统(Decision Support System,DSS)的重要组成部分。 目前因特网是一个巨大、全球性的信息服务中心,且分布广泛,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web 包含了丰富和动态的超链接信息,以及 Web 页面的访问和使用信息,这为数据挖掘提供了丰富的资源。Web 数据挖掘是传统数据挖掘技术在 Web 环境下的应用,试图从大量的 Web 文档集合和用户浏览 Web 的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。应用 Web 数据挖掘可以改善人们获取信息的速度和准确度。 本文对数据挖掘技术进行了概述,在详细介绍 Web 挖掘技术的基础上着重分析和研究了 Web 内容挖掘 (Web Content Mining)、Web 结构挖掘 (Web Structure Mining)、Web 使用记录挖掘 (Web Usage Mining) 技术。并且设计了一个基于 Web 数据挖掘的应用系统。

马丽娜[6]2002年在《基于Web的数据挖掘技术研究》文中指出网络技术已经渗透到了社会生活的方方面面,随着因特网在世界范围的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。WWW带给人们全新网络世界的同时,也将网络上的人们置于了一个庞杂的网络迷宫,面对缤纷复杂的Web空间,如何从浩如烟海的网络HTML文档中快速、高效地发掘所需信息便成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。 近几年来,Web数据挖掘技术引起了研究人员的关注,低层信息的占有是发掘高层知识的前提,网络信息检索技术便成为目前Web数据挖掘的一个迫切需要深入研究的问题,因此,本文选择Web数据挖掘作为研究对象,重点研究的是基于Web的信息检索技术,对其中的一些相关内容进行了深入研究,旨在研究设计一种性能较好、能捕捉用户兴趣、提高精度的智能信息检索系统,更好的满足用户的需要。 网络上的信息检索技术虽然能够满足用户的部分信息需求,但效果并不理想,往往提供给用户信息的同时,又将用户置于系统提供的巨量信息的汪洋大海之中。目前,该领域的研究热点有多个方面,本文以信息检索模型和系统结构为出发点,在研究现有模型与结构的基础上,找出它们存在的缺点与不足,进行了一定的改进,并通过实验实例进行了分析、论证。 Web信息检索分为全文检索模型和基于内容的检索模型两种,各有其应用的场合与优缺点,其中,基于内容检索模型中的向量空间模型是效果较好、近些年来被广泛应用的一种方法。向量空间模型最大的优点在于知识表示方法上的巨大优势,用N维空间的向量表示文档,用向量之间的夹角表示文档的相似度,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,将难以计算的文字量化成很容易计算的实数,使问题的复杂性大大减小。但是,并不能够说目前的向量空间模型是最理想的,本文通过实验证明了VCM表达信息的不精确性。 信息论是C.E.Shannon为了解决信息传递过程问题而建立的理论,能够用信息来消除不确定性。本文在前人研究的基础上,将信息增益引入到VCM权重计算方法TF IDF的整个过程中,形成结合信息增益的TF IDF相似度计算方法、标准确信度计算方法,得到最终的引入了信息增益的文本分类计算方法TF IDF IG。本文通过实验证明,改进以后的方法在兼顾词语在文档集合中分布的数量情况的同时,也考虑了词语在文档集合中分布的比例情况,不仅能够正确的区分相似度的大小关系,还能够较好的捕捉确信度的比例关系。TF IDF IG方法不仅保持了TF IDF方法对文档类别的区别性,而且还能够捕捉到这种区别性的更为详细的比例上的差别,说明在保持计算量基本不变的情况下,改进后比改进前在多个角度多个方面均有所改进,减少了不确定性和模糊性。 山东帅范大学矾上毕业论文 知识求精是知识获取必不可少的步骤,机器学习是使计算机具有智能的有效手段,0_.__。_..__,,_、,__,_,。。_.,_。。_,。。、。,_.、….__。…__._._。。_ 其中,有导师指导的人工神经网络能够以模糊的结构学习较为精确的内容,是将模糊 的知识进行模糊计算和模糊描述的理想方法。词条项与文档类别之间的模糊关系难以 用精确的方法进行精确地描述与计算,模糊的知识用模糊的方法能得到较好的解决, 因此本文将神经网络应用到信息检索模型中,将之与向量空间模型相结合,形成了一 种改进的向量空间模型 VCM ANN。结合模型按照向量空间模型的基本原理进行工作,用 神经网络对标准VCM的不精确知识进行求精,调整信息隐藏于FTART网络的连接权重 中。我们通过实验证明了人工神经方法的计算精度比改进的信息增益方法高,能够有 效地克服信息增益方法不能克服的精确性问题,计算的复杂性也比信息增益方法低, 这说明人工神经元网络方法虽然捕捉的是模糊信息,却能够较为精确的捕捉到文档中 词条项与文档的类别之间的模糊关系。 进入90年代,Agent的研究蓬勃兴起,面向Agent的计算被誉为“软件开发的又 一重大突破”、“软件界的新革命”,有人预测,Agent将是未来十年最重要的计算范型。 本文将Agent技术引入到Web信息检索中,设计了一个基于Agent能够捕捉用户兴趣 的智能检索模型InforMmer,提高信息检索系统的环境性能和客户性能,并对系统中呛 的Agent关系、结构进行了详细介绍。 本文第一章为概论部分,阐述了本文研究的背景、拟做的工作。第二章探讨了数 据挖掘、文本挖掘,以及Web挖掘相关的几个方面。第叁章着重研究了基于Web的信 息检索的基本原理、基本方法,将人工神经元网络和信息论成功的用于信息检索的计 算模型中,形成VCM与神经网络、VCM与信息论分别结合的两个模型,通过实验分析、 证

王志强[7]2007年在《基于远程教育网站的信息采集与数据挖掘技术研究》文中指出信息技术的发展,使得web上产生的信息飞速增长。然而,web信息使用技术的发展往往跟不上web信息的增长,如何合理地挖掘和利用Web信息,使web的巨大作用和潜能得以发挥,是我们值得研究的课题。远程教育的蓬勃兴起,各类学校和教育部门学习网站的迅速建立,学生通过网站来获取知识、学习技术日渐普遍,由此也积累了大量的数据信息。为了能更好地掌握用户的具体需求,同时也为了给教育网站的设计提供更多的参考,采用数据挖掘技术对远程教育网站的数据信息和访问信息进行处理有着极为深刻的意义。Web是互联网的主要载体,Web本身隐藏了大量的知识,人们在与Web交互过程中也产生了大量的知识,为了获得这些信息和知识,数据挖掘技术被广泛应用到Web中。教育网站每天大量的用户访问,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,从而充分了解用户的需求、行为方式,对设计出结构合理,满足于不同用户群体需要的实用性、服务性强兼有一些个性化特点的教育网站意义重大。本文在系统地分析远程教育网站信息采集、数据挖掘、Web挖掘等概念的基础上,归纳出集数据信息采集和日志挖掘于一体的数据挖掘内涵,并深入说明对远程教育网站进行数据采集和日志挖掘的必要性和意义。在研究课题确定和相关理论铺挚后,全文着重就远程教育网站数据采集和日志挖掘技术中的数据处理过程、模式发现进行研究。远程教育网站数据采集和数据处理,讨论了数据采集和处理的过程,并给出了可视化数据采集的实现办法;远程教育网站日志挖掘数据预处理,讨论了数据源、日志预处理过程和算法,并举例说明;模式发现讨论了基于关联规则的经典算法Apriori,讨论了该算法及其实现,并考虑将Apriori算法应用于远程教育网站日志挖掘应思考的问题。结合前面叁个方面的分析,建立了面向远程教育网站的数据采集与日志挖掘应用系统模型,为日志挖掘技术在教育网站中的应用做了初步的建模,并结合算法给出了一个教育网站中日志挖掘的简单例子。

吴雯雯[8]2008年在《基于Web的用户访问模式挖掘算法及其应用研究》文中进行了进一步梳理随着网络规模的迅猛发展以及用户需求的膨胀,互联网的应用已经渗透到各个领域,越来越多的政府,企业以及个人在Internet上发布或查找信息。Internet上充满了文本、音频和视频等多媒体信息,还包括页面间的链接,用户对页面的访问行为等,人们迫切的希望通过数据挖掘技术来发现隐藏在原始信息中的有用知识,但是Web自身的复杂性决定了web挖掘不能套用传统的数据挖掘的模式,人们便把传统的数据挖掘技术和Internet的特点结合起来,形成了Web挖掘技术。Web站点的服务器日志数据记录了浏览用户对此web站点访问时的大量路径信息,对这些信息的分析有利于网站设计人员掌握用户的兴趣和习惯,有利于改善web站点的结构设计、提高Web服务器系统的服务性能。本文从web日志挖掘系统入手,通过查阅国内外大量相关资料,就如何高效地挖掘Web日志数据从而发现知识做了较为深入的研究,本文主要工作是利用Web挖掘技术从庞杂的信息中发现用户的访问行为即访问兴趣模式,从而帮助实现个性化的信息服务。本文首先介绍了一些数据挖掘和Web挖掘的背景知识、概念分类以及具体应用,重点介绍了web挖掘中的Web使用模式挖掘(即Web目志挖掘),接着,介绍了Web日志挖掘的一般过程,针对Web上特殊的日志数据格式,重点讨论了Web日志挖掘的数据预处理过程。在模式挖掘阶段,重点讨论了如何发现用户的访问兴趣模式,提出了一种基于访问行为的访问模式挖掘方法,引入了选择偏爱度的概念,并在理论和实践两个方面进行了测试评价。最后讨论了通过挖掘得到的访问模式在个性化推荐中的应用情况,主要思想是根据从服务器日志中挖掘出的兴趣访问模式,预测用户下一步的需要,动态地为其推荐兴趣度最高的兴趣页面,这样可以快速准确地产生个性化推荐结果。

杨延娇[9]2007年在《基于Web服务安全的异常数据挖掘算法研究》文中研究指明数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在数据挖掘的过程中,数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象被称为异常点,对异常点的查找过程称为异常数据挖掘,它是数据挖掘技术中的一种。异常数据挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测等。孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值,例外的检测能为我们提供比较重要的信息,使我们发现一些真实而又出乎预料的知识。因此,异常数据的检测和分析是一项重要且有意义的研究工作。本文重点讨论基于Web服务器日志文件的异常数据挖掘。系统地介绍了异常数据挖掘的基本理论,分别利用基于统计的方法、基于距离的方法和基于偏离的方法讨论了异常点的检测。重点讨论了基于距离的异常数据挖掘算法,即基于索引的算法、嵌套循环算法和基于单元的算法,并从时间复杂度、空间复杂度等角度进行了优缺点分析。考虑到使用基于距离的异常数据挖掘算法其效率较低并且需要设置参数,算法实现困难,因此提出基于距离和的孤立点定义方法,利用基于抽样的近似检测算法来实现Web服务器日志文件的异常数据检测,实验结果表明了该算法的有效性。

傅明[10]2004年在《基于Web的空间数据挖掘研究》文中进行了进一步梳理空间数据挖掘(Spatial Data Mining,SDM)是二十世纪九十年代发展起来的一项新技术,近年来得到了越来越多学者的重视。随着计算机网络技术的飞速发展,如何在Internet或Intranet上进行空间数据挖掘,即如何进行基于Web的空间数据挖掘(Web Based Spatial Data Mining,WBSDM)是SDM的一个新的研究领域,也是相关学者日渐关注的研究课题之一。作者1999年提出申请并获湖南省自然科学基金资助于2000年至2003年主持承担了“基于Web的GIS空间数据挖掘”研究,就相关问题开展了探索。 本项研究旨在总结空间数据挖掘技术和基于Web的数据挖掘技术及WBSDM的应用前景;系统地提出基于Web的空间数据挖掘框架;设计基于XML/J2EE的WBSDM平台模型;将MAS(Multi-Agent System)技术引入WBSDM并提出应用策略;研究基于粗糙集的空间知识库刻画模型,提出并实现高维数据的特征提取和数据浓缩算法;提出并实现基于知识库的知识发现模型;构造一个WBSDM的原型实验系统,对本文的相关研究进行验证。具体内容包括: (1) 系统地总结和评述了空间数据挖掘技术和基于Web的数据挖掘等相关技术,在此基础上提出了WBSDM概念,论述了其研究意义和主要功能。 (2) 提出基于Web的空间数据挖掘框架,对WBSDM研究背景、定义、特点、功能组成、体系结构、实现策略、关键技术等进行了系统地论述。 (3) 根据WBSDM的业务需要,在对WebGIS研究进行总结的基础上,设计了一个分布式WebGIS集成模型,明确提出了技术实施方案:基于XML/J2EE技术,设计统一的数据访问接口协议Replys和Request,采用JAFMAS,扩展远程分布式数据挖掘构件。详细阐述了该模型的设计目标、体系结构及关键技术,使该模型能满足WBSDM的要求。 (4) 将MAS技术引入WBSDM中,详细剖析了第叁方提供的移动Agent的纯Java构件JAFMAS,为JAFMAS应用于WBSDM作了细致地研究工作,扩展了该构件并针对WBSDM的需求提出了多Agent合作算法。 (5) 刻划了基于粗糙集信息颗粒的知识库模型,证明了基于基本信 息颗粒的一种正区域等价算法,分析了不可分矩阵的性质,提 出并实现了基于粗糙信息颗粒的属性约简算法,使粗糙集理论 能更好地适应空间海量数据集的挖掘。 (6)为解决WBSDM中自不同空间数据库所获知识所面临的知识融 合问题,提出了一种新的基于知识库的知识发现模型。实验表 明,在对规则知识的冗余、循环、冲突等处理上该模型有良好 的效果。(7)设计并部分实现了一个基于研触b的空间数据挖掘原型系统 场旧 SDMS,结合实际项目,用本系统对城市供水系统数据库进 行了挖掘。该系统能够选用多种算法进行挖掘,具有较好的开 放性和可扩展性。

参考文献:

[1]. 基于Web的数据挖掘在高考志愿分析中的应用[D]. 徐飞. 河南大学. 2008

[2]. 基于Web的图像数据挖掘研究与应用[D]. 吕子泉. 山东大学. 2007

[3]. 基于Web的个性化学习系统的研究[D]. 杨涛. 中国石油大学. 2007

[4]. 基于Web的数据挖掘技术研究[J]. 胡秀. 软件导刊. 2015

[5]. 基于Web的数据挖掘技术研究[D]. 瞿继合. 东北财经大学. 2004

[6]. 基于Web的数据挖掘技术研究[D]. 马丽娜. 山东师范大学. 2002

[7]. 基于远程教育网站的信息采集与数据挖掘技术研究[D]. 王志强. 华东师范大学. 2007

[8]. 基于Web的用户访问模式挖掘算法及其应用研究[D]. 吴雯雯. 合肥工业大学. 2008

[9]. 基于Web服务安全的异常数据挖掘算法研究[D]. 杨延娇. 西北师范大学. 2007

[10]. 基于Web的空间数据挖掘研究[D]. 傅明. 中南大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Web的数据挖掘技术研究
下载Doc文档

猜你喜欢