主动增量式数据挖掘在联机分析挖掘模型中的应用研究

主动增量式数据挖掘在联机分析挖掘模型中的应用研究

况湘玲[1]2004年在《主动增量式数据挖掘在联机分析挖掘模型中的应用研究》文中指出在经典的联机分析挖掘模型基础上,针对数据挖掘中的基础数据比较复杂的问题,完善了对于数据基础的处理,使用了工作仓库的概念,将数据仓库和其他各种形式的数据文件表示为以数据立方体为基本逻辑结构的工作仓库,并在工作仓库中添加了元数据模块和知识库模块,使得在工作仓库上进行的数据挖掘比直接在数据仓库等数据文件之上进行的操作要更加灵活,功能更加丰富,系统集成化程度更高。在联机分析挖掘系统中,系统综合了联机分析处理和数据挖掘的各自优点,因此需要在结合以后能够更加系统地、高效地、智能地处理系统事务。为了使整个系统面向决策用户,从系统的整体性、主动性和系统效率出发,实现增量数据挖掘功能。提出主动增量挖掘功能,即借鉴主动数据库中的主动机制,在通用的关系数据库和多维数据仓库中,以数据基础为中心,当增量数据满足一定条件时触发增量数据挖掘程序,自动处理增量数据,使系统中数据挖掘引擎的增量数据挖掘功能自动化,从数据基础整体解决联机分析挖掘系统的增量挖掘功能问题,提高系统的灵活性、智能化水平和系统运行及维护效率。在数据库中实现联机分析挖掘模型需要实现联机分析处理和主动增量挖掘。联机分析处理系统基于SQL Server 2000的数据仓库技术,在其虚拟多维数据集上进行多维分析。主动增量挖掘利用数据库的触发器机制调用存储过程来实现。

陈砚雄[2]2003年在《事务间量化关联规则挖掘的研究及应用》文中指出世界进入信息时代,在各个领域存在大量数据,人们迫切需要将它们转换成有用的信息和知识,以应用于商务管理、生产控制和预测等方面。数据挖掘和知识发现作为从海量数据中提取信息的一种技术,已经成为当前一个具有重要理论和应用价值的研究课题,在国际学术界引起了广泛关注。本文在充分分析数据挖掘的基本特点和相关技术的基础上,探讨了事务间量化关联规则挖掘的理论及其在预测中的应用。 本文首先介绍了国内外关于知识发现和数据挖掘的最新发展动态、数据挖掘的基本概念和一般处理流程。通过对事务间关联规则理论的分析,发现其适用对象仪仪为分类属性,因而有所限制,基于原来的事务间关联规则概念和算法,我们提出了事务间量化关联规则的概念及挖掘算法,从而将分类属性和量化属性统一到了一起,扩展了它们的应用范围;然后引入了部分完全性度量和分箱技术对属性进行动态离散化,在保证信息丢失最小化的前提下,有效地压缩了算法的搜索空间,对于算法搜索产生的海量规则,采用基于特化的R—兴趣度度量来剔除冗余规则;再者,因为数据挖掘本质上是一种数据分析技术,单纯的数据挖掘技术缺少用户的参与,因而不能得到他们的期望结果,据此我们引入多维数据分析的OLAP技术,将它与关联规则挖掘技术紧密地集成在一起,形成了一个对用户友好的、交互式的数据挖掘环境。最后,我们将上述理论应用到武汉市空气质量预测系统Orpheus中,取得了较好的效果。 本文的主要研究成果如下: 1) 深入研究了事务间关联规则挖掘的理论和方法,对它作进一步的扩充,提出了事务间量化关联规则的概念。 2) 提出了事务间量化关联规则的挖掘算法。 3) 引入了数据仓库的概念和OLAP技术,以它们作为基础,结合关联规则挖掘算法,形成了OLAM的系统结构,并在空气质量预测系统中初步地实现。 4) 设计了基于关联规则挖掘模型和OLAM结构的预测系统框架,该框架的核心是OLAM引擎,它实现了一种从数据建模—预测结果—再调整 K\硕士学位论文 \NhM M尼”匹R’Snr“ 模型的自反馈过程,对于数据挖掘方法在预测领域的应用有着启发性 的意义。

马兰云[3]2006年在《流数据异常挖掘算法研究》文中研究指明随着计算机网络飞速发展,出现了一种新的数据模型——流式数据。流式数据以成倍的、快速的、随时间变动的并且可能是不可预测和无限的流的方式到达。这种应用的例子如传感器网络数据,入侵检测,电信数据管理等等。流数据的出现对适用于静态数据的数据库技术和数据挖掘技术都是一个新的挑战。由于流数据是无限、连续到达的大量数据,要存储所有的数据是不可能的,许多传统的数据挖掘算法并不适合于流数据的挖掘。本文通过对数据挖掘中异常挖掘和流数据应用的研究,提出了一个在流数据上进行异常挖掘的方法。对于流数据的异常挖掘,本文选择了基于偏差检测的OLAP数据立方技术。首先分析了基于流式数据建立数据立方体的可行性,然后构建了流立方体的基本架构,再在此基础上进行基于OLAP数据立方探查技术的异常点发现的算法设计。最后本文提出了该异常挖掘的一个新的应用领域:智能手机的入侵检测,并设计了一个基于多代理和流数据异常挖掘技术的智能手机入侵检测的初步模型。本文在流数据的多维在线分析、基于OLAP数据立方体的数据挖掘以及智能手机的入侵检测等研究领域都有新的进展。

魏兵[4]2004年在《数据挖掘技术在客户关系管理中的应用研究》文中认为数据挖掘技术在客户关系管理(CRM)中的应用是近年来的研究热点。CRM是将客户信息转化成为积极的客户关系的反复循环过程,而数据挖掘则是从大量数据中发掘出有用知识的强有力工具,数据挖掘技术在CRM中的有效运用可以从与客户有关的大量数据中挖掘出对企业经营决策有价值的知识和规则。 本文从数据挖掘在CRM中应用的基础理论和方法入手,探讨了徐工集团营销公司CRM中应用数据挖掘的基础构建,并在此基础上详细分析了各种数据挖掘技术在徐工集团营销公司CRM系统中不同方面的应用实施。

吴佳峰[5]2012年在《数据挖掘技术在医疗影像信息系统中的应用研究》文中研究说明随着医疗影像信息系统(RIS/PACS)在医院的普及和应用,医院积累了大量的业务数据。研究如何有效地从这些业务数据中挖掘出对医院发展、管理和医疗服务有用的信息已成为众多医院迫切关心的问题。本文结合某叁甲医院医疗影像信息系统的实际运行情况,利用数据仓库和数据挖掘技术,建立医疗影像数据仓库,进行多维数据分析,并在此基础上建立患者检查项目和设备检查量分析的数据挖掘模型,尝试为医院放射科管理提供决策信息。论文主要研究内容概括如下:1.医疗影像数据仓库的建立:通过对医院放射科管理需求分析和RIS/PACS系统中数据的初步分析,确定数据仓库的主题,建立医疗影像数据仓库实例系统,包括多维数据模型的设计和数据ETL,同时研究运用OLAP对多维数据集进行分析和利用可视化技术展示结果。2.病人检查项目的关联分析:研究如何利用关联规则对病人的检查项目进行分析,对病人检查信息表中的数据进行分析,提取出病人信息和检查项目,对数据整理后利用apriori算法建立关联规则模型,得到有用的规则。3.设备检查量预报:研究利用时间序列对设备检查量进行预报。按月统计影像科各设备类型的检查量后,建立检查量预测的时序模型,预测设备未来的检查量。本文的研究结果表明,利用数据仓库和数据挖掘技术对医疗影像数据进行挖掘分析,可为医院影像科的管理提供极大的决策帮助,具有较广阔的应用前景。

樊明辉[6]2006年在《空间数据挖掘及其可视化系统若干关键技术研究》文中研究表明数据挖掘技术已经成为解决“数据爆炸、知识贫乏”问题的有效手段,在地学数据分析领域引入数据挖掘与知识发现的概念、模式和方法,探讨适合地学应用的数据挖掘新方法,对于有效处理海量地学数据、提高地学分析的自动化和智能化水平具有重要意义。 可视化技术能为数据挖掘提供直观的数据输入、结果输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度,在地学领域,可视化与空间数据挖掘的结合已成为必然。 本文系统地讨论了基于数据仓库的空间数据集成技术,改进了空间关联规则、粗糙集和空间聚类算法,研究了契合上述挖掘算法的若干可视化技术,在此基础上,实现了一种开放式的“即插即用型”数据挖掘系统,并集成上述数据挖掘技术、可视化技术,形成一套可视化空间数据挖掘的理论框架、技术方法和原型系统。研究内容和结果可归纳为: (1) 阐述了空间数据集成和空间数据集成模型的相关理论和概念,对多源空间数据的集成模式进行了探讨。讨论了多源空间数据的一体化处理技术和多尺度空间数据的一体化处理技术,提出了基于数据仓库的数据集成总体框架,设计了一个基于Web的空间OLAP工具,并给出了具体的实现流程。 (2) 改进了Apriori算法,提出了一种基于映射的高效大项集关联规则发现算法MBAR。探讨了空间概念树和层次关联规则结合的途径,提出了基于概念树的多层次空间规则算法,给出了算法处理流程和应用实例。 (3) 探讨了应用于多准则决策分析的基于优势关系的粗糙集扩展模型,对该模型中已有的求核和知识约简算法进行了研究,提出了一个新的优势区分矩阵的定义,在该定义的基础上给出了相应的求核和求约简算法,给出了在属性约简之后提取优势规则的方法。 (4) 研究了基于空间邻接关系的空间聚类挖掘算法VSG-CLUST。该算法是一种基于图分割的可视化空间聚类算法,利用Delaunay叁角网工具和MST(最小生成树)将地理实体的邻接信息(空间相邻关系)加入并参与到空间聚类中。研究了利用多尺度的空间概念层次关系进行空间聚类挖掘的算法,将尺度因素作为一种约束条件施加于VSG-CLUST算法中MST的分割和修剪策略,即一种基于尺度约束的空间层次聚类挖掘算法。 (5) 讨论了基于OLAP的空间多维可视化方法,并给出OLAP多维可视化

许纯[7]2005年在《PMML研究与数据挖掘系统平台设计》文中提出关系数据库的广泛使用促成了数据挖掘技术的诞生。数据挖掘系统在金融业,电信和零售等有着巨大的应用前景。随着大量数据挖掘系统的使用,不同的数据挖掘系统开发商之间,不同的研究机构之间以及系统开发商和研究机构之间迫切需要一个与SQL之于关系数据库系统类似的数据挖掘语言出现。但是,数据挖掘语言至今仍然没有一个统一的标准。不同研究机构或公司使用的主要有数据挖掘查询语言(DBMiner的DMQL)、数据挖掘建模语言(OMG的PMML)和通用数据挖掘语言(Microsoft的OLE DB for Data Mining)等。本文介绍了数据挖掘的概念和功能,并对数据挖掘系统和相关技术的发展进行了分析与讨论,介绍并分析了预言模型标记语言PMML。本文在研究软件体系结构的基础上,设计了一个数据挖掘系统平台,给数据挖掘技术的研究者提供一个研究用的实验平台。只要遵循该平台的数据模型接口和挖掘模型接口,新的数据挖掘算法可以很容易地集成到该平台中去。同时,该平台又是一个具有实际应用价值、可以与数据挖掘应用紧密结合的、便于升级和移植的数据挖掘系统框架。将数据挖掘系统实现技术与最新的PMML标准结合起来,采用组件技术设计,使得系统具有良好的开放性和可扩展性。系统的设计主要包括数据服务器、挖掘服务器和专家服务器叁部分。数据服务器代表了系统的数据抽象,包括元数据的表示和数据的存取接口。挖掘服务器实现系统的挖掘功能。通过对各种挖掘功能进行抽象, 建立了以TMiningAlgorithm为基类型的挖掘算法类型体系结构。

侯传宇[8]2008年在《隐含概念漂移的数据流分类算法研究》文中指出电信、网络等众多应用领域存在着大量的数据流,其具有快速性、连续性、多变性及无限性等特性。数据流中存在大量的有用信息,因而从数据流中挖掘出未知的、有价值的模式或规律将对网络安全、企业决策等产生重大影响。数据流挖掘技术的潜在应用是十分广泛的,从政府管理决策、商业经营决策和信息安全等很多领域都可以找到数据流挖掘技术的应用。然而,由于概念漂移现象的影响,使得经典的挖掘方法不再适用。因此,研究快速的、精确的、稳定的数据流挖掘系统具有较高的理论价值和应用前景。概念漂移的频度可以看作是概念漂移中部分概念重现次数,本文研究了基于频度的概念漂移的特点,以及低频概念对分类时空性能的影响,提出对基于频度的概念漂移进行检测的算法和对其中的低频概念进行消减的算法LFCR。本文主要研究内容如下:(1)概述了数据流挖掘产生与发展,分析了相关算法及存在的问题。(2)研究了经典的分类算法,分析了数据流分类所面临的问题。分析了概念漂移对数据流分类的影响,对适合于隐含概念漂移的数据流分类算法进行研究,并对其所存在的问题进行探讨。(3)针对基于频度的概念漂移的特点提出对基于频度的概念漂移进行检测的算法,以便利用概念变换的规律来对发生漂移的概念进行预测,从而提高分类的时间性能。(4)分析了基于频度的概念漂移中低频概念对分类时空性能的影响,设计了消减其中低频概念的算法LFCR。实验表明了LFCR算法具有良好的时间性能。

刘建[9]2009年在《商务智能中关联规则挖掘算法的研究及应用》文中研究说明本文首先从商务智能出发,介绍了商业智能的概念、发展以及商务智能的技术组成、特点,包括数据仓库、OLAP和数据挖掘。其中重点介绍了数据挖掘技术中的关联规则数据挖掘技术。数据挖掘技术已经引起了信息产业界的广泛关注。关联规则是其中一个主要的研究方向,有着广泛的应用价值。首先在介绍关联规则基本概念的基础上,对关联规则的Apriori算法进行了详细地分析和研究,并就目前针对提高该算法效率的各种优化技术也进行了详细地描述,在此基础上提出了基于遗传算法思想的改进Apriori挖掘算法。并进行了模拟实验,比较结果显示改进后的挖掘算法极大的提高了效率。然后把关联规则挖掘技术应用到商务决策中,为商务决策者制订出针对商品和顾客管理的一系列商务决策提供了参考。

陈金波[10]2006年在《面向电信CRM的数据挖掘应用研究》文中进行了进一步梳理面对电信市场竞争的加剧和信息技术的发展,电信企业必须建立以“客户为中心”的管理模式。因此,利用数据挖掘技术对海量的电信企业客户数据进行挖掘分析,从中发现各种潜在的、有价值的、规律性知识,是当前电信企业提升CRM水平的重要方面,极具理论意义和应用价值。本文运用理论分析与实证研究相结合的方法,针对数据挖掘在电信CRM中的若干个具体应用问题进行研究。主要内容如下:1.详细地分析了电信企业IT系统现状,建立面向客户主题的电信企业数据仓库体系结构,对电信企业数据仓库主题分析进行了研究,设计了相应的数据模型:物理模型和逻辑模型,并对电信企业数据仓库的实现方式进行了分析论述。2.系统地介绍了CRM理论,设计了以客户为中心、闭环的四层电信CRM体系结构;对电信客户管理进行系统地研究,以电信客户生命周期管理理论为框架,建立了基于数据挖掘的电信客户生命周期管理模型。3.依据CLV理论,建立了基于当前价值、增量价值和存量价值的电信客户价值模型;并以此为理论依据,设计了电信客户价值评价指标体系;结合AHP法,提出了电信CLV的计算方法,并对某电信企业客户进行了实证分析。4.建立了遗传算法优化的改进K-means(GLKM)聚类模型,研究了有指导的聚类模型评价方法,并进行了仿真验证;最后利用某电信公司客户数据进行了实证分析,并对客户群进行特征刻画。5.基于代价敏感学习理论,分别利用Under-sampling和AdaCost算法来构建代价最小化的电信客户流失预测模型,并通过总代价比较和模型收益性分析来表明代价最小化的模型具有更高的应用价值。本文的研究工作为电信企业应用数据挖掘技术分析客户行为和提升CRM水平可提供有益参考,在理论研究和工程实践上具有重要意义。

参考文献:

[1]. 主动增量式数据挖掘在联机分析挖掘模型中的应用研究[D]. 况湘玲. 华中科技大学. 2004

[2]. 事务间量化关联规则挖掘的研究及应用[D]. 陈砚雄. 华中师范大学. 2003

[3]. 流数据异常挖掘算法研究[D]. 马兰云. 北京交通大学. 2006

[4]. 数据挖掘技术在客户关系管理中的应用研究[D]. 魏兵. 南京理工大学. 2004

[5]. 数据挖掘技术在医疗影像信息系统中的应用研究[D]. 吴佳峰. 杭州电子科技大学. 2012

[6]. 空间数据挖掘及其可视化系统若干关键技术研究[D]. 樊明辉. 中国科学院研究生院(遥感应用研究所). 2006

[7]. PMML研究与数据挖掘系统平台设计[D]. 许纯. 重庆大学. 2005

[8]. 隐含概念漂移的数据流分类算法研究[D]. 侯传宇. 合肥工业大学. 2008

[9]. 商务智能中关联规则挖掘算法的研究及应用[D]. 刘建. 长春理工大学. 2009

[10]. 面向电信CRM的数据挖掘应用研究[D]. 陈金波. 东南大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

主动增量式数据挖掘在联机分析挖掘模型中的应用研究
下载Doc文档

猜你喜欢