多维关联规则挖掘的研究

多维关联规则挖掘的研究

罗巧玲[1]2007年在《面向客户流失预测的关联规则挖掘算法应用研究》文中进行了进一步梳理随着我国电信企业运营机制的全面调整,电信业竞争更激烈。电信企业之间的争夺加剧了客户离网行为,客户离网成为影响电信公司经营状况的一个重要因素。利用数据挖掘技术科学地分析那些已经流失的客户的特征,从而预测在网客户的流失倾向,已成为电信业的一个重要研究内容。而关联规则挖掘算法基于自身的诸多优势,成为目前电信客户流失预测应用中最具有前景的数据挖掘技术之一,也得到了越来越多研究者的关注。本文通过对电信业客户流失预测和关联规则挖掘算法的文献综述,分析了现有研究中仍然存在的问题,并重点对现有关联规则挖掘算法无法高效率地对数量少、但客户价值大的电信客户进行流失预测进行了剖析,提出了一种基于数据属性约减和概率的加权多维关联规则挖掘改进算法,并进行了实验仿真,验证了算法的有效性。本文的具体贡献有如下几个方面:第一,通过对电信业客户流失预测及关联规则挖掘算法的研究综述,分析了现有关联规则挖掘算法的分类和关联规则价值的衡量,并主要针对现有多维关联规则挖掘算法进行客户流失预测时的优缺点进行了比较分析,指出了目前电信业数据复杂、挖掘效率低下;而且算法尚未对电信业中数量少、但价值大的流失客户给予足够重视,影响了客户流失预测的效果。第二,针对传统算法挖掘效率低下、且忽视了数量少但价值大的客户流失问题,提出了一种基于属性约减和概率的加权多维关联规则改进算法。其基本思路是:首先对价值大的客户利用基于粗集的属性约减方法进行属性约减,组成数据表。然后引入了基于概率的加权关联规则的概念、定义和公式,来挖掘那些数量很少但价值很大的流失客户的关联规则,并用提升度来衡量关联规则,以得到客户流失的强关联规则。第叁,使用Powerbuilder6.5编程,对提出的改进算法进行了实验仿真与测试,并与传统的多维关联规则挖掘算法(Apriori算法)进行比较,提高了客户流失预测的效率,同时实验显示,改进算法能够挖掘出传统算法所不能挖掘的数量少但价值大的客户的关联规则,使电信运营商更有针对性的挽留大价值客户,显示出了更好的预测效果。

张旭娟[2]2007年在《城市公安刑事案件的关联分析模型研究》文中提出“金盾工程”建设在全国进入全面推进的新阶段,城市公安信息化基础工作建设取得了巨大成绩,同时也存在一些问题,如公安各类信息资源没有得到充分挖掘和合理利用,不能以简便、灵活的应用手段为领导和一线民警开展工作提供综合信息和科学决策支持。近年来发展的数据挖掘技术能够发现数据中隐藏的规律,起到辅助决策的作用。本文研究的主要内容是数据挖掘技术在城市公安应用研究中一个重要部分——刑事案件的关联分析模型。本文首先提出了城市公安刑事案件关联分析模型的总体框架,然后研究了模型各步骤中使用的方法与算法,主要有以下几个方面:在数据预处理过程中,给出了适合公安数据提取与清理的策略,在此基础上,建立刑事案件多维数据模型,包括选取星型数据模式,使用分箱等方法对数据进行离散化与概念分层处理,建立数据立方体。然后进行多维关联规则挖掘,利用改进的Apriori算法寻找频繁谓词集,按照最小支持度与最小置信度的要求在频繁谓词集中产生强关联规则。在进行多层关联规则挖掘时,本文分析选取了层交叉单项过滤策略,通过修改多维频繁谓词集算法来发现不同概念层中的频繁谓词集,产生强关联规则,最后利用检验冗余规则原则去除冗余结果。在本文的最后,利用大连市公安局提供的刑事案件数据,按照模型的方法与步骤,选择了适当的工具,完成了大连市甘井子区刑事案件的关联分析,验证了模型的正确性与有效性。本文的研究为今后城市公安数据挖掘应用研究提供了参考,对辅助公安决策具有理论意义与现实意义。

罗林[3]2008年在《基于多维立方体的关联挖掘》文中研究说明随着电信行业市场竞争的不断深入,以及电信运营商对自身提出业务目标和要求的不断提高,电信运营商面临着提升服务水平、提升盈利能力、提升网络质量等多方面的压力。同时,由于电信业务的发展,积累了大量的运营数据。如何能够实现对这些信息的深层次分析利用,是领导和决策者一直关注的问题。OLAM(OLAP Mining),联机分析挖掘,是一种将OLAP技术和数据挖掘技术结合起来,集中了数据仓库、OLAP和数据挖掘技术优势的技术,它使得挖掘能够在用户的指挥下,在数据库或数据仓库的不同部分,在不同抽象层次上进行。这种技术对解决电信部门的数据分析利用问题提供了很好的解决途径,本文就此作了初步的研究。而如何将两者结合起来,进行针对数据仓库、数据立方体的数据挖掘,己成为目前这一领域研究的焦点问题。本文所讨论的基于数据立方体的数据挖掘正是这一领域中的一个具体的研究问题,内容涉及数据立方体的构建、针对数据立方体的维内、维间挖掘算法等。这一研究具有非常广泛的应用前景。关联规则分析是联机分析挖掘研究的一个重要内容,其目的是找出给定的数据集中的项之间有意义的联系。在关联规则挖掘领域,研究较多、较成熟的是基于事务数据库、关系数据库的单维关联规则的挖掘,其中最有影响的算法是Agmwal等人提出的Apriori算法。数据仓库中的数据以多维形式组织,多维数据模型将数据按数据立方体(data cube)的形式组织,如何实现基于多维数据立方体的挖掘是近年来研究比较多的一个问题,本文以Apriori算法为核心进行改进,提出了针对多维数据立方体的维内和维间关联规则挖掘算法,同时引入了用户交互的概念,设计了一种多维树形结构,该结构采用树形方式对多维数据集进行可视化描述,用户可通过对多维树形结构的各种操作来参与关联规则的挖掘过程。电信两年多时间的领域调研和课题研发,为本文积累了充分的领域知识和相关理论及工程经验,也使得基于数据立方体的关联挖掘方法的提出有了扎实的基础。实践表明,根据电信部门的需求设计的基于客户积分主题的联机分析挖掘系统达到了OLAM系统设计的基本目标,并能有效的为电信的分析人员提供决策支持。

邢国麟[4]2007年在《轧机电气设备故障诊断中数据挖掘技术的研究》文中研究表明随着现代科学技术的迅猛发展,钢铁加工业生产系统正朝着大型化、复杂化、系统化和自动化的方向加速发展。这些发展都对承担着繁重生产任务的轧机电气设备的安全可靠性提出了更高、更严格的要求。由于长时间不间断运行,轧机电气设备存在着很大的故障隐患,由此而导致停产,损失往往是巨大的。所以近年来,轧机电气设备的故障诊断逐渐受到人们的重视。首先,在深入学习轧机电气设备故障诊断理论的基础上,以带动轧机运转的主要电气设备——主电机为故障诊断对象,对其结构、故障类型和常用的检测技术进行了研究。分析了现有棒材生产线在线检测控制系统存在的问题,创新性地提出将基于关联规则的OLAM挖掘技术引入轧机电气设备故障诊断领域,以期望发现大量监测数据背后所隐藏的对故障诊断有积极指导意义的信息,从而提高设备安全性和经济效益。其次,研究了数据仓库技术、联机分析处理技术、数据挖掘技术和联机分析挖掘理论,并对数据挖掘中关联规则挖掘的理论和算法进行了深入的学习,选取了适宜的关联规则挖掘算法,使其与数据立方体相结合,构建了基于关联规则的OLAM挖掘模型,并结合轧机主要电气设备——电机的故障诊断对模型组成进行了研究。最后,以钢铁公司为例,鉴于监测系统中存储了大量的电机测量数据,应用基于关联规则的故障诊断方法,在Windows XP操作平台下,使用Microsoft SQL Server 2005,建立了OLAM挖掘模型。利用选取的电机数据集对提出的模型进行了训练和考核。结果表明,基于关联规则的OLAM挖掘模型产生的规则,能够为故障诊断提供辅助决策。

苏蕊[5]2007年在《数据挖掘中关联规则算法的研究》文中研究表明现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。

马安胜[6]2007年在《多维数据关联规则挖掘研究及系统实现》文中研究说明为了实现联机分析处理和数据挖掘的紧密结合,我们提出在多维数据模式的基础上同时支持OLAP应用和数据挖掘应用的思路。论文分析研究了多维数据立方的特征及关联规则挖掘Apriori算法,综合了数据仓库技术、联机分析处理技术和关联规则挖掘算法,给出了基于多维数据的关联规则挖掘方法,其中包括维内关联规则挖掘、维间关联关联规则挖掘和混合维关联规则挖掘。这种多维数据关联规则挖掘方法改变了传统关联规则挖掘过程中通过扫描事务数据库计算支持数的方法,而采用了扫描数据立方体来统计频繁项目集的支持数。另外针对数据立方结构以及OLAP操作,算法融入了层次的概念,给出了可选概念层次的多维数据关联规则挖掘算法,通过上钻、下钻选出的更合理的概念层次,从而在选取的概念层次上进行关联规则挖掘。算法中产生关联规则时,又结合了兴趣度、约束的概念,最终挖掘出用户感兴趣的、指定约束的、概念层次合理的、多维的关联规则。研究显示这种基于OLAP的多维关联规则挖掘算法可以准确地确定要调整的维,在挖掘过程中对维层次的高低进行判断,并利用数据立方体的上钻和下钻操作对维层次进行调整,具有较高灵活性及效率。

廖海波[7]2008年在《关联规则挖掘在病案数据分析中的应用研究》文中研究指明随着数据库技术的迅速发展和医院信息系统在各大中型医院的不断普及,如何对医院信息系统积累的越来越多的医疗数据进行分析挖掘,将隐藏在临床医疗数据之中的大量有用知识提取出来,成为人们所关注的焦点。本文以对医院的实际病案数据如何进行分析挖掘为主线,围绕数据仓库、OLAP和数据挖掘叁个用于病案数据分析的核心组件进行应用研究。在全面阐述病案数据分析相关理论基础后,针对医院病案信息的具体情况,设计并实现了以病人为主题域的病案数据仓库的概念、逻辑和物理模型,并在病案数据仓库的基础之上创建了病案多维数据立方体,利用数据透视表和MDX方式完成了对OLAP的操作和数据展现,接着本文对关联规则挖掘理论进行了详细的阐述,并根据病案数据多维多层次的特点,构建并实现了基于病案数据多维立方体的关联规则挖掘结构,并对病案数据多维立方体进行了关联规则挖掘实验,通过对挖掘得到的关联规则的归纳和分析,找出了隐藏在病案数据之中的各个疾病之间的相互联系,以及病人的职业、性别、年龄等特征对病人疾病的影响,为医生对疾病的诊断治疗提供帮助。

戴新喜[8]2007年在《基于模式矩阵的关联规则挖掘算法的研究与应用》文中研究指明由于计算机应用的飞速发展,数据挖掘技术成为数据库和人工智能领域最前沿、最活跃的研究方向之一,关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律,有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段。随着市场不断提出新需求,关联规则挖掘技术急需高性能的、可靠的数据挖掘方案,以对各数据库中数据进行有效的挖掘,提高数据挖掘应用于数据分析和决策支持的正确性和有效性。Apriori算法是关联规则挖掘中最经典的算法,但它存在两大致命缺陷:需多次扫描数据库和产生海量的候选项目集。针对这两大缺陷,本文提出了一种基于模式矩阵的关联规则挖掘算法(简称P_Matrix算法),使扫描数据库的次数减少为一次,同时不产生候选项目集而直接产生频繁项目集,从而使算法的时间复杂度和空间复杂度大大减少,有效地提高了关联规则算法的效率。同时,将基于模式矩阵的P_Matrix算法运用到“江西省基于数据仓库的宏观经济智能决策支持系统”项目中,取得了较好的效果。

唐小萍[9]2007年在《基于气象数据的关联规则挖掘》文中研究指明数据挖掘(或知识发现)出现于20世纪80年代末,目前己经成为人工智能和数据库等领域的研究热点。关联规则挖掘是数据挖掘的一个重要分支,并被广泛应用于市场营销、电信、银行等应用领域。随着我国气象信息化事业的不断发展,在气象领域积累了大量的数据。激增的数据背后隐藏着许多重要的信息,如何充分利用这些数据并从中发现有用的、却常被人们忽视的重要信息,已成为科研人员的一项重要任务。气象数据中数据间存在着某些关联,这些隐藏在数据中的联系可以采用不同的方法被挖掘,根据不同的条件挖掘得到。本文概述了数据挖掘的概念、数据挖掘的各种方法和技术及发展趋势,对经典关联规则挖掘算法进行了初步的研究,包括关联规则的概念、种类及挖掘步骤,重点介绍了经典Apriori算法,针对Apriori算法本身存在的问题,目前的专家学者进行了大量的研究工作,提出了一些改进的算法以提高Apriori的效率,论文简要介绍了一些改进算法的思想。在以上研究的基础上,根据现有的沙尘天气相关气象资料,应用关联规则算法对气象数据进行了挖掘,并在实验室环境中得到了基本实现,得到了一些较有意义的数据,发现了气象资料中隐藏的信息,以期为今后更进一步的研究工作奠定基础。总之,在气象数据获取、处理和应用流程中运用数据挖掘理论和技术,发现其中具有内在联系的规则或模式,可以有效地进行气象预测,对灾害性气候(比如:旱灾、涝灾)及时采取防范措施,能够为科学决策提供更好的服务。大量的气象数据为数据挖掘技术应用提供广阔应用前景,数据挖掘也为气象数据的处理提供了有效手段。今后除继续拓展数据挖掘在气象领域的应用范围外,还要不断改进挖掘方法,提高数据挖掘的效率。

绳英英[10]2009年在《多维多层关联规则算法研究》文中提出随着数据库规模的日益扩大和数据挖掘技术的繁荣发展,关联规则技术也得到了蓬勃的发展,并正朝更为广泛和深入的方向继续发展。关联规则挖掘算法是关联规则挖掘研究的主要内容。提高关联规则的效率关键是提高关联规则算法的效率。Apriori算法是一种最有影响的挖掘单维布尔型关联规则频繁项集的算法。Apriori算法存在两大瓶颈问题:一是候选项目集的数量,二是事务数据库的扫描次数。同时Apriori算法是单维布尔型的。与经典的关联规则研究相比,目前的主要研究内容已经从单维单层次扩展到多维多层次的挖掘。运用抽象层次的概念,可能会发现新的更为抽象的规则。在实际应用中,应该从不同的角度不同的层面上进行挖掘,这种条件下产生的强关联规则对人们来说更有用。因为现在的数据多是以多维的形式存在,并且存放在关系数据库中。因此本文主要是把单维布尔型关联规则算法Apriori算法扩展到多维多层关系数据挖掘上去。本文在对数据挖掘及关联规则技术深入细致研究的基础上做了以下工作:(1)分析了关联规则的经典算法Apriori算法,包括算法思想、算法的主要步骤及算法伪码,并分析了其存在的问题,列出了一些提高Apriori有效性的方法。(2)在充分消化吸收经典Apriori算法的基础上提出了改进的算法,改进后的算法是适于挖掘多维关系数据的。主要描述了改进后算法的思想、算法的伪码及算法的理论正确性分析。(3)对改进后的算法的性能与Apriori算法的性能进行了比较试验,实验结果证明了改进后的算法在多维度等方面的优越性。在本文的最后,进行了文章总结和进一步工作的展望。

参考文献:

[1]. 面向客户流失预测的关联规则挖掘算法应用研究[D]. 罗巧玲. 河北工业大学. 2007

[2]. 城市公安刑事案件的关联分析模型研究[D]. 张旭娟. 大连理工大学. 2007

[3]. 基于多维立方体的关联挖掘[D]. 罗林. 昆明理工大学. 2008

[4]. 轧机电气设备故障诊断中数据挖掘技术的研究[D]. 邢国麟. 河北工业大学. 2007

[5]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007

[6]. 多维数据关联规则挖掘研究及系统实现[D]. 马安胜. 吉林大学. 2007

[7]. 关联规则挖掘在病案数据分析中的应用研究[D]. 廖海波. 合肥工业大学. 2008

[8]. 基于模式矩阵的关联规则挖掘算法的研究与应用[D]. 戴新喜. 南昌大学. 2007

[9]. 基于气象数据的关联规则挖掘[D]. 唐小萍. 天津大学. 2007

[10]. 多维多层关联规则算法研究[D]. 绳英英. 江苏科技大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多维关联规则挖掘的研究
下载Doc文档

猜你喜欢