归纳逻辑程序设计在数据库知识发现中的应用研究

归纳逻辑程序设计在数据库知识发现中的应用研究

边嘉耕[1]2000年在《归纳逻辑程序设计在数据库知识发现中的应用研究》文中认为我的论文题目是“归纳逻辑程序设计(ILP)在数据库知识发现中的应用研究”,属于国家863计划资助的研究项目的一部分,本文是对这两年来工作的总结。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,现实世界积累了越来越多的数据,如何从这些数据中得到隐含的有价值的信息和知识,就成为一个迫切需求和非常艰巨的任务。目前的数据库系统擅长于事务性处理,但对分析性处理,即发现数据中存在的关系和规则,根据现有的数据预测未来的发展趋势,缺乏有效挖掘数据背后隐藏的知识的手段。数据库中的知识发现(Knowledge Discovery in Databases,KDD)就是把数据库管理系统和人工智能中的各种算法结合起来发现隐藏在大量数据中知识的一个新研究方向。 本文在剖析机器学习中归纳逻辑程序设计系统的基础上,分析了归纳逻辑程序设计系统和数据库系统结合的三种方法,给出了数据库和谓词之间的映射关系,并在此基础上完成了数据库管理系统与归纳逻辑程序设计系统松散耦合的接口,实现了一个子句级紧耦合的知识发现系统原型(KDDGOL),该原型具有通用性,表达能力强和多表学习等特点。 目前归纳逻辑程序设计在数据库知识发现中的应用研究我们在国内还未见到,国际上也只有少数的研究机构在进行(如德国Morik等的RDT/DB系统),KDDGOL系统是我们把归纳逻辑程序设计和数据库结合向实用化推进的一个有意义的尝试。在实施过程中由于考虑到系统的效率和可行性,对模式说明(即假设偏向bias)做了较严格的限制,相对于一般的归纳逻辑程序设计系统表达能力弱一些,同时对于现实中的数据库存在噪音等问题,需要进一步工作去完善。

孙江林[2]2010年在《基于ILP的多关系关联规则数据挖掘(MRDM)算法研究》文中认为基于属性-值的学习方法的命题化算法是关联规则挖掘算法的的传统方法,即,每一个事实都以的(属性,值)元组形式表示。这种表示形式中,属性种类是固定的,每个属性有一个给定的值与之对应,所以数据集可以被看做关系数据库中的一个表或关系。表中的每一行对应于一个样例,而每一列对应于一个属性。实际情况是,关系数据库为了有效地组织和访问数据,数据表结构复杂,且以多关系的形式组织。关系数据库中的结构表达了位于不同关系中的元组间的联系,而这种联系体现了问题域中某些重要的背景知识和样例信息的结构内容。属性-值学习方法只适应单表无法直接利用这类联系及其蕴涵的信息内容,因而无法发现数据库中隐藏的复杂模式。虽然在理论上多个关系表可以转化到一个单表中,但事实上有许多实际问题无法避免。归纳逻辑程序设计(InductiveLogicProgramming,简记为ILP)是机器学习与逻辑程序设计的交叉领域,以ILP为基础的多关系数据挖掘,致力于发现关系数据库中涉及多个关系的复杂模式。多关系数据挖掘可以直接在多个关系表上分析数据而无需向单一数据表的转换。由于其模式表示语言采用了一阶谓词逻辑语言,与命题逻辑语言相比表达力更强,能够表达更复杂的模式并方便的利用背景(领域)知识,应用也更为广泛,基于ILP的多关系数据挖掘成为目前研究的热点。本文比较系统和完整的介绍和分析了多关系关联规则挖掘的理论基础和相关研究,主要工作如下:①综合前人的工作,根据相关的文献,综述了多关系关联规则相关概念、性质、挖掘方法、面临的主要问题;②研究了数据挖掘的经典算法Apriori和FP-增长、并根据相关文献,结合自身研究,分析了算法的提出、特点和算法步骤,并对的功能进行了分析。③研究了ILP技术的定义、形式化描述以及PROLOG语言的理论基础及运行机制。④分析了多关系关联规则代表性算法WARMR和FARMER,并分析其优缺点,并简单介绍了WARMR的拓展算法WARMeR。⑤通过实验平台,对经典算法Apriori进行了实现,并提出了改进措施,同时通过PROLOG实现了事实和规则的推理,分析了FARMER算法的实现基础,实现了WARMR算法,并挖掘出关联规则。

梁宝[3]2009年在《多关系数据挖掘研究》文中进行了进一步梳理当今大多数结构化数据存储在包含许多关系表的关系数据库中,众多的分析和数据挖掘任务,如在智能分析、社会网络分析、商业数据分析、web数据挖掘等都依赖于多种多样的实体和事件的联系,因此在这样的一些应用里数据库既包含属性又包含语意关系数据,正如对待单独实体的属性一样,这些数据以一组相互连接的表形式存在于具有多个关系表的数据库中,每个表对应于某个概念实体或者关系,多关系数据挖掘(MRDM:Multi-Relational Data Mining)就是从此类数据库中找出模型和规则。传统数据挖掘算法是针对单表数据进行处理的,而多关系数据挖掘是通过分析一个关系数据库的多个表中的数据发现存在于单个表及多个表的属性值之间的关联规则的过程。多关系数据挖掘的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。挖掘由复杂或结构化对象构成的数据也属于该研究范畴,因为在一个关系数据库中,要把这些目标数据进行标准化表述需要用到多张表。多关系数据挖掘旨在将一些已存在的并较为成熟的学科知识整合在一起,如归纳逻辑程序设计(ILP:Inductive Logic Programming),知识发现(KDD),机器学习,关系数据库等等,以此来为挖掘多关系的数据生成新的方法,并为这些新的方法生成可用于实践的应用软件。本文首先对传统数据挖掘技术的功能及模式、数据挖掘的一般过程以及数据挖掘的应用和前景进行了综述。然后介绍了多关系数据挖掘,以及它的研究意义和研究范畴,总结了它的应用现状。接着详细介绍了多关系数据挖掘经典方法,包括ILP、关系决策树、基于关系距离的学习等等。最后介绍一种新的挖掘多关系数据挖掘的方法,并对其进行改进。本文针对多关系数据挖掘的一种新思维:Iceberg-cube算法的思想上,进行了改进,使其可以处理更大范围内的挖掘问题,而且可以直接应用于多关系数据挖掘。本文的主要工作和创新点在于:1.论文对数据挖掘进行综述,并介绍了多关系数据挖掘。2.论文对多关系数据挖掘的研究现状和存在的一些问题进行剖析,并对多关系数据挖掘算法进行详细阐述。3.论文提出具有更高应用范围的新算法,实验结果证明新算法效率更高而且精确度也更高。

赵丽丽[4]2006年在《归纳逻辑程序设计在数据挖掘中的应用》文中进行了进一步梳理归纳逻辑程序设计是机器学习的一个子领域,它使用归纳的思想,借助成熟的逻辑程序设计的理论与方法,比传统的机器学习系统具有更强的表达能力和通用性。随着数据库技术的迅速发展,数据挖掘在现实生活中的作用越来越大。把归纳逻辑程序设计方法应用到数据挖掘中既可以利用数据库管理系统管理数据的高效性,又能在知识表达上充分显示一阶谓词强大的表达能力,可以进行多表学习和噪声处理。本文开发了一个归纳逻辑程序设计的实验系统,实现了它与数据库管理系统之间的一个松散耦合的接口,成功地把归纳逻辑程序设计应用于数据挖掘,作为一个数据库分析系统的一种分析方法,与其他的几种分析方法协作运行。

霍峥[5]2007年在《基于背景知识的关系数据分类算法的研究》文中进行了进一步梳理数据挖掘技术将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了良好的机会。数据挖掘的目的是从大量的数据中找出先前未知的有用模式。关系数据挖掘作为数据挖掘的一个分支,已经成为近年来的研究热点。本文着重对关系数据的分类方法进行了研究。首先,本文对关系数据挖掘理论进行了深入的研究,通过对大量实例的分析和研究,提出了对关系数据库中各种表之间的关联关系进行分类和评价的标准,分别从形式上和含义上对关系数据库中各种表之间的关联关系进行了分类和评价。其次,提出了一种基于背景知识的关系数据分类算法。该算法能够通过构建关系决策树的方式实现关系数据分类。算法采用了信息增益作为属性的评价标准,并引入了元组ID传播技术,能够将背景知识表中的有用信息加入到目标关系表中,对当前分类起到了指导的作用。此外,该算法克服了传统数据挖掘算法不能直接支持关系数据库的缺点。再次,提出了一种用户指导的关系数据分类算法。该算法改进了朴素贝叶斯分类算法,引入了用户指导的概念,减少了系统独自搜寻有用属性的时间,提高了用户的满意程度。该算法可以直接支持关系数据库,分类精确度较高。实验结果表明,本文提出的两个算法优于现有的同类算法,实现了预期的研究目标。

于鹏[6]2008年在《统计关系模型学习方法的研究》文中研究说明本文以统计关系学习这一新兴研究领域为背景,展开统计关系模型学习方法的研究。在总结、分析统计关系学习的基本方法、研究现状和所面临的挑战基础上,结合进化计算、粒子群算法和免疫机制等,重点研究了学习复杂统计关系模型、在背景知识不完全的条件下扩充其表达能力、不完备关系数据下学习统计关系模型以及统计关系模型的通用(统一)学习方法等问题。论文的主要工作包括:(1)对统计关系学习的研究现状、研究方法以及未来的挑战等进行了综述;(2)对关系数据的特征,关系数据和传统数据表示形式的异同,以及避免影响统计关系模型学习的方法进行了分析和讨论;(3)针对当前统计关系模型结构学习的难点提出一种基于模板的子句学习方法,该方法先学习一种中间结构,从而缩小搜索空间,之后再将该结构转化为子句;(4)将基于模板的子句学习方法应用于完备关系数据条件下Markov逻辑网(一种有代表性的统计关系模型)的学习,该方法使用粒子群算法学习统计关系模型的参数,适于对较大的数据集进行学习;(5)针对不完全的背景知识(谓词不充分),将基于模板的学习方法与免疫机制相结合,提出从关系数据中生成新谓词以扩充背景知识的方法;(6)将基于模板的学习方法与期望最大化算法结合提出一种从存在缺失值的关系数据集(一种不完备的关系数据形式)中学习Markov逻辑网的算法,该方法在每步迭代中用更好的结构取代原来的结构,从而最终获得更接近实际的Markov逻辑网;(7)结合上述研究结果给出了一种通用的统计关系模型学习方法,该方法能对大多数的统计关系模型进行学习。本文获得的结果对深入统计关系学习和多关系数据挖掘研究有较大意义。

朱彦霞[7]2010年在《多关系关联规则及其在HRM中的应用》文中进行了进一步梳理多关系关联规则挖掘是多关系数据挖掘的一个重要分支,指通过分析关系数据库中各关系表之间的数据,以发现存在于单个表以及多个表中属性值之间的关联规则。经典的关联规则挖掘是基于关系数据库中的单个表上的数据实现的。在实际应用中,数据大多分散存储在关系数据库的多个表中,若将传统的关联规则挖掘技术直接应用于多个表中,将会成性能下降、统计偏斜、信息丢失、数据冗余等诸多问题。而多关系关联规则挖掘是通过分析一个关系数据库中多个表的数据,发现存在于单个表以及多个表的属性值之间关联规则的过程,此技术不仅可以大大缩短知识发现的过程,也可以提高算法的效率和准确率。本文在分析多关联规则挖掘研究技术的基础上,研究了一种多关系关联规则挖掘改进算法,并将其应用于某企业人力资源管理分析中,主要的研究工作如下:(1)分析单表关联规则挖掘算法以及多关系关联规则挖掘中的ILP(归纳逻辑程序设计)技术的基本原理,并对基于归纳逻辑程序设计的WARMR算法、FARMER算法等经典算法进行了讨论。(2)分析并总结了基于ILP技术的多关系关联规则挖掘算法的优点及缺陷:ILP关联规则挖掘算法较好地解决了统计偏斜问题,但极大依赖于θ包含与关键原子,每次仅能挖掘出与关键原子相关的各表中的关联规则,全部关联规则的挖掘需要不断变换关键原子来实现。因此,基于ILP技术的多关系关联规则的挖掘算法很难真正应用于实际数据挖掘项目中。(3)提出了一种基于CrossMine的多关系关联规则挖掘改进算法MID_CrossMine。CrossMine算法通过ID元组传播的技术在各表之间建立虚拟连接以实现关系关联规则的挖掘,有效地降低了信息的丢失,但由于在ID元组传播过程中,需设置用于分类的标签,而此分类标签选取带有很强的经验性。而本文提出的MID_CrossMine算法利用各关系表频繁1项集部分结果作为分类依据,并结合MTPA并行挖掘算法很好的解决了CrossMine缺陷并有效提升了挖掘效率。(4)以某企业人力资源数据库为挖掘背景,将MID_CrossMine算法应用于人力资源管理系统分析中,从员工构成、绩效考核、人员流动性等方面进行了挖掘分析,通过关系关联规则挖掘结果,有效的为企业建立了良好的预警机制,同时为企业的人员管理机制调整提供了参考。

夏姗姗[8]2000年在《归纳逻辑程序设计系统向约束方向的扩充》文中认为我的硕士论文课题“归纳逻辑程序设计系统向约束方向的扩充”是国家自然科学基金资助项目“约束归纳逻辑程序设计的研究”的一部分。 逻辑程序设计(Logic Programming,简称LPL)基于一阶谓词逻辑的Horn子集,其丰富的表达能力极大地促进了知识处理、人工智能等应用领域的进一步发展。 约束逻辑程序设计(Constraint Logic Programmng,简称CLP)是计算机科学中具有战略意义的研究方向之一。约束逻辑程序设计将约束求解技术和逻辑程序设计结合起来,用有关论域上的约束求解机制取代逻辑程序设计的合一机制,将逻辑推理应用于计算,表达能力丰富,十分接近自然语言。 归纳逻辑程序设计(Inductive Logic Programming,简称ILP)是机器学习中的一个较新的研究领域。归纳逻辑程序设计可以看作LP的逆向求解,因为ILP是根据事实求规则,而LP是已知规则对问题真假做出判断。 将ILP向约束方向扩充是一个具有重要意义和挑战性的研究工作。它将ILP和CLP结合起来,形成约束归纳逻辑程序设计(Constraint Inductuve LogicProgramming,简称CILP)这一崭新领域。 现在我们所扩充的ILP系统Progol是由英国牛津大学Stephen Muggleton教授所主持的研究小组研制的系统。该系统是目前国际上最具有代表性的ILP系统。本文对Progol系统进行了源程序级的深入剖析,在此基础上将它扩充为能够学习出CLP程序的CILP系统。 本文提出了一种从正负例和背景知识学习含有约束原子的一阶谓词公式的归纳逻辑程序设计方法。该方法是以Progol为基础,经过对它的研究剖析,加入我们自己提出的学习约束原子的新方法,使得在不需要用户诱导的情况下,系统直接经过正负例的比较与推导,得到一个覆盖正例而排斥负例的含约束原子的结论子句集。本文介绍了用该方法所实现的CILP系统,同时讨论了应用该方法的一些实例与进一步研究该问题的预期方向。 今后,我们将对系统进一步扩展完善,使之成为一个具有更大实用范围的约束归纳逻辑程序设计系统。

苏哲[9]2009年在《关系数据分类算法的研究》文中认为传统数据挖掘的对象是单一关系表中的数据。对于许多实际应用,数据是存储在多个关系表中,先要把多关系数据集成到一个单一关系中,这需要大量的预处理工作,并且会导致信息丢失和数据的冗余等多方面的问题,因此需要开发能直接在多表数据中进行挖掘的算法。多关系数据挖掘算法因此应运而生,它无需将数据转换到单一表中,而是直接在多表中对数据进行挖掘。另外对于复杂的和结构化数据对象的数据挖掘也处于这一领域的研究范围内。分类是数据挖掘的一个重要任务,但由于关系数据结构复杂现有的关系分类算法,或者是搜索空间巨大而效率低下;或者是建立的模型描述的不够精细而分类精度不高,本文针对关系分类算法的这些问题,提出了两个新的算法。首先,针对关系分类算法Graph-NB描述不够细致的问题,提出了ASNBC算法,拓展了Graph-NB中语义关系图定义,增加了顶点权值,使拓展的语义关系图(ESRG)不仅可以表示关系表间的语义关系,而且可以具体给出关系表中哪些属性对分类有影响,这有助于用户更好的理解数据,便于实际应用;另外ASNBC算法根据各关系表对分类任务影响程度的不同,将各关系表划分为三类,对这三类关系表采用不同策略来挑选出对分类任务有影响的属性,构建拓展语义关系图;最后依据拓展语义关系图,使用朴素贝叶斯方法对未知类标号的元组分类。实验表明同其它多关系算法相比,ASNBC算法高效且精确。其次,利用神经网络模型的容错性和精度高等优点,提出RNC算法,拓展神经网络将其应用于关系数据库中的0-1分类问题,其中网络模型的建立参考数据库关系模式这个先验知识,建立的模型比较简单,具有很好的可解释性;另外给出了一种评分机制来衡量目标对象属于正类的程度。在实际应用数据库上的实验表明,该算法具有很高分类精度和一定效率。

杨丽[10]2014年在《基于知识推理的中医临床诊疗决策支持方法研究》文中研究指明临床诊疗过程是一个复杂的决策过程,疾病的复杂性和患者的个体性使得临床诊疗总是一个极具挑战的思维推演和创新过程。相对现代医学,中医临床诊疗鉴于其更大的创新性和决策性,是一个极其复杂的系统过程,医生之间的临床能力和水平差异较大。因此,如何提高临床诊疗的平均效果,促进年轻中医生快速提高临床水平,一直是中医传承和临床研究的重要课题。中医共性诊疗知识的本体化建设和临床案例数据的积累,为通过计算机辅助临床诊疗决策提供了可能和机遇。在此背景下,本文研究基于知识推理的中医临床诊疗决策问题,结合归纳逻辑程序设计(Inductvie logic programming, ILP)和马尔科夫逻辑网(Markov logic network, MLN)来实现诊断决策支持,并利用基于案例推理实现处方治疗决策支持。本文的主要研究工作为如下三个方面内容:1.研究以ILP为基本算法框架的中医证候诊断决策方法,结合中医诊疗特性,考虑证候之间的相似性,研究了改进的诊断规则学习方法,并形成了中医临床证候诊断规则知识库。改进后的规则学习方法学习出的规则平均覆盖的正例数比原始的算法多,预测精确度也比较高。2.利用MLN相关权重训练算法对ILP获得的定性规则进行权重学习,进而利用MC-SAT切片采样算法实现推理,根据病人症状体征得出可能的中医证候诊断,实现诊断决策支持。在推理时基于本体的症状语义相似性对症状进行扩展,使得推理的结果比不扩展的算法更准确。3.利用临床案例数据,结合基于案例的推理方法,将诊断相关的案例按照相似性计算方法获得相似案例,并以相似案例中实际处方作为推荐的治疗方案,从而实现中医处方治疗决策支持。研发形成基于知识推理的中医临床诊疗决策方法,在失眠病案例中进行实验和测试,获得了较好的诊疗决策效果。

参考文献:

[1]. 归纳逻辑程序设计在数据库知识发现中的应用研究[D]. 边嘉耕. 北京工业大学. 2000

[2]. 基于ILP的多关系关联规则数据挖掘(MRDM)算法研究[D]. 孙江林. 重庆大学. 2010

[3]. 多关系数据挖掘研究[D]. 梁宝. 山东大学. 2009

[4]. 归纳逻辑程序设计在数据挖掘中的应用[D]. 赵丽丽. 吉林大学. 2006

[5]. 基于背景知识的关系数据分类算法的研究[D]. 霍峥. 燕山大学. 2007

[6]. 统计关系模型学习方法的研究[D]. 于鹏. 吉林大学. 2008

[7]. 多关系关联规则及其在HRM中的应用[D]. 朱彦霞. 河南工业大学. 2010

[8]. 归纳逻辑程序设计系统向约束方向的扩充[D]. 夏姗姗. 北京工业大学. 2000

[9]. 关系数据分类算法的研究[D]. 苏哲. 燕山大学. 2009

[10]. 基于知识推理的中医临床诊疗决策支持方法研究[D]. 杨丽. 北京交通大学. 2014

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

归纳逻辑程序设计在数据库知识发现中的应用研究
下载Doc文档

猜你喜欢