粗糙集理论分层递阶约简算法的研究

乔斌^[1]2003年在《粗糙集理论分层递阶约简算法的研究》文中指出本文模仿人类认识事物的分层递阶原则，提出并且主要研究数据挖掘和信息融合的重要方法——粗糙集理论的分层递阶约简算法体系。首先，本文提出粗糙集理论的分层递阶约简算法。该算法根据属性的获取方式、采集成本和实时性要求等对属性进行分类，使信息系统或者决策系统中的所有属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示，从而可以逐层对信息系统进行约简。该算法非常适合应用于实际问题。本文从信息理论的角度分别证明属性分层递阶不改变信息系统的信息熵和决策系统的互信息，从而使分层递阶约简算法体系具有严格的数学基础；分层递阶约简算法在某水泥窑炉控制决策获取中的应用证实其有效性。其次，本文针对粗糙集理论中的两个重要数据处理过程——完备化和离散化，分别提出分层递阶约简算法的两个拓展算法；另外，引入一个分层递阶约简的拓展算法。拓展算法一：不完备信息系统的粗糙集分层递阶约简算法将属性分为完备属性层和不完备属性层，然后分层递阶约简。本文证明该拓展算法使信息系统的信息熵(决策系统的互信息)减小，在信息理论意义上优于删除法、扩展法、默认值替代法和相似模型法等常用的完备化处理方法。并且，所得简约的应用可以避免属性获取方式复杂，采集成本高和实时性要求高等导致信息系统不完备性的原因。拓展算法二：基于粗糙集理论和BP神经网络的分层递阶约简算法分别用粗糙集理论和BP神经网络处理决策表中的离散属性和连续属性，可以避免对象连续属性离散化产生的不确定性。同时，对于粗糙集理论比较敏感的决策系统噪声，BP神经网络可以较好地克服。拓展算法叁：引入统计筛选和线性判别分析相结合的分层递阶约简算法。该算法使分层递阶约简算法从简单的属性分层处理拓展至属性选择和属性压缩处理。本文对分层递阶约简的叁个拓展算法都进行详细的性质分析和实例验证。最后，本文提出若干拓展思路，可以将分层递阶约简算法拓展，得到许多相关算法或者与其它人工智能算法结合形成针对某类问题的新型分摘要层递阶约简算法。

柴慧芳^[2]2007年在《粗糙集下基于信息熵的知识约简算法研究》文中指出知识约简是粗糙集数据挖掘中的核心问题之一,本文主要从信息论的角度来研究知识约简问题。首先,研究和讨论了粗糙集理论的代数表示和信息表示,并作了较全面、系统的比较和分析,并且发现一些规律:1)当决策表的条件属性增多时,决策属性集相对条件属性集的条件熵的变化规律呈非严格单调递减性;2)如果知识约简以决策表的核属性集为起点,那么在向约简结果中添加不能约简的非核条件属性时,决策属性集相对约简结果的条件熵的变化规律是单调递减的;3)知识约简后决策表的条件熵等于初始决策表的条件熵。在上述规律的基础上,结合决策表与信息表之间的内在联系提出了一种决策表的启发式约简算法。其次,研究了粗糙集理论的分层递阶约简算法。从信息理论的角度分别证明属性分层递阶不改变信息系统的信息熵和决策系统的互信息,从而使分层递阶约简算法体系具有严格的数学基础。在此基础上,从属性的重要度考虑提出改进的分层递阶约简算法。最后,在分析目前已有的基于粗糙集的属性约简算法后,给出一个新的较为合理的度量属性重要度的计算公式,并分析了该计算公式的性质,然后提出一个较快的属性约简算法。

葛丽^[3]2004年在《粗糙集在海量科学数据挖掘中的应用》文中进行了进一步梳理随着科学技术的高速发展,需要处理的信息量迅速增加,要把海量科学数据作为信息,信息成为知识,迫切需要利用能从海量科学数据信息中发现、推理知识的有效方法。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。为了得到好的挖掘结果,数据预处理是进行数据挖掘工作前不可缺少的工作。数据预处理就是把不便识别的数据转化为易于识别的规范数据的信息处理过程。在整个数据处理过程中,规范化和属性约简是处理的核心。如何除去无意义的属性不但是技术上的关键问题也是理论研究上的重要课题。近几年来,粗糙集理论已在属性约简方面开始表现出它的潜力。多方面的研究和测试表明,针对科学数据采用粗糙集的方法进行约简可以为后面的知识发现提供方便,提高模式识别的性能,从而达到更好的挖掘效果。科学数据具有维数高、数据量大,数据不完全,有噪声等特点,本课题在现有的数据库和windows 平台上,开发一个具有开放体系结构的、易扩充的、易维护的、具有良好人机交互界面的数据挖掘系统,从科学数据中提取隐含在其中的有用的知识,为科学计算中的仿真信息提供符合规律的模拟结果分析。目前已经完成了一个最基本的数据挖掘系统,实现了如下功能:在数据预处理方面,包括对数据库中数据进行离散化处理、对冗余属性的约简,降维;在知识发现方面主要是分类、聚类以及关联规则提取。测试结果表明基本上达到了设计要求。本论文主要讲述数据挖掘中采用粗糙集方法实现数据预处理中冗余属性约简的问题。论文首先介绍了数据挖掘的基本概念,接着介绍了粗糙集的一些基本知识及其在属性约简方面的应用;第四章介绍了信息熵及其与粗糙集的结合应用;第五章介绍了一些基于粗糙集的属性约简的常用算法,并提出了对MIBARK 算法的改进;第六章介绍了目前的数据挖掘系统的功能及属性约简在整个系统中的应用。

王秀^[4]2004年在《完备/不完备信息系统的若干知识约简算法的研究》文中认为随着数据库技术的迅猛发展和广泛应用，人们可以轻易获得海量的数据，这些数据每天都在增长中，数据挖掘是发现这些数据背后隐藏的知识的有效手段，但是，如果在数据库更新之后都要对全部数据进行重新挖掘，需要消耗大量的资源，这就导致了对增量挖掘算法的研究。除此之外，由于各种各样的原因，数据表中数据错误或数据缺失的现象常常出现，这就使得表中某些对象的某些实际值未知，导致了待处理数据有某种程度的不完整。如何对不完备的信息系统进行属性约简，也是研究的一个新方向。　粗糙集理论自1982年由Pawlak 首次提出以来，经过20年的研究和发展，已经在理论和应用上取得了丰硕的成果。该理论不依赖于数据集之外的任何先验知识信息，对不精确、不确定、不完整的信息和知识具有很强的分析能力。对粗糙集理论作深入的研究，将有利于更加有效地从海量数据中提取出有价值且可理解性强的知识，也有利于数据挖掘在商业中的进一步普及和应用。　论文主要针对粗糙集理论在完备信息系统及不完备信息系统中的一些应用做一些的研究，所做的主要工作有：1.在完备信息系统下，对一些常见的属性约简算法进行研究分析，根据已有的分布约简的概念，提出了一种基于分布约简的获取规则的增量式算法。把增量算法与数据库的更新结合在一起，渐增地进行知识的更新，修正和加强先前业已发现的知识，这样可以不必重新挖掘全部数据。2.在不完备信息系统下，研究分析粗糙集的扩展模型，在此基础上对已存在的不完备信息系统的粗糙集分层递阶约简方法进行改进，得到了不完备信息系统的规则约简算法。3.结合以上的工作，在分布约简及粗糙集扩展模型——限制相容关系的基础上提出了一种不完备信息系统属性约简的增量式方法。4.研究分析数据的预处理技术，提出了一个可预测的自动聚类算法，将连续的数据离散化。

乔斌, 李玉榕, 蒋静坪^[5]2004年在《粗糙集理论的分层递阶约简算法及其信息理论基础》文中认为本文模拟人类认知的分层递阶原则,提出一种粗糙集理论的分层递阶约简算法.该算法首先将信息系统或决策系统的知识在由部分属性所构成的多种层次和多种粒度上表示出来,然后分别对各个属性层次进行递阶约简.因此,该算法具有较强的实用性和较好的动态特性,并且能并行运算.同时,本文从信息理论的角度证明了分层递阶约简的理论基础.文章的最后将该算法应用于某水泥窑炉控制决策的获取中,证实了其有效性.

张铮^[6]2006年在《不完备不协调信息条件下的设备智能故障诊断》文中进行了进一步梳理由于设备结构的复杂导致了故障征兆与故障原因的多样性和故障信息的不完备与不协调,这是目前设备智能故障诊断研究中所面临的一大难题。研究具有不完备、不协调信息的设备故障诊断方法具有重要的现实意义。本文以粗糙集理论为基础,对故障信息系统特别是不完备、不协调决策信息系统的属性约简、规则获取及规则发现进行系统理论研究。通过建立智能推理诊断模型,为复杂设备的故障诊断提供了新的方法和手段。本学位论文主要作出了以下几个方面的研究工作:设备故障的不确定主要表现为故障信息的不完备与不协调,其与故障发生的概率有关,研究用事件的自信息来度量事件的不确定性、用信息熵来度量诊断系统不确定性的方法。以完备信息系统为研究对象,提出了基于最大分辨度的启发式属性约简算法,实现了多属性决策信息系统的最优属性约简,为决策信息系统属性约简提供新方法。针对不完备信息系统,通过研究最高可信度的数据补齐算法,保证了从中获取的规则对诊断决策有尽可能高的支持度。在不完备信息系统规则获取方面,作了两方面的研究工作:一是为从动态增加诊断样本中快速获取诊断规则,提出了一种增量式获取规则算法,该算法能有效地减少获取规则的计算量,节约大量的资源;二是受认识规律的启发,将不完备信息系统分为完备层和非完备层,然后进行层次递阶约简。即先对完备层进行约简,然后将不完备属性根据重要性大小逐层分步约简并提取规则,减小因系统完备化使信息失真而带来的不确定性,理论上证明了分层过程不会增加信息系统的不确定性。对不协调决策信息系统,将条件属性等价类与决策属性等价类用包含程度来描述,根据包含的程度不同,研究了分布约简、最大分布约简及分配约简算法;分布约简集与原属性集产生的规则有相同的可信度,通过对不协调决策信息系统的分布约简,解决了隐规则发现难的问题,并给出其可信度,这能缓解诊断系统数据量大而知识贫乏的矛盾;同时用最大分布约简算法实现了不完备不协调系统的最优选择。基于设备结构分解策略将故障特征参数空间和故障空间分割为多个子空间,能有效的降低推理机输入数据的维数。采用信息融合方法研究了智能故障推理机模型,提出了多子神经网络与模糊推理并串融合智能推理机结构模型。用改进的BP算法对并行子网络进行训练,模糊诊断权矩阵能根据样本数据自动生成,使推理机有良好的学习与容错性能,能达到较理想的推理效果。同时讨论了并行子网的组建和BP神经网络结构的优化原则和方法。在分析装载机远程故障诊断的系统需求的基础上,提出并实现了装载机远程智能故障诊断系统的总体结构、功能模型和计算模型,并用于实际的工程对象。实践表明,该系统能适应不同用户的要求,结构合理、工作稳定、实用性强。

黎阳^[7]2012年在《基于粗糙集和变粒度原理的脱机手写体汉字识别系统研究》文中进行了进一步梳理脱机手写体汉字识别作为超多类模式识别问题，被认为是当前模式识别领域中的研究难点之一。传统用单一特征表征汉字的方法对手写体汉字识别具有一定的局限性，而采用多特征组合来表征汉字虽可提高特征表示的较完备性，但也会带来特征的多重性和识别的不确定性。本文基于粗糙集理论和变粒度原理，构建了一种脱机手写体汉字识别决策信息系统，以汉字样本的真实属性指导训练过程，探索基于粗糙集和变粒度原理的脱机手写体汉字识别方法。本文的主要研究工作如下：1.构建了脱机手写体汉字识别决策信息系统。基于粗糙集广义信息论，将脱机手写体汉字多种特征融合成一组多维特征向量作为条件属性，将样本汉字的真实属性作为决策属性，构成一种脱机手写体汉字识别决策信息系统。2.给出了一种手写体汉字特征属性分层递阶约简方法。依据粒度理论，定义了脱机手写体汉字特征属性的知识粒度熵、相对粒度熵以及特征属性相对重要度指标，根据属性重要度将汉字特征进行分类，使特征属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示，并给出手写体汉字特征属性分层递阶约简算法，弥补了传统单粒度原理分辨率固定，约简不精的缺点，有效地化简了脱机手写体汉字识别决策信息系统。3.提出了一种基于D-S证据理论的规则融合识别方法。针对脱机手写体汉字识别过程中出现的决策规则不能唯一匹配带来的拒识问题，根据D-S证据理论对约简后的手写体汉字识别决策信息系统的决策规则进行融合，提高决策信息系统的泛化能力，从而提高了汉字的识别率。本文从SCUT-IRAC手写体汉字图像样本库中选取30类共1200个手写体汉字图像样本，以MATLAB软件为实验平台，对本文提出的脱机手写体汉字识别方法进行了验证。实验结果表明，本文提出的方法是有效可行的。

陈吕强, 朱颢东, 伏明兰^[8]2010年在《使用类内集中度和分层递阶约简的特征选择方法》文中进行了进一步梳理特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。

彭佳文^[9]2006年在《粗糙集分层递阶约简算法在医学诊断中的应用》文中研究说明粗糙集理论的分层递阶约简算法是根据属性的获取方式、采集成本和实时性要求等对属性进行分类,使信息系统或者决策系统中的所有属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示,从而可以逐层对决策系统进行约简。分层递阶约简算法在某医学诊断中的应用证实其有效性。

尹林子^[10]2013年在《不一致决策表数据处理方法研究》文中研究说明摘要粗糙集是一种处理不确定性信息的数学工具,通过求核属性集、属性约简以及规则提取等步骤,从原始数据集中提取有效的知识。然而,在不一致决策表数据处理过程中,粗糙集处理方法面临着不一致决策表核属性集的不一致问题,不一致决策表的多种处理流程在实际应用中的选择问题,以及最小约简计算的NP难题等问题的困扰。为克服上述问题对处理性能的影响,本文研究相关的解决策略,以提供一套较为系统的不一致决策表数据处理方法。主要研究工作和创新性成果如下：1,针对不一致决策表中核属性集计算方法多且结论不一致所导致的难以判断全部有效核集的问题,提出基于信息粒划分的核属性集有效性判断方法,并计算所有有效的核属性集。首先,基于经典Pawlak模型分析不一致决策表信息粒的信息类型,并定义信息粒划分的概念描述不一致决策表中的有效信息,在此基础上,证实任一不一致决策表仅存在叁类有效的信息粒划分。最后,针对叁类信息粒划分提出基于可辨识矩阵的核属性集算法有效性判断方法,并计算所有有效的核属性集。2,针对不一致决策表多种处理流程共存,造成应用中难以正确选择处理流程的问题,基于信息粒划分构建不一致决策表数据处理框架,并提出一种直观的计算流程选择策略。首先,定义与叁类信息粒划分对应的规则类型,建立信息粒划分、可辨识矩阵以及规则类型之间的映射关系,在此基础上,提出基于规则类型的不一致决策表数据计算流程选择策略,建立不一致决策表数据处理框架,确保计算结果中的核属性集、约简以及规则集均包含用户感兴趣的知识。3,针对启发式算法难以获得最小约简的问题,提出属性排斥矩阵,优化传统启发式属性约简算法的性能。首先,研究最小约简约束下属性之间的排斥特征,提出满足最小约简必要条件的属性排斥矩阵,设计对应的最小约简属性启发策略。在此基础上,分别结合典型加法类与减法类启发式约简算法,提出两种基于属性排斥矩阵的启发式属性约简算法。UCI标准数据集测试表明,属性排斥矩阵包含丰富的最小约简启发信息,能全面提高启发式属性约简算法的性能。4,提出基于属性关联的启发式最小约简计算算法。首先,在属性排斥特征研究的基础上,进一步分析最小约简集属性之间的吸引特征(与属性排斥特征一起统称为属性关联性质),并定义基于属性关联的属性重要度计算指数。在此基础上,提出基于该重要度的启发式属性约简算法。该算法采取兼顾单个属性的辨识能力以及属性之间关联的约简策略,提高最小约简获得概率。5,针对现有启发策略难以估计启发有效性的问题,提出了可信度高且可信度可以估计的属性启发策略。首先,基于属性排斥特征,提出对应的启发策略,建立其可信度模型；在此基础上,提出属性互斥特征及其对应的启发策略,并建立对应的可信度模型。最后,以可信度为依据,提出综合的可信度高且可信度可以估计的最小约简启发策略,并给出了具体的算法。UCI标准数据集实验测试表明,可信度模型有效且该策略具有较高的最小约简可信度。6,针对传统粗糙集数据处理过程面临的最优离散化以及属性约简的NP难题,提出利用规则约简代替属性约简的规则分层约简算法。一方面,提出基于单个属性下近似的分层规则提取方法,研究与分层规则约简相关的聚类策略实现规则约简,直接获得简化分层规则集。另一方面,在规则约简的基础上,基于聚类约束,实现不同离散化区间的相同编码,形成等价决策表,优化了传统粗糙集数据处理方法的计算性能。

参考文献：

[1]. 粗糙集理论分层递阶约简算法的研究[D]. 乔斌. 浙江大学. 2003

[2]. 粗糙集下基于信息熵的知识约简算法研究[D]. 柴慧芳. 昆明理工大学. 2007

[3]. 粗糙集在海量科学数据挖掘中的应用[D]. 葛丽. 电子科技大学. 2004

[4]. 完备/不完备信息系统的若干知识约简算法的研究[D]. 王秀. 福州大学. 2004

[5]. 粗糙集理论的分层递阶约简算法及其信息理论基础[J]. 乔斌, 李玉榕, 蒋静坪. 控制理论与应用. 2004

[6]. 不完备不协调信息条件下的设备智能故障诊断[D]. 张铮. 华中科技大学. 2006

[7]. 基于粗糙集和变粒度原理的脱机手写体汉字识别系统研究[D]. 黎阳. 合肥工业大学. 2012

[8]. 使用类内集中度和分层递阶约简的特征选择方法[J]. 陈吕强, 朱颢东, 伏明兰. 计算机工程与应用. 2010

[9]. 粗糙集分层递阶约简算法在医学诊断中的应用[J]. 彭佳文. 广西工学院学报. 2006

[10]. 不一致决策表数据处理方法研究[D]. 尹林子. 中南大学. 2013

标签：自动化技术论文; 粗糙集论文; 大数据论文; 数据挖掘算法论文; 数据挖掘技术论文; 离散化论文; 可信区间论文; 算法论文; 手写体论文;

粗糙集理论分层递阶约简算法的研究

猜你喜欢