不完整数据的贝叶斯网络参数学习新算法

不完整数据的贝叶斯网络参数学习新算法

张少中[1]2003年在《基于贝叶斯网络的知识发现与决策应用研究》文中认为贝叶斯网络是概率理论和图论相结合的产物,它提供了一种自然的工具,可以用来处理贯穿于应用数学和工程中的两个问题。不确定性和复杂性。80年代,贝叶斯网络多用于专家系统中,成为表示不确定知识和推理问题的流行方法。随着近年来数据库规模的不断扩大,贝叶斯网络逐渐开始应用于大规模数据库的数据挖掘和知识发现,从而为决策支持提供了有力手段,贝叶斯网络已经成为数据库知识发现和决策支持系统的有效方法。 本文以黑龙江省防汛指挥决策支持系统[黑龙江省政府黑讯字2001-8号文件]为背景,对贝叶斯网络的知识发现与决策理论进行了相关研究。本文研究了基于贝叶斯网络的知识发现与决策过程框架,在该框架基础上,研究了贝叶斯网络在知识发现和决策支持领域的应用理论,包括贝叶斯网络的结构学习、参数学习、推理和解释、以及应用贝叶斯网络进行防洪知识发现和决策的问题。本文主要研究成果归纳如下: 提出了用于结构学习的一种新的附加约束的最大相互信息记分函数(MMI-R)。该记分函数以信息论中的KL距离、相互信息理论为基础,将最大相互信息原则引入贝叶斯网络的结构学习中,并使用网络模型的维数和网络结构的复杂度作为组合约束函数,将最大相互信息原则与组合复杂度约束函数相结合,提出了一种新的附加约束的最大相互信息记分函数。以该记分函数作为结构学习的评价标准,将贝叶斯网络的结构学习转化为一个优化问题。本文采用Cancer数据集,将提出的MMI-R记分函数与最大相互信息原则进行了对比,结果表明MMI-R函数解决了最大相互信息的完全图问题,采用4个典型的数据集Cancer、College、Asia和Alarm对提出的MMI-R记分函数同贝叶斯测度(BDE)和最小描述长度(MDL)记分方法进行了对比实验,结果表明本文提出的附加约束的最大相互信息记分函数在结构学习精度上具有更好的性能。 提出了用于结构学习的一种改进的模拟退火算法(SA-MMI-R)。该算法以附加约束的最大相互信息记分函数作为模拟退火的能量优化函数,对基本模拟退火算法进行了叁个方面的改进:一是邻近值产生策略,产生邻近值分为3个部分:交换结点、加入新结点和删除旧结点。这种邻近值产生方法尽可能使得所有的邻近值都能够被遍历并具有较高的效率;二是设置新的算法结束条件,采用一个与网络结点状态维数、温度下降系数、状态接受概率为组合条件的动态迭代次数控制策略,并增加了以网络结点状态维数和对父结点集的连续无效修正次数为附加条件的算法结束条件来提高收敛速度;叁是对算法增加一个记忆变量,使得算法可以接受暂时的恶化解并能够跳出局部最优,尽可能使 人连理工人学博卜学位论文算法趋近于全局最优解。为了满足先验知识,设计了修正算法用于SA一MMI一R算法的结果修正。本文采用典型的数据集对提出的SA一MMI一R算法’。Chickering提出的模拟退火算法和Larranaga提出的遗传算法进行了性能对比实验,实验结果表明SA一MMI一R算法在结构学习精度、计算速度上都具有较大的优势。 提出了用于参数学习的改进的EM算法(ISA一EM)。为解决传统EM算法难以处理大规模数据集和高维变量以及收敛速度慢的问题,本文提出从期望计算E和最大化计算M两个步骤分别改进EM算法。首先在E步骤将大规模数据集划分为较小的数据块,分别对每个块进行块内优化处理,并且在块间进行合成。这样,一方面将处理大规模数据集转化为处理较小的数据块,降低了计算量,同时也适应了变量维数的增加;另一方面将期望值在块间进行合成,避免了重复计算。然后在M步骤采用改进的模拟退火算法进行期望最大化计算。在前面用于结构学习的改进的模拟退火算法基础上,又增加了两个方面的改进:一是初始温度选择策略优化,以问题信息和状态分布为指导确定初始温度,考虑了各状态的相对性能,能够赋予不同状态合适的突跳概率;二是采用Cauchy分布产生邻近值,尽可能使算法趋近于全局最优。本文采用Cancer、College、Asia和Alarm数据集对提出的ISA一EM算法与标准EM算法进行了性能对比实验,实验结果表明IsA一EM算法在参数学习精度、计算时间和算法收敛速度方面都优于标准的EM算法。 研究了贝叶斯网络的在线学习问题,在可信度理论基础上,给出了在线参数学习的可信度EM算法并利用该算法与标准EM算法在计算速度方面进行了 比较。 研究了贝叶斯网络的推理与模型解释的方法和内容,给出了随机样本推理算法的一般形式;从证据解释、推理解释和模型解释叁个方面对贝叶斯网络模 型解释进行了分析,对概率依赖关系解释进行了详细描述。 关于防洪决策问题,本文以贝叶斯网络为工具,针对洪水灾害预报和洪水 灾害风险决策问题进行了研究。研究了防洪决策系统的分析和评价体系,给出 了基于贝叶斯网络的降一雨汇流预报模型、河道洪水预报模型和洪水灾害风险决 策模型,对预测模型的预测精度进行了分析并对洪水灾害风险决策模型的概率 依赖关系进行了分析和解释,结果说明将贝叶斯网络应用于防洪知识发现与决 策具有较大的应用价值。

孙岩[2]2010年在《贝叶斯网络结构学习算法研究与应用》文中进行了进一步梳理贝叶斯网络(Bayesian Network, BN)将概率论和图论有机结合,用一种图形化的方式表示联合概率分布。具有完备的语义和坚实的理论基础,目前已经成为处理不确定性知识表示和推理的一种重要理论模型。贝叶斯网络在机器学习、医疗诊断、金融分析等领域有着广泛的应用。并已经取得了较大的成功。但仅由专家诊断构建贝叶斯网络通常十分困难,有时甚至是不可能的。因此,如何从数据中快速、准确地学习贝叶斯网络结构,并把它应用到实际领域中,具有重要的理论意义和应用价值。本论文在研究国内外算法的基础上,针对贝叶斯网络的相关算法和不完整数据的学习问题进行深入研究,提出改进算法,并将算法应用于轻度认知障碍和脑血管疾病风险因子预测的实际需求中,开展的主要工作如下:1.最近邻KNN(K-Nearest Neighbour)算法被广泛应用于机器学习和数据挖掘领域,本文将贝叶斯网络的结构学习与KNN算法相结合,提出了基于贝叶斯网络结构学习的KNN算法(BS-KNN),把贝叶斯网络结构学习的结果作为改进KNN算法中相似性的评测指标,概率系数越大,其相应的特征越重要,对分类结果的影响越大。实验结果表明,新算法的复杂度与同类算法相当,在数据集中属性特征较多及样本量较大的条件下,算法的准确性和稳定性均有所提高。2.数据不完整的情况经常发生,这将导致贝叶斯网络结构学习算法精度不高的问题,基于此,本文提出基于几何分布和KL散度相结合的贝叶斯网络结构学习算法,能够完成从不完整数据中学习贝叶斯网络的结构特征。该算法首先用几何分布表示结点之间的对应关系,然后用KL散度来度量对应关系的相似程度,进而确定不完整数据的取值,最后进行完整数据的贝叶斯网络结构学习。该方法能够避免标准Gibbs sampling的指数复杂性问题和现有学习方法存在的主要问题。3.轻度认知障碍目前被认为是正常衰老向痴呆转化的中间过程,其相关研究对于老年痴呆症的预防和干预有着非常重要的意义。本论文采用记忆、注意和人口统计学数据,提出不完整数据的贝叶斯网络结构学习新算法:首先利用互信息获得属性特征的重要程度,从而找到与不完整数据最相似的样本集,接着采用牛顿插值来得到不完整数据的取值,最后进行完整数据下,轻度认知障碍的贝叶斯网络结构学习,对该病症进行预测和辅助诊断,发现其主要影响因素及其相互作用关系,从而很大程度上减少患者进行检查的代价,提高诊断的客观性。临床的实验结果表明,本论文的方法获得了较好的效果。4.脑血管疾病具有高发病率、高致残率、高死亡率和高复发率的特征,因此研究脑血管疾病相关风险因子的预测,具有非常重要的意义。本文结合信息增益技术,确定结点次序的启发式搜索,来对现有的贝叶斯网络结构学习算法进行改进,并利用该算法分析和探讨脑血管病危险因素(年龄、性别、高血压病、糖尿病、心脏病和高血脂)之间非线性的概率依赖关系,预测脑血管病的发病风险,从而进一步指导其预防和治疗。实验结果表明,该模型能够客观有效的辅助鉴别脑血管疾病的风险因子。

高秀娟[3]2014年在《基于粗糙集和贝叶斯网络的入侵检测算法研究》文中认为近年来,随着互联网的发展,在互联网给人们带来了各种享受的同时,也带来了各种安全问题,入侵攻击就是其中严重的安全问题之一。入侵检测是在传统的安全防御系统基础上又增加的一个安全措施,提供了对各种操作的实时保护,可有效的保护网络使其在可能遭受入侵之前就能够检测到入侵行为,是一种积极主动的安全防护技术。伴随着因特网的迅猛发展,网络规模日益庞大,网络环境日益复杂,发生的网络攻击事件呈现大幅上升趋势。因而,必须有效地改进现有入侵检测算法的速度和精度。在各种检测算法中,贝叶斯分类算法是数据挖掘方法中一种高效、快速的分类算法,是最重要的分类算法之一。近年来,基于贝叶斯网络的数据挖掘取得了良好的效果,成为研究热点,也成为了入侵检测技术的一个重要研究方向。传统的贝叶斯网络分类算法以完整数据为前提,而现实中,由于各种原因,截取到的网络数据往往会有许多丢失。因此,传统的贝叶斯网络学习算法,将难以有效适用于具有缺失数据的入侵检测系统。为此,本文提出了一种新的检测算法。新算法先利用粗糙集的属性约简算法,对缺失数据集进行属性约简,解决因属性过多而导致的贝叶斯网络结构复杂、训练和测试过程计算量过大、系统资源消耗过多的问题;之后提出具有缺失数据的贝叶斯网络学习算法:基于分布的贝叶斯网络结构学习算法。基于粗糙集的属性约简方法,对具有缺失数据的数据集,有很好的属性约简效果,能有效去除冗余属性,大大降低分类器的计算复杂度。同时,基于分布的贝叶斯网络结构学习算法,将有缺失数据的属性项,根据频数合理地分配到有关观测值的频数中,充分利用了不完整数据集中所包含的信息。实验表明,新算法有效地提高了检测的速度和精度。

董辉[4]2003年在《不完整数据的贝叶斯网络参数学习新算法》文中研究表明在现实世界中存在着海量数据,因此如何处理这些数据并从中发现知识是具有现实意义的亟待解决的问题。随着信息技术的发展,数据挖掘技术已经越来越广泛的应用于实际的运用中,而贝叶斯网络作为不确定性环境下一种有力的知识表示方式和概率推理模型,是处理数据挖掘的强有力工具。贝叶斯网络是在不确定性环境下有效的知识表示方式和概率推理模型,是一种流行的图形决策化分析工具。近年来,人们研究了直接从数据中学习并建立贝叶斯网络的问题,并把它用于数据挖掘。虽然基于贝叶斯网络的数据挖掘技术仍处于不断完善之中,但它已经在一些数据建模问题中取得令人瞩目的成绩。贝叶斯网络学习有两大问题:参数学习问题和结构学习问题。在现实世界中,不完整数据是广泛存在的,如何从不完整数据中学习贝叶斯网络的参数和结构一个非常实用而有价值的问题。其中,基于不完整数据的参数学习问题要做到精确处理是非常困难的,现有的算法处理此类问题都采用近似的算法。这些算法在解决大数据集时由于需要很多次循环迭代,故效率不高,且占用系统资源较多。本文首次给出一种新的基于学习的相容性的BCL参数学习算法,可用于在不完整数据集下进行的贝叶斯网络参数学习。新算法是以相容的贝叶斯学习的渐进正态性为理论基础。在胡振宇的硕士毕业论文中推导得出以下结论:若正则条件成立,且 , 则 的后验概率 ,以概率1趋近于, 。(这里是参数)这个结论告诉我们:当观测到的样本数据量趋于无穷时,用贝叶斯方法学习的参数θ趋于一个正态分布。由于参数的分布性质已经确定,所以可以用来直接估计出参数的值。考虑到算法是基于不完整数据集的,所以修补完全数据集对计算结果的精确性有很大影响,因此应首先处理这个问题。我们在此应用了贝叶斯启发式方法(BHA-Bayesian Heuristic Approach),试图将先验信息的影响加入到修补数据集的过程之中,我们是这样做的:首先利用已有的完整的数据样本,先初步估计出参数θ的值,然后利用公式:<WP=3> =修补完全给出的数据样本集。如上所述,本算法主要有两个关键:(1)如何较好地修补数据集,(2)算法的主体采用何种近似方法估计出参数。基于以上分析,我们提出一种新的参数学习算法―BCL算法,BCL算法主要由以下几个步骤实现: 第一步:从不完备样本数据集中抽取相对完整的样本数据,估计出可能的参数向量值,即直接利用局部数据计算出服从正态分布的参数初始值。 第二步:在已得初始参数的情况下,补充剩余不完备数据集,以便估计出概率上最匹配的参数向量集。 第叁步:利用已完全的数据,用矩法估计近似出最终值。在实验阶段,我们通过对两个经典贝叶斯网络Asia网络,Alarm网络(此两个网络是医疗上已经成功运用于专家系统的贝叶斯网络)使用BCL算法和传统两种算法:Gibbs Sampling算法和EM算法分别进行参数学习,并且在运算结果的差错率和运行时间上分别进行比较,实验结果可以看出我们的算法在样本少量的情况下精确度较高,而时间代价相当。在大样本容量的情况下,精确度相当的情况下,时间代价明显低于以上两种算法。本文的研究工作把贝叶斯网络(作为一种数据挖掘技术)的理论算法向前推进了一步。

杨海深[5]2010年在《贝叶斯网络中不确定性知识推理算法及其应用研究》文中认为在日常的生活中,人们要处理大量的不确定性问题。贝叶斯网络是表达不确定性问题的有效工具,它一方面采用有向图直观地表达事件之间的因果关系,另一方面采用贝叶斯统计理论对事件发生的可能性大小进行计算。本文对贝叶斯网络分类器和推理算法中存在的一些问题做了深入的研究工作,主要的工作如下:(1)对贝叶斯网络理论做了系统的分析和论述,归纳出贝叶斯网络与其他数据挖掘方法相比的特点。按照研究方法和思想的不同,重点对贝叶斯网络学习进行了总结,指出了各种方法的优点和不足之处。(2)朴素贝叶斯分类器以其简洁明了的结构和优良的性能得到了广泛的研究,但是由于其要求属性间的条件独立性,在应用上受到限制。本文提出了一种把属性选择和结构扩展相结合的GA-NBC-TAN算法,相对于相同个数的特征属性的朴素贝叶斯分类器,GA-NBC-TAN算法提高了分类精度。(3)贝叶斯网络推理是BN面向应用首先要解决的问题,然而贝叶斯网络的精确推理和近似推理都是NP难问题,联合树算法是贝叶斯网络中常用且有效地精确推理算法,但是由于其转换的不唯一性,寻求最优的联合树也被证实是一个NP难问题。本文提出了改进自适应遗传算法(AGA)来解决贝叶斯网络叁角化过程中节点删除顺序问题,从而寻求最优的联合树结构。通过与标准遗传算法比较,AGA-Triangulation算法表现出较好的性能。在上面工作的基础上,最后本文论述了使用最优联合树结构的LAZY-ARVE方法,并与LAZY-AR方法做了比较,该方法可以解决一般查询和带有证据的查询问题。

程泽凯[6]2004年在《贝叶斯网络结构学习及MBNC实验平台的构建》文中指出随着信息技术的发展,数据挖掘技术广泛应用于实际运用中,贝叶斯网络作为一种有效的知识表示方式和概率推理模型,是处理不确定性的强有力图形决策化分析工具。现实世界中存在着海量数据,如何处理这些数据,并从中发现有用的知识具有现实意义。贝叶斯网络是一个带有概率注释的有向无环图,由网络的拓扑结构和局部概率分布两部分组成。本文先简要阐述了贝叶斯网络有叁大理论问题:贝叶斯网络的表示,学习和推理。近年来,基于贝叶斯网络的数据挖掘在一些数据建模问题中取得了较好的效果。用于分类的贝叶斯网络叫做贝叶斯分类器。贝叶斯分类器是特殊形式的贝叶斯网络,变量的选取和状态数均已确定,属性结点已知,类结点未知。贝叶斯分类器家族有叁类常见的分类器:朴素贝叶斯分类器NBC,树扩展朴素贝叶斯分类器TANC和贝叶斯网络分类器BNC。贝叶斯分类器的学习包括结构学习和参数学习,参数学习相对简单一些。建构贝叶斯分类器是本文要解决的问题。现在比较常用的主要有JavaBayes软件包,Hugin Expert,PowerConstructor,MSBNx,Netica等。这几种软件包作者均已下载研究使用,其中Hugin Expert等是限制版本,只相当于一个应用程序,而PowerConstructor,MSBNx,Netica等均不提供源代码,无法在其之上完成新算法实现。基于Java语言的JavaBayes软件包提供了源代码,WEKA系统和JBNC系统是用Java语言开发的,但用Java语言编程的工作量很大,调试程序比较困难,系统的可扩展性较差。尤其是涉及到的数理统计方面的程序,已有的源代码的可读性较差,对所定义的多维数组操作繁琐易错。生成的结构需要调用第叁方软件才能显示。其他下载的贝叶斯网络学习软件包也有同样的问题。基于Matlab语言的BN Toolkit (BNT)软件包可以很好的解决上述问题。Matlab语言是专门进行数值计算的高级语言,编程量较之Java语言等明显少的多,调试程序也很方便,显示所学习得到的结构也很方便。BNT的缺点是没用图形用户界面GUI。最终用BNT提供的基本函数,用Matlab语言开发了MBNC实验平台。先在MBNC实验平台上简单实现了几种贝叶斯分类器。有NBC,基于互信息测度的TANC以及基于K2算法和GS算法的BNC。所建构的这些分类器的准确性评估好于文献数据,实验数据表明:用在数理统计上天然的优越性的Matlab语言建构的分类器性能是非常好。MBNC试验平台的可扩展性也很好,进一步进行新的研究比较方便。完全的贝叶斯网络的结构学习是一个NP难问题,很多学者提出了近似算法,取得了较好的效果。本文对贝叶斯分类器结构学习进行改进,NBC不需要学习结构,我们的工作是TANC和BNC结构学习算法的改进,新算法在MBNC实验平台上进行了验证。衡量算法优劣的标准是所构建的贝叶斯分类器的准确性评估。用从UCI上下载的标准数据集进行评估。对TANC结构学习的改进是引入了新的测度函数贝叶斯信息标准BIC测度,原有的互信息MI测度是相关性测试的标准,BIC测度用于基于打分和搜索的结构学习取得了成功。用BIC测度学习结点对之间的关系,再建构最大权重跨度树,从而学习得到TANC结构。我们实现了TANC-BIC和TANC-CBIC两种分类器,实验结果表明:新的算法与基于MI测度的TANC-MI和TANC-CMI分类器分类效果相当,在某些数据集中还更优些。对于BNC结构学习,K2算法中结点次序的确定是一个NP难问题,而GS算法的时间开销很长。本文提出了基于启发式的G2算法,即用启发式思想来学习结点的次序,再用<WP=4>K2算法的得出网络结构。用NB结构和四种TAN结构作为启发式信息,实现了五种分类器模型,分别是G2-NB,G2-MI,G2-CMI,G2-BIC,G2-CBIC。同样也在MBNC下编程实现了这些算法。实验结果表明:学习得到的结点次序是比较优化的,分类效果比较好。该算法较好地解决了K2算法的瓶颈问题。不需要用户确定结点次序,限制可行解的搜索空间,从而加速了问题的求解过程,所添加的弧比较简洁,网络结构更加合理。对GS算法的优化正在研究之中。MBNC实验平台可以用来进行文本分类,我们研究文本分类中的特征选择和准确性评估方法两类问题,提出了稳定性评估标准,在MBNC上初步实现文本分类功能。基于MBNC实验平台也可做其他方面的算法研究,比如,缺失数据下的参数学习(如利用“相容的贝叶斯学习及其先验无关性”理论有效解决不完整数据),研究全局最优的结构学习算法(如利用遗传算法或模拟退火算法等),研究数据集的质量(如噪音数据的识别和清洗),对分类器进行增强(如用Bagging算法、Boosting算法或投票机制)等问题。

王双成[7]2004年在《面向智能数据处理的图形模式研究》文中提出图形模式是概率理论和图形理论的结合,是随机变量之间依赖关系的图形表示。在图形中的结点表示随机变量,边(有向或无向)的存在性表示随机变量之间的条件独立性。它具有形象直观的知识表示形式,以及更接近人思维特征的推理方式,被广泛用于专家系统、决策分析、模式识别,机器学习和数据采掘等领域,是近些年国内外智能数据处理的研究热点之一。图形模式由两部分构成,一部分是结构(图形),另一部分是参数(条件或边缘概率分布),分别用于定性与定量描述随机变量之间的依赖关系。图形模式研究的内容较多,其核心部分是贝叶斯网络(有向无环图),马尔科夫网络(无向图)和链图(有向和无向混合图)。本文主要研究贝叶斯网络和马尔科夫网络,并对链图作简要介绍。侧重研究图形模式在智能数据处理方面的应用,即如何转化数据为知识(图形模式学习)和知识转化为智能(基于图形模式的推理)。具体研究内容如下:1.具有完整数据和离散变量的图形模式学习对有代表性的方法和算法进行概述和分析。分别建立基于依赖分析思想和因果语义定向的贝叶斯网络结构学习方法,以及基于变量之间基本依赖关系、基本结构和依赖分析思想的贝叶斯网络和马尔科夫网络结构学习方法。这两种方法均能避免现有的打分-搜索方法的指数复杂性和局部最优结构问题,以及依赖分析方法中的大量高阶条件概率计算和边定向的局限性等问题。同时介绍了两种贝叶斯网络学习算法准确性评价方法。2.具有不完整数据和离散变量的图形模式学习由于具有不完整数据(或丢失数据)的现象普遍存在,而且由于丢失数据的存在无法直接进行图形模式学习,因此具有丢失数据的图形模式学习一直是一个被关注的重要而困难的研究课题。目前主要结合EM算法(或基于梯度的<WP=153>优化方法)和打分-搜索方法进行具有丢失数据的图形模式学习,效率低,而且易于陷入局部最优结构。本文提出了新的具有丢失数据的图形模式学习方法。该方法结合图形模式和Gibbs sampling,通过对随机初始化丢失数据的迭代修正与图形模式的优化调整进行具有丢失数据的图形模式迭代学习。由于Gibbs sampling过程收敛到全局平稳分布,因此可避免使用EM算法(或基于梯度的优化方法)所带来的局部最优和欺骗收敛问题。在每一次迭代中,基于图形模式分解联合概率能够显着提高抽样效率,通过图形模式的优化调整,使迭代过程中的图形模式逐渐接近于平稳分布的图形模式,直到满足终止条件结束迭代。本文研究了具有不完整数据的叁种情况:(1)随机丢失数据情况。每一列含有部分随机丢失的数据,具有变量的维数(取值范围)信息和部分例子信息;(2)隐藏变量(或聚类变量)的丢失数据情况。隐藏变量(或聚类变量)列的数据完全丢失,不具有隐藏变量(或聚类变量)的维数信息和例子信息;(3)小样本集的丢失数据情况。大量的行数据完全丢失(没有观察到),具有所有变量的维数信息和部分例子信息。在对这叁种情况现有的方法和算法进行分析的基础上,针对存在的一些问题分别建立了新的方法和算法,并进行了必要的理论论证和对比试验分析。具有连续变量的图形模式学习也可转化为不完整数据问题,其学习也是一个迭代过程。在迭代过程中,本文使用混合数据聚类方法离散化连续变量,在新的离散变量的基础上对图形模式进行优化调整,直到收敛。3.图形模式渐进学习同化和顺应是人类学习新知识的两个基本机制,人类的学习过程可以看作是对新知识的不断同化和顺应的过程。本文基于人类学习新知识的基本机制和图形模式的结构和参数变化的不同步性,建立一种新的图形模式渐进学习方法。该方法首先进行图形模式的原结构与数据集的适应性检验,以决定是否进行结构调整。如果需要,则对结构进行适应性调整,并在新结构的基础上进行参数调整,否则只在原结构的基础上进行参数调整,以获得新的图形模式。这一学习过程符合人类学习新知识的基本机制,并能够有效地刻画图形模式结构和参数的动态变化,不需要现有方法中的平稳性和马尔科夫性两个假设。4.图形模式基础理论和基于图形模式的推理从概率模式中随机变量之间的条件独立性,图形模式中结点之间的<WP=154>d-separation(或s-separation)性,以及二者之间的联系叁个方面对图形模式的基础理论进行了概述。对贝叶斯网络基础理论中的核心概念d-separation标准,给出了非否定形式的定义(原定义以否定形式给出,很难理解),并介绍了有助于理解d-separation标准的两个贝叶斯网络模型(信息管道模型和小球模型)。分别从概率推断,证据传递和因果分析等方面对基于图形模式的推理进行了系统的阐述和分析,并结合例子予以必要的说明。5.图形模式分类器在图形模式学习方法的基础上,分别建立了基于类约束图形模式分类器的学习方法和一般图形模式分类器的学习和优化方法,并在0-1损失下给出了图形模式分类器的最优性证明。同时介绍了常用的分类器分类准确性估计方法和不同分类器分类准确性比较方法。6.基于图形模式的特征子集选择特征子集选择是一个尽可能多的排除不相关和冗余特征以优化分类器性能的过程,是机器学习、模

丰伟[8]2008年在《基于贝叶斯网络的基因调控网络的构建》文中进行了进一步梳理基因调控网络的研究是后基因组时代生物信息学中的重要课题之一,主要是研究基因调控网络的分析和重构。本文主要研究了基于贝叶斯网络的基因表达调控网络的重构算法。首先,本文研究分析了已经存在的用于推断基因表达调控网络的一些常用模型,发现每种模型都有各自的优点,但也都存在一定局限性。同时,发现贝叶斯网络作为一种有效的网络构建模型,具有好的统计性和处理隐变量以及缺失值的优越性。本文着重探讨了贝叶斯网络在实现基因表达调控过程中的一些问题,提出了将免疫进化算法与叁阶段算法相结合的新算法-两阶段学习算法来构建贝叶斯网络。并用实验证明,本文的算法精度高于单纯运用模拟退火或者叁阶段方法等构建贝叶斯网络的学习算法。

蒋望东[9]2005年在《基于遗传算法的贝叶斯分类器结构学习研究》文中提出近二十年来,世界经济带动信息技术急剧发展,Internet 技术的应用飞速普及,人们收集数据的能力的大幅提高,使得可以获取得到的和需要处理的数据规模越来越巨大。面对“数据丰富而知识匮乏”的挑战,数据挖掘(Data Mining)和知识发现(Knowledge Discovery)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。分类是数据挖掘中一项十分重要的任务,其目的是找出分类函数或者分类模型。目前常用的分类方法主要是一些机器学习的方法,如决策树方法、规则归纳方法、神经网络方法、遗传算法、蚂蚁算法等。在众多的分类方法中,贝叶斯网络作为一种有效的知识表示方式和概率推理模型,是处理不确定信息的强有力图形决策化分析工具。有其坚定的理论基础、自然的知识表示方式、灵活的推理能力和方便的决策机制,受到越来越多的重视。近年来,基于贝叶斯网络的数据挖掘取得了良好的效果,成为研究热点。贝叶斯方法是基于贝叶斯定理而发展起来的用于系统阐述和解决统计问题的方法。以此建立的用于分类的贝叶斯网络叫做贝叶斯分类器。贝叶斯分类器是特殊形式的贝叶斯网络,变量的选取和状态均已确定,属性结点已知,类结点未知。贝叶斯分类器家族有叁类常见的分类器:朴素贝叶斯分类器NBC,树扩展朴素贝叶斯分类器TANC 和贝叶斯网络分类器BNC。贝叶斯分类器的学习包括结构学习,参数学习和最大后验概率类结点的推理。完全的贝叶斯网络的结构学习是一个NP难问题,研究学者一般采用近似的方法来学习,Duda 提出了朴素贝叶斯NB 结构,Friedman 提出了树扩展朴素贝叶斯TAN 结构;Keogh 提出了SP 结构;Huajie Zhang 提出了SN 结构;Peter Lucas 提出了FAN 结构;Cheng 提出了BAN 和GBN 两种网络结构;石洪波等对TAN 结构进行了优化。它们在贝叶斯分类器结构学习中均取得了较好的效果。如何在较短的时间里得到更加优化的结构一直是大家研究的重点问题。遗传算法(Genetic Algorithm)是模拟自然界生物进化过程与机制求解极值问题的一种自组织、自适应人工智能技术。它来源于达尔文的自然进化理论和孟德尔的遗传变异理论,具有坚实的生物学基础。遗传算法是一种全局搜索优化算法,它通过模拟生物进化过程,得到全局最优解。引入遗传算法改进贝叶斯网络的结构学习是本文要解决的问题。本文的主要工作如下:⑴归纳综述了贝叶斯网络的理论框架,简要讨论了贝叶斯网络的结构学习算法。⑵在程泽凯等[78,79] 用MATLAB语言基于BNT(Bayesian Networks Toolkit)建构的贝叶斯分类器实验平台MBNC(Bayesian Networks Classifier using MATLAB)基础上,扩展了MBNC实验平台的遗传算法模块,进行数据的预处理、实现了基于遗传算法的贝叶斯分类器结构学习算法,进而实现了基于遗传算法的贝叶斯分类器家族的多种分类器。(3) 为将遗传算法引入贝叶斯结构学习中来,深入研究了遗传算法及基于MATLAB 的实现,重点研究了基于整数编码的遗传算法及TSP 问题求解;设计高效的求解TSP 问题的遗

王斌喜[10]2015年在《基于贝叶斯网络的复杂产品研发技术风险识别与评估》文中提出复杂产品在现代社会所扮演的角色越来越重要,甚至对国家的发展起着举足轻重的作用。但是复杂产品结构复杂、技术含量高,其研发成功率低,研发过程中面临各种重大风险,因此对其研发过程中的风险进行研究就显得极为重要。而技术风险作为研发过程中最主要,也是最重要的风险之一,对其的专门研究就更显迫切。为了对复杂产品研发过程中的技术风险进行有效的识别与精确的评估,本文在原有的研究成果基础之上,做了一些有益的改进。对于技术风险的识别问题,识别的基本思想是深入产品的部件级、功能模块级来寻找技术风险与技术风险因子。整个识别过程采用叁阶段的方法,首先以产品分解结构(PBS)与工作分解结构(WBS)为辅助识别工具,利用核对表的方法找出导致功能模块内发生技术风险的各风险因素;然后利用解析结构模型(ISM)来建立各风险因素之间的相互关系;最后将其转化为贝叶斯网络模型,为进一步量化地研究技术风险发生的概率以及产生的后果做好准备工作。此识别技术能够提高识别的效率与准确性。对于技术风险的评估问题,为提高复杂产品研发技术风险估算的精确度,研究缺值小样本数据情况下贝叶斯网络参数学习的新方法,具体运用机器学习的思想,即神经网络与支持向量机的方法修复缺失数据,并将传统EM算法与机器学习方法的修复精度进行对比,得出支持向量机的方法具有更加优良的修复精度。通过研究,针对复杂产品的研发技术风险评估,可以建立更加精确的贝叶斯网络模型,进而比较准确的估算复杂产品研发项目功能模块内技术风险发生的概率,为复杂产品研发项目的风险管理提供决策依据。

参考文献:

[1]. 基于贝叶斯网络的知识发现与决策应用研究[D]. 张少中. 大连理工大学. 2003

[2]. 贝叶斯网络结构学习算法研究与应用[D]. 孙岩. 大连理工大学. 2010

[3]. 基于粗糙集和贝叶斯网络的入侵检测算法研究[D]. 高秀娟. 北方民族大学. 2014

[4]. 不完整数据的贝叶斯网络参数学习新算法[D]. 董辉. 广西师范大学. 2003

[5]. 贝叶斯网络中不确定性知识推理算法及其应用研究[D]. 杨海深. 华南理工大学. 2010

[6]. 贝叶斯网络结构学习及MBNC实验平台的构建[D]. 程泽凯. 广西师范大学. 2004

[7]. 面向智能数据处理的图形模式研究[D]. 王双成. 吉林大学. 2004

[8]. 基于贝叶斯网络的基因调控网络的构建[D]. 丰伟. 吉林大学. 2008

[9]. 基于遗传算法的贝叶斯分类器结构学习研究[D]. 蒋望东. 广西师范大学. 2005

[10]. 基于贝叶斯网络的复杂产品研发技术风险识别与评估[D]. 王斌喜. 南京航空航天大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

不完整数据的贝叶斯网络参数学习新算法
下载Doc文档

猜你喜欢