基于EP的多分类器表决分类算法

基于EP的多分类器表决分类算法

刘孟旭[1]2004年在《基于EP的多分类器表决分类算法》文中研究表明数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的差异,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显着改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。以提升和装袋为代表的组合分类方法成为提高某些算法分类准确率的有效方法。但是,现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。 本文首次提出了建立基于EP的多分类器表决分类算法的思想。由于采用什么样的算法建立基分类器成为实现上述思想需要解决的首要问题,因此我们又提出了一个新的基于EP的分类算法作为基分类器的学习算法,即:基于基本显露模式的分类算法(Classification by Essential Emerging Patterns,CEEP)。以CEEP算法为基分类器学习算法,我们进一步提出采用自助方式建立多个并列的基分类器,通过投票表决的方式合并多个基分类器的组织策略,最终实现了本文提出的算法思想,得到一个融合了基于EP的分类算法和组合分类方法两者优势的新型的分类算法,即:基于EP的多分类器表决分类算法(Classification by Voting Classifiers based on Essential Emerging Patterns,CVCEEP)。 CEEP算法采用了一种基于模式树(P-树)的更快速有效算法挖掘eEP,改基于EP的多分类器表决分类算法进了己有的同时使用支持度和增长率EP的评分标准,提出以增长率为标准的评分策略,并且解决了参数的自适应选择等问题,实验表明CEEP算法具有很好的分类性能。因此,CEEP算法既是CVCEEP算法的一个重要组成部分,也是一个独立而完善的基于EP的分类算法。 为了测试算法的分类性能,我们使用UCI机器学习库中的12个数据集作为实验数据集。并且将实验结果与NB、CS.O、CAEP、LB以及BCEP比较, CEEP算法显示了很好的分类性能,而且CVCEEP算法的分类准确率和CEEP相比有显着提高。实验结果表明,本文算法的分类准确率可以与已知最好的分类算法相媲美。

刘艳霞[2]2005年在《基于eEP的稀有类分类问题研究》文中指出对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题的专用算法不多。 本文主要研究基于eEP的稀有类分类问题。eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。 集成学习方法是从机器学习领域逐渐发展起来的用于提升弱分类器分类准确率的技术,被认为是近十年来提出的最有效的学习思想之一。与单个算法相比,集成学习不容易出现过适应现象。 本文把Bagging技术引入稀有类分类这一极具挑战性的领域,并采用基于eEP的分类器作为集成学习的基分类器进行分类。通过“分组自助抽样”及不同的加权投票策略的分析,本文详细研究了Bagging技术在稀有类分类上的应用。同时提出了若干稀有类分类的高效集成学习算法。 本文研究工作的主要创新点有: 使用eEP来分类稀有类。改进了基于eEP的单分类器算法CEEP,使之更适合对稀有类进行分类。从而形成了新算法eEPRC,它更加侧重稀有目标类的分类性能。 应用集成学习方法Bagging技术来提高稀有类分类性能。提出两个新的稀有类分类算法VeEPRC和BeEPRC,他们分别采用bootstrap自助抽样和“分组自助抽样”产生多个自助样本集。 针对BeEPRC集成学习算法,进一步采用两种不同的加权投票策略进行分析,即按分类准确率加权的BeEPRCA算法和按稀有类分类的F-度量进行加权的BeEPRCF算法。最终选用分类性能较好的BeEPRCF作为本文的代表算法与其它经典分类算法进行详细分析比较。 通过对稀有类分类问题的研究与实践,本文从中探索了一些可行的规律,在一定程度上提高了稀有类分类性能并同时保持总体分类准确率在较高范围内。这为稀有类问题研究提出了一种新的视角,同时为进一步的研究工作提供了丰富的实验数据。

任红伟[3]2007年在《Boosting基于EP的分类器提高分类准确率》文中认为数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显着改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。本文首次提出了一种Boosting基于EP的分类器提高分类准确率的算法BoostEP(Improving ep-based classifiers via Boosting)。算法使用基于eEP的分类方法建立基分类器,eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。BoostEP使用Boosting技术建立多个基于eEP的基分类器形成组合分类器,并对每个基分类器预测加权投票得到未知样本的类标号。为了测试算法的分类性能,使用了UCI机器学习数据库的21个基准数据集为实验数据集,并将实验结果与NB、C4.5、CBA、CAEP等优秀分类法比较,结果表明,BoostEP具有更好的分类准确率。和BaggingEP分类法相比,实验还表明Boosting能够提高基于EP的分类方法的性能。

温箐笛, 杨滋荣, 曾桢[4]2008年在《基于EP的提升分类算法》文中提出显露模式(EP)是支持度从一个数据集到另一个数据集发生显着变化的项集.EP具有很强的区分能力,可以建立很好的分类器.文中采用基于EP的分类算法CEEP建立基分类器,结合组合学习分类方法AdaBoost算法的思想,提出了一种新的分类算法A-E算法.算法使用加权样本建立基分类器,并根据分类结果改变样本权值,同时应用分类误差计算基分类器权重.最终,算法按权重组合每个分类器的分类结果.在UCI机器学习数据库的9个基准数据集上的实验表明,A-E算法都能有效地减低泛化误差,并具有较高的分类准确率.

温箐笛[5]2006年在《训练基于EP的分类器算法》文中提出数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时,eEP的权值通过训练自适应地选取。训练分为两个阶段:第一阶段的主要任务是挖掘eEPs,构造初始分类器。在EP的选取以及评分函数方面,我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始,所有EP的权值相同。反复地使用初始分类器对训练样本进行分类,并通过考察每个EP对训练样本的分类效果调整EP的权值,直到分类器的分类准确率不能再提高。 为了测试算法的分类性能,使用了UCI机器学习库中的12个数据集作为实验数据集,并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明,CEPAW具有更好的分类准确率,自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时,通过再训练,调整EP的权值,CEPAW可以较好地适应新的数据分布。

职为梅[6]2003年在《基于eEP的两阶段方法分类》文中研究表明数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,目前在商业上应用很多。分类器的构造技术有统计方法、机器学习方法、神经网络方法等。大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性问题。 传统的基于规则的分类算法多是采用顺序覆盖技术训练分类规则,训练得到的模型覆盖大量的非目标类实例,对稀有类分类时效果很差。基于此,Ramesh Agarwal和Mahesh V.Joshi提出了基于规则的两阶段方法去除覆盖的非目标类实例,实验结果证明两阶段方法能够很好的分类稀有类。 近年来,数据挖掘界提出一种新的知识模式,称作显露模式(Emerging Pattem,EP)。EP表示数据集间的差异,能够很好用于分类。一些基于EP的分类算法也取得了很好的结果。但是基于EP的分类算法得到大量的EP,这些EP对于分类并不是全部有用,有的甚至带来噪音,影响分类。业界又提出了一种特殊的EP,eEP(Essential Emerging Pattern),eEP是那些最短的且有很高增长率的EP,eEP能够减少分类噪音并不失去任何有用的分类信息。 本文将两阶段思想和eEP结合起来构造一个新的分类算法:基于eEP的两阶段分类算法即Two Phase Classification Based on Essential Emerging Pattern(TPeEP)。TPeEP方法采用两个阶段挖掘eEP,使用第二个阶段纠正第一个阶段的误差,并使用两个阶段得到的eEP来分类,分类时考虑第二阶段对第一阶段的纠正。TPeEP分类方法定义了两种评分方法:实例得分方法和eEP覆盖方法。我们还将相同的评分方法用于单个阶段,使用这两种评分方法分别基于两个阶段和单个阶段做实验,使用UCI机器学习库中的十个数据集作为实验数据集。实验证明与已有的基于EP的分类算法相比,仅使用eEP建立的分类算法使用的EP数量少,并且能够获得相同或更高的预测精度;单个阶段不能纠正分类误差,分类结果也远没有两个阶段结果好。我们将实验结果与NB、C5.0、CAEP、LB以及BCEP比较,发现本文的分类算法在这十个数据集上可以与这些经典的分类算法相媲美。

陈崇超[7]2007年在《基于EP的数据流分类算法研究》文中研究指明在信用卡欺诈监测、差异性营销、网络入侵检测和传感器网络等应用中,随着时间的更迭而生成一种新型的具有连续、有序、变化、快速到达、海量等特征的数据,即“数据流”,其数据量大且数据分布可能会发生变化(即概念漂移)。如何从海量的数据中训练模型来有效地预测未来的数据趋势,正是数据流上的分类算法所要解决的难点,同时也是一件非常有意义的工作。分类是数据挖掘中的重要分支之一,在很多领域都具有广泛的应用。现在已有许多成熟的分类方法,如决策树、贝叶斯网络、神经网络、支持向量机等,但是在处理数据流时,仍然面临着新的挑战。近年来研究者们提出了几种数据流上的分类方法:VFDT和CVFDT、VFDTc、集成分类方法Ensemble Classifiers等。集成多个分类器的方法通常可以提高分类准确率,特别是基分类器具有一定的差异性时,它往往比单分类器的准确率高。Wang等人提出的集成方法以C4.5、RIPPER、Na(i)ve Bayesian分类为基分类器,而采用其他类型的算法作为基分类器仍需进一步研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。基于以上考虑,本文提出一种基于eEP的数据流分类器集成算法CEEPCE。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机的结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了加权集成分类器的思想;最后,在未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,提出一种“基于分类误差的加权方法”来加权集成分类器,从而提高分类准确率。实验对比和性能分析表明,本文提出的CEEPCE算法能较好的适应数据流的概念漂移,并且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器方法相媲美。

范明, 刘艳霞[8]2005年在《利用基本显露模式分类稀有类》文中研究说明提出了一种新的稀有类分类方法,称作VeEPRC。该方法使用一种特殊的EP(基本显露模式,eEP)构造基于eEP的分类器,并对它们“装袋”,建立有效的组合分类器VeEPRC。在UCI机器学习数据库的基准数据集上的实验表明,VeEPRC不仅对稀有类具有较高的召回率和精度,而且具有较高的分类准确率。

蒋宏杰[9]2006年在《基于eEP的数据流分类算法研究》文中认为随着信息技术的快速发展和信息搜集能力的日益提高,近些年产生了一种新型的具有快速、海量、变化等特性的数据,即“数据流”。这些数据流或以静态的形式存储在企业的物理存储器上,或是不被存储而瞬时出现的动态数据。 分类是数据挖掘中的一个重要问题,也是一种重要的数据分析形式,在传统静态数据环境中,数据分类已经有了比较充分的研究,但是面对具有快速、海量、变化及线性访问等特性的数据流,数据分类面临着新的挑战。通过汇总和分析,发现当前在数据流环境中,已经有文献介绍相关的分类算法研究,但是,并没有基于eEP分类的相关研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。 鉴于此,本文对数据流环境下,基于eEP的分类算法进行了深入的研究。提出一种基于eEP的数据流分类算法DSCEEP。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机地结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了多分类器的“叁层构造模型”,即:eEP的挖掘和加权、基分类器的构建、多分类器的组合;最后,在对未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,并提出了多分类器“董事会股权投票”策略,从而提高分类的准确率。 经过实验对比和性能分析可以看出,本文提出的DSCEEP算法能较好地适应数据流的概念漂移,且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器算法相媲美。

孙宜贵[10]2004年在《基于eEP的两阶段方法分类研究》文中研究指明分类是数据挖掘中的一项非常重要的任务,几十年来一直是统计学、机器学习、神经网络和专家系统等领域内的一个重要研究课题。目前在政府组织、科学研究、商业等领域有着广泛的应用。在解决数据挖掘领域中的分类问题时,基于规则的建模技术是很受欢迎的。但是,传统的基于规则的分类算法多数采用顺序覆盖技术来训练分类规则,这种方法有着自身无法很好解决的问题,在稀有类分类中这种问题更加突出。基于此,Ramesh Agarwal和Mahesh V.Joshi于2000年提出了基于规则的两阶段方法,实验结果表明,两阶段方法能够很好地用于分类,特别是在稀有类分类时取得了比其它分类算法更好的效果。 1999年Dong等人提出了一种被称作显露模式(Emerging Pattern,EP)的新的知识模式,并受到了数据挖掘界的广泛重视。基于EP的分类算法通过聚合多个EP的分类能力来分类,综合考虑了不同数据集在多组属性上的差异,能够弥补传统分类方法(如决策树方法)只考虑一组属性而形成的缺陷,取得了很好的分类结果。然而,对于稠密数据集和高维数据集来说,EPs的数量巨大,因而增加了算法的时空复杂度。2000年Fan和Ramamohanarao又提出了一种特殊形式的EP:eEP(Essential Emerging Pattern,基本显露模式),有效地解决了一般形式的EP在分类时的冗余问题,同时又不会丢失太多对分类有用的信息。 本文结合两阶段思想和eEP在分类方面的优势,提出了一种新的分类算法——基于eEP的两阶段方法分类(Classification of Essential Emerging Pattern in Two Phases,CEEPTP)。该算法使用两个阶段挖掘eEP并用于分类,分类时考虑第二阶段对第一阶段的修正作用,这与TPCEP有些相似之处。与TPCEP不同的是,我们在分类时采用了以增长率为标准的评分策略,充分利用了eEP的区分能力;同时,我们通过调整第二阶段的权重,使之更好地发挥对第一阶段结果进行修正的辅助作用。实验结果表明,CEEPTP在UCI机器学习库中的11个数据集上可以取得与已有的几个优秀分类算法如NB,C4.5,CBA,CMAR,CAEP,BCEP相媲美的整体分类效果。同时,我们还将CEEPTP与TPCEP、CEEP分别在多个数据集上作了分类准确率对比,表现出较好的性能。最后,为了显示对第二阶段作用的调整产生的影响,我们将调整前后的结果作了对比,结果表明,调整后的结果比调整前有了一定的改善。

参考文献:

[1]. 基于EP的多分类器表决分类算法[D]. 刘孟旭. 郑州大学. 2004

[2]. 基于eEP的稀有类分类问题研究[D]. 刘艳霞. 郑州大学. 2005

[3]. Boosting基于EP的分类器提高分类准确率[D]. 任红伟. 郑州大学. 2007

[4]. 基于EP的提升分类算法[J]. 温箐笛, 杨滋荣, 曾桢. 微电子学与计算机. 2008

[5]. 训练基于EP的分类器算法[D]. 温箐笛. 郑州大学. 2006

[6]. 基于eEP的两阶段方法分类[D]. 职为梅. 郑州大学. 2003

[7]. 基于EP的数据流分类算法研究[D]. 陈崇超. 郑州大学. 2007

[8]. 利用基本显露模式分类稀有类[J]. 范明, 刘艳霞. 计算机应用. 2005

[9]. 基于eEP的数据流分类算法研究[D]. 蒋宏杰. 郑州大学. 2006

[10]. 基于eEP的两阶段方法分类研究[D]. 孙宜贵. 郑州大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于EP的多分类器表决分类算法
下载Doc文档

猜你喜欢