随机森林分类与Baggiag分类树的比较_随机森林论文

用于分类的随机森林和Baggiag分类树比较,本文主要内容关键词为:森林论文,Baggiag论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

随机森林(Random Forest)算法是Leo Breiman在Bagging算法之后,提出的另一种利用多个树学习器进行分类预测和回归预测的组合算法[1-2]。就分类问题而言,实践表明,随机森林算法得到的组合模型的预测误差要小于Bagging分类树的预测误差(预测误差用推广误差衡量)。Breiman在理论上指出,分类问题中,组合模型的推广误差有一个上界κ,κ被其基分类模型的强度(正向关系)和相关度(反向关系)决定。然而上界κ往往远大于其推广误差。例如在数据spam中[3],我们随机选择一半数据做训练集,另一半数据做测试集,用测试集估计出随机森林算法得到组合模型的推广误差上界和推广误差(见图1,横坐标为算法中产生划分条件时随机选择变量的个数,圈表示推广误差上界,三角表示推广误差估计);另外,以前面获得的训练集训练Bagging分类树,并用测试集估计出Bagging分类树的推广误差上界和推广误差(见图2,横坐标1到6依次对应分类树中修剪树时复杂参数为,圈表示推广误差上界,三角表示推广误差估计[4])。从图1、图2可见,推广误差上界估计和推广误差估计相去甚远,随机森林算法推广误差的上界小于Bagging算法推广误差的上界并不能有效说明随机森林算法优于Bagging算法。这说明分类问题中,随机森林算法“优秀”的原因我们尚未可知。本文试图从两个分析框架分析用于分类的组合算法,并从推广误差分解解释随机森林优于Bagging算法的原因。从分析框架都可以解释,分类问题中,随机森林算法优于Bagging算法的原因。另外,第一种分析框架明确地出现在Breiman关于Bagging的论文中,第二种分析框架则是笔者受Breiman类于随机森林的论文的启发给出(Breiman没有明确区分这两种角度,忽略了这两种角度的差异),本文首次将两种算法表述在两种不同的框架下,这样可以使两种算法被更清楚的理解。最后,正是Breiman的工作使得机器学习算法和统计建模之间有了联系,而这种联系使得统计学可以向数据挖掘领域的发展更进一步深入,本文也旨在总结其成功经验。

图1 spam数据集随机森林算法组合模型的推广误差上界估计和推广误差估计图

图2 spam数据集Bagging算法组合模型的推广误差上界估计和推广误差估计图

二、第一种分析框架

从以上的结果可以发现:首先,随机森林算法的偏差小于Bagging的偏差;其次,随机森林的方差下降幅度更大,而且样本量越大,两种算法的方差下降幅度越大。

三、第二种分析框架

值得注意的是,在本节中组合模型是和基模型比较,而并没有出现单个模型,假定基模型和单个模型相差无几。

四、结论

本文运用两个分析框架分析用于分类的随机森林算法和Bagging分类树算法,旨在解释随机森林算法优于Bagging分类树算法的原因。在给出的第二种分析框架下,更能清楚地看出,之所以随机森林算法优于Bagging分类树算法,是因为随机森林算法对应更小的偏差。另外,本文首次明确的将两种算法表述在两种不同的框架下,消除了这两种算法分析中的一些模糊之处。最后,正是Breiman的工作使得机器学习算法和统计建模之间有了联系,本文也旨在总结其成功经验,而这种经验可能使得统计学可以向数据挖掘领域的发展更进一步深入。

注释:

①事实上,分类和回归树可以用数据建模的模式表述。

标签:;  ;  ;  ;  ;  

随机森林分类与Baggiag分类树的比较_随机森林论文
下载Doc文档

猜你喜欢