基于集成学习的自动测图方法研究_机器学习论文

基于集成学习的自动标引方法研究,本文主要内容关键词为:方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。在图书情报界,关键词自动提取通常被称为自动标引。在计算语言学领域通常着眼于术语自动识别。由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动摘要、自动分类、自动聚类等,都必须先进行关键词提取的动作,再进行其他处理。从这一点来说,关键词提取是所有文件自动处理的基础与核心技术[1]。

目前多数文档,包括Web页面通常都不具有关键词,同时手工标引费时费力且主观性较强,因此关键词自动提取是一项值得研究的技术[1],自动标引方法可分为四类:①统计方法,不需要复杂的训练过程,简单易行,主要途径有N- Gram[2]、词频[3]、TF*IDF[4]、PAT- tree[5]等。②语言学方法,从词法分析[6]、句法分析[7]、语义分析[8]及篇章分析[9]等角度进行关键词提取。③机器学习方法,通过对训练数据进行训练获得统计参数,进行样本的关键词提取,如NB[10]、最大熵模型[11]、SVM[11]、CRF[12]等。④其他方法,即上述方法的综合运用或集成一些启发式知识,如词位置、词长、词排版规则、Html标记等。

目前的自动标引方法,大多数不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于这些模型标引性能各异,综合利用各种模型进行关键词抽取,能够提高关键词抽取的准确率。早在1993年,储荷婷就曾撰文指出:“从已有的自动标引实践可以看出,博采各法长处的综合自动标引法将成为今后自动标引研究的方向之一”[13]。10年后,即2003年,AnetteHulth利用Bagging算法进行了基于集成学习的自动标引的初步研究[7]。到目前为止集成学习的方法依然是自动标引方法发展的方向之一。

为进一步提高自动标引质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引,并进行标引质量评估。其中包括基分类器包括条件随机场模型、支持向量机模型、多元线性回归模型、Logistic回归模型以及两个基准模型等。另外,本文还对基分类器加权与不加权两种情况下的自动标引质量进行了评估。

2 基于集成学习的关键词提取方法

本节首先对集成学习进行概述,对一般的集成学习算法进行了描述。然后给出几个用于自动标引的基分类器,利用这些基分类器进行基于集成学习的自动标引。

2.1 集成学习概述

集成学习(Ensemble Learning)通过利用多个学习器来解决同一个问题,可以获得比单个学习器更强的泛化能力,因此,它受到了机器学习界的广泛重视,并被国际机器学习界权威学者Dietterich称为当今机器学习的四大研究方向之首[14]。集成学习方法又称组合方法。在分类中,它根据训练数据构建一组基分类器(Base Classifier),然后通过对每个分类器的预测进行投票来进行分类[15]。Schapire和Singer[16]将Boosting用于文本分类,他们通过实验发现,在文本分类任务上,Boosting的效果始终优于或相当于Rocchio等常用技术。Weiss等[17]利用集成学习技术成功地在使用小词典的基础上达到了很高的分类精度。

2.2 一般集成学习算法描述

图1给出了集成学习方法逻辑视图①。构建组合分类器的方法有如下几种[15]:

(1)通过处理训练数据集,如Bagging方法[15]和Boosting方法[15];

(2)通过处理输入特征,对那些含有大量冗余特征的数据集比较有效;

(3)通过处理类标签,适用于类数足够多的情况;

(4)通过处理学习算法,在同一个训练数据集上多次执行不同算法可得到不同的模型。

下面分别对其中比较典型的方法,如Bagging、AdaBoost、基于不同学习算法的集成算法进行描述。

Bagging算法是一种根据均匀概率分布从数据集中重复抽样的技术[15],是一种较简单的集成学习方法。

AdaBoost算法是一种典型基于提升的集成学习方法,它将每一个分类器的预测值进行加权,而不是使用多数表决的方案。这种机制允许AdaBoost惩罚那些查准率很差的模型[15]。

在同一训练数据集上进行不同的算法得到不同的模型,然后再进行模型的投票,是一种常见的构建组合分类器的方法。不同学习算法的集成算法描述如图2所示。如前所述,本文拟采用该算法进行集成学习方式的自动标引。

图1 集成学习方法逻辑视图

图2 不同学习算法的集成学习算法描述[15]

2.3 用于关键词抽取的基分类器介绍

基于机器学习的自动标引的思想,就是将关键词的自动抽取看成一种分类问题。本节简要介绍已有的几个用于自动标引的基分类器,即条件随机场模型、支持向量机模型、多元线性回归模型、Logistic回归模型。此外,本文还给出两个常规的自动标引方法作为基准,以进行比较分析,分别记为基准模型1、2。

(1)CRF分类器

条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型[18],标注序列的结构可以看作一般的无向图。CRF的优点是能有效整合多种特征,即使有些特征之间存在交叉现象,CRF还是能发挥很好的性能。章成志等曾利用CRF模型进行了关键词的自动抽取[12]。本实验中采用开源工具CRF++进行自动标引。

(2)SVM分类器

支持向量机(Support Vector Machine,SVM)由Vapnik在1995年提出,用于解决二值分类模式识别问题[19]。2004年,曾华军等在进行搜索结果聚类研究时,利用SVM进行显著短语的提取[20]。2006年,张阔等提出基于SVM自动标引模型[11]。本实验中采用开源工具SVM[light]进行自动标引。

(3)多元线性回归分类器

线性回归是最简单的回归形式。曾华军等利用多元线性回归模型(Multiple Linear Regression,MLR)进行显著短语的提取,他们通过实验发现在解决显著短语提取这一问题上,多元线性回归模型能取得较好的结果[20]。

(4)Logistic回归分类器

当因变量为二值类型时,Logistic回归(Logistic Regression,简写为Logit)更加适合样本标记的预测。曾华军等也利用Logistic回归模型进行显著短语的提取,并通过实验发现在解决显著短语提取这一问题上,Logistic回归模型能取得较好的结果[20]。

(5)基准分类器1

即基准模型1(BasaLine1,简写为BL1)中,利用归一化的词语的词频(TF)、归一化的逆文档频率(IDF)、词语长度作为考虑词语权重的因素,采用的权重计算公式如下:

Score=TF*IDF*Len(1)

(6)基准分类器2

即基准模型2(BaseLine2,BL2)。与BL1不同的是,BL2除了考虑归一化的词语的词频(TF)、归一化的逆文档频率(IDF)、词语长度三个特征作为考虑词语权重的因素外,还另外加入了词语的首次出现位置(Dep)作为权重因素,权重计算公式如下:

Score=TF*IDF*Len*Dep(2)

利用以上模型对文档进行自动标引,要经过文本自动分词、词性标注、特征计算、综合权重排序等一系列步骤。这些处理步骤以及这些模型训练和测试的详细描述可参见文献[21]。

2.4 基于集成学习的自动标引方法

本文以上述BaseLine1、BaseLine2、MLR、Logit、SVM及CRF等自动标引模型为基分类器,利用不同标引方法,进行基于集成学习的自动标引研究,本文将基于集成学习的自动标引方法记为Ens。根据基分类器是否利用标引查准率进行加权,本文将基于集成学习的自动标引进一步分为基分类器不加权集成学习标引与基分类器加权集成学习标引。

(1)基分类器未加权集成学习标引

基分类器未加权集成学习标引方法就是指在基分类器进行投票表决时,各基分类器都是“平等”,即分类结果依据公式(3)得到多数表决的结果,作为最后的集成学习标引结果。

3 实验结果分析

本节结合2.3小节中所描述的6种自动标引模型,对集成学习标引方法进行对照实验,并对实验结果进行分析。

3.1 实验数据与评价方法

(1)试验数据

本文以人大报刊复印资料“人大2005年一季度经济类专题”库中经济类600篇论文作为数据集进行基于CRF的自动标引研究。数据集中的论文包括题名、摘要、关键词、带有段落和章节、图表标题信息以及参考文献等部分。

(2)评价方法

假设测试集中词语总数为n,自动标引系统标引结果如表1所示。将人工标引的结果分为两种情况,分别为人工标引为关键词的情况(即:(a+c))与人工标引为非关键词的情况。人工标引为非关键词的情况,就是将人工标引关键词后,文本剩下的词作为非关键词。同理,自动标引结果也可以分为这两种情况,其中,(a+b)为标引系统标引的关键词总数。

3.2 实验结果分析

利用3.1小节中的数据集进行集成学习标引方法的10折交叉验证,其中特征提取时利用的词典是通用与领域结合的分词词典。其中通用型词典是指直接将《人民日报分词词表》[22]做分词词典,领域词典是某一领域的常见关键词集合②。

根据3.1小节的测试数据和测评方法得到各基分类器的查准率如表2所示。

图3为集成学习标引方法(基分类器未加权)标引得到的一条记录结果。表3给出包括集成学习标引在内的8种标引方法的标引结果的P值、R值以及值。其中“Ens”表示分类器未加权的集成学习标引方法,“Ens-W”表示分类器加权的集成学习标引方法(Ensemble- Weighted Based Indexing),权重采用表2中经归一化的各基分类器标引准确率。

图3 基分类器不加权集成学习标引结果样例

由表3可以看出,基于集成学习的自动标引方法在查准率和召回率上都在平均水平以上。值达最大值,因此综合考虑查准率和召回率后,基于集成学习的自动标引方法均要优于其他类型的标引模型,这表明基于集成学习的自动标引方法的有效性。

在基于集成学习的自动标引中,基分类器加权集成学习标引的结果,在查准率、召回率以及值上,均高于基分类器未加权集成学习标引的结果,这表明基分类器加权表决方法的有效性。本文今后将综合考虑其他指标,优化基分类器的加权方法,以提高基于集成学习方式的自动标引质量。

4 结论

本文利用不同学习算法的集成,进行基于集成学习的自动标引研究。实验结果表明基于集成学习方法的自动标引,利用各种标引模型进行投票表决方式的自动标引,能提高标引结果的查准率和召回率。另外,在基于集成学习的自动标引中,基分类器加权集成学习标引的结果,均优于基分类器未加权集成学习标引的结果。

本文下一步的工作主要包括三个方面。其一,与其他基于集成学习的自动标引方法进行比较,即将Bagging或AdaBoost用于自动标引,与本文的方法比较,寻求一种相对高效的基于集成学习的自动标引方法;其二,下一步我们拟对CRF自动标引模型进行进一步优化,如将不同标引模型的结果作为CRF的输入,进行基于CRF集成的自动标引研究等;其三,对集成学习方式的加权投票方式进行进一步深入研究,寻找其他更合理的加权方法,如综合考虑查准率和召回率进行加权,进一步提高基于集成学习的自动标引方法的可靠程度。

致谢:感谢论文评审人对本文提出修改建议。

收稿日期:2008年10月6日

注释:

① 数据集根据集成学习方式的不同,进行不同方式的处理,如本文实验中所采用的集成学习为:同一训练数据集上进行不同的算法得到不同的模型,从而进行集成学习方式的标引。因此此时的数据集1,数据集2,…,数据集n为同一训练数据集。

② 通过对CSSCI(http://cssci.nju.edu.cn)数据库1998~2005年关键词数据的调查分析发现:关键词词库中多为4字词(这里所说的字是指单汉字,下同)和6字词。而通用分词词典中的词大部分为2字词和3字词。由此可以看出,若利用通用词典进行分词,势必造成大量的关键词被“切碎”,从而无法识别和提取大量长度较长,并且比较专指的关键词。为了避免或者减缓这个情况的发生,本文采用的方法是将常见关键词加入到分词词典中,构建通用与领域结合的分词词典。

标签:;  ;  ;  ;  ;  ;  

基于集成学习的自动测图方法研究_机器学习论文
下载Doc文档

猜你喜欢