基于全信息词典的自动文摘系统的研究与实现_语义分析论文

基于全信息词典的自动文摘系统研究与实现,本文主要内容关键词为:文摘论文,词典论文,系统论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

本文摘系统是建立在文本理解系统的基础上,一方面它采用了传统文本理解系统的大量处理技术;另一方面,它结合文本结构与文摘的关系,通过由全信息词典驱动的文本部分分析器,选择与文摘有关的文本部分进行详细的语义分析,填充文摘框架,根据文摘框架的填充结果,文摘生成器在文摘模板的基础上生成风格一致、忠实原文的高质量文摘。这种文摘方法可适用的领域广,可移植性好,而且对复杂的语义分析要求较传统的文摘方法大大降低,利用部分分析器分析文本提高了系统处理效率,增强了系统的鲁棒性。

1 文摘系统模型

自动文摘最早起源于50年代Luhn的研究工作。传统的文摘方法有简单提取法、提取重组法、理解生成法三种。从文摘评价标准来看,这几种文摘方法不尽人意,或文摘质量差,或系统效率低,并没有真正达到自动文摘的目的。不成功的原因主要是没有考虑原文整体的结构。本节介绍的文摘方法则是充分利用文本结构信息来帮助选择用于产生文摘的合适信息,在选择的信息基础上生成高质量文摘。

文章结构、体裁和语言是文章的形式。其中,体裁是文章的外部形式,文章结构是文章的内部形式。文章的理解和文章的结构是密切相关的。因此,作为理解的应用面——自动文摘和文章结构也有着紧密的联系。早在1958年有人研究发现不同的作者在写同一主题的文章时,总是尽可能的使用相同的文章结构。因此,这一类文章可以看作是由若干意义基元组成,每个意义基元在层次上和句法上与其他意义基元相联系。以科技文献为例,每篇文章包括研究的背景、目的、方法、结论等意义基元。不同的作者总是针对这些意义基元展开文章的主题。他把每个意义基元实例化,按一定的文本结构形式,组成一篇有意义和主题的文章。

正因为文章结构与文摘有着密切的联系,文摘员接到待摘文献后,先通读全文,进而分析原文内容,掌握其主题内容。可以根据题目了解原文的主题概念;通过序言、结束语掌握其内容梗概;根据各章节或段落,掌握原文的结构;阅读原文中有关研究背景、经过、目的、主题范围、方法、结果和结论等方面的内容,以便抽取其要点。

图1的文摘系统模型模拟了人的文摘编制过程, 首先由主题分类器分析文章的主题,然后根据主题选用合适的文摘框架,文本部分分析器在全信息词典的作用下,选取合适的文本部分进行分析,提取出合适的信息填充文摘框架,由文摘生成器输出简洁、风格一致性较好的文摘。因此,文摘框架的设计是该模型的核心技术。

图1 自动文摘系统模型

2 文摘框架及设计原则

本节先介绍文本框架的定义和作用,然后提出文摘框架的设计原则。

2.1 文摘框架

许多研究表明,每篇文摘都有其内在结构,可以将文本分成若干部分。若是科技文献,文摘中应包含研究的对象、目的、方法、实验结果和结论等部分。这若干不同的部分组成一个文摘框架。如果文摘框架结构中的重要部分被从原文中提取的合适信息实例化,那么,根据文摘框架填充情况可以生成一篇包含文章重点的摘要。显然这种方法比语义剧本更为灵活,因为它与领域的具体概念和知识的联系大大减弱了。

正是因为不同领域的作者们在写具体文章时,总是尽可能的和该领域文章的通用文章结构(文章风格)相一致,这就给自动文摘系统提供一个契机。如果我们对每一个领域的文章都能用一个类似文摘框架的东西去描述,在对这些文章作文摘时,只需要有针对性地提取文摘框架中的这些概念就可以了。这也就是说,方法本身是与领域无关的。

我们选取计算机病毒领域的文本作为文摘系统的研究对象,通过对有关病毒理论的研究以及具体描述病毒文章的结构分析, 决定采用图2所示的文摘框架来表示从文本中获取的概念。从图中可看出,组成文摘框架的每个槽部件代表计算机病毒的一个特征,如病毒的发生日期、地点、传染对象、攻击对象等,而这每个特征又具体对应文本中的某个部分。框架中的每个槽可能是短语,也可能是文本中的一个完整的句子。例如:

(病毒名称:(catogory :NB; value :String))

(病毒别名:(category :NB; value :String))

(病毒破坏意图:(category :AC ; value :String))

(病毒驻留内存:(category :NF ; value :Logical))

(病毒传染对象:(category :NC * ; value :String))

(病毒破坏性:(category :VP * ; value :String))

(病毒类属:(category :NK ; value :String))

(病毒攻击对象:(category :NA ; value :String))

图2 计算机病毒类文章文摘框架

2.2 文摘框架的设计原则

不难推出,文摘框架是实现该模型的关键。经研究认为,设计一个好的文摘框架应遵循如下原则:

(1)文摘框架对文章的描述是充分的。 即要求该框架能表示生成文摘的全部信息。这些信息彼此之间存在逻辑或结构上的联系,文摘框架应具有在已知信息的基础上推导隐含信息的能力。它要充分体现各种领域知识。

(2)文摘框架对文章的描述是清晰的。 即框架中所表示的信息是无歧义的。这些信息可操作性好,不需要计算机进一步推理。如果文本中的信息存在歧义,文摘框架或者保留这种歧义,或者用缺省值(根据推理规则得到)取代歧义信息,或者将该歧义信息省略。

(3)文摘框架的描述具有确定性。 某一具体领域复杂信息的表示在框架中是唯一的。

(4)文摘框架的描述具有单调性。 即框架设计的大小和文章的内容多少存在线性关系。如果文章内容增加了新的概念或内容,不会影响原框架的基本结构,并不需要去掉某些槽或改变其结构,只需要增加合适的槽即可。

(5)文摘框架的描述容易被用户接受。 即文摘框架的可读性要好,读者容易分析和使用,易于维护。

(6)文摘框架模板本质上是一种信息提取模板, 它主要是针对完成自动文摘特定的应用程序而设计的。上述框架设计原则也可适用于其他应用程序,如文本分类中的模板匹配器,数据库自动构建中的数据库结构等。

3 全信息词典

如何从原文中提取信息来填充文摘框架呢?为此,我们提出了全信息词典的概念。这是一部对词语进行全方位(语法、语义、语用)描写的词典。它将多种知识源有机地组成一体,用统一的文法进行描述,很好地解决了自然语言中知识表示和知识运用的问题。全信息词典由三部分组成:概念词典,概念联用规则库和效用规则库。概念词典是词典的静态部分,它其实是以分类语义场为基础的多层次、多类型静态语义网络,用来分析概念的聚合关系。概念联用规则库是词典的动态部分,它是基于框架的动态语义网,用来分析概念间的组合关系。效用规则库是与面向具体应用的程序有关,把词和任务有机地联系在一起。词不再是一个抽象的意义单元,而有其语用意义。因此,该词典一方面可以引导句子分析器进行语义分析,另一方面它为部分分析器的部分工作机理提供了依据。不同的领域有不同的概念,对应不同的概念联用规则和效用规则。

全信息词典的数据结构为:

词 概念意义范畴 概念联用规则 映射规则 语义类限制规则 效用规则

所谓概念意义范畴是指词的分类方法是按语法语义分类的。在本系统中,采用语法分类和语义分类相结合的方法对词进行分类,上层按语法分类,下层按语义分类。例如,名词(N )可分为与病毒攻击对象有关的名词(NA,如IBM PC机),病毒传染对象有关的名词(NI, 如COM文件),与病毒破坏对象有关的名词(ND,如文件链接),与病毒名称有关的名词(NB,如大麻病毒)。动词(V)划分为破坏类动词(VD,如破坏、删除),传染类动词(VI,如传染、 感染), 表现类动词(NP,如出现、增加)等。本系统词类共分15大类,36小类。

概念联用规则主要是针对动词、形容词、名词和介词制定的。它体现概念之间互相制约互相影响的语义约束关系,同映射规则、语义类限制规则联合作用引导句子进行语义分析,得到语义解释的。概念联用规则中定义了六种语义关系,如施事、受事。映射规则中有八种语法成分,如主语、谓语等。

在具体实现中,词的每个意义和用法体现为一条记录,现举例如下:

Conceputal Collocation rules:

发现(V,M1<(Agent:A)(Patient:0)(Location:L)(Time:T)>;

W(‘L’,Location);W(‘T’,Time)>.)

Mapping rules:

Agent(A):-subject(A)/pred(Agent(A),Y)

Patient(P):-object(P)/pred(X,Patient(P))

Location(L):-adverb(L)

Time(T):-adverb(T)

Semantic restriction rules:

A:-class(N-people)

B:-class(N-Virus)

L:-class(N-location)

T:-class(N-time)

其中,V表示该词语义码为动词,M1 表示这是该词的第一条概念联用规则,也表示该词为句子的中心词(Major—Verb),Agent是指施事格,Patient是指受事格,Location是指处所格,Time是指时间格。A,P,L,I是变元的符号。subject,object 分别指句子的主语和宾语。pred表示谓词表达式的开始。W是表示效用规则的开始, 括号中的第一个变元表示要写入文摘框架(参见第5 节)中槽值的词的概念意义属性,第二个变元是指文摘框架中的槽部件名称。

词汇的概念联用规则和效用规则库,它是文本部分分析器算法的基础,也是填充文摘框架的基础。每个词的效用规则是根据它们与文摘框架槽的填充关系制定的。因此利用词或短语的效用规则来选择合适的句子进行分析,将分析的结果填入文摘框架中。词或短语的效用规则的制定是基于语料库的技术,找出与文摘框架中槽的填充有关的短语或词,制定相应的判定规则,选择正确的信息填入文摘框架。目前规则的制定方法综合利用了传统文摘方法中的文摘句的提示词、标题、方位、关键词四种加权方法,不同之处在于它把权值反映在词语和特征短语上,而不是句子级了。

4 文本部分分析器

目前有许多分析器可以对非受限领域的文本进行句法分析,但是至今没有哪个分析器能够真正理解一篇文章,哪怕是一篇短的新闻。造成这种情况的部分原因是因为语言现象太复杂,语法分析器的语法模型不可能概括所有语法现象,但最根本的原因是出现在语义上和概念层次上。因为现在的计算机程序很难从文本中包含的大量信息获得真正的语义,程序缺少必要的概念知识和指代关系,这些问题是篇章理解的关键。但是,如果设计这样一个分析器,它专门去分析、挖掘某一类特定信息,而对其他主题或概念不进行处理,则可以避开这个矛盾,使问题得以简化。我们称这种分析器为部分分析器,因为它只对它感兴趣的部分进行细致全面的分析,不感兴趣的部分省去处理。因此,对面向某一任务(如文本分类,信息检索及自动文摘等)的自然语言理解系统采用这种分析器可以提高其处理的有效性和准确性。但部分分析器必须是精确的,即保证即使它的处理范围增大,它以前对特定文本部分的分析结果不会发生变化。

本系统中,文本分析器在全信息词典中词的各种规则的引导下,选择可能与文摘生成有关的句子或短语进行必要的语法、语义分析。其算法简述如下:

(1)从左至右扫描句子,找出可能的中心词。

(2)如果中心词仍存在概念联用规则,取新的概念联用规则, 转向步骤(3);不存在,转向步骤(7)。

(3)如果概念联用规则还有未处理格槽,取当前未处理的格槽, 转向步骤(4);不存在,转向步骤(6)。

(4)如果当前格存在未处理的映射规则, 取当前未处理的映射规则,转向步骤(6);否则,如果当前格是必须的,分析失败, 转向步骤(2);如果当前格是基本的,则调用语用分析模块返回后, 转向步骤(5)。

(5 )如果中间语法表示成分所指对象满足当前格的语义类限制规则,将该对象填充当前格的变元,转向步骤(3);否则, 转向步骤(4)。

(6)如果中心词存在效用规则, 在效用规则的引导下选择合适的词或短语填入文摘框架中的指定槽;否则,转向步骤(7)。

(7)句子分析结束。

算法中的语用分析模块是针对文本中存在代词回指和省略等问题设计的。系统制定了若干与领域有关的规则,解决了上述复杂的语言现象。如设计了许多上下文寄存器保存句子分析的中间状态,同时专门有一个话语实体表用来处理代词回指问题,由于概念联用规则对句子中可能出现的概念作了预期,使得回指解决问题大大简化,很多时候只要检查预期指代对象的语法语义范围是否能在话语实体表中的某个实体相匹配。如果成功,则将该实体代入。当然,这种方法并不是绝对正确的。

5 结论

利用上述文摘系统模型,我们设计并实现了计算机病毒领域的文摘系统。该系统已经用30篇计算机病毒类的文章进行了测试,均成功地提取出文摘。由这10个框架实体自动生成了一个计算机病毒知识库。现将其中一篇文章分析结果提供如下:

原文:Sunday病毒是攻击IBM PC及其兼容机的。有时,这种病毒叫“快乐的星期五”病毒。该病毒入侵系统之后驻留于系统的内存,监视系统的运行,并寻找系统中运行的COM文件及EXE文件以及系统的覆盖文件。受其传染的系统程序长度增加1636字节。该病毒是一种恶性病毒。它影响系统的运行,破坏系统执行的程序和系统的覆盖文件。

文摘:Sunday病毒是一种恶性病毒。本文叙述了该病毒的破坏性和传染性。该病毒驻留内存。它属于文件型病毒。

病毒文摘提取框架填充如下:

病毒名:Sunday病毒

病毒别名: 快乐的星期五

·病毒类型:文件型病毒

·病毒破坏意图 恶性

病毒驻留内存否:驻留

病毒程序长度: 1636字节

病毒传染: COM文件,EXE文件,OVL文件

病毒破坏性:被感染程序长度增加了1636字

节,影响运行效率,破坏运行

程序

病毒攻击对象: IBM PC机及其兼容机

·被病毒感染程序发生的变化:程序长度增加了1636字节

·病毒运行环境:DOS环境

补充说明:框架中槽名前圆点记号表示该槽填充的内容是由理解系统推断得出的。

标签:;  ;  ;  

基于全信息词典的自动文摘系统的研究与实现_语义分析论文
下载Doc文档

猜你喜欢