基于关联理论的信息检索相关性研究--信息生产与索引_信息检索论文

基于关联理论的信息检索相关性研究——信息生产、标引,本文主要内容关键词为:相关性论文,信息检索论文,理论论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G354 文献标识码:A 文章编号:1007-7634(2010)01-0007-06

1 引言

相关性是情报学基本问题的观点得到了国内外图书情报学领域主流学者的普遍认同。马费成教授和梁战平教授高屋建瓴地提出了情报学的相关性原理。马费成教授认为“研究和揭示情报相互关联(即相关性)的规律和规则,是有效组织和检索信息、知识、情报的基础”[1];梁战平教授提出“相关性原理应用非常普遍,如情报检索、引文分析、数据库知识发现、知识地图、数据挖掘、市场分析研究、专利图分析、证券分析等等”[2]。张新民[3]总结了相关性类型及其关系的研究成果,进一步证实了马费成教授的观点。屈鹏[4]等的研究提供了数据方面的支持,其在对国际情报学研究主题进行聚类分析的基础上,提出的研究结论认为“一级类目情报学研究下面……这些主题主要归属于检索和计量两个方面。其中检索主要包括文本检索会议、相关性与相关反馈、模型和用户行为等这些信息检索基础理论(相关性、评价、模型)方面的内容,它们应该是情报检索理论研究的核心部分,是情报学对于检索领域的主要贡献所在。”Saracevic[5-7]更是早在20世纪六、七十年代就提出相关性是情报学的基本问题的观点,其他众多的学者如Schamber[8]、Barry[9]等也持相同观点。目前,信息检索中的相关性研究在国外已经取得了丰硕的成果,比如对相关性本质的认识、相关性模型、相关性标准以及相关性行为研究等方面都取得了一系列成果。

信息检索相关性研究虽然成绩喜人,不过也与情报学研究面临着相似的尴尬,那就是缺乏广泛认同的理论基础。比如对情报学的基础理论的研究,有学者提出以“世界Ⅲ”理论作为情报学的基础理论,也有学者提出以马克思主义理论作为情报学的基础理论,百家争鸣的结果是到目前为止还没有被普遍认同的情报学基础理论。目前,相关性研究以实验研究为主,学者们大多采用了基于行为主义的一些研究方法,缺乏基础理论的支持。学界也在认真思考,完成这些研究的理论基础是什么,哪些理论可以成为相关性研究的理论基础。对于这些问题的回答,早在1975年,Saracevic[5]提出了以逻辑学以及哲学中Schutz的理论作为相关性理论基础的观点;1992年Harper[10]则提出了基于关联理论的相关性研究;2007年,Saracevic[6-7]结合了自己先前的研究以及Harter的观点提出了从逻辑学、哲学以及传播学中找寻相关性研究理论基础的思路,提出关联理论作为信息检索理论基础的设想。

2 关联理论的基本观点

关联理论(Relevance Theory,语言学界已约定俗成地将其译为关联理论,为了与语言学界保持一致,本文没有将其译为相关性理论)由Sperber与Wilson[11]在《关联性:交际与认知》(Relevance:communication and cognition)一书中提出。该理论从语言哲学、认知心理学、交流学等多学科的视角对语言交际加以解释,把交际与认知进行了有机结合。下面通过对图1的阐释说明关联理论的基本观点。

图1 语言交流模型

人际间的语言交流包括信息处理——信息编码——信息传输——信息解码——信息处理等几个基本模块,不同领域的学者都在探讨其背后所蕴含的基本原理。

结构主义和符号学家提出了语码模型(code model),该模型的基本观点认为交际是交际者(communicator)与交际对象(audience)之间的编码与解码过程,没有涉及二者之间复杂的信息处理。语码模型对于无需推理的言语交际行为可以做出比较满意的阐释,但是不能解释间接言语行为以及会话含义等交流问题。从图1可以看出,没有中心思想处理的交际缺陷是显然的。

哲学家Grice另辟蹊径提出了交际的推理模型(inferential model),认为对话语的理解主要是一种逻辑推理活动,忽略了图1中的编码解码过程。

法国学者Dan Sperber和英国学者Deirdre Wilson(以下简称S/W)在Grice推理模型的基础上提出了关联理论(Relevance Theory,RT),RT认为语码模型与推理模型是相容的,将二者结合起来进行研究有利于揭示交际的一般规律。RT认为交际涉及两个过程,其一是编码与解码,另一则是明示-推理(ostensive- inferential),前者隶属于后者,前者提供的语义特征成为推理过程的源泉与证据,从而使得关联理论贯穿于语言交流模型的整个过程。关联理论的核心是关联原则,具体而言,关联原则包括认知原则与交际原则,其中认知原则是指人类的认知倾向于同最大限度的相关性相吻合;交际原则是指每一话语(或推理交际的其他行为)都应设想为话语或行为本身具备最佳的相关性。关联理论自1986年提出之后,S/W又先后于1995以及2004年对理论进行了完善。目前,该理论已经被广泛应用于翻译、歧义消除、指称确定、语言教学等领域。

3 关联理论适用于相关性研究

首先,“语言学是研究语言的科学。语言学的对象是人类的语言。语言学的任务是研究语言的功能、结构及其历史发展,揭示语言的本质以及语言的存在和发展规律”[12]。从语言学的学科性质、对象以及任务等视角可以得出结论,语言学的理论可以适用于涉及语言的地方。对于信息检索而言,除了信息科学的相关技术之外,信息检索语言是信息检索的核心与基础,因此普通的语言学理论应用于具有专用特征的信息检索语言,理论上是可行的。

其次,S/W也给出了明确的答案。在回答关联理论是否适用于所有形式的交流问题时,S/W做出了否定的回答,他们认为关联理论仅适用于明示交流,而不是简单的编码交流,比如两个电报公司雇员之间只需要保证电报内容的编码解码正确即可的交流形式,这种交流方式因无需更多地推理从而不属于关联理论的适用领域[11]。S/W认为关联理论适用于特定的信源与信宿之间的交流,比如两个个体之间的交流,也适用于无明确信宿的情况,比如信息生产者与信息用户之间以及广播通信中的信宿等。信息检索可以被抽象为信息生产者借助于信息检索系统的中介与潜在信息用户之间的交流活动,因此从S/W的回答可以得出基本的结论:关联理论适用于信息检索,属于无明确信宿的信息交流情形。

既然,信息检索属于无明确信宿的信息交流情形,那么根据关联理论,可以认为信息检索实际上是一种涉及信息意图(informative intention)和交际意图(communicative intention)的明示-推理过程;不过,也应该注意到信息检索和S/W主要讨论的言语交际既有区别又有联系。明示与推理是信息检索过程中的两个方面:从信息生产者和检索系统的组织者的角度来说,信息的生产与组织是一种明示行为,即把信息意图明白地展现出来;而从信息用户的角度来说,检索又是一个推理过程,推理就是根据信息生产者与检索系统组织者的明示行为(比如文档/文档替代物),结合语境假设,获得语境效果,从而获知信息生产者的交际意图。信息用户推理的基础是信息生产者的编码,信息生产者明示的目的在于信息用户付出最小努力,获取最佳语境效果。明示/推理交际能否获得成功有赖于信息生产者和信息用户认知语境的互明。

二者的共性体现在:交际者都期望向交际对象传达信息意图与交际意图,为了取得交际的成功,交际者首先需要判断哪些对理解起主要作用的语境假设是交际对象的认知环境中已存在的,然后需要保证其所有明示行为都有助于取得语境效果,有助于减少理解过程中交际对象的认知努力。交际对象寻找明示刺激的相关性,都是以获知对方的信息意图和交际意图为目标。

信息检索和言语交际也存在一定的差异,这些差异正是信息检索比言语交际困难之处。根据常识,大部分言语交际都是面对面或者通过电话等方式进行的,交际者可以对交际对象的认知语境做出基本的估计,所以交际者可以比较容易地预测出明示刺激对于交际对象认知语境的可及性。当交际者发现交际对象理解有困难或者产生了误解,交际者可以及时调整语言的组织、提高明示刺激与交际对象认知语境的相关性,从而帮助交际对象正确把握其信息意图和交际意图。对于信息检索而言,信息生产者与潜在信息用户之间面对面直接交流的机会是非常难得的,所以信息生产者很难预测哪些明示刺激有助于潜在信息用户的理解,因此当潜在信息用户对明示刺激难以理解或理解错误时,信息生产者也无法及时有效地协助潜在信息用户理解自己的信息意图与交流意图。由于信息生产者一般也都以关联原则为导向,所以只要潜在信息用户愿意付出更多的认知努力,就一定能获得丰富的语境效果[13]。

在信息检索界,面向用户与面向系统的相关性研究贯穿了信息检索交互模型[14](见图2)的整个过程,本文基于关联理论阐释图2中的信息生产以及标引两个主要步骤。

图2 信息检索交互模型

4 信息生产

信息检索是明示-推理交际的一种具体形式。在信息检索中,交际者就是信息生产者,信息生产者生产信息的过程就是明示的过程,信息生产的成果——论文、著作以及报告等文档就是信息生产者明示的形式。信息生产者明示的目的是向潜在信息用户传递其信息意图与交际意图,在实现该交际意图的过程中,必然离不开潜移默化地遵从关联理论的明示交际观、认知原则、交际原则。

信息生产的过程是通过信息生产者编码将信息输入到论文、著作以及报告等文档中的过程。为了使信息检索获得成功,信息生产者往往使用各种明示手段,力求向信息用户展示自己的信息意图与交际意图,以求得信息用户对论著中的信息进行正确的推理。根据关联理论的认知原则——人类的认知倾向于同最大限度的相关性相吻合,据此,信息生产者在著述过程中依据对自己表达能力的认知,以其认为最合适的方式表达出认为能够与其信息意图与交际意图最大相关性的文档。

根据关联理论的交际原则——每一个话语(或推理交际的其他行为)都应该设想为话语或行为本身具备最佳的相关性,信息用户将注意力和需要加工处理的信息都放在那些看上去有相关性的信息上面,信息用户期待文档/文档替代物具备最佳的相关性。当文献/替代物具备足够的相关性而值得信息用户进行加工处理,特别是当文献/替代物具有最大相关性时,该文档/文档替代物就是最佳相关性文档。所以,S/W认为文献/替代物具有最佳相关性需要满足两个条件:首先它要具备足够的相关性,值得对其进行加工处理;其次,它与信息用户的能力及偏好相一致。

目前,随着信息量的指数级增长,信息用户越来越依赖于各种类型的检索系统。现有商用检索系统的核心技术是采用以向量空间模型为主的文档表示技术、倒排文档技术等,采用以字符串匹配结合tf*idf为主的检索以及相关性排序技术。信息用户在进行相关性判断时,通常是对文献的替代物进行推理与判断。为了避免信息生产者辛勤劳动的成果被淹没在海量的文档/文档替代物中,现有检索技术与认知原则以及关联原则带给信息生产者的启示是:由于信息检索系统提供的文献替代物主要包括题名、信息生产者、关键词以及文摘等信息点,每一个信息点都是一条向信息用户发出的信息明示,因而信息生产者尤其有必要在文档的这些信息点上多花一些精力。比如,信息生产者需要通过标题(title)、每段的中心句、篇章的开头和结尾等位置进行最大限度的明示,以期信息用户作出对该文中心大意的最相关的推理。具体来说,信息生产者在对这些主要的信息点进行明示时,首先必须做到尽可能向信息用户提供足够的新信息、新观念,做到新颖独特,从而尽可能引起信息用户的好奇心,吸引信息用户的注意力。其次,必须明白地传递相关的信息,能说服信息用户接受文档中的内容,尽可能给信息用户带来切实的利益,并根据信息用户的需要采取某种行动。第三,尽可能避免使用陈词滥调或晦涩难懂的词汇、术语等。下面借助于关联理论的认知原则、交际原则分析以下两个文档替代物。

文档替代物1:“张亚非.关联理论述评.外语教学与研究,1992,03

[关键词]关联理论(RT);语用学;交际意图;

[摘要]关联理论从认知学的角度阐述并修正了Crice的会话理论,提出语言交际是一个认知过程,是必须依靠推理思维来进行的新的语用学观念,并建立了颇具解释力的关联原则,希望依靠这一原则说明自然话语理解中的诸种语用现象。这对克服以往语用理论的笼统性和任意性,使之逐渐成为一门严谨系统的语言科学,无疑是一种有益的尝试。关联理论现存的主要问题是,它趋于肯定语用推理结论的必然性,对其或然性认识和论述不足;并且采取了将主体思维在话语交际中的作用理想化、形式化和运算化的作法,忽视了主体间的差异的复杂多变性及其对语言交际可能产生的重要影响。

文档替代物2:“刘国辉.关联理论的回顾与思考.四川师范学院学报(哲学社会科学版),1999,02

[关键词]关联理论;认知语境;推理;语境效果;最佳关联;

文摘:通过对关联理论的回顾,使我们更加明白了其优点与不足。同时我们认为话语的理解除了认知因素之外,还需考虑社会、文化价值观以及非言语行为等综合因素的作用。

首先看题名,共同具有“关联理论”一词,“述评”和“回顾与思考”都属于综述类文档体裁。因此,就题名而言,二者没有显著差异,两位信息生产者都基于认知原则,选取了与信息意图以及交际意图具有最大相关性的文字。

其次分析关键词项,文档替代物1的明示除了“关联理论”之外,“语用学”是一个含义非常丰富的词,结合目前的检索实践,用这种词进行检索,会获得非常大的命中记录数,从而给信息用户带来非常大的认知负担,因而明示意义有限。“交际意图”属于关联理论中非常重要的概念,有比较明显的区分度,有比较好的明示价值。文档替代物2中的关键词都属于关联理论的基本概念,有比较明显的区分度,从而有比较好的明示价值。因此,就关键词的比较而言,文档替代物2要优于文档替代物1。

第三,文摘:文档替代物1的字数259字,接近国际标准[15]报道性文摘的字数,而文档替代物2只有77字,与国家标准指示性文摘的字数都有显著的距离。谢成英[16]的研究表明,研究报告类学术论文的最佳形式是报道性文摘。因此从文摘项的比较来看,文档替代物1要优于文档替代物2,也就是说,文档替代物1在这一信息点上的明示效果要优于文档替代物2。

第四,来源:文档替代物1的来源期刊是“外语教学与研究”,这是语言学的一流期刊。文档替代物2:“四川师范学院学报(哲学社会科学版)”,是一本普通期刊。学科的一流期刊的明示效果显然优于普通期刊。

综合以上四点,得出结论:文档替代物1的明示效果要优于文档替代物2。

除了这些主要的信息点之外,信息生产者在文档内容的明示方面,需要视情况着力引导信息用户去理解寓于文章中的意图。一方面,信息生产者要防止信息用户误解,曲解其意,因此,需要增加信息用户正确理解的可能性;另一方面,信息生产者需要防止信息用户不能理解其信息意图与交际意图,因此,需要减轻信息用户理解其意图的难度。通常,信息生产者有两种选择:使用平白直接的语言表达明晰的内容,或者使用一些语言手断给予信息用户各种必要的提示。作为一种需要,信息生产者可以考虑使用一些语言手段来帮助信息用户领会其明晰表达的意思,抽取其隐含传达的内容。比如话语联系语作为其中的一个主要手段,能够使信息生产者给信息用户提供自己的明示思路,信息用户则可顺着该思路以较小的认知努力来预测其后的内容。

关联理论认为交际双方认知环境的“互明”对交际成功非常重要。不过,要求交际双方完全拥有同样的认知语境是不可能的。每个人拥有的认知环境都不一样,这就要求交际双方的认知环境能够互为显映。当双方的认知环境能够显映相同的事实或假设时,在他们之间就会产生认知环境的重叠。重叠的部分构成一个共同的认知环境,即相互认知环境。

那么如何才能形成信息生产者与潜在信息用户互相显映的认知环境呢,这就要求,在信息生产过程中,信息生产者为了表达自己的交际意图,总是尽量使自己的文档信息(新信息)与信息用户的认知环境(旧信息)发生某种联系,以便信息用户能够将这些信息纳入演绎推理过程。此时,为了避免信息生产者的认知语境和信息用户的认知语境之间的巨大差异,导致明示-推理交际的失败,有必要将信息生产者和信息用户的认知环境进行沟通。不过前面说过二者面对面交流的可能性不大,因此,信息生产者如果尽可能地提供某主题的背景性信息则有利于二者之间形成共同的认知语境,这就对科学出版提出了比较高的要求。以期刊为例,中外文献在篇幅方面的显著差异就会带来必要的认知语境信息的差异。大家都知道,国内期刊论文通常都比较短,通常3-4页的篇幅,其基本理念是基于信息生产者只需要将自己的创新性的内容表达出来即可,而国外学术论文通常所占篇幅较大的相关主题综述在国内期刊论文中比较少见,缺乏背景性内容的阐述。而外文文献篇幅通常在10页以上,在信息生产者个人的研究成果的前面,通常有篇幅比较大的该研究的综述,这样的组织方式,对于信息用户而言。其明示的价值显然会更大一些。总之,是否有助于信息用户从中获得最佳相关,是文献能否被信息用户接受的重要因素[17]。

5 标引

标引可以分为两类,即人工标引与自动标引。自动标引的主要技术是词频统计结合加权,然后根据设置好的阈值将符合条件的术语作为关键词输出,除此之外,现在也有部分人工智能的技术在自动标引中的应用,但是大都还在实验室中,能在商用系统中直接使用的还非常罕见。自动标引的优点是无需人工干预,速度快,但问题是结果比较粗糙,阈值无论如何设置都存在缺陷,实际使用的自动标引系统很少。下面仅讨论人工标引与关联理论的关系。

(1)人工标引可看作双重的明示-推理过程[18]。如果将翻译中的译者映射为标引人员,读者映射为信息用户,那么,根据关联理论的交际观,人工标引可被看作是信息生产者、标引人员、信息用户的双重明示-推理过程。

在第一个明示-推理过程中,信息生产者向标引人员明示其交际意图,而标引人员则根据原文的语境信息、信息生产者提供的话语及关联原则对信息生产者的交际意图进行推理。在这个过程中,标引人员是交际对象。该轮交际完成之后,标引人员进入第二轮明示-推理交际过程,其身份又转变为交际者,此时,基于其对信息生产者交际意图的理解和把握以及对信息用户期待的估计,通过标引词的形式向信息用户进行明示,而信息用户则对标引人员的明示信息进行理解。因而,人工标引涉及两个交际者和两个交际对象,其中标引人员兼有交际者和交际对象的双重身份。在该模式下,人工标引活动是一种三元关系,即是信息生产者、标引人员和信息用户这三个交际者通过原文和标引词之间进行的交流活动。标引人员的主要任务是保证和促进信息生产者和信息用户之间交际的成功。为此,标引人员可采用多种人工标引策略,以帮助信息用户找到标引词与原文之间的最佳相关性,达到最佳交际效果。

(2)人工标引是传递信息意图和交际意图的双重目的活动。从关联理论的角度来看,人工标引不仅要标引出信息意图,更深层次应该标引出交际意图,当二者不可求全时,则取交际意图。

下面分析启示1和2在标引实践中的应用,比如周健湘[19]提出的标引规则中,

“熟悉文献:要求从篇名、文摘、小标题、开头、结尾等部分去熟悉文献内容和中心思想。如果达不到要求,要通读全文。”

该标引规则就体现了第一个明示-推理过程,也就是说标引人员要充分从信息生产者的明示中推理出信息生产者的信息意图与交际意图。

“分析文献的中心思想,确定标引主题:要求从文献系统所包含的专业范围出发,分析出应当传达给检索者的主要信息,并从检索者的角度分析出应当标引的主题。例如对于一个交通专业的文献系统来说,如果有一篇谈石油应用的文献,既谈到石油在一般工业中的应用,又谈到石油在道路工程方面的应用,则提炼主题时,就只要析出“石油在道路工程方面的应用”这一主题进行标引即可。”,“每当标完一个关键词的时候,标引者都应问一问自己检索者会不会从这个主题途径去检索呢?这是获得正确标引结果的秘诀。如果标引者不考虑标引结果有没有实际检索意义,就很难消除标引误差。”

这些规则体现了第二个明示-推理过程,也就是说标引人员要充分理解潜在信息用户的认知语境与信息需求,从信息用户的角度进行标引,从而选择合适的标引词。

“分析提炼标引主题时,应特别注意不要遗漏隐性主题。比如“99%Ni钢”不但包含着“镍钢”这一显性主题,还包含着“高合金钢”这一隐性主题,从专业角度来讲,更包含着“低温钢”这一隐性主题。”

该规则体现了信息意图与交际意图的关系,要求标引人员充分地从文档所蕴含的内容中分析出信息生产者没有明示的内容,从而推理出信息生产者隐含的交际意图。

(3)相关性是人工标引评判的指导原则之一。若把人工标引看成是交际行为,用衡量交际成功的标准来考察人工标引,也是可行的。关联理论的人工标引评判标准,便是要确定标引人员是否做到了互明,是否体现了最佳相关性。其实质是标引人员在原文中寻找最佳相关性,再在标引词汇中保持这种最佳相关性,即最佳相关性的传递。

下面基于上面三个基本原则分析一下Medline数据库中的一条记录:

McDonald K.Diastolic heart failure in the elderly:underlying mechanisms and clinical relevance.International Journal Of Cardiology,2008,125(2):197-202.

标引的MeSH词:Heart Failure,Diastolic/*complications; Heart Failure,Diastolic/*therapy; Aged; Aged,80 and over; Diabetes Mellitus/ diagnosis; Diabetes Mellitus/therapy; Heart Failure,Diastolic/diagnosis;Humans; Hypertension/complications; Hypertension/diagnosis; Hypertension/therapy。

由于Medline是采用MeSH词表作为标引的依据,从文献题名中,直接可以分析出的信息意图包括MeSH叙词Diastolic Heart Failure,Aged。通过论文的理解,发现文中主要阐述的是80岁以上老人的DHF问题,这样可以标引出更专指的叙词Aged,80and over,从论文中论述了DHF的并发症、诊断以及治疗等问题,引发DHF的高血压的诊断、治疗以及并发症等问题,标引人员还分析出了导致DHF的糖尿病的诊断、治疗等相关的MeSH叙词与副主题词。考虑到论文阐述的对象是人类,从而又发掘出了隐含的叙词Humans。通过这些叙词与副主题词的标引,充分地揭示了信息生产者的信息意图与交际意图,实现了标引词与原文的最佳相关性。同时标引人员也充分地考虑到了其与信息用户的交际,充分发掘出了隐含在文中的Humans以及Diabetes Mellitus等有利于激活信息用户认知语境的明示刺激。可以认为这是关联理论能够充分解释的一次标引实践。

6 结语

信息检索相关性研究作为图书情报学的核心内容之一,到目前为止还没有令人信服的理论基础,本文在Saracevic以及Harter研究的基础上,尝试将语言学中的关联理论作为相关性研究的理论基础。本文的主要工作是利用关联理论做了一些诠释的工作,具体阐释了信息检索交互模型中的信息生产以及信息标引两项工作,限于篇幅,模型中的其他模块将在后继的论文中完成。本文的不足之处在于,主要工作只是利用关联理论对现有的工作进行了诠释,基于关联理论制定出适合于信息生产与标引的工作规范等进一步的工作还有待完成。

收稿日期:2009-12-04

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于关联理论的信息检索相关性研究--信息生产与索引_信息检索论文
下载Doc文档

猜你喜欢