近十年来我国信息检索研究综述_信息检索论文

十年来我国信息检索研究述评,本文主要内容关键词为:述评论文,十年来论文,信息检索论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号] G354

信息检索是指信息用户为处理解决各种问题而查找、识别、获取相关的事实,数据、知识的活动及过程。作为人类社会活动不可分割的一部分,信息检索有着悠久的历史。但作为一门独立的学科,其发展历史并不算长,只有半个世纪的历史。然而,随着计算机技术和网络通信技术的迅速普及,近年来,信息检索在我国有了突飞猛进的发展。

为了解近十年来我国信息检索领域的研究成果及发展趋势,比较准确地呈现我国信息检索的研究现状,本文以信息检索和情报检索为检索词,对维普中国科技期刊数据库中1994—2003年发表的论文进行了检索,共得到相关论文1028篇。由于检出文献数量巨大,为便于分析,笔者筛选了图书情报工作、大学图书馆学报,情报杂志等17种图书情报类核心期刊(依据《中文核心期刊目录总览》2000版),得到抽样论文 328篇。下面就以这些论文为依据,对近十年来我国信息检索的研究方向及研究内容进行总体上的概括和分析。

1 信息检索研究环境分析

由于90年代初期互联网技术在我国逐渐的普及与深入,很多学科研究环境与研究重心都相应地受到了影响。为了考证我国信息检索研究受互联网技术的影响情况,笔者将检出的这些抽样论文按照是否以网络为信息检索研究环境进行了划分,统计了1994—2003年这17种核心期刊每年发表的以网络环境下的信息检索为研究重心的论文占当年发表论文总数的比率,结果见图1。

由图1可以看出,我国信息检索的研究环境的转变与互联网技术在我国的发展脉络是相一致的。1994年互联网正式引入我国后,使得信息检索的研究对象和范围不断的扩大,信息检索的研究也从传统的联机情报检索向网络化方向演进,研究规模也从个别的、浅层次的研究逐渐往纵深化、学科化的方向发展。相应的,十年来信息检索界对于网络环境下的信息检索的关注程度也突显出逐步增长的态势。可以这样说,信息检索的环境的网络化研究无疑是这近十年来我国信息检索研究的一个总趋势。

图1 1994-2003年信息检索研究论文中基于网络环境的信息检索论文所占比率

之后,笔者将这328篇论文按信息检索理论、信息检索策略、网络信息检索技术与工具、信息检索系统、检索策略与方法、智能信息检索、多媒体信息检索七个部类进行了划分和统计,反映在表1中,力求从内容上使读者对近十年来我国信息检索的主要研究领域有个初步的概括的认识。

表1 1994-2003年信息检索论文研究内容分布情况

2 关于信息检索理论的研究

2.1 信息检索语言

检索语言是信息检索系统中信息存储与检索用语,是用户与检索系统藉以交流、互动的媒介,它在很大程度上影响着检索系统的效率。一种检索语言的优劣,主要依据其检索效率来衡量。总的来看,检索语言经历了以受控语言(分类法、主题法)为主、受控语言和自然语言结合以及以自然语言为主三个阶段。

研究者普遍认为,在传统的情报检索时代,受控语言确实发挥了方便快捷的作用,比如,能简单、明白又比较专指地表达文献以及检索课题的主题概念;容易对概念进行系统排列,在检索时便于将标引用语与检索用语进行相符性比较;语词与概念一一对应,能控制同义词、多义词和其它词义上相关的词,排除了多词一义和一词多义以及词意含糊的现象;能显示概念之间的等级关系等多种相互关系,等等。但在它的使用过程中却也带来了一些问题,比如,标引工作烦琐,速度慢,成本高,更新难度大;事物概念表达有一定的局限性,使得文献主题概念转换成人工语言时造成某些专指度降低,从而影响查准率;用户掌握的难度较大;自然语言转换成人工语言时有失真的可能。鉴于此,一些致力于情报检索研究的工作者将目光投向了能较好解决上述问题的自然语言检索的研究。

目前,信息检索界对于自然语言检索的研究十分活跃。受控语言的自然化已成为信息检索语言发展的一个必然趋势,文献[1]甚至指出,“人工语言(受控语言)将成为明日黄花”。但是,绝大多数研究者认为,不管信息检索怎么发展,“自然语言也不可能全面取代情报检索语言,淘汰情报检索语言[2]”。焦玉英与李法运在文献[3]中指出,受控语言与自然语言之间的优缺点是互逆的,自然语言和受控语言的融合或一体化才是检索语言未来发展的必然趋势。著名的情报语言学家张琪玉教授更是认为,“情报检索用语言发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。所以,情报检索语言的未来与自然语言的未来在某种意义上可以说是同一个问题”[2]。

从研究中我们可以推断,情报检索语言仍将是21世纪信息检索研究的主流,继续探讨检索语言与自然语言的结合,发展多样化、一体化、兼容化、易用化的检索语言模式,将是新世纪检索语言发展的趋势。

2.2 信息检索模型

信息检索发展到今天,已经提出了多种情报检索数学模型,其中被广泛认可的有布尔检索模型、概率检索模型、向量检索模型、相似性检索模型和模糊检索模型等。这些模型作为信息检索的基础,始终是信息检索基础理论的重要组成部分。

对于这些模型的研究,目前主要集中于对它们的评价、完善和修正上。如文献[4]就指出了Salton扩展布尔检索模型存在的错误,并对其中正确部分给出了一个严格证明。文献[5]则引入条件概率来建立多约束条件下的检索组合模型。

另外,新的检索模型的引入与创新也是近些年来信息检索模型研究的一个方向所在。文献[6]提出了一种基于可能世界理论的信息检索模型,将信息检索操作看作是由另一个可能世界中的真值来定义的逻辑蕴含,并使相关的不确定性得到了量化。文献[7]则在对情报检索的过程研究的基础上得出了情报检索主体在检索过程中的认知模型,这有助于提高检索主体在检索过程中的自觉性和创造性,使检索思维和行动更加明确有效,是对检索理论的进一步完善。

研究者还尝试将具有很强的演绎推理能力的逻辑理论引入信息检索模型的研究,构建信息检索的逻辑模型[8-10],即基于模态逻辑的信息检索模型、基于映象的信息检索模型、基于近似理论的信息检索模型等。它使得情报检索模型具有推理的能力,有助于模型属性的推理。除此之外,基于机器学习的知识检索模型研究[11]、分布式信息检索模型[12]以及语义检索模型[13]也预示了信息检索模型研究的新方向。

3 关于信息检索策略和方法的研究

检索策略是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导[14]。它实际上是一些检索技巧的集成,因此检索策略的好环将直接影响到检索结果的优劣。

按照研究者对检索策略的讨论内容和对检索策略制定的研究,主要可以分为检索式的构造以及检索工具的选择和使用两个方面。

检索式的构造需要深入分析检索课题,在明确用户检索要求的基础上,根据相应的研究课题和要求选择检索词。近年来运用最多的检索式是布尔逻辑检索式。但是使用or、and、not布尔逻辑算符组配和编制的检索式也存在着一些弊端。为此,关于改进布尔逻辑检索的研究相继提出,如法定数检索法、概率检索法、扩展布尔检索法等。但就目前来看,尚没有一种检索式能代替布尔检索已有的地位。

相对来说,检索工具尤其是网络环境下搜索引擎的选择和使用策略是检索策略研究的一个重点。一些研究者甚至采用试验分析的方法在实验数据的基础上对网络环境下用户的信息检索策略及效果进行了实证分析[15],分别对网络信息检索中的方向性、细节性、具体性及可能性问题的检索策略进行了总结和归纳。文献[16]则介绍了一种新的检索策略:结构检索策略,该策略是在1994年对学生和图书馆馆员的深入会谈和观察后发展而来的,1997年为英特网用户所接受。策略由任务、资源、检索词、方法和评价5个基本阶段以及确定任务、定位资源、选择检索词、选择方法、实行检索、评价结果以及再次检索7个方针构成。文献[17]提出了一种支持设计人员从分布式知识资源中快速、准确检索,设计知识的一种快速、高效的两级知识检索策略,从而使设计开发人员在分布式知识资源环境下的知识检索效率大大提高。

在分析过程中我们还发现,除了通用型信息检索策略以外,特定系统、特定信息以及特定课题的检索策略也是研究的一大重点。具体表现为某一系统、某一数据库检索策略以及某一类型课题检索策略。例如,因特网上金融证券信息检索策略与技巧[18], SCI—Expanded数据库的检索策略[19],海外药物与医学文献的检索途径与策略[20],网上数学评论数据库的检索策略[21],等等。

总的来说,我国信息检索策略研究已经取得了一定的进展,除了从用户角度进行传统检索理论中检索策略的教育,提高用户信息检索能力之外,现代信息技术在检索策略制定中的应用研究也正在不断深入,例如,近年来出现的各种应用智能技术、信息挖掘技术、智能代理技术的搜索引擎,信息分类与聚类,信息的可视化等都在不同程度上丰富了检索策略的内涵,提高了信息检索的效率[22]。

4 关于网络信息检索技术与工具的研究

4.1 网络搜索引擎

网络搜索引擎是目前网络信息资源的最主要的一种检索工具,因此,对于网络信息检索工具的研究主要也集中在对网络搜索引擎的研究上。

在因特网刚刚诞生的时候,还没有搜索引擎(Search Engine)的概念。随着因特网上的信息呈几何级数迅速增长,最初的搜索引擎开始出现。第一代真正基于WWW的搜索引擎是诞生于1994年的 Lycos。到1995年,商业化的搜索引擎开始大规模开发,目前,搜索引擎已成为网络信息检索首选的工具之一。

由于最初出现的搜索引擎主要是独立搜索引擎,它只能在自己搜集的信息或数据库中查找用户的资料和信息,如Altavista,Yahoo!等搜索引擎就属于这一类。由于其检索范围狭窄,无法利用别的工具搜索信息。

元搜索引擎作为一种基于搜索引擎的搜索引擎,可以较好的解决这一问题。它通过一个统一用户界面,接收并处理用户的查询提问,在进行实际的查询时调用一个或者多个独立搜索引擎的数据库,搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合的综合。由于能实现对分布于网络的多种检索工具的全局控制,能较好地将信息资源加以整合,因此对于元搜索引擎的研究是近年采搜索引擎研究的一个主要方向。

除此之外,还有较多的工作集中在以下几个方面:对搜索引擎发展现状、原理及特点的介绍;对已有网络搜索引擎技术的分析、效果的评价;基于概念的智能化、个性化、多媒体搜索引擎的设计等等。例如,韩圣龙,赖茂生二人就以H.Vernon Leighton和 Jaideep Srvastava提出的“前X命中记录查准率”为主要评价指标,对几种典型的中、英文搜索引擎做了评价[23]。文献[24]则对搜索引擎中索引词的自动提取和检索模型所使用的主要技术进行了论述。

4.2 Web数据挖掘技术

将数据挖掘技术引入到网络资源的开发中来,能加快智能检索的发展。数据挖掘的结果是实现智能检索的基础,智能检索的结果可为数据挖掘提供指南和线索。

目前国内已有较多的研究者致力于数据挖掘技术在信息检索领域的应用研究。例如,文献[25]中就对文本挖掘技术在数字图书馆信息检索系统中的应用进行了简单介绍。文献[26]则从信息检索角度对Web链接结构挖掘进行了探讨,并提出了一种基于样本模式特征提取的信息检索方法,分析了Web链接挖掘面临的问题和未来研究的发展趋势。文献[27]则探讨了个性化检索系统中数据挖掘的作用与内容,并对目前个性化检索系统中对各种用户信息进行挖掘的最新研究成果、方法与进展等进行了介绍。

4.3 信息推送技术

信息推送技术(Push)是在网络信息资源急剧膨胀的情况下诞生的,它不同于传统的Internet信息浏览方式——用户发出请求到Web,然后Web将信息送回用户端,或者说用户需要拉取(Pull)信息,Push技术只需要用户在初次使用时设定所需的信息,此后,定制好的信息将通过Web自动发送给用户,即信息被推送到用户面前。

Pull技术的出现使网络信息流不再是单一的“拉”,还包括反方向的“推”。在网上资源急剧膨胀的今天,Push技术为Internet带来了重大的变革,改变了传统的信息获取方式,使用户避免了繁琐的查找与等待。网络效率得到成倍提高。

目前,国外已研制出大量的采用该技术开发的检索软件,并已经得到了广泛的应用,我国这方面的研究尽管不是很成熟,但也有不少研究者着力于这方面的研究工作。例如,文献[28]就对文献信息检索中推送技术的原理及内容进行了介绍与阐述,文献[29]则采用基于Push技术开发的Internet中文信息传播平台天唐2000,构建了一个完整的Internet信息检索系统。

5 关于信息检索系统的研究

5.1 光盘信息检索系统

光盘检索与联机检索、网络检索互相补充,共同构成了信息资源检索的统一体。我国对于光盘检索系统的研究主要集中在对大型光盘数据库系统的介绍、比较和评价方面。如对Medline光盘检索系统、INS-PEC光盘检索系统的研究,等等。

随着计算机网络通讯技术的发展,光盘数据库检索与网络信息检索系统也呈现出逐渐融合的趋势,可以这样说,光盘网络信息系统将是未来的发展趋势。光盘网络系统由于投资少、见效快,通常是首选的网络建设设施之一,并成为提供网络服务的主要信息源。这方面的研究有,如文献[30]通过对于当前光盘网络信息检索系统建设所采用的软件技术的比较和分析,指出光盘网络系统建设的发展方向——以大容量硬盘为主,以光盘塔、库为辅,提供跨网段、跨广域网多模式检索功能、光盘利用情况统计分析与计费功能,并能兼容各类型光盘出版物等等。

5.2 联机检索系统及网络检索系统

联机检索系统,由于具有检索效率高、速度快、质量好高的特点,一直是一种重要的检索系统形式。因此,对于联机检索系统的研究也一直是研究的一个重点。从论文研究内容来看,研究主要集中在对现有大型联机检索系统的介绍、比较和使用策略研究上。如文献[31]就对OCLC New FirstSearch联机检索系统及其利用情况进行了介绍,文献[32]则对国际联机检索系统Dialog和STN的数据库进行了比较分析,等等。

对于网络检索系统的研究主要以全文检索以及多媒体、智能化、个性化检索系统的实现和开发为主。目前我国对于全文检索系统的研究又主要集中在超文本全文检索系统研究、汉字全文检索系统的索引机制研究、全文后控索引系统研究几个方面。如文献[33]就针对当前在所有的超文本系统上基于提问的检索尚未实现这个问题,提出了一个基于超文本Dexter参考模型。文献[34]则分析了传统全文检索系统中静态索引技术的实现,讨论了静态索引技术的优缺点,并提出一种动态索引技术,然后,在两个数据库开发平台上给出了动态索引技术的实现。总的来说,未来的网络检索系统将是以实现知识检索、融合多媒体检索技术和超文本检索技术为一体的新型智能化、个性化、可视化、简单化全文检索系统为发展方向。所以,我们只有在这种理想的驱使下进行逐渐深入细致的探讨,网络信息检索才能日益走向成熟。

6 智能信息检索

随着社会信息化程度的不断提高,我们周围的信息量也在不断激增。传统的情报检索这一概念及检索手段已不能满足人们对信息专指深度及多层次的要求,所以人们把目光投向智能化,即情报的智能检索。所谓智能信息检索即把现代人工智能的技术与方法引入情报检索系统,从而使后者具有一定程度的智能特征,在更高的层次上完成其功能,这样的系统就是新一代的信息检索系统——智能信息检索系统。

6.1 智能代理技术

代理(Agent)是人工智能领域内研究的课题,然而,随着Internet技术的迅猛发展,智能代理已成为计算机科学及情报科学交叉领域研究的热点。在第十五届国际人工智能联合大会上,智能信息检索技术更是成为大会研究的主题。

智能检索代理作为网络信息的供应者和需求者之间的中介,它不但可以根据用户的需求或意愿,代替用户寻找所需信息,或主动推荐用户所需的信息,起到智能导航的作用,还能综合运用知识检索、智能搜索、机器学习和知识集成等方法,向用户提供高质量的信息与知识,从而达到真正意义上的知识检索。此外,它可以自动获取用户知识,为每个用户建立用户模型档案和目录,为实现个性化信息检索提供了保证[35]。

目前我国对于智能信息检索的研究也已逐渐向智能代理系统的设计与实现方向转移。文献[36]就提出了以用户兴趣为中心的启发式搜索模式:递归搜索模式和用户兴趣漫游模式,并对多检索代理之间的协调策略:客户机——服务器方式、会合方式、黑板方式和反应式数组方式进行了论述。文献[37]针对现有搜索引擎普遍存在搜索的精度差、覆盖面有限、响应速度较慢、检索方式少、用户界面不够友善的问题,更是设计和实现了一个基于代理的面向Internet的信息检索系统(AIRS)。文献[38]针对WWW信息资源的异质分布式特点,在融入分布式人工智能思想的基础上,也提出一种分布式的智能检索代理系统的体系结构。

智能代理技术的发展,将为网络信息的智能检索提供有效的技术支持,特别是近来MA(移动代理)及MAS(多代理系统)技术的出现,将为信息检索提供更准确和及时的服务,为实现分布式信息资源的智能化管理开拓新的途径。

6.2 信息检索可视化

信息检索可视化是数据可视化技术在信息检索领域的应用,信息用户通过图形界面与网络信息检索系统进行交互,评价检索过程中每次检索结果,优化提问或查询,从而提高查全率和查准率。信息检索可视化不仅用图形、图像来显示多维的非空间数据,使用户加深对数据含义及数据间关系的理解,而且用形象直观的图形、图像来指引检索过程,加快检索速度。

从20世纪90年代中期以来,信息的可视化逐步得到研究和技术应用界的重视。1995年以来,IEEE开始主办一系列信息可视化专题研讨会,讨论信息可视化的研究与应用的发展方向。

讨论的专题已发展到信息可视化(Informatin Visualization)、数字图书馆(Digital Library)、可视化教育与艺术(Visualization Education and Art)、Web图形与可视化(Web GraPhics and Visualization)等 20多个领域。

由于可视化技术与整个计算机信息处理的世界潮流相适应,对网络条件下信息检索系统的发展产生重大影响,从该项技术诞生之日起,就引起了美国、日本以及欧洲等信息处理技术发达国家的重视,目前世界上已推出了几十种各类计算机情报检索可视化工具或理论。但是,国内对信息检索的可视化的研究还与国外有着一定的差距,以此为专题的论文还相对较少,研究也大多停留在对信息检索可视化发展的初步探讨和介绍的高度。周宁在其论文中预言,21世纪信息组织与检索将以可视化、智能化为发展方向[37];另外,他还对检索结果可视化的常用方法——基本分类的文档簇法、基于超链接法、基于语义内容法进行了简单介绍[40]。

文献[41]则在将基于可视化技术的信息检索与传统检索进行比较分析之后,重点阐述了可视化信息检索的基本原理及过程,并对几种重要的可视化检索系统进行了概要介绍。还有个别学者针对可视化信息检索中关键核心的信息节点歧义问题,对其产生原因及解决方案进行了探讨[42]。

可视化可以较好地实现信息检索的人机互动,因此是信息检索的重要发展方向之一。但是,目前我国这方面的研究还亟待深入,努力加强可视化理论研究的深度,构建切实可行的信息检索可视化模型,将是未来一段时间信息检索可视化研究的主要工作。

6.3 信息检索中的自然语言理解

一个理想的检索系统应该是用户能自由地表达情报需求,然后系统应该理解用户询问中内在的、复杂和微妙的含义。这也是信息检索实现智能化、人性化服务追求的目标所在。

自然语言理解是信息检索智能化的一个极富挑战性的课题,其任务是建立一种能够给出像人那样的理解、分析并回答自然语言的结果的计算机模型,较好的实现人机会话、语义理解或自动文摘等语言信息处理功能。

目前的检索系统尤其是搜索引擎主要使用关键词技术,没有较好的引入自然语言理解,每次搜索时只是按照关键词进行匹配,返回的大量信息和链接,其中很大部分是垃圾信息或者不是用户需要的信息,往往导致用户无所适从。因此,现阶段对于该方面的研究主要集中在语义网络、汉语分词、句法分析、同义词处理等语言理解技术的实现上。

尽管我国在自然语言检索的自动标引、理解检索要求、概念检索方面也取得了一些成果,但是还需要更深层次的对现有的句法语义分析技术以及段落和篇章深层次分析技术进行继续研究。

7 多媒体信息检索

随着计算机技术的发展,多媒体信息越来越多地应用于信息的存贮与表示,但是与传统信息相比,多媒体信息具有非结构化、内容多义性的特点,因此,多媒体信息的检索也逐渐开始成为信息检索的一个专门课题,引起广大研究者的关注。

目前,多媒体信息检索主要有基于文本和基于内容特征的两种检索方式。由于基于文本的多媒体检索(Text Based Retrieval,TBR)主要是以关键词的形式来反映多媒体物理特征和内容特征,即对描述多媒体的关键词进行检索,这种检索方式带有较强的主观性,而且关键词不能有效地表示视频数据的时序特征,也不支持语义关系,无法充分揭示多媒体信息的内涵,影响检索效果。因此,克服了这一缺陷的基于内容的多媒体检索是目前多媒体信息检索的主要研究热点和发展方向。基于内容的多媒体检索又可分为基于内容的图像检索、基于内容的音频检索、基于内容的视频检索等。

在对抽样论文进行分析的过程中我们发现,目前我国对于基于内容的多媒体检索研究大多集中在基于内容的图像检索上。例如,有相当一部分的文献对图像信息检索的原理、标准、研究进展以及图像信息检索的主要方法都进行了较为全面的介绍。例如,文献[43]就在分析基于内容的图像信息检索技术的基础上,以原理图描绘了此检索技术的工作过程。文献[44]则介绍了基于内容检索技术的进展,并对其主要方法如基于颜色、形状、纹理等静止图像检索技术以及视频检索技术进行了讨论。

对于音频信息检索的研究,从目前看,尚处于起步阶段,检索到的文献也相对较少。文献[45]为我们介绍了语音识别技术的主要思想,并着重讨论了如何利用该技术进行信息检索,并针对目前受语音识别技术水平所限而带来的问题提出了解决方案。文献[46]则对数字音频信息组织与检索研究领域的现状进行了全面、详尽的调研,从理论上探讨了数字音频音乐自动分析和检索基本技术,在分析已有的旋律表示法和旋律匹配算法的基础上,提出了新的旋律表示法和与之相对应的旋律匹配算法,并实施了基于旋律的数字音频音乐信息自动分析实验,得到了非常接近原始乐谱的音名序列。

此外,还有一部分研究者尝试着构建基于内容的多媒体检索系统。如文献[47]在参考多种基于内容检索系统VISION、QBIC、JACOB、CHABOT等的基础上,提出了一个基于内容检索多媒体数据库的总体结构。文献[48]则在研究、考察和分析现有检索系统的基础上,根据自己的研究心得提出了一个新的多媒体检索信息系统模型。另外,有研究者考虑到对图像/视频、语音/音频等这些多媒体信息进行检索时,查询条件的模糊概念是不可避免的,这会导致对多媒体信息模糊查询研究的出现,因此提出了用模糊语义距离来检索多媒体数据库中信息的检索方法[49],力求在不精确、不完整的检索条件下,实现最接近、最相似的检索结果。总的来说,目前我国多媒体信息检索在诸多研究方面,如视觉特征提取、多特征组合检索,以及高维索引的结构等,已经取得了一定进展,但同时我们也应该意识到,还有许多问题亟待研究解决。例如,高层语义与低层特征的关联,在视频分析中对视觉、音频和文本信息及其集成;视频的语义联想和内容综合、面向Web检索的多媒体检索,人机交互方式研究,等等。如果能很好地解决这些问题,必将使多媒体检索技术得到更广泛的应用。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

近十年来我国信息检索研究综述_信息检索论文
下载Doc文档

猜你喜欢