21世纪信息检索技术展望_信息检索论文

21世纪信息检索技术展望,本文主要内容关键词为:信息检索论文,世纪论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

信息检索技术经过先组式索引检索、穿孔卡片检索、缩微胶卷检索、脱机批处理检索发展 到今天的联机检索、光盘检索、网络检索,其发展经历了由低级到高级的过程,这与以计算 机技术和通信技术为代表的现代信息技术的迅速发展是分不开的。由于高新技术产业的迅猛 发展,信息检索技术的软硬件环境有了很大程度的提高,检索技术也从传统的线性检索向超 文本支持的非线性检索发展。现在是联机检索、光盘检索、网络检索并存,那么,21世纪的 信息检索技术会是什么样的呢?

1网络信息检索技术向智能方向发展

Internet是目前世界上最大的信息资源网,无论是对Internet中的信息检索,还是利用Int er net检索网上的信息,都是极其方便的。随着网络技术的发展,Internet信息检索将会朝以 下方向发展完善:

(1)检索工具向多国化、多语种化、综合化、专业化方向发展。检索界面简洁、易学易用, 检索结果格式清晰,内容充实,数据更新及时,检索所提供的网页链接可靠,死链和名存实 亡的断链少。现已出现元检索工具,它像图书信息领域中的“三次文献”,即检索工具的检 索工具。使用元检索工具,对选择检索工具有着不可替代的作用,对评估更新检索工具也有 很好的发展前景。另外,多元搜索引擎(集成式的搜索引擎)将具有去重功能,也能对检索结 果进行统一的相关评估,实现搜索引擎之间的优化组合,还能够通过电子邮件的方式向用户 随时提供网上最新的相关信息,实现定题跟踪服务,即push技术,从而实现从pull到push的 飞跃。

(2)向智能检索方向发展。智能检索是基于自然语言的检索形式,机器根据用户所提供的以 自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。当然,用户所需要做的仅 仅是告诉计算机想做什么,至于怎么实现则无需人工干预,这意味着用户彻底从繁琐的规则 中解脱出来。

人工智能可以在Internet中导引用户,不仅在用户进行搜索、浏览时给予直接的支持,而 且能够提供具有独立搜索功能的智能体的幕后支持。Internet上的人工智能产品正像雨后春 笋般层出不穷,智能搜索引擎(Intelligent Search Engine)、智能浏览器(Intelligent Br owser)、学习智能体(Learning Agent)、知识共享智能体(Knowledge-Sharing Agent)已经 走出实验室进入商品市场。智能搜索引擎可以预期用户的需求,并可以有效地抑制关键词的 多义性。目前,比较成功的智能搜索引擎有FSA、Eloise和FAQFinder。

智能浏览器正是基于机器学习理论设计的智能系统,经过一定的训练后,它可以成为某个 领域中熟练的搜索专家,帮助用户在网络中查找信息。智能浏览器的两个比较成功的实验原 型是WebWatcher和Letizia。WebWatcher能不断地给用户推荐一系列站点并建立超链接。它 可以记录下数以万计的用户数据来训练自己,从而不断更新知识;它会对成功检索的每一个 超链接用代表用户兴趣的关键词加以注释,并存入知识库。Letizia综合使用了信息挑选与 信息过滤策略,它收集有关用户浏览习惯的信息,熟悉用户的兴趣爱好,并使用各种启发式 策略对现有的知识进行推理,从而实现了一个Web上有限资源的智能搜索。

智能体是一个具有控制问题求解机理的计算单元,网络中的智能体通常是一个专家系统、 一个过程、一个模块或一个求解单元。它是在空闲时间工作的,在不需要用户监督的情况下 ,可以昼夜不停地运行。如:Browser Buddy是一个用于组织和链Web页面的基于规则的智能 体。经过整夜的信息搜索以后,它会在早上给用户提供一个服务清单。在它的导引下,用户 可以迅速进入那些需要长时间交互才能到达的页面。有些学习智能体使用神经网络(Neural Network)与模糊逻辑(Fuzzy Logjc),而不是关键词来识别信息的模式。用户使用类似自然 语言的描述将智能体限制在一个概念区域中,然后智能体在用户的教导下不断训练,直至能 有效地找到用户感兴趣的文档。

(3)网上自动标引、自动文摘技术、自动跟踪和自动漫游技术逐步发展完善,会有越来越多 的信息资源指引库和专业信息指引库,方便用户及时准确地检索信息。

(4)高素质的网络信息加工和处理人员能够加强对信息的组织与管理,提高信息质量,发展 判别信息类别的自动判别技术,研究开发面向决策需求的网络信息传播模式。

2超媒体检索技术向纵深方向发展

未来信息检索主要是在网上进行,未来的信息组织方式是面向对象的超媒体数据模型。这 种模型能够实现节点和链的扩充与重新组合的动态机制,将信息的内容与组织结构分离,既 能实现物理数据的相对独立性,又能保证节点和链的灵活组配与调整。这样,既可以充分体 现超媒体系统信息单元之间浏览的随意性,又能提供基于提问的检索能力。即既可以实现从 哪里到什么(where-what),又能达到从什么到哪里(what-where)的信息获取的方便性。

未来的超媒体检索是在浏览/导航的基础上,增加了索引检索功能。在该模式中,文献(信 息)按不同领域或主题分成若干个子集,称为文档。文档中文献(信息)的标引词组成一个索 引。文档中的信息单元是文献片段。文献库中包括两类节点:具体节点和抽象节点。具体节 点描述具体的实体信息,如一段文本、一幅图形。抽象节点表示特定类型的信息,包括文献 节点、索引节点和类目节点。节点之间的链接有四种基本类型:结构链接、参考链接、索引 链接和分类链接。根据上述的系统结构,可用分类检索的方法,限定与所检类目相关信息的 范围,也可以构造一检索提问,对信息库中的文献信息或经范围限定后得到的一组文献进行 索引检索,然后在此基础上进行浏览,选择所需要的信息。

另外,利用人工智能技术,在超媒体系统的链和节点中嵌入知识或规则,实现基于知识的 人工智能检索方法。基于似然推理的检索模式就是利用了人工智能技术中的基于不确定知识 的似然推理方法。该模式被抽象成一个双层结构:文献网络和概念网络。文献网络中用文献 节点表示文本、图形、声音等信息,节点之间存在结构链接和参考链接。概念网络中每个概 念节点由概念名称、指向相关文献的链接和指向相关概念的链接三个部分组成。概念网络为 文献网络的索引,文献节点被看作事实,节点之间的链接被看作规则,两级网络可视为推理 网络,执行似然推理。检索时,根据检索提问,将文献网络作为知识库,赋予确定性因子表 示概念间的语义关系,进行推理得到最佳匹配结果。另外,概念网络是文献网络的索引,每 篇文献都联接到相关的概念上,故可由概念查找与之相关的文献,这就是所谓的索引检索方 法。

在传统的检索技术基础上,结合应用新型检索技术,实现线性与非线性结合、静态与动态 结合,是超媒体技术发展的一个重要方向。随着人工智能、认知科学、多媒体、计算机技术 与网络技术等学科的发展,超媒体技术将逐渐适应人脑的思维方式,实现智能、高效、快速 而灵活的信息检索,最后达到随心所欲地查找、迅速定位的水平。

3动态链技术走向完善

这种方式是在数据库系统的基础上,增加一层专为超媒体系统设计的链服务,也就是对数 据库中的数据建立一个超文本结构,附加在数据库上,然后与超媒体系统相连接,相关的数 据 动态地连接起来,检索时,按照联想的方式,从一个站点跳到另一个站点。这种链接是动态 随机的,不像传统的静态链接预先设计好“路线”。

在这个途径中,需要对数据库中的信息进行再组织,形成超文本结构,以便于与超媒体系 统的连接。数据库中的数据原来是以数据库系统所规定的模式来存放的,如RDB中以表为基 本结构,在这种情况下要提供一种机制,使用自动或用户干预,或者两者相结合的方法将在 原来以数据库模式存储的数据基础上形成节点链这样的超文本结构。数据库文档中的数据被 重新组合成虚拟节点,在此基础上根据信息的内在联系建立节点间的链。这样,超文本系统 就能够以更自然的方式与数据库、文档中的信息建立连接,而不再依赖于某种特殊的机制。

动态链接技术使得数据库、文档中的数据在逻辑上被再组织成超文本结构,便于查询与检 索。数据库、文档中的数据与其上建立的虚拟节点物理上是独立的,从而为在数据信息上建 立多套不同的逻辑连接提供了可能。超媒体系统的用户可以按照虚拟节点直接访问数据库中 的单元信息,避开了数据库系统的复杂性。

链描述了节点对象之间的联系,提供了用户从一个节点转移到另一节点的有效手段。利用 这种机制可以指定对象间的动态关系,通过链的转移来进行交互式的查询、跟踪和导航等功 能。

4知识发现技术趋于成熟

随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增 大,人们已不仅仅满足于对数据的简单维护和查询,更希望能够通过对数据的分析,得到数 据更深层次的信息。

正是由于数据库技术和机器学习技术的发展,也是为了满足人们实际工作中的需要,KDD(K nowledge Discovery in Database——数据库中的知识发现)技术逐渐发展起来。KDD就是从 大量数据中发现有用知识的高级处理过程。这里所说的知识是指精确抽取大量数据中隐含的 、预先未知和潜在的有用信息。它给出了数据的特性或数据之间的关系,是对数据包含的信 息更抽象的描述。

由于数据量庞杂,在由人对数据进行处理的过程中,很难找出关于数据的较为全面的信息 ,这样许多有用的信息仍然隐含在数据中而不能被发现和利用,造成资源的浪费。机器学习 通过对数据对象之间关系的分析可以提取出隐含在数据中的模式,即知识。正是由于实际工 作的需要以及相关技术的发展,将机器学习应用于大型数据库的知识发现技术逐渐发展起来 。

KDD是一个多步骤的处理过程,在处理过程中可能会有很多次的反复,主要包括以下一些处 理步骤,如图1。

KDD是利用机器学习的方法从数据库中提取有价值的知识的过程,是数据库技术和机器学习 两个学科的交叉学科。数据库技术侧重于对数据存储处理的高效率方法的研究,而机器学习 则侧重于设计新的方法从数据中提取知识。KDD利用数据库技术对数据进行前端处理,利用 机器学习方法从处理后的数据中提取有用的知识。KDD与其他学科也有很强的联系,如统计 学、数学和可视化技术等等。

KDD在科研领域、工程技术领域应用比较多,尤其是KDD中的数据挖掘技术被应用到很多领 域,如科学研究、市场营销、金融投资、通信网络管理、生物遗传工程、天文数据分析等领 域。数据挖掘是知识发现的核心技术。数据挖掘是使用复杂的统计分析和模型技术从大量的 数据或信息中抽取或识别出未知的、有趣或有用的、最终可理解的知识模式。数据挖掘的一 般过程如图2。

数据挖掘被越来越多的领域所采用,并取得了较好的效果,为人们正确决策提供了很大帮 助。利用数据仓库及数据挖掘技术,可为用户提供信息源本身所无法提供的诸多信息。综合 运用数据挖掘中的聚集法和分类法,采用人机交互的方法,挖掘隐性主题,提高查全率;当 用户检索某一主题时,可优先提供给用户该主题在某个时期内被高频检索的文献目录,使用 户首先得到有效性较高的信息,节省用户大量的查阅时间;动态查询某篇文献在某个时期被 其它文献引用的次数、某作者在某领域发表的所有文章目录等信息,并可得到一系列有关的 统计分析数据;数据挖掘技术用于分析历史数据的变化趋势,预测未来发展方向,发现大量 数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据。采用数据挖掘技术可 以系统地、定量地分析目前较为热门的研究发展领域及查询频繁的文献资料种类,可使科技 情报中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、搜集工作,有的放矢, 向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。

数据挖掘技术在Internet上亦有广泛的应用。尤其是Web的全球普及,使得Web上信息量无 比丰富。Web上的信息主要是文档,一般是半结构化或者是纯自然语言文本,毫无结构,因 此Web上的开采发现需要用到不同于常规数据开采的很多技术。

在使用Web获取信息的过程中,用户需要不停地从一个Web站点通过超文本链接跳转到另一 个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。理解Web上的 用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间 提供快速有效的访问通道;能帮助更好地组织设计Web主页;帮助改善市场营销决策,如把 广告放在适当的Web页上或更好地理解客户的兴趣。这是数据挖掘技术在Internet检索上的 应用。这项技术将给信息检索领域带来革命性变化。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

21世纪信息检索技术展望_信息检索论文
下载Doc文档

猜你喜欢