国内外知识检索研究进展与趋势_信息检索论文

国内外知识检索研究的进展与趋势,本文主要内容关键词为:进展论文,国内外论文,趋势论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       知识检索是为了适应知识组织的发展趋势,以解决传统信息检索机制检索效率不足而提出的一种新的检索理念[1]。知识检索涉及认知论、认知心理学、认知神经科学、逻辑与推理、机器学习与知识发现、语言学、信息技术等诸多方面。国内外对于知识检索尚未有统一的概念提出,张玉峰认为所谓知识检索,就是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源(文本、图像、视频、声音等),并能准确精选用户需要的结果[2]。

       国内外对于知识检索开展了不同程度的研究,为进一步了解国内外的研究情况,本文采用可视化方法对Web of Science和CNKI数据库中知识检索相关文献进行分析,以了解期刊分布、知识基础、研究热点与前沿等问题,以期为知识检索的相关研究提供参考。

       1 数据来源与方法

       外文数据以Web of Science为来源,构造检索式:标题=“literature retrieval*”OR“literature search*”OR“document retrieval*”OR“document search*”OR“bibliographic retrieval*”OR“bibliographic search*”OR“information retrieval*”OR“information search*”OR“Knowledge retrieval*”OR“Knowledge search*”OR“semantic retrieval*”;索引=SCI-EXPANDED,SSCI,A&HCI,CPCI-S,CCR-EXPANDED,IC;时间跨度为所有年份;检索时间为2014年10月15日。共获得4523条检索结果,导出题录信息。

       中文数据以CNKI为来源,构造检索式:篇名=文献检索OR篇名=信息检索OR篇名=知识检索OR篇名=语义检索,限定核心期刊和CSSCI为来源范围,时间限定为1999年至今,同时,在中国社会科学引文索引数据库中以此检索式进行检索,将二者检索结果导出、去重后共得到2042条,检索时间为2014年12月30日。

       采用陈超美开发的可视化软件Cite Space进行分析,该软件通过对文献信息的可视化,能够直观地反应学科领域的发展轨迹、知识基础、研究前沿与热点等[3]。

       2 文献分布

       国内外关于知识检索的发文数量存在较大差异(图1),除2001年外国外各年的发文数量均明显高于国内,表明在国际上对于知识检索研究的活跃度要远高于国内。1999~2009年国外知识检索研究的文章大体呈增长状态,表明在这一时间段内知识检索领域的研究热度持续增强,其中2001~2003年呈快速增长状态,2003年起呈缓慢增长状态,2009年文献量达到最高值,后有所回落,研究热度有所下降。国内的文章数量从1998年起呈缓慢增长状态,到2004年文献量达到最高值,之后整体呈下降趋势,中间略有小幅回升。从文献量看,国内的研究热度始终低于国外。

      

       图1 国内外知识检索研究的文献分布

       3 国内外知识检索研究的分析

       3.1 核心期刊分析

       3.1.1 国外知识检索领域的核心期刊分析

       将国外相关数据导入Cite Space软件中,将Node Types设置为Cited Journal,阈值设置为T30,其余选用默认值,得到国外知识检索领域研究的期刊共被引知识图谱(图2)。

       从图2中可以看出,国外知识检索领域研究的共被引期刊来源主要为INFORM PROCESS MANAG、JAM SOC INFORM SCI、INFORM RETRIEVAL等图书情报学领域期刊,LECT NOTES COMPUT SC、COMMUNACM等计算机学科领域期刊。

       其中,INFORM PROCESS MANAG、J AM SOC INFORM SCI、LECT NOTES COMPUT SC、COMMUN ACM等期刊的共被引频次最为突出,分别为965次、860次、714次和626次,表明这些期刊刊载了大量的知识检索领域的研究论文,是该领域重要的文献来源,为知识检索领域的研究起到一定的支持作用。

       同时,从中心性看,SCIENCE、PSYCHOL REV、JDOC、COMMUN ACM等期刊的中心性较高,分别为0.43、0.39、0.37和0.36,表明这些期刊刊载的知识检索领域的文章质量较高,对知识检索领域的研究起到重要的支撑作用;其中COMMUN ACM既是高被引期刊又是高中心性期刊,表明该刊占有较强的核心地位。

      

       图2 国外知识检索研究的期刊共被引知识图谱

       3.1.2 国内知识检索领域的核心期刊分析

       对国内知识检索领域核心期刊的分析主要通过该领域的高载文期刊进行展开,对高载文期刊进行统计(表1),发现2042篇文章共分布在270余本期刊上,对载文数量较多的期刊进行统计,发现国内知识检索研究的文献主要发表在图书情报学、计算机科学、教育学、医学等学科领域的期刊上,其中图书情报学领域期刊刊载的文献最多,表明国内知识检索的研究主要集中在图书情报领域,这些期刊对国内知识检索的研究起着重要的支撑作用。图书情报学领域期刊刊载的多为理论型文章,计算机学科类期刊则偏重于技术型,教育学类则偏重于综合型,医学类偏重于医学信息方面的知识检索研究。

      

       从核心期刊的学科分布看,国内外知识检索领域的核心期刊都主要分布在图书情报学、计算机科学两个学科领域,表明这两个领域是知识检索研究的重要力量来源。知识检索本身是针对传统信息检索的不足而提出的一种新的检索理念和方法,属于图书情报学的研究范畴,而在知识检索算法、知识检索技术、知识检索建模等方面的研究又属于计算机科学的研究范畴。同时,国内教育学、医学等领域的期刊也刊载了一定的知识检索领域文章,这表明在学科知识交叉的背景之下,对知识检索的研究已不局限于传统的图情、计算机等领域,有助于知识检索领域的理论与实践发展。

       3.2 重要作者分析

       3.2.1 国外知识检索领域的重要作者分析

       将Node Types设置为Cited Author,阈值设置为T30,其余选用默认值,得到作者共被引知识图谱(图3),图中节点代表被引作者,节点大小代表被引频次。

       从图3中可以看出,被引频次最高的是SALTON G(786次),SALTON G是著名的现代信息检索领域的奠基人,一生公开发表150余篇信息检索领域的文献、专著,其最大贡献在于提出了信息检索领域的重要模型——向量空间模型(VSM),并建立了世界首个用于全文本处理和检索的试验性系统——SMART[4]。其次是ROBERTSON S E,ROBERTSON S E是英国的计算机学家,因从事信息检索研究而广为人知,ROBERTSON S E和SPARCK J K[5]于1976年提出用于信息检索的概率模型被广泛引用及应用。第三是BAEZA-YATES R A,他是智利著名的学者,于加拿大滑铁卢大学获得计算机科学博士学位,著有Modern Information Retrieval等重要著作,主要研究领域为信息检索系统、算法与理论、数字图书馆、web界面与理论等。

       中心性排名前三的作者中有两位(ROBERTSONSE、SALTON G)是高被引排名前三的作者,表明二者的研究成果影响力较大,对于知识检索的研究具有重要的参考意义。中心性最高的作者是BUCKLEY C(0.43),他与SALTON G提出了著名的向量空间模型,其研究成果在知识检索领域起到了较大的推动作用。

      

       图3 国外知识检索研究的作者共被引知识图谱

       3.2.2 国内知识检索领域的重要作者分析

       对国内知识检索领域的2042篇文献的作者进行预处理,共得到3030位作者,普赖斯定律[6]指出撰写全部论文一半的高产作者的数量等于全部科学作者总数的平方根,即排名前55位的作者应当为高产作者,结合论文的发文排行可知发文数量为4篇及4篇以上的作者为高产作者(表2)。这些高产作者构成了国内知识检索研究的主要力量,从中可以发现武汉大学信息管理学院的吴丹、清华大学计算机科学与技术系的张敏、清华大学计算机科学与技术系的马少平、武汉大学信息管理学院的陆伟等作者在知识检索领域的发文数量较多,对国内知识检索领域产生的贡献较大。其中,吴丹发表过《交互式跨语言信息检索中用户行为研究》、《本体在信息检索中的作用及实例研究》等文章,张敏发表过《自然语言处理在信息检索中的应用综述》、《基于链接描述文本及其上下文的Web信息检索》等文章,马少平发表过《基于链接描述文本及其上下文的Web信息检索》、《使用遗传算法的信息检索动态参数学习方法》陆伟发表过《利用查询重构识别查询意图》、《用户查询中潜在时间意图分析及其检索建模》等文章。

      

       国内外知识检索领域都涌现出了一系列的核心作者,他们对于知识检索领域的研究起着重要的推动作用。其中,国外的核心作者大都提出了重要的模型与理论、出版了权威的著作,对知识检索领域的研究和发展的贡献较大。而国内的核心作者在该领域并没有发表过多的文章,且根据表3的分析,这些作者在该领域做发表的文章也较少出现高被引情况,并没有出现革新性或突破性进展,但这些作者作为国内的高发文作者,其在知识检索领域的探索值得肯定。

       3.3 重要文献分析

       3.3.1 国外知识检索领域的重要文献分析

       通过对学科领域的文献信息可视化分析能够使研究者直观地辨识出学科前沿的演化路径及学科领域的经典基础文献[7]。将数据导入到Cite Space软件中,将Node Types设置为Cited Reference,阈值设置为T30,其余选用默认值,得到共被引文献的可视化图谱,分别以Timeline和Cluster方式显示,得到奠基性文献和核心文献的知识图谱。

       对国外知识检索研究的知识基础从两个方面进行分析,即知识检索研究的早期奠基性文献、核心文献(高被引与高中心性文献),它们构成了知识检索研究的脉络,形成了坚固的基础。

       (1)奠基性文献分析。从图4中可以看出有5篇发表于二十世纪五六十年代的文献,第一是ZIPF G于1949年出版的Human Behavior and the Principle of Least Effort一书,书中提出了最小省力原则,即齐夫定律。其次是MARON M E和KUHNS J L于1960年发表的On Relevance,Probabilistic Indexing and Information Retrieval一文,作者在文中首次提出了基于相关概率的赋词标引方法,用于文本自动标引[8]。第三篇是ZADEH LA于1965年发表的Fuzzy Sets一文,作者在文中首次提出了模糊集理论,该理论是经典集合论的一种推广[9]。第四是GERARD SALTON于1968年出版的Automatic Information Organization and Retrieval一书,第五的是TAYLOR RS于1968年发表的Question Negotiate and Information Seeking in Libraries一文。

      

       图4 国外知识检索研究的奠基性文献时间序列知识图谱

       (2)核心文献分析。对于核心文献的分析主要从高被引文献和高中心性文献两个角度展开。从图5中可以看出,被引频次最高的是BAEZA-YATES R A和BERTHIER RIBEIRO-NETO于1999年出版的Modern Information Retrieval一书,该书论述了信息检索的概念和技术、这些技术在搜索引擎中的应用以及其对相关领域知识的影响,从信息检索模型到标引文本、从信息检索可视化工具到Web界面、从信息检索多媒体到数字图书馆,该书充分展现了现代信息检索领域的新趋势和各个重要部分。

      

       图5 国外知识检索研究的共被引文献知识图谱

       其次是SCOTT DEERWESTER等人于1990年发表的Indexing by Latent Semantic Analysis一文,文中提出了一种新的索引和检索方法——潜在语义分析(LSA),也称为潜在语义索引(LSI),该方法通过奇异值分解,将文档在高维向量空间模型中的表示投影到低维潜在语义空间,从而更好地衡量文本之间的相关性[10]。被引频次排名第三的是SALTON G等人于1983年出版的Introduction to Modern Information Retrieval一书,由于内容的权威性,该书被广泛引用。

       中心性排名第一的文献是ZHAI C和LAFFERTY J于2001年发表的A Study of Smoothing Methods for Language Models Applied to Ad-Hoc Information Retrieval一文,文中对语言模型中的平滑方法及其对检索性能的影响进行了研究,并对常见的平滑方法进行了比较分析[11]。

       其次是SALTON G等人于1988年发表的Term-weighting Approaches in Automatic Text Retrieval一文,文章总结了关于自动加权的观点并提出了自动文本检索的加权方法[12]。中心性排名第三的是VAN RIJSBERGEN C J于1979年出版的Information Retrieval一书。

       3.3.2 国内知识检索领域的重要文献分析

       对国内的核心文献主要从发文的被引频次进行分析,对于高被引文献的确认主要有主观给定阈值[13]、基于文献本身对整体引用的累积贡献率[14]、借鉴普赖斯定律[15]、对不同数据来源的引用数据进行打分等方式[16],本部分采用BAR-IIAN J[17]的观点,将h指数作为确定高被引文献的指标,即在国内知识检索领域的发文中,至少有h篇文章的被引频次不少于h次。利用CNKI数据库,对国内知识检索领域文章的被引频次进行统计、排序,确定了h指数为47,即确定了被引频次排名前47名的文章为高被引文献,选取排名前10的文章进行列举(表3),这些文章由于高质量性而被广泛引用,对国内知识检索领域的研究产生重要影响。

      

       第一篇高被引文献是王继成等于2001年发表的《Web信息检索研究进展》一文,作者对Web信息检索技术进行了综述,从Web信息检索系统的层次化分类、一般机制和关键新技术等方面做以阐述[18]。

       其次是武成岗等于2001年发表的《基于本体论和多主体的信息检索服务器》一文,作者提出了一种利用多智能主体和本体论理论设计的信息检索服务器,该服务器集成了界面主体、预处理主体、管理主体、信息处理主体以及具有移动性的信息搜集主体,同时,利用本体对文档进行领域分类、对用户的查询信息进行规范,该系统能够比较及时地反映网络中信息的动态变化,并具有较好的信息导引能力[19]。

       第三篇高被引文献是汪晓岩等于1999年发表的《面向Internet的个性化智能信息检索》一文,文中提出了一个面向Internet的个性化智能信息检索系统,该系统采用分布式智能体Agent技术、相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波算法,并采用多模块之间在线交互机制和个性化检索与集中浏览相结合的检索方式等方法,有效地解决了现有系统在交互方式、自适应用户兴趣和信息源的变化、高效并行检索等方面的不足[20]。

       对比国内外的重要文献,可以看出,国外在早期的研究中就提出了一系列的理论与方法,而这些理论与方法在国内的研究中也经常使用到。同时,国外的重要文献偏重于方法的介绍,如潜在语义分析法、用于检索的平滑方法和加权方法等,而国内的重要文献则偏重于基于知识检索相关理论的知识检索系统设计,如《基于本体论和多主体的信息检索服务器》、《面向Internet的个性化智能信息检索》。

       3.4 研究热点分析

       3.4.1 国外知识检索领域的研究热点分析

       将Node Types设置为Keyword,将阈值设置为T30,其余选择默认设置,运行软件,得到知识检索领域的研究热点知识图谱(图6)。圆圈的颜色和厚度分别表示关键词出现的时间和数量,每个节点分别表示一个关键词,节点的大小表示关键词出现的频次,节点之间的连线越粗表示关键词之间的共现越高,另外,关键词的中心性在图中主要通过紫色圆圈表示出来。

       关键词是一篇文章的核心与精髓,是文章主题的高度概括及凝练,频次高的关键词常被用来确定一个研究领域的热点问题[21]。频次最高的是information retrieval,达到了783次,其次是ontology、model、system、internet、seeking、query expansion、knowledge、relevance feedback、semantic web、classification等关键词。表明国外知识检索领域的研究热点主要集中在信息检索、本体、检索模型与检索系统、信息查询、检索方法(扩展查询)、搜索反馈(关联性反馈)、语义网等方面。

      

       图6 国外知识检索的研究热点知识图谱

       同时,通过对高频关键词进行聚类(图7),发现知识检索领域可以聚成8个类别,分别是cross-language information retrieval、information systems、automatic construction、strategies、speech、medline、web search engine、individual-differences,即跨语言信息检索、信息系统、自动构建、策略、语言、Medline数据库(医学类知识检索)、网络搜索引擎、个体差异(知识检索实证研究中的个体差异),这8个类别代表了知识检索领域的具体研究热点。

       3.4.2 国内知识检索领域的研究热点分析

       将国内数据分别导入Cite Space中,将网络节点设置为Keyword,阈值设置为Top 30,其余采用默认值,得到国内的研究热点知识图谱(图8)。

      

       图7 国外知识检索领域的研究热点聚类视图

      

       图8 国内知识检索的研究热点知识图谱

       从图8中可以看出,国内出现频次最高的关键词是“信息检索”,其次是“文献检索”、“本体”、“搜索引擎”、“语义检索”、“知识检索”、“网络信息检索”、“向量空间模型”、“跨语言信息检索”等关键词,表明国内知识检索的研究热点主要集中在信息检索、文献检索、本体、搜索引擎、语义检索、网络信息检索等方面。

       同时,聚类视图(图9)显示,国内知识检索领域的研究可以划分为13个主要类别,主要的聚类有副主题词、信息检索、Z39.50、本体、实证分析、信息素养等,表明这些是国内知识检索研究最大的几个热点。

       从总体看,国内外的研究热点既有相似也有不同之处。通过对相同研究内容的分析,发现最一致的研究热点集中在本体与语义检索等方面。基于本体的语义检索是一种建立在语义网的基础之上的检索技术,在本体的基础上通过计算语义相关度和相似度,利用语义推理等将隐含的语义显性化,充分挖掘相关信息,实现相关信息的语义融合。相比传统的检索技术,基于本体的语义检索技术大大减少了不相关的返回结果,提高了检索的精度。

      

       图9 国内知识检索的研究热点聚类视图

       国外的研究热点更偏向于知识检索模型构建、检索过程构建、检索结果反馈等微观层面的研究。信息检索发展中的一个重要问题是将查询与文档相匹配,基于此,产生了不同的信息检索模型,经典的检索模型包括布尔模型、向量空间模型、概率模型等,而跨语言检索模型等表现出了较强的生命力,跨语言检索中常使用的方法包括查询词翻译的方法、文档翻译的方法、中间语言翻译方法和非翻译的方法[22],具备翻译准确性较高、翻译工作量及成本较低等优点;检索过程构建直接决定着检索结果的查全率与查准率,而知识检索中涉及越来越多的自动构建过程以提高检索的匹配与检索结果质量;传统的检索技术往往会由于结果排序质量较低而与用户期望的结果排序存在一定偏差,而越来越多的研究者基于相关反馈技术对匹配结果排序,从而提高检索效果和返回结果的排序质量,如Yang Y等[23]基于半监督排名和相关反馈构建了多媒体检索框架。除此之外,医学类知识检索、知识检索中的个体差异也是国外知识检索的研究热点。

       国内的研究热点更偏向于搜索引擎、网络信息检索、信息素养等宏观层面的研究。搜索引擎是信息导航和信息检索的入口,传统基于文本检索的搜索引擎正在逐渐被淘汰,解决传统搜索引擎效率低下的关键在于提高其知识处理以及语义理解能力,例如,刘治纲等[24]探讨了基于多本体的搜索引擎框架设计,李强[25]进行了基于本体论的个性化和社会化元搜索引擎的研究;如何在海量的网络信息资源中进行甄别和挑选以减少用户的信息使用负担一直是学者们的关注重点,而知识检索是网络信息检索发展的趋势之一,国内较常见将知识检索作为网络信息检索发展的现状与重点的论述[26,27];信息检索是个体基于任务需求而获取所需信息的过程,这一过程与个体的信息素养密不可分,信息素养直接影响着信息查询的质量,因而对信息素养的研究一直是信息检索领域的热点之一,而在大数据的环境下,在知识检索的背景下,信息素养更成为研究者关注的重点。同时,国内的研究热点也涉及一些微观领域,比如对Z39.50、医学知识检索、向量空间模型、跨语言信息检索等的研究。Z39.50是20世纪80年代初期,由美国图书馆界为LSP计划而定义的信息查询与检索协议,美国信息标准化组织NISO于1988年正式以国家标准提出了Z39.50的第一个版本,其作用在于实现网络系统数据库的应用程序之间的通讯,比如公共目录查询、建立联合目录、定题服务、馆际互借等。Z39.50协议常应用于图书馆界,但越来越多的学者开始探讨将该协议应用于网络信息检索的实践,如丁峰等[28]探讨了基于Z39.50的分布式WWW信息检索,王继成等[29]探讨了基于元数据与Z39.50的分布协作式Web信息检索,张辉等[30]探讨了基于Z39.50的元搜索引擎优化策略;“副主题词”与“Medline数据库”类似,体现出医学领域的知识检索研究,如崔雷等[31]探讨了运用主题词/副主题词关联规则在医学文献检索系统中抽取知识的尝试,侯跃芳等[32]探讨了应用主题词/副主题词关联规则对专题知识的挖掘分析及评价;而向量空间模型、跨语言知识检索等研究热点也体现出国内外研究热点的相似。

       3.5 研究前沿分析

       3.5.1 国外知识检索领域的研究前沿分析

       通过关键词的突变情况来确定知识检索领域的研究前沿,将网络节点类型设置为Keyword,并将Term Type选定为Burst Terms,选取Top 30,其余采用默认值,运行Cite Space,并以时区示图(Timezone)方式显示,得到研究前沿知识图谱(图10)。

      

       图10 国外知识检索的研究前沿知识图谱

       图中的方形节点代表突变词,其大小代表突变词的权重,位置代表突显时间,突变词的权重越大,成为领域新兴研究趋势的可能性越大[33]。按照权重大小对突变词进行排序(表4)。

       权重排名前三的突变词是semantic web(语义网)、web information retrieval(网络信息检索)、ontology(本体),表明知识检索研究的主要前沿集中在语义网、网络信息检索、本体三方面。其余突变词还包括knowledge(知识)、mean average precision(MAP平均准确率)、xml document(xml文档)、performance evaluation(性能评价)、semantic indexing(语义索引)、geographic information retrieval(地理信息检索)、search process(查询过程)、human-computer interaction(人机交互)、baysian network(贝叶斯网络)、intelligent information retrieval(智能检索)、domain ontology(领域本体),这些都是知识检索领域的研究前沿。

      

       3.5.2 国内知识检索领域的研究前沿分析

       将网络节点类型设置为Keyword,并将Term Type选定为Burst Terms,选取Top 20,其余采用默认值,运行citespace,并以时区示图(Timezone)方式显示,得到研究前沿知识图谱。

      

       图11 国内知识检索的研究前沿时区视图

       对国内突变词得权重进行排序,权重大于10的突变词分别为Internet、语义检索、本体,表明国内知识检索研究的前沿主要集中在这些方面;其他突变词还包括information retrieval、网络信息检索、领域本体、知识检索等,这些都是国内知识检索的研究前沿。

       对比国内外的研究前沿,发现国内外的研究前沿都在语义检索、本体、领域本体、网络信息检索等方面有所涉及,体现出国内外研究前沿的部分一致性,而这些研究前沿也是国内外的研究热点,表明其在知识检索中的重要性;同时,国外的研究前沿侧重于检索性能评价(mean average precision、performance evaluation)、模型与算法(baysian network)、检索功能(human-computer interaction)、检索对象(knowledge、xml document)以及具体领域的知识检索(geographic information retrieval)等方面的研究,更注重应用与实用性;国内的研究前沿侧重于搜索引擎、网络信息检索、检索系统、检索模型等方面的研究。从总体看,国外的研究前沿呈现出更细致的划分,而国内的研究前沿与研究热点类似,集中在宏观层面。这也反映出国际上对知识检索的研究集中在知识检索的理论基础、关键模型、技术突破等方面,以更好地提高知识检索的效率及检索结果质量,为用户提供良好的检索体验。而国内则依旧停留在知识检索大的发展层面,需要更加注重具体知识检索方法、算法等方面的研究,注重解决知识检索发展的理论、技术等层面的创新。

      

       4 结论

       本文通过利用可视化分析工具Cite Space对国内外有关知识检索研究的发文量、核心文献、核心作者、重要文献、研究热点以及研究前沿进行了梳理和分析,得出如下结论:

       (1)通过对国内外的发文量进行分析,可以发现,国内在知识检索方面的研究要滞后于国外,但随着时间的推移以及国外研究热度较快的下降幅度,国内外发文的数量差距正在缩小。

       (2)通过对国内外的载文期刊进行分析,发现知识检索领域的核心期刊主要分布在图书情报学和计算机科学等领域,但正在向相关学科领域扩散。

       (3)通过重要作者和重要文献的分析,发现国外的重要作者和重要文献主要侧重于理论方法、模型的研究,而国内则侧重于知识检索系统设计等。同时,国外的重要作者大都提出了一些经典的理论或模型,而国内的重要作者在知识检索领域虽取得了一定的成果,但影响力远不及国外作者。

       (4)通过以关键词为主的研究热点和前沿进行分析,发现,国外的研究范围要大于国内,国外更侧重于微观层面的研究,而国内更侧重于宏观层面;无论是在国内还是在国外,语义网和本体论研究都是知识检索研究的热点与前沿;同时,知识检索领域的研究前沿正在向检索性能评价、模型与算法、检索功能实现等方面发展。

       同时,基于相关分析和结论可以看出国内外对知识检索的研究主要呈现如下趋势:

       (1)研究内容呈现多元化趋势。传统的信息检索概念属于图书情报科学的范畴,因检索模型的构建、检索过程的实现涉及算法、系统设计等计算机方法,因而也属于计算机学科的范畴。知识检索作为信息检索的一种发展,除在传统的图书情报学、计算机科学有研究外,也正在向教育学、医学等学科领域扩展,体现了知识交叉、知识融合的特点。

       (2)研究方法呈现技术化趋势。在知识检索研究中,除了需要理论基础外,也需要技术方面的支撑。语义网、本体等技术的发展为增加知识检索过程中的语义分析、检索系统的知识处理能力,提高检索效率与改善检索结果提供了条件。相关核心作者以及重要文献中提出的模型、算法、语言处理方法等很好地印证了这一点。

       (3)国内外研究呈现差异化趋势。国内外对于知识检索的研究存在较大差异。国外的研究更为微观、更为具体,如对于具体的知识检索模型、检索方法、检索评价等的研究;国内的研究更为宏观、更为概括,如对搜索引擎、检索系统等的研究。同时,国内在成果数量以及作者论文的影响力等方面也与国外存在较大差异,面对种种差异,国内外应该在差异化的基础上,不断加强基于自身特点的知识检索研究。而国内则更应从细节出发,努力形成知识检索理论的系统体系,保证系统性与整体性,向更高层次的理论逐渐深入、向更深层次的实践总结方向不断发展。

标签:;  ;  ;  ;  ;  ;  ;  

国内外知识检索研究进展与趋势_信息检索论文
下载Doc文档

猜你喜欢