学术搜索引擎的特点与发展趋势--从OJOSE与CNKI知识搜索的比较_搜索引擎论文

学术搜索引擎的特点及发展趋势——从OJOSE与CNKI知识搜索的比较谈起,本文主要内容关键词为:发展趋势论文,学术论文,搜索引擎论文,知识论文,OJOSE论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]TP393

借助搜索引擎查找信息已经成为人们首选的方式,但在利用这种方式获取学术信息时,往往要从大量的非学术性信息(如广告、新闻等)中进行筛选,费时费力,这为有效获取学术性信息增加了困难。人们期待富有个性的、学术性的、专业性的信息资源和服务。为此,网上涌现出众多以检索网络学术信息资源为对象的学术搜索引擎。OJOSE和CNKI知识搜索就是其中英文和中文的杰出代表。

1 OJOSE

1.1 OJOSE概况

OJOSE是一款免费的功能强大的科学搜索引擎,用户只需要输入一个检索字段就可以在不同的数据库之间检索。其信息源包括40多个数据库,表1为OJOSE提供的可检索的数据库名称[1]。

1.2 OJOSE的检索方法

OJOSE的检索非常简单,只提供了一个检索界面。首先在检索栏输入检索式,接着选择要检索的数据库,这里可选择关键词、题名、著者、刊名等字段;最后提交检索式即可。系统支持AND、OR、NOT检索,默认为AND。该搜索引擎的最大特色是可保存检索历史1个小时,检索过程中可以边看检索历史边调整检索策略,并可将检索历史打印出来。该搜索引擎不支持跨库检索,一次只能选择一个数据库进行检索。

1.3 OJOSE的特色

系统整合了众多资源,提供优秀的主题浏览工具,对所有信息按提供者建立分类索引。最大的特色是具有跨平台工作、整合资源的能力,与数据库商建立了合作关系,不仅整合了包括开放期刊在内的各类学术期刊信息,如德国期刊集成系统EZB,而且还链接了其他的学术搜索引擎,如科学搜索引擎Scirus。建立网站之间无缝的后台链接,对具有科学价值的资源进行整合,以统一的检索界面对用户提供免费索引服务,而且能够指定检索数据库,确保了检索结果的准确性和专业性。缺点是系统反应比较慢,不能进行跨库检索。

2 CNKI

2.1 CNKI知识搜索概况

CNKI文献搜索是CNKI推出的针对学术期刊、博硕士论文、会议论文以及报纸的专业检索。提供近8000种期刊/杂志,300所大学、研究院所博士硕士论文,1000种学术会议论文集,1000种重要报纸文章的专业检索。

2.2 CNKI知识搜索的功能

CNKI搜索提供基本和高级搜索界面:基本搜索可进行文献、数字、学术定义、专业主题、翻译助手、图形、学术趋势、表格、大众热点、学术统计分析等字段搜索,在此可以从任意位置搜索CNKI文献,包括标题、作者、摘要、全文等位置。高级搜索可限定搜索条件,可在标题、关键字、摘要等字段搜索,同时也可限定作者和文章的出处。系统通过知识聚类协助使用者完成搜索,包括词聚类与文章聚类,从引文、时间、作者、文献类型等角度显示搜索结果,具有多维性。而且可通过文献链接:包括引证文献、相似文献等链接,层层深入搜索,将用户带入知识网络[2]。

2.3 CNKI知识搜索的特色

总结起来,CNKI知识搜索具有以下特点[3]:

●实时的知识聚类:系统根据输入的搜索词和搜索结果自动生成文献类型聚类和知识聚类。

●多样化的搜索排序:系统提供多种个性化排序方式:综合排序、相关度、被引次数、期望被引、发表时间、作者指数,检索时可以根据需要自由调整。

●最多的中文文献资源:提供近8000种期刊/杂志,300所大学、研究院所博士硕士论文,1000种学术会议论文集,1000种重要报纸文章的专业检索。

●最全的文献引文信息和最丰富的知识链接:每条搜索结果都显示被引次数,提供相似文献链接、同类文献链接、文献引用链接、文献来源链接,能查看更多的文献信息。点击文献标题将进入CNKI知网节。如果搜索者具有下载权限,还可以直接下载文献CAJ与PDF两种格式的全文。

3 学术搜索引擎的特征及发展趋势

通过上面的分析可以看出,OJOSE在整合资源方面做的比较好,系统搜索范围广,包括各类数据库商提供的学术数据库、开放期刊,德国期刊集成系统EZB中的期刊,法国、瑞士和德国图书馆的图书和期刊,网上书店的书目,网上百科全书等,另外还链接了其他的学术搜索引擎,几乎覆盖了所有的学科;CNKI知识搜索在搜索结果的显示和链接方面做的比较好,通过层层链接展示学术研究的脉络,读者通过分析文献的信息来源,可以判断与评价信息的可靠性及其价值,同时也有助于读者获取全文,缺点是只能在自己旗下的数据库中搜索,搜索范围比较小。

3.1 学术搜索引擎的特征

相较传统搜索引擎检索效率低下,用户检索负担沉重而言,学术搜索引擎致力于提高检索结果的相关性和针对性,呈现出以下特征:

3.1.1 扩大了信息源,与数据库商之间建立了合作关系

学术搜索引擎不仅搜索海量网页,而且可以进入包括一般搜索引擎无法进入的有使用权限的数据库,建立网站之间无缝的后台链接,对具有科学价值的资源进行整合,以统一的检索界面对用户提供免费服务。同时与全文链接,注册用户可付费获取。当然,专利等全文依然可免费获取。通过跨界合作,一方面实现了学术数据库的广泛传播,同时也丰富了搜索引擎的内容,达到了双赢的目的。

3.1.2 进行信息过滤,增强检索结果的精确性

一般搜索引擎返回的信息中有大量冗余信息,给用户的筛选带来了极大的难度。学术搜索引擎利用先进技术,采用选择信息来源、进行信息过滤、使用书目识别器、设置个性化检索等一系列措施强化搜索结果的精确性,为用户提供针对性较强的信息。另外,绝大部分学术搜索引擎具有类似数据库的个性化检索功能,所设置的检索选项甚至超出许多数据库。在高级搜索中设置了包括字段、出版时间、信息类型、文件格式、文献来源与主题学科类目等多个字段,可对一项检索从多个方面进行交叉选择限定,充分显示出其搜索的灵活性和搜索结果的准确性。一般搜索引擎都忽略专家评审文章,但评审文章对用户了解相关课题以前的状况很有意义,学术搜索引擎满足了用户的这一需求。读者通过分析文献的信息来源,可以判断与评价信息的可靠性及其价值,同时也有助于读者获取全文[4]。

3.1.3 具有跨平台整合资源的能力

学术搜索引擎一般以高质量电子期刊为资源主体,选取拥有科学资源的网站为合作伙伴,集期刊论文、会议文献、科技报告、专利文献、预印本文库等资源于一体,在保证文献的学术性和专业性基础上,将分散在数十个系统内的各种网络信息资源整合在一个统一的平台上供大家共享,不仅扩大了用户查询信息的来源,更重要的是省去用户逐个进入各类数据库所耗费的大量时间[5]。

3.1.4 排序功能增强

普通的搜索引擎只支持搜索结果的相关性排序,学术搜索针对学术资源属性提供了很多独特性的排序,如相关性、引用次数、下载次数、按照时间的引用趋势等;有的还有聚类功能,对搜索结果进行标记。如CNKI的综合排序、相关度、被引次数、期望被引、发表时间、作者指数等。另外,用户可以保存检索式,如OJOSE保存检索策略的功能。

3.1.5 设计理念代表着搜索引擎未来的发展方向

搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多学科领域的理论和技术,所以具有综合性和挑战性。总之学术搜索的先进设计理念为科学工作者解决了其他搜索引擎长期未能解决的诸多问题,为用户提供全面、精确的信息资源,代表着搜索引擎未来的发展方向。

3.2 学术搜索引擎存在的问题

目前,学术搜索引擎还处于起步阶段,还存在许多问题:

3.2.1 检索词中自由词居多

同一名称存在多种拼写形式(如人名、期刊名),易造成漏检。

3.2.2 检索结果中重复记录较多

由于一些学术资源会在不同的数据库中重复存储(如机构知识库、学科知识库),而它们在不同数据源中著录的格式可能不同,部分学术搜索引擎缺乏针对异构、海量资源的归并与去重的功能,导致检索结果中重复记录较多。而且检索结果的显示较单一,一些搜索引擎只提供按相关性排序检索结果,如Google Scholar。

3.2.3 引文显示具有局限性

引文是被用作计算相关性的重要指标,一方面由于引文的滞后性,最新发布的资源的引文量可能远低于早期的资源[6],会导致一些最新的资源在检索结果中的排序靠后,隐藏在大量陈旧的资源中。另一方面,由于引文动机不同,一些引文并不能说明被引资源的学术价值和重要性,会导致内容不相关资源获得了较高的形式相关性而排在前面,掩盖了真正相关的资源。

3.2.4 资源的学术质量没有严格保障

免费学术搜索引擎一般没有严格的质量控制机制,在如何界定学术资源方面也没有统一的标准,因此在检索结果中可能存在大量低质量的资源。

3.3 学术搜索引擎的发展趋势

尽管学术搜索引擎在学术搜索方面已经做得相当优秀了,但还存在一些不足之处:如界面语言单一、在线主题词表不能全面反映词间关系,全文的获得不方便、学科主题分类不完善、检索结果中仍然存在无关信息等。很多学术搜索引擎都在致力解决这些难题,发生着一些变化,这些变化中就包含着学术搜索引擎的未来发展趋势[7]。

3.3.1 多元化

搜索引擎的发展趋势之一是多元化,即元搜索引擎。元搜索引擎的功能优于单搜索引擎,它能有选择地调用多个单搜索引擎搜集信息.并能集中处理查检结果,按其相似性进行匹配排序,将查到的信息按单搜索引擎归类,返回用户。目前部分学术搜索引擎与数据库商、其他搜索引擎合作已实现了多元化搜索功能,如Google Scholar与国内的维普、万方合作,OJOSE与Google Scholar、Scirus等搜索引擎合作,为用户提供更有价值的学术内容。这种职能互补的双赢合作随着时间的推移,能够产生更大的社会价值,直接推动数据库行业的进步与知识的应用普及。同时此类合作也为广大的内容制造者特别是学术期刊提供了一个宣传推广与应用的新途径。

3.3.2 更加专业化

学术搜索代表着搜索引擎的发展趋势,但目前大部分学术搜索引擎都是综合性的,搜集信息的面比较广,但难以搜全某专业的信息资料。这就为学术搜索引擎专业化的建立与发展开辟了广阔空间,于是专业化学术搜索引擎便应运而生,在搜索某专业领域信息的全面性与挖掘深度上都优于综合性的学术搜索引擎,如数学搜索引擎Mathsearch、化工搜索引擎Chemindustry、农业搜索引擎Agrisurf、医学搜索引擎Medspace等。

3.3.3 智能化

普通的搜索引擎采用智能代理、Web挖掘技术、自然语言理解技术、分布式并行计算技术等已经实现了部分智能化检索,但搜索结果还不是十分精确。学术搜索引擎除提供传统的全文快速检索、相关度排序等功能外,还提供用户登记、用户兴趣自动识别、内容的语义理解、信息过滤和信息推送等功能,将智能化搜索提高到一个新的阶段。我们相信:随着智能检索技术的进一步完善,学术搜索一定能为用户提供一个真正个性化、智能化的网络信息搜索环境。

3.3.4 多媒体化

多媒体搜索引擎是具有图像、音频、视频、动画等搜索功能的搜索引擎,如AllTheWeb、Altavista等。目前学术搜索引擎一般只搜索文本文件,非文本检索只能看到部分PDF文档和Postscript文档,图形、图像、视频、音频、动画等非文本搜索功能比较弱。随着多媒体技术和搜索技术的发展,学术搜索也将实现多媒体化搜索,使人们在搜索学术信息的同时感受到网络带来的无限乐趣。

标签:;  ;  ;  ;  

学术搜索引擎的特点与发展趋势--从OJOSE与CNKI知识搜索的比较_搜索引擎论文
下载Doc文档

猜你喜欢