文献检索系统的十大原则_信息存储论文

文献检索系统的十大原则_信息存储论文

论文献检索系统的十项潜在原则,本文主要内容关键词为:原则论文,检索系统论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

文献检索系统多种多样。传统上有印刷型、卡片型、缩微型,计算机和各种现代信息技术迅速的发展,导致新的检索系统不断问世,如磁盘、光盘及联机阅读型。信息载体也从文字、图像文本信息发展为包含音频、视频信息的多媒体超文本信息。笔者认为,同为文献检索系统,在不同组成结构的个性表层下,必然存在着组成结构的共性。本文初步论述文献检索系统组成结构的共性,并将这些共性归纳为十项潜在的原则,其中的部分内容,检索系统生产者设计时及用户使用检索系统时,若能有其参考作用,本文则达到了目的。

我们先来讨论文献检索系统普遍存在的三项原则。为了降低系统成本,系统生产者总是千方百计以最少的空间存储与报道文献信息,此可为检索系统设计生产的省力原则。为贯彻省力原则,可以采取的措施甚多,但最常用的有三条,由于几乎各种检索系统均采取此三条措施,故可合称之为普遍性省力三原则。

1 报道优质核心文献的原则

在“文献爆炸”的今天,任何检索系统都不可能存储报道全部生产的文献,学科性文献检索系统与专类性文献(如专利文献)检索系统是如此,学科综合性与类型综合性文献检索系统则更是如此。为了以适当的存储空间(其成本用户尚可承担)报道用户最需要的文献信息,许多检索系统的设计生产者,均通过文献计量的方法,优选各学科或各类型最佳的文献加以存储报道。学科性的美国《近期物理学索引》(CurrentPhysics Index)仅选择报道数十种物理学核心期刊,但此大体已占美国物理学研究文献的90%与前苏联物理学文献的50%。当然其缺点是忽略了美、苏以外国家的物理学文献。美《应用力学评论》(Applied Mechanics Reviews)报道的是全世界力学核心出版物140多种(含刊1100种)。美Mathematical Reviews报道的也是经选择的各国重要数学期刊1000余种和一些图书、会议文献等。专类检索系统如英国德温特公司的《世界专利文摘》体系,它有选择地仅报道近30个重要国家与地区的专利文献。至于象学科综合性的刊物,如美国Science Citation Index、美国Engineering Index、英国Science Absracts等,都是从上千万计的期刊与其它文献中选择存储报道那些优质的核心文献。

2 文献条目只含充分必要款项的原则

除了摘引文献的数量外,影响检索系统存储空间的重要因素便是文献条目所占据的空间。不少检索系统年报道文献条目量在10余万条,如SCI、Ei、CA等都是。每条文献条目所占空间略微节省一些,系统存储空间每年节省的数量就十分惊人。因此,任何优质检索系统的每条文献条目均只包含报道文献所必须的各个款项,其原则是仅报道那些用户识别和获取文献必要而充分的款项。换言之,优质检索系统文献条目中每个款项对于用户检索该文献都是有用的,必不可少的。用户在检索时必须能识别各个款项,不能识别或忽视其中某些款项,就可能与所需文献失之交臂或明知其为所需文献却无法跟踪获得其原始文献。例如,系统文献条目中未报道原始文献出处项,当然用户无法获得原始文献。若用户对文献条目中原始文献出处项为"ibid"不能识别,仍然无法获得该原始文献。识别每个款项及理解它们的信息功能,对经验不足的用户并非一件易事。

3 压缩文献款项空间的原则

首先,许多以文字表示的款项(如著者姓名、报道文献名称、机构名称等等)一般很少报道全称,尽可能地以首字母、缩写或缩略词形式报道,这样可为系统全年的报道节省非常可观的空间。当然,采用首字母、缩写与缩略词均要遵守约定俗成的规则,最好是已经通用的形式,以便用户方便地辨识。例如以刊名"Science"来说,缩写形式一般为"Sci",决不能缩写为"ci"的。中文词也一样,“中国科学技术大学”一般缩写为“中国科技大学”;“中国科大”已过于简略;若任意缩为“科大”乃至“中大”,用户对之则会产生歧义乃至无法辨识。有的检索系统正是考虑到所采用的压缩形式不那么通用,为了便利用户,特附设系统所用的“缩写、首字母与缩略词表”,用户检索时应充分利用之。

其次,多数系统会尽量省却各款项间那些可以省却的标点符号、空间距离。例如,在美国Science Citation Index中的Citation Index条目中,各款项间基本上是没有标点符号的。

第三,尽量省却那些可以省却的部分款项甚至整个款项。例如,不少检索系统在文献条目的来源文献项中省却“期号”(有“卷号”与“首页号”)、“末页号”(有“首页号”);出版年份"1994"中省却"19"等,均属省却部分款项。至于省却整个款项,形成“空”项,这方面例子也很多。现举一个最常见的例子,多数非专类文献检索系统以报道期刊论文为大宗,兼顾少量其它文献,如图书、专利、会议文献、学会论文、科技报告等。为便于用户识别该文献条目报道的文献类型,不少系统便增加了一个“文献类型”项,并且常常省略期刊论文类文献条目中的“文献类型”项,读者可想而知,若报道的文献有50%属于期刊论文,检索系统仅省却此一项便可节省相当可观的存储空间。省却某个款项,虽表面上形成“空”项,但仍存在“潜在”的信息,与“实”项的视在的显信息相比,笔者称之为“隐”信息。

4 信息压缩原则——代码与译码

事实上,信息压缩是另一项重要的节省存储空间的措施,并为越来越多的检索系统生产者所认识。借用传统通信的信息压缩原理,对文献条目中许多款项进行编制代码的方法,便可大量压缩系统宝贵的存储空间。

代码可以数字组成,例如ISBN、ISSN;中国科学院图书分类码、美国杜威十进制图书分类码等主要也是以数字组成的。同时,各类文献号(专利文献号、科研报告号等)、文献价格码等许多代码,也离不开数字。第二类代码由罗马字母组成,例如一些期刊代码、分类码、来源文献码、国名码、专利权人码等都属此类。较多的代码(如文献价格码、文献类型码、部分分类码等)则由数字与字母混合组成。除此以外,不少检索系统在文献条目中还使用了一些特殊符号作代码,例如“=”、“#”、“@”、“*”,等等。当然,为了加工方便,一般尽可能以计算机的键盘符号作特殊符号。检索系统代码的组成形式可谓林林总总,关于代码的详细组成方式、各类代码的信息功能,以及如何辨识等。

5 文献条目多功能原则

设计文献条目时使其同时具有多项功能,这不仅提高了检索系统的使用效率,有时同样也可节省系统的存储空间。在这方面,外国有些检索系统是设计得较好的,现信手略举数例。首先以美国Chemical Title(《化学题录》)为例,用户均以关键词入手,先检索其“上下文关键词索引”(Key Word-In-Context Index),但获得的只是“去除非关键词的论文标题+(来源期刊代码+卷号+首页吗)”。用户尚需根据该来源期刊代码及卷号、首页码从“文献题录”(Bibliography)查得所需论文的完整题录,即来源期刊名称、卷号、期号、年份、著者姓名、论文标题以及首迄页号。另一方面,正文以期刊名称的首字母顺序排列,又可为用户提供另一检索途径,即可集中浏览并检索到系统所报道各种来源期刊的全部论文。当然,笔者认为,其“上下文关键词索引”的条目可改为“去除非关键词的论文标题+(来源期刊代码+序号)”,当系统共计报道该来源刊的n篇论文时,序号则为1-n。这样,不仅索引,而且其正文的条目都可进一步节省空间;同时,生产者与用户根据n的大小尚可迅速判别对各种来源期刊报道论文的篇数,全年累计尚可进一步对各来源期刊作出适当评价。

英国《世界专利文摘》中的“登记号索引”(Accession No Index)是文献条目多功能的另一个好的例子。该种索引提供的信息除了使用户从德温特专利登记号入手,可检索到相应的专利文摘外,用户还可利用该条目中的同族专利,根据其在各国申请相同专利的多寡数衡量该件专利的重要性,二可根据自己最熟悉的文种,选购相应国家的该项专利文献。

6 文献条目子集化原则

上述原则都是节省检索系统空间的有效措施,但是从节省文献条目中各个款项的空间着手,虽然就全年和长期累积而言,效益是可观的,但就每期而言,节省的空间还是有限的。有的检索系统在加工生产文献条目过程中,另辟蹊径,注意综合工作,使某些文献条目集的每一条目,对用户而言实际上似乎起到了一批文献条目的作用。这样的一个条目可视为隐含着一个文献条目子集。以一个条目隐含一批条目的原则可称之为条目子集化原则。这不仅是节省系统空间的一种新途径,同时使用户提高了检索效率。

美国《科学述评索引》中“研究前沿课题索引”的每个条目;美国《数学评论》、《应用力学评论》中的部分条目;Internet的提供Gopher检索菜单中的菜单项、Mosaic检索超文本信息页中的菜单项等,都是文献条目子集化的明显例子。另外,像英国《科学文摘》中"Bibliography Index"的每个条目,以及分散在许多检索系统中的关于述评文章、会议论文等的每一条目,都可视为潜在的条目子集。用户充分利用这些条目子集,则可大为提高检索效率。

7 独立性原则——共性中的个性

许多检索系统虽然在信息压缩使用代码方面具有明显的共性,如普遍使用国名码、文种码、期刊码、文献类型码、专利文献类型码等。但是不同系统中使用的同一功能代码组成却常会不同。检索系统信息压缩这种共性中又蕴含着个性,可称之为检索系统设计生产中的独立性原则。例如,以国别代码来说,日本《科技文献速报》中,“中国”的代码为"CHN",而在德温特《世界专利文摘》和其它不少检索系统中,则为"CN";《速报》中英文文种代号为"EN",而《世界专利文摘》中则是"E";文献类型码使用的差异也很大,《速报》中评论类代码为"b①",美国《科学引文索引》和另一些系统则用"R"表示。用户必须牢记检索系统中普遍存在的这一独立原则,在识别各类代码时切不可单凭经验行事,以免检索时发生差错。

8 动态性原则——结构与功能不断变化

许多检索系统在条目结构与条目组成方面并非一成不变的,特别是许多生产已多年的刊物变化更是频繁,这一共性笔者称之为动态性原则。以美国《工程索引》来说,它在漫长的一个多世纪中,在出版周期方面走过了“年刊→(月刊+年刊)→(月刊+年刊+多年累积刊)”的变化历程;同时在索引方面增加了“主题索引”;“主题索引”又从二级主题为标目返回到一级主题的标目;在正文标识词方面,也从标题词走向了通用的叙词。此外,美国《政府报告通报与索引》、德温特《世界专利文摘》、英国《科学文摘》、前苏联《文摘杂志》等许多检索系统,长期以来都发生这样那样的变化,读者可自行注意。

检索系统这种动态性原则的表现虽各有不同,但报道文献种类、条目款项、条目结构等方面的变化总趋势不外乎以下几点:①节省存储空间;②跟随学科发展;③使用更为方便;④功能增加等等。

9 回归自然语言的原则——信息技术的影响

长期以来,在主题型检索系统方面,人们从系统生产与用户使用两个方面几乎竭尽全力地进行不断探索,以期提高文献检准率和检全率。从生产方面来说,人们一方面不断对自然语言的关键词与规范化的标题词、叙词等优缺点进行比较研究;另一方面在文献条目的主题标识方面也不断创新尝试,从最初的单个主题词标目、二级主题词标目至词对轮排、上下文的题外关键词轮排及题内关键词轮排等等,不同系统长期各显神通不能统一的局势,可谓反映了不同学者专家的见仁见智。目前,Internet提供的Masaic超文本检索已为人们提供了一个榜样。从系统生产来说,计算机自动选取全文本中的关键词作为嵌入式标目是相当方便的;从系统用户来说,面对全文本,边浏览边选择关键词标目跟踪检索,既无需预修传统的检索知识(了解检索系统、数据库及其相关词表;选择主题词;组成多主题词逻辑检索式等),又可根据文本的上下文准确选择关键词作为检索入口,大为提高检索效率。

10 检索空间与检索时间矛盾的折衷原则

如前所述,检索系统生产者往往从许多途径着手,尽可能地以最小的空间报道最多的文献信息,以降低成本吸引用户。但事物均有两个方面,任一方面过了“度”则会向另一方面转化。检索系统也是如此,过于考虑节省空间,必然会影响系统使用的便利,从而增加用户的检索时间。花费时间过多的检索系统与成本过高的系统一样,对用户来说同样是没有吸引力的。

事实上,检索系统的存储空间(也即用户可以使用的检索空间)与使用系统的检索时间,一般来说是一对矛盾。因此,有的系统生产者着眼照顾检索时间,只适当地考虑节省空间;另一些生产者则侧重于减少存储空间,而在一定程度上牺牲了用户的检索时间。前者以“空间换时间”,如采用增加文献条目标识款项的方法,有经验的用户利用多个标识款项组合(“或”、“与”)作为检索入口,通常就可减少检索时间。例如,美国《科学引文索引》、《科学述评索引》中的“主题轮排索引”等等。后者则以“时间换空间”,例如采取减少某些条目款项的方法,此时空间固然节省了,但用户往往从一个款项入手,不能一步到位直接检索到所需的完整文献条目。因此,需通过第二步检索才能得到完整条目,于是多费了检索时间。典型的例子如英国《科学文摘》的"Subject Guide"、美国《化学文摘》的“环系索引”、“登记号索引”,等等。

一般来说,检索系统生产者都应注意在检索空间与检索时间方面的折衷考虑。用户面对任何检索系统,无论是侧重节省检索空间的,还是照顾检索时间的,都应充分应用检索实践中已积累的各种经验,以妥善的检索途径达到较高的检索效率。

标签:;  

文献检索系统的十大原则_信息存储论文
下载Doc文档

猜你喜欢