论机器阅读规格文件的构建--策略与方案_数据检索论文

论机器阅读规格文件的构建--策略与方案_数据检索论文

试论机读规范档建设——策略与方案,本文主要内容关键词为:试论论文,策略论文,方案论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

标准的机读书目数据格式(如CNMARC、USMARC)的推广,为书目数据库的蓬勃发展奠定了基础。目前国内图书馆的书目数据库建设已颇具规模,并出现了跨地区的联机联合目录数据库,如国家图书馆联合目录数据库、CALIS(高等教育文献保障系统)联合目录数据库。 数据库数量的增长与规模的扩大,为用户利用文献信息资源提供了极大的便利;量的增加使人们更期待于质的提高,而提高文献信息系统的查准率与查全率是改善数据库质量的必要措施。

建立名称规范档,确保检索点的唯一性与一致性,曾是提高手工目录体系的查准率与查全率的有效举措。对书目数据库来讲,机读规范档同样具有规范检索点(如同人异名的统一,异人同名的区分),提高数据库查准率与查全率的作用。尽管设置机读规范档会增加书目数据库建设的成本,尽管一些情报检索系统将检索质量的提高归结于计算机检索技术的改进(如模糊检索、智能检索),但近年来对规范档的探讨已使图书馆界对建立机读规范档、提高书目数据库质量的必要性,达成了共识[1]。

2 机读规范档建设的规划

2.1 书目数据库的分析

在书目数据库的基础上建立机读规范档,需要通过分析书目数据库来确定规范档的规模,以便筹划投入的人力与物力。这是探寻机读规范档建设的策略与实施方案的基本依据。对书目数据库进行分析的出发点是书目记录与规范记录的联系与区别。

人们很容易将机读规范档与机读目录(即机读书目文档)相比拟,认为可以用建设机读目录数据库的方法来建立机读规范档。从机读格式结构的角度来看,规范记录与书目记录确实存在很多相似之处;同一系列的MARC格式(如UNIMARC)中, 规范记录与书目记录还有相互对应的关系,以便两种记录的连接。但就目录的机制而言,规范档又有其不同于书目档的特点。

首先,规范档的产生机制不同。书目档是对书目实体(书、刊等文献)进行描述的结果;规范档则是对书目实体的一部分——检索点进行规范的结果。对书目实体的描述必须如实反映著录对象的实际状况;面对检索点的规范需要依据书目实体以及相关的参考源,考察检索点的合理性、规范性,其涉及的事物往往超出书目实体本身的范围。规范档的这一特点决定了规范档建设的复杂性。

书目记录与它描述的书目实体基本上是一一对应的,即一条书目记录对应于一种文献(如某一种书、某一种刊)。我们可以从馆藏量来大致确定书目数据库中书目档的规模,这是规划数据库建设,尤其是回溯建库所必需实施的工作之一。规范记录只是通过其确定的检索点与书目实体发生间接的关系,规范档的规模与馆藏文献量的关系是极其错综复杂的,它不仅取决于书目档(或者馆藏量)的增长,也取决于书目档的类别(专科或一般)、所依据的编目条例、有关选择检索途径(或标目)的具体政策等因素。[2 ]我们暂且看一下编目条例对规范档规模的影响。《英美编目条例第二版》规定三个以上同类责任者,只取第一个(或编目员认为主要的)责任者作检索点,这样,一个书目实体的同类责任者最多可有3个。而按照旧的中文编目规则, 同类责任者不会超过两个,三个或三个以上同类责任者只能取一个作检索点。当然,规范档规模的大小受这两种编目规则影响的程度,还视三个同类责任者的著作所占的具体比例而定。

美国图书馆学家Robert H.Burger曾运用洛特卡公式分析规范档增长的规律[3]。洛特卡公式告诉我们,写x篇论文的作者是写一篇论文作者的1/x[2],写一篇论文的作者,约占作者总数的60.79%。因此规范档在一定的馆藏量内呈快速增长的趋势,因为这时作者重复的可能性比较小;此后规范档将达到一个“成熟”期,增长会逐步变慢。如果考虑到多作者与无作者的因素,那么在一定的馆藏量内,名称规范档与书目档的规模应大致相当。如果再计入其他检索点(如主题词),那么规范档的规模会大于书目档。以此来观察规范档与书目档的比例,就会发现,馆藏量或数据库规模在一定范围内时,这两者之比大于1, 即规范记录的数量大于书目记录的数量;而当馆藏量或数据库规模超出一定范围时,规范档与书目档的比例会发生逆转,即规范记录的数量小于书目记录的数量。笔者曾统计过一个书目档规模为6万条的数据库, 其规范记录为10万条左右,规范档的规模大于书目档,两者比例约为1.7∶1;另一个书目档规模为24万条的数据库,其规范档约为34万条,规范档与书目档的比例降到1.4∶1左右。根据Burger搜集的资料[4], 数据库规模达1000万条以上的OCLC,它的规范档(不包括主题词)与书目档的比例为1∶11,规范档的规模远小于书目档;这两者的比例, 在美国国会图书馆的数据库(当时有书目记录250万条)约为2∶5。 尽管影响规范档规模的因素是复杂的,但从统计意义上我们可以相信上述推断,即在一定馆藏规模(或数据库规模)内(至少为10[5]条数量级), 规范档的规模比书目档大。这个推断对我们估计规范档建设的工作量有一定的意义。

2.2 计算机系统的支持

规划机读规范档建设还须有计算机信息系统的支持,即现有系统或将来更新的系统是否具有规范功能;如果具有规范功能,系统接受怎样的机读格式,书目档与规范档的关系又是如何的。

目前国内书目数据库主要利用CNMARC与USMARC两种机读目录格式。有些数据库中外文都用CNMARC;有些数据库中文用CNMARC , 西文则用USMARC。建立机读规范档是为了控制书目档的检索点,通过规范检索点形式与建立参照系统,改善检索系统的查全率与查准率。因此选择机读规范档格式应当考虑与数据库的书目档的匹配与连接,即CNMARC的书目档宜建立CNMARC格式的规范档,USMARC的书目档宜建立USMARC格式的规范档。

在文献信息系统中,书目记录与规范记录之间的关系依据它们的连接方式大致可分成3类[5]:

(1 )各自独立:规范记录与书目记录分别建立文档与相应的索引,在物理上没有联系。在增加新的书目记录或检索书目记录时需要先查核规范档,以确定规范的标目。这种连接方式的数据冗余量很大;更新规范标目时须同时更新书目记录里相应的标目及其索引,数据维护很困难。(2)指针连接:规范记录与书目记录各自建立文档, 但书目记录通过标目字段存储的指针与相应的规范记录连接,标目实际上只存储在规范文档里。这种连接方式的数据冗余量很小;更新规范记录时,会同时更新书目记录里相应的标目,数据维护很方便。但因书目记录的标目存储于规范记录中,检索响应时间较长。(3 )冗余连接:规范记录与书目记录各自建立文档,但由规范记录的规范标目与非规范标目构成索引,并在索引中建立连接,规范标目再与相应的书目记录连接起来。这种连接方式保留了书目记录中标目的内容,数据冗余量比方式(1 )大,但检索响应时间短,数据维护量也不大。

选择机读规范档格式,确定规范记录与书目记录的关系,是受计算机编目系统的制约的。现在国内设计的计算机编目系统,配置规范档的较少,这是限制机读规范档建设的客观因素之一。在配置规范档的编目系统中,规范记录与书目记录的连接方式以及规范档的格式也往往各不相同,有的是各自独立的,如“息洋系统”;有的是指针连接的,如引进的“Horizon系统”;有的有两种分立的规范档格式,如“Horizon系统”;有的只有一种规范档格式,如引进的“Innopac系统”。 因此图书情报机构在选择自动化系统时,不仅要决定建立怎样的书目档,还要权衡配置怎样的规范档,将规范档作为书目数据库不可分割的组成部分来全面地考察、筹划。

3 机读规范档建设策略与方案的确定

3.1 统筹兼顾、循序渐进

在确定了规范档的机读格式及其与书目档的关系之后,规范档建设的实施在很大程度上取决于它的工作量。

在对书目数据库的分析中我们知道,规范档在书目档处于一定数量(大致10[5]条数量级)之内时,其规模大于书目档; 当规范档规模小于书目档时,其绝对数量仍是相当可观的。而对规范记录中统一标目的确定,同一形式不同标目的区分,同一标目不同形式的统一与联系,常需要花费很多精力去查考书目实体之外的参考源。因此规范档的特点是数量大、涉及面广,规范档的建设需要花费相当大的人力、物力,不能照搬书目档建设的某些做法。

在书目数据库的建设中,除了逐步积累新的书目数据外,还须根据馆藏情况与本馆的条件,开展回溯建库,扩大书目数据库的文献覆盖面,提高数据库的利用率与检索效率。通常采用分阶段方式,即把馆藏按文献出版时间、分类、利用率等分成几部分,每阶段完成一部分,逐步将馆藏回溯入库。鉴于分阶段回溯旷日持久,与日常工作争人力、物力,遂有集中时间(尽量利用假期与闭馆时间),集中人力,突击开展回溯工作的做法。“突击”法求“毕其功于一役”,质量隐患较大,但可减轻回溯工作对日常工作的冲击,也为一部分人所热衷。然而把“突击”法推行于规范档建设则是难以奏效的,规范档的特点决定了规范档建设只能采取统筹兼顾、循序渐进的方式。

所谓统筹兼顾,就是处理好书目档建设与规范档建设的关系。对国内大多数图书馆来讲,规范档还是新鲜事物,对它的作用、机制、建设规范、操作程序等还了解得比较少,对有关人员的培训、部署还缺乏经验。在规范档尚不普及的情况下,培养与配备合格的规范档建设人员是促进机读规范档建设的关键。各个图书馆应该根据书目数据库的规模、目录体系机读化的程度,确定数据库建设各个环节的轻重缓急,从而安排适当的人员从事机读规范档的建设。如果一个图书馆的书目数据库已具相当规模、目录体系机读化程度较高,那么它可以将较多的人力、物力投入机读规范档的建设。对于机读书目档建设还比较薄弱的图书馆来说,则可开展一些规范档建设的前期工作,如对系统配置机读规范档的可行性研究、机读规范档格式的选择、规范款目著录规则的学习等。

当然,书目档建设与规范档建设不是截然分开,互不相干的。书目档的检索点需要通过规范档来保证其一致性与唯一性,以利于提高文献检索系统的检索质量。规范档则应以书目档的检索点为其主要的控制对象,有的放矢才能使规范档发挥应有的效用。因此书目档与规范档协同发展、同步前进是书目数据库建设最为理想的境界。但长期以来规范档的发展在国内图书馆界一直处于滞后的状态,这一客观现实使我们不得不在书目档与规范档的建设中有所侧重,统筹兼顾是我们协调二者的最好方法。

如前所述,规范档的复杂性决定了其建设的长期性,既然难以“毕其功于一役”,便只能循序渐进,逐步积累。

3.2 “以新带旧”与“新旧并举”

机读规范档的建立可分为手工规范档的转换和机读规范档的直接积累。有些图书馆在建立机读规范档之前已逐步积累了一定数量的手工规范档。这些规范数据可按照选定的机读格式(如USMARC或CNMARC的规范数据格式)输入系统的规范数据库。如前所述,规范数据宜与书目数据采用同一系列的格式,这样规范档与书目档能很方便地连接起来,有效地发挥规范档对书目档的控制作用。没有手工规范档的图书馆可直接建立机读形式的规范档。

当我们决定实施机读规范档建设时,首先应对新的书目记录的检索点建立规范记录,这是一个随着书目记录的增长,逐步积累规范数据的过程。凡经规范的标目最好有适当的标记(如CNMARC的$3 子字段记录规范记录号),以便确认哪些标目已经过规范。在确立规范标目的同时,需对旧的相关标目进行清理,比如将同一人名的旧形式与新确立的规范形式统一起来。有些书目数据库的书目档与规范档是相互连接的,新旧标目形式的统一通过“全局修改”功能或合并新旧规范记录的方式来实现,这样就不必对书目档中的旧标目逐个进行更改,从而节省了大量人力。这种以新带旧、逐步积累的方式,使数据库中规范的标目逐步增多,不规范的标目渐次减少。

数据库中未规范标目的清理,在人力允许的情况下也可单独进行,这是新旧并举的方式。按照统筹兼顾、循序渐进的原则,清理工作也应根据人力、物力分阶段进行,即将需清理的标目按分类或字顺划分成几部分,每次完成一部分。标目的划分可利用计算机的统计功能,将标目按分类或字顺打印清单,也可利用现成的卡片目录,如责任者目录。按分类划分标目,比较有利于从学科领域去确认责任者,为区分同名不同对象的责任者提供较好的判定依据。

建立某一文献信息系统的规范档,应充分利用现有的权威性的规范数据。美国国会图书馆以机读形式发行规范记录;世界上规模最大的联机编目中心OCLC在它的联机编目系统中提供规范档的查询服务;中国国家图书馆已正式发行个人名称规范档的光盘。这些权威性的规范数据源既可以直接采纳为本地数据库的规范档,又可以作为查考规范标目的参考源。

4 结语

机读规范档建设对一个图书馆而言,是个耗费人力、物力资源的长期性工作。要在这项长期性工作中摆脱资源不足的困境,争取主动地位,唯有走资源共享的合作建库道路。

机读规范档的合作建库是联机合作编目在规范档领域的延伸,它把合作编目从书目数据共享提高到规范数据共享的高度。美国很早就推行规范档建设的合作计划NACO。进入20世纪90年代后,规范档合作建设的实践范围已从国家推广到国际。在我国,方兴未艾的联机合作编目机构也开始注意到规范档合作建设的必要性与重要意义;全国高校文献保障系统(CALIS)已将规范档合作建库提上了议事日程。可以预计, 随着联机合作编目的普及,我们将有自己的NACO,并使中文规范档逐步纳入国际合作的范畴。

收稿日期:2000年9月11日

标签:;  ;  ;  ;  

论机器阅读规格文件的构建--策略与方案_数据检索论文
下载Doc文档

猜你喜欢