文献数字化中的非技术策略_文献论文

文献数字化中的非技术策略_文献论文

文献数字化中的非技术策略,本文主要内容关键词为:文献论文,策略论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

当前,各文献部门投入了大量的人力和物力进行文献数字化的工作。例如,国家图书馆文献数字化中心每日文献数据加工能力超过20万页,缩微胶片数字化加工能力在8000页以上。[1]文献数字化工作相应地取得了不少成果,但在繁荣的背后也存在着不少问题。总的来说,数字化文献类型丰富,但质量参差不齐。其中除了技术因素之外,还受诸多非技术管理因素的制约。

1 选择重要文献优先数字化

短期内将各文献机构所藏的全部非数字文献数字化几乎是不可能的,这就需要选择一些重要的文献优先数字化。这一点当前各界已基本达到共识。然而在“哪些文献应当优先数字化?”“哪些属于重要文献?”这类问题上仍存在不同意见。笔者认为选择需要优先数字化的“重要文献”可以从两个方面进行:一是从内容上选择,一是从形式上选择。

内容重要的文献是优先数字化文献的主体。这些文献包括中华民族历史上的经典之作、当前人们利用率较高的文献等。对这些文献进行数字化有助于中华民族优秀文化的传承,为实现尽可能大范围的信息共享,对它们应当优先数字化。现在已经有了不少重要文献被数字化成功或正在进行数字化工作,例如:书同文公司的《四库全书》、《四部丛刊》、《辞源》、《人民日报》、《中华文化通志》,北京大学的《全唐诗》、“中国基本古籍库”光盘工程,台湾中央研究院《汉籍电子文献》,还有世界上多个国家参与的“国际敦煌学项目”(The International DunHuangProject,简称IDP)等。

选择形式上有特殊价值的文献是优先数字化文献的重要方面。形式上的特殊价值主要是指文献载体或文献记录方式的特殊性。从载体上看,龟甲、兽骨、金石、泥陶、竹简、木牍、绢帛等这些我国历史上曾出现过的文献载体今天已经很少用于记录,但它们具有特殊的历史价值、艺术价值、文化价值,其原件必须得以妥善保护。为保护原件,对它们应当优先数字化。

由于人们对文献内容和形式的重要性的判断都会有很强的主观性,所以选择重要文献的工作并不易操作。以下两种方法可供借鉴:第一种是专家鉴定法。由各知识领域的专家学者组成鉴定工作组,经过讨论求同存异,推荐出各领域的重要文献。第二种是问卷调查法。面向社会分发问卷,广泛征求用户的意见,获得他们认为重要的文献。例如,1997年底,中国国家图书馆就与北京电信合作,进行了网上读书测试。测试哪些书利用率最高,结果农业等科技类图书,占86%,经济类和文学类次之,因此决定1995年以后的科技类书优先上网。[2]当然,在征求意见的过程中,分歧在所难免,但讨论之后相对的集中是能够达到选择优先数字化文献的基本要求的,因为随着时间的推移,文献数字化的工作还会继续,各方面的意见就能够逐渐得到满足。

经过各方努力推荐出一批需要优先数字化的重要文献之后,后续的推荐工作也要跟上,通过不断推荐,不断地补充重要文献进行数字化。在实践中各单位可以根据需要简单地划出优先级,有计划分阶段地进行重要文献的数字化。

2 选择适当的方法进行文献数字化

由于载体的多元性以及人们对文献需求的多样性,在进行文献数字化时应当考虑各方面因素,采取适当的方法,以期达到既节约成本又满足需要的效果。从总体上讲,选择文献数字化的方法应当考虑以下三方面:

(1)对不同载体文献采用不同的数字化方法。通常,对纸质载体的数字化方法有两种:一是键盘输入。但是这种方法文献内容转换速度慢,还容易出错,需要校对,对于大量文献的数字化转换工作,不够经济。二是扫描转换。先转换成图像文件后再通过OCR文字识别软件将其变为文本格式,进行编辑加工。三是数码翻拍。翻拍后也可以通过识别软件转为文本格式。四是全息数字化技术,即利用某些光学晶体的光折变效应记录全息图形图像,由于全息图像对空间位置的敏感性,这种方法可以得到极高的存贮容量。其特点是完整保留原纸媒体的全部信息,包括全部文字版面信息,支持多种检索方式,这一技术在“书生之家”已得到应用。对一些天然载体文献的数字化除了以上方法外,还有的是先制成缩微胶片再数字化。在文献数字化工作开展之前,我国已经有了大量的缩微胶片文献,那些大多是在20世纪80年代初,在文化部主持开展的“抢救祖国文化遗产”的工程中形成的。扫描缩微胶片不仅有利于保护文献,而且扫描缩微胶片要比直接数字化其原件,获取的信息更完整。按照缩摄中心的要求,文献缩摄前必须进行一系列的补配、加工与整理工作,因而信息较为完整。[3]

(2)对不同记录方式形成的文献采用不同的数字化方法。载体的不同直接带来记录方式的不同。常见的非数字化文献记录方式主要包括以天然载体和绢帛纸张为载体的手写记录、印刷记录和以光电磁为载体的模拟音频及视频记录等。手写记录和印刷记录可通过扫描完成数字化转换;模拟音、视频记录则可以通过模数转换完成,即将模拟量转化为数字信号,再送入数字系统中进行处理。

(3)为不同目的进行的文献数字化用不同的方法。文献数字化的目的大致有两种:一种是为信息共享,一种是为保护文献。前者主要是一些利用率较高的文献,为其进行的文献数字化应当具备检索、编辑、加工的功能;后者主要是一些珍贵的文化遗产类文献,但利用率不很高,这些文献因为原件年代久远,已受到了不同程度的损坏,目前急需保护,如一些古籍善本、珍贵档案。如果力量有限,对其缩微件扫描之后,可以暂时将其以图像形式存贮,而不急于实现检索功能,其功能的拓展可以分阶段进行。

3 选择通用的标准进行文献数字化

文献数字化如果依照不同的标准就会给用户的文献利用带来很多不便,同时也会给各文献部门管理、信息整合甚至数字化应用系统本身的可持续发展带来很大挑战。多元的文献载体和多元的记录形式使文献数字化面临标准的选择。文献数字化的标准涉及文献加工、内容编码、文献资源编码、文献资源描述、文献资源组织、应用服务和长期保存等。这里仅以文献存贮媒体格式标准选择为例作进一步分析。

文献存贮媒体格式标准选择主要指选择合适的信息存贮格式。常用的文本信息存贮格式有:doc,pdf,wps,txt等,各类文献数字化开发公司的数字化产品的格式也不统一,清华同方的中国知网的格式是caj、kdh、caa等,重庆维普的格式是vip,不同格式的文本必须用相应的专用阅读器软件才可以读出。常见的图像信息存贮格式有bmp、pcx、tga、cgm、gif、ief、jpg、naplps、png、tiff等,音频格式有mp3、wma、wav、ra、rm、rmx、lqt、midi等,视频信息存贮格式有mov、avi、mpeg,quicktime等,网页信息存贮格式有html、xml、vrml、sgml等。而这些存贮格式又各自有其内部的技术标准,如色调深度、压缩率、图像的分辨率、尺寸、屏幕显示格式、打印格式等标准。各自为政的局面会给文献数字化资源的整合带来了诸多麻烦。文献数字化的过程中应采用最通用的文件格式,这样既便于为尽可能多的人服务,又便于数据的升级。所以选择一种通用的媒体格式标准十分重要。但是根据目前的状况,要把这么多种的存贮格式统一为一两种格式是不现实的,这样,一是不利于技术的发展,二是会直接损害到一些公司利益,所以只能由专家比较研究之后,选择最适合文献存贮的几种格式,然后制定出推荐性的国家标准或行业标准。在制定文献存贮媒体标准时,首先应遵循国际上的通行标准、事实标准或通行做法,保证一定的互操作性;其次是所选用的标准及技术必须具有一定的生命力,不能选用已面临逐渐被淘汰的技术和标准,要同时考虑软硬件因素,技术应具有可扩充性,有升级的能力和向下兼容的能力,避免在将来的数据迁移中出现问题。由中山图书馆起草的文化行业标准《数字式中文全文文献通用格式》适用于采用中文全文检索技术的计算机系统,可为文献数字化中存贮格式的选择提供参考。[4]

4 选择互补性的服务策略满足用户需求

在我们深受数字化文献之惠的时候,以下三组矛盾不容忽视:一是文献数字化的数量与人们日益迫切的数字化文献需求之间的矛盾。二是网络普及程度的有限性和大量文献数据库的付费利用与大量用户数字化文献需求之间的矛盾。三是数字化文献对传统文献信息描述的有限性与许多读者追求传统文献阅读乐趣的矛盾。这就要根据不同用户的需要对文献服务的策略作适应性调整,满足用户对不同载体文献的阅读需要,以弥补现有文献服务方式的欠缺。

第一组矛盾的产生是由于技术、原件保护或数字化成本等的原因,许多文献暂时没有或者不能数字化,这令不少希望在网上利用这些文献的用户深感遗憾。这个问题在相当长的一段时间是会长期存在的。因为一种新载体并不会马上取代旧载体,新旧载体可以长期并存。只有当旧载体已经负荷不起繁重的记录与交流任务时,它才会逐渐退出文献活动的舞台,或以辅助性载体的身份或以历史文物的身份而存在。[5]随着文献数字化工作的不断推进,数字化的文献会越来越多,这种矛盾是可以渐渐缓解的。但当务之急是要在网上设立与用户交流的平台,例如设立网上咨询,为用户提供实时服务,虽然无法提供已经数字化的文献,但是应保证为其提供他所需的非数字化文献。

第二组矛盾是针对网络尚未覆盖的地区及低收入用户而言的,接触不到网络就等于把用户排除在数字化的文献之外。这种用户的人数在我国还不在少数。文献服务要照顾到这部分用户群体。印度著名图书馆学家阮冈纳赞曾提出著名的图书馆学的五定律已经成为图书馆精神的经典法则。其中的第二条是每位用户有其书,在数字时代应赋予其新的内涵,那就是每位用户都能读到数字化文献。所以这就存在着数字扶贫,要送“数字书下乡”,将成本不高的光盘数据库充实到老少边穷地区的图书室是必要的,城镇的公共图书馆可以对城镇低收人者实行优惠。

第三组矛盾的产生是因为数字化文献只是传统文献的数字化描述,不是传统文献本身,不少用户(尤其是习惯于传统书籍阅读的读者)认为书本带给他们的乐趣是数字永远无法替代的;同时,实验表明电子载体对视力的损害较强,阅读效果也不如纸质载体。所以,应当尊重用户对纸质载体的阅读选择权。解决这个问题首先是要尽最大可能保存原件的所有信息(数字化本身就损失了很多信息,如图像压缩技术有很多是基于有损压缩的),当数字化文献难以表达原文献信息(如载体、装帧的特点)时,可辅之以文字资料进行描述。但这并不能根本消除用户对传统书籍的留恋,所以仍应保存多元载体,在数字化文献时注意标引原文献的存贮地址,满足用户对“书味”的渴求。

收稿日期:2004-12-02

标签:;  ;  ;  ;  

文献数字化中的非技术策略_文献论文
下载Doc文档

猜你喜欢