数字图书馆数字馆藏的长期可靠存取研究_数字图书馆论文

数字图书馆数字馆藏的长期可靠存取研究_数字图书馆论文

数字图书馆数字馆藏长期可靠存取问题研究,本文主要内容关键词为:数字图书馆论文,可靠论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着数字网络技术的发展,数字图书馆将成为图书馆的主要存在形式,其职能也从藏书建设转变为数字资源建设。近年来,数字图书馆的研究焦点一直集中于数字图书馆的知识组织与管理、资源建设与服务、知识产权保护等热点问题,而对作为数字资源中心的数字图书馆数字馆藏长期可靠存取的技术与方法缺乏深入研究。在海量数字资源存储新技术大量出现的今天,数字资源长期可靠存取技术与方法的严重滞后,已逐渐成为阻碍数字图书馆进一步快速健康发展的重大问题,亟待下决心研究解决。

1 数字图书馆数字馆藏的特性

概括地说,数字图书馆的数字馆藏是指以数字形式存在于数字图书馆的信息资源的集合体。与传统图书馆馆藏不同,数字图书馆根植于计算机技术与网络传播技术的特性及其对数字信息的加工、传播与利用功能,决定了数字馆藏的特殊性质。

1.1 数字馆藏的网络共享性

数字馆藏以数字形式存储于数字图书馆,数字化与网络化是其基本属性。数字馆藏通过网络得以跨越时间和空间的限制,同时向多个读者传播,提供共享,而不会使数字馆藏发生任何变化。数字馆藏最大限度地利用了网络的互联共享特性,给广大读者带来了无穷的便利,但同时也使数字馆藏的安全性受到威胁。

1.2 数字馆藏的非直观性

与传统馆藏形式上的直观不同,数字馆藏是运用信息采集技术对知识资源进行数字编码、加工后形成的产品,其存储形态是以二进制数码来表示的,无法直接进行识别,必须通过计算机及相应系统平台将数字编码形态的信息读取出来,然后转换成可供阅读识别的形式。因而数字馆藏具有对系统技术与环境的依赖性,离开了产生数字馆藏的原有计算机操作系统、数据格式等技术环境,就无法识别或读出数字馆藏。

1.3 数字馆藏结构的复杂性

人们对信息处理方便快捷的不断追求与数字技术的快速变化发展,以及制作者保护自身版权的需要,使得数字馆藏产生于各种格式形态与制作技术。再加上数字馆藏本身具有对象复杂的特点,其文字、图形、声音、影像等多种媒体资源都可以单独或相互组合的形式构成,导致其结构的复杂性。这也必然大大增加数字馆藏的存取与管理难度。

1.4 数字馆藏的易损性

数字馆藏在给人们带来网络共享的极大便利的同时,也由于网络的开放性与交互性特点,使得数字馆藏处于开放的空间,时刻面临不安全因素的威胁。如黑客攻击、病毒破坏等。常可导致其产生无法恢复的数据丢失或系统崩溃。加上数字馆藏存储介质本身的易损坏、易改写的特性,使得数字馆藏具有容易遭受毁灭性损失的特性。

2 数字图书馆数字馆藏长期可靠存取所面临的问题

数字图书馆数字馆藏区别于传统图书馆馆藏的特性,要求长期可靠存取的基本条件是:数字馆藏存取系统应具有完备的处理各种文本、数据、图表、音像和多媒体的能力;数字馆藏载体应具有稳定可靠的存储寿命;拥有可靠的能覆盖所有数字馆藏格式的格式转换及迁移技术;具备较强的抗灾害能力;数字馆藏的存储载体、格式、软硬件中的任何一项出现问题,都将对数字馆藏的存取产生重大影响。目前,数字馆藏的长期可靠存取还面临着诸多问题:

2.1 载体寿命问题

数字馆藏的长期可靠存取必须以各种类型的物理载体为对象。目前常用的载体包括软盘、磁光磁带、CD-ROM和WORM光盘等。其使用寿命各不相同,9磁道磁带的使用寿命为2年左右,8毫米磁带为5至10年,4毫米磁带为5至10年,DLT磁带为20年,磁光磁带为30年左右,WORM光盘为100年[1]。传统的资源载体可以通过观察其物理表象特征判断其保存与使用状态。而软盘、磁带、光盘等载体,则需借助相应的设备才能检查其贮存与使用情况。与传统载体相比,数字资源载体体积小、容量大,但载体容易变质、损坏,易遭受毁灭性损失,且对存储环境的要求越来越高。在大容量高密度存储媒体不断推出的情况下,存储媒体的不稳定性在增大,其有效寿命在下降。因此载体问题,是数字馆藏长期保存需要直接面对的问题之一。

2.2 技术更新问题

相比载体寿命问题,更为迫切的问题是数字馆藏的读出、检索技术的过时问题。数字资源对系统软硬件平台的依赖性,使得数字资源的读出、还原技术过时问题,成为困扰数字图书馆发展又一极大障碍。计算机存贮技术与软件技术的迅速不断出现与周期性的更新,使得数字资源存取的软硬件随之更新,必然导致原有数字资源存贮与利用技术的淘汰。在技术与市场的推动下,记录与存储数字馆藏的设备与软件大约每3至4年就完成一个更新周期[2]。如何使面临技术更新的数字资源安全过渡到新的软硬件平台是数字图书馆在发展中面临的又一难题。

2.3 数据格式问题

数字图书馆的数字馆藏因制作商保护版权的需要或制作时技术与条件的限制,使得目前的数字馆藏以大量的不同格式形式存在,如PDF格式、SGML格式、XML格式、WDL格式等等,多达数十种以上,其直接结果是造成格式之间转换的极大不便。为此,人们试图呼吁采用统一的标准格式,如SGML(文本描述方法),HIML(超文本组织语言),TIFF(扫描图像格式),MPEG(动画扫描格式)等,但这些格式本身就面临被更新的格式淘汰的境地,以至于无法实施。

2.4 安全防护问题

数字馆藏的服务主要集中在网络上。网络安全问题与网络本身固有的特性有关,所以网络环境的复杂性决定了网络安全的复杂性。因而与传统馆藏相比,数字馆藏显得较为脆弱,极易受到外力的干扰和破坏。数字馆藏在受到计算机病毒、黑客入侵、磁场、电磁脉冲等的打击时,其对数字馆藏的破坏程度,类似于传统图书馆遭遇一场火灾或地震。数字馆藏一旦受到病毒侵蚀和黑客破坏将可能在瞬间化为乌有。磁场可使电子图书不复存在。电磁脉冲对计算机系统更是具有强大的杀伤力。再加上人为操作失误、保存环境变化、停电,以及火灾、水灾、地震等自然灾害等都可能对数字馆藏造成无法挽回的损失。

3 目前数字图书馆数字馆藏长期存取的常用方法与缺陷

目前数字馆藏的长期保存通常采用两种策略:一是对原硬件、操作系统和软件进行仿真;二是定期把上一代计算机上的数字馆藏迁移到下一代计算机上。但不管是采用“仿真”策略还是“迁移”策略都有其局限与不足。

3.1 仿真技术

仿真技术是利用仿真软件对不同技术平台的馆藏资源进行模仿获取的技术,其实质是通过仿真软件将已过时淘汰的系统模拟到下一代计算机上,使得过时的设备和功能得以在非原技术平台上运行。仿真技术最大特点是能再现数字馆藏原来的功能与外观。特别是对于一些不适于迁移的、复杂的数字馆藏,仿真技术具有明显的应用前景。

但仿真技术具有比较明显的缺陷,仿真技术常常只能仿真原文献的部分功能,恢复原件的部分原始状况。在实际运用中,在利用仿真方法来挽救过时软硬件技术在当时的记录时其兼容性较差,而且仿真软件自身的耐用性也必须得到维护。目前尽管仿真技术有一定的应用价值,但对于新型硬件与软件不断涌现的今天来讲,制作一个读取过时的软硬件产生馆藏的软件,存在与市场发展导向的背离,不太可能是一个长期有效的方法。软件制造商也可能最终会放弃某些软件的向下兼容性。另外,仿真的代价也相当昂贵。专家们计算,仿真费用可能会超过反复进行迁移的费用的总和。

3.2 迁移技术

将数字馆藏从一种技术环境转换到另一种技术环境上的复制行为称为迁移。在绝大多数情况下,迁移是将数字馆藏从上一代的硬件、软件转换到下一代硬件、软件的过程。迁移的目的是保护数字馆藏检索与再现的能力,使用户可以抗拒不断的技术变化而使用它们。迁移可以随着计算机软硬件变化适时改变数字馆藏格式,使得数字馆藏在将来也可以被读取。迁移也意味着基于字符的数据可以从一个存储载体经转换格式后转移到另一个存储载体上。目前数字图书馆广泛采用的迁移策略主要有两种:一是将数字馆藏从稳定性低的载体上迁移到稳定性高的载体上,从对软件依赖性强的格式迁移到对软件依赖程度低的格式上。二是将数字馆藏从各种不同格式迁移至易于管理的最简单且符合标准的格式。

在当前技术条件下,迁移技术在用于长期保存数字馆藏中与软件无关的格式产生的文本文件或简单、通用的平面文件比较合适。但迁移也有其明显不足:第一,迁移在涉及格式迁移时,常会使数字馆藏的计算能力、图表展示、索引等消失,因而不适于保存复杂系统中的复杂数据对象。多媒体作品、交互性文件、联机对话等动态数据则更不适用迁移方法。第二,数字馆藏迁移到不同操作系统时,原格式外观无法保持;将数字馆藏复制到硬拷贝,如纸或缩微胶卷上,虽能延长使用寿命,但却失去了数字馆藏所固有的特性。第三,随着技术环境的不断变化,人们必须不断地选择时机进行迁移,迁移将永无休止。人们很难预测什么时候、哪些馆藏需要迁移以及所需的经费是多少。数字馆藏的长期保存要求不断地进行迁移。若某一次技术更新,由于人为疏忽或其它不可预料原因而未迁移,就将致使数字馆藏丧失价值。而且,数字馆藏也会在一次次的迁移中,不断地丢失信息,最后甚至面目全非。

  4 数字馆藏长期存取的新技术方法

4.1 数字图形输入板[4]

由于迁移的种种不足,人们研制了一种称之为数字图形输入板的新技术策略,它能同时保存软件和硬件,降低迁移费用。数字图形输入板以光为能源或自带电源,自身备有屏幕并能将屏幕上的馆藏自动转化成数字馆藏进行存储,数字图形输入板的馆藏存储能力可达数百上千TB字节(1TB=240字节)。数字图形输入板融信息存储器与处理器为一体,能进行馆藏的动态存储。此外,数字图形输入板还具备触摸式控制能力以及声控能力。数字图形输入板的实体异常坚固、耐寒、耐高温、防水及抗重力。研究开发数字图形输入板技术的成本无疑是很高的,但与仿真技术及迁移技术相比较,它具有光明的应用前景。但数字图形输入板在选择要存档的馆藏及其存档方式方面仍有一些问题没有得以解决。如:如果数据本身与其应用软件分离,则数字图形输入板就成为另一件静态存储媒体,如果数据与其应用软件一同被归档,则软件程序方面的缺陷,即引起错误结果或运行故障的软件程序,也一同被归档。类似的有关问题还需要有关专家进一步解决。

4.2 网络附加存储(NAS)技术

网络附加存储(NAS)技术是一种高性能跨平台数据存储技术,一般由微处理器、内存、一组RAID磁盘驱动器、网络端口和经优化的操作系统组成。也可将NAS看作通过网线连接的磁盘阵列,它具备磁盘阵列的所有特征,其物理位置灵活,可连接在以太网的不同位置上,为LAN或WAN上的客户机的服务器提供文件服务、数据存储。附网存储(NAS)技术是部件级的存储方式,它将存储设备通过标准的拓朴结构连接到一群计算机上,无需服务器直接上网,它不依赖通用的操作系统,采用面向用户设计的、专门用于数据存储的简化操作系统,内置与网络连接所需的协议,使得整个系统的设置与管理都较为简便。NAS以网络为中心,支持开放的标准协议,提供多平台数据共享服务,部署方便,具有多方位的高扩展性和独立优化的存储操作系统,采用集中的存储模块,便于在线扩容,支持多种协议的管理软件和系统,且能即插即用。

4.3 存储局域网(SAN)技术

存储局域网(SAN)技术是采用分布式的专用网络,在服务器与存储器之间形成的高性能网络结构。它将各种操作平台的服务器与多台存储设备用专用的交换机或共享器连接在一起,形成独立的、专门用于数据高速交换的局域网。SAN技术实现了数据传送与存储的分离,使网上所有服务器都能共享SAN的存储设备,避免了各个服务器单独使用存储设备的负载不均衡现象,使存储资源得到合理分配。SAN将LAN上的存储转移至SAN中,通过集中存储,使数据的访问、备份和恢复在SAN上进行,不挤占LAN的网络带宽,在出现大量数据访问时,也不会降低网络的性能。在存储局域网(SAN)中,数据的备份可以独立于网络结构,轻松实现数据的转移,从而改变了离线或在线存储设备对网络结构的依赖,大大提高了操作性能。在存储局域网(SAN)中允许将存储设备与服务器连接在一起,使得其可方便地实现灾难恢复功能。采用SAN基础结构,可实现校园网或城市网内的远程灾难恢复备份,如需要更长距离的备份,SAN通过网关与WAN连接,可在主数据存储区发生故障时,仍保证数据的正常使用。SAN实际上是通过特定存储网络直接交换的数据中心,SAN以较少的协议实现其功能,隐患少,其还可以进一步发展为融合直接访问存储、网络存储与存储区域网特点的综合解决方案。使数据独立于服务器而存在,数据的安全性不再依赖于服务器的安全性,存储空间的扩展与调整也更为方便。

相比于数字图形输入板和网络附加存储(NAS)技术,存储局域网(SAN)技术在性能和存储能力的可扩展性上都占有明显的优势,代表了数字图书馆数字馆藏存储技术的发展方向。目前,IBM和SUN等公司都推出了SAN实施计划,在美国甚至出现了利用网络存储技术代理客户存储数字馆藏、数据备份的存储服务提供商[5]。国内也有公司推出了SAN存储局域网系统,并已开始在一些图书馆进行针对数字馆藏的具体运用,SAN的专用产品如光纤交换机、光纤磁盘阵列、光盘磁带库等已开始投放市场。网络存储技术正以其高可靠性、自动备份、数据恢复、集成应用等明显技术优势,开始展示其强大的市场应用前景[6]。

5 数字图书馆数字馆藏长期可靠存取的宏观解决思路

5.1 制订数字图书馆数字馆藏长期存取统一标准

我国数字资源存取技术一直处于试验阶段,缺乏相关的可被广泛接受的标准[7],这就使数字资源的生产者、提供者、维护者各自为政,各自根据自己的需要,随意采用各种系统与技术,其结果必然导致数字资源在以后存取中面临多种困难。数字图书馆作为数字资源保存、传播与利用中心,其数字馆藏的长期存取是关系到人类文化与知识传播、继承的大事。针对我国数字图书馆数字馆藏长期存取技术的现状,尽快制订数字馆藏长期可靠存取的通用技术标准与组织管理协议,以尽量减少数字馆藏在新旧平台间转换的难度,降低数字馆藏长期存取的组织管理难度,已成为数字图书馆建设与发展中刻不容缓的任务。

许多国家已意识到标准的缺乏是数字资源长期存取诸多问题产生的根源之一,针对数字馆藏长期存取标准问题的研究已在近年成为国际热点。美国国会图书馆早在1998年就联合众多图书馆制订了国家数字馆藏基础设施及存取计划,为全球数字化资源的长期存取提供了政策、标准与技术上的指导。荷兰国家图书馆在2002-2005年的发展规划中明确提到数字资源长期存取问题。澳大利亚更是制订了包括“澳大利亚国家图书馆数字化资源保存战略”、“数字资源保存的元数据”、“保存澳大利亚电子出版物的物理形式——选择指南”等系列规范与标准[8]。我国也在2002年6月由国家质量技术监督局颁布了《开放式电子图书出版物结构1.0》,该标准为电子图书的内容表述提供了规范,从而成为我国第一个有关数字图书馆内容的国家标准[9]。该标准的出台无疑为我国数字资源的标准化建设创造了良好的开端。

5.2 建立数字馆藏样本呈缴国家图书馆集中保存为主、分布式数字图书馆保存为辅的共同保存机制

建立数字资源制作者样本呈缴国家集中保存制度,是实现数字资源长期存取的关键。在传统图书馆中,文献的拥有权和保存权是统一的,大多数国家的版权法都允许图书馆进行“为保存馆藏需要而进行的复制”[10],加上传统介质的稳定性,可确保馆藏的长期保存。而数字馆藏的制作者与发行商出于保护版权的需要,往往采取加密等多种保护措施发行数字作品,数字图书馆因而往往无法行使永久保存的功能。因此,建立国家数字资源保存基地,以法律形式固定数字资源制作出版机构免费呈缴数字资源产品样本的义务和责任,以确保数字资源在国家控制下的长期保存,是确保国家文化遗产长期存取的必要措施,也是监督、检查出版者数字作品制作技术的标准性和长期存取技术的规范性的需要。当然,国家数字资源保存基地应对呈缴样本的复制与流通采取严格的控制措施,以确保版权人的合法权益。

完全由国家集中于某个基地,如国家图书馆或版本图书馆承担数字馆藏的长期存取任务,可能使其承受太大工作压力与经济负担,也使其他数字图书馆丧失保证数字馆藏长期存取的责任意识,因此,笔者认为,建立以国家基地为中心,各数字图书馆或数字图书馆联盟为分支的二级数字馆藏的长期保存机制,以在全社会范围内分担数字馆藏长期存取工作的责任与义务,一方面可大大减轻国家的负担,分担数字馆藏长期存取的风险;另一方面通过分工与合作,便于进一步研究数字馆藏长期存取的技术方法,促进数字馆藏长期存取技术的发展。英国、荷兰等国以此为基本模式的数字化资源长期保护工作[11-12],已在近年取得了明显效果,无疑应成为数字资源长期存取工作的典范。

5.3 确立制作者最终责任机制

美国数字归档特别工作组明确指出:“避免有价值的数字信息丢失的第一道防线应建立在该信息的创建者、提供者与拥有者的责任上[13]”。数字资源的制作者与发行人,受其自身利益的驱使以及技术程度的局限,以及对维护自身数字产品资源存取与资源共享的利益关系的认识与看待角度的不同,很难将自身在维护数字资源长期存取中所应承担的责任与义务放在首要位置。他们在数字产品形成的开始就决定着文件用什么格式产生、以什么媒体存储,是否执行标准等,从而限定了其数字作品的性质与长期存取方式,其他人的任何改变都将或多或少影响其作品的原始形态,因此数字作品的创建者应对数字作品的长期存取负最终责任。

收稿日期:2004-02-09

标签:;  ;  ;  

数字图书馆数字馆藏的长期可靠存取研究_数字图书馆论文
下载Doc文档

猜你喜欢