克服数字困境的第一步_数据迁移论文

克服数字困境的第一步_数据迁移论文

跨越数字困境的第一步,本文主要内容关键词为:困境论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字信息存取的便利与多种用途,使人们越来越依赖通过Internet访问信息资源或通过脱机的数据格式来获取信息。这导致了数字出版物的“比特”累积加快,新的数字资源不断产生,网站层出不穷。从简单的文本文件到非常复杂的网站资源,这些数字资源全部受益于技术(如声、像结合技术,链接其他资源的能力,访问数据的能力等)。许多馆藏资源数字化的目的,都是为了使用数字技术改善对传统资源的存取。然而,数字资源仅是使用了对当前存取十分有效的技术,而正是这些技术对日后数字资源的存取留下了极大隐患。许多数据日后可能无法读出,其主要原因是软件过时或丢失,或者数字媒体损坏。

计算机科学告诉我们,数据0和1是可以永存的。然而,人们对0 和1的解读却远没有0与1的产生与传递那么容易。历史告诉我们, 以数字方式保留的文化遗产,由于多种原因很可能无法再现。信息时代在给人类带来空前机遇的同时,也正在编织一个数据困境。无论是模拟文献的数字代用品,还是直接以数字方式产生的数字资源,最终都会在长期保存和获取上遇到同样棘手的问题,只是后者比前者更糟,一旦失去就无法挽回。

在任何时候,图书馆、情报所与档案馆都不太可能发明一种新技术去主导与影响信息的产生与形成部门,使它们按照保存文化遗产的要求去产生信息我们只能关注信息技术的发展变化,评估由此对文献资源保存和利用的影响,分析研究、提出对策,以掌握主动。基于这一点,本文分析了保存数字资源中可能面临的新问题,并提出走出困境的管理对策。

1 保存与获取中的新问题

无论是纸质环境还是数字环境,信息的获取与保存之间总是相互关联的。为了使用户现在与将来可以获得他们所需要的已有资料,传统的图书馆、档案馆为维护文化资源,在保存它们的物质基础结构上投资很大。上千年的历史证明,只要文献载体安全,获取文献信息是没有障碍的。然而数字资源与传统资源有很多不同之处,在信息资源的保存与获取上,需要先一步考虑的问题比纸质文献多。如果在数字形成阶段没有积极地考虑日后该信息的长期获取问题,数字信息就可能丢失或在不久的将来不可能利用。数字资源一旦丢失,要去挽救它们,其费用是极其昂贵的,有时是不可能的。因而,与传统文献不同的是,为确保数字资源能长期获取,最经济、最安全的管理模式是从数字信息创建开始,在数字信息的整个生命周期内,都应该积极地考虑有关问题。

在数字资源的保存与获取上,图书馆、档案馆与情报所遇到的新问题是:

1.1 涉及面广泛,协调与合作很重要

传统馆藏的保存工作与其他机构的关联不大,例如图书馆与出版社在传统文献的保存上并不存在紧密的关系。维护数字信息的保存与获取,则涉及到广泛的风险,其中最为关键的是数字资源的创建人(如出版商等),他们决定着文件用什么格式产生,以什么媒体存储,是否执行标准等,这直接关系到大量的文档可否便于其他人管理的问题。另一个关键的因素是对数字资源承担保存职责的部门,他们必须与数字资源的创建者、提供存取途径的部门保持不断的对话,使三者在有利于数字信息的长期存取问题上,采取协调和合作。为此,维护数字资源的保存与获取,必须使一些与数字资源相关的部门联合起来,充分发挥各自的优势与技能,共同采取科学的管理方法与技术手段,保证已产生的并需要长久保存的数字信息的可获取性。如果没有强有力的合作管理策略,数字资源的保存与获取会陷入风险之中。

1.2 采集中的新问题

对于传统馆藏,未被选作保留本,并不意谓着该款目就可能丢失。因为在馆藏管理中,今后还有可能将其补充进保存对象中。在数字环境中,不存在这种可挽回损失的缓冲区。没有被选为保存对象的数字资料,几乎一定会丢失,今后再需要将其收藏时已为时过晚。

在数字对象保留的选择上,存在着3 个需要考虑的问题:希望保存的款目,保存本的版本选择以及冗余程度的选择。数字资源保存对象的选择应基于馆藏建设的政策与对馆藏的了解,在这里数字资源的价值鉴定是极为关键与重要的。此外被选为保存对象的数字对象若有多个版本,应鉴别哪种版本更适于长期保存。为了确保数字信息的保存,在对冗余程度的选择上,也需要加以考虑。在传统印刷资料中,对储存在不同资源库内的多个拷贝的冗余程度是有所考虑的,而正是这种考虑为印刷资料的超世纪保存创造了条件。在数字环境中,某个部门尽管可以在全球范围内提供存取并接受保存责任,但究竟这些收藏对象应保持多少程度的冗余,才有利于长期安全地被用户获取,不是一个部门可以决定的,它需要各部门间相互协作与协调,还需要结合拷贝费用进行通盘考虑。

1.3 难以预测的费用与投资

在维护数字资源的长期保存上,所需费用比传统印刷书刊多得多,并难以准确地预算。纸质文献的保存费用主要涉及到保存这些资料的馆库累积费用、物质空间以及环境控制费用,这些费用对于数字资源的长期保存也是基本的,但这并不是主要的费用,它还涉及到其他费用,如:

●必须追随硬件、软件的更新,积极地维护数字馆藏的获取,然而技术是不断改进的,这种费用也必将持续支付;

●数字资源的长期保存与利用需要保存元数据,元数据创建的费用并非是可以一次了结的,它需要按资料长期管理的行为不断地进行修改,因而元数据创建的费用也是长期的;

●媒体格式变换、读出、转换与迁移中涉及到版权问题,可能需要支出费用等。

可见,保存数字资源的费用,许多都超出了保护传统馆藏的考虑范围,而这些随技术变革保证数字资源再现的费用要比纯粹地保存其媒体的费用高得多,也更难以预见。

1.4 技术转换中的法律问题

数字资源保存中,有许多方面涉及到版权法与知识产权问题。数字资源随技术更新而进行迁移、仿真等技术处理过程中,不仅涉及到信息内容而且涉及到相关软件。在知识产权上,数字资料比传统文献的争论更复杂。如果考虑不周,这些问题将会阻碍数字资源的长期可获取性。数字资源是出版者、作者、基金部门共同努力与投资的产物,他们对数字资源的长期存取都应感兴趣,为了捍卫投资的成果与这些资源对后代的智力与文化价值,图书馆、档案馆与情报所应通过多种渠道解决技术转换中的法律干扰。

2 入藏前的选择与采集

在数字环境中,对被保存的数字资源的选择极为重要。在印刷环境中,入藏文献的选择与保存是可以分开考虑的,其时间间隔几十年也影响不大。但在数字环境中,对象的采集与保存必须同时考虑,否则在很短时间内,由于网络更新或是技术改变,该数字资源就无法获取。因而,在采集数字资源时,必须同时考虑今后的保存问题,这是维护数字信息长期获取的第一步。传统环境中,许多相关的采集原则在数字环境中均可以使用。例如,在是否值得采集上需要考虑以下问题:

●该资源的入藏是否在法定要求之内(这点对版本图书馆、档案馆极为重要);

●该资源对你单位的职能活动是否具有较高价值(档案馆必须考虑的问题);

●信息内容质量是否很高;

●它在同类信息中的代表性与重要性;

●将来的研究工作中是否可能需要它等。

不同的是,采集数字资源时除考虑信息内容外,还得考虑该资源的文件格式、媒体、文档编制等。在数字环境中,正确的文档编制对文献当前与今后的获取是十分关键的。它不仅可以超越时间地提供管理该资源的基本详细资料,还可以提供背景信息。在数字资源的长期保存中,没有正确的文档编制,即使采用的技术可行,也将无济于事。因而,在采集中,对文档编制不充分的数字资源,应对其选择进行重新审定,或设法找到相关文档编制。

如果相同资源以多种格式存在,究竟应选择哪种格式入藏更好呢?笔者认为,以下问题是必须考虑的:

●用户的首选格式是什么;

●从技术上考虑,这种格式是否容易使用与容易长期管理;

●被入藏的资源是否仅作为短期保存;

●拟入藏资源的版本格式间是否存在明显偏差;

●其中某一种版本是否比其他版本能在更大范围内支持使用等。

文件格式发展很快,淘汰也很快。众多的文件格式各有优缺点,有的特别受用户欢迎但却不利于长期保存,如软盘。为了兼顾利用与保存,欧洲一些国家的图书馆、档案馆针对文件格式是否支持长期保存把它们分为三个层次:可以接受的格式、最优格式与不可接受的格式。鉴于保存与利用的不同要求,当同一资料具有多种格式时,可把用于长期保存的存储格式与受用户欢迎的使用格式分开采集,使同一文献用不同格式提供利用与保存。格式的采集可考虑以下原则:

●无论是存储格式还是为用户提供利用的使用格式,均应采用非专利化格式;

●尽可能将归档保存的存储格式与对用户传输的格式区分开来;

●尽量减少被采集的格式种类,以简化管理过程与降低管理费用。

为了简化今后的管理过程,有利于入藏资源信息的长期获取,图书馆、档案馆应选用统一媒体进行采集。选用哪种媒体作为采集媒体至少应考虑以下问题:

●格式的稳定性。例如磁带比光盘稳定,光盘比软盘稳定等。

●媒体容量。高容量媒体当然好,但其成本也会较高。在选择媒体容量时还应考虑到采集的信息量大小,经济承担能力等。

●媒体的体积大小。

●如果该资源的利用率高,还得考虑用户获取该媒体的难易程度。例如,光盘就比磁带更易为用户获取。

●版权。版权所有者是否同意你将版权所有者的信息转换到与其指定不相同的媒体上等。

因而,媒体的选定应考虑到方方面面的问题,应根据被采集文献的利用率、收藏部门的经济能力、媒体稳定性等进行综合评价。

应当指出的是,网络资源的采集概念与传统馆藏的采集概念有很大区别。网络资源的采集并不一定要求将该资源物理地定位到该馆藏中,它涉及到建立虚拟馆藏的问题。例如,制作该馆藏的拷贝或镜像,对该资源提供超级链接、联网目录与检索工具等。反之,对非网络资源的采集则意谓着物理地定位在媒体上。在数字网络环境中,对资源提供存取而不承担短期或长期的保存责任是可能的。在国外,许多图书馆与相关部门利用不同的收藏级别来解决网络资源的保存问题。例如,伯克利数字图书馆网络资源服务站采用4个级别(档案级、服务级、镜像级与链接级)采集网络资源[2];人文数据服务机构(AHDS)采用5个级别采集网络资源(档案级、服务级、代理级、链接级与检索工具)[3]; 加拿大国家图书馆使用3个级别采集网络资源(档案级、 服务级与链接级)。这些级别的划分既考虑了对主要网络资源长期获取的保护责任,又考虑到对其维护的经济承担能力。实际上,对网络资源的采集制定馆藏级别与承诺保存责任,是分工合作管理网络资源的重要环节。当用户需要发生改变或环境变化时,馆藏级别可以进行重审与调整,如从一个级别调整到另一个级别,或撤销入藏等。但对于已经选作长期保存的款目,应进行慎重处理。

3 存储管理

脱机保存的数字资源,其存储活动直接影响到该资源能否长期保存和被用户获取。为有利于数字资源长期保存与可被用户获取,存储管理的基本原则是避免数字媒体的损坏。

3.1 多备份制作

存储之前,应给该数字资源制作多个备份。在备份制作上应考虑以下问题:

●最好用不同的软件制作数字资源的多个备份,以防止故障或软件中的病毒对数据造成损坏;

●最好用不同厂家的可比较性媒体对数字资源制作多个备份,以避免媒体由于可能存在产品缺陷而造成数据丢失;

●如果必要的话,最好用不同的存储技术制作数字资源的多个备份,以减少数据丢失的风险。

不少国家的图书馆、档案馆建议,作为长期保存的数字资源应制作至少2个备份,分藏在不同地理位置中,避免意外风险。

作为个案研究,这里介绍英国艾塞克斯大学数字档案馆的备份制作[5]。该数字档案馆是英国经济与社会研究委员会(ESRC )与联合信息系统委员会(JISC)共同资助的社会科学文献资源的英国国家数据中心。为了防止数据丢失,其措施之一是每个文件至少制作4个拷贝, 它们是:

●主拷贝(main copy)。该拷贝是在HSM文件系统中的主数据库。

●影子拷贝(Shadow copy)。至少制作一个影子拷贝。 当文件更新时,它们是主系统各个磁带的“影子”。保存这些文件的多个版本,允许工作人员返回文件的最初版本上。

●只读光盘拷贝(CD-ROM copy)。每个数据库产生一个CD-ROM,它可作为长期存储的媒体。

●脱机近线拷贝(off-site near copy)。以脱机形式保存一个近线拷贝,以防艾塞克斯出现重大灾祸。

3.2 媒体更新与重定格式

在存储过程中,数字资源的媒体更新与重定格式是随时应当考虑的,至少应在以下几种情况下必须考虑:

●媒体寿命已到,必须进行媒体更新。一般应在厂家标明的最小寿命期之前,进行媒体更新处理。

●在对媒体进行定期检查时,发现数字资源中有明显的暂时时错误或读出错误时,应当进行媒体更新。

●如果硬件或软件已经更新(如读出设备或软件已经升级),应当随时进行媒体更新或重定格式。

应当注意的是,为保证媒体更新后其数字信息的可靠性,应使用质量控制程序,对更新前后的数据进行比较,以保证媒体更新后数字资源的真实与完整性。在重定格式时,资源的原始外观或某些信息有可能丢失,应进行校对并以原始版本制作保留数字资源的新拷贝。

3.3 存储环境与日常操作

存储过程中,存储环境将明显影响数字媒体的寿命与数据安全。恰当的环境条件有利于延长数字存储媒体的寿命,并可减少对数字资源及其文档编制的意外伤害。

国外专家认为,保存环境的温度与湿度的恒定很重要。温度、湿度的波动,与温度、湿度稍高于理想值的情况相比,对媒体危害更大[6]。表1是英国国家标准BS4783对数字存储媒体保存环境的建议。

除以上具体温度与湿度要求外,BS4783还对具体管理有以下要求:

●当数字媒体从较低温度的存储区取出时,应当待其温度自然调节至室温后再用;

●存储环境应有监控程序;

●数字媒体周围的灰尘与空气污染物应尽可能小;

●避免阳光直接照射;

●应提供适当装具保护;

●存储设备应使自然灾害(如火灾、水灾与磁场)与数字媒体的影响减至最小;

●没有非数字化材料(如运行指令等)伴随存储在存储区内。

除存储管理外,脱机媒体的操作处理也是极为重要的。不正确的操作,不仅会损坏媒体而且会造成数据丢失。对数字媒体的操作管理可参见参考文献9,10,11。

表1 BS4783关于数字存储媒体的环境建议(摘要)

运行环境非运行环境长期保存环境

(温度湿度) (温度湿度) (温度湿度)

盒式磁带 18℃至24℃ 5℃至32℃ 18℃至22℃

(Cassettes)

45%至55%5%至80% 35%至45%

(12.7mm)

磁带匣10℃至45℃ 5℃至45℃ 18℃至22℃

(Cartridges) 20%至80%20%至80%

35%至45%

螺旋扫档磁带 5℃至45℃

5℃至45℃ 5℃至32℃

(4mm与8mm)20%至80%20%至80%

20%至60%

10℃至50℃ -10℃至50℃18℃至22℃

CD-ROM10%至80%50%至90%

35%至45%

4 克服技术淘汰与建立技术处理中心

数字技术在不断地发展变化,无论是短期内(10—20年)保存数字资源,还是长期(20年以上)保存数字资源,都面临着技术平台频繁改变而有可能使数字信息读不出的风险。国外专家认为,对于需要长期保存的数字资源可采用迁移与仿真技术解决这一问题;对于短期保存的数字资源可以考虑采用技术保护的方式克服。

迁移是将数字资源从上一代的硬件、软件转换到下一代硬件、软件上,这有赖于将数字资源拷贝到不同媒体上和跨越不同技术平台进行拷贝。迁移的目的是保护信息检索与再现的能力,使用户可以抗拒不断的技术变化而使用它们。迁移不可能全都保证恢复原有版式与特征,很有可能失去数字资源原来的功能性。在进行这一操作时,除非有保证信息资源真实性的严格质量控制,否则可能危及原件的完整性。因而,执行迁移必须具有质量控制程序、迁移过程的严格文档编制、保存元数据与文档等,才有可能确保迁移后的文件不会出现内容与背景的丢失。

仿真是利用仿真软件对不同技术平台的文件进行获取,其实质是通过仿真软件将淘汰系统模拟到下一代计算机上。其最大特点是能使数字资源原来的功能与外观再现,特别是对一些不适于迁移的款目含有更大的承诺。因此,对于复杂的数字资源,仿真可能具有最佳应用前景。仿真尚在研究与发展阶段,还有待进一步试验。特别值得注意的是,有时仿真技术并不能全面地发挥其功能,仅只能仿真原文献的部分功能,恢复原件部分的原始状况。此外,除非大批地进行仿真,否则相当昂贵。专家们认为,仿真费用可能会超过反复进行迁移的费用的总和。

技术保护是保留存取数字资源的硬件、软件,使数字资源在原始技术平台上读出以克服技术淘汰的一种方式。对于复杂数字资源,它可能是一个非常实际的过度措施。这种方法仅仅只能作为数字资源短期保存的权宜之计。在相当短时期内,硬件软件的技术支持不可避免地会消失,随时间推移,其长期获取的问题会日益突出。

以上解决方案涉及到计算机的许多前沿技术,风险很大,图书馆、档案馆、情报所等文献收藏部门不具备技术力量与设备条件完成这类技术工作。因而,有必要在我国建立一个技术服务中心承担数字资源长期保存的技术处理。表2 列出了建立技术服务中心解决技术淘汰问题的优缺点。

表2 建立技术服务中心承包技术处理的优缺点

的问题 建立技术服务中心的优点带来的问题

在长期保●避免了建立基础结构 ●由于缺乏实践经验与

存复杂数 的必须费用,对于小型机 技能,难以监督技术中

字资源上,构来说,受益匪浅; 心,也难订立行之有效

实践经验●给部门以更多的精力的合同;

有限 与时间去处理其他方 ●没有实践经验,难以

面问题;

向技术中心阐明本部门

●为部门提供了不能得的要求,也无法评价中

到的技能与实际经验;

心的技术水平;

●承包出去可能是最经 ●技术中心在我国是一

济、实惠的方式. 个新领域,缺乏市场竞

争,由此可能带来诸多

问题.

便于用户●技术中心可以保证合难以控制响应时间,特

获取需考 同中提出的要求,便于

别是利用率高的款目,

虑的问题 对其进行监督.可能太贵或速度太慢.

安全与可●合同可以保证已经提 ●缺乏控制,特别对于

靠性 出的安全问题 敏感资料的控制

质量控制●可按合同完成指定的 ●国外有关个案研究表

质量要求 明,对于重要的资料,

丢失与失真的风险高出

不可接受的水平

由上可见,建立技术中心解决文献收藏部门克服技术淘汰的技术问题有许多可行之处。特别是我国许多收藏部门并不具备相关技术与设备时,更是可考虑的方案之一。存在的问题可以逐个克服,使技术中心的管理与监督完善,以满足文献收藏部门的要求。其实,由外单位来承包图书馆或档案馆的某些业务或服务并非新鲜事。多年来,我国图书馆就有将某些工作承包给其他部门的先例。例如,有些部门的文献缩微工作、文献数字化工作就是由其他单位承包的,这些工作的承包经验与教训均可用于今天的数字保存中。特别是近年来,我国从事数字化技术工作的机构日益增多,包括各类型文献机构以及其下属的经营开发公司、出版社、信息技术公司等。文献收藏部门可以就保存数字文献提出技术要求,由技术部门进行技术处理与实现。要减少合作中出现的问题与偏差,对于文献收藏部门而言应特别注意以下问题:

●技术承包部门与文献收藏部门之间保持良好的勾通与交流;

●技术中心必须承诺质量担保检查;

●订立监督合同。

5 合作攻关

美国研究图书馆组(RLG)及保存与存取委员会(CPA)共同开展的保存数字信息工程的研究报告中指出:防止有价值的数字信息丢失的第一道防线取决于数字信息的创建者、提供者与拥有者[7]。可见, 数字技术的特性以及数字信息保存的依赖性使传统环境中离散的个体交织在一起。然而,受其自身利益的局限以及技术的飞速发展,处于不同角度的部门与个人很难理解维护数字资源存取与资源共享的利害关系,更难认识到自身在维护数字资源共享中所应承担的责任与义务。全面解决数字资源长期保存的问题需要有共同的认识与共同的行动,同时也需要借助各方面的专业知识与技能。为了勾通与了解,为了责任到岗,为了共同攻关,机构与机构之间的协调与合作势在必行。为了维护数字信息的长期存取,不同类型的部门的合作具有以下优势:

●可促进不同行业对长期保存数字资源的理解与重视,有利于明确在保存数字资源中各自的责任;

●便于集中资源与专家意见,有益于获得更好的实际效益与发挥更大的作用;

●可以有效地传递有关信息与经验,避免发生可预见的数据丢失事故;

●可促进共同利益的更大合作。

然而,由于传统管理体制的阻碍、不同行业与机构之间沟通的困难,尽管人们认识到合作的重要性,要全面推进合作还是困难重重。在维护数字信息长期存取的合作与协调方面,国际上已经作了很多尝试并出现一些管理模式。

与其他国家相比,我国在集中统一管理等方面应该更具有优势。然而,我国至今也没有一个横向团体(无论正式的或非正式的),将图书馆、档案馆、出版部门、金融部门、IT开发者等与数字信息的产生、传输与保存等有关的机构联合起来,共同讨论数字信息的长期获取问题,这不能不认为是我国数字信息研究与管理工作中的重大缺憾。当前,数字资源已经成为我国文化与知识遗产中一个越来越重要的成分,电子出版物,电子政务、电子商务以及大量的Web资源, 特别是科学研究领域重要的研究数据(如人类基因数据、地球科学数据)均需要维护长期存取。笔者认为,我国信息产业部应挑头组织相关单位进行有关问题的研究,逐步构建合作与协调的横向研究体系。为了启动研究,至少可以在动态数据资源(如网址)的保存、数据丢失案例的登记、各种媒体质量索引等共同感兴趣的问题上组织调查,在初步的调查研究中逐步地走向全面合作,以推动我国数字信息长期保存的研究、策略制定与实施。

标签:;  ;  ;  

克服数字困境的第一步_数据迁移论文
下载Doc文档

猜你喜欢