数字信息保存成本研究_信息存储论文

数字信息保存成本研究,本文主要内容关键词为:成本论文,数字论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

数字信息作为信息技术发展的产物,是信息时代实现资源共享最基本的要素。Internet的全方位渗透为数字信息的广泛应用提供了一个千载难逢的契机,同时也促使图书情报档案界加大对数字信息管理的深入研究。随着各地数字档案馆、数字图书馆项目的先后落成,数字信息管理核心问题之一——数字信息保存逐步成为人们关注的焦点。

物质第一性决定了数字信息保存的实现需要有雄厚的资金作后盾。事实上,资金对数字信息保存而言是至关重要的,是影响决策、确定目标、选择实现目标策略的一个主要因素。RLG成员机构在早期进行的一项调查中曾普遍认为(如图1),除技术过时外,数字信息保存的最大威胁来自于资金的缺乏。由于数字信息的保存与传统纸介质信息的保存具有很大差异,如何根据数字信息保存的特点,有效分配有限资金,使资金的利用达到最优组合,实现最佳效益是建设数字档案馆、图书馆过程中必须谨慎面对的难题。本文拟要探讨的正是与数字信息保存紧密相关的成本问题。

图1 数字保存的威胁因素(注:URL:http://www.rlg.org/preserv/digpres.html#toc,2004-5-17)

2 数字保存成本的特点

数字保存包括以下内容:一是保护比特流,即将比特流存储在一个保存环境适宜的稳定媒体上,并确保在媒体损坏或技术过时前采取适当措施将比特流转移到新的媒体上;二是确保通过与比特流相应的文件记录、元数据等可以解释数字信息或为其重建提供基础。与数字保存活动相关的费用支出都是数字保存成本。

数字信息的诞生及广泛应用至今只有短短数十载,早期数字信息的损毁已经向我们昭示:如果不及时采取措施保存数字信息,我们留给未来的只能是一段空白记忆。由于数字信息的保存与其生成有着紧密的联系,所以我们进行数字信息保存的实践也必须从源头做起。由此,在我们进行文献信息资源数字化或数字信息创建的过程中,数字信息保存及其成本问题也随之提上了日程。尽管我们对数字信息保存成本并没有现成经验可以借鉴,但可以确定的是保存数字信息所需成本支出类型与保存传统纸介质信息所需成本支出类型截然不同。与保存传统纸介质信息相比,数字信息保存成本具有以下特点:

2.1 信息保存的技术策略与成本关系

计算机技术迅猛发展,软硬件以3—5年为周期不断升级更新,数据处理模式千变万化。试图保存在多变的技术环境下生成的庞大数据,并使这些数据在一段时间后仍以我们能够理解的形式反映或再现无疑是非常困难的,其中一个重要影响因素就是数字信息受自身技术依赖性的约束,有效寿命在很大程度上受限于其生成、识读软硬件的有效期限。为维护数字信息的长期存取,采取必要的保护措施在所难免,如业界推崇的技术保护、技术仿真、技术迁移等。无论采用何种技术策略都会产生一定的成本支出,但采取不同策略可能产生的成本是不同的,即使采用同一策略,在其它因素的影响下也可能产生不同的成本。比如,同样是采用迁移策略,如果是将不同类型的数字信息转换到当前版本软件上,那么每次软件更新升级时都需要进行新的迁移,而每次迁移都会有新的成本累积。但是,如果在创建数字信息、接收数字信息时是将数字信息转换到一种标准格式上,那么更新升级后的软件兼容识读该数字信息的可能性就会极大增加,因而迁移的次数会比前一种情况少得多,相对成本也会降低。由此可见,采用不同的技术策略对数字信息长期保存成本能直接产生重要影响。

2.2 信息保存的完整程度与成本关系

传统信息是固化在某种载体上,且其内容、结构和背景信息是统一的,因此我们对传统信息的保护是单一层次的。数字信息具有流动性,其载体、内容、结构与背景信息并不具有统一性,是多维的,这使得我们在对数字信息进行保护时有了层次上的选择。数字保护的层次可以从功能、内容、语义等全部范围的保护到简单地保护智能内容的“骨架”,不同的保护层次需要支出的保护成本是不同的。比如要保护的是地理信息系统中的数据,需要保存的不仅是多种数据格式、色彩显示,而且还有系统中各层之间的复杂关系,因此,成本昂贵。如果仅需要保存数字信息的智能内容“骨架”及部分功能(如数字图书馆所保存的文本格式数字信息),那么保护就要简单很多,成本也会相应降低。保护层次的确定主要根据用户对数字信息利用的要求以及信息保存机构对数字信息价值的鉴定而定。由于保护的层次越高,数字保护涉及的方面就会越多、越复杂,成本也会越高。因此,根据需求确定保护的层次是非常重要的,将大量的资金投入到只对内容或部分功能有所要求的数字信息的全面保护上,不仅是一种资源的浪费,而且会导致真正需要进行全面保护的数字信息保护资金的紧缺。

2.3 数据类型、格式与成本关系

对于传统纸质文件而言,其记录方式单一,保存不涉及数据类型与格式因素。数字信息则不然。信息技术的日新月异导致了数据类型与格式的多样性,从简单的文本文件到复杂的交互式多媒体文件,均有可能成为数字保存的对象。粗略统计,数字信息保存机构涉及到的数据类型主要包括文本文件、图像文件、数据库、电子表格、音频文件、视频文件、多媒体文件等,每一数据类型又包含多种实现格式,例如仅图像文件就可以GIF、TIFF、JPEG、PNG等格式来实现。很明显,一个保存机构需要处理的数据类型、数据格式越多,信息保存涉及的因素(如支持数据运行的软硬件、操作系统等)就越复杂,保存的困难、成本也会越高。因此,在创建或接收数字信息之前,数字信息保存机构有必要制定可接收数据类型和数据格式的相关标准,并要求接收或创建数字信息时遵循这一规定,以有效控制保存成本。

2.4 数字保存成本跨越整个数字信息生命周期

尽管保存数字信息与保存传统信息都需要有不断的资金投入,但两者在时间上还是具有一些差别。保存传统信息基本上是一个可以明确划分阶段的活动,即从传统文件立卷归档进入库房后才开始采取有关保护行动。数字信息创建后,随信息技术的发展需要不断地进行某种“重新创建”(如迁移、更新等),才能保证数字信息的长期读出。因此,对数字信息而言,保存跨越数字信息的整个生命周期,并且保存效果与数字信息生命周期中各个阶段实施的相关决策直接或间接相关。例如,数字信息的创建影响着数字信息如何保护、存取;数字信息“重新创建”所采的技术策略(仿真、迁移等)也影响着数字信息将来如何保护、存取。这说明数字信息生命周期各阶段都有直接或间接的保存成本支出。因此,在文献信息资源数字化或数字信息创建开始时就应该考虑有关数字信息长期保存成本的问题,并做出相应预算。

3 保存数字信息的成本

我们按照数字信息生命周期各阶段的次序,依次探讨各个阶段中与数字信息保存直接或间接相关的成本,初步确定数字信息保存必须考虑的成本支出。

3.1 创建

在数字信息的创建阶段,甚至是创建之前,负责数字信息保存的机构就必需制定出关于保存基本要求的相关规定(如对数据类型、格式、元数据等的规定),凡不符合保存基本要求的数字信息可视为不具备保存价值不予保存。此外,对原生的数字信息而言,由于数据的创建多数不在保存机构的控制范围内,因此,保存机构为确保数字信息符合保存基本要求,需要采取各种方式对数字信息的创建单位进行培训,如建立网站,在网上提供标准;开办培训班等。

与上述活动相关的成本均为保存成本,相关费用将依据数字信息保存机构类型以及服务对象的不同而各不相同。创建阶段的保存活动可以看成一种预防性措施,所有意欲保存数字信息的机构都应当在该领域有所投资。

3.2 选择与评估

数字资源数量庞大,内容庞杂,要想保存所有的数字资源是不现实的。因此,数字保存机构需要制定选择、评估标准,选择数字资源中最有保存价值的部分予以保存。选择和评估主要从两方面考虑。一是信息管理人员从内容上考虑,鉴别该保存机构有责任保存的数字资源类别。鉴别标准可以参照原来保存的纸质信息资源的类别,或参照国外相关数字资源选择标准,如澳大利亚国家图书馆的“澳大利亚在线出版物:归档与保存选择指南”(注:URL:http://Pandora.nla.gov.au/selectionguidelines.html,2004-5-19)。二是系统管理人员从技术上考虑,依靠一系列的技术与实践标准来评价特定的数字信息资源是否易于管理、编目;是否易于终端用户访问以及是否易于保存机构进行长期保存等。

与信息管理人员、系统管理人员制定选择、评估标准及选择、评估数字资源相关的成本可视为保存成本,成本高低将取决于选择、评估人员的专业知识、数字信息资源的数量及其复杂性和相应记录文档的质量等。

3.3 移交

一旦确认数字信息符合入藏标准,保存机构就有责任对移交的数字信息进行检查核对,确认移交的数字信息的完整性,其主要活动包括:

检查记录文档的完整性。记录文档描述的是数字信息的结构、内容、来源和历史等。如果没有记录文档,数字保存机构很难了解某个数字对象是否可以保存,也难以确定该数字对象的最佳保护策略(如迁移、仿真等)。因此,数字信息保存机构在接收数字信息时,需要检查与数字信息同时提交的有关记录文档是否完整,在必要时还需要对这些记录文档进行编辑和添加,符合保存要求后再对它们进行管理。与记录文档的检查、编辑、管理等相关的费用均与数字信息资源的保存相关。

检查数字信息的完整性。检查数字信息的完整性即利用一系列程序确保提交的数字信息与记录文档是对应的、一致的、完整的;提交的数字信息能在既定的软硬件环境下正常运行;数字信息内容本身是一致的,彼此没有矛盾。由于数字信息在其生命周期中要求周期性地更新或迁移等,每次更新或迁移后都需要对数字信息进行重新检查,以确保在更新或迁移过程中数字信息没有损失。与数字信息完整性检查相关的费用均与数字信息资源的保存相关。

3.4 存储

数字资源的存储是数字信息保存中最基础的一项工作,也是影响数字信息长期保存的关键。通常情况下,保存机构在存储方面主要有以下支出:

·存储载体费用;

·存储操作费用;

·存储设备费用;

·存储系统管理费用;

·维护存储设备费用;

·周期性媒体更新费用;

·存储日常管理费用。

这些费用的高低取决于数字信息资源的大小,复杂性;存储格式的特性、数量等。

此外,数据结构与元数据也是存储时影响成本的重要因素。数据结构关注的是接收的数字信息的格式;保存是否需要压缩(或解压缩);是否需要加密(或解密)等,与之有关的费用(如制定相关标准、规范的费用)均为保存成本。元数据是关于数据的数据,通常可从已有的与数字信息一并移交的记录文档中获取基本的元数据项,但仅此并不能满足长期保存的需要。例如,记录文档中可能提供Title、Creator等信息,但不会提供数字信息保存过程中迁移、更新过程的记录,更不会记录迁移、更新后数字对象在功能方面的缺失或视觉、感觉方面的变更,而这些信息对数字信息的保存则是非常重要的。因此,在存储过程中,需要不断增加有关元数据,相关费用均为保存成本。

3.5 保护

该保护特指保存机构为防止数字信息免受技术过及磁性媒体损坏造成的破坏而采取的对策。由于保存机构可能处理的数字信息的类型、格式具有多样性特征,因而不同的数字信息适用的保护策略并不同,相应成本也会出现较大差异。目前,业界普遍推崇的三种保护策略是技术保护、仿真及迁移。

技术保护。技术保护适用的是无法独立于其生成时的软硬件技术环境的数字信息。保存费用一般分为两种情况:一是短期内自行保存旧有软硬件技术环境的费用;二是当保存机构完全转换其软硬件技术环境后又发现了有重要保存价值的上述数字资源,向第三方租用旧有软硬件技术环境将数字资源转换到标准格式并迁移到新技术环境中的费用。这两种费用均为保存成本。

仿真。当访问数字信息唯一有效的方法是运行该数字信息生成时的早已过时的硬件平台、操作系统及应用程序时,可以考虑使用仿真。采用仿真策略时的主要费用是开发仿真器的成本,一般情况下非常昂贵。

迁移。迁移策略实质上也分为若干种情况,常见的包括:

①将数字信息从不稳定的媒体转换到较稳定的媒体上,相关成本包括改变数字信息格式,将它们打印到纸张上,或将它们作为图像记录在缩微胶片上的费用;管理载有信息的纸张或缩微胶片的费用;记录操作过程,添加元数据的费用。

②将数字信息转换到标准格式上,相关成本包括保存机构对标准格式达成统一意见所需费用;测试某一特定类型数字信息转换的费用;测试转换后数据样本的费用;如果转换是批处理进行的,需要运行批处理转换的费用;如果需要删除旧版本,则还有删除旧版本数字信息的费用;记录操作过程,添加元数据的费用。

③向后兼容处理,相关成本包括建立宏并运行宏的费用;检查结果文件,确保文件无重要损失的费用;如果要删除旧版本数字信息,则还有删除费用;记录操作过程,添加元数据的费用。

3.6 其它

其它成本主要包括归档存储系统更新成本;人员薪水;存储库房及安全防盗系统成本;日常开销等。

4 降低成本的基本原则

由上可知,数字信息的保存是一项复杂的系统工程,内容涉及方方面面,保存成本支出因而也非常庞杂。要降低数字信息保存成本,必须遵循以下基本原则:

·统一规划信息资源建设,加强信息的交流与共享,防止过量冗余数据侵占保存成本;

·提高对媒体损坏或技术过时的预见性,在灾难发生前采取有效措施保护数字信息;

·减少采取保护行动(如拷贝、迁移、仿真等)的频率;

·确保采取保护行动后的结果可靠,并符合保存机构对数字信息的保护要求。

2001年10月30日,“国家图书馆二期暨国家数字图书馆基础工程”正式立项,立项资金共11.42亿元人民币,这标志着中国在数字化领域中迈出了实质性的一步。数字保存是数字化工程中的一个基本组成部分。正如我们上面所述,从数字化工程开始时就着手进行数字保存,建立合理的数字保存成本模型,不仅有利于从总体上降低成本,而且有利于数字信息的安全正常运行。

标签:;  ;  ;  

数字信息保存成本研究_信息存储论文
下载Doc文档

猜你喜欢