基于成本分析的数字资源长期保存策略研究--迁移法与模拟法的比较_仿真软件论文

基于成本分析的数字资源长期保存策略研究——迁移法与仿真法比较,本文主要内容关键词为:成本论文,策略论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

保存和长期存取数字资源是图书馆信息资源数字化过程中的重要环节。计算机软硬件和文件格式的不断发展,使得对过去的数字资源难以有效存取。即使用于数字资源保存的硬件和存储介质完整无缺,但其存取技术的过时也不可避免。因此,研究和选择数字资源的长期保存方法是任何一个图书馆信息资源数字化项目在规划阶段就必须解决的一个重要课题。 从总体上说, 这类方法主要有两种:迁移法(Migration)和仿真法(Emulation)。

迁移法也可称格式转换法,着眼于数字资源本身,保证软件与硬件的发展不影响其存取。这就要通过改变或更新数字资源的格式,使其适应于新的软件和硬件环境,其目的在于确保用户使用当前软硬件有效地访问和浏览过去的数字资源。

仿真法也可称环境改变法,并不改变数字资源本身,而是改变数字资源所在的环境,其目的是构建一个采用新的软硬件技术访问原格式数字资源的环境。

1 迁移法

使用迁移法,当数字资源的文件格式出现过时危机时,就将其转化为新的文件格式。例如,如果技术发展表明PDF 1.1版本将很快不能存取,所有用该格式保存的数字资源就要被转化为新的版本格式(如PDF 1.4版本格式)。这样,数字资源就进入了下一个可被访问的生命周期,直到PDF 1.4版本格式出现不可存取危机为止。这时,就要进行下一个数据迁移过程。

作为数字资源保存策略的迁移法,其主要优点在于数字资源总是以能够被普遍接受的格式为人们所使用,现行的硬件与软件能够毫无障碍地访问数字资源,且可以被复制。

迁移法的主要缺点有三[1]:其一是在格式转化过程中,数字资源的一些样式(Layout)甚至一些数据将会丢失。如果数字资源的原始样式需要重点保存,迁移法或许不是最好的选择。其二是迁移法的操作对象是数字资源集合中的单件资源,如果数字资源集合庞大,转化过程需很长,工作量很大。其三是如果数字资源的文件格式已作废或所用的转换工具不再有效,那么采用这种方法进行格式转换就不可行。因此,采用数据迁移策略时,必须不断地开发并运行转换程序,以免数字资源的格式过时。

2 仿真法

仿真法的采用不改变数字资源的文件格式,也不改变用于数字资源访问的软件或浏览器,但要提供采用原来浏览软件来浏览原始格式数字资源的一个工具,这个工具称为仿真工具。仿真工具在新的环境下工作,使原来的浏览器和原来的工作平台适应于新的环境。

仿真法的最大优点在于保持数字资源的外观(look-feel),比如,保存书籍时,其真实的外观就可长久被保存。但仿真法的一个最大缺点是开发和维护这种仿真工具是非常复杂的,也是很困难的,成本也是非常高的。在实际应用中,要维护多个仿真工具,但即使这样也很难确保这些工具对未来计算机平台的有效性。

如果引入一个虚拟层(Virtual Layer),仿真工具的维护费用就会大大降低。在这种情况下,所开发的仿真工具运行在一个虚拟机(Virtual Machine)上, 虚拟机的顶端是仿真工具的接口,当技术环境发生变化时,只需调整虚拟机的底端,仿真工具不受影响。

对于一个具体的数字资源保存计划来说,到底是采用迁移技术,还是仿真技术,主要考虑下述三个方面的因素:①用户需求因素。如果用户对显示在其终端的数字资源的外观有着明确要求,就需要采用仿真技术;反之,可以考虑迁移技术。但一般来讲,用户都希望看到数字资源的原始外观[2]。 ②信息资源数字化项目本身的因素。有些项目将其所生成的数字资源委托给一个商业性企业(如日本著名的电子出版物保存公司Koninklijke Bibliothek,the KB e-Deopt[3])来保存,在这种情况下,数据的长期维护工作就交给了商业公司,商业公司采取哪种技术,有时取决于数字化项目的要求。比如,如果数字化项目要求数据保存公司保存的数字资源不能损坏其外观,那就只有采用仿真技术。③数字资源本身的因素。技术环境的变化要求数字资源的保存格式能够被现行的软硬件技术所访问,并且能够被复制和重复使用,很明显只有迁移技术才能满足这种需要。因此,在对这两种技术进行评估时,不能侧重一个而忽视另外一个。实际上,虽然它们要达到的目的是一致的(都是要使用户能够访问格式已经过时了的数字资源),但它们的原理不同,采用的方法也不一样,不存在着谁优谁劣,所以都需要研究。

3 基于保存成本的数字资源保存策略比较分析

保存策略将对数字资源生命周期的管理及所需的相关费用产生非常重要影响。反过来,保存费用的预算也将决定或限制保存策略的选择。然而,目前大多数用于数字资源长期保存成本计算的商业模型和相关文献中关于保存费用预算大都只强调一般费用,对特定保存策略所需费用细节和不同保存策略所需费用的比较研究论述甚少[4]。

本文的下述内容将首先建立基于仿真法和迁移法数字资源保存所需费用的数学模型,分析每一种保存策略的费用项目,详细比较两种方法的费用区别,在此基础上得出的结论是:使用迁移法对数字资源进行格式转换花费较多,仿真法将会节省这笔费用。反过来,仿真法需要更多的初始投资,对数字资源的短期保存来说是不合适的。因此,对采用迁移法和仿真法保存数字资源费用的比较分析结果与保存时间关系非常密切。

仿真法所需费用根据要完成的任务可以分解为下述三大块[5]:①一次性费用:仿真工具的开发;②循环费用:为初始硬件平台组件开发仿真软件;③访问时需要的费用:运行仿真软件及合适软件环境。

在仿真设备的开发费用方面,举一个例子[6],2004年IBM根据the KB保存公司的要求开发出了一个通用虚拟计算机(UVC)的演示版本,包括研究设计在内, 总共用了32周(每周40小时)的工作量。第一个基于这个虚拟计算机(UVC)概念的仿真工具现在已经投入使用[7]。

仿真工具的开发首先需要根据初始的软硬件平台构建一个概念模型,然后由技术专家来实现这个概念模型,并且还要对实现了的仿真工具进行不断维护。对于不同的平台要开发不同的仿真工具。

仿真工具的费用有三个方面:开发费用、维护费用和使用费用。一般来说,维护费用相对较低,但开发费用比较大。但是,仿真工具的开发费用可以由其他数字资源保存项目一起分担。因为,一旦一个仿真工具投入使用,它可以被用来访问其他具有相同初始环境的数字资源,实现仿真工具的共享。这一点,与迁移法存在重大区别,数字资源的迁移费用只能由一个项目来承担,无法实现费用的分担。

但是,计算仿真工具的使用费用比较困难。为了对这项费用能够做出一个合理的估算,就需要计算仿真模型初始硬件环境的配置时间以及与数字资源相关的软件环境的安装时间。如果整个过程是自动的,所花费的时间就会少一些。在这一方面,与迁移法也存在重大区别。因为,在迁移法实施过程中,有很多转换工具都可以用来实现数字资源的格式乃至环境转换,并且这种转换过程相对来说比较简单。但从另外一个角度来讲,迁移法的实施对象不是一个数字资源的整体,而是数字资源中的单个对象,这就需要对一个数字资源集合中的每一个数字对象单独进行转换,因此,采用迁移法的费用与要转换的数字资源集合的规模有直接关系,规模越大,所需费用就越多。但仿真工具是应用在一个数字资源集合的整体,其使用费用不受数字资源集合规模的影响。

Shenton在2003年提出了用于非数字资源保存总费用计算的一个数学模型[8]:

K(t)=s+a+c+pl+hl+p(t)+h(t)

这里,K(t)是保存一个非数字资源集合t年所用的全部费用。s(selection)是资源的初始选择费用,a (accessioning)是后续资源的选择费用,c(cataloguing)是资源的编目费用,pl(initial preserving)是资源的初始保存费用,hl(initial handing)为资源的初始操作费用,p(t)(long-term preservation)为资源的长期保存费用,h(t)(storage)为存储费用。

这个公式也同样适合于数字资源的保存,只不过是变量有所变化。适合于数字资源保存费用计算模型的最基本框架结构为:

K(t,a)=s(a)+i(a)+h(t,a)

这里,K(t,a)是对数字资源a进行保存t年所需的总费用,s(selection)为数字资源选择费用,i(ingest)为数字资源装入存储系统费用,h(storage)为存储成本。

数字资源选择成本包括数字资源的获取费用和对数字资源进行处理要做的准备费用。数字资源装入存储系统费用包括运用软件自动处理数字对象所需的费用,比如,将相关的元数据转换为一个可用的格式,并将数字对象存储在某种存储系统中等。存储费用包括购买存储介质、对存储介质进行刷新以及数据库管理系统的维护等。总体费用和与数字资源的数量和保存时间有直接关系,数量越多、保存时间越长,需要的费用就越多。

在进行仿真法与迁移法成本的对比时,上述模型中的s和i可以去掉。原因有两个方面:其一是这两项费用对于仿真法与移植法是一样的,对两种方法的比较结果不产生任何影响。其二是对这两项费用的估算很困难,由于它们依赖于数字资源存储机构与数字资源提供机构所达成的存储协议(选择成本)和采用的合适软件类型(装入存储系统费用),不同环境对这两项费用的影响很大。因此,在进行仿真法与迁移法成本对比时,可以仅仅着眼于存储费用和这两种方法的实施费用。

基于上述分析,迁移法的成本模型可描述为:

K(t,a)=h(t,a)+m(t,a)

这里,K(t,a)是存放数字资源集合a经过t年所需的总费用,h为存储成本,m为迁移成本。这里引入的新变量m表示迁移一个数字对象所需的费用, 这个费用的计算依赖于存储时间t(时间越长,数字资源格式转换的次数可能就越多)和数字对象a的数量(数字对象越多,格式转换工作量就越大)。

仿真法的成本模型为:

K(t,a)=h(t,a)+E+e(t)

这里K(t,a)是存放数字资源集合a经过t年所需的费用,h(t,a)为存储成本,E为开发仿真工具的费用,e为仿真成本。这里引入了两个新变量,即开发仿真工具的一次性费用(E)和仿真工具的年维护费用(e),这两项费用与数字资源的规模大小无关,但仿真工具需要经常维护,其费用与使用的时间有关。

为了比较仿真法和迁移法所需成本,结合KB项目的实践,我们做出下述一些假设[9]:

(1)保存的数字资源集合中数字对象的数量每年都增加。

(2)数字资源的存储费用根据采用KB项目的统计,设定为每个对象每年$0.05。

(3)两种保存策略所需的存储空间相等(仿真法中所需的软件环境额外存储空间不考虑)。

(4)平均迁移一个数字对象到新的格式,根据KB项目的统计,设定为每年$0.10。

(5)开发一个仿真工具一次性投资根据KB项目统计,设定为$200,000,包括研究和设计费用。

(6)仿真工具维护费用根据KB项目的统计,设定为每年$30,000。

(7)运行仿真工具和相应的软件环境的费用不予考虑。

基于上述设定,保存1,000,000个数字对象为期50年的费用如图1所示。

附图

图1[10] 保存1,000,000个数字对象50年采用迁移法和仿真法所需费用对比示意图

从图1可知,维护一个有1,000,000个数字对象的数字资源集合50年中,前5年的仿真费用要高于迁移费用,但以后迁移费用就高于仿真费用,而且它们之间的差距越来越大。在50年里迁移费用要比仿真费用平均高出79%。

另外,数字资源集合越大,这两种方法的费用差别就会越大。如果在图1中,所保存的数字资源集合改为5,000,000个,保存时间同样是50年, 采用这两种方法的保存费用如图2所示。

附图

图2[11] 保存5,000,000个数字对象50年采用迁移法和仿真法所需费用对比示意图

由上述两个图可以看出,当保存的数字资源的规模扩大5倍时, 迁移费用是仿真费用的2倍还多。

由以上分析可知,在最初的一段时间内,仿真法的费用要高于迁移法,这段时间的长短取决于下述几个因素:

(1)当需要保存的数字对象的数量增加时, 仿真法费用高于迁移法费用的时间段要缩短。

(2)如果每个数字对象每年的平均迁移费用增加, 仿真法费用高于迁移法费用的时间段也要缩短。

(3)当开发仿真工具的费用增加时, 仿真法费用高于迁移法费用的时间段要增长。

(4)当仿真工具的每年维护和开发费用增加时, 仿真法费用高于迁移法费用的时间段也要增长。

上述的对比分析结果是建立在对几个变量假设值的基础上的,为了说明这个比较结果的普遍性和有效性,一些开发人员已经开发出了一个软件系统,用户可以从下述网站上免费下载运行:http://www.rlg.org/en/downloads/v9n2_f1_CostsArchiving3.xls。

在数字资源长期保存的理论与实践中,就其生命周期管理而言,仿真法和迁移法存在着本质区别,其保存成本也有着很大差异。从长远来看,从经济角度考虑,也许仿真技术更适合大型数字资源的保存。在上述讨论中,我们忽视了一些比较重要的事实。首先,我们没有考虑到,根据规模经济原理,如果需要转换的数字对象数量相当多,则每个对象的迁移成本也许少一些。其次,我们按照数字对象的数量计算迁移费用,实际上按照数字资源集合的体积大小来计算费用同样也很有价值。所有这些也说明了,数字资源长期保存的费用模型需要在广泛的实践中继续研究和深入探讨。

本文系国家社科基金项目“图书馆信息资源数字化建设模式研究”(05BTQ007)的研究成果之一。

标签:;  ;  

基于成本分析的数字资源长期保存策略研究--迁移法与模拟法的比较_仿真软件论文
下载Doc文档

猜你喜欢