网络资源长期保存标准与技术研究_数据迁移论文

网页资源长期保存的标准和技术研究,本文主要内容关键词为:技术研究论文,网页论文,标准论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

《未来档案:未来五十年历史》的作者理察华琛则在“灭绝时间表”中预言许多目前人们习以为常的事物或现象将消失,尤其是网络行为或网站信息,如:写网络日志(2022年消失)、全球搜寻引擎龙头Google(2049年消失)。当然,该书所预言的灭绝时间不一定准确,但它给我们提出了一个重要的警示:随着全球环境的变化和网络化的发展,诸如战争、水灾、火灾、地震、停电、电压不稳定,以及计算机病毒、黑客攻击、网络隐患、系统泄密等所产生的介质故障、软硬件过时、信息数据丢失、关联文本丢失、结构错误等,都会对网络资源尤其是网页资源的丢失或不可恢复带来巨大的冲击。因此,如何有效地对重要的网页资源进行长期保存日益成为图书馆、档案馆、信息部门甚至全社会共同关注的内容。

一、网页资源长期保存研究现状

迄今为止,对于“网页资源”尚没有统一的定义,类似的名称也有很多,如网络信息资源、因特网信息资源、联机信息、万维网资源等等,不一而足。但其本质基本一致,即:能满足人们信息需求的、对社会或个人有价值的文字、图像、声音、动画等多种形式的网页信息。所谓的网页资源,主要是由一个个网页集合而成的,具体到一个网页,它主要包括:内容(网页中实际要传达的纯粹数据的内容信息)、结构(将内容进行格式化,使内容更具有逻辑性、易读性)、表现(信息经过修饰后的展示形式)和行为(对内容的交互及操作效果)。[1]因此,要长期、完整地保存网页资源,不仅需要保存网页所包含的各种形式的内容,还要保存这些内容信息的外在表现和内容信息之间的结构组合、超链接以及实现整个网页的平台和代码。

根据2010年1月CNNIC发布的《中国互联网络发展状况统计报告》的数据,截至2009年底,中国的IPv4地址已经达到2.3亿,数量仅次于美国,是全球第二大IPv4地址拥有国,年增长率为28.2%;域名总量达到16,818,401个,而.cn下的域名已有13,459,133个,占全部域名总数的80%;网站数即域名注册者在中国境内的网站数(包括在境内接入和境外接入)达到3,231,838个,较2008年增长12.3%;网页总数达到336亿个,较2008年增长100%。面对如此庞大的网站数和网页数,以及网站和网页惊人的更新速度,许多信息资源稍纵即逝,如果不注重保存,很可能就再也无法找到其内容。因此,如何长期保存并有效读取其中的重要信息,越来越成为一个亟待解决的问题,否则一些重要的文化遗产和信息资源将会迅速消失。

1.国外研究现状

在国外,对网页信息资源的收集、整合、保存早已提上日程,并已经开展了此项工作。20世纪90年代末,以欧美为代表的发达国家开始建立网络信息资源收集和保存的实验项目,旨在通过实践探索网络信息资源保存的方式和方法。

(1)美国的网络信息保存项目

美国国会图书馆把保存开放式网络信息资源作为国会图书馆的主要任务之一,并从2000年启动网络信息保存项目(MINERVA)。其主要目标是为有关网络信息的选择和收集存在的实际问题提供试验,从而为美国国会图书馆运行大规模的网络信息保存项目提供指导和经验。该项目的主要内容包括:使用镜像程序下载网络快照,并对这些快照进行检查;使用OCLC的资源编目软件生成编目数据,并集成到国会图书馆的系统中;建立一个试用网站供用户检索,并同美国版权局进行有关法律方面的协商。[2]

(2)英国的网络信息保存联盟计划

由大英图书馆组织,并与英国国家档案馆、联合信息系统委员会(JISC)、苏格兰国家图书馆、威尔士国家图书馆和韦尔科姆图书馆组成联盟,于2004年正式启动英国网络信息保存联盟计划(UKWAC),对英国网站信息进行选择性保存。该计划的运作机制是:首先,采用选择性收集保存方案来收集相关的网站信息,并通过书面形式获取网站信息所有者的授权和许可;然后,采用潘多拉数字保存系统(PANDAS)对网站内容进行获取,并对获取的重要信息进行关键性的修改和描述;最后,在英国网络信息保存联盟网站(http://www.webarchive.org.uk)的界面上实现对大众的浏览和检索。[3]

(3)挪威的网络信息保存项目

挪威国家图书馆于2001年开始实施网络信息保存项目(PARADIGMA),其目标是确定收集和保存网络信息资源的技术、方法和组织,并且使国家图书馆能够在呈缴制度的框架下提供存取服务。该项目具体包括:制定数字文献的选择标准,构建有关文献呈缴制度的法律框架,选择、完善网页收集和检索工具,统一标识符和对数字文献进行描述,促进标准的标识符和元数据的使用,对选择性收集活动、软件、方法等进行测试,并指导整个网络信息保存过程。[4]

2.国内研究现状

(1)中国国家图书馆的WICP项目

网络信息资源的采集与保存试验项目(WICP)是2003年初由中国国家图书馆启动的涉及网络信息资源保存问题的研究项目。该项目收集的对象主要是表层网页(静态网页)和深层网页(动态网页),网页内容主要通过计算机程序(机器人)进行收集,信息来源主要包括政府信息网、电子期刊网、大学网、企业网以及一些重要的门户网、媒体网和报纸、电台、电视台网站等。

该项目通过上网浏览和利用搜索引擎收集相关网络信息,并将收集到的信息对象进行描述、分类和设置,然后通过网络机器人开始实施收集,再对收集到的数据分网站单元和网页单元进行校验、整合、编目和保存,最终分别形成镜像存档和专题存档。其具体业务流程和工作模式如图所示[5]。

(2)“中国Web信息博物馆”系统

“中国Web信息博物馆”(Web InfoMall)系统是2002年由北京大学“计算机网络与分布式系统实验室”主持开发的中国网页历史信息存储与展示系统,包括历史网页存储系统和回放系统两个部分。该系统可以收集中国所有静态网页,并提供历史网页的存盘和回放,已经维护有30多亿以中文为主的网页,并以平均每月4500万网页的速度增长。Web InfoMall还以公开许可证的方式对外免费开放网页数据,各研究机构和个人可以申请获取网页全文等数据。[6]

因此,要长期保存网页资源,就要在了解网页资源的含义、网页的内容和构成以及国内外对网页资源长期保存研究现状等相关情况后,重点在标准、技术等方面有的放矢地进行研究和探索。

二、网页资源长期保存的国际标准OAI S

OAIS是一个全面分析数字资源长期保存活动并规定其概念、术语和功能结构的总体框架,它由美国空间数据系统咨询委员会和美国国家航空航天局于1999年联合制定。OAIS参考模型在一致性方面起了非常重要的作用,并逐渐成为众多存储项目遵循的标准,还被广泛用于开发保存工具盒存储系统,现已正式成为ISO 14721:2003国际标准。

OAIS是在抽象层面上提出的一个参考模型,一个系统结构,一个总体框架。因此,任何致力于数字资源长期保存活动的系统和组织都可以在其基础上构建自己的长期保存系统框架。同样,作为国际标准,OAIS定义和规范了数字资源长期保存系统的功能和结构。具体内容如下图所示:

OAIS功能模型(图片来源于Reference Model for an Open Archival Information System)

由上图可知,OAIS功能模型具体由6个主要功能模块组成,即:(1)摄取模块:从数字资源提供者获取按照一定格式组织的信息单元——提交信息包(SIP),然后对SIP进行检验以保证质量,并生成存储信息单元和描述信息元数据——存储信息包(AIP)。(2)长期存储模块:接受摄取模块的AIP,并把它们添加到存储系统中,负责存储系统的建立与管理,数据的更新、技术仿真和数据迁移,进行例行的纠错处理,并向数据管理模块提供相应信息包。(3)数据管理模块:存储关于数字信息单元的元数据和关于长期保存处理政策、程序、技术和系统的元数据,并提供对这些元数据的检索与管理。(4)系统管理模块:建立和管理有关的标准、政策、规范等,并据此通过规范程序来检测和控制整个长期保存系统和各个模块的运行,并同信息生产者进行提交协议方面的协商,对提交的信息进行检验从而保证这些信息能够满足保存的要求。(5)长期保存计划模块:监控OAIS的环境,评价系统中的内容,定期进行数据迁移,制定长期保存的相关标准和政策。(6)检索模块:提供用户检索元数据和索取数字信息单元的界面,便于用户检索,并对那些受保护的信息提供限制存取。[7]

三、网页资源长期保存的技术研究

网页资源长期保存技术,就是长久保持网页数字资源信息内容和功能形式的可存取性的一系列技术策略和手段。鉴于网页数字资源的特点和软硬件的快速更新,目前我国主要采用的长期保存技术有:更新、数字迁移、仿真、管理工具和自动存储技术等。

1.更新技术

更新技术是指在原来的技术环境下实时重写数据,将数据流从旧存储介质转移到新存储介质上,防止由于存储介质理化性能变化而引起的信息丢失。而对于网页信息资源,要保证其重要的数字信息长期有效可存取,可采用更新技术,不断地通过复制,将旧存储媒体上的数字信息转移到新的媒体上。国家档案局在《办公自动化电子文件归档与电子档案管理方法》中规定:电子文件应“拷贝至耐久的载体”,禁止用磁盘来保管电子文件,并分先后次序对载体进行了推荐:只读式光盘、一次写入光盘、可擦式光盘、磁带。如果网页资源量比较大,则适合用SATA磁盘阵列、DVD-RAM光盘塔、光盘库和数据流磁带等载体进行保存。

但是,简单的更新不能满足对网页信息检索的要求,不能对网页信息的结构特性、描述的原数据、检索及显示能力进行维护;直接更新可能会使相关的结构、链接或环境信息丢失,或者是有关的编码、压缩、加密信息得不到同时转移。因此,更新技术只适合于简单、独立的网页内容信息的长期保存。

2.数字迁移技术

数字迁移技术是根据软、硬件的发展将网页中的数字资源迁移到不同的软件或硬件中以便被识别、使用和检索。该技术有利于保护网页中的数字资源,但在每一次迁移过程中,有可能丢失一定的网页结构、版式、网页之间的链接、交互关系等信息,这就难以保证原有网页整体资源的完整性和真实性。西方发达国家数字档案馆大量的成功实践表明,数字迁移技术是维护网页信息长期存取的有效方法。因此,数字迁移技术适合对网页中与软件无关的格式产生的文本文件或简单、通用的平面文件等具体的信息资源内容进行长期保存,而它的技术难点在于迁移时机的选择。[8]

3.仿真技术

仿真技术主要是在新的系统环境下重新建立一个兼容原始数据、设备及其相应系统的信息利用环境。它其实就是通过建立一个持久耐用的仿真器,用于模拟保存、访问数据的硬件和软件,有时只模拟硬件和软件的一部分功能,预期重现数字对象的原始操作环境,从而便于网页资源,尤其是多媒体资源、数据库以及PDF格式文件的长期保存利用。

从技术实现手段来看,仿真技术的实现分为三个层次:应用程序仿真、操作系统仿真、硬件平台仿真。具体的实现方法则是通过构造相应的仿真器,即编写程序,在目标平台和主机平台之间构建一个新的层次,以实现期望的目标。[9]其优势在于适合超文本、多媒体等复杂的以及依赖特殊硬件与软件而又无法在新旧技术平台间进行迁移的网页数字信息,它能保持这些数字资源的功能和外观;另外,面对复杂的数字对象时,尤其是网页资源、多媒体数据等,迁移技术就力不从心了,而仿真技术的用户交互、程序和计算机平台之间的交互等功能就具有优势。其劣势在于:兼容性和可靠性还存在不足,自身的耐用性也必须得到维护,要求较高的和持续的技术水平和运行支持能力,再就是仿真技术还面临着法律问题与信任问题。

4.管理工具

网页资源的特点是实时性、动态性和关联性,而其中的许多超文本信息,由于节点内容的变化、网页地址的更改以及相关网页间关联的改变、变动或消失,会对其重要信息的长期保存带来易变性和易失性。

针对网页信息资源范围的难以确定,节点或链接中出现的变化难以控制以及某些重要信息易丢失的问题,国外一些机构已经开发出了一些管理工具,比如MOM spider、Web:Look out等。这些管理工具已经具有跨越Web网站,并指明已变动和修改的信息及链接无效的信息维护功能,能对信息维护进行有效监控,但要真正解决网页信息的长期保存还需要借助于其它技术。

5.自动存储技术

国外正在开展利用软件技术来自动控制并保存网络信息的研究,尤其是对网页信息存储的安全性、高效性、可靠性、可管理性以及快速恢复能力的研究。目前,主要的自动存储技术有五类,即直接连接存储(DAS)技术、网络连接存储(NAS)技术、存储区域网络(SAN)技术、ISCSI技术和内容寻址存储(CAS)技术。这些自动存储技术可以实现存储容量的可扩展性,能改善网页数据的可用性及网络性能,并能对网络中分散的网页信息进行集成和筛选,这样就有助于改变目前网页信息保存成本高、可靠性差等缺点。

四、结束语

网页资源作为人类文化遗产的重要组成部分,其长期保存得到了全社会的广泛关注;而网页资源的长期保存,也是信息社会对网页信息资源长期共享和有效利用提出的要求。但由于网页信息的海量性、飞速增长性、短暂性、动态变化性、类型复杂性等特点,以及保存成本巨大、责任主体多样等问题,都为网页资源长期保存带来了一系列的技术、法律和资金问题。因此,为了保证人类文化遗产的传承,保证人们可以方便、快捷、有效地长期利用网页资源,我们需要不断吸收和借鉴国外的先进理念、制度和技术,并通过政策、标准、管理、技术等多种手段,有效地开展网页资源的长期保存活动。

标签:;  ;  ;  

网络资源长期保存标准与技术研究_数据迁移论文
下载Doc文档

猜你喜欢