论网络资源保护的热点问题_web技术论文

论网络资源保护的热点问题_web技术论文

Web资源保存的热点问题管窥,本文主要内容关键词为:热点问题论文,资源论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着网络的发展,Web资源日益成为我们文化遗产的重要组成部分。Web资源是“原生 性”数字信息,除了数字形式之外,别无其他形式。而且其寿命短暂,若不及时采取措 施,就会造成重要数字文化遗产的遗失。为此,许多国家都在积极探索Web资源的保存 问题。

1 Web资源保存研究的几个热点问题

保存Web资源是一项庞大的系统工程,它涉及到技术、经济、法律、管理体制等诸多方 面的问题。许多国家已进行了有益的尝试,但总体上仍处于探索阶段。我国Web资源保 存研究也才刚刚起步。目前,Web资源保存面临着以下几个亟待解决的问题。

1.1 Web资源的采集策略问题

Web资源采集是Web资源保存工作的首要环节,与传统的收集工作相比,Web资源采集涉 及的问题更为复杂,采集的难度更大。目前的问题主要集中在归档网络空间(Web space )的划定、采集方式的选择以及采集频率的确定三个方面。

1.1.1 归档网络空间的划定 所谓归档网络空间的划定,是指确定哪些网站可以作为 采集对象。网络空间的划定必须有一个明确的标准,否则就会造成采集对象的混乱。由 于各国的具体情况不同,归档网络空间的划定采取的方式也各异。归纳起来,主要有: ①以国家域名为顶级域名的网站;②服务器的物理地址在国内的网站;③由本国组织或 公民拥有的网站或其内容由本国人提供的站点。由于每一种划分方式都存在一定的局限 性,仅仅选用某一个标准很难把一国的归档对象网站同其他国家的网站区分开来,而且 ,这些标准也不是绝对的,因此,有国家提出将这三种方式结合起来。例如,瑞典Kulturarw[3]项目认为该国的归档网站应该包括[1]:①服务器地址以.se结尾;②顶级 域名是.com、.org或.net,但以瑞典地址或电话号码注册;③以.nu结尾的网站。英国 、法国也采取了类似的做法。

我国国家图书馆的“网络资源采集与保存试验项目”(WICP)确定的对象网站是[2]:政 府网站100家、电子期刊网站100家,大学网站100家,企业网站100家,其他(门户网站 、媒体网站——报纸、电台、电视台网站等)100家。作为试验项目,它所选择的仅仅是 样本网站,在总体上并没有一个明确的归档网络空间的划分标准。

1.1.2 采集方式的选择 纵观各国的Web资源保存行动,主要有以下4种采集方式。

选择性采集。即根据Web资源的历史价值、文化价值、研究价值和经济价值,有选择地 对Web内容进行甄别、采集,它需要较多的人工介入。选择性采集需要制定详细的内容 选择标准,以明确采集主题。这种方式主要以澳大利亚国家图书馆(NLA)的PANDORA行动 为代表[3],NLA制定了《保存网上出版物的选择方针》,并确定了15个大的归档主题。 另外,英国的Britain on the Web计划[4]、美国国会图书馆的Minerva项目[5]等也采 用了这种方式。由于选择性采集需对所保存的每一项主题都进行认真的价值评估,并制 定出资源优先采集方案,因而提高了保存质量。但问题是,选择归档主题时主观性较强 ,很可能遗漏对未来具有价值的重要资源。

全采集。就是把归档对象网站上的所有信息全部保存下来,一般用采集机自动获取。 鉴于选择性采集的局限性,不能确定现有的哪些信息对未来是有价值的,为了保证后代 能够研究完整的历史,就得保存对象网站的全部信息。采用这种方式的主要有瑞典的Kulturarw[3]项目[1]、芬兰的EVA计划[6]、欧洲的NEDLIB项目[7]以及奥地利的AOLA项 目[8]等。用这种方式采集的数据量将以几何级数增长,内容质量难以控制;不仅需要 大量的资金和技术投入,而且自动采集机无法采集深层网络(deep Web)信息。

联合采集方式。基于选择性采集和自动获取方式各自的特点,在存储载体容量日益增 大、存储成本下降的情况下,法国BnF项目认为把这两种方法结合起来是一个比较好的 选择[9]。目前这种联合采集方法使用还不太广泛,法国也是处于试验阶段,但它充分 利用了自动获取和选择性采集的优点,并将其有机统一起来,因而具有很大的应用前景 ,引起了国际同行的广泛关注。

基于呈缴本(legal deposit)制度的协商方法。由图书馆与网络出版机构进行协商,将 呈缴本制度扩展到Web领域,出版社根据协议定期将被选择的Web资源通过物理媒体移交 或通过网络传递给图书馆,或者由图书馆根据协商从出版社网站上进行镜像复制或直接 使用软件获取。荷兰国家图书馆采用的就是这种方式,并于1996年制定了《荷兰电子出 版物呈缴本选择标准》[10]。其实,不管采用哪种方式,都需要得到网站所有者(包括 网络出版机构)的积极配合,尤其是对一些控制访问的网站资源的获取、数据库网站的 采集以及深层Web资源的访问,等等。

上述4种采集方式并不是相互排斥的,笔者认为,可以根据不同情况,选择其中的几种 方式结合使用。法国的联合采集方式就是很好的借鉴。

1.1.3 采集频率的确定 网络一直处于不断变化、更新的动态环境之中,新的网页不 断产生,旧的网页也在不断地消失。由于各个网页的更新频率不同,因而需要调整采集 频率,以保持同步,否则就可能遗漏很多重要信息。一般认为,自动获取每6个月采集 一次比较合适,但有许多网页的寿命极为短暂,在这段时间内可能有许多网页会发生变 更或被删除。因此,如何确定采集频率,最大限度地避免Web资源的遗失,也是值得思 考的一个问题。

随着我国信息化建设进程的加快,中文Web资源从类型到内容正在不断扩充和发展。作 为中华文化遗产的重要组成部分,理应得到及时的保存。而我国Web资源保存目前还处 于试验阶段,尚缺乏一个完整的采集方案。为此,制定怎样的采集策略,才能最大范围 地涵盖中华数字文化遗产,这是我们应该审慎思考的一个问题。

1.2 法律问题

Web资源保存中的法律问题主要是著作权问题。在Web资源的采集与保存过程中,会遇 到许多与现有著作权法相冲突的问题:①采集权:包括Web资源的下载、复制、备份; ②编辑权:包括URL链接、信息单元(网页)表现形式的变更;③长期保存权:保证国家 图书馆可以无限期拥有作为国家文化遗产的网络信息;④公共服务权:保证国家图书馆 在一定的时间和空间范围内通过某种手段(网站)提供存档的信息。

按照一般著作权法原则,从网上获取每一个文件都要得到许可,这样实施起来是很不 现实的——不仅需要投入大量人力和财力,还有可能造成许多网络文化遗产因为得不到 法律许可而永远丢失。而且Web资源是全球性的,保存某Web资源在一国法律下是允许的 ,而在另一国可能就违反了法律。法律的制定具有不同的管辖权,如果没有相关条约和 协议,跨国界的法律实施将会十分艰难。

目前,我国的著作权与呈缴条例尚未扩展到网络领域,Web资源的采集与保存还需进一 步立法予以明确。

1.3 技术问题

对于Web资源的采集与保存,现尚没有一种理想的技术解决方案,各国都在积极探索, 但至今仍未达成共识。其中采集与保存技术尤为棘手。

在采集方面,网络技术的飞速发展以及网页的动态性特征,给Web资源的采集带来了巨 大的困难。例如,网页内容越来越多地通过动态数据库的形式呈现,如果没有相关软件 和数据库结构的详细元数据信息,是很难采集的。有些网站使用一些应用不太广泛的专 有软件(如浏览器插件),或者使用了某些不能在所有浏览器上通用的非标准软件。这些 都会对采集带来困难。而且,我们所获取的网络信息大多是表层Web资源,还有比表层 网络大400-500倍的深层网络,这是一个巨大的资源宝库,而自动采集机却无法企及。 如何制定一套完善的采集技术方案,目前仍在讨论之中。

根据表层网络和深层网络的特点,我国国家图书馆在试验中分别采取了不同的技术策 略[2]。对于表层网络,实施“Web资源采集与保存试验项目”(Web Information Collection and Preservation),对归档网站进行有选择地采集;对于深层网络,实施 “网络数据库导航”(Online Database Navigation)项目,这种导航方式只是向用户提 供相关的链接和分类索引,并非直接将深层网络信息采集并保存下来。

归档Web资源的长期存取也是所有数字信息保存所共同面临的问题。由于数字信息的非 人工识读性,所采集的Web资源必须以一定的软硬件技术作支撑;然而,技术的滞后是 不可避免的,为了维护数字信息的长期可读,保证数字文化遗产的永久留传,1996年, 美国信息存取委员会(CPA)在一份报告中首次提出了保存数字信息的关键技术方法[11] :更新(refreshing)、迁移(migration)、仿真(emulation)。但每种技术方案都有其优 劣,所有的解决方案都只能部分地解决存取问题。目前业界正在进行各项研究,试图找 到一种或一套理想的长期存取技术方案,但至今未能取得突破。

1.4 保存责任问题

从采集责任上说,目前,还没有专门的机构对整个Web资源承担保存负责,也没有统一 的政府一级的组织来制定采集标准或网站保存策略。因此,各自为政的现象极为普遍, 许多文化收藏机构虽然都在积极探索Web资源的保存问题,包括档案馆、艺术馆、国家 图书馆、博物馆,等等,甚至是网站所有者本身。但这些机构往往只是从各自的专业角 度出发,选取保存各自所需的Web资源。这就形成了一种相对分散的保存局面,各个保 存机构的采集策略和采集内容都有很大的差别,如果没有一个统一的组织来引导其合作 ,势必造成两种后果:大量的重复采集,造成人力、财力的浪费;许多Web资源因各机 构相互推诿责任而得不到及时采集,造成重要文化遗产的流失。

关于Web资源的长期存取责任,也存在较大的争议。数字信息的存取环境与其形成环境 应该一致,数字信息只有在其形成的环境中加以保存与维护才是最经济、最可行的,这 也是维护其长期存取的可靠方式。如果数字信息在形成伊始就不便存取,那么今后的存 取将更加困难,因而长期存取责任的认定也十分关键。有人认为[12],“政府应制定法 令,要求网络信息的生产者、拥有者与提供者都应该对网络信息的存取负责。在印刷环 境中,印刷信息的拥有者与提供者(如图书馆、档案馆、博物馆)负有保存信息的职责” 。网络环境不同于印刷环境,网络上的任何人(可以是个人、部门或出版者)都可能是信 息的生产者,但大多数人并未认识到网络出版物需要长期保存。而且,维护Web资源的 长期存取,需要不断地投入资金和技术。即使Web资源的生产者、拥有者或提供者认识 到维护其长期存取的重要性,也未必愿意主动承担这一责任。如果没有法律与制度去保 证这项工作的顺利进行,那么Web资源的拥有者或保管者就可能会由于不愿持续投入资 金而将其损毁,或由于没有责任感而使有价值的数字资源丢失。

为此,如何划定Web资源的保存责任并保证其贯彻实施,是一个十分紧迫的问题。

1.5 资金问题

资金问题是Web资源保存的每个环节都必须考虑的一个敏感问题。

与印刷环境不同,Web资源的采集、保存和管理的成本要更高。在目前的技术条件下, 一个网上出版物的采集工作(包括鉴别、选择、协商、编目、下载、审查等)至少需要一 个员工的一个工作日,需要专门的技术人员和软硬件设备,其成本比印刷环境下要高5 倍以上。这还不包括保存的费用。在长期保存的过程中,要对数字资源不断地进行更新 、迁移、仿真等,这将是一笔更大的投资,目前还无法计算到底需要多少费用。除此之 外,对于这样一个不断扩展的网络档案馆的持续管理也是一项长期的投资。这对所有Web资源的收藏机构来说,都是一个极大的挑战。

作为一项“功在当代、利在千秋”的公益性事业,Web资源的采集与保存需要巨额的投 资,由于工程持续时间长,短期内很难取得明显的经济效益,因此很难引起商业机构的 兴趣。目前,Web资源保存的资金来源主要是政府财政拨款以及部分社会团体的资助。 随着网络信息量的不断增加,这笔投资会变得越来越大,政府也将不堪重负。如何解决 资金“瓶颈”,是值得关注的问题。

2 解决方案

鉴于上述分析,结合我国国情,笔者初步提出以下解决方案。

2.1 建立国家Web资源保存的战略机制

建立国家Web资源保存的战略机制,有利于在全国范围内有组织、有计划地构建一个国 家Web资源长期保存协作网,最全面、最经济、最合法、最有效地实施对重要Web资源的 长期保存。

笔者认为,建立国家Web资源保存战略机制应该包括以下几点:

其一,制定Web资源保存的国家策略,由国家统一领导和协调Web资源保存工作,出台 适合国情的Web资源采集与保存政策。在这方面,澳大利亚的经验值得借鉴。早在1996 年,澳大利亚政府就先后出台了《保存网上出版物的选择方针》(2003年修订)、《澳大 利亚电子出版物的国家策略》等规范性文件,详细列举了属于采集范围的网上出版物类 型。其国家图书馆还与地方图书馆就各种网上出版物的保存达成协议:如果网上出版物 不具有广泛的国家价值,将不由国家图书馆保存,而由州和地方图书馆对其行使保存职 责。

其二,明确划分各部门的保存职责。2002年6月,国际图联(IFLA)与国际出版协会(IPA )联合发表了一项声明[13],声明指出:“出版机构承诺短期保存他们出版的数字形式 的出版物,而图书馆则应通过与出版机构的协商,承担起长期保存这类出版物的责任” 。该声明的发布,对我们划分保存责任具有极大的借鉴意义。

其三,Web资源的采集和保存是一项系统工程,需要联合国家各个部委、各省市的信息 管理部门和文献收藏机构以及新闻出版部门,构建国家Web资源保存的协作体系,并从 法规、经济、方针政策和行政管理等方面来支撑和约束。

2.2 选择合理的技术方案

笔者认为,我们在选择Web资源采集与保存的技术方案时,应该满足以下要求:

其一,满足采集与保存要求。在采集方面,所采取的技术能高效、自动地采集所需归 档的资源;在保存方面,把数字信息作为一个离散的整体保存;能保存数字信息的真实 性、凭证性和可用性等必要特征;保证数据的易处理性(“易”指不受时间、空间、费 用的限制,“处理”包括复制、存取、传播、机读等)。

其二,技术上的可实现性。技术上的可实现性是技术解决方案赖以存在的基础,也是 其推广应用的第一步。理想的保存方案不但要求在技术上是可实现的,还应尽量要求在 实际使用操作时是简便易行的。

其三,合理的经济代价。一种方案要能应用于实际成为真正解决问题的方法,必须考 虑经济问题,这关系到该方法的市场认可度和应用推广度。此外,保存Web资源的代价 应与利用所保存信息产生的经济效益、社会效益成正比,并保持尽可能高的成本效益比 。

2.3 研究与实践同步进行

如前所述,法律、经济和管理体制等也是Web资源长期保存的制约因素,如缺乏呈缴本 制度的法律支撑机制,网络著作权问题尚未有效解决,缺乏全国性的长期保存管理体制 ,缺乏规范持久的资金支持模式等。我国应该在这些方面进行深入研究,并尽早制定相 关法律法规。虽然这些问题不是短期内就可以全部解决的,因为我们起步比国外晚,但 可以学习国外的成功经验,积极开展具体的实践活动,为形成全国性乃至国际间的协作 网打下基础。

当前,我国的呈缴本制度尚未覆盖到网络出版物,国家图书馆、档案馆等机构应当与 出版者合作,建议国家将现有的呈缴本制度扩展到Web领域,以便完整地保护国家文化 遗产,维护Web资源的长期存取。

2.4 广泛地开展合作

笔者认为,在维护Web资源的长期存取方面,应该广泛地开展合作,合作包括3个方面 :

其一,积极参与国际合作,包括制定统一的标准、参加有关国际会议,或者直接参与 国际Web保存项目。通过合作,可以充分吸收和借鉴国外Web资源保存的经验、管理模式 以及先进技术,同时也可以向国外展示我国网络文化遗产的保存进展。

其二,国家文献保存机构之间通力合作。如图书馆、档案馆、博物馆等,是我国主要 的文献收藏机构,相互之间可以也应该进行协调,技术上合作攻关、资源保存上合理分 工、资金上实现最佳分配,这样不仅可以节省人力、物力,避免重复建设,而且也有利 于Web资源保存体系的完整与优化。

其三,鼓励技术人员、网络信息的创作者、出版商以及企业与图书馆、档案馆和博物 馆等文献保存部门通力合作,共同保存网络文化遗产,并制定相关教育和培训计划,推 广研究成果与经验,鼓励资源共享,促进知识和技术交流。

标签:;  ;  

论网络资源保护的热点问题_web技术论文
下载Doc文档

猜你喜欢