美国数字资源保护技术及NDIIPP工具研究_元数据论文

美国NDIIPP的数字资源保存技术和工具研究,本文主要内容关键词为:美国论文,数字论文,工具论文,资源论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       互联网时代,信息在以几何速度增加的同时也在快速地消失。美国NDIIPP项目研究结果表明网络信息的平均寿命是44天。在网络信息资源消失之前对其加以长期存储是非常重要的一项工作。目前美国NDIIPP项目、欧洲NEDLIB计划、澳大利亚PANDORA项目、Paradigma项目、挪威Kulturarw3等项目都取得了良好的实践效果。中国作为数字资源的生产大国,互联网普及率达47.9%、网民规模达6.49亿、网站总数为335万、网页数量1899亿个,网络数字资源的增长更是迅猛①。面对这一形势我国也日益重视数字信息资源的保存工作,并开展了若干相关活动,以推动数字资源长期保存在我国的发展。在国内开展的众多研究工作中,关于数字资源保存技术和工具的研究一直是学术领域关注的重点,毕竟数字资源的迅猛增长,需要我们合理地利用科学的技术和适当的工具开展数字资源长期保存工作。在此,我们以美国国会图书馆开展的NDIIPP计划为例,分析其在数字资源长期保存实践中所采用的技术和工具,以便对我国的数字资源长期保存工作有所启示。

       1 国外数字资源保存技术和工具研究概述

       当前在数字保存技术方面,按照数字保存联盟(Digital Preservation Coalition)的分类将其分为:IT技术、标准和工具三个方面。2004年OCLC研究办公室的Brian F.Lavoie在《开放式档案信息系统参考模型介绍指南》一文中详细介绍了开放式档案信息系统(Open Archive Information System,OAIS),涉及OAIS参考模型的来源、产生的背景、系统的目标、系统运行的环境、功能模块、信息描述模型等②。相关保存机构以及信息技术公司往往以OAIS的模型为基础来开发或者设计各种类型和特色的数字资源长期保存软件系统。如在数字保存领域使用最为广泛的DSpace、EPrints、Digital Commons、OPUS和由OCLC开发与设计的ContentDM都在系统架构上参考了OAIS的理念。在保存系统评估方面,数字保存中心(Digital Curation Center,DCC)和欧洲数字保存(Digital Preservation Europe,DPE)两大组织合作开发了系统风险评估使用工具,即基于风险评估的数字保存系统审核工具(Digital Repository Audit Method Based On Risk Assessment,DRAMBORA)。该工具包能够对保存活动中的各类风险进行识别、量化、评估、预防和管理,为系统的管理者提供内部审核的方法。该评估工具在发布后会根据反馈意见定期进行更新和升级,并被翻译成不同的语种以便于不同地区和国家的机构使用③。

       在针对特定对象的长期保存方面,Amy Kirchhoft and Sheila Morrisey在《2014数字保存联盟技术观察报告》中对电子图书长期保存的众多技术问题进行了详细的论述④,如数字版权管理技术(Digital Right Management,DRM)方面Adobe Adept DRM、Apple FairPlay、Microsoft Reader's proprietary format等在技术上给电子图书的长期保存和利用带来的不利影响。另外Neit Beagrie⑤、Alex Ball⑥、Richard Wright⑦、Christopher J Prom⑧等分别探讨了电子期刊、计算机辅助设计产品、视频及音频、电子邮件等特定对象长期保存上的相关技术问题。Robert Buckley⑨则探讨了将JPEG2000图像作为压缩静态图像标准应用于数字长期保存的可能性,并分析了其相对于JPEG的优点。

       在数字保存工具方面,根据机构数字保存工具登记系统(Community Owned Digital Preservation Tool Registry,CODPTR)统计当前较为正式的数字保存方面的工具大约有393个,包括音频、二进制数据、磁盘图像、网页、科研数据和数据库等方面的处理工具⑩。在数字信息捕捉方面,有多种类型可以用于数据抓取的软件工具,如Screen-Scraper、Tabula、WARCreate、Web Scraper Plus+等工具可以在数字保存活动中实现对数据快速灵活地捕捉和存储,这些智能化工具可以大大提升数据的前期收集和整理工作的效率;在元数据提取方面,大约有53个相应的工具,如Apache PDFBox、EXE Explorer、FileAlyzer等都是其中较为典型的工具,都可以实现对特定类型对象的元数据进行自动提取、管理和保存。

       总之,国外在数字资源长期保存的技术方面不仅已经有了一套科学的标准,也在标准的基础之上了开发了大量的实用性技术工具。在当前海量数字资源面临长期保存的巨大挑战的背景之下,这些自动化工具在数字保存活动中的应用,可以大大加快数字资源长期保存活动的进程,并为后期的数据检索和利用奠定技术基础。

       2 美国NDIIPP简介

       “NDIIPP”即美国“国家数字信息基础设施和保存计划”(National Digital Information Infrastructure and Preservation Program),是美国国会图书馆为开展数字资源保存而进行的联合行动(11)。NDIIPP于2000年12月份启动,旨在统一全国的数字保存机构,建立全国性的数字保存合作关系网络,开展一个全国性数字信息长久保存的计划。项目主要目标有3个:第一,捕捉、保存并使重要的数字信息内容能够被自由获取,数字信息包括地理空间信息、网页信息、音频和视频信息等;第二,与合作机构建立并加强合作关系网络,共同推进保存活动;第三,与合作机构提出美国国家数字信息保存的技术框架,为数字保存系统的搭建提供指导性建议。NDIIPP无论从开展周期、参与机构数量、项目涉及范围以及影响力等各个方面来看都是数字保存项目中的典型代表。

       截止到目前,NDIlPP已经在6个领域开展了将近50个数字保存项目,涉及1000多个相关机构的数字资源集。NDIIPP开展的这些数字保存项目保存了大量的濒危数字保存资源,同时在美国建立了初具规模的数字保存合作网络,其合作伙伴已经达到了130多个,合作网络已经扩展到了整个美国。这些成果充分说明了NDIIPP在数字保存方面取得了巨大的成功。系统地了解NDIIPP项目关于数字资源保存的技术和工具,有助于我国批判性地吸收和学习国外成功的经验,推动我国数字资源长期保存工作科学顺利地开展。

       3 NDIIPP数字保存技术

       3.1 NDIlPP保存技术模型

       在NDIIPP的技术模型方面,国会图书馆联合了众多公益机构和商业机构以及美国国家科学基金会等组织组成了一个设计小组来开展,逐步确认技术模型关键模块的工作。NDIIPP的保存技术模型在成型以后根据相关反馈进行了一定的修订升级工作,并于2003年推出其最新的版本,即Version2.0 Architecture(12)。NDIIPP技术模型的最大特点是在被封装于异构系统内的概念领域之间建立互通的桥梁。为了实现上述特征,该模型必须只是对数字保存所需功能集合的最低限度的描述,并且还必须避免适用对象过于单一的状况,因为NDIIPP项目的范围很广,过于单一的适用对象会限制其使用范围。第二版的模型和第一版相比最大的特点是减少了系统的层级,但是在功能上更加强大,如增加了数据的生命周期管理,这样元数据信息就会随着时间的推移进行变化,以便更好地显示数字资源的变化状况。

       NDIIPP技术模型从整体上看,可以分为上层、中间层和底层3个模块层级。3个层级在逻辑架构上可以保持一定的独立性,因为数字保存领域的技术和标准更新是其极大的一个障碍,这样的设计方法可以保证在面对新技术和标准进行特点模块的单独升级,能够增加系统的扩充性和适应性。另外其在数字信息的管理模块中,增加了信息的生命周期管理,这样可以更好地对信息进行分级管理,提高保存信息的管理有效性和针对性,便于信息的保存和利用。此外通过图1的分析可知,在NDIIPP的技术模型里,数字信息的处理流程是按照这样的环节来开展的:首先系统获得外部机构提交的数据信息或者通过自身的自动化工具从网络上捕捉相关数据信息,这样数据就从左边进入到了中间层,经过标引、格式转换等加工处理之后存储于底层,右边的机构通过检索向存储系统发出相关数据信息检索指令,系统将相关的信息输出给右边的机构。

      

       图1 NDIIPP技术模型示意图(13)

       3.2 NDIIPP保存元数据

       元数据是信息资源的管理、组织和检索的基础,由于海量网络数据和数字数据的存在使得保存元数据的管理和应用显得更加重要和急迫(14)。保存元数据是被用于存储关于数字内容格式、结构和使用的技术细节,对资源实施的所有操作历史,以及适用于保存行为的责任和权限的信息(15)。表1列举了NDIIPP在数字保存活动中使用的部分元数据。

      

       在NDIIPP的元数据中大部分的元数据集在制定时都参考了现有的特定对象方面的元数据标准,这样不仅有利于减少数据标引的加工工作,加快数字保存工作的进程,同时为了更好地实现对保存对象的保存、检索和使用,NDIIPP在参考现有元数据标准的同时也增加了一些新的子元素。此外为了保证元数据标准的权威性,NDIIPP在制定相关标准时选择了大量相关领域的专家及机构,如在关于音频文件的元数据标准制定中,参与标准制定的机构包括Sorry BMG Music、Universal Music Group以及美国艺术与人文音频协会等。这些机构的参与不仅在音频元数据方面提供更加专业的建议,同时对于提升相关标准的影响力也有着重要的意义。

       NDIIPP为了更好地支持保存元数据制定方面的工作,还发起了一项专门性的活动——美国联邦机构数字保存准则活动(Federal Agencies Digital Guidelines Initiatives,FADGI)(16),其目标是持续为数字保存活动提供一系列具有普遍适用性的指导准则和方法。FADGI在保存元数据方面取得了丰硕的成果,制定了众多实用性很强的元数据标准,NDIIPP数字保存项目在制定元数据标准时可以充分对这些标准进行借鉴,这对于加快特定保存对象的元数据标准制定工具有重要意义。

       4 NDIIPP数字保存工具

       4.1 NDIIPP数据获取和发布工具

       信息资源的采集是数字保存活动的起点,由于当前网络和其他数字资源的海量存在以及其动态更新的现状,需要借助专门的资源采集工具来定期自动进行数据的捕捉和收集。NDIIPP项目在开展过程中和合作伙伴使用了大量的相关数据抓取软件,这样不仅大大提高了数据资源采集的效率也节省了大量的人力物力成本,保证了各个项目开展的进度。在网络数据爬虫软件方面,NDIIPP项目主要涉及12种常用的软件工具。

       表2列出了NDIIPP数字保存项目中常用的软件工具,这些软件工具在数据获取和发布方面发挥着重要的作用,对于提升相关工作的效率具有重要意义。在适用对象方面,不同软件工具的适用范围是不同的,如Djatoka只适合处理JPEG2000格式的相关数据,而WarcManger则可以处理网页上多种格式的数据;在对系统的环境要求方面,有的软件工具对系统要求较高,如MPP Viewer 2.0在运行环境上要求能够运行.Net 4.5,而有的软件工具则要求很低,对系统的内存占用也很少;在软件功能方面,有的软件工具功能较为单一,如Wayback Machine仅能检索和查看历史网页信息,而有的软件功能则较为多元化,如Voyeur不仅可以将网页上的数据输出到特定工具,同时还具很强的数据分析功能。

      

       此外,其他数据获取和发布工具,如NetarchiveSuite的功能也是较为强大的,其可以按照规划好的路径和设定的规则去收割网页上的相关信息,如可以限定主题和范围,另外其不仅可以在小范围内开展数据收割工作,也可以去收割整个国家的域名之内的所有网络数据信息:Tubekit是一款专门针对YouTube的数据收割软件工具箱,它可以依据给定的限定词以及其他最多16个属性词创建定制化的数据收割软件工具,并在YouTube上收割多种数据。

       4.2 NDIIPP元数据管理工具

       元数据管理工具是数字保存工具的重要组成内容之一,其功能是实现保存数字对象元数据的提取、保存和输出等。在NDIIPP项目的数据存储、管理和数字信息资源的获取中,离不开大量的元数据管理工具,这些工具为数字信息资源的管理以及最后的使用提供了保障。NDIIPP数字保存项目中的相关元数据管理工具大致上可以分为两类,即元数据提取工具和元数据处理工具。表3为NDIIPP部分元数据管理工具。

      

       从表3中可以看出,NDIIPP十分重视数字保存工作中对元数据工具的使用,这些工具的使用可以实现元数据的规范化管理,提高元数据抽取、确认以及输出的自动化水平,加快数字资源的标引工作,为未来数字资源的检索和利用做好充分的准备。NDIIPP涉及的元数据工具在适用对象方面有不同的要求,如有专门针对音频文件元数据管理的BWF MetaEdit,也有可以适用于多种类型数字资源元数据管理的Exif Tool;在功能方面不同的工具也有不同侧重点,如Exif Tool侧重于元数据的编辑和读取,而Metadata Extraction Tool则侧重于元数据的抽取;在对系统的支持方面也有所不同,有的元数据软件在不同的操作系统上需要安装相应版本的工具,否则就会影响到工具的使用,如Archivists' Toolkit就在Mac OS、Windows以及Linux等有相对应的不同版本。

       此外,除了上述表格中列举的工具外,NDIIPP还有大量其他的元数据管理工具,它们也都有各自的特点。如Gushoe Gumshoe是一款适用于提取法律方面磁盘图像(Disk images)元数据的元数据管理工具(17)。其面对的用户是专业的数字保存人员以及机构用户,可以按照设定的URL路径进行数据的元数据收集和抽取工作,但该应用需要安装加载较多的配套插件,如Fiwalk和RLJby等,并进行调试,操作较为复杂,对使用者个人的能力要求比较高。当然其功能也更为强大,还适用于元数据的存储、检索以及有效性监测等。

       4.3 NDIIPP保存系统工具

       保存系统工具是为数字信息资源提供存储、管理以及获取的系统软件。数字保存项目NDIIPP的保存系统工具的搭建往往是在借助合作伙伴的数字保存系统或者开源系统的基础之上开展的,这样利用较为成熟的系统不仅可以在系统工具搭建上节省大量的人力物力,还可以加快项目的进程,保证系统运行的可靠性和稳定性。

       NDIIPP数字保存活动中涉及的保存系统工具基本上都是开源软件,这为项目的开展节省了大量的资金;在适用的保存对象方面,NDIIPP的相关工具几乎都支持如网页、图片、音频和视频等多种格式的数字信息资源的保存;在软件功能方面,每个系统都具备数字保存系统所应具有的基本功能,如数据的保存和检索、数据的输入和输出等,但是也有个别系统在功能上更加强大,如ContentDM等软件支持对元数据和保存数据的生命周期管理,这样可以更好地实现信息的针对性管理,Duracloud支持保存数据的云存储,这可以极大地提高数据保存的安全性;在操作系统环境的要求上,大部分软件没有严格的要求,说明这些软件适用性更强,但是Fedora则有着严格的要求,仅支持Linux操作环境。

       总之,NDIIPP项目中涉及的数字保存系统工具有7个,同时NDIIPP也推荐了很多其他相关的数字保存系统工具,这些工具各有特点,同时在功能上也有很大相似度。每个数字保存项目在选择保存系统工具时应该充分分析项目的特征和需求,这样才能保证最终的系统工具满足保存项目的需求。NDIIPP涉及的数字保存系统工具如表4所示。

      

       在NDIIPP涉及的所有系统保存工具中,DSPS是一个软件应用系统集合,在该系统工具中可以实现数字资源长期保存的多个工作环节,其包括4个相应的子工具即Xena、DPR、Checksum Checker和Manifest Maker(18)。其中,Xena的功能是将数字文件转化为系统默认的标准格式文件;DPR可以自动处理大量需要保存的数字文件;Checksum Checker的功能是用来检测数字保存对象内容的完整性;Manifest Maker可以在数字文件的特定地方生成分栏标签列表,用于记录文件的相关信息,如文件名和文件路径等。总之DSPS作为一个集合系统应用工具在数字保存方面功能十分强大。

       4.4 NDIIPP数据分析工具

       数据分析工具是数字保存工具中的重要一种。NDIIPP数字保存项目中涉及的数据分析工具相对较少,同时功能也较为简单。如Voyeur是一个用于网页词汇分析的工具,ACE是一个用于数字资源完整度和可信任度检测的工具,Droid是一个用于数字资源格式分析的工具。这在一定程度上说明自动化数据分析软件的开发并不够成熟,目前还无法大规模替代人工在数字信息方面的分析工作,只能在一些简单的分析工作上替代人力劳动。在功能和智能化程度方面还需进一步提高和完善,只有这样才能更高效地应对海量数字信息资源的分析工作,进而加快数字信息的长期保存工作的开展,在濒危数字信息消失前实现对其的合理科学保存,为信息未来的开发和使用创造有利条件。

       4.5 NDIIPP其他相关工具

       数字保存工具除了上面提到的几种工具之外,还有数字保存其他方面的软件工具,这些工具对于数字保存活动的开展同样也有着重要的意义。如在数字保存规划方面,DMPonline是一款数据管理规划软件工具,它不仅为数据管理规划制定提供指导,并且可以为计划的执行提供有益的支持;在数字文件的修复方面,PDFftk是一款用于修复篡改或者受损的各类PDF文件的工具,并且可以用于PDF文件元数据的自动抽取工作;在数字保存项目开展风险评估方面,HoliRisk是一款专门的网络风险评估工具,其评估原则依据ISO31000的相关条目制定,可以用于数字保存项目中各种内外部风险评估;在数字对象或者系统密码恢复方面,ElcomSoft作为一款性能强大的分布式密码恢复工具(Distributed Password Recovery tool),支持多种格式的数据和应用密码恢复,包括微软办公软件、Adobe PDF文件、PGP磁盘以及个人的安全认证、ZIP压缩包、Oracle数据库密码以及Windows和UNIX登录等密码的恢复,该工具在应对系统或者保存对象密码丢失等意外情况,以及保证数字保存系统和对象正常使用方面发挥重要的作用。

       5 结语

       数字信息资源的长期保存和传统信息资源的保存有着较大的区别,其中一个显著的区别就是数字信息资源的长期保存离不开现代信息技术以及大量相关数字保存工具的支持,数字信息资源长期保存在前期信息的获取、分类、标引、保存以及后期的利用等环节都涉及大量的专业技术和工具,离开这些技术和工具数字信息资源的长期保存工作就无法正常开展和进行。我国在今后开展数字信息资源保存活动的过程中必须很好地应对这一差异。

       第一,加强数字保存技术和工具相关领域的理论研究工作,特别是在数字保存标准方面的研究工作,如数字保存元数据的制定,积极学习国外的先进理论,结合我国数字信息的特点制定适合我国国情的元数据标准,同时又要在一定程度上保证和国外相关标准的相通性,便于各个保存系统之间数据信息的互操作等,最终实现数字保存系统之间信息的共享。

       第二,积极开展相关数字保存方面的技术和工具的开发和引进工作,不仅要在数字保存项目中积极自主开发大量针对性的数字信息技术和工具,另外还应注意对国外相关数字信息技术和工具的引进工作,降低自身技术和工具的开发成本,在引进的基础上进行创新,加快技术和工具开发和实施的周期,为数字保存活动的开展奠定技术基础。

       第三,加强和企业伙伴之间的深层次合作,不仅要充分利用其技术优势同时积极寻求资金支持,建立共赢的合作关系网络,为数字保存活动技术和工具的发展建立稳定良好的资金和人员资源外部环境,这样不仅壮大了数字保存活动的参与力量,同时对于提高整个社会对数字保存技术和工具的关注也有重要意义。

       总之,数字保存技术和工具对于数字保存活动的开展具有重要的决定性意义,做好前期的数字保存技术和工具的准备工作对于提高数字保存活动工作的效率,以及保证最终数字保存成果的质量都具有极大的影响。我国今后在开展数字保存活动中必须做好相关数字保存技术和工具的开发和引进及创新工作,提前为数字保存活动奠定技术基础。

       注释:

       ①第35次中国互联网发展状况统计报告[EB/OL].[2015-03-26].http://cnnic.cn/gywm/xwzx/rdxw/2015/201502/W020150203456823090968.pdf.

       ②Brian Lavoie.The Open Archival Information System(OAIS)Reference Model:Introductory Guide[EB/OL].[2015-03-17].http://www.dpconline.org/advice/technology-watch-reports.

       ③Digital Repository Audit Method Based on Risk Assessment.[EB/OL].[2015-03-17].http://www.repositoryaudit.eu/.

       ④DPC Technology Watch Reports[EB/OL].[2015-03-20].http://www.dpconline.org/advice/technology-watch-reports.

       ⑤Neil Beagrie.Preservation,Trust and Continuing Access for E-Journals.[EB/OL].[2015-03-20].http://www.dpconline.org/advice/technology-watch-reports.

       ⑥Alex Ball.Preserving Computer-Aided Design[EB/OL].[2015-03-20].http://www.dpconline.org/advice/technology-watch-reports.

       ⑦Richard Wright.Preserving Moving Pictures and Sound[EB/OL].[2015-03-20].http://www.dpconline.org/advice/technology-watch-reports.

       ⑧Christopher J Prom.Preserving Email[EB/OL].[2015-03-20].http://www.dpco-nline.org/advice/technology-watch-reports.

       ⑨Robert Buckley.JPEG 2000-A Practical Digital Preservation Standard[EB/OL].[2015-03-20].http://www.dpconline.org/advice/technology-watch-reports.

       ⑩Community Owned Digital Preservation Tool Registry[EB/OL].[2015-0320].http://coptr.digipres.org/Main-Page.

       (11)William LeFurgy.Building Preservation Partnerships:The Library of Congress National Digital Information Infrastructure and Preservation[EB/OL].[2005-11-06].http://www.ndiipp.uinc.edu/idex.php?option=com_content&task=view&id=4&Itemid=35.

       (12)Version 0.2 of the Technical Architecture for the National Digital Information Infrastructure and Preservation Program[EB/OL].[2015-04-13].http://www.digitalpreservation.gov/multimedia/documents/ndiipp-v02.pdf.

       (13)许群辉.美国数字信息资源保存项目NDIIPP及其启示[J].现代情报,2006(9):67-69.

       (14)Jung-ran Park,Caimei Lu.Application of Semi-Automatic Metadata Generation in Libraries:Types,Tools,and Techniques[J].Library & Information Science Research,2009(4):225-231.

       (15)秦金聚.数字信息保存元数据研究进展及启示[J].情报理论与实践,2007(2):284-288.

       (16)黄如花,张伟肖.美国联邦机构数字保存准则活动浅析[J].图书馆学研究,2014(6):90-93.

       (17)An Archivist Gumshoe[EB/OL].[2015-04-14].https://github.com/anarchivist/gumshoe.

       (18)Digital Preservation Software Platform[EB/OL].[2015-04-15].http://dpsp.sourceforge.net/index.php.

标签:;  ;  ;  ;  

美国数字资源保护技术及NDIIPP工具研究_元数据论文
下载Doc文档

猜你喜欢