数字信息资源长期保存标准体系研究_元数据论文

数字信息资源长期保存系统的标准体系研究,本文主要内容关键词为:信息资源论文,体系论文,数字论文,标准论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

收修改稿日期:2006-01-24

【分类号】 G250.76

标准是数字信息资源长期保存系统建设过程中不可忽视的重要元素之一,是保证数字信息资源长期保存各环节互操作的基础,贯穿于数字资源生命周期的全过程。全面、清晰地梳理长期保存过程中涉及的标准,对于建设成功的数字信息资源长期保存系统具有至关重要的作用。然而,将数字信息资源长期保存中涉及到的相关标准全面地体系化是非常困难的工作,本文无意穷尽数字信息资源长期保存系统中涉及的标准,而是对这些标准的层次、功能、内容进行分析,以使人们能清晰地认识数字信息资源长期保存系统标准的范围与作用,为数字信息资源长期保存系统的设计提供参考。

1 标准及其在数字信息资源长期保存中的作用

标准在数字信息资源长期保存中的重要性得到了人们的广泛认可。英国的一项对包括国家图书馆、博物馆和大学在内的15家机构的研究[1] 表明,所有被调研的单位都认为,标准在数字资源生命周期的每一阶段都具有非常重要的作用。例如,英国公共记录办公室(The United Kingdom' s Public Records Office,PRO)的办公系统中的电子记录项目将某些标准作为数据保存格式的标准,PRO希望通过使用标准降低在不同标准间转换数据时的格式转换频率,以降低保存成本。

然而,使用标准也使长期保存的相关问题变得更为复杂,如使用标准可以解决某一领域的保存问题,一旦保存领域扩大或单位增加,就会产生不同标准之间的互操作问题。另一项研究[2] 发现,生产数字资料的34个机构中,只有7家采用了保存文件的格式标准,而且不同的机构间的保存格式也多种多样。《eLib Standards Guidelines》[3] 研究了长期保存中标准使用存在的相关问题,他们认为,标准化存在的问题主要表现在以下4个方面:

(1)可能同时使用多个标准,但是相互之间并不兼容;

(2)标准提供者会根据需要在标准执行过程中增加新的内容;

(3)一些标准在软件执行过程中可能有很大的差别;

(4)一些标准的实际内容要远大于实际使用,因此,在不同的应用中会有不同的子集。

Jeff Rothenberg[4] 对认为标准是数字信息资源长期保存的解决方案的观点提出了质疑,与此同时,他指出,“将数字文档转换成标准的形式,然后在需要时可以迁移到新的标准,可能是真正的长期保存解决方案提出前的一个过渡方案。”

最近,人们已不再只局限于将标准化作为解决数字信息资源长期保存问题的唯一方法,而开始认识到需求的多样性,困难在于预测未来的技术改变,所有这些意味着,我们只能将标准作为短期的解决办法。尽管标准的制定对于互操作和自动处理是非常重要的,但是,标准的作用是促进保存而不是全部的解决方案。

2 数字信息资源长期保存标准体系研究的基础

数字信息资源长期保存是一项复杂而又艰巨的工作,涉及到数字资源生命周期的全过程,数字信息资源长期保存的每一个过程都需要标准的支持,因此,系统地研究数字信息资源长期保存过程中的相关标准是非常必要的,然而,全面梳理数字信息资源长期保存的标准体系是非常困难的工作。一方面,是因为数字信息资源长期保存标准的多样性和复杂性,另一方面,是因为目前还不存在公认的标准体系框架。

已有的一些研究可以为我们带来一些启示。UKOLN在NOF-DIGITISE项目[5] 中基于数字资源的生命周期,将生命周期分为创建、管理、收藏建设、访问和重用,并研究了每一过程中的标准。在系统建设方面,OAIS[6] 模型将数字信息资源长期保存系统划分为摄入、保存、访问和管理4个部分,每一部分需要相应的包标准和转换标准,同时,一些基于OAIS的系统采用了标准元数据框架、元数据标准,采用通用协议和技术等,这些标准为建设高质量的数字信息资源长期保存系统提供了科学依据。

如图1所示,从系统实现角度分析,数字信息资源长期保存系统的标准可分为系统层次的标准、业务逻辑层次的标准和数据层次的标准。其中系统层次的标准包括数字信息资源长期保存系统标准、系统互操作标准;业务层次的标准包括摄入过程的标准、存储过程的标准、访问过程的标准和管理过程的标准;数据层次的标准包括信息模型、文件格式标准、数据转换标准、数据编码标准、数据标识标准和元数据标准等。本文将根据这种分类方法对数字信息资源长期保存系统建设过程中涉及的相关标准的作用、主要标准和项目应用进行分析。

3 数字信息资源长期保存标准体系

3.1 系统层次的标准

(1)数字信息资源长期保存系统标准

数字信息资源长期保存系统标准主要用于规范数字信息资源长期保存系统的体系结构、流程和其他相关问题,OAIS参考模型是致力于长期保存和维护数字信息可存取档案系统的一个基本概念框架,目前已被广泛接受,成为数字信息资源长期保存系统建设的事实标准,比较著名的一些长期保存系统,如CEDARS的分布式数字档案原型系统[7]、NEDLIB的DSEP[8]、e-Depot的DIAS系统[9]、Cornell大学的CDS系统[10]、FCLA的DAITSS系统[11] 和加利福尼亚大学的数字保存仓储等都基于OAIS模型进行了系统设计和实现。

(2)系统互操作协议和标准

从OAIS系统角度来分析,数字信息资源长期保存系统间的交互主要有4种类型,即独立(Independent)、协同(Cooperating)、联盟(Federated)和共享(Share)。其中独立的Archive属于本地,不与其他Archive产生任何关联;在协同情况下,Archive使用相同的提交标准和分发标准;在联盟情况下,多个Archive形成全局社区;共享是多个Archive之间达成资源共享协议,允许Archive间共享资源以降低费用。在这种情况下,要求所有的Archive遵循相同的标准,以实现互操作。

系统间的互操作协议主要包括Z39.50[12]、目录服务协议(LDAP、X.500等)、Web服务相关标准等。

3.2 业务层次的标准

OAIS提出了包含摄入、档案存储、数据管理、访问、保存计划和管理模块在内的功能模型,每一个模块处理的内容和过程并不相同,需要的标准也不相同。

(1)摄入过程中的标准

摄入(Ingest)过程负责接收数据生产者提交的信息。摄入过程中的标准用于规范信息提供者提供的信息内容,从而可以方便信息提供者与Archive间的交互和关联。摄入过程的标准涉及数据准备和资料准备、数据和支持资料的摄入、提供者和Archive的交互等方面,如目前摄入领域的标准化实践主要是Producer-Archive Interface Methodology Abstract Standard[13] 标准的提出,是数字信息资源长期保存系统特有的标准。

(2)存储过程中的标准

档案存储(Archival Storage)是整个档案系统的一部分,管理长期存储和保存OAIS收集的数字资源。存储过程中的标准规范主要解决数字信息资源长期保存系统中有关保存的相关过程、方法、技术等方面的问题。主要包括内容对象标准、数据编码标准、数字迁移标准、安全管理标准、存储介质标准、存储管理标准、SIP信息包标准等,如目前国际标准化组织正与CCSDS[14] 信息包和注册工作组制定基于XML的SIPs(Submission Information Packages)标准,将是数字信息资源长期保存系统又一个特有的标准。

(3)访问过程中的标准

访问功能表示OAIS与用户的接口,主要机制是使OAIS能满足用户群体获得档案信息。访问提供的典型服务包括处理OAIS的请求,特别是将请求传递至数据处理模块并提交回复给用户;协调检索结果,传递被请求的内容,这里的处理方式是通过传递请求至档案存储模块,接收请求的条目,最后执行提交给用户之前所必需的转换。访问功能还负责完成与档案内容相关的安全和访问控制机制。访问过程中的标准用于规范长期保存资源访问过程中的检索、传输、资源发现和访问控制的相关行为。国际标准化组织与RLG[15] 合作,准备提出适合数字信息资源长期保存系统本身特点的认证、授权标准[16]。

(4)管理过程中的标准

数字信息资源长期保存系统的管理可以分为数据管理和系统管理。数据管理模块包括定义和描述获取信息以支持OAIS发现的描述性元数据数据库和管理支持OAIS内部系统操作的管理性元数据,例如,系统性能数据和访问统计。系统管理模块负责管理OAIS的日常操作和协调OAIS高层服务的活动,管理功能模块还负责检查存档和访问系统的操作、监测系统运行和在适当的时候协调系统更新。长期保存系统的管理包括数据记录管理、权限管理、安全管理、标识管理、完整性检查等内容。

记录管理标准提供执行管理记录战略、过程和实践的指南,AS ISO 15489[17] 系列标准是记录管理标准中的典型,主要说明记录管理的责任、战略、控制、存储、评估等内容。访问控制管理标准用于说明访问控制过程中的相关内容,从技术实现角度看,目前的访问控制主要有自主访问控制(DAC)、强制访问控制(MAC)和基于角色的访问控制(RBAC),其中基于角色的访问控制已经成为目前广泛使用的访问控制标准。

安全管理标准主要包括用于实现系统、资源安全的标准,主要有数据加密、解密标准等。

完整性检查主要包括媒介的可读写性检查、资源描述检查、资源结构和格式检查等等,其中最主要的就是确定信息传送前后数据的完整性和一致性。

在管理过程中,目前讨论得比较多的是可信赖的数字仓储,人们对可信赖的数字仓储提出了一系列标准,如遵从OAIS模型等。DINI根据可信赖的数字仓储管理的特点,推荐了一系列标准,如认证标准为SSL,安全标准采用高级数字签名,资源索引和标识标准使用OAI和唯一标识,元数据标准推荐Dublin Core、技术和(或)存档元数据[18]。

3.3 数据层次的标准

(1)信息模型相关标准

信息模型主要用于描述信息对象,主要包括信息对象、信息对象的分类、信息包及信息包的分类及转换等。因此,信息模型建立过程中需要的标准包括信息对象、信息对象的分类、信息包及信息包的分类及转换等标准。

根据信息对象内容和功能的不同,OAIS将数字保存系统中的信息对象分为4种类型,即内容信息对象、保存描述信息对象、打包信息对象和描述信息对象。

OAIS对提交给它的信息包、它所存储的信息包以及它分发给其他消费的信息包进行了区分,相应地,OAIS将对应的信息包分别叫做提交信息包、存档信息包和分发信息包。同时,为了有效地支持信息对象和信息包的分类,不同信息间的转换还需要配套相应的分类标准和转换标准,但目前还没有统一的信息模型分类和转换标准。

(2)数据(文件)格式标准

采用开放标准的格式有助于互操作,保证资源的重用性、确保资源可以被多种应用创建和修改,同时,也可以避免依赖于特定的供应商。FDA(FCLA DIGITAL ARCHIVE)项目是由佛罗里达图书馆自动化中心(Florida Center For Library Automation Digital Archive)主持的一项数字存档项目,该项目的目的是帮助佛罗里达大学的管理者为FCLA(Florida Center for Library Automation)数字存储项目的文件格式提供指导。

2004年6月,FDA提出了一份详细的推荐文件存储格式①,见表1。

表1 文件存储格式

媒介最佳格式(Preferred) 可接受格式 比特级保存

纯文本(编码:US-

ASCII,UTF-8,带

有BOM的UTF-

层叠样式表单文件

16)、XML文件(包

(*.css)、DTD文

含XSD/XSL/XHT-件、纯文本(ISO8859·PDF(已加密)

ML等;带有被包含 -l编码)、PDF(*. ·Microsoft Word(*.

文本的或者可以访问的 pdf)、Rich Text For- doc)

框架(schema)和明 mat(*.rtf)的1.x ·WordPerfect(*.wpd)

确指定字符编码)、 版本、HTML4.x(包 ·其他所有未列出的文本

计算机程序源码括DOCTYPE声 格式

(*.c,*.c++, 明)、SGML、OpenOf-

*.java,*.js,*. fice(*.sxw)

jsp,*.php,*.pl,

等等

BMP(*.bmp)、·

JPEG/JFIF(*.MrSID(*.sid)、TIFF

光栅·TIFF(未压缩)jpg)、JPEG2000(最 (LZW压缩或者处于

图像·PNG(*.png) 好是未压缩的) Planar格式)、GIF(*.

(*.jp2)、TIFFgif)、FlashPix、PhotoShop

(CCITT Group 3/4,(*.psd)、其他所有未

JPKG,PackBits压 列出的光栅图像格式

缩)

矢量·EPS、Macromedia Flash

图形·SVG ·CGM

(*.swf)、其他所有未列

·WebCGM出的矢量图形格式

·AIFC(*.aifc)、NeXT

SND(*.snd)、RealNet

works" Real Audio" (*.

·AIFF(未压缩)·SUN Audio(未压 ra,*.rm,*.ram)、

声音(*.aif,*.aiff) 缩)(*.au)Windows Media Audio

文件·WAV(只允许 ·MIDI(*.wma)、MP3(MPEG

PCM)(*.wav) ·Ogg Vorbis -1,Layer3)(*.mp3)、

(OGG) MP3(MPEG-1,

Layer2)(*.mp2)、WAV

(压缩后)(*.wav)、其

他所有未列出的声音格

·AVI(Windows视频)

(*.avi)、QuickTime

·MPEG-1,MPEG Movie(*.mov)、RM

视频-2(*.mpg) (RealNetworks; " Real

Video" )(*.rv)、Win-

dows Media Video(*.

wmv)、其他所有未列出

的视频格式

电子

数据 ·DBF(*.dbf) ·Excel(*.xls)、其他所

表/ ·Delimited文本

·OpenOffice(*. 有未列出的电子数据表

数据·SQL DDL sxc) 或者数据库格式

虚拟·X3D ·VRML其他所有未列出的虚拟

现实现实文件

计算·编译文件/可执行文

机程见“文本”行“最佳见“文本”行“可接件(EXE,*.class,

序 格式”列清单 受格式”列清单COM,DLL,BIN,DRV,

OVL,SYS,PIF)

演示 ·OpenOffice(*. ·PowerPoint(*.ppt)

sxi) ·其他所有未列出的演

示格式

(3)数据转换标准

与信息摄入相关的数字转换技术主要以存储媒介的转换为主,但是也涉及文件格式的转换。存储媒介转换是指将数字信息从原有媒介上转移到适合长期保存的媒介中存储。而文件格式转换则是尽可能地使用理想的文件保存格式代替原有文件格式,以保证数字文件能够长期有效。

通常,存储媒介主要分为磁设备和光设备,信息摄入过程的媒介转换也包括磁设备之间的转换和光设备到磁设备的转换。磁设备之间的转换由于属于同一类属性的介质,因此媒介转换也就相对简单。光设备到磁设备的转换主要是利用光盘镜像(虚拟光驱)技术,光盘镜像就是把光盘文件做成硬盘镜像,以此减少光盘的介质损耗,增强光盘的使用寿命,同时也增加数据的读取速度。光盘镜像的另一个优点是可以防止病毒入侵。目前,常见的光盘镜像文件格式有cue、iso、bwt、cdi、b5t、ccd、mds、nrg、pdi等。

文件格式的转换主要是用于提交转交转换过程,将来源信息转换为符合长期保存系统要求的格式,例如,前文提到的文件保存格式。由于数字资源种类众多(例如文本、图像、视频等等),并且同一种类型的资源还有各种不同的格式,因此,一般常见的转换技术都是针对某种类型或某种格式的资源作相互转换的。值得注意的是,由于很多学术资源的数据格式都是不公开的专用格式,因此,在保存过程中,我们还需要保存其所支持的软硬件环境,以保证资源的长期有效。JHOVE(JSTOR/Harvard Object Validation Environment)项目自动识别和检验文件格式,这一过程的实现是基于文件本身,而不是基于扩展名。该项目提供培训教材和软件下载[19]。

(4)数据编码标准

数据编码标准用于规范数字信息资源长期保存系统对资源的编码描述,在长期保存编码标准中具有重要作用的是元数据编码和传输标准(Metadata Encoding and Transmission Standard,METS[20])。METS采用W3C(World Wide Web Consortium)的XML Schema规范,对数字对象相关的描述性元数据、管理性元数据和结构性元数据实现编码,生成一个XML文档,支持数字对象的存储、传输、转换等操作。在OAIS参考模型中,METS可以充当SIP、AIP、DIP数据包封装者这样的角色。

METS认可的扩展标准有书目数据标准MARCXML[21]、MODS[22]、DC,图形元数据标准MIX[23],文本元数据标准TextMD[24]等。Fedora[25]、UCB、CDL等项目采用了METS标准。

(5)数据标识标准

数据标识用于描述长期保存的数字资源,从而建立某种有效的机制,保证数字资源在物理位置发生变化时仍然可用。网络资源描述标准,如统一资源定位符(Universal Resource Locator,URL)等;数字资源唯一标识符,如数字对象标识符 (Digital Object Identifier,DOI)、ARK(Archival Resource Key)[26]、永久性统一资源定位符(Persistent URL,PURL)[27] 等都是数据标识方案,但多数还没有成为国际标准。EPICUR(Enhancement of Persistent Identifier Services)[28] 项目对URN等唯一资源标识符进行了应用研究;为实现资源共享目标,CDL采用了ARK(The Archival Resource Key)资源标识符方案。

(6)元数据标准

元数据最本质、最抽象的定义是关于数据的数据,在数字信息资源长期保存领域中,通常使用它描述信息资源,包括数据及其环境。一般来说,它有两方面的用途。首先,元数据能描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。其次,元数据能支持系统对数据的管理和维护,完成元数据转换、分析、流程控制和执行操作等任务。在数字信息资源长期保存体系中,元数据由于描述信息的不同被分为描述元数据、结构元数据、保存元数据和管理元数据。一些长期保存项目根据长期保存的要求制定了相应的元数据,如CEDARS[29]、PANDORA[30]、NETLIB[31] 和RLG/OCLC元数据[32] 等,这些元数据对数字资源的长期保存历史、政策、技术条件和措施等进行了描述。

4 结语

通过从系统实现角度对数字信息资源长期保存系统标准体系的研究,笔者认为有几个问题值得在数字信息资源长期保存系统建设中加以注意:

(1)标准化是解决数字信息资源长期保存系统建设过程中互操作等问题的有效方法,但标准化不是解决数字信息资源长期保存问题的唯一方法,它只是真正的长期保存解决方案提出前的一个过渡方案。

(2)数字信息资源长期保存系统建设过程涉及到的标准相当复杂,笔者认为将这些标准分成数据层次、业务层次和系统层次有助于标准的选择和确定标准的作用,有助于系统的实现。

(3)长期保存系统中的标准处于不断的发展变化和完善过程中,选用成熟的、业界公认的标准有利于系统的开放性和扩展性。

(4)标准的选择也是一个复杂的过程,需要根据保存数据的特点、保存要求等多种因素综合考虑。

(5)数字信息资源长期保存本身特有的标准,如数据包标准、认证标准、授权标准等,正在制定过程中,为了促进数字信息资源长期保存工作的规范化、系统化,有必要加强数字信息资源长期保存自身特有的标准体系的建设。

注释:

①http://www.fcla.edu/digitalArchive/pdfs/recFormats.pdf

标签:;  ;  ;  ;  ;  ;  

数字信息资源长期保存标准体系研究_元数据论文
下载Doc文档

猜你喜欢