电子文档元数据标准设计框架研究_元数据论文

电子文件元数据标准设计框架研究,本文主要内容关键词为:框架论文,文件论文,标准论文,数据论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

电子文件元数据研究是国际档案界研究的一个热点问题。2001年由国家档案局邱晓威研究员主持的“电子文件和电子档案的真实性、完整性保证及其法律地位的认定”国家社科项目的正式启动,标志着电子文件元数据研究开始成为我国档案界研究的最前沿课题。然而从现已发表的文献统计,由于我国档案界对元数据研究的起步较晚,目前主要以论述元数据的意义、重要性、元数据层次划分,或介绍电子文件元数据发展与国外电子文件元数据等为主(注:文献统计来源:清华学术期刊全文数据库中篇名包含“电子文件”和“元数据”的论文共14篇。)。2004年,南京政治学院上海分院信息管理系张正强教授为首的课题组申报的《基于XML的电子文件管理元数据标准研究》获得国家社会科学基金重点课题立项,标志着我国电子文件元数据标准进入了实质性研究阶段,同时该项目也是档案学获得的惟一重点项目。我们也是该课题组的主要成员。通过对大量现行元数据标准和相关研究成果的分析,吸取其精华和根据电子文件管理的总体目标,我们总结出了电子文件元数据标准的设计规则和方法,即电子文件元数据设计框架,并在此设计框架的基础上,制定了基于XML的电子文件元数据标准。本文即着重探讨电子文件元数据标准的设计框架。

二、电子文件元数据定义

元数据是关于数据的数据,是数字信息组织和处理的基本工具,为各种形态的数字化信息单元和资源集合提供了规范、普遍的描述标准和方法。对于元数据的解读,各个领域由于对元数据应用的侧重点各不相同,对元数据的定义也各不相同。据文献分析,在档案或电子文件管理领域,存在以下定义:

GB/T 18894-2002(电子文件归档与管理规范):“元数据指描述电子文件数据属性的数据,包括文件的格式、编排结构、硬件和软件环境、文件处理软件、字处理和图形工具软件、字符集等数据。”

ISO15489(文件管理国际标准):“元数据是描述文件的背景、内容、结构及其整个管理过程的数据”。(注:ISO15489:Information and documentation--Records manage-ment)

何嘉荪教授认为:“元数据是与电子文件的制作形成、运转、处理、储存、检索、传输和利用有关的数据。它是在上述过程中自动随机或由人工帮助产生的,可以独立于文件之外记录、积累、保存、管理和利用的信息。人们可以通过它来帮助记录电子文件形成时的背景信息和软、硬件环境,记录文件的内容和结构以及整个的管理和检索利用过程。”(注:何嘉荪:《保存电子文件背景信息的重要手段——再论全宗、案卷形态的异化》,《档案学通讯》2001年第5期)

简而言之,电子文件元数据是描述电子文件背景、内容、结构及其整个管理过程并可为计算机及其网络系统自动辨析、分解、提取和分析归纳的数据。它既可用于保障相关电子文件的真实性、完整性、一致性、关联性和长期有效性,又可帮助对分布式网络环境下的电子文件进行有效的集成管理和协助提供集成服务,更是构建数字档案馆信息组织体系必不可少的工具。正因为如此,电子文件元数据标准的制定才不可随意而为,而应有一个科学的设计框架来指导、规范电子文件元数据的设计。

三、电子文件元数据设计框架

电子文件元数据设计框架为设计电子文件元数据标准提供了需要遵循的规则、方法和设计流程等多方面内容,使电子文件元数据标准更具科学性和有效性。为此,我们对国际上大量现行元数据标准和相关研究成果,以及国内图书情报领域的相关成果进行了分析和归纳。在此基础上,笔者认为建设电子文件元数据标准应遵循如下图所示的设计框架。

附图

图1 电子文件元数据标准设计框架

1.功能需求

鉴于前述有关元数据的概念与目标,在电子文件管理中,元数据首先是描述电子文件和保障电子文件真实性的工具,同时,它也是对电子文件信息的基本组织方法。因此,元数据可以为电子文件管理系统各层次内容提供规范的定义、描述、交换与解析机制;为分布式异构系统提供互操作和无缝集成的纽带;为计算机及其网络系统自动辨析、分解、提取和分析归纳电子文件提供有力的工具。

具体而言,元数据在电子文件管理中的应用功能主要体现在以下几个方面:

(1)确保并且证明电子文件的真实性和凭证价值。保证电子文件的真实性和完整性从而使之具有凭证价值,是电子文件管理中面临的最大问题。它既是各个环节正常运转的基本前提,又是每一项工作的首要目标。因为如果这一点得不到保证,电子文件管理的其他工作将变得毫无意义。然而由于具有易逝性、易变性、载体不确定性和对管理系统强烈的依赖性等特征,当需要电子文件用作证据时人们却很难信赖其真实性和完整性。但是,在元数据中将电子文件的内容特征和文件形成、处理和利用的过程忠实地记录下来,就能够帮助知晓电子文件的内容是否与形成生效时完全一样,从而证明其真实性和完整性。把电子文件形成时的环境和背景信息记录在元数据中,更有助于烘托和证明电子文件的价值,尤其是证据价值,也使以后的文件利用者便于了解文件形成时的历史环境,从而正确理解其真实的意涵。因此忠实描述电子文件的形成背景、内容、结构和整个管理过程,可以保护文件的真实性和完整性,确保文件的凭证价值,促使电子文件具有永久的法律效力。可以说,元数据是电子文件须臾不可或离的“生命线”。

(2)有助于对电子文件的保护与长期保存,使其具有长久有效性。文件可以用作证据的特性,使我们必须特别注意对电子文件进行档案化(注:“档案化”就是:确保并且能够证明文件的真实性、完整性、可靠性和长期有效性(可读性、可理解性等),使文件有可能用作证据和作为档案保存。参见何嘉荪:《对电子文件必须强调档案化管理而非归档管理》,《档案学通讯》2005年3期)处理,使之有可能作为档案长期保存。因而除了采取以上措施确保电子文件的真实性和完整性以外,还应该在元数据模型中详尽描述电子文件的格式信息、制作信息、转换方式、技术环境等,以便于电子文件的转换与迁移,达到长期保护、保存的作用,使之长期可读、可理解,具有长久有效性。

(3)有效地管理电子文件。元数据模型必须包含整个文件管理和利用过程中所需的全部重要元素,既包括对文件本身的描述元素,又包括对文件的管理信息,它不但是文件著录标引的工具,也是文件鉴别认证(identification)、鉴定、保护等其他环节的工具。另外,元数据自身还必须标准化、组织规范化;用于表述元数据的语言,也必须具有很强的互操作功能,便于为计算机及其网络系统自动辨析、分解、提取和分析归纳。这样,它将成为有效管理在结构各异的技术平台上形成的所有电子文件的工具和重要前提,也是完善和发展电子文件管理的首要条件。

(4)方便查询和利用。元数据模型也是文件著录的工具,而著录的主要任务之一就是对电子文件所有的具有检索意义的特征进行描述和记录。我们研制的元数据还必须从文件形成之初就能为利用者提供查询途径,使用户清楚了解文件与其形成背景之间的关系。如此,就能方便利用者发现和检索文件,满足利用者的需求,也就不必再另外编制目录等检索工具。

2.设计原则

编制科学的元数据模型,必须依赖科学合理的设计原则。在电子文件管理中,元数据不仅包括对电子文件的描述,而且也是基本的信息组织和系统组织的方法,也就是说,元数据不再仅仅作为内容对象的工具。鉴于这种概念和目标,面对复杂的、开放的、分布和异构的网络环境,有效设计和应用电子文件元数据的原则应如下述:

(1)依据有关理论进行推导的原则。元数据是电子文件档案化管理的最重要工具,因而编制元数据标准必须以档案学理论,尤其是其基础理论——文件运动理论作为指导思想,或者说设计元数据必须在文件运动理论最新研究成果的指引下进行推导,而不能仅仅依据以往文件与档案管理的实践经验。当然,依据理论进行推导也不能脱离电子文件管理的实际。正确的做法是:在文件运动理论指导下客观地总结电子文件管理的实践经验,将其浓缩为科学合理的电子文件管理程序,再进一步升华为UML建模依据。只有如此,才能编制出真正科学、实用、有效的元数据标准。

(2)模块化原则。由于应用需求的多样化和开发主体的多元化,为针对不同的描述和应用目的,在复杂的信息环境中往往需要多种元数据模型。为此必须采用模块化原则,就是“按照所描述的信息系统内容,将元数据划分为针对不同层次、功能或应用的逻辑模块,分别对信息系统的不同内容进行描述,以满足不同的逻辑功能和应用需要”。一方面,每个模块可以作为独立的元数据,支持专门的功能;同时也可以按照应用需要,与其他元数据模块进行组合,形成新的应用元数据;另一方面,模块化可以使每个元数据模块具备Plug-in-play的能力,也可以复用关于元数据元素的定义和描述方法,从而增加不同应用元数据间的互操作性。(注:Duval,E.et al.Metadata Principles and Practicalities,D-Lib Magazine April 2002 Vol.8,No.4,http://www.dlib.org/dlib/april02/weibel/04weibel.html.)

(3)一致性原则。指在元数据设计过程中,尽量注意与现有的国家标准、行业标准或者其他政府标准、国际标准相一致。随着元数据技术和XML技术的广泛应用,现实环境中已经存在多种元数据标准,例如信息发现和确认(如DC)、资源描述(如DC、VAR Core)、资源集合描述(如EAD)、资源利用管理、系统功能或过程控制等多种标准。它们大多已成为行业、国家或国际标准而被广泛应用,而且目前已积累了大量的元数据资源。因此为保障信息组织的一致性,在元数据设计中必须遵循一致性原则。

(4)可扩展性原则,指整个元数据体系和每个元数据模块都应该可以扩展,保留细化元数据元素的空间以适应未来需求的变化,并可通过复用、嵌接、扩展、细化、修改等方式,根据应用需求灵活地构建和扩展已有的元数据。

(5)稳定性原则,指元数据标准的制定既要根据目前的需要,也要充分考虑将来的发展,避免过多的修改。通常在设计元数据时,将那些基本的、共同的、必需的内容定义为一个核心元素集,核心元素应能够保障应用需求的基本功能,具有相对的稳定性。

(6)互操作原则,体现在对异构系统间互操作能力的支持,不仅可以为自己的应用系统所操作,而且可以为其他组织或机构的应用系统所操作;不仅可在不同系统实现同一元数据标准间的数据的传输、交换或转换,而且可在不同元数据标准间实现数据的传输、交换或转换。通常在元数据的具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,方便地将元数据转换为其他系统常用的元数据标准。要实现这些功能,在元数据标准设计过程中必须慎重考虑元素语义和元素结构的准确定义,其中语义定义尤为重要。

(7)递归性原则,即要求逐层描述元数据的原则。元数据本身往往被视为一种信息内容对象。在复杂的信息环境中,这些元数据通常会被另外的元数据标准加以描述。这种要求元数据能被逐层加以描述、定义、确认和验证,而每一层又都具有独立的元素,并且系统能够通过追溯元数据来了解元数据是如何被一层层定义和描述的性质称为递归性(注:张晓林:《开放元数据机制:理念与原则》,《中国图书馆学报》2003年3期)。它可用以支持对元数据的自动识别和解析功能。在电子文件管理中,递归性原则是保障电子文件有机关联性必不可少的原则。

(8)开放性原则,它要求元数据标准的设计具有开放性,以适应不同的信息来源和信息种类。一旦有新的信息来源或信息种类产生,系统就可以设计相关的元数据标准作为这些文件内容的存储容器(container),这就要求电子文件管理系统必须包含一个元数据注册系统。

3.理论基础

与其他行业(如图书情报行业)元数据标准强调管理、描述、发现等功能不同的是,电子文件元数据强调保障电子文件的真实性、完整性和有效性,强调帮助实现电子文件管理和信息组织的功能。这就要求电子文件元数据一方面忠实地记录电子文件在其运动过程(贯穿文件运动的整个生命周期)中产生的信息,另一方面也要求记录文件与其来源——形成它的社会活动之间的联系以及文件相互之间的有机关联性。正是有鉴于此,必须以文件运动理论为指导,研制元数据标准。文件运动理论集档案学的三大基础理论来源原则、文件生命周期理论和文件运动动力理论——价值理论之大成,近年来还吸收了兴起于西方档案学界的文件连续体理论之精华,科学地表述了文件运动规律,是指导我们客观地观察文件运动过程的有力武器。据此进行推导,才能为元数据标准UML建模提供理论依据。

4.元数据信息来源UML建模和信息模型

元素是元数据标准的重要组成部分。为确定元数据标准的元素,首先必须确定元数据的信息来源。文件运动理论为电子文件元数据标准的UML建模提供了相关的理论依据。它强调以文件运动的整体性和连续性为基础,对电子文件施行档案化管理,并根据文件运动模型中管理域(注:何嘉荪、金更达等:《文件运动理论模型初探——文件运动理论研究之二》,《档案学通讯》2004年1期)的划分,将电子文件的档案化管理区分为形成、捕获、保管和提供利用四个阶段。因此,确定元数据的信息来源,就是确定在电子文件形成、捕获、管理和提供利用过程中产生的信息集合,然后从中选取符合我们所定义的元数据功能需求的信息,并根据设计原则形成电子文件元数据元素集合。为此,根据文件运动理论及相关的推导,也根据电子文件管理实践经验,首先应该对电子文件元数据的信息来源进行UML建模,并根据信息来源UML模型,形成电子文件元数据标准的信息模型。

5.模块化元素定义

模块化设计原则是电子文件元数据标准的重要设计原则,即要求对电子文件元数据信息模型的各个模块做模块化元素定义。元素定义方法可采用国际标准ISO11179或国际上元数据开发应用的最佳实践来完成。其中ISO11179规定了定义元数据元素的10个属性(注:ISO11179,http://www.iso.org/iso/en/ittf/Publicly Available Standards/c002317 ISO IEC11179-22000(E).zip.):

——名称(Name):元素名称

——标识(Identifer):元素的唯一标识

——版本(Version):该元素所属的元数据版本

——注册机构(Registration Authority):注册元素的授权机构

——语种(Language):元素说明的语种

——定义(Definition):对元素概念与内涵的说明

——必备性(Obligation):说明元素是必备的还是可选的

——数据类型(Datatype):元素值中所表现的数据类型

——最大使用频率(Maximum Occurrence):元素的最大使用次数

——注释(Comment):元素应用注释。

经过研究,我们已经设计出《电子文件元数据标准》(1.0版),并作为国家社会科学基金重点项目《基于XML的电子文件管理元数据标准》的系列研究成果。

6.元数据语义、语法结构定义

元数据语义结构是对元数据元素具体描述方法的规定,尤其是描述元素时所采用的标准和著录细则。比如规定对日期的著录,是采用国家标准,还是采用圆点或者斜线隔开的办法;元素遇到的可能值或默认值等等。语义结构定义是保障元数据元素内容完整性、一致性的重要手段。

元数据语法结构定义了元数据的格式结构及其描述方式。对元数据格式结构的定义在国际上通常采用DTD或XML Schema来完成;元数据的描述方式则采用XML语言。

四、结束语

电子文件元数据标准既能保障电子文件真实性、完整性、一致性、关联性和长期有效性,又可帮助对分布式网络环境下的电子文件进行有效的集成管理和协助提供集成服务,更是构建数字档案馆信息组织体系必不可少的工具。其设计与制订对有效实现电子文件管理和构建数字档案馆具有深远的意义,如果没有科学的规划和较为全面的考虑,将对电子文件今后的管理带来不必要的、难以克服的障碍和困难。科学的设计框架,将为此提供切实的保证。

标签:;  ;  

电子文档元数据标准设计框架研究_元数据论文
下载Doc文档

猜你喜欢