基于内容管理的数字档案集成模型探讨_工作流论文

基于内容管理的数字档案馆集成模型探讨,本文主要内容关键词为:档案馆论文,内容管理论文,模型论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

在过去的15年中,信息技术革命推动了社会和经济的巨大发展,推动了社会信息化的快速发展,既给档案事业提供了前所未有的机遇,同时又对档案工作人员提出了严峻的挑战。自本世纪初我国实施“以信息化带动工业化、现代化”的战略方针之后,档案资源信息化已成为档案事业发展的战略重点。随着我国电子政务系统的加快实施和电子文件的大量涌现,仅仅依靠传统的档案管理模式,在网络环境下已无法满足档案信息管理与档案信息服务的双重社会需要,于是“数字档案馆”及其相关领域开始成为学术界关注与研究的热点。2000年5月深圳数字档案馆工作的启动,标志着我国数字档案馆从理论走向了实际应用。(注:杨公之:《数字档案馆建设实务》,中国档案出版社2003年8月版)

关于数字档案馆,目前国内尚未形成统一、完整的定义,数字档案馆的理论研究与实践均处于起步阶段。综观我国现已启动的数字档案馆工程,其组建模式普遍采用了两层模式:资源建设和信息服务。其中资源建设主要包括档案基础数据库建设和实行档案数字化,而信息服务则主要是通过网站建设来实现档案信息的发布和检索。然而,由于信息技术的快速发展和广泛应用,档案馆所面临的环境越来越复杂,这种复杂性集中体现在档案来源环境和档案信息服务环境的复杂性。如何切实保障电子文件的完整性、真实性、有效性和一致性?如何给用户提供更广泛、更持久、更有效的结构化的档案信息,使档案馆从一个相对孤立的信息孤岛转变为社会的信息中心?显然现有数字档案馆模式不能适应这种要求,因此有必要对数字档案馆组建模式提出新的设想。本文从数字档案馆的环境出发,为满足环境的需求,提出新的数字档案馆模式——基于内容管理的数字档案馆集成模型。

二、内容管理

对于内容管理这项新兴的技术,虽已存在诸多的定义,但尚未形成一个统一的定义,其中Bob Boike的观点得到了普遍认同。Bob Boike在其论文“content Management Concepts”中指出:“内容管理是指在目标出版物(intargeted publications)中有效地收集、管理和形成可利用的信息。首先,在收集方面包括信息的创建和获取,并将信息转换为一个主要格式(如XML)和分割成被称之为内容元件(content components)的离散的数据块,部件是指元数据容器,其作用是为了使内容能够便捷地组织、存储和检索信息。其次,内容被放置于一个由数据库记录和包含内容元件的文件组成的存储环境中进行相应的管理,然后使内容变得可利用,内容管理系统将内容发布到目标出版物,诸如WEB站点、印刷型文档和EMAIL时事通讯。”(注:Bob Boike.Content Management Concepts)

按Bob Boike的定义,事实上内容管理的具体内涵集中体现在内容和管理两个方面。内容是任何类型的数字信息的集合,可以是文本、图形图像、Web页面、业务文档、数据库表单、视频、声音文件等。应该说,内容是一个比数据、文档和信息更广的概念,是对各种结构化数据、非结构化文档、信息的聚合,这在某种程度上也包含了知识。管理就是施加在“内容”对象上的一系列处理过程,包括收集、确认、批准、整理、定位、转换、分发、更新、存档等,目的是为了使“内容”能够在正确的时间、以正确的形式传递到正确的地点和人。

Bob Boike根据内容管理的定义,在其论文“Content Management Bible”中指出:“内容管理系统是一个集成的系统,由收集系统、管理系统、发布系统和工作流系统组成。”(注:Bob Boike.Content Management Bible)

最近Sybase、Rational和SUN等公司在内的一些公司共同提出了扩展的内容管理的概念(Extended Content Management,ECM),并将扩展的内容管理分为三部分:内容开发管理、应用内容管理和内容发布和加速管理(注:史宝慧等:《从数据管理到内容管理——企业门户核心技术研究》,《计算机工程与应用》2001年143~146页)。如表1所示:

ECM反映了迄今为止对内容管理的一个比较全面统一的认识,但尽管如此,目前还未有一个内容管理系统能实现ECM所规定的全部功能。现阶段,大多数内容管理系统主要是通过与其它系统的合作来完成ECM所定义的全部功能。

表1 ECM功能分类表

三、基于内容管理的数字档案馆集成模型构建

基于内容管理的数字档案馆集成模型是基于档案信息内容管理的基础上的,它将保存、服务和人组织在一起以支持档案信息结构化的全部流程,包括从创造、传播、使用到保存的全过程。按bobboike的定义和ECM的划分,基于内容管理的数字档案集成模型可划分为三层模型结构:内容管理层、扩展内容管理层、创建与服务层,模型结构如图1所示:

图1 基于内容管理的数字档案馆集成模型结构图

1.内容管理层

内容管理层是数字档案馆的核心,由内容与适应于内容存储管理的存储器(Beposities)组成。

(1)内容

内容管理层所涉及的内容并非指单一的文件、信息或数据,而是由内容元件和元数据组成。所谓内容元件是指把创建或收集到的信息划分成为一个个易于管理、方便使用的小的单元,而这些小的单元即称之为内容元件。内容元件是内容管理的最小的单元,内容的创建、删除、维护都是以元件为基本的操作单位的,因此正确地划分内容元件可以带来高效率的内容利用。在内容管理中,内容元件的划分不是任意的,而必须按照一定的原则来进行,通常这种原则与内容管理的具体应用领域相关。在数字档案馆领域中,内容元件可以按文件的类型和电子文件的格式来建立划分原则,每个内容元件都包含一组用于描述内容元件属性的元数据信息,例如类型、格式、打开方式、计算机软硬件环境等等。

所谓元数据就是关于数据的数据。在数字档案馆内容管理中,元数据既给计算机进行自动处理内容提供了所需要的信息,同时也是保障档案信息完整性、一致性、可用性的重要工具。根据数字档案馆内容管理的需求,元数据类型可以划分为四大类:描述型元数据、关联型元数据、集成型元数据和管理型元数据。

2.数据模型

如前所述,内容由内容元件和元数据构成。在内容管理层,内容并非是单一的存在于计算机存储系统中,而是通过一个基于元数据的数据模型将离散的且非结构化的内容聚合在一起,这个数据模型如图2所示。

每个内容的关联型元数据包含了四个指针,其中Parent、Child和Attach类型为内容元件。

Parent:Parent的内容管理中称之为父文件,表示同一活动中,与该文件直接相关联的父文件的内容元件。一般而言,一个内容元件允许有1个父文件。

Child:Child在内容管理中称之为子文件,表示在同一活动中与该文件直接相关联的子文件的内容元件。在内容管理中,一个内容元件允许有n个子文件。

Attach:Attach在内容管理中称之为附件,表示在同一活动中,该文件形成时所产生的各种类型的附件。在内容管理中,一个内容元件允许有n个附件。

Object:Object在内容管理中称之为内容实体,即文件所在逻辑存储位置。内容管理中,同一内容元件允许有n个内容实体。

图2 基于内容管理的数字档案馆数据关系模型图

在内容管理中,内容元件具有继承作用,如果一个内容元件建立了一个Parent,那么Parent所包含的集成型元数据将自动继承给该内容元件。同样,该内容元件一旦建立了Child,则Child的集成型元数据将自动从该内容元件中获取。通过继承关系,使得Parent和Child之间建立起依赖关系。

2.内容管理扩展层

内容管理扩展层是对内容管理的扩展,其主要功能是实现对内容生成和利用的控制管理,主要体现在三个方面:工作流管理、权限管理和版权管理。

(1)工作流管理

和传统的文档管理系统一样,内容管理系统也应该包含工作流管理功能。工作流为从内容获取到最后出版的整个过程的有效而自动地进行提供相关的支持。就数字档案馆而言,工作流管理为数字档案馆内容创建、维护、再鉴定、销毁提供了一整套的工作规范机制,并使得档案馆的工作流程与传统档案馆相比工作变得更为简洁、责任更为明确、内容更为准确。图3是内容管理系统中简化的工作流程图。

工作流的主要组成部分由任务池、工作结点串和目标库组成。

任务池:也称之为任务列表,由各种不同类型的任务组成。当有新的内容创建或从其它系统中提取到后,并非将内容直接保存到内容存储器中,而首先在任务池中建立一个任务,并为该任务设置任务类型(诸如新增任务、再鉴定任务、销毁任务)。一旦任务池中存在任务,工作人员就可从任务池中提取任务,并根据任务类型启动相应的工作流。

图3 工作流程图

工作结点串:由一系列具有独立工作内容的结点(Work Node)串接起来,工作结点在内容管理系统中视为对象(Object)来处理,每个工作结点由工作包(Work Package)、处理过程(Process)和异常处理流程组成。

目标库:是任务完成后所形成结果的最终存放地,根据工作流的类型对目标库进行相应的更新。

(2)权限管理

由于网络系统的共享性、开放性等特征决定了网络系统自身的脆弱性,无论在Internet或在Intranet中,网络系统常常面临各种来自于网络的危害,保障档案信息安全已成为档案信息化建设的重要环节。这里的权限管理并非是指一般意义上的系统存取权限管理,而具有双重意义:一方面是为了保障内容管理层的系统和内容安全;另一方面是确保内容管理层的内容有效地、正确地、完整地传递到正确的地点和人。目前从信息安全角度来看,保障档案信息安全主要考虑以下五个方面:

身份鉴别:确认系统中用户身份的真实性;

授权控制:根据鉴别的真实身份来确定对其信息资源或应用的访问权限;

机密性:确保信息在存贮和传输中的机密性,不被非授权用户访问;

完整性:确保信息不被非授权用户恶意或无意修改或删除;

抗否认性:建立责任机制,使任何用户能够对其所进行的操作不可否认。

(3)版权管理

随着档案信息上网服务的增多,数字化档案信息的版权管理显得尤为重要。基于内容管理的数字档案馆系统采用了当前先进的数字版权管理(DRM)技术。所谓数字版权管理技术是指数字化内容在生产、传播、销售、使用过程中知识产权保护与管理的技术工具(注:赵继海:《DRM技术的发展及其对数字图书馆的影响》,《大学图书馆学报》2002年1期)。DRM的目标是运用技术手段遏制盗版、保护数字化内容的知识产权和用户的合法使用权利。

目前数字档案馆版权管理主要致力于对数字化档案信息的安全性与加密技术的开发,以达到通过技术手段解决对数字化内容的未授权复制问题。

3.内容创建与服务层

内容创建与服务层是基于内容管理的数字档案馆集成模型的边缘层次,负责内容的创建和内容的服务,其功能主要由内容创建与提取和数字档案馆门户组成。

(1)内容创建

数字档案馆信息主要有两大来源:一是传统载体档案的数字化;二是产生于立档单位文档管理系统中的电子文件。因此就内容创建而言,其功能可分为传统载体档案的数字化和电子文件与元数据收割模块。

●传统载体档案的数字化

传统载体档案可大致分为四种类型:文字、图像、音像、影像。由于原始资料来源的不同,因此需要不同的数字化方式,并各自建立相应的数字化制作标准规范。目前关于数字化的技术已相当成熟,在市场上已存在众多的数字化软件系统,其中有些数字化软件系统不仅可以单独运行,而且可以根据需求将数字化系统集成到内容管理中,如IBM内容管理系统就集成了多种类型(如文字、音像、影像等)的数字化功能模板。

●电子文件与元数据收割

由于架构于WEB环境下的数字图书馆相关研究与发展日新月异,针对WEB环境发展出来的分解式协议也越来越多,除了Z39.50协议之外,目前还有建构于HTTP及XML技术上的标准:OAI、SOAP和Open URL。其中OAI(Open Archives Initiative Protocol for Metadata Harvesting,简称OAI)协定的制定目的是提供一个具有应用程式独立,且可相互操作、能够提供和提升Web上多种从事于文件内容出版发行的社群应用的框架(包括电子政务和档案信息),其主要目标为:(1)简化文件内容有效的传播;(2)提升电子文件的存取;(3)扩展存取数字化资源种类的范围。(注:http://www.openarchives.org/OAI/openarchivesprotocol.html,The Open Archives Initiative Protocol for Metadata Harvesting)OAI协定的出现,为数字档案馆通过网络自动收集立档单位计算机系统中的电子文件带来可能。图4是OAI框架结构示意图。

Data Provide(资料提供者):提供资料内容,并以OKI作为发布Metadata的协定。其主要功能是维护一个或一个以上支持OAI协定来将其内容以Metadata发布的服务器。

Service Provider(服务提供者):通过OAI协定向资料提供者获取资料,并在获得的Metadata基础上建立加值服务。

Repository(资料存储器):通过HTTP协议,接受OAI协定所提出的资料存取需求的服务器。

OAI Verb(OAI协定请求动作):OAI Verb规定了服务提供者向资料提供者发出资料存取的请求动作,主要有:GetRecord、Identify、ListIdentifiers、ListMetadataFormats、ListRecords、ListSets。

Record(响应记录):资料提供者响应服务提供者提出的资料请求动作后,向服务提供者发出的记录。

目前,OAI协定在数字图书馆领域已得到了广泛的应用,例如由CALIS中心负责的高校学位论文建设就采用了此协定来实现保存于各高校图书馆的学位论文元数据的采集。尽管档案馆各立档单位采用的计算机系统大多是异构系统,但通过OAI协定,在计算机系统中建立一个Data Provider服务器,即可在不改变原有系统的基础上实现电子文件元数据的获取。

(2)数字档案馆门户

门户概念的出现是最近几年的事情,由于网络技术、电子商务、电子政务的快速发展,门户已成为众所周知的概念。现在门户被当作是一个搜索引擎,它主要的目标是促进遍及整个Internet信息的有效访问。Reynolds和Koulopaulos认为WEB门户发展经历了四个阶段:布尔检索、分类导航、个性化和集成化(注:Reynolds,H.,& Koulopoulos,T.Enterprise knowledge has a face.Intelligent Enterprise,2 (5),29-34.http://www.intelligententerprise.

com/dbarea/archives/1999/993003/feati.shtml.)。最初的搜索引擎能够使用户通过使用布尔逻辑操作或者通过WEB页面之间的相互链接定位到相应的文档。为减少更多的检索时间和帮助无经验的用户,如今的搜索引擎概念增加了分类导航,并整合了许多新的功能:虚拟交流、实时聊天、个性化的搜索引擎界面(如My Yahoo,My Excite等)、访问专业内容和商务内容等等。

目前关于门户的分类有两种方法(注:Claudia Dias.Corporate porals:a literature review of a new concept in Information Management.International Journal of Information Management.21(2001):29-287):

(1)按门户环境划分,可划分为公众门户(public portal)和专业门户(Specially portal);

(2)按功能划分,如用于决策支持的门户、用于合作处理的门户等。

图4 OAI框架结构示意图

就数字档案馆门户而言,其门户的划分主要按门户环境来进行,根据数字档案馆的用户群体的分类,可将数字档案馆门户划分为三种模式:公众门户、政务门户和个性化门户。

四、实现系统框架

根据上述我们提出的基于内容管理的数字档案馆集成模型,一个比较完整的数字档案馆内容管理系统应该由4个子系统构成:内容收集系统、内容管理系统、内容发布系统、工作流系统。如图5所示。

(1)收集系统:进行收集、创建、标准化、格式转换等工作,并进行元数据编辑和内容元件定义等,收集系统是管理系统中的内容的来源。

(2)管理系统:负责元件、元数据、内容及发布模板的存取管理,包括内容的版权和权限等辅助管理,为收集系统及发布系统提供正确的、有效的结构与内容。

(3)发布系统:负责将内容从内容存储系统中快速且自动地依据所建立的发布模板送至数字档案馆门户或其它出版媒体。

(4)工作流系统:确保整个内容从收集、储存到发布可以有效及正确地运行的整个流程。

五、结论

随着社会信息化进程的推进,数字档案馆建设已成为档案信息化的主要内容。近年来,我国档案管理信息化程度正在逐步提高,各级政府对省级以上综合档案馆的信息化建设投入6000多万元,省级以上综合档案馆现有微机3000多台,网络设备、输入输出设备、数字化转换设备等近1000台(套),开通各类档案网站200多个,已建机读目录2000多万条,对外开放目录700多万条(注:新华网:“信息社会世界峰会”磋商会议通告(关于中国档案管理加快信息现代化建设),http://new3.xinhuanet.com/it/2002-05/31/content-417069.ktm.)。可以说档案信息化程度的快速提高为实现数字档案馆创造了良好的条件。然而从我国现已启动的数字档案馆工程以及关于数字档案馆理论研究的现状而言,对于如何建设数字档案馆依然存在种种困惑。最近几年,一种源于出版媒体业的新概念——内容管理,受到了企业的广泛关注,并将其作为提升企业竞争力的第一步。在企业信息化的推动下,内容管理已成为各种非结构化或半结构化的数字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的智能环境中的主要解决方案。

内容管理不仅仅是一个概念或者是某种单独的技术,而是结合人的活动与各种传统和先进技术的综合应用,包括Internet、Intranet、Extranet技术,以及最新的XML、Metadata等技术。目前,内容管理理论研究及其应用系统已发展到了比较成熟和稳定的阶段,同时其应用范围经由出版媒体业到企业信息化之后,开始转向于数字图书馆等其他行业的应用,例如由IBM公司开发的数字图书馆(Digital Library)系统和由MIT开发的数字空间(DSPACE)都是基于内容管理的系统。因此,将内容管理引入到数字档案馆中,构建基于内容管理的数字档案馆集成模型,对于以非结构化信息为主的档案信息化而言,将是一个有效的选择。

图5 基于内容管理的数字档案馆实现系统框架图

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于内容管理的数字档案集成模型探讨_工作流论文
下载Doc文档

猜你喜欢