数字档案资源跨媒体语义关联聚合的实现策略研究_关联关系论文

数字档案资源跨媒体语义关联聚合实现策略研究,本文主要内容关键词为:语义论文,策略论文,档案论文,数字论文,跨媒体论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       DOI:10.16065/j.cnki.issn1002~1620.2015.05.009

       1 问题的缘起

       随着多媒体记录技术应用的普及,数字档案资源在媒体呈现形式上日趋多样化,既有文本型的数字档案资源(如电子公文档案、工程验收报告等),也有图像型的多媒体数字档案资源(如会议视频记录、座谈会录音等)。这些不同媒体形式的数字档案资源均是数字时代重要的社会财富,它们在留存社会记忆、提升用户体验效果、促进文化传播与传承等方面具有不可替代的优势和作用,但同时它们也给档案管理与利用工作带来了不少困难。在传统档案管理模式下,为了便于管理和利用,档案工作部门往往根据不同媒体类型数字档案资源的特性将其分开处理,并建立起相对应的档案数据库和检索系统。这一做法虽然可以将不同媒体类型的数字档案资源纳入到统一的档案资源建设体系中,为档案利用工作奠定基本的资源基础,但其管理和利用成本相对较高,且效果不理想。从档案管理的角度来看,它需要档案工作部门建立和运营不同媒体类型的档案管理与利用系统,这无疑会增加档案工作成本;从档案利用的角度来看,它也不方便用户利用。在这一模式下,用户往往需要分别访问不同的检索平台,不仅检索成本高,而且也很容易让其忽略其他检索系统而漏掉了一些有价值的档案资源,如只查询了文本型档案资源而忽视了声像型档案资源等。另外,不同媒体类型数字档案资源分开处理的做法,也容易割裂档案资源之间的内在联系,不利于知识挖掘等深层次档案开发利用工作的开展,让诸多有价值的档案资源湮没在信息海洋之中。

       为了解决这些问题,国内外专家学者展开了一些相关研究,并取得了一定的进展。例如,在国外,2004年Ann Chapman构建了跨域档案资源数据采集与组织的“采集层次描述模型”,[1]2012年;Reede Ren和John P.Collomosse研究了数字舞蹈声像档案的跨媒体内容检索实现机理[2]等;在国内,2006年,黄萃、陈永生研究了基于Agent的数字档案个性化集成服务体系模型,[3]2010年南京大学朱学芳教授主持了国家社会科学基金重大项目“图书、博物、档案数字化服务融合研究”,[4]2013年张园提出了基于领域本体的档案信息检索系统[5]的初步构想等。以上这些研究,为多媒体时代数字档案资源建设与服务工作提供了诸多有益的借鉴和参考。然而,随着数字信息记录技术的飞速发展,数字档案资源多媒体化现象越来越明显。如何在语义网时代将这些文本型、图像型、声频型等不同媒体类型的数字档案资源整合起来为社会提供更好的服务,已成为当前档案工作部门面临的紧迫任务。本文将在国内研究与实践成果的基础上,从语义关联的角度来探讨不同媒体类型数字档案资源的聚合问题,以期为新时期的数字档案资源建设工作提供参考。

       2 数字档案资源跨媒体语义关联聚合实现的基础前提

       数字档案资源跨媒体语义关联聚合是指利用语义信息处理技术发掘档案资源之间的语义关联关系,并利用这些关联关系将不同媒体类型的数字档案资源整合起来,建立一个面向用户综合需求的、规范统一的数字档案资源体系,为档案知识聚合服务奠定基础。然而,这些的实现则需要先做好两项最为基础的工作,即数字档案资源间的语义关联关系分析和不同媒体类型数字档案资源的统一描述。

       2.1 数字档案资源间的语义关联关系分析

       语义关联关系是数字档案资源语义关联聚合的切入点。在具体资源聚合工作中,首要的任务是发现和揭示数字档案资源间的语义关联关系。根据数字档案资源的形成规律及其反映的社会活动内在逻辑关系来看,它们之间的语义关联关系主要表现在以下几个方面:

       (1)同一性关联关系。同一性是指各个分散的数字档案资源在其主题或概念的涵义、特征、形象、属性和关系等方面具有一定程度的相同或相似之处。[6]如果数字档案资源之间存在某种相同属性特征如共同的形成者、相似的主题等,那么它们之间就存在同一性的关联关系。在数字档案资源语义关联聚合工作中,就可以利用这种同一性关联关系,将具有相同属性特征的数字档案资源聚合在一起,形成具有特定属性的档案资源聚合单元。

       (2)隶属性关联关系。隶属性关联关系是一种纵向的关联关系,它是由数字档案资源自身所具有的性质决定的,因为每一份数字档案文件如电子图表、多媒体文档等总是隶属于某一个主题、范畴、类别[7]或来源。从本质上来讲,数字档案资源之间的隶属关联关系是数字档案资源与其主题、范畴、类别等之间的逻辑关系的具体体现,它主要是用来描述和揭示数字档案资源间整体与部分的内在逻辑关联性。在数字档案资源语义关联聚合工作中,利用隶属关联关系既可以将具有相同隶属特性的档案资源聚合在一起,又可以为将来语义聚合服务工作如何扩大检索范围、找到更多相关的档案资源提供清晰的路径,帮助用户找到更多有价值的档案资源。

       (3)相关性关联关系。相关性关联关系是指数字档案资源之间所具有的相互渗透、相互依存、相互制约和互为中介的关系,如作用关系、因果关系和应用关系等。[8]这种关联关系往往用于“同一性关联关系”和“隶属性关联关系”无法揭示的关联关系揭示中。例如,“语义网技术”、“数字档案馆建设”两个主题的档案资源,它们之间没有同一性关联关系,也没有隶属性关联系,但它们之间存在“应用”的关联关系。相关性关联关系可以拓展数字档案资源之间的联系,能为数字档案资源语义关联聚合实现提供更多的切入口。

       (4)间接性关联关系。间接性关联关系是指数字档案资源之间存在的一种不像同一性、隶属性和相关性那样明显的关联关系。这种关联关系往往需要通过语义推理等模型技术来计算其关联关系。例如,从关系路径中推导出它们之间的实际语义关系以及这种语义关系的强度,[9]并根据其间语义关系强来判定是否存在真实的关联关系等。

       可以说,以上这些关联关系均是数字档案资源之间客观存在的关系。在实际操作中,可以利用这些关系,将不同主题、不同内涵外延、不同属性关系的档案资源聚合在一起,形成一个相互关联、多维度、多层次、立体化的档案知识资源网络。[10]

       2.2 不同媒体类型数字档案资源的统一描述

       不同媒体类型数字档案资源聚合的目的就是要将不同媒体类型档案资源进行规范化处理,为档案服务工作提供一个统一的档案资源保障架构。在借鉴Nano-publication[11]理念的基础上,结合我国档案资源建设实际,本文在此利用项目前期研究成果“数字档案资源Nano-publication语义描述框架”(图1)(12)来解决不同媒体类型档案资源的统一描述问题,以便为数字档案资源聚合的实现奠定初步基础。

      

       图1 数字档案资源统一描述框架

       在数字档案资源描述工作中,利用“数字档案资源Nano-publiecaiton语义描述框架”的6个组成部分——“数字档案资源ID(档号)”、“关键内容”、“支持信息”、“来源”、“完整性密钥”、“提供者身份密钥”等对不同媒体类型的档案资源进行统一描述和规范。在具体描述过程,首先需要对数字档案资源所承载的主题内容进行提炼,形成“关键内容”(如档案分类号、主题词、关键词、关键帧等),并将其作为数字档案资源语义关联的核心;其次,将档案资源的档号映射成“数字档案资源ID(档号)”,将档案资源的背景或语境信息(如文件号、责任者、稿本、文种、密级、保管期限、时间项、附件等)转化为“支持信息”,将“关键内容”的获取来源(如档案馆代号、数据库系统网络地址、管理者、产权拥有者等)定义为“来源”;最后利用“完整性密钥”和“提供者身份密钥”来保障数字档案资源的完整性和权威性。从本质上来讲,对不同媒体类型数字档案资源进行统一描述和规范的主要目的就是要将各种异构的、不同媒体类型的数字档案资源转化为结构形式高度统一的数字档案资源,为数字档案资源跨媒体语义关联聚合的实现降低技术难度。

       3 数字档案资源跨媒体语义关联聚合实现框架构建

       数字档案资源跨媒体语义关联聚合实现的重点在于将这些不同媒体类型档案资源整合在同一语义描述框架下,以揭示它们之间的语义关联关系,并依据这些关系来实现聚合,为数字档案资源跨媒体语义检索奠定基础。基于上文分析,本文在此利用档案领域本体和关联数据技术框架建立“数字档案资源跨媒体语义关联聚合实现框架”(图2),解决数字档案资源的跨媒体语义关联聚合实现问题。

      

       图2 数字档案资源跨媒体语义关联聚合实现框架

       “数字档案资源跨媒体语义关联聚合实现框架”分为6个层——“资源提供层”、“资源规范层”、“知识粒度层”、“语义描述层”、“关联实现层”及“访问接入层”。其中,“资源提供层”为各种媒体类型的数字档案资源,它们是跨媒体语义关联聚合实现的基础,也是用户需求满足的源泉。“资源规范层”在这里可以理解为,不同媒体类型档案资源的格式化表示层,它利用“数字档案资源统一描述框架”(见图1)将各种媒体类型的档案资源描述为统一的表达格式,实现不同媒体类型数字档案资源的描述结构形式的统一。“知识粒度层”是在“资源规范层”的基础上,对其“关键内容”进一步细化,并在档案领域本体的作用下,形成一个个规范化的档案知识元(概念级),且每个档案知识元继承上级“关键内容”的各项特性。即“关键内容”对应下的“档案知识元”继承了与“关键内容”相一致的“数字档案资源ID(档号)”、“支持信息”、“来源”及“档案提供者数字签名”等基本特性。设计这一层的目的主要在于解决档案资源内容复杂、多主题特征等情况,将“关键内容”再进一步微化,以提升档案资源语义组织和检索的灵活性。“语义描述层”是数字档案资源语义化的核心层,其目的是将档案数据转换为RDF文件,并形成计算机可以理解的元数据集。它以各档案知识元及其“来源”、“支持信息”等为对象,利用RDF三元组进行表示,并生成命名图,给命名图分配唯一的、可识别的URI。其中,每一个档案知识元被表示为一个由主语、谓语和宾语三个无歧义的概念或实体构成的三元组,生成命名图,并赋予唯一的、可识别的URI,而“来源”、“支持信息”可以根据实际情况如有多个出处等被表示为多个三元组。在具体语义描述方面,“来源”、“支持信息”三元组的主语是当前数字档案资源知识元命名图的URI,其宾语可以是这一档案知识元的所属机构、管理单位(来源)、形成者、原始档案资源(支持信息)等,谓语则描述主语和宾语间的关系。在具体操作层面上,数字档案资源描述工作首先需要利用“知识粒化层”将“资源规范层”提取的“关键内容”进行微化,通过档案领域本体将微化的“关键内容”(档案知识元)映射为消歧概念,并用RDF三元组表示。进而提取相关的“支持信息”及“来源”信息进行概念映射,生成RDF命名图,[13]并通过数字签名标明数字档案资源提供者的身份认证信息,以保障数字档案资源的权威性和可靠性。在上述描述的基础上,“关联实现层”利用关联数据发布机制[14]对其进行发布,并利用数字档案资源的语义关联关系建立语义互联的档案关联数据网络,[15]以供“访问接入层”的“数字档案跨媒体语义检索平台”[16]利用。

       数字档案资源跨媒体语义关联聚合实现框架以现有档案资源体系建设成果为基础,利用“数字档案资源统一描述框架”将不同媒体类型的档案资源进行统一规范化处理,并提炼出“关键内容”等基本信息,有利于保障数字档案资源建设工作的延续性,降低数字档案资源跨媒体语义关联聚合实现的难度。同时,该框架利用档案领域本体对其“关键内容”的细粒度(档案知识元)进行规范,能为数字档案资源跨媒体语义关联聚合实现提供规范的数据基础和语义互操作实现基础。另外,该框架利用现代语义网最佳实践——关联数据技术将档案知识元及其“来源”和“支持信息”等转化为关联数据,并利用数字档案资源间的语义关联关系建立起档案关联数据网络,最终实现数字档案资源跨媒体语义聚合,在技术实现上是可行的,并在信息服务领域有诸多成功的案例[17]可供该项工作借鉴。

       4 数字档案资源跨媒体语义关联聚合实现的对策

       数字档案资源跨媒体语义关联聚合是一项复杂的系统工程,它的实现不仅需要有先进的信息处理技术作支撑,而且更为重要的是,它还需要在档案资源体系完善、组织与协调机制建设以及具体资源语义化等方面采取有效的措施来保障。

       4.1 构建覆盖面更为广泛的现代数字档案资源保障体系

       不同媒体类型档案资源的存在是数字档案资源跨媒体语义关联聚合开展的基本前提。在当前,档案部门需要加强数字档案资源建设工作,建立一个覆盖面更为广泛的现代数字档案资源体系,为其语义关联聚合的实现奠定雄厚的档案资源基础。目前它需要做好以下几项工作:第一,转变传统的档案资源建设理念,树立以用户需求满足为中心的档案资源建设观。具体而言,一是要确立用户服务至上的理念,按照用户的需求和利用习惯等来规划和建设档案资源体系,而不是从管理工作方便的角度来聚合这些档案资源。二是从用户利用的角度重新来认识不同媒体类型档案资源的价值,改变不同媒体类型数字档案资源分开处理的传统习惯,确立数字档案资源统一管理的新理念。因为不同媒体形式的数字档案资源都是现代档案资源体系的重要组成部分,它们在物理层面上都是以0和1的形式存在的电子文件(档案),只是在信息内容媒体呈现形式上存在差异,其语义描述与组织工作基本是一致的。第二,做好顶层设计工作,建立一个集文本型、图像型、声频型、多媒体型等类型档案资源于一体的现代数字档案资源管理框架。通过这一框架,将不同媒体类型的数字档案资源纳入统一的档案资源管理体系。第三,改变传统档案收集模式,拓宽多媒体数字档案资源的收集范围。针对档案资源多媒体化现象日益明显的趋势,档案部门宜根据时代的变化,尽快修改和完善档案资源收集工作内容,明确规定不同媒体类型数字档案资源的归档要求与范围,并将其作为归档鉴定的重点。最后,各档案部门还需要借鉴数字图书馆等领域资源建设的成功经验,并利用语义网、知识服务等领域的知识和技能来优化和丰富现代数字档案资源体系。

       4.2 建立长效的跨媒体语义关联聚合组织与协调机制

       数字档案资源跨媒体语义关联聚合工作是一项适应语义网发展要求而产生的新工作,也是一项长期性的工程,它的实现需要有一套科学的组织和协调机制来保障。首先,需要成立具有全国性影响的领导机构和业务指导机构,引导和推进该项工程的发展。当前,领导机构可以归口为国家档案局,其职责主要是负责制订数字档案资源跨媒体整合的目标与发展规划,监测和报道该领域工作的发展动态等,为数字档案资源跨媒体语义关联聚合工作的发展提供战略方向。业务指导机构承担具体的业务指导与推进工作,其职责主要是制订数字档案资源跨媒体语义关联聚合的标准与基本框架,组织和协调该项工作的开展。目前,业务指导机构可以依托中国档案学会或国家档案局,通过聘请相关领域专家组成“业务推进小组”的形式来实现。其次,建立联合的研究与实践平台,促进该领域“产、学、研”良性互动发展。数字档案资源跨媒体语义关联聚合是一个跨学科研究课题。在理论研究上,它需要集中档案学、情报学、计算机等方面的人才,联合攻关;在实践探索上,它需要高校、研究所与档案工作部门通力合作,实现理论与实践的统一。在当前,可以通过设立专项课题的形式将“产”、“学”、“研”等领域的人才聚合起来,开展联合研究,逐步解决数字档案资源跨媒体语义关联聚合中碰到的难题,推动理论研究与实践探索工作不断向前发展。最后,建立广泛的交流渠道,共享成功经验,减少研究与建设的弯路。一是要建立起档案工作领域的内部交流渠道,完善档案学界与档案工作界的对话机制,促进理论研究成果尽快向实践转化;二是要建立起跨界交流平台,同国内外图书馆学、情报学等相关学科领域的同仁共享研究与建设经验,降低研究与实践探索成本。

       4.3 确立渐进式的数字档案资源跨媒体语义整合工作思路

       数字档案资源跨媒体语义关联聚合工作是一项花费成本较高的工作。然而,任何档案部门的建设资源总是有限的,在现阶段不可能也没有必要对所有档案资源均进行语义化集成处理。档案工作部门需要结合自身财力、人力等情况,立足用户需求,采用渐进式的思路来推进此项工作。首先,需要认真调查和总结用户的利用需求规律,掌握用户的利用习惯和偏好。因为用户的利用需求是数字档案资源跨媒体语义关联聚合工作的出发点和归宿,弄清楚用户的真正需求是具体资源聚合工作开展的前导。当前,档案部门需要在档案利用情况统计的基础上,通过发放调查问卷、召开用户座谈会等渠道来获取更为丰富的用户利用需求信息,掌握社会需求热点,为数字档案资源跨媒体语义关联聚合工作提供明确的发展方向。另外,档案部门还需要有针对性地收集档案用户的利用习惯与偏好等方面的信息,如习惯的检索切入点是关键词、机构名称还是文号等,为数字档案资源统一描述时的“关键内容”提取提供参考信息,以便语义聚合工作更加符合用户利用实际。其次,根据用户的利用需求热点并结合当前档案资源建设现状,确立数字档案资源跨媒体语义关联聚合优先实现范围。在这方面,可以借鉴我国20世纪档案资源数字化工作开展的策略,将具有特色的、利用率高的、珍贵的[18]的各类数字档案资源作为语义关联聚合优先实现的范围。第三,积极提供跨媒体语义关联服务实践,引导用户需求,并优化语义关联聚合研究与实践成果。语义关联聚合的目的是为用户提供知识关联服务。档案工作部门在条件允许的情况下,尽可能将数字档案资源跨媒体语义关联聚合成果付诸实际应用,以满足用户跨媒体知识集成服务的需求。因为,开展这一实践服务不仅能宣传数字档案资源跨媒体服务理念,引导和刺激用户需求,而且还能检验和修正前期的研究与实践成果,不断优化数字档案资源跨媒体语义关联聚合工作方案,推动档案服务工作向知识化、智能化方向发展。

       4.4 推进数字档案资源跨媒体语义关联聚合的理论与技术创新

       数字档案资源跨媒体语义聚合是数字时代赋予现代档案工作的一项重要任务,它的实现不仅需要有信息技术的新突破,而且更需要在信息组织领域有理论创新。在当前,推进该领域的理论与技术创新,需要做好以下几个方面的工作:其一,创造开放的研究与实践环境。创新不可能在封闭的环境中产生,它需要有开放、宽松的环境。具体而言,一方面,它需要改变我国档案行业与其他行业相对割裂的存在格局,如改变我国档案科技项目的申报与遴选机制等,打破行业壁垒,鼓励其他行业的力量积极参与数字档案资源建设的研究与实践工作;另一方面,它需要改变由档案工作部门主导的传统创新模式,将档案用户和其他利益相关者纳入创新主体范围,积极听取用户等利益相关者的反馈意见,以社会需求来引导该领域创新。另外,它还需要建立容许创新失败的管理与协调机制,营造宽容的探索环境,鼓励研究者和实践者大胆地试错,为该领域创新活动营造良好的文化氛围。其二,开展创新竞赛活动。通过开展创新竞赛活动,引导档案工作部门积极主动地进行档案资源建设创新实践,并利用这一活动及时发现和搜集该领域的创新灵感和创新成果,避免创新思想和知识的“自然”消失。其三,建立学习型组织。学习型组织是保障创新活动持续开展的基础。通过建立学习型组织,在档案工作部门倡导终身学习理念,培养弥漫于整个组织的学习氛围,激活每个档案工作者的创造能力,为数字档案资源跨媒体语义聚合等创新工作的有效开展奠定良好的组织环境和人才基础。

       5 结束语

       数字档案资源跨媒体语义聚合工作是一项复杂的系统工程,它的实现不仅需要理清数字档案资源间的内在关联关系,而且还需要将不同媒体类型的数字档案资源进行规范化处理,形成统一的档案资源描述格式,并被计算机系统理解和支持。本文利用Nano-publication框架和关联数据技术等构建了数字档案资源跨媒体语义关联聚合实现框架,对数字档案资源跨媒体聚合问题进行了探讨,希望它能对我国数字档案资源跨媒体语义组织与整合等工作有所裨益。另外,由于受到研究能力和条件的限制,本文所提出的语义关联聚合实现框架和具体实现策略,仍需要在后续的研究中进一步细化和完善。

标签:;  ;  ;  ;  ;  ;  

数字档案资源跨媒体语义关联聚合的实现策略研究_关联关系论文
下载Doc文档

猜你喜欢