基于纳米化框架的数字档案资源语义描述研究_语义分析论文

基于Nanopublication框架的数字档案资源语义描述研究,本文主要内容关键词为:语义论文,框架论文,档案论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      [中图分类号]G270

      随着计算机、网络等现代信息技术的发展与应用,人们利用信息资源的便捷程度越来越高,不仅可以高效地查找到自己所需要的信息,而且还可以利用知识挖掘等技术发现新的知识。然而,面对信息量的急剧增加,人们在利用信息时也往往会面临“只见树木,不见森林”的困境,信息的效用和价值有时并没有得到有效地发挥。为了解决这一问题,一些机构开始借助自然语言处理技术、语义网技术等对信息资源进行语义内容标注、语义表示和再组织的工作,如英国皇家化学学会提出的RSC Semantic Publishing项目[1]、Elsevier的Article of the Future项目[2]以及PLoS Neglected Tropical Diseases(PLoSNTDs)实施的Semantic Enriching计划[3]等。这些项目利用语义技术、领域本体、实体数据库等,对信息资源进行语义标注和组织,构建有别于传统信息组织工作的知识资源语义表示模式,在减少知识传播与学术交流障碍等方面具有明显的优势[4]。然而,它们并没对信息、知识形成的源头、异构等问题进行较多的关注,在深层揭示、整合与知识发现等方面存在一些不足。数字档案资源是社会信息资源的重要组成部分,其开发利用工作虽然伴随着数字档案馆工程的推进获得了长足的进展,但是在数字档案资源深层次揭示、整合与知识服务等方面同样存在着类似的问题。在此,本文拟在已有研究成果的基础上,采用“Nanopublication框架”来揭示和描述数字档案资源,为其知识的发现、理解、交流、集成及共享创造条件,进而推动数字档案资源建设工作向知识化、智能化方向发展。

      1 Nanopublication框架在数字档案资源语义描述中应用的意义

      1.1 Nanopublication

      Nanopublication 是由概念网络联盟(Concept Web Alliance)于2009年提出的科学文献语义出版新模式,其中“Nano”的意思是“Smallness,Mini”,它指的是一种具有科学意义、机器可读的、最小的可发布的信息单元[5]。从原理上来看,Nanopublication以概念或实体作为基本元素,描述科学文献中的科学结论、科学事实或大量实验数据中的实验结果,并提供唯一标识,描述结论的出处、原文作者、Nanopublication创建者等背景及语境信息,是科学文献在细粒度上的语义表示、组织和出版形式,其结构框架如图1[6]所示,并由Groth P、Gibson A等人作出了详细解释[7]。

      

      图1 Nanopublication框架

      Nanopublication框架由结论(Assertion)、支持信息(Supporting)、来源(Provenance)、Nanopublication ID和完整性密钥(Integrity Key)五个部分组成。其中,结论(Assertion)是指得出的科学事实、实验结果或结论,是最小的知识单元。支持信息(Supporting)主要是提供所描述结论的背景或语境信息,如结论是在什么条件下得出的、对结论持有赞同或批判态度的人或观点等信息。来源(Provenance)是结论的出处和起源,包括结论是如何形成的,在什么时间得出的,由谁得出的,谁拥有其版权,谁是Nanopublication创建者、发布者等。Nanopublication ID是每个Nanopublication的唯一ID,且具有唯一标识URI。完整性密钥(Integrity Key)是确保结论作者的身份认证,用户可以通过完整性密钥确定该结论是哪位作者得出的,同时密钥可用于进行信息的版本控制等。概念网络联盟(Concept Web Alliance)提出Nanopublication的最初目的主要是为了解决大数据的语义知识关联问题,但自提出后,它就受到了国际社会的广泛重视,应用到一些具体项目,并取得了实质性的进展。如,2011年Open PHACTS(Open Pharmacological Concept Triple Store)项目启动,建立了开放药物学空间(Open Pharmacological Space,OPS)[8];2012年Open PHACTS推出了Nanopublication的指南并构建了Nanopub.org网站,为社会提供纳Nanopublication构建的相关信息和实例[9]。Queralt-Rosinach等利用现有本体及可控词汇集,如语义科学集成本体(Semantic Science Integrated Ontology,ISO)、美国国家癌症研究所的“国家癌症元词表”(NCI Metathesaurus)、都柏林核心元数据等,将基因疾病数据库DisGeNET的数据由关系数据库转换为Nanopublication模式的RDF数据[10]等。

      1.2 Nanopublication框架在数字档案资源语义描述中应用的意义

      Nanopublication是一种适应现代语义网发展要求的语义信息表示、组织与发布形式,它在知识组织与服务方面具有明显的优势,在当前,将其框架应用于数字档案资源语义描述工作中具有十分重要的现实价值和意义,且是可行的。

      第一,Nanopublication框架可以将不同媒体类型的数字档案资源如文字型、图片型、多媒体型等进行规范性描述,形成结构统一的数字档案资源体系,能为档案资源的综合利用减少障碍。Nanopublication框架将不同媒体类型的数字档案资源在结构上分为ID号、完整性密钥、结论、支持信息、来源五个固定的部分,形成统一的规范结构,在解决数字档案资源的媒体异构问题方面具有明显的优势,能让数字档案资源的跨媒体检索服务变为可能,符合用户综合化的利用需求。另外,Nanopublication框架将各种类型的档案资源在描述结构上分为五个相对固定的部分,能为数字档案资源限定检索的实现创造更多的有利条件,不断提升数字档案资源检索工作的检准率。

      第二,Nanopublication框架通过“结论”模块可以将具体数字档案资源如某一文件、科研项目报告等中的“结论”性知识提炼和揭示出来,并形成一个个细粒化的档案知识单元。这种细粒化的知识单元,既是档案知识灵活组织与个性化服务实现的基础,又是数字档案资源深层次开发利用工作如知识挖掘、语义检索等实现的前提。在当前,运用Nanopublication框架来描述和组织数字档案资源,有利于推动数字档案资源融入现代语义信息网的进程,促进档案服务工作向知识服务方向发展,实现档案资源价值的提升。

      第三,Nanopublication框架可以充分利用现有的档案信息化建设成果,避免了重复工作,有利于加快档案工作信息化进程。在实践操作中,各实践部门可以在现有档案著录工作的基础上,利用映射技术将各著录项分别归属于Nanopublication框架的不同模块,可以大大地减少实践部门的工作量,方便实践部门接受,同时也能保证档案信息资源系统建设的前后一致性和稳定性。事实上,利用Nanopublication框架对数字档案资源进行描述,并不是替代原有的档案信息著录与标引工作,而是在数字化环境下将原有的著录项目重新排列组合并作适当调整或增补而已。

      第四,Nanopublication框架中“完整性密钥”(Integrity Key)模块的设计,有利于保障数字档案信息的权威性,符合数字档案资源体系建设的基本要求。Nanopublication 框架中的“完整性密钥”(Integrity Key)模块不仅可以在数字网络中保障数字档案信息记载事实的完整性,而且还可以通过数字签名等方式确保数字档案资源提供者的合法身份,从而确保网络数字档案资源的真实可靠性,降低数字档案资源网络发布和传输的风险。

      

      图2 数字档案资源Nanopublication语义描述框架

      

      2 数字档案资源Nanopublication语义描述框架的建立

      为了更好地将Nanopublication框架应用于数字档案资源语义揭示与描述工作,本文在综合考虑我国数字档案资源体系建设成就以及数字档案资源体系建设发展趋势的基础上,借鉴已有的Nanopublication项目实践经验,确立数字档案资源语义描述框架构建的基本指导原则。具体而言,这一指导原则须包括以下几个方面的内容:其一,构建的语义描述框架不仅要能解决数字档案资源的语义异构问题,实现数字档案资源的统一规范处理,而且还要注意到数字档案资源的多媒体化趋势,要能规范处理不同媒体类型的数字档案资源,为跨媒体服务奠定基础;其二,要利用现有的档案信息化建设成果(档案资源建设成果和档案信息系统建设成果等),保证档案信息化工作的连续性,降低数字档案资源的语义描述的成本;其三,要适应现代语义网发展要求,并能与其他信息资源的语义描述与发布工作如关联数据等相协调,以便数字档案资源尽快融入整个社会信息系统;其四,语义描述框架既要能体现数字档案资源语义描述的一般要求,更要体现出数字档案资源描述的特殊性如保证档案资源的真实性和权威性等,以确保数字档案资源的社会公信力。

      基于上述原则,本文在Nanopublication框架的基础上,构建数字档案资源Nanopublication语义描述框架(如图2所示),以期以最简便的方式解决数字档案资源的语义揭示与描述问题。需要说明的是,在具体描述框架构建过程中,考虑到数字档案资源的权威性、真实性等最核心的要求,在Nanopublication框架的中单独增加“提供者身份密钥”模块,让用户在鉴定数字档案资源真实性、来源可靠性等方面有根本性的保障;同时,针对数字档案资源语义检索与知识服务的需要,结合当前我国档案资源整理工作传统以及档案资源“文件级”整理的发展趋势,将原Nanopublication框架的中“结论”模块调整为“关键内容”模块,将“Nanopublication ID”模块变更为“数字档案资源ID(档号)”模块,以便充分利用已有的数字档案资源建设成果,并降低数字档案资源语义描述工作的难度与成本。另外,将传统档案著录工作所形成的原始款目同Nanopublication框架各部分的内容进行相对应归类(如表1所示),以确保数字档案资源语义描述工作的延续性和经济性。

      从图2中可以看出,“数字档案资源Nanopublication语义描述框架”由“数字档案资源ID(档号)”、“关键内容”、“支持信息”、“来源”、“完整性密钥”及“提供者身份密钥”6个部分组成。其中,“关键内容”是指每份数字档案资源中所承载的事实、结论等,是基本的知识单元,如档案分类号、主题词、关键词、关键帧等,它们是用户利用的切入口。“支持信息”是指所描述“关键内容”的背景或语境信息,如档案的形成单位、形成过程以及与本档案资源相关的其他资源等。“来源”是指“关键内容”的出处和来源,如由谁管理的,谁拥有其产权,数据库系统网络地址是什么等(这里的“来源”不同于档案学领域“来源原则”所规定的“来源”,仅指导“关键内容”的出处等)。“完整性密钥”主要是用来保障数字档案信息的完整性,以防只提供部分真实的档案信息。“提供者身份密钥”主要是用于确保数字档案资源提供者的身份认证,用户可以通过数字签名来确定该档案资源是哪个具体档案服务部门提供的,以确保档案信息的权威信。“数字档案资源ID(档号)”是每份数字档案资源的唯一编号。

      从本质上来讲,“数字档案资源Nanopublication语义描述框架”的目的就是要将不同媒体类型数字档案的原有外部特征(如著者、时间、保管期限、相关背景等等)和内容特征(分类号、主题词、关键词等)进行规范化表示、提取,使数字档案资源中的重要信息和知识实现模块化和语义化,以便于计算机能快速读取、处理和复用[11]。本文构建的“数字档案资源Nanopublication语义描述框架”,一方面它有利于将各种异构的、不同媒体类型的数字档案资源转化为结构形式高度统一的数字档案资源,为数字档案资源跨媒体聚合降低技术实现难度,并奠定基础;另一方面,它有利于将数字档案资源内容进行细粒度化处理,从文件级的角度来揭示和描述档案资源,能有效地提升数字档案资源语义揭示与描述的精确度,为档案知识组织与服务奠定良好的基础。

      3 基于Nanopublication框架的数字档案资源语义描述的实现

      数字档案资源语义揭示与描述工作是一项基础性的档案业务工作,它是现代数字档案资源体系建设的重要内容,也是推动数字档案资源向知识资源转化的重要环节。然而,它的实现并非易事,是一项系统的社会工程,需要档案工作部门采取科学的措施和流程来推进。

      3.1 分析用户利用需求特点,明确数字档案资源语义描述的范围

      用户利用需求是任何数字档案资源体系建设工作开展的前提和立足点。由于在人力、物力和资金等条件的限制下,任何档案工作部门不可能在一定时空范围内对所有的数字档案资源进行有效地语义描述与揭示。因此,在数字档案资源语义描述工作开展前,有必要对数字档案资源用户利用需求情况进行分析,以便让其语义描述工作有的放矢地开展。分析用户利用需求,主要是弄清两个方面的内容:其一,用户利用行为偏好。在这一方面,更多的是要了解大多数档案用户利用数字档案资源的行为习惯,如在检索时是以查找档案文件标题为主,还是利用关键词查找为主等。目前各档案工作部门可以充分利用现代档案信息系统收集用户访问的基本行为数据如提交的检索式、对检索方式的选择等,并进行分析,掌握用户利用行为偏好情况,为后续语义描述工作提供有针对性的指导和建议。其二,用户利用需求范围,即是用户对数字档案资源需求的重心在哪里。在具体了解用户利用需求范围方面,档案工作部门可以从直接和间接两个方面入手[12]。从直接方面来看,档案工作部门可以通过开座谈会、印发调查问卷尤其是开展网络调查等方式,直接收集用户需求信息,掌握用户需求范围的第一手材料;从间接方面来看,各档案工作部门可以通过健全档案借阅、调阅和利用工作登记统计制度,定期总结利用工作情况,分析档案用户利用档案的范围和内容,研究用户需求规律[13],从而较为精准地把握用户需求范围。另外,在间接方面,各档案工作部门还可以根据社会发展态势如当前国家和地区的工作中心等,对用户需求作出科学预测,让数字档案资源语义描述工作具有前瞻性。通过分析用户利用需求情况,掌握用户利用行为偏好,并选择数字档案资源语义描述的范围,为下一步档案数据清洗、规范作准备。

      3.2 提取数字档案资源描述数据并进行清洗,形成规范统一的档案著录款目

      在上述分析的基础上,从确定的数字档案资源范围内,提取Nanopublication语义描述框架所需的档案描述数据项目,并进行清洗。在这里,需要注意的是,提取数字档案资源描述数据并不改变原有的档案资源著录、标引等描述工作内容,它只是在原来工作的基础上,依据“数字档案资源Nanopublication语义描述框架”选择所需要的档案著录项目而已。鉴于我国档案资源描述工作不规范、各自为政的实际情况,在提取这些数据项目后,要进行相应的清洗,即是档案数据标准化处理。为了保障我国档案信息化工作的连续性以及后续语义描述工作的可操作性,在档案数据清洗方面宜以我国现行《档案著录规则(DA/T18-1999》为基准。在这一过程中,当前档案工作部门需要重点处理的工作主要有:第一,继续按《档案著录规则(DA/T18-1999》描述各类数字档案资源,减少档案著录标引格式的随意性,为档案数据提取和清洗减少障碍;第二,尽量利用《中国档案主题词表》、《中国档案分类表》对档案资源的内容进行揭示和标引,提高标引专指度,规范各数字档案的内容表达形式。另外,在间接标引时,尤其是在自由标引或增词标引方面,更要严格遵循档案标引的规范,以提升标引的精确度。第三,根据数字档案资源Nanopublication语义描述框架,按文件级的方式对数字档案资源进行处理,以增强数字档案资源的揭示深度,为数字档案资源的精确检索和知识发现奠定基础。通过以上这些措施,将待处理的数字档案资源著录项目进行标准化处理,形成格式统一、表达规范的档案著录款目,为数字档案资源语义描述作准备。

      3.3 利用语义描述框架对档案著录款目进行归类,形成具有唯一ID的且格式统一的数字档案条目

      将待处理好的数字档案资源,利用“数字档案资源Nanopublication语义描述框架”进行揭示,其工作主要涉及两个层面:一是将处理好的档案资源著录款目依据表1中的对应关系进行归类。需要强调的是,“关键内容”部分的题名、提要、关键词、分类号、主题词等款目的选择宜以用户利用行为习惯和语义网技术实现要求为标准,且选择的具体款目不宜过多。鉴于我国档案著录工作开展的实际情况和用户利用行为习惯,各档案工作部门在数字档案资源语义描述时可以选择“文件题名”、“提要”、“主题词”等常用的款目作为“关键内容”。另外,“数字档案资源ID”以文件级档案资源的代号即件号为对应的ID号,以确保每份数字档案资源的唯一性;二是增加“完整性密钥”和“提供者身份密钥”。密钥主要是用来解决数字档案资源在数字化环境下的真实可靠性的问题。在操作层面上,宜采用主流的非对称加密技术如RSA算法等来实现,以增强网络传播的兼容性。通过这些工作,将数字档案资源转化为格式规范、形式统一的档案资源条目。

      3.4 利用RDF三元组对数字档案条目要素进行描述,形成RDF文件并存储

      为了适应数字档案资源语义检索与服务的要求,数字档案资源语义描述工作还需要将档案资源条目转换成语义表达格式。资源描述框架RDF[14]是适应语义网发展要求的描述格式,本文在此采用RDF三元组将档案数据转换为RDF文件,并形成计算机可以理解的元数据集。在具体操作上,它以“关键内容”及其“来源”、“支持信息”等为对象,利用RDF三元组进行表示,并生成命名图[15],给命名图分配唯一的、可识别的URI。其中,每一个“关键内容”被表示为一个由主语、谓语和宾语三个无歧义的概念或实体构成的三元组,生成命名图,并赋予唯一的、可识别的URI,而“来源”、“支持信息”可以根据实际情况如有多个来源等被表示为多个三元组。在具体语义描述方面,“来源”、“支持信息”三元组的主语是当前数字档案资源“关键内容”的命名图的URI,其宾语可以是这一“关键内容”的所属机构、管理单位(来源)、形成者、原始档案资源(支持信息)等,谓语则是描述主语和宾语间的关系。通过描述将数字档案资源转换为RDF文件并校验、存储以备后续语义组织工作之用,完成数字档案资源的语义描述工作。

      4 结束语

      数字档案资源是社会重要的信息资源之一,将其融入语义网是档案资源开发利用部门面临的现实问题。本文采用Nanopublication框架来揭示和描述数字档案资源,可以为解决数字档案资源的语义异构及其语义描述等问题提供借鉴,在促进数字档案资源从信息组织向知识组织提升等方面有一定的指导意义。然而,数字档案资源来源及其构成复杂,语义揭示与描述不是一件容易实现的事情,它不仅需要有科学的理论来指导,还需要有严格的工作标准来保障。目前,语义网技术正处于发展阶段,本文所构建的数字档案资源Nanopublication语义描述框架还需要不断改进,这些将在后续的研究工作中得以完善。

标签:;  ;  ;  ;  ;  ;  

基于纳米化框架的数字档案资源语义描述研究_语义分析论文
下载Doc文档

猜你喜欢