一种新的书目数据格式BIBFRAME及其应用_语义分析论文

书目数据新格式BIBFRAME及其应用,本文主要内容关键词为:及其应用论文,书目论文,格式论文,数据论文,BIBFRAME论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

书目数据是图书馆进行书目控制的重要基础,是揭示馆藏、开展服务的主要工具,也是传统图书馆对于知识进行组织和整序的最有价值的贡献。数字时代的书目数据虽然只是图书馆类型丰富的元数据中的一种,但它肩负着将纸媒带入数字时代的重任,同时又是出版物得以传播利用的重要桥梁,因此其重要性并没有降低。当前最大的问题是如何将书目数据开放成真正的万维网上的数据?这其实并不是系统实现问题,而是书目数据格式问题。由于语义技术的发展,人们才真正明白,MARC格式是当前制约图书馆数据开放利用的最大障碍,网络时代呼唤新的书目数据格式[1]。

1 背景和历史

MARC格式设计于上世纪60年代末。当时计算资源极其匮乏,计算机速度慢,存储介质昂贵,以磁带这种顺序存取介质为主,因此MARC记录格式(即2709格式)被设计为不定长字段的紧凑型格式,以记录为单元,每条记录代表一个编目单位。MARC最初的设计目的是为了打印目录卡片,后来有条件的图书馆逐渐开放了检索终端,发展为后来的标准OPAC服务。由于磁带格式只能顺序检索而无法随机存取,因此在格式中设计了很多机器识别码、记录及字段子字段标识,以便能通过倒排索引而迅速定位检索。后来虽然随机存储介质(磁盘)和关系型数据库技术得到普及,但2709格式依然作为MARC记录的交换格式,图书馆的MARC记录虽然都可以通过万维网查询,但除了按照客户机/服务器时代研发的Z39.50标准开放API接口之外,基本没有其它互操作方式,MARC数据一直被牢牢地圈养在每个图书馆的OPAC范围内,缺乏方便地生成一个国家或地区的总书目或联合目录的技术和能力,更不用说开放给整个社会各相关行业使用。

当今的信息服务业有这样一个趋势:凡是互联网上不存在的,基本上是可以被忽略的。图书馆作为一种向大众传播知识的社会机构,如果遭到大众的忽略,就无法充分实现其职能,因而也无法实现其价值。自MARC产生到现在已经过去了半个世纪,随着技术的发展、信息大环境的改变,读者利用图书馆资源的对象和方式也发生了巨大的改变。MARC格式的种种局限在网络时代越来越成为一个绊脚石,越来越阻碍图书馆行业成为一个与其地位相称的网络存在:首先,互联网让计算机不再是简单的数据处理工具,而成为全球信息空间的一个个节点,书目控制不再局限于某一台机器、某一个系统、某一家机构,而需要在图书馆以外的网络空间进行传输和交换,MARC因其领域上的封闭性已无法满足这种需求。其次,图书馆要保存和处理的资源不仅限于传统的印本图书,还包括诸如电子文献、网页、图像、多媒体等复杂的资源类型,而MARC是为印本图书设计的,虽然曾在网络资源的描述上做过一定的努力(856字段),但效果并不理想。

都柏林核心元数据组织(DCMI)很早就看到了MARC对网络应用的不适应,从上世纪90年代中期开始发起了一轮新型元数据研发风暴,试图为MARC等传统的文献描述方式找到替代者。都柏林元数据核心集、术语词表、抽象模型及应用纲要等都是DCMI为网络时代书目控制做出的重要贡献。对于图书馆元数据,DCMI很早就提出一套名为“图书馆应用纲要”的元数据方案,试图实现类似MARC的描述功能,但这个方案只是一个属性元素集合,相对于MARC这种既包含丰富得多的属性元素集、又含有著录和语法编码规则的“复合型”标准来说,远不能满足实际需要,因而一直缺乏大型图书馆的支持而始终停留于草案阶段,未能成为DCMI的推荐规范。在数据编码方式上,MARC虽然号称“机读”,但是其各种内部格式只是被计算机读取,而无法被机器“理解”。DCMI尝试引入RDF/XML作为语义描述规范,但由于图书馆通行的编目规则(AACR2)是和MARC配套的,无法直接采用RDF编码,而且语义技术的实用化也有一个过程,当时还不足以支持大规模的应用,因此MARC的地位长期以来难以撼动。

国际图联1998年出版了《书目记录的功能需求》(FRBR)报告[2],提出与书目描述相关的三类实体、属性及其相互之间的关系,指出传统的MARC无法满足报告中提出的这种层次化的、全网域的“查找、标识、搜索和获取(FISO)”四方面的需求。随着以兼容过去并实现FRBR为目标的RDA编目规则的出台,美国国会图书馆对MARC21进行了大量扩展,人们对MARC格式的不满达到了一个顶点。

呼吁以新的书目格式取代MARC的呼声早已有之,进入新千年之后更是不绝于耳。加州大学数字图书馆项目前经理、现任OCLC高级项目主管Roy Tennant在2002年公开喊出MARC Must Die(MARC必须死)[3]。但它为什么还死不了呢?最主要的原因是一直没有一种能够满足网络时代书目数据功能需求的书目格式来取代它。

美国国会图书馆2006年12月成立了未来书目控制项目组,2008年1月提交最终报告On the Record,表明将书目控制向万维网推进的积极态度,引发巨大争论。OCLC领导了W3C的Schema书目扩展社区的研究工作,通过对一种由Google、Yahoo和微软等提出的Schema.org编码推荐规范进行扩展,在其WorldCat中尝试基于Schema.org的书目格式,实现基于FRBR的RDA编目数据的网络化。所有这些探索都指向一个目标:直接用万维网原生的技术——即以URI、HTTP、HTML/XML为代表的技术来处理和发布信息。

随着W3C等标准组织的推波助澜,以及语义网、关联数据技术在图书馆内得到越来越多的应用,美国国会图书馆已经在将VIAF、LCSH等规范词表发布成关联数据,德国、英国、瑞典等国家图书馆纷纷进行了书目数据的关联数据化[4],推出新一代书目数据格式的时机已经成熟。在这种背景下,基于关联数据技术的“书目框架(BIBFRAME)”应运而生。

2011年5月,美国国会图书馆正式宣布与以语义技术起家的Zepheira公司合作开发BIBFRAME,同年10月,国会图书馆发布项目计划,2012年5月,Zepheira公司开始评估相关的项目并开始数据建模,11月书目框架发布第一份报告[5],公布了所用的关联数据模型草案,同时在书目框架官网上发布用例与需求、不断更新的词表以及适当的工具和服务,不列颠图书馆、德国国家图书馆、OCLC等参与了早期测试。2013年的ALA大会上,书目框架成为热门话题[6],根据Eric Miller等人的报告,目前国会图书馆仍然在根据早期测试的结果修正各种细则,OCLC在研究如何将WorldCat中所有的数据转换成书目框架格式[7]。接下来的工作将更加具体化,如继续更新术语词表,用XML来对书目框架的RDF数据模型进行序列化的试验,开发支持MARC21到书目框架的转换工具、及支持书目框架数据浏览的关联数据浏览器。平台提供商中,目前有图书馆系统服务商VTLS宣称其Open Skies平台支持书目框架[8],科罗拉多大学启动了“BIBFRAME数据存储库”项目[9],在Redis图书馆服务平台上,增加了一个模块,通过MODS-to-MARC映射实现MARC21记录到BIBFRAME实体的转换。

尽管书目框架希望创造一种新的表达书目数据的方法用以取代MARC,但它的目标比此更加宏伟。作为一项计划,BIBFRAME要调研书目描述、数据创建、数据交换等各个方面。除了取代MARC,它还能适应不同内容模型和边际规则,探索新的数据记录的组成方法,以及评估目前的交换协议。书目框架出现之后,废弃MARC的时间已经临近,美国国会图书馆和OCLC都宣布,将于2016年停止对MARC格式的支持,这就意味着MARC即将退出书目控制的历史舞台,书目框架将扮演重要的角色。

2 什么是BIBFRAME?

BIBFRAME全称为“书目框架计划(The Bibliographic Framework Initiative)”,也曾称为“书目框架迁移计划(The Bibliographic Framework Transition Initiative)”,它的目的是开发一种“适应未来需求”的书目数据格式,因此也用它来命名这种新的书目数据格式。所谓格式,即适用于某种特定应用的编码和解码的打包方式,书目框架就是对于书目信息按照一定的结构和方式进行编码,并能够满足信息交换等功能需求而进行解码的一种“数据包”。书目框架应用了关联数据技术,能够支持图书馆及类似机构对各类馆藏资源进行描述和编码,其研发的第一个需求是支持数以亿计的MARC数据转换,将来所有新产生的数据将可以不再使用MARC,从而逐步取代MARC21等世界各国沿用至今的MARC,使得书目数据在整个万维网上得到方便的交换、发布和共享。

书目框架项目的最终目的,是要形成一套适应万维网的书目信息应用规范,主要包括三个方面:模型与实体、术语词表、编码及打包规则,模型与实体提供了书目框架的应用对象和描述深度,术语词表提供了规范控制的基础,编码和打包规则提供了机器理解的手段。另外书目框架还会开发一些用于数据校验、互操作测试等特定功能的辅助工具,以及发布一些应用平台信息和最佳实践等。目前书目框架的官网除了发布进行中的规范之外,作为一个项目管理网站(部分内容须密码登入),还兼有征求意见、讨论问题和普及宣传相关知识的功能。

2.1 框架模型

与FRBR类似,书目框架采用了实体—关系分析法,对所涉及的实体、实体属性、实体关系、属性关系等进行了分析。但书目框架的分析更一般化,只将描述对象分为抽象的创造性作品(Creative Work)和实例(Instance)两层,另外根据规范控制和扩展描述的需要,单独定义了规范数据和注释数据,因此一共有四类实体(如图1、图2所示):

图1 书目框架的核心模型[10]

图2 书目框架的注释模型[11]

前两者可以通过对MARC中各类字段属性进行梳理而“继承”,而规范数据与传统规范控制的做法有很大不同,它既要实现传统规范控制对作品、实例及其相关的作者(人物及角色)、机构、主题、事件等要素的规范功能,又有许多网络资源规范控制的特点(如外链VIAF或DBPedia中的RDF数据)。书目框架定义的规范数据格式并非要取代其它的规范控制方法,而是作为一个轻型的抽象层,提供一种容器,使规范控制在万维网环境下更加有效地发挥作用。

把对与作品或实例相关的实体的描述都作为“注释”,是书目框架的一种“创造”。它所涉及的各种注释包括目前已经纳入考虑范围的封面设计、书评、描述和馆藏描述四类,其中“描述”又分三个子类:摘要、文摘和目录,其所需描述的属性、关系等完全不同,但它们都是bf:Annotation的子类,这种完全异构的数据只有在书目框架这种采用了RDF描述的模型中才能方便地进行编码,因为我们可以把“注释”类当作一个容器,而不像关系数据库那样,一定要强求结构的统一。目前书目框架只定义了一些急需描述的基本类型,如上述四类和三个子类,主要是考虑到书目框架首先要兼容MARC21,如果在转换MARC21数据时没有对应的映射字段,就无法满足对“框架”的需求。将来可能会根据需要扩展更多的类型,这样的模型也能够直接支持网络中由其它机构组织发布和维护的数据[12]。

2.2 术语词表

规范术语的发布是语义万维网技术的基础,通过为各类实体、属性、关系、取值等相关术语赋予URI,形成词表,为语义编码(一般是采用RDF的各种序列化形式)提供了基本的结构单元。

从目前书目框架的实践来看,它已不再像DCMI那样严格控制元素和术语的数量,而是根据实际需要原则,经过一定的内部讨论流程,随时发布和修订。目前术语的主要来源是MARC、FRBR、RDA、DC和VAR等相关业界的元数据规范。至2013年9月,已发布了近300个术语(10月1~10日的美国政府关门也波及到美国国会图书馆,书目框架的术语页面至今没有恢复,MARC21转换书目框架的试验项目只更新到6月5日)。

在众多的规范术语中,资源类型是较为特殊的一种:它既是书目框架描述对象的一种属性,又是书目框架所适用的资源类型。书目框架的“创造性作品”和“实例”两类都可以有资源类型属性。书目框架吸收了MARC/MODS、RDA、DC、Schema.org等元数据规范中对资源类型的定义,将他们组合归并,初步形成一个由14种类型组成的词表(文字资料、地图、数据集、乐谱、动作谱、音频资料、图画、动画、三维物体、软件/多媒体、混合资料、资源集合、手稿和触觉资料),既具备科学性,又很实用,应用时可以任意组合,基本能够从概念上覆盖所有的图书馆及相关机构常见的资源对象,比RDA中利用内容类型、载体类型和媒体类型三方面组合的定义方式更加简便易行[13]。

2.3 用例与需求

软件工程中的“用例与需求”通常用于深度描述系统的使用场景和功能,让设计者和用户充分了解系统如何与外界互动,不同的用户角色可以利用系统做些什么,以及系统典型的开发目的和业务目标。多个用例可以较为全面地反映系统的应用需求。用例是普通读者了解系统复杂功能的一把钥匙,通常不会以专深的技术术语编写,而采用普通用户能够看懂并理解的日常用语。

目前书目框架的官方网站列出了15个用例,并归纳了12个方面的设计目标[14]。15个用例中有4个是能够给用户带来的好处,11个是给图书馆员(图书馆工作)带来的好处。从用例上看,书目框架给图书馆带来的变革将是巨大的。

通过这些用例和需求描述,我们能够很方便地看出什么是真正的“网络时代的书目格式”,它与传统的MARC格式在使用场景和满足需求方面,有多么巨大的不同。

例如它能够直接提供书目信息的SoLoMo①服务、选择“自适应”内容(根据类型、媒体类型、语种等)、进行规范控制(提供规范数据、人名规范名对应、规范档更新等)以及进行联合编目(合并、去重、加馆藏信息、复制数据等)。

2.4 工具、服务与演示

书目框架是关联数据的一种应用,是一种书目数据的RDF Schema和打包规则。之所以称为“框架”,是因为其提供了各种RDF序列化数据的打包方式。书目框架的四类数据应该有四种打包方式,这些书目的编码除了必须支持RDF/XML之外,还可根据需要,支持Ntriples,Turtle,RDF/JSON,RDFa等形式,在应用中需采用内容协商和适当的媒体类型方式对HTTP请求做出反应。

为了让大家有一个直观的了解,书目框架项目网站上提供了两种工具[15],可用来了解MARC数据转换成书目框架的效果。一种是比较服务,通过输入一个美国国会图书馆MARC书目记录的标识(MARC BIB 001字段),就可以看到转换成书目框架格式前后的书目记录。另一种是转换服务,以MARC/XML格式粘贴或上载提交一个不大于2MB的书目数据文件之后,系统会利用Exhibit开发的工具将数据转换并显示成书目框架格式。这两种工具目前还是试验阶段,每隔几周会有调整和更新。将来书目框架网站上会提供更多的工具和服务[16]。

除了美国国会图书馆的大力倡导和投入外,书目框架项目也吸引了包括不列颠图书馆、德国国家图书馆、乔治华盛顿州立大学图书馆在内的许多著名图书馆参与,OCLC也积极响应。目前在书目框架网站上提供了这些机构将自己的书目数据(MARC格式)转换成书目框架格式的丰富例子,包括MARC书目记录转换成书目框架中的“作品”、“人”、“机构”、“实例”、“注释”等各类相互关联的实体的情况,并有RDF/XML格式的数据可供下载。这些演示初步展示了书目框架格式对不同MARC格式的包容性和适用性,验证了关联数据技术给书目数据带来的语义功能和数据间的互操作能力。

2.5 书目框架示例

图3是国会图书馆的MARC数据转换为书目框架格式的一个简单的例子。该实例以RDF/Turtle格式编码,比RDF/XML编码方式更为简洁,易于人识读。该记录是关于一个作品(bf:Work)的数据,定义了该作品的URI、题名(bf:title)和责任者(bf:creator),有3个主题(bf:subject)和4个实例(bf:instance),并描述了其来自于哪条书目记录(bf:derivedFrom)。底部代码描述了该作品的责任者,是一条人名规范数据。

图3 国会图书馆的MARC数据转换为书目框架格式的编码示例[17]

3 BIBFRAME的特点

知名图书馆技术专家Karen Coyle于2004年发文[18]认为,新的书目系统只满足FRBR的FISO四大需求,对于网络时代是不充分的,至少还要有“描述”、“发现”、“定位”、“购买”、“保存”和“推广”等功能。OCLC的资深专家Roy Tennant也在同一期刊物上呼应了这个观点[19],认为未来的书目数据要具有“通用性”、“可扩展性”、“开放性”、“透明性”、“低门槛”、“包容性”,支持“协同管理”、“模块化”、“层次结构”、“颗粒性”和“容错性”等,对未来的书目系统提出了很高的要求。

书目框架作为网络时代的书目数据格式,简而言之,主要在以下三个方面超越了人们对传统书目数据的需求:(1)普适性。不仅体现在书目框架可描述的资源类型不限于描述传统图书,还可描述网络资源,还体现在其采用RDF、URI等标准化的数据模型和编码方式,可与网络上的数据很好地兼容和互操作。(2)语义化。因为其是采用RDF描述的,因而数据的最小单位不是记录,而是RDF的陈述,这就打破了MARC书目“记录”的格式,将记录分拆为一个或多个三元组,成为一个又一个相互关联的语义单元,为书目数据赋予了机器可处理的语义。(3)开放性。用HTTP URI来标识所有的“东西”是关联数据技术框架的基石,而HTTP URI是万维网的基本信息组织方式,可全球唯一定位,当书目数据中的一切实体都赋予了URI,就可在全网范围内被定位和访问,突破了MARC数据的局限,打破了封闭的图书馆系统与开放网络之间的藩篱,使书目数据能够方便地与其他网络数据混搭,融入“数据的网络”,构建新的数据服务。

对书目框架种种特性的总结,基本可以归纳为以下四个特点:

特点一:与MARC的兼容性

书目框架继承了MARC的很多特点,比如丰富的语义和严格的一致性,它能兼容作为内容模型的FRBR,实现MARC数据的各种角色:规范数据、馆藏数据、分类数据等。它设计的首要任务是能够“容纳”当前所有的、各式各样的MARC记录,从而将图书馆行业数十年人工积累的编目记录悉数收入其中,平滑过渡到新的格式,由新的万维网时代的系统软件进行管理。但书目框架并不是MARC的严格等价物和简单的翻版,它尽可能地保证MARC的大多数语义描述能够保留,但也只是MARC可以转换成书目框架,而不保证书目框架完全可以转换成MARC。

特点二:超越书目记录格式

BIBFRAME的开发目标是成为一种书目记录格式,但它不仅是书目记录的“格式”,也不仅适用于书目。取代目前图书馆主流书目记录格式MARC,是书目框架计划最重要的目标之一,但它设计的抽象模型和技术框架显然不止于为书目记录提供一种格式,而是试图容纳多种领域本体、元数据方案、数据序列化格式的框架。书目框架试图描述的资源类型远不止书目,还包括博客文章、静态动态图像、3D影像、计算机程序、软件、数据集、实物等等,并为MARC/MODS、RDA、Schema.org、DCMI等资源描述模式提供映射方案。因此书目框架的适用性并不局限于图书馆领域,也适合于博物馆、档案馆等机构,以及更广泛的类似机构。

特点三:严格区分抽象内容和它的物理/数字表现

在互联网环境中,必须要有一种方法将图书馆数据的抽象内容(题名和作者)与物理形态(页数、是否有插图等)区别开来。标识图书馆资源的创建者(如作者、出版者)与资源的内容属性(如主题)具有同等重要的地位。在书目框架的关联数据模型中,作品和规范数据属于抽象内容,实例数据属于载体表现,在描述时分开描述,一个作品与它的规范数据和实例之间是一对多的关系,都分别赋予URI后,可以更灵活准确地解释它们之间的关系,用RDF编码并序列化后,可被机器理解。

特点四:面向语义网的书目数据格式

用HTTP URI来标识一切事物,是关联数据四原则中的第一条,也是在万维网上清晰标识信息实体、实现网络资源的规范控制的必须。书目框架继续把这一原则发扬光大,无论对作品,对人、地、机构等规范数据,还是每一个实例,甚至包括与“作品”相关的封面、书评、描述等都用HTTP URI来唯一标识。HTTP URI的最大特点不仅仅在于唯一标识功能,还在于它的全球定位功能,以及从一个命名空间到另一个命名空间的跨网域链接。

“数据网”中实体之间要建立更多可被机器处理的关系,这种关系要跨越传统图书馆领域,覆盖到整个网络信息空间,以提高搜索引擎检索结果的相关性,帮助用户找到他们真正需要的信息,提升网络服务的效能。在网络范围内建立可被机器理解的语义关系,正是关联数据技术的长处之所在,书目框架的关联数据模型建立了表达并利用这些关系的基础。这样就提供了一种互联网环境下跨系统、跨领域的网络资源规范控制方法,这种设计使得书目框架既能够满足图书馆的特殊需求,又能与更广泛的相关应用进行整合。

4 BIBFRAME的应用和问题

书目框架计划一经提出便受到业界瞩目,并非因为采用了特别先进的技术,而主要是因为美国国会图书馆的影响力。国会图书馆目前把书目框架作为最重要的、具有最高优先级的项目进行开发。目前书目框架的开发尚未完成,主要还有三个方面的工作:第一,书目框架的规范控制超出了传统书目信息规范数据的边界,成为网络信息规范控制的一部分,但具体应该新增哪些内容的规范控制,尚未得到确定。第二,注释模型还存在争议,特别是其适用的类型以及将来如何扩展方面。例如对于将馆藏纳入到注释类型进行描述是否合适,尚有很多细节还未形成规范或达成共识。第三,目前的应用平台开发,图书馆管理系统的支持,以及演示、编目、转换、校验等工具软件还需要进一步丰富和完善。另外MARC21向书目框架进行映射转换过程中也有很多细节问题需要讨论,目前的测试主要集中于此,能否转换和容纳所有参与图书馆现有的MARC21数据,是书目框架能否成功的试金石,因此转换数据实现目前书目系统的基本功能,是当下书目框架应用的首要任务。

书目框架系出名门,人们对其寄予厚望,然而它毕竟自提出至今只有两年多时间,能否成功、在多大范围内成功还言之尚早,因此现阶段也是人们质疑最多的时候。归纳起来主要有以下几个问题。

4.1 全新开发,技术门槛较高

从技术上来看,书目框架完全采用语义万维网技术,涉及十余年来互联网和图书馆领域研究和应用的多项前沿技术,如Web发布、实体-关系(ER)分析、RDF数据模型、RDF的序列化(编码)、XML数据处理、关联数据的标准规范和应用实施、MARC数据的XML化处理、书目数据的FRBR化、领域知识本体和元数据编码、规范控制等等,对于图书馆界的研究和应用人员来说,有较高的技术门槛,而对于系统开发商和平台提供商来说,提供可投入实际应用的解决方案也非易事。

另外书目框架的开发策略也与以前图书馆界的元数据方案研发有很大的不同,以往对于属性元素的选择非常慎重,对于各类规范词表的确定总是以尽可能优先复用为原则,而书目框架基本不考虑与其它元数据模式的复用和兼容,甚至不尊崇FRBR模型,完全摒弃了MARC用字段和子字段名来揭示书目的属性,也没有复用DCMI或RDA的术语词表,而完全在新的命名空间(bf:http://www.bibframe.org/vocab/)定义了一套新的术语。这种做法固然有助于新的数据格式从一开始就站上一个新的起点,但也会给应用推广带来难度和阻力,且不符合语义万维网尽可能复用已有本体、词表的理念。

4.2 与FRBR和RDA不完全一致

书目框架并非直接采用FRBR,而是对FRBR进行了简化。作为一种新的书目数据格式,书目框架数据本来应该是RDA编目的直接结果,但目前由于RDA是FRBR模型的实践者,而书目框架简化了这种模型,从而造成书目框架与RDA编目数据不完全一致的现象。

好在这种简化是一种一般化,可以将书目框架看成是一种更大的“容器”,其通过采用一种“领域纲要”的机制来适应特定领域的特殊需求,因此实现FRBR的描述需求完全没有问题,从而也能经过扩展满足FRBR的功能需求。

“领域纲要”看起来是借鉴了DCMI的应用纲要,为书目框架应用于某个领域提供纲领性的指南。领域纲要规定了实体如何继承和分解,复用哪些词表、如何与MARC数据映射等具体问题。如果说书目框架是一栋房子,那么“领域纲要”则是房子里面的支架,用以呼应领域应用的具体需求。如需将FRBR化的书目数据转换成书目框架格式,需要定义“领域纲要”,明确规定FRBR中的WEMI四类实体如何转换成书目框架。如图4所示,“BIBFRAME WEMI Profile”是一个“领域纲要”,将FRBR中的W(Work,作品)、E(Expression,内容表达)定义为书目框架中的“创造性作品”的修饰和限定,M(Manifestation,载体表现)、I(Item,单件)则作为“实例”的修饰和限定,这就是为什么书目框架虽然摒弃了E和M,但仍然能够兼容FRBR的原因。

图4 BIBFRAME与FRBR的映射[20]

4.3 与Schema.org书目扩展的竞争和合作

Schema.org是互联网产业巨头Google、Yahoo、Bing、Yandex共同制定的一套网络资源描述规范,通过在网页中嵌入网络资源的语义描述(RDFa形式),可使语义数据方便地以网页形式发布,并被搜索引擎检索以及进行后续(智能化)处理。

作为关联数据的一种实现方式,Schema.org的崛起迅速引起了OCLC的注意。但Schema.org并不是为图书馆资源而设计,它缺少适用于书目数据的FRBR第一组概念(即WEMI)、无法明确区分内容和载体、缺少对资源集合和连续出版物的定义等,因而不适合直接拿来作为描述图书馆资源的工具,必须进行扩展。于是OCLC的关联数据专家和图书馆技术专家为Schema.org设计了一套用于图书馆的书目扩展,即SchemaBibEX。该扩展包括模型和词表两部分内容,如增加了“OCLCnumber”、“Holding”等馆藏特性元素用于描述物理载体。美国国会图书馆的书目框架计划是在OCLC的SchemaBibEX的模型发布数月后才发布的,二者描述的是同一类资源,存在竞争关系。鉴于国会图书馆的影响力,OCLC立即开始了两者之间兼容和互操作的研究,谋求二者的合作,使其形成相互补充的关系。二者对书目数据描述能力的比较如图5所示。

图5 BIBFRAME和Schema.org对书目数据描述能力的比较[22]

(注:倒立三角形代表Schema.org书目扩展覆盖的广度较大而深度较小,正立三角形代表BIBFRAME覆盖的深度较大而广度较小。)

作为Schema.org的一种领域应用,SchemaBibEX可用于图书馆的语义数据在网上进行发布,因此书目框架也可以采用SchemaBibEX方式来发布,前提是OCLC主导的扩展规范能够兼容书目框架的元素和术语,特别是要解决具有相同或类似语义的元素和术语的处理问题。例如OCLC的扩展中所使用的Work与书目框架的Work容易引起歧义,这种词表之间的相互关系,可以通过建立映射等方式来解决。但由于这两者都还处于应用的早期,许多问题尚未暴露,OCLC与美国国会图书馆之间对于这两种书目格式的合作问题仍然存在许多不确定的因素[21]。

书目框架虽然还处在襁褓之中,但已经展示了其实现图书馆行业有史以来书目控制梦想的潜力。在业界,已有VTLS、ExLibris等公司加入了书目框架应用开发或测试的行列,一些图书馆开始尝试用大数据解决方案管理RDF数据[23]。每半年一次的项目通报会让业界不断看到新的进展,就目前而言,书目框架已经揭开了良好的序幕,展示了美好的前景。但是任何新生事物都是不完美的,面对未知的困难,它能够做到什么程度,目前下结论还为时过早。本文的介绍希望能让大家看到书目框架的巨大潜力和可能性,但要到达彼岸取得成功,还需要更多业界同行的参与、尝试、讨论和不断完善。

注释:

①注:SoLoMo,指Social Local Mobile,即支持移动和本地化的社会化应用,在提供移动服务时能够感知地理位置,从而提供此时此地的个性化服务,同时这种个性化服务又是基于社会性网络的,可以附加很多诸如好友推荐、朋友动态之类的功能。SoLoMo被认为是移动服务的一个趋势。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

一种新的书目数据格式BIBFRAME及其应用_语义分析论文
下载Doc文档

猜你喜欢