书目格式的过去与未来:从MARC到BIBFRAME_实体关系图论文

书目格式的过去与未来——从MARC到BIBFRAME研究,本文主要内容关键词为:书目论文,未来论文,格式论文,BIBFRAME论文,MARC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       DOI:10.13663/j.cnki.lj.2015.05.004

       1 从MARC到BIBFRAME的发展

       随着计算机技术的发展及应用,美国国会图书馆于1966年研发了MARC(机读目录,Machine-Readable Catalog)格式,其在图书馆数据存储、保管、交换等方面发挥着重要作用。在40多年的发展过程中,虽然MARC在不断地完善自己,但是随着网络环境、技术进步、新标准的应用,MARC在结构和语义表达方面的不足日渐明显。

       2002年Tennant认为“MARC必须死”,设想以FRBR为出发点、由LC和OCLC这样的机构承担重新设计编码标准[1]。随着语义网技术的发展,近年对MARC这一图书馆专用标准,质疑声越来越大。2008年美国国会图书馆“书目控制未来工作组”在考察图书馆未来书目发展技术时,认为MARC格式已经跟不上时代发展,呼吁新格式的诞生,这种新的数据格式能够兼容和区分不同的元数据形式(如专家生成、自动生成或者用户生成),同时这种元数据也可以包含注释信息(如综述、评论)和数据使用信息[2]。在国内图书馆领域,2007-2008年期间也曾掀起一波“让MARC安乐死”的讨论高潮,2008年在浙江大学图书馆召开的LIB2.0会议上,以Keven为代表的“技术酒徒”与以竹帛斋为代表的“人文烟鬼”以“让MARC安乐死”为主题进行一次辩论,“技术酒徒”认为“MARC安乐死”,“人文烟鬼”要求“MARC速死”,无论是“安乐死”还是“速死”,都说明了“MARC即将灭亡”的言论。RDA是一种为关联数据而生的新的文献资源内容编目规则,2011年6月发布的RDA测试报告认为MARC结构阻碍了元素分隔及在关联数据环境中使用URL的能力,MARC被视为发挥RDA优势的障碍,建议采用新的数据格式取代MARC[3]。

       近年图书情报领域掀起的大规模关联数据活动,对“书目框架转换活动”(Bibliographic Framework Initiative)起到推波助澜的作用。为了迎合图书馆领域未来的发展要求,2011年5月美国国会图书馆发起“书目框架转换活动”,该活动主要是确定MARC21交换格式向更多基于Web的关联数据标准转换路径[4]。由Zepheira和美国国会图书馆联合开发关联数据模型、词汇及应用工具/服务支撑这一活动。BIBFRAME(Bibliographic Framework,书目框架)是由以上两家单位联合开发的关联书目数据模型,BIBFRAME的诞生将为未来网络世界书目描述带来如下改变[5]:

       (1)明确区分概念内容和物理载体表现(如作品和实例);

       (2)明确关注标识信息的实体(如规范);

       (3)揭示和展示实体间及实体内部的关系。

       BIBFRAME为图书馆的长远发展,谋求一种新的书目框架环境,使图书馆成为“网络中心”并且普遍关联。为创建这一新的书目环境,在创建BIBFRAME模型时考虑到以下几点要求[6]:

       (1)广泛的兼容内容规则和数据模型(如:RDA,DACS,CCO等);

       (2)支持或兼容与书目描述有逻辑关系的数据类型(如馆藏、规范、分类、版权等);

       (3)文本数据与取代文本采用URI标识的关联数据并存;

       (4)考虑到不同类型及规模图书馆的需求;

       (5)继续维护MARC直至不再需要;

       (6)与基于MARC的记录兼容;

       (7)提供由MARC21向新书目环境转换的途径。

       目前遵循MARC格式产生的书目描述是基于记录的,每条记录整合了作品概念和物理载体信息,利用字符串标识,书目记录独立理解。BIBFRAME模型创建了明确标识的实体,使用机器可理解的标识,不仅能区分概念作品和作品表现的详细物理载体信息(如页码、图),而且能明确识别资源创作者(作者,出版者)和与资源相关概念(主题)的实体。换言之,BIBFRAME是基于陈述的而不是记录的,目的是投身Web,实现任意的混搭,这符合当前的数据实践,特别是整合至Web(关于BIBFRAME与MARC的更多区别详见表1)。

      

       2 基于关联数据的书目数据模型BIBFRAME

       2.1 BIBFRAME的实体组成及关联关系

       在网络世界能以一种方式引用图书馆数据是很有必要的,不仅能区分概念作品和作品表现的详细物理载体信息,而且能明确识别资源创作者和与资源相关概念的实体。传统图书馆通行的做法是整合概念作品和物理载体信息,利用字符串进行标识,集中创建编目记录,并且编目记录独立理解。前文讲过BIBFRAME模型与MARC最大的区别是创建明确标识的实体,使用与机器友好的标识,使机器能够理解和处理这些实体。那么BIBFRAME模型包含哪些实体呢?实体间关系如何呢?BIBFRAME模型考察了以往的关联数据的成功案例,从中吸取建模经验,设计含有4类实体的模型,即:

       创作性作品(Creative Work):反映编目资源概念实质的资源,不同于FRBR/RDA中作品,相当于其实体中作品(Work)和内容表达(Expression)。

       实例(Instance):反映作品的个例的物理载体表现的资源,相当于FRBR/RDA中载体表现,一个作品可以对应多个实例,但一个实例只能对应一个作品,而且每个实例都用URI标识。

       规范(Authority):反映关键规范概念的资源,这种关键概念定义了作品和实例所反映的关系,提供一个轻量级的抽象层,使Web级的规范控制更为有效。规范资源包括:人物、地点、主题、机构等。2014年3月BIBFRAME规范草案发布,草案中bf:Authority(规范)类包含以下几个子类:bf:Agent(代理)、bf:Person(人物)、bf:Family(家庭)、bf:Organization(机构)、bf:Place(地点)、bf:Topic(论题)等[7]。

       注释(Annotation):提供更多关于BIBFRAME作品、实例或规范的描述信息。可以为作品提供评论、目录、摘要等信息,可以为实例提供封面、馆藏等信息,可以为名称规范提供作者的传记信息等,此外,还可提供管理性元数据,如,提供MARC记录040字段中的著录/转录机构的信息。已发布的注释模型草案提供4个核心类,即:bf:Cover Art(封面),bf:Holding(馆藏),bf:Review(评论),bf:Description(描述),其中bf:Description还有3个子属性,即:bf:Summary(概述);bf:Abstract(摘要);bf:Table Of Contents(目录)[8]。

       BIBFRAME模型通过属性特征区分不同实体,通过实体的属性关系各个实体又相互关联。如图1所示,出版地和出版者是“实例”的属性,而通过“出版地”、“出版者”属性可以与实体“规范”产生关联;如前文所述,“注释”是对其他核心类元素的补充,可以为“作品”提供“评论”、“目录”、“摘要”等信息,可以为“实例”提供“封面”、“馆藏”等信息,可以为“名称规范”提供“作者”的传记信息等,通过注释信息可以与“作品”、“实例”、“规范”产生关联关系;“作品”与“作品”之间也存在各种关系,如整体与部分关系、继承关系等;“作品”与“规范”之间通过“主题”、“作者”属性产生关联,可以说,各个实体之间通过“属性(类)”形成一个相互关联的实体描述组。

      

       图1 BIBFRAME实体关系图

       2.2 BIBFRAME词汇

       BIBFRAME词汇是描述资源的关键,同MARC定义一套描述资源的元数据和属性一样,BIBFRAME利用关联数据模型,定义了一套由RDF类、属性及其关系组成的词汇。RDF的类是一种实体类型,属性是实体间关系的纽带,也是单个类的属性。2014年初,Bibframe官网提供了词汇的三种展现方式,即模型视图、分类视图和清单视图[9]。

       (1)分类视图

       分类视图类似于传统文献编目著录规则的八大项(题名责任者、出版发行、载体形态等),BIBFRAME模型和词汇考虑到BIBFRAME编目资源一般指所描述的作品或者实例,编目资源的作品对应的不同的实例(如物理载体或电子载体),再者,描述作品的元数据是由统一规范题名和主题等组成的书目记录,因此,每个目录资源可能要包含作品描述、一个或者多个实例描述。分类视图从不同方面按照较为宽泛的目录如题名、标识、关系等归纳所有属性,共归纳了11个类目266个属性(详见表2)。

       (2)模型视图

       模型视图是按照BIBFRAME模型的创作性作品、实例、规范和注释4大类列出对应的属性及各自的子类型(type),此外,资源本身作为一个类,包含15个子类型(详见表3)。

       (3)清单视图

       清单视图较为直接地列出了52个类、273个属性。每个类包含bf命名空间元素名、描述(定义)、标签、上位类等信息。每个属性包含bf命名空间元素名、描述(定义)、标签、类型、上位属性、域(BF类)、范围(命名空间取值)等信息。详细的类及属性参见表2及表3。

      

      

       2.3 RDA与BIBFRAME

       RDA与BIBFRAME同为关联数据而生,是书目数据成为Web数据的切入点。RDA是一种新的编目内容标准,规定了文献编目工作的著录内容,不是编码标准。RDA独立于任何编码格式(如:UNIMARC,MARC,MARCXML等)。在RDA发布的测试报告中认为MARC结构阻碍了元素分隔以及在关联数据环境中使用URL的能力,从而阻碍了RDA优势的发挥,建议采用新的数据格式取代MARC。从编码格式上看,BIBFRAME意在取代MARC成为语义网应用中新的书目数据编码格式。从模型上看,RDA基于FRBR/FRAD,实体为WIMI(作品、内容表达、载体表现和单件),BIBFRAME实体为WIAA(作品、实例、规范、注释)。BIBFRAME模型中的作品不同于FRBR/RDA中作品,其相当于FRBR/RDA实体中作品和内容表现。BIBFRAME的实例相当于FRBR/RDA中载体表现及单件。从元素上看,BIBFRAME诞生之时就申明广泛适应内容规则和数据模型,因此,BIBFRAME在创建词汇时参考了RDA词汇集。从发展程度上看,BIBFRAME处于起步阶段,模型、词汇、复用等问题仍有诸多有待改善的地方,RDA Toolkit也一直在不断完善中,无论如何RDA与BIBFRAME目的是一致的,探索如何将图书馆的数据发布成关联数据形式,成为Web数据,帮助用户发现更多潜在资源。

       3 BIBFRAME映射转换及测试

       3.1 MARC21与BIBFRAME之间映射

       MARC21和BIBFRAME都有各自的概念模型,MARC21将不同的标目聚集成记录,成为表达语义关系和附注的抽象概念模型,类似的BIBFRAME词汇主要以作品、规范等实体、属性及关系构成,每个词汇都有标签和说明,并且还能描述与其他实体概念间的语义关系。此外,每条MARC记录001字段都唯一的标识一条MARC记录,其唯一性和成为BIBFRAME需要URI标识实例的最好候选。BIBFRAME虽然即将取代MARC,但MARC作为一种最早的元数据方案,在内容描述的元素集上仍有诸多可借鉴的内容。正如2011年7月Karen Coyle在Will RDA Kill MARC?所中说“我们虽然不能挽救MARC,但是我们可以保存其内容”[10]。2010年胡小菁,李恺在《MARC四十年的发展及其未来》中也讲到“MARC中所抽象出来的这套元数据元素集,作为数据结构标准,仍将长存于书目世界中”[11]。MARC21字段中本身含有规范、内容及载体表现等描述,相应地,BIBFRAME词汇中也含有大量的对应属性元素,这使得MARC21直接映射到BIBFRAME词汇成为一种可能。

      

       图2 MARC记录实体、属性的识别[12]

       “书目框架转换活动”的重点之一是确定MARC21格式向BIBFRAME转换的路径。MARC21转换成关联数据模型关键在于拆解和重构组成MARC数据的信息成分。根据书目记录的功能需求,在拆解MARC的信息成分时,抽取书目信息中标识实体、属性及关系的元素(如图2所示),再按照BIBFRAME模型的实体、属性及关系重构书目数据信息。本文笔者根据现行的BIBFRAM测试,建立以图书期刊为主体的MARC21与BIBFRAME词汇映射表(详见表4)。

      

       MARC21与BIBFRAME的映射还存在一些需要进一步考虑的问题,比如如何从530字段(其他载体形态附注)、533字段(复制品附注)、534字段(原版附注)等字段信息中创建或者关联更多的“作品”,505字段(格式化内容附注)组成部分和物理载体是否分开等一系列问题,随着BIBFRAME的应用实施,这些问题可能会在实践中得到合理的解决。

       3.2 BIBFRAME的测试及支撑工具

       BIBFRAME测试的目的在于监测实施进度,发现BIBFRAME模型和词汇在实施过程中存在的不足,为BIBFRAME词汇及工具的研发提供更好的平台。参与BIBFRAME模型早期实验的机构有英国国家图书馆、德国国家图书馆、美国国立医学图书馆、OCLC等7家单位。2013年年6月OCLC发表了《BIBFRAME和OCLC书目描述关联数据模型的关系》工作报告[13],报告提到为BIBFRAME模型与Schema.org之间建立映射,映射的目标是更好地使用Schema.org这个流行的网络本体标记图书馆的数据,并且本着“最小致力原则”,尽可能避免制定额外的图书馆词汇表。2013年举办的BIBFRAME更新论坛上,VTLS公司的CEOVinodChachra介绍了该公司对BIBFRAME研发的最新进展,该公司的产品目前能够同时支持MARC和BIBFRAME/XML等不同模型/结构。在此次BIBFRAME更新论坛上,科罗拉多学院(Colorado College)图书馆介绍了其开发的BIBFRAME Redis数据仓库对BIBFRAME所进行的实验,该数据仓库已被开源发表了Github网站上[14]。纵观应用BIBFRAME进行的转换测试,目前发布的测试样本,包含普通图书、地图、文集、缩微品等资源类型。测试的结果采用Exhibit3.0(是大规模丰富数据交互网页的发布框架)发布,显示类似于分面OPAC,左侧提供作者、主题、载体类型、分面限定项等。

       目前,BIBFRAME测试服务提供2类分析评估MARC书目数据采用BIBFRAME模型应用情景的支持服务/工具[15],即:①比较服务:针对LC的MARC记录,只要输入001字段值或LCCN号,可以显示MARC/XML记录和BIBFRAME RDF/XML记录;②转换服务:提交MARC/XML记录(联机网址或直接粘贴文本),转换结果经Exhibit发布,以BIBFRAME方式呈现,并且转换结果可下载。

       4 小结

       BIBFRAME遵循关联数据的原则及相关机制,以RDF作为数据模型的基础,目的是从长远发展为图书馆谋求新的书目环境,使得图书馆成为“数据的网络中心”并且彼此内在关联。BIBFRAMRE的突破进展,奠定了关联数据将成为图书馆数据的基本存在形式,成为未来书目控制的基础。BIBFRAMRE将会对ILS/LSP产生深远的影响,改变过去一切业务和服务的展开皆围绕以MARC数据为核心的格局,同时数据的描述粒度由原来的记录细化为陈述。在未来的ILS中嵌入各种Web化的元素集、词汇、取值表及各种规范资源(如VIAF等),根据功能需要可以实现任意混搭,实现自动或者半自动编目。关联数据背景下,面对文献资源内容编目规则及书目框架的变革,一方面,图书馆应高度重视,及早确定开放的数据内容,解决数据开放服务权利问题;另一方面,要积极制定各种标准规范,早日开发系统,应用实施,开放服务。

标签:;  ;  ;  

书目格式的过去与未来:从MARC到BIBFRAME_实体关系图论文
下载Doc文档

猜你喜欢