英国民族目录学FRBR研究及其启示_聚合数据论文

英国国家书目FRBR化研究及启示,本文主要内容关键词为:英国论文,书目论文,启示论文,国家论文,FRBR论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 FRBR的内涵及FRBR化的缘起

      国际图联(IFLA)于1998年出版《书目记录的功能需求》(Functional Requirements for Bibliographic Records,简称FRBR),2009年2月发布新版。FRBR是一个由IFLA研制的概念上的实体-关系模型,它突破了传统编目中书目记录概念的单一性和平面性,构建了一个以作品为基础的具有层次结构的书目概念模型[1]。但在实践中,由于图书馆几十年积累的书目记录无法快速转换为基于关系结构的符合FRBR模型的书目记录,难以在现有图书馆系统上建立起一个真正意义上的FRBR模型。基于这一背景,联机计算机图书馆中心(Online Computer Library Center,简称OCLC)提出了一个新的理念“FRBR化”(FRB Rization),即以现有书目记录为基础实现FRBR的核心理念。

      1.1 FRBR的内涵

      FRBR概念模型是基于书目实体的关系制定的,提供了一个使书目记录中的数据与用户需求之间产生关联的结构化框架。这个框架定义了书目记录用户所关心的实体、每个实体的属性、实体间发生的各类关系。

      FRBR将书目记录的实体分为三组。第一组包括作品、内容表达、载体表现和单件,是书目记录描述的知识或艺术创作的产品,属于资源。第二组包括个人、团体和家族,是对知识或艺术内容负责的实体,属于责任者。第三组作为知识或艺术创作的主题,包括概念、实物、事件和地点。作品是独特的知识或艺术创作。内容表达是作品的知识或艺术创作得以实现的方式,可以通过字母-数字、文字、声音、图像、音符、动作、物体等形式或这些形式的组合实现。载体表现是作品的一个内容表达的物理体现。单件是载体表现的一个样例或实例。一部作品可以通过一个或多个内容表达实现,一个内容表达可以体现于一个或多个载体表现,一个载体表现又可以以一个或多个单件为代表。FRBR将以往孤立存在的书目记录构建成以作品为核心,相互关联的一组书目记录①。

      1.2 FRBR化的缘起

      图书馆以其独特的MARC格式承载了大量的书目记录,在搜索引擎技术不断改变目录用户查找习惯之际,MARC却因其严谨扁平的架构而难以在网络环境呈现复杂的语义及书目实体的多层次关系[2]。书目记录内容主要针对载体表现层面的描述,欠缺作品和内容表达层面的描述。传统的书目记录不注重记录书目实体之间的关系,对图书馆来说,重新编目是不可能的,但以一种新的理念更为合理地利用现有的书目记录是可能的[3]。

      FRBR提供了一种对书目记录的当下理解。在FRBR背景下,MARC书目记录关注的主要是载体表现实体,但具体的数据字段也包含FRBR模型的其他实体的信息,并且实体之间的关系经常源自MARC记录文本和一些编码字段[4]。所谓FRBR化,即是利用以前的编目记录查找和提取FRBR实体的过程,意味着从现有的MARC书目记录中抽取实体及实体的属性和实体之间的关系[4]。通过对传统书目记录进行比对,把相同特征或规范化过的数据进行聚类,以提前进行索引计算的方式把书目记录整合在一起,达到集中展示书目记录的目的。

      任何FRBR化尝试的出发点都是识别代表一部作品的全部书目记录,然后识别这部作品潜在的内容表达和载体表现。实施FRBR化的最终目的是帮助目录用户获取所有相关资源,这些资源按照作品聚合的形式呈现,使用户能够在海量数据中易于识别和选择资源。

      FRBR和FRBR化之间明显的区别是:FRBR模型中的数据是以关系的方式建立连接,数据中的各项关联已事先建立好;FRBR化则是在事先没有关联的数据中,通过对相关字段建立索引,预先统计出所有需要关联的数据,在用户检索时进行展示。

      如果FRBR最终可以成为图书馆书目记录应用的主流模型,那么FRBR化就是在FRBR成为主流之前的一种用户体验的增强。国外多个成功的FRBR化项目,已验证了图书馆通过改善系统设计实现FRBR化OPAC显示和索引的可能性。下文将以英国国家书目FBBR化为例进行说明。

      2 英国国家书目FRBR化展示服务

      国家书目因为具备相对完整的覆盖面、拥有完整的目录体系,通常涉及数量庞大、存在多个内容表达和载体表现的作品[5]。与此同时,国家书目具有高水平的编目质量和一致性较高的数据。基于国家书目这些特点,引入FRBR概念的优势显而易见。

      英国国家图书馆(也称为大英图书馆)是推行FRBR化展示服务的典范。在其组织领导之下,英国国家书目的FRBR化展示服务较早取得了突破。这一服务尝试将某一文献的多种表示形式、某一文献的不同版本等相关记录聚合在一起,从而实现以易于用户查找和浏览的聚合方式呈现书目记录关系的目标。

      2.1 英国国家书目简介

      英国国家书目收录了自1950年以来在英国和爱尔兰出版发行的新书和连续出版物,涵盖印刷型和电子型两类出版物。2003年之前,英国国家书目主要以印刷型出版物为主。2003年之后,随着电子出版物纳入法定呈缴的范围,国家书目的范围也囊括了电子出版物,包括各类离线出版物(如CD-ROM、DVD-ROM)、在线出版物(如电子图书、电子期刊)和其他非印刷资料(如数据集、网页)。这些出版物由工作人员依据《英美编目条例(第二版)》(Anglo-American Cataloguing Rules,Second Edition,简称AACR2)进行编目,书目记录采用MARC21格式。自2013年起,英国国家书目的编制全面采用《资源描述与检索》(Resource Description and Access,简称RDA),并且每年提前发布约5万条新书在版编目书目(Cataloging in Publication,简称CIP)②。

      英国国家书目记录中的名称形式采用规范文档,其中使用最为广泛的是美国国会图书馆“名称规范合作计划”(Name Authorities Co-operative,简称NACO)的规范文档。其主题标引采用美国国会图书馆主题词表(Library of Congress Subject Headings,简称LCSH),分类标引采用杜威十进分类法(Dewey Decimal Classification,简称DDC)。

      英国国家书目记录的显示项目包括题名、作者、贡献者、主题、出版细节、语种、版本、标识符、物理描述、附注、相关作品、丛编、馆藏、文献类型等,如表1所示。

      

      英国国家书目采用的是Primo系统。Primo是ExLibris公司开发的图书馆统一资源发现与获取门户系统。该系统在资源整合时借鉴了FRBR的作品(Work)的思想,支持FRBR化的展示,当同一文献有多个版本时,默认显示一个版本,同时提供其他版本或分册的查看选项。

      2.2 FRBR化展示情况

      英国国家书目涵盖的文献类型(Material type)包括图书(Books)、期刊(Journals)、报纸(Newspapers)、文本资源(Text Resources)③、地图(Maps)、乐谱(Scores)、论文(Theses)、电影(Moving Image)、研究数据集(Research Dataset)、其他(Other)。与此同时,它将文献类型设置为检索项之一,以图标而非术语的形式进行显示。

      

      英国国家书目FRBR化的书目检索结果与传统的书目检索结果一样都会显示文献类型、题名与责任说明、作者、出版等信息(见表2)。表2中“N相关资源”体现了FRBR化的核心理念,即将同一作品的N条相关书目记录予以聚合,从而改变原有书目记录逐条、割裂的显示方式。比如,用Jane Eyre进行题名检索,某条检索结果的列表下,即夏洛蒂·勃朗特所著的《简·爱》(Jane Eyre/Charlotte Bronte),共有91条书目记录聚合在一起④。对于具有相同题名但作者不同,或者以原著为基础进行改编、改写的作品,都被视为新的作品,这些作品的书目记录与源作品的书目记录不聚合在一起。

      FRBR化的书目聚合效果因文献类型的不同存在差异性。总体而言,图书、期刊、文本资源聚合效果较好,报纸、地图、乐谱等聚合效果相对较差。英国国家书目通过FRBR化实现多样化的聚合类型,下面对这些不同类型进行考察。

      (1)跨文献/多载体类型

      跨文献/多载体类型的书目聚合是指将属于同一作品的不同文献类型或不同载体类型的书目进行聚合。英国国家书目不使用一般资料标识(General Material Designation,简称GMD),对文献类型的划分,较多根据出版类型,而较少根据载体类型。它将纸本书与电子书视为同种文献类型“图书”,纸本期刊与电子期刊也属于同种文献类型“期刊”。根据FRBR第一组实体的划分,跨文献类型可能会涉及同一作品的相同的内容表达,比如将一篇博士论文未作改动出版为一部专著;也可能会涉及同一作品的不同的内容表达,这里不同的内容表达往往是指内容表达的形式发生变化,比如从纸本书转变为有声读物。多载体类型同样可能涉及相同的内容表达,比如从纸本书转变为电子书;也可能涉及不同的内容表达,比如从纸本书转变为有声读物。无论是对跨文献类型还是多载体类型的书目聚合,英国国家书目都只能实现对同一作品的相同内容表达的不同载体表现的书目聚合。

      (2)多语种

      多语种作品涉及从一种语言翻译成另一种语言,因为表达作品的语言的不同而产生不同的内容表达。英国国家书目展示的多语种书目聚合,实现了属于同一作品的不同内容表达的不同载体表现的书目聚合,即实现了内容表达这一层次的书目聚合。它采用分面的方式,将不同语种的书目分别聚合展示。

      (3)多版本/印次

      多版本/印次可能涉及不同内容表达的不同载体表现,也可能涉及同一内容表达的不同载体表现。如果因版本不同而使内容发生变化,属于不同的内容表达;如果只是因为出版机构或出版时间等不同,而内容无变化,则属于同一内容表达的不同载体表现。英国国家书目对于多版本/印次的聚合,选择忽略内容表达这一层次,直接将同一作品的不同载体表现的书目聚合在一起。

      (4)多卷书

      按照FRBR的理解,多卷书属于作品层次中的整体/部分关系。作品的整体/部分关系有两个范畴:从属部分和独立部分[6]。从属部分一般没有可区别的名称/题名,如果不依赖更大作品,一般是很难识别的。独立部分通常有可区别的名称/题名。例如,连续出版物的卷期属于从属部分,丛编中的单行出版物则属于独立部分。如果将多卷书整体视为一个作品,那么多卷书的各个组成部分则又分别构成了不同的作品。因此,对多卷书的书目进行聚合,实则上是属于作品集的聚合。

      英国国家书目FRBR化的聚合类型不包含作品集的聚合,因此对多卷书未作聚合处理。早期书目因为分辑号和分辑题名直接著录在245 $c责任说明子字段,而没有著录在245$n和$p子字段,造成部分多卷书聚合在一起。

      2.3 书目聚合的技术路径

      英国国家书目通过系统提取对用户任务具有高度重要值的实体属性和关系,来实现FRBR化的书目聚合。根据其FRBR化展示情况,并结合大量书目记录调研,本节将着重从数据层面分析英国国家书目FRBR化聚合的技术路径。

      (1)同一作品不同载体表现的书目聚合规则

      作品的识别,主要依据作品的题名,以及作品与第二组实体之间的关系(如责任者与责任说明),即通过题名与责任者相关字段内容的比对与匹配,并辅助于规范文档,将同一作品的书目记录进行聚合。

      就题名而言,首先要区分作品题名与载体表现题名的差异。一部作品往往以不同的题名(形式、语言等有差别)出现,书目机构通常选择其中一个题名作为“统一题名”,统一题名可将具有不同题名的同一作品的各种形式在目录中集中在一起,被视作是作品题名。而我们通常说的题名,往往是指载体表现的题名,即出现于载体表现本身的题名,以及那些为了书目控制的目的而分配给载体表现的题名(如翻译题名)[6]。统一题名对于作品的识别是非常有价值的,如果没有统一题名,记录中使用的其他题名对于识别作品而言是一个不太可靠的来源,因为这些题名反映的都是载体表现的题名。责任说明是指出现于载体表现,对作品的创作或实现负有责任的一个或多个个人或团体名称的说明[6]。

      英国国家书目采用主要款目字段,如果主要款目是统一题名,那么130字段内容相同的所有书目记录会自动聚合在一起;如果主要款目是著者名称,那么会将100/110责任者字段与245/240等题名字段组合匹配,著者和题名组合起来会使属于同一作品的记录聚合在一起;如果无主要款目字段,则采用700/710与245/240等题名字段进行匹配(见表3)。采用主要款目字段容易将基于某作品的改编作品、衍生作品与源作品划分开来,分别进行聚合展示。

      

      (2)同一作品不同内容表达的聚合规则

      英国国家书目除在处理多语种的FRBR化展示之外,基本忽略内容表达层次的书目聚合。FRBR中阐述将相关内容表达汇集在一起的最有效的方法是,把每个内容表达同它所实现的作品联系起来,从而间接地把一部作品的内容表达联系起来。一部作品可能存在许多译本,不是在该作品的单个内容表达之间(即译本与作为译本基础的文本之间)确立直接关系,而是通过把其中的每一个内容表达同作品实体相联系,从而间接地将作品的所有其他文本和译本联系起来[6]。因此,对于多语种作品的不同内容表达的汇集,除语种字段之外,统一题名字段非常重要,统一题名才能够将不同译本与作品相联系。

      同一作品不同语言形式的内容表达的识别和汇集主要是通过008编码字段的语种、041语种代码、240统一题名字段的匹配。英国国家书目中译著的书目记录几乎都有240字段,记录中有041字段就会有240字段,并且240的题名通常会选取原著语种的题名形式。

      3 英国国家书目FRBR化的启示

      英国国家书目FRBR化同样也面临着大多数FRBR化项目已确认的挑战,包括:如何识别现有MARC记录中的作品和内容表达,以及与合适的作品和内容表达相关的个人、团体;如何识别体现于一个载体表现的所有作品和内容表达(如作品集、合订书);如何识别其他的关系(如作品的整体与部分、连续、变化等关系)。这些挑战和经验为中国国家书目FRBR化提供了诸多启示。

      3.1 以FRBR标准和理念实现作品的界定和作品集层次的聚合

      FRBR对作品的界定给出了两个判断标准:第一,当一部作品的知识或艺术内容与另一部作品有显著不同,以至成为一部独立的作品;第二,当一部作品的改编涉及显著程度的独立的知识或艺术创作,被看作是新的作品。但在实践过程中,对于是什么构成了一部作品,以及一部作品与另一部作品之间的分界线在哪里,不同文化、不同机构、不同人员之间的看法可能大相径庭。正如FRBR中所述,作品的概念是抽象的,所以很难确定这个实体的准确界线。比如,改编作品与源作品之间改编程度的界定,多卷书是否算作同一作品等相关问题。对于这些问题,英国国家书目给出了一些参考建议。

      英国国家书目在FRBR化过程中对改编作品的认定标准如下:如果改编者被视为作者,那么改编作品即被视为新作品,其书目便不会与源作品的书目聚合在一起;如果改编者只是被视为贡献者,改编作品的作者依然是源作品的作者,即说明改编程度未达到新作品的标准。在我国当前的编目实践中,对改编作品知识责任的界定不够规范,对作者与贡献者、主要责任者与次要责任者的判断缺乏合理的依据,通常只是按照文献信息源上客观著录的顺序划分主次责任者。除此之外,由于我国文献信息源上多样化的责任方式,并且责任方式的著录也缺乏统一的标准,从而进一步增加了作品界定的难度。这是在未来编目过程中应着重改进的方面之一。

      对于多卷书是否算作同一作品,其实英国国家书目在FRBR化中已给出明确的答案。FRBR认为多卷书的整体与其各卷册之间的关系属于作品与作品之间关系的一种——整体与部分关系。英国国家书目的FRBR化严格遵循了这一标准,未将其聚合。但从用户角度来看,多卷书的书目若能够聚合在一起,是利于其浏览、选择并获取相关资源的。尤其是当各卷册聚合在一起才具有完整的逻辑性(如《资本论》),或时间上有较强的承继性(如年鉴类)时,多卷书聚合在一起是比较有意义的。可以说,多卷书各卷册之间的独立性是一个重要的划分标准。对这一类型的作品,可借鉴FRBR的理念,尝试对作品集作一定程度的聚合处理。

      3.2 以作品层为主内、容表达层为辅的聚合策略

      英国国家书目FRBR化的聚合处理以作品层为主、内容表达层为辅。在对跨文献/多载体类型的聚合处理上,忽略了内容表达形式上的差别,而只针对相同内容表达形式的不同载体表现的书目予以聚合。在对多版本/多印次的聚合处理上,忽略了同一形式但内容文本上存在的差异,也不在内容表达层进行聚合处理。只有在对多语种的书目处理时,做了基于不同语种的内容表达层的聚合。

      英国国家书目实践再次证明了大多数FRBR化项目已总结过的一点:内容表达的识别是一个问题。因此,大多数FRBR化项目选择省略内容表达层面,或仅仅处理基于形式或语言的内容表达的聚合。存在这一问题的原因是多方面的:第一,有些内容表达的差异只有通过对内容表达进行更为详细的分析与比较才会显现出来,很难在基于载体表现的数据中反映出来;第二,许多书目数据库一贯不包含实现一个内容表达的个人或团体的准确信息[6];第三,许多载体表现实际上体现两个或多个内容表达;第四,有些内容表达的差异对用户而言不重要。

      因此,在未来实施中国国家书目FRBR化时,可不必将内容表达层的聚合作为重点,仅需考虑基于语言或形式的内容表达的聚合。目前,编目工作对语种的著录和检索处理已非常规范,所以基于语言的内容表达的聚合已能够实现。但对内容表达形式的描述和检索还缺乏统一规范化的处理,这是未来需要突破的部分。

      3.3 采用规范文档保证书目聚合的技术可行性

      英国国家书目普遍采用规范文档,规范控制范围涉及个人、团体、题名、主题。引入规范文档,可以辨识在文献中以不同名称形式和不同语种出现的责任者和题名,为聚合同一作品的书目记录创造良好的条件。英国国家书目聚合的技术路径也表明,统一题名对于作品的识别非常重要。但是要确认是否属于同一作品,单靠题名信息显然不够的,还需要责任者名称。

      目前,我国大多数编目机构采用的责任者名称通常是照录文献信息源上的形式。名称规范工作不普及,编目中缺乏足以信赖的名称规范文档。另外,面对出版中同作异名、翻译中同名异译的普遍现象,编目中针对这些作品却较少采用统一题名字段,也不重视题名规范。因此,为保证书目聚合在技术上具有可行性,需要改进现有规范工作,扩大规范控制范围。

      ①也可能是书目记录中各元素之间存在的关联关系

      ②参见http://www.bl.uk/bibliographic/natbib.html

      ③文本资源属于连续出版物,主要指活页出版物

      ④http://search.hl.uk/primo_library/libweb/action/search.do?dscnt=0&frbg=&scp.scps=scope%3A%28BNB%29&tah=local_tab&dstmp=1406214415787&srt=rank&ct=search&mode=Basic&dum=true&indx=31&vl(freeText0)=Jane%20Eyre&vid=BLBNB&fn=search

标签:;  ;  ;  

英国民族目录学FRBR研究及其启示_聚合数据论文
下载Doc文档

猜你喜欢