FRBR在信息组织深度排序中的应用分析_实体关系图论文

FRBR在信息组织深度序化中的应用分析,本文主要内容关键词为:深度论文,组织论文,信息论文,FRBR论文,序化中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250

1 信息组织的深度序化

信息组织的目标是将杂乱无章的信息组织成一个有序的集合体,满足用户检索信息资源的各种需求,从而达到获取信息资源的目的。常见的信息组织方法主要有:

(1)元数据法:通过元数据对信息资源的外在特征进行揭示,并赋予检索标识,按检索点(标目)形成索引,实现基于检索点的有序化;

(2)知识法(分类主题法):依据内容特征进行序化,按知识组织工具所构建的知识结构进行信息的组织;

(3)关系法:以资源间的关系为序化条件,如引文链接法等,按资源间的联系进行组织,达到序化的目的。

不同的信息组织方法所应用的目的和实施的范围不同,但一般都存在以下不足:

(1)局限于单一或特定的信息实体,不注重区分信息实体的不同层次及其关系,割裂了信息单元间特有的关联关系;

(2)限定于固定和表面化的信息形式,忽略了数字环境下的信息形式、形态的多元化、动态性和衍生性等特点。

从目前的信息组织方法来看;还缺少以信息对象的形态特征和不同实体关系为条件的序化手段,特别是对于不同层次、不同颗粒度的信息实体的深度整序还缺少有效的组织模型。从影响来看,首先,对信息实体关系、形态特征如不能加以组织和序化,会间接加剧信息的无序化程度;其次,会影响现有信息组织方法发挥应有效能[1]。

近年来,出现了一些信息组织深度序化方面的理论和实践探索,FRBR是其中颇有影响的思想和理论。书目记录的功能需求(Functional Requirements of Bibliographic Records,FRBR)由IFLA在1997年出版的研究报告中提出,它对书目记录描述的对象在整个生命周期过程中不同阶段的不同实体类型进行了详细的分析,为这些资源的描述、定位提供了思考框架。FRBR应用实体—关系模型(E-R Model)来构建概念框架,将书目记录涉及的实体分成三组:

(1)第一组是通过智慧和艺术创作的产品,包括作品(Work,一种特有的智慧和艺术的创作,抽象的实体)、内容表达(Expression,通过数字、音乐、声音、图像、动作或这些形式的组合对智慧或艺术作品的实现)、载体表现(Manifestation,通过物理介质实体化内容表达的实体)和单件(Item,载体表现的实例或个体)。

(2)第二组是对智慧和艺术创作产品负责任的个人和团体,这些个人和团体与第一组中的实体间存在着各种角色关系。

(3)第三组实体是产品的主题内容,包括概念、实物、事件、地点、第一组和第二组实体本身等。

后面二者是FRBR延伸项目FRANAR(Functional Requirements And Numbering of Authority Records)探讨的核心内容。FRBR的书目模型包括实体、属性、实体间关系、实体及其属性与用户任务的映射关系以及基于FRBR模型的国家级书目记录的基本需求。FRBR一经问世,在图书馆界引起了巨大的反响和世界范围内的普遍关注,更被期许为颠覆性的创新之作,不仅带动了规范数据的功能需求(FRAD)、主题规范记录的功能需求(FRSAR)概念模型的产生,更是推动了《国际编目原则声明》、RDA、OPAC 2.0等图书馆多个领域的变革[2,3]。

FRBR的概念模型如图1所示。从信息组织的角度来看,FRBR区分了不同的书目实体及属性特征,打破了传统书目组织模型的单一性和平面性,为数字环境下基于信息形式与形态,组织不同层次和不同颗粒度的信息资源提供了前提基础。此外,FRBR明确将实体间关系、实体及其属性关系及与用户任务之间的映射关系作为描述和表达的对象,以结构化的方式,构建实体间的网络关系(层次关系和横向连接),实现了以信息对象的形态关系为条件的序化,为实现基于信息对象关系的集中、区分和导航提供了基础[4]。近年来,FRBR日益从理论研究走向实际应用,本文仅从信息组织的角度,通过信息的组织与描述两个方面,对相关软件系统的设计思想、理念和实现方法进行分析与介绍。

图1 FRBR的概念模型[3]

2 FRBR在信息组织中的应用分析

2.1 OPAC系统基于FRBR的分层组织

FRBR应用于OPAC系统,主要是基于FRBR第一组实体的4个层次,对其中的书目部分,按作品—内容表达—载体表达三个层次或简化的作品—内容表达两个层次进行了区分和层次关系构建(由于第4层为馆藏信息部分,在一般的软件系统中已实现分层构建,不列为书目区分的范围)。如图2所示,基于FRBR的OPAC系统往往以作品为聚合点,提供作品的不同版本和译本形式,以树状或类树状结构进行区分,按作品进行集中和浏览,并关联相关作品与主题,从而对资源及其关系进行清晰的揭示。同时,在各层或各种版本的描述中,提供相应的细节信息,减少了困扰用户的不同版本信息数量,方便用户辨识与选择所需的作品单件[5]。

AquaBrowser Library是基于FRBR进行信息组织的通用OPAC系统,由Medialab Solutions公司开发。如图3所示,检索词为书名等于“fromage”,众多的检索结果中按作品集中,显示该作品由荷兰著名作家Willem Elsschot创作,“1967年至2008年,共计9种语言40个版本”,在该作品之下形成内容表达组,将多种内容表达形式进行集中并提供导航链接,可详细浏览这40个版本或译本信息,在每一个版本或译本,即内容表达之下,又按载体进行了区分并进一步提供基于语言、出版地、出版年等多个因素的分面信息供进一步筛选,从而对信息对象的各种形式形态进行了清晰的展示与有序的组织。

图2 《哈利波特与火焰杯》的分层与相关组织示意图[6]

图3 AquaBrowser Library基于FRBR的信息组织 AquaBrowser Library的FRBR实现方法主要是建立FRBR work key,FRBR words和FRBR link三个值,封装于每一条书目记录的XML文件中,由系统依据这三个值,按作品、内容表达和形式表达进行区分、集中和层次组织,如图4所示。FRBR work key是作品的区分和集中键,每条书目从MARC字段中按一定的算法生成一个FRBR work key,具有相同的FRBR work key的书目视为同一作品。FRBR words是同一作品的各种题名连接而成的字符串,即以同一作品的任何题名都是该字符串的子集,主要用于检索和定位到某一作品。例如De ontdekking van hemel Die Entdeckung des Himmels El descubrimiento del cielo The discovery of heaven La découverte du ciel scoperta Odkrycie nieba,将The discovery of heaven一书的各语种题名都联结在一起,用于内容表达的检索。FRBR link用于存放与作品有关的信息,用于联结相关作品。形式表达则通过抽取MARC中的相关属性值进行分面浏览[7]。

图4 AquaBrowser Library的FRBR实现方法[7]

2.2 FRBR分层组织的核心算法

基于FRBR的OPAC以作品汇聚为起点,作品区分的FRBR值来自于MARC记录,按一定的内容和规则生成,其算法为FRBR分层组织实现的核心。一般来说,FRBR值由题名和责任者组成,即题名和责任者相同的数据记录视为同一作品,而具体题名和责任者的取值、顺序和条件在各个OPAC系统和工具中不尽相同。

以AquaBrowser Library的算法来看,责任者取自主要款目责任者,包括个人名称或团体名称;题名的优先提取顺序分别为统一题名(主要款目),统一题名(附加款目)和题名,即依次为MARC的130、240、534、730和245字段,系统允许用户进行设置,如比利时国家图书馆所使用的算法如下[8]:

FRBR Display Tool是美国国会图书馆2001年公开发布的一个FRBR显示工具,其算法与AquaBrowser Library类似,FRBR值由责任者和题名组成,但在题名的选取内容和顺序上有所不同。其中

OCLC从2001年就开始致力于FRBR及其应用研究,其所公布的FRBR Work-Set Algorithm用于聚合和区分作品及内容版本,在OCLC许多后续的研究和实验项目中得到了应用。与上述算法不同的是,OCLC的算法引入了规范文档,利用美国国会图书馆的名称规范建立原始的规范信息键,再抽取书目记录中的“著者”和“著者/题名”与规范信息键进行匹配后,建立作品集信息键标识[10]。

3 FRBR在信息描述中的应用分析

FRBR在信息描述中的应用主要通过FRBR编目实现,依据FRBR的数据模型,在编目过程中构建不同信息对象的层次和形态的关联关系,描述其在不同层次上的信息内容,包括形式、形态、载体等的变化与区分,达到有效组织馆藏和信息资源的目的;同时,对于编目工作本身,可以提高查重的准确率,简化编目流程,通过不同层次的继承编目,能够减少重复劳动。

3.1 Portia公司的VisualCat

VisualCat是丹麦Portia公司的编目客户端产品,其FRBR编目是基于实体关系的编目,具有以下特点:

(1)以构建实体关系为主,确定编目对象在作品—内容表达—载体表达—实物层次结构中的位置,如图5所示,《The English Patient》一书及相关译本、版本,在VisualCat中的著录过程是在相应的作品层、内容表达层,填充其题名、作者等相关属性的值;

图5 FRBR编目界面[11]

(2)基于FRBR的编目是一种面向对象的编目,能通过属性的继承保持著录的规范性和规则的一致性;

(3)与传统编目相比,下一层次的信息可继承上层对象,减少信息的重复录入。

构建和填充完成FRBR关系及相关对象的属性值后,可以基于对象的属性及关系进行检索或浏览。如图6所示,选择人物(Person)作为对象进行检索,以Person的属性—人物名称等于Hansen、Hans进行检索,检索结果显示属性名称及其值,并显示两个对象关系,第一个关系以Hansen、Hans为责任者的对象(见图中113),第二个是以Hansen、Hans为主题的对象(见图中183),选择第一个关系,显示其相关对象,即Hansen、Hans所创作的相关文献。

图6 基于FRBR对象的检索过程[12]

从实现上来看,VisualCat的FRBR编目是基于RDF的资源描述实现的。RDF是网络资源对象及其间关系的数据模型,形如“主体—谓词—客体”的三元组非常适宜表达FRBR的实体关系和属性特征。RDF对资源的描述就是对资源的特性及值进行声明,当特性值也是资源时,该特性表明两个资源间的关系。如图7所示,Author、Subject、Person等属性的内容为文字,而Adaptation、Translation等属性的值为资源,从而建立起资源之间的关系,如小说作品与电影作品之间的改编关系,小说不同译本、版本的内容实现关系,小说不同载体的物理表达关系等。VisualCat定义了FRBR的RDF Schema,相关的RDF结构从MARC数据中自动生成,RDF数据可以透明地联结和浏览相关的MARC记录[11-13]。

图7 FRBR的RDF表达[14]

3.2 Virtua图书馆管理系统

Virtua是美国VTLS公司推出的图书馆管理系统,全面支持基于FRBR的编目、流通及OPAC公共查询。Virtua是基于MARC的数据系统,通过常规记录与FRBR记录的映射,实现对FRBR的支持。其软件设计主要考虑和解决了以下几个关键问题。

(1)FRBR实现方式的选择。一般有两种方式:在系统内实际存储FRBR记录;存储常规记录,通过显示阶段的FRBR化来实现。

实际上,书目记录一旦完成编目,会被多次检索和显示,因此在显示和检索阶段实现FRBR化,效率比较低。另外,馆藏记录本身很容易实现FRBR化,而对作品—内容表达—载体表达进行区分后,其相应书目记录的存储逻辑更加清晰,编日本身也会更加简单和易于理解。因此,在Virtua编目客户端采取的是实际存储FRBR记录的实现方式。

(2)所有记录是否全部FRBR化。Virtua采取的是混合式存储,通过VTLS公司和OCLC的研究表明,约有18%的书目记录具有FRBR的多层次情况,大多数书目记录为单一层次的数据,因此没必要将全部记录FRBR化,而纯FRBR记录虽然更容易实现显示,但需要更多地实现转换。此外,混合记录的实现成本低,可以逐步实现,而不影响整个系统的运转,而且混合记录能支持选择性实现FRBR化。

(3)基于FRBR的编目软件应具备的具体功能。Virtua所设计的功能包括:

①转换功能:可以将各种格式的书目记录转换为FRBR记录;

②关联功能:可以自动实现作品—内容表达—载体表达不同层次记录的关联;

③校验功能:基于情景敏感,校验作品—内容表达—载体表达的层次关系;

④复制功能:可以将整个FRBR树进行复制;

⑤分析功能:能对FRBR记录不同层次的候选数据进行筛选;

⑥批处理功能:对全部记录进行FRBR化处理;

⑦纠错功能:实现对非FRBR记录的重新归类或纠错。

一般的FRBR软件对于图书,特别是文学作品或社科类的多版本、多译本情况,有比较好的支持;而对于连续性出版物的编目如何基于FRBR实现,则往往不太重视或缺少解决方法。Virtua通过引入Super Work的概念,能够在一定程度上揭示连续性出版物的动态性和衍生性。Super Work是Work的上级层次,是一个整体概念,可以是实体或逻辑概念,如全集、多卷书、会议录合集或多次演变的一个期刊品种等。一个Super Work包括一个或多个Work,每一个Work是集合概念中的每一个子作品。例如,Atlantic Monthly一刊,自1857-1993年有5次刊名变化,同时有多次的出版者、出版周期、ISSN等的变化并有不同的载体形式,以致在OCLC的数据库中共有11条MARC记录,但记录间的关系、期刊的整个变化过程和全部记录的期刊品种信息都无法体现。

在Virtua软件中,5个刊名及其相应的记录组成一个Atlantic Monthly的集合期刊,代表这个刊的家族或品种信息,如图8所示的树状结构的顶层。其中,5个刊名记录即作品层分别记录了该刊在不同时间阶段的信息,并通过MARC记录的连接字段揭示了各个刊名之间的继承或被继承关系。在每个刊名作品的内容表达层记录了出版周期等的变化及语种的详细信息,而在载体表达层则记录了出版地变化及不同载体形式,如印本、缩微本的区分,全部11条记录的编目,得到了非常清晰的结构关系组织和变化过程描述[15,16]。

图8 Virtua的FRBR编目界面[15,16]

4 结语

FRBR为信息组织的深度序化提供了新的思路,在其应用与实现方面,FRBR的本体化,FRBR与关联数据、知识组织工具的整合等,将为信息组织的深度序化、知识化整序提供最佳实践和理论参考,值得进一步关注与研究。

收稿日期:2009-08-26

收修改稿日期:2009-09-07

标签:;  ;  

FRBR在信息组织深度排序中的应用分析_实体关系图论文
下载Doc文档

猜你喜欢