网络信息资源披露研究进展_数字图书馆论文

网络信息资源披露研究进展_数字图书馆论文

网络信息资源揭示研究进展,本文主要内容关键词为:研究进展论文,信息资源论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络信息资源的揭示与描述是值得研究的新课题,这方面研究主要集中在以机读目录格式和以元数据(Metadata)方式揭示与描述网络信息资源。

1 以机读目录格式揭示网络信息资源

1.1 采用MARC与AACR的原因

MARC是用于描述、存储、交换、控制和检索的机读书目数据的标准,许多图书馆界人士主张以MARC格式来描述网络信息资源。Vianne T.Sha提出的理由是:①标准的信息交换格式;②适用不同的描述层次;③弹性的呈现格式;④多种检索点;⑤完整的书目描述;⑥能够将不同的资源整合在一个目录中,便于读者从一个目录检索不同的信息资源;⑦图书馆有义务对网络资源进行编目,以便读者到图书馆中检索、利用网络资源〔1〕。

高柳宾认为USMARC、AACR(Anglo-American Cataloguing Rules)用于网上资源的组织的优势是:①是各界历经多年不断修改、完善与合作结果极具严密性和科学性。②其著录格式严格遵循AACR2的有关规定,尤其是对检索点的选取原则,具有统一性,利于资源的交换,另外,信息经过编目员过滤和筛选,其可靠性、完全性和精确性得到保证;③允许对信息内容进行分析,从而强有力地支持检索和描述;④规范档可以成功地支持检索;⑤数据结构严密;⑥它是一个普通的元数据标准;⑦能最好地与现有书目数据库的兼容〔2〕。

另外,AACR是理论和实践不断探索的结晶。作为网上展示和组织信息的标准,可促进网上资源描述格式统一,增强相容性。

1.2 MARC格式的修改

由于网络资源特征(格式的多样化、易变性、易于复制性),检索方式及使用环境的描述需要,网络信息资源的揭示有其不同于传统文献之处,有必要对MARC格式进行修改与完善。其修改主要在以下几方面:

(1)采用5-字段 为了提高对网络资源格式的标识能力并满足用户的检索需求,采用5-字段记录网络信息资源的格式。如用500,520字段分别记录一般附注和摘要附注,516字段反映计算机文件类型或数据注释等。538字段用于指定所需的特定程序或程序的类型等。

(2)采用856字段 这是网络信息资源编目所特有的字段“电子定位与存取”字段,专门用于记载网络信息资源定位与存取方式的字段。它是连接因特网资源与图书馆OPAC书目的一座桥梁。

1.3 网络信息资源编目项目

到目前为止,我国图书馆还没有对网上资源进行编目。西安交通大学图书馆借鉴国外经验,为引进的国外全文数据库中的电子进行编目,并将MARC记录纳入OPAC系统,实现电子期刊在OPAC中的链接〔3〕。国外图书馆界已进行多项此类研究和试验,如OCLC(Online Computer Library Center)主持的网上资源编目项目有〔4-5〕:

(1)因特网编目(Intercat,1991-1992年):为了检验USMARC/AACR对网上资源编目的适应性,OCLC主持的第一个因特网资源编目项目,得出的结论是:①MARC/AACR能够运用于网上编目;②需要一种将书目记录与被著录资源链接起来的方法;③应该提供因特网资源编目的相关资料。

(2)建立通过因特网可存取资料的目录(Building a Catalog of Internet-Accessible Materials,1994-1996年):为了更好地解决1991-1992年计划中发现的问题,OCLC再次推出了第二个因特网编目项目。约有500个OCLC成员馆联合编制了16000条因特网资源的编目记录。

1993年4月,OCLC、国会图书馆、MARBI(书目信息机读格式)等联合发起一项建议,提出修改US-MARC书目格式,建议中包括建立MARC字段856字段“电子定位与存取”(Electronic Location and Access)。另外,《因特网编目:手册和实践指南》(Cataloging Internet Resources:A Manual and Practical Guide)〔6〕可给编目员进行因特网资源编目提供详尽的参考。

(3)联机资源合作目录(Cooperative Online Re-sources Catalog,简称CORC)〔7-8〕:CORC是一个基于WWW的最优化元数据生成系统,用于为电子资源编制书目记录和主题指南。其价值在于:快速而灵活的记录生成;点击一下即可完成规范控制;革新和灵活的工作流程;主题指南的动态生成;更加容易的链接检查等。

2 以元数据(Metadata)方式揭示网络信息资源

以元数据方式揭示网络信息资源,就是利用其标准描述网上一次信息的特征,对其内容进行压缩,使网上一次信息进入二次信息,实现对网上一次信息的控制,在逻辑上序化和优化网络信息资源。在这方面的研究主要有:

2.1 元数据的定义与功能研究

2.1.1 关于元数据定义

元数据是应电子文献成为主流及管理与检索网络信息的需求而兴起的。最基本的定义是“关于数据的数据(data about data)”,但研究者从不同角度给出了不同的理解。如:它是描述资料属性的资讯,用来支持如指示储存位置、资源寻找、文件记录、评价、过滤等功能〔9〕。元数据是关于数据的数据,它是指任何用于发现、描述和定位网络电子资源的数据〔10〕。元数据是关于数据的数据,存在于电子信息环境中,用于描述资源的属性,呈现其关系、支持资源发现、管理与有效利用〔11〕。元数据通常被定义为数据之数据,它包含用于描述信息对象的内容和位置的数据元素集〔12〕。元数据究其本义和功能,就是描述文献信息资源的著录数据,也可以说是电子目录〔13〕。可见,在元数据是用于描述信息资源这一点上已达成共识,它就是关于网络信息资源的目录。

2.1.2 关于元数据的功能

元数据具有传统目录的“著录”功能。刘嘉认为其在网络信息资源组织方面的作用是:描述、定位、搜寻、评估、选择〔14〕。张智雄对其功能作了较全面的描述:描述网络数据的内容;使网络数据便于搜索;帮助用户决定某些数据是否为其所需;防止一些用户(如孩子)存取某些数据;让用户可以重新得到或使用的另一拷贝;指导怎样“读懂”数据;帮助决定利用什么样的数据实例;给出影响数据使用的一些信息;给出数据的历史过程;给出数据与其他资源的关系;对数据管理的控制;对某些缺少文本的数据进行文字说明〔15〕。通过元数据,我们可以了解某个网站的资源类型、Web页的标题、创建者、主题、关键词以及内容摘要等信息。

2.2 都柏林核心集(Dublin Core)研究

在诸多元数据标准(或规范)中,最受关注且应用最广泛的是都柏林核心集(Dublin Core,简称为DC)。DC元数据格式是在1995年3月由OCLC(Online Computer Library Center)和NCSA(National Center for Supercomputing Applications)联合召开的第一次专题研讨会上产生的,目的是寻求一套简洁有弹性,而且非专业图书馆人员也可轻易掌握和使用的信息资源著录格式,以提高网络信息资源的开发利用率。因其开会地点为都柏林(Dublin)而得名。

2.2.1 主要内容与发展历程

研究者介绍了DC的15个元数据内容及含义〔16-18〕。即资源内容描述类元数据项:题名项(Title);主题或关键词项(Subject or Keywords),描述项(Description),语言项(Language),来源项(Source),关联项(Relation),覆盖范围项(Coverage),知识产权描述类元数据项:著者项(creator or author),出版者项(Publisher),合作者项(Contributors),权限项(Rights),外部属性描述类元数据项:日期项(Date),类型项(Type);识别符(Identifier),格式项(Format)。

从1995年3月至今,OCLC与有关机构已举行了8次DC研讨会〔19〕。周宁等系统介绍了DC第1-7次研讨会的系列成果及最新进展〔20〕。DC-1主要成果是设定了包含13个元素的都柏林核心元素集;DC-2的最主要成果是被称之为“Warwick框架”的元数据概念基础;DC-3对DC的几个元素进行修改,并在13个元素基础上新增Description和Rights两个元素;DC-4产生了两大学派:最小主义学派和结构语言学派,确定了DC限词;DC-5主要讨论了日期、覆盖范围和关联3个元素;DC-6产生了1999年工作计划(DC的正规化、标准化、在HTML中的编码、DC与其他资源描述方案的互操作性、RDF及其国际化等);DC-7主要议题是DC的限定问题,代理、引用、权限管理、题名等专题组取得实质性成果。DC-8总结2000年都柏林核心限定词、标准化、都柏林核心作为元数据的语法、教育界的都柏林核心、都柏林核心登记、应用属性等进展,重点讨论了DC结构方面的问题、应用属性和特殊领域的元数据〔21〕。陈梅总结了DC研究最新进展为:多学科渗透,语言本土化、应用模型化、体系融通化、操作工具化〔22〕。

2.2.2 与MARC的映射与转换

有研究者对机读目录格式与元数据用于网上资源揭示进行比较,认为两者各有其优缺,不能相互取代〔23-24〕。庄蕾波,纪陆恩认为DC与USMARC的不同点:著录的格式不同,著录对象不同,著录的主体不同,著录详简程度不同,应用性不同,产生的途径不同〔25〕。有文献对DC各栏位(元素)与CNMARC、USMARC各栏位(字段)进行比较,认为DC的栏位的设计是源于机读编目格式中的栏位,两者不同在于资料著录需求、注记系统和资料的精确度等方面〔26〕。

元数据与MARC格式的映射与转换研究大多数是关于DC元数据与MARC的转换。研究者通常将DC的15个核心元数据与MARC相应字段进行匹配。国外已对DC到UNIMARC的映射〔27〕、DC到USMARC的映射〔28〕进行研究。吴政睿的《都柏林核心集到中国机读目录格式的转换对照表》是对DC与台湾的机读编目格式映射关系的详细研究,是DC与中文机读目录格式研究的第一篇文献。大陆有文献对DC元素与CNMARC字段/子字段作了语义层上的匹配、对应,并就结果进行分析。认为建立二者的对应机制,有助于设计同时可对新旧两种编目记录进行检索的程序与界面〔29〕。刘嘉在《元数据导论》一书中就DC与CNMARC之间的映射关系进行简要归纳和说明〔30〕。贺亚锋介绍了DC各元素与USMARC字段的映射的研究〔31〕。为了实现MARC书目数据在Internet上的重用,黄伟红,张福炎研究了基于XML/RDF的MARC描述问题〔32〕,设计了基于EDC的书目元信息管理系统对DC进行了扩展,得到EDC元素,研究了多种MARC向EDC的映射〔33〕。

2.3 资源描述框架(RDF)研究

由于各种原因Metadata的应用程度,在不同领域处于不同的标准化阶段。元数据的种类复杂且用途殊异。需要发展一种通用的元数据结构以满足所有应用领域的使用要求。资源描述框架(Resource Description Framework,RDF)应运而生,它是一个使用XML法来表示的资料模型(Data model),用来描述Web资源的特性,及资源与资源之间的关系。RDF是W3C在1999年2月22日颁布的一个建议(Recommendation),制定的目的主要是为元数据在Web上的各种应用提供一个基础结构(Infrastructure),使应用程序之间能够在Web上交换元数据,以促进网络资源的自动化处理。研究者们主要介绍了RDF的基本模型、语法等方面内容〔34-36〕。

2.4 元数据应用研究

2.4.1 元数据在世界范围的应用

20世纪90年代以来,元数据已有多种不同的资料格式,目前至少有二十种以上的属于国际标准或逐渐形成标准的Metadata格式存在于各学科领域〔37〕。现在提出的许多标准都处于实验和完善的阶段。依据张晓林的总结〔38〕:用于网络资源的:Dublin Core、ROADS Template、CDF(Channel Definition Format)、Web Collections;用于文献资料的:MARC(with 856 Field),Dublin Core;用于人文科学的:TEI Header(Text Encoding Initiative Header);用于社会科学数据集的:ICPSR SGML Codebook(Inter-university Consortium for Political and Social Research);用于博物馆与艺术作品的:CIMI(Computer Interchange of Museum Information)、CDWA(Categories for the Description of Works of Arts)、RLGREACH Element Set;用于视觉资料的:VRA(Visual Resources Association)Core Categories for Visual Resources;用于音乐资料的:SMDL(Standard Music Description Language);用于政府信息的:GILS(Government Information Locator Service);用于地理空间信息的:FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata);用于数字图像的:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images;用于档案库与资源集合的:EAD(Encoding Archival Description);用于技术报告的:RFC1807:A Format for Bibliographic Records;用于FTP文件和FTP文件库的:IAFA Templates(Internet Anonymous FTP Archives Templates):用于连续图像的:MPEG-7。

2.4.2 中文元数据应用研究

国内元数据开发与研究与国外相比,才刚刚起步,已进行一些研究项目,有的已进入实用阶段。主要体现在两个方面:

第一,中文全文通用格式与中文元数据标准的制定

1997年起,广东省中山图书馆历时1年多,完成“数字式中文全文文献通用格式”(文化行业标准)的格式设计与标准初稿。根据试用情况对标准进行了修改,新格式由DC15个项目加上记录控制号(record)16个数据项目,并规定了中文数字化文献的文本著录格式。《数字式中文全文文献通用格式》是中文化的DC元数据格式。广东省中山图书馆的超星数字图书馆项目就采用该格式制作元数据,利用TRS(Test Retrieval System)编制搜索引擎〔39〕。

2000年国家图书馆专门成立了“中文元数据标准”课题组,研讨基本架构,调研国内外元数据标准及项目,确定了中文元数据的设计原则、设计思想,完成了方案的草拟工作〔40〕。

北京大学数字图书馆的中文元数据研究项目提出一套规范和指导各类元数据标准设计制定规则和方法,即《中文元数据标准框架》,在此框架下,北京大学数字图书馆已设计并应用了拓片元数据标准和古籍元数据标准〔41〕。

中国试验型数字式图书馆项目组的《元数据实施意见方案》由上海图书馆数字化工作部提出,该方案由都柏林核心元素(DC)定义及其限定、资源描述框架(RDF)及其含义、实施实例及实施建议四部分组成,该方案已在上海图书馆的数字图书馆项目中得到应用〔42〕。

第二,元数据在数字图书馆的应用

自20世纪90年代中期以来,国家图书馆在元数据的创建和应用方面做了有益的尝试,开展及参加的项目主要包括:SGML的图书馆应用,基于特征的多媒体信息检索系统研究,中国数字图书馆实验演示系统,知识网络-数字图书馆系统工程项目,国家计委《中国试验型数字图书馆》,拓片数据库的研制等,在数字资源的元数据研制和应用方面积累了一定的经验〔43〕。

上海图书馆的数字图书馆项目,其元数据方案采用DC为核心集、多种元数据并存的方法,根据基于XKL/RDF的资源描述框架,将各类数据封装在一起,统一了元数据的描述方法。

清华大学建筑数字图书馆的项目,其元数据基本采用都柏林核心集。已能够提供中国营造史信息导航、学社资源成果信息导航及新营造学社资料方面的服务〔44〕。

北京大学的古籍拓片资源库,上海交通大学的音乐库等数字图书馆均采用元数据方案进行资源描述。

台湾的吴政睿教授主持了两个中文DC系统:“分散式元数据系统(实验系统)”和“梵谛冈中文联合馆藏系统”,后者是在前者基础上推出的,所有资料的查询、新增、修改均通过Web界面方式进行,该系统已进入实用阶段。

标签:;  ;  ;  ;  ;  

网络信息资源披露研究进展_数字图书馆论文
下载Doc文档

猜你喜欢