都柏林核心(都柏林核心)元数据发展简史(一)_元数据论文

都柏林核心(都柏林核心)元数据发展简史(一)_元数据论文

都柏林核心(Dublin Core)元数据发展简史(上),本文主要内容关键词为:都柏林论文,简史论文,核心论文,数据论文,Dublin论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着WWW的不断发展,网络上信息资源正呈不断增多的趋势。 但随之而来的问题是,人们发现在海量的信息环境中,信息的查找和检索变得越来越困难。网络上充斥着各种各样的信息,但人们却不知道究竟该怎样才能找到自己所需要的信息。

为了有效地解决查找网络资源这一问题,元数据这一概念被提了出来。元数据也被称为是关于数据的数据,它是专门用来描述数据的特征和属性的。由于电子文件所具备的多种多样的格式和控制方法,它们可能不能被每个人直接使用:因为也许人们不熟悉或不了解它的格式;也许它的内容被加密了;或者它只有在交费后才能被接受;也或者这个资源太大,存取起来既困难又费时。在这些情况下,元数据能支持用户决策过程。它包含的数据元素集就是用来描述一个信息对象的内容和位置,以便能在网络中方便的查找和检索。

从元数据提供者的角度来看,元数据能改进文件的检索能力(特别是搜索的精确性)、以及对藏品的控制和管理问题。而各种网络上的搜索引擎,如Lycos、Alta Vista、Open Text等,虽然对许多资源有自动索引功能,但其查准率却极低。而一些由专业人员提供的不仅复杂并被结构化的特殊体系方案,如MARC、GILS、TEL header、IAFA模块(用来描述匿名的FTP档案和基于主题的信息网关)和FGDC, 这些标准虽然能达到一定的查准率,但在数据加工标引工作上既费时又费人工,并且需要的是专业的从业人员,因此对于充斥于网上的海量信息可以说是无能为力。这些复杂的体系方案通常都需要大量的时间、金钱和合格的职员,因此创造一个更简单的元数据模型和体系方案显得非常吸引人。而且,随着因特网上的搜索服务的改进,从各种复杂或简单的元数据格式到各个不同的用户团体之间,也特别需要一种标准化的语言或交换格式。

所以,创立一个简单的、并且在网络中为各个用户团体所接受的标准化元数据元素集,成为了网络发展的迫切需要。1995年3 月在都柏林召开的第一届元数据研讨会上,经过与会代表的商讨和辩论,终于产生了一个精简的元数据集——都柏林核心元素集(Dublin Core ElementSet),简称为都柏林核心(DC)。由于它的简练、易于理解、 可扩展、及能与其它元数据形式进行桥接等特性,使它成为了一个良好的网络资源描述元数据集。这次会议之后又召开了五次元数据研讨会,每次会议都对DC进行了一定的补充和修订,使DC在结构和功能上逐渐的完善起来。DC能较好地解决网络资源的发现、控制和管理问题,因此对于现在的数字图书馆研究很有意义。现在研究及采纳DC的各种项目已遍及美洲、欧洲、大洋洲、亚洲等地,DC已被翻译成了20多种语言。1998年9 月,因特网工程专题组(IETF)也正式接受了DC这一网络资源的描述方式,将其作为一个正式标准予以发布(RFC2413)。

本文是一篇关于DC的产生及其发展历史的简要概括,文中对各次会议都依次作了介绍。相信在读完本篇后,能使你对DC这一目前在国外数字图书馆及网络资源描述方面有重要意义的元数据集有一个基本的、粗略的了解。

DC—1

1995年3月1日~3日,第一届元数据研讨会在美国俄亥俄州的Dublin召开。会议由联机图书馆中心(OCLC)和美国超级计算应用中心(NCSA)主持。与会代表包括来自图书馆界、档案界、人文学界和地理学界,以及来自Z39.50和通用标记语言标准(SGML)集团的代表。大会的目的旨在确定所研究的问题范围,即是否只要一个简单的元数据元素集就能对网上的各种主题资源进行描述,会议为进一步发展描述电子资源的元数据元素的定义打下基础。

由于资源描述的广泛性以及复杂性使商讨的范围受到了限制。现在网络上的绝大部分信息对象都被看作是“文件”,而元数据记录是用来直接帮助发现因特网上的资源的,因此提出的一套元数据元素集旨在描述支持电子文件资源的发现的基本特性。而其它涉及成本核算或档案的信息,都不在商谈之内。

在这次会议中,专题组的目的主要是为了培养对当前问题的一般性的认识,以及主要涉及者可能会采取的解决方法,并提出一个核心元数据元素集来描述网络上的电子资源。会议目标主要是为了定义一个能被全球所理解接受的小的元数据元素集,它能允许作者和信息提供者自己来描述自己的工作,并能方便资源发现工具之间的互操作性。但是核心元素并不能满足特殊用户团体需要的对象描述。

这届研讨会最主要的成果是设定了一个包含13个元素的都柏林核心元素集:Dublin Core(或简称为都柏林核心DC)。 都柏林核心是在网络环境如因特网中,帮助发现文件类对象所需要的的最小元数据元素集。而它的结构句法问题则作为一个执行细节没有进行详细说明。

DC-1所定义的13个元素如下,在后文中可以看到,这13 个元素在以后的DC发展中从名称到内容都有了很大的变化:(关于DC的详细定义请参见原文或相关文献)

Subject:主题

Title:题名

Author:作者

Publisher:出版者

OtherAgent:相关责任者

Date:出版日期

ObjectType:对象类型

Form:格式

Identifier:标识

Relation:关联

Source:来源

Language:语种

Coverage:覆盖范围

英国的UKOLN(The UK Office for Library and InformationNetworking)的DESIRE(Development of a European Service forInformation on Research and Education )项目专门对现有的多种元数据类型进行了分析和比较,并把它们分为了三个级别:

一 级二 级 三 级

记录 简单格式 结构化格式复杂格式

成为逐渐形已成为国

特征 私有 成的标准 际标准

全文索引

结构化字段详细标识

记录格式 Lycos Dublin Core

ICPSR

Altavista IAFA templates CIMI

Yahoo ete RFC 1807

EAD

SOIF

TEI

LDIF

MARC

级别一包括的是相对来说未经结构化的元数据,特别是从资源中自动抽取并索引的。这些数据一般是由搜索引擎产生的。如果用户用它们来查询一个已知条目,它们还比较有用。但用户必须对查出的大量资源进行筛选,并且还可能会错过一些潜在相关的资源,因为它们没有使用适当的术语进行索引。

级别二中包括的元数据允许使用者不用对资源进行检索或联系,就能对资源的潜在用途或重要性进行判断。这些数据已被结构化并支持字段查询。更重要的是这些简单的数据记录能让非专业用户自己来创造,而不需要什么特定学科的知识。描述一般是手工进行的,或是用自动抽取的描述来帮助手工编制。

级别三中复杂的描述格式能用于定位(location)和发现,还可用于对对象的证明(document)和收藏(collection),它们一般用于研究与学术活动,需要专业知识来创造和维护,并迎合专家们在特定领域的要求。

在这样的一个背景中,可以发现在各个级别间有一种跨越的趋势。由作者或站点制作的元数据在很多方面将会变得越来越重要。

在上面这个图表中我们可以看到DC被置于第二级别中,它所提供的记录是为了调和级别一和级别三这两种极端,来提供一种简单结构的记录。DC并不是要替代其它的资源描述类型,而是对它们进行补充。DC能通过扩展或通过对更复杂的记录的链接来增强其功能,并被对应到其它更复杂的记录中去。

DC-1会议集中讨论了文件类对象(DLO)的信息检索所需要的元数据元素。因为DLO至今仍是因特网上的资源主流,并且适用于DLO的任何处理方法都能被扩展到其它类型的资源。

由于因特网上所包含的信息要比以往的专业摘要人员、索引人员和编目者所用的方法及系统管理的信息多得多,因此一个可行的获得电子资源的元数据的方法是:让作者和信息提供者无须经过对现有标准的特别培训,就能自己来描述资源。

尽管都柏林元数据研讨会的目的是开发一个简单的元数据元素集,但这些元素的定义仍使其能与更复杂的控制系统,如MARC进行桥接。这些矛盾从两个方面得到了解决:一方面是创造一个不要对用户进行培训就能容易理解的元数据元素集,和一个能满足特殊用户的更精确的描述要求的修正方案。另一方面,是提供一种能扩展核心元素集的机制,来描述除文件类对象以外的内容。

美国国会图书馆的Rebecca Guenther指出DC具有四个优点:(1 )DC将鼓励作者和出版者以自动资源发现工具能收集的形式来提供元数据。(2)它将鼓励包含有元数据元素模块的网络出版工具的创造, 从而进一步简化元数据记录的创造工作。(3)如果有可能的话DC 生成的记录能作为更详细的编目记录的基础。(4)如果DC成为标准, 那么元数据记录就能被各用户团体所了解。

DC具备如下一些特性:内在性(intrinsicality )、 可扩展性(extensibility)、独立句法结构(syntax independence)、可选择性(optionality )、可重复性(repeatability ) 及可修改性(modifiability)。

元数据专题组的讨论透露了指导元素集进一步发展的原则。伴随着这些原则将出现这些可能:核心元素集越小越好,且能被大多数用户所理解,元素集能灵活的描述广泛的主题区域内的资源。

DC-2

第二届元数据研讨会是由UKOLN和OCLC组织的,它于1996年4月1 日~3日在英国的Warwick召开。它旨在扩大第一届OCLC/NCSA元数据研讨会的影响。第一届会议主要围绕一个简单的资源描述记录的产生展开了讨论,即广为人知的都柏林核心元素集DC,并最终达成了共识。它可作为一个统一各种网络资源描述模型的基础。

在Warwick召开的会议上,出席的人员有计算机专家, 文本标示人员和图书馆专家。还有美国数字图书馆倡议项目的代表,英国JISC电子图书馆项目,以及欧洲和澳大利亚图书馆方面的代表。另外还有如MARC这样的标准制定团体及一些公司的代表。

第二届研讨会的目的主要是“确认能满足两个目的的执行策略:

促进各学科和语言间的语意协作能力;

定义一种可扩展的机制来支持对其它描述模型的更详细的描述和联接。”

但研讨会的重点很快就转移到了可扩展性问题上,其它问题基本未被触及。

主题组还讨论了句法(syntax)、国际化(internationalisation)、特殊符号集(character sets in particular)、对象描述与它们的集合间的间隔(the granularity level of object descriptionsand their aggregation ), 及必要的用户指导(necessary userguidelines)与促进工作(promotion work)等问题。

研讨会最主要的成果是提议了一个元数据的容器结构(Container),它可以包含DC以及其它一些不同类型的元数据。DC的13个元素则没有改变。

这次会议产生的元数据结构的概念基础,被称为Warwick框架。 这个框架和Meta

Content [MCF ]框架,成为了资源描述框架RDF (Resource Description Framework)发展的核心。

Warwick框架具有两个方面的重要性。首先, 它提供了一个广阔的定义和使用各类元数据的结构框架。其次,把Warwick 框架作为一个环境,它能允许有特定目的的元数据集开发者对自己的工作进行限制和集中,使其它对元数据感兴趣的团体能独立的在满足自己特定需要上取得进展。

RDF[RDF]是在W3C的主持下开发的, 它是对结构化的元数据进行编码、交换和再运用的一个基础结构。RDF能允许在一定的语义、 句法和结构中进行元数据之间的交互性操作。RDF为基于网络的元数据, 包括超出在资源内嵌入描述性的元数据的各种元数据联合模型提供了一个灵活的句法结构基础。

随着内含元数据越来越受重视,DC和Warwick 框架需要在浏览器和搜索服务提供者间得到提倡。1996年由W3C 赞助的“分布式索引和搜寻研讨会”,其中一个议题就是“从计划资源收集和出版元数据的标准”。例如,是否应将DC元数据说明加入HTML来改进HTML文件的可搜索性。(未完待续)

标签:;  ;  ;  

都柏林核心(都柏林核心)元数据发展简史(一)_元数据论文
下载Doc文档

猜你喜欢