数字信息资源组织标准化研究_元数据论文

数字信息资源组织标准化研究_元数据论文

关于数字信息资源组织的标准化问题研究,本文主要内容关键词为:信息资源论文,组织论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 研究现状

数字信息资源组织标准化主要包括:数据格式标准化和资源描述语言的标准化。数据格式是数字化信息的基本结构描述,它可以实现不同的计算机系统间交换数据;描述语言的标准化可实现用户和系统以及系统和系统之间的有效沟通。目前国内外相关标准主要有:

1.1 数据标记格式的标准。数据标记格式标准是指对不同类型的数字文件的格式进行了限定,它包括页面著录标准(如PDF);图形格式标准(如TIFF,GIF),结构信息标准(如SGML),移动图像与音频格式等。其中超文本标记语言(HTML)、通用标记语言标准(SGML)与可扩充标记语言(XML)是用于数字信息资源组织方面的结构信息数据格式标准的典型,它们是人工可读格式文献与数据库信息的超文本提供的标记语言。

1.1.1 标准通用标记语言(Standard Generaled Markup Language,SGML)。是由国际标准化组织提出的一种适合书目、文献全文、电子文献及多媒体信息描述的标准(IS08879-1986)。它利用通用方式和元标识语言对文献内容和结构进行标记,实现对各类文献结构和内容的系统化、标准化描述,从而建立起通用数字信息。特别是针对网上用户的个性特征提供个性化服务,避免了网上信息检索时大量的检索结果对用户产生误导,大大提高了网上查询的检准率。SGML作为通用地描述各种电子文件的结构及内容的国际标准,为创建结构化、可交换的电子文献数据库提供了依据。目前基于SGML我国正在开发数字式中文全文文献通用格式。它可以对普通图书、科技报告、学位论文、古籍、拓片、地图资料、乐谱、录音资料、影像资料、连续出版物、缩微资料、计算机文档等进行标引。其特点是可以与先进的国际标准接轨,适用于Internet环境,实现了文献编码、目录和文献内容的一体化处理。

1.1.2 超文本标记语言(Hyper Text Markup Language,HTML)。是使用最广泛的标记语言,它提供了一种表示信息的结构和格式,使其能够在浏览器上呈现给访问它的用户。它是对ASCII文件的一种增强版本,能在文件中加入标签,使其可以显示各种各样的字体、图形,还增加了结构的标记,如头元素、列表和段落等,并且提供了与Internet上其它文档的格式。HTML的简洁性和Web规范使得人们能迅速创建用于Web的系统和工具,但HTML只是一种标记技术,并不揭示信息的本质。

1.1.3 可扩展标记语言(Extensible Markup Language,XML)。1996年7月由一些SGML结构信息专家向W3C(World Wide Web Consortium)提出了“网络上的SGML计划”考虑将SGML移植到Web上,并命名为“可扩展标识语言”。1996年11月提出XML草案标准,1998年10月XML1.0版本被W3C联盟正式批准并公布实施。XML是SGML的一个应用文档或限制格式。它集标记语言、元语言和链接语言于一身,为Web的应用提供了一个描述数据和交换数据的有效手段,弥补了HTML的不足。XML具有强大的语法功能,允许用户定义自己的标记系统或字段集;资源描述框架功能,方便数字图书馆管理、维护和使用,特别是对网上的知识产权的保护起到积极作用;同时克服了HTML不能区分信息与元信息且不支持信息嵌套体系结构的缺陷,大大增强了数字图书馆的全文检索功能,提高了信息的查准率。

1.2 资源描述语言的标准。描述语言是用来描述数字化信息基本特征的一组代码体系,如信息的形式特征和内容特征以及检索要求等。它可以为数字资源的长期、可信赖地进行存取提供规范方法。其中元数据体系是典型的数据描述语言的标准。

1.2.1 关于元数据体系。元数据体系是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够被计算机及其网络系统自动辩析、分解、提取和分析归纳(即所谓机器可理解性)的一整套编码体系。它由各种应用范围的元数据组成。所谓元数据是一组描述数据本身基本特征和属性的数据,又称为“数据的数据”。从本质上说,元数据是一种数据结构标准,它提供了一种框架体系和方法来描述、表征数字化信息的基本特征,并通过一套通用的编码规则,将来源各异的数字化资源归纳到一个标准的体系中。元数据的成分至少要包含:标识符、存取文献所要求的硬件、软件与操作系统;脱机文献(如CD-ROM等)的形体描述;编码标准与版本;数字文献的迁移史与其预期效果;有助于确定数字文献真实性的数据;版权管理信息以及版本与日期等。

1.2.2 资源著录标准。已有的资源著录标准有:(1)机读目录格式(MARC)。是一种为图书馆书目制作而最早开发的用于存储、交换、处理以及检索信息的描述性标准。其扩展MARC格式已逐步被图书馆用来描述和存取电子信息资源(如网页、电子期刊、Telnet系统、FTP站点等)的特征、连接方式和提取要求。它能对一些具有复杂的描述格式的元数据进行详细的标识。(2)搜索引擎。用于标识一些未经结构化的,特别是从网络资源中自动抽取并索引的,格式比较简单的元数据。(3)围绕着HTML、SGML、XML环境,产生了种种元数据规范,其中用于网络信息的组织和发现的著名的元数据标准如:①都柏林核心集(Dublin Core Element Set,简称DC)。DC是1995年3月由OCLC和NCSA联合召开的第一次专题研讨会"OCLC/NCSA Metadata Workshop"上产生的。它针对Internet上资源著录开发的描述性问题而由文献信息界提出来的有效解决办法之一。就图书馆与信息界来说,元数据是提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述,用来规定数字化信息的组织的一种数据结构标准。元数据可以看作是一种编目数据源。它是由资源文件名、资源作者或创建者、资源的主题词或关键词、资源简要描述、出版者、其它对此资源有贡献的人、时间、资源类型、资源格式、资源标识、来源、语言、与其它资源的关系、覆盖范围等15个元数据标记元素组成的描述系统,适合于网络上的资源,包括文本及图像的描述处理和网页制作的基本情况描述,它具有简单、灵活、国际通用等优点,是一种较好的资源描述方式和规范文本。DC仅仅指定某些单元来作为描述一篇文献,但它并没有一个成形的语法体系。②PICS(The Plateform for Internet Content Selection。即因特网内容挑选平台。是由W3C(www Consortium)组织开发的标准。是一种描述网上资源的元数据规范。其显著特点是对元数据采用分类定级方式进行描述和控制,以过滤不符合规范的网上信息。这种描述规范适合于对因特网上传递的数据定义、识别、数字签名和对版权的保护等等。③MCF(Mcta Content Framework)。即Mata内容框架。它是Netscape提出的一个利用XML的元数据描述方案。它可以作为一种单一数据模式和相应的互换格式的元数据框架,采用对象、属性类型、属性值的形式描述数据。MCF可以描述各种复杂的文件关系,除了Web网页外,还包括图像、题录、频道、站点、人物、场所及事件的描述等等。(4)RDF(Resource Description Framework)。即资源描述框架。是1999年2月22日颁布的一个建议,是由一批专家试图解决许多Metadata数据的互操作性而制定出来的。它使用XML语法来表示资料模型,用来描述Web资源的特征及资源与资源之间的关系。它作为一种符合多种需要的资源描述构架,其目标是提供一种描述资源的通用机制,为元数据在Web上的各种应用提供一个基础结构,以建立各种元数据之间的互操作性,以促进网络资源的自动化处理,使数字图书馆具有更强大的搜索引擎功能,特别在网络导航中作用更大。RDF应用广泛,如在资源检索方面,能够提高搜索引擎的查准率;在信息组织方面,可以适用于描述网站、网页或电子出版物等信息的内容与内容之间的关系;在数字签章上,则是发展电子商务,建立网站的关键技术;在内容分级、知识产权、隐私权等方面均发挥其强大的功能。如网站、网页或电子出版物等。

2 存在问题

2.1 相关标准的制定工作明显滞后。目前国外已有关于全文数据库、多媒体数据库建设过程所必须遵循的有关标准。包括多种文献格式的描述标准,元数据的定义标准,各种代码、标识符的定义标准,各种文献类型描述标准以及系统实施过程中的软件接口标准、层定义标准等。而国内在这方面所制定的标准很少,给数字信息资源库的建设增添难度,也给今后国内数字信息向网络国际通用的信息格式转换留下不规范的隐患。

2.2 元数据体系标准化、规范化程度不高。元数据体系目前尚未形成国际通用的规范标准,许多关于数据库细节的各种规定,如著者或创建者的规范控制、主题词的使用、HTML语言的代码化等;如何实现元数据与USMARC之间的精确转换以及转换中主要款目与附加款目如何处理等问题的解决方案;元数据对异构数据的适应性、图书馆元数据的建立、中文元数据的解决方案、MARC和SGML等元数据格式互操作问题等有待进一步研究。

2.3 各种元数据与MARC编目数据之间的兼容性问题。现行网络环境以HTML为基础构建,而HTML只能描述形式而不能揭示内容,势必不能充分表达MARC格式所描述的书目数据,这就使图书馆在处理信息资源时存在双重性:一方面利用HTML技术(如html文件、PDF格式文件)发布馆藏资源信息,另方面利用MARC格式处理馆藏文献并建立书目数据库。因此解决HTML与MARC的格式转换问题至关重要,它将影响图书馆提供服务的成本和MARC书目数据库功能的有效发挥。

2.4 与USMARC相比,目前的元数据体系存在着描述实体的全面性不足,提供检索的准确度以及标准性和规范性不高等问题,对数据交换可能会造成负面影响。

3 发展对策

3.1 有关标准的选取与制订。在进行数字图书馆研究和建设数字资源库过程中,应尽量选用目前国际上已有的一些适合网络上数据描述和组织的相关标准。如前面所述的SGML、HTML、XML、Dublin Core、PICS、MCF、RDF等;同时还要组织国内有关专家制定和修改一系列适合中国数字图书馆建设的资源描述、标识、查询、交换和使用的标准与规范。

3.2 加快元数据体系的规范化和标准化工作。应针对元数据体系存在的不足,参照传统编目工作的有关标准和规范,深入开展有关问题的研究,如元数据对网络信息资源描述的全面性、客观性;各种元数据与编目数据之间的兼容性、元数据对异构数据的适应性,特别是中文元数据的解决方案等。

3.3 及早建立通用的元数据体系。目前,元数据的种类复杂且用途殊异,围绕着SGML、XML、HTML等应用环境已有许多的互为竞争的元数据规范。元数据的多样化不利于数字图书馆的发展,因此,必须加强对包括元数据规范在内的标准化研究,以便合理统一并制定出一种通用的,能支持多种元数据规范的国际公认的标准。

3.4 改良HTML,建立能描述书目数据和其他信息本质和内容的元数据格式和规范,并将之纳入HTML技术体系中。如都柏林核心集;采用已出现的能对信息和数据本质和内容进行详细描述的SGML。使用元数据,即在现有Web网页的html文件中(通常在head处)添加一组以""开头的元数据标记行,用以描述该网页的作者、关键词等信息。

3.5 加强对元数据工具功能的完善。如在搜索引擎的应用研究方面,应侧重于自动搜索技术、自动索引技术以及高度智能化的检索界面技术等深入研究,长期以来未真正达到实用化的汉字自动分词技术、自动分类技术将是重点攻关的项目。

来稿时间:2001年7月

标签:;  ;  ;  ;  ;  

数字信息资源组织标准化研究_元数据论文
下载Doc文档

猜你喜欢