网络环境下信息资源组织方法分析_元数据论文

网络环境下信息资源组织方法分析_元数据论文

网络环境下的信息资源组织方法分析,本文主要内容关键词为:信息资源论文,组织论文,环境论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着Internet的飞速发展,网上信息量及信息资源种类迅速增加,信息网络化从根本上改变了信息的组织方式。一方面,在网络环境下,电子化、数字化数据占据主导地位,信息对象多样化,而且超越了文献特征描述的局限,深入到知识单元和信息单位,从传统的静态、规范和集中化发展到大量的动态、复杂和分散存取,信息组织的内部结构发生了根本性变化;另一方面,网络环境下的信息资源共享对信息组织结构和方式提出了更高要求。因此,网络环境下的信息资源组织问题已受到普遍关注。

1 网络环境下信息资源的特点及组织方式

1.1 网络环境下信息资源的特点

在网络环境下,信息资源多种多样,包括文本信息、多媒体信息、数据库资源以及各种应用软件和服务系统,信息的载体和存储格式也呈现出多元化。网络信息资源与传统图书馆印刷型资源相比,具有电子化、数字化、多媒体化以及分散化等特点,大多数资源及载体杂乱无章、变化频繁且具动态性,网络在提供丰富信息资源的同时,也给查找和获取有效信息带来了难度。

1.2 传统的信息组织方式在网络环境下的应用

图书馆一直擅长对文献信息进行组织整理,长期发展起来的信息组织、分类及整理方法在网络环境下仍能发挥作用,当然需要结合当前网络信息资源的特点加以修正和扩展。图书馆机读目录MARC格式、文献分类法及标题法在目前的网络环境下,仍被用来整理网络信息资源。

1.2.1 描述性的信息组织方式:MARC格式。MARC格式是美国国会图书馆发行的机读目录数据标准交换格式,从60年代末、70年代初开始在北美广泛应用,从而使图书馆步入了自动化阶段。MARC格式一直作为书目记录的机读标准格式,为适应不同的著录对象,产生了不同的版本。经过不断发展,目前已被用来描述除书目信息以外的其它类型信息。在网络环境下,MARC格式被用来组织整理网络信息资源。

为描述、组织和检索网络信息资源,MARC格式中新增加了856字段,此字段被称为“电子位置及存取方式”(Elec-tronic Locationand Access)字段,包含有电子资源的位置和存取信息,以及通过网络获取电子信息的方法,如网络使用方式(电子邮件、FTP、Telnet、HTTP等)、版本信息、主机名、路径、电子文件名称、操作系统、文件大小等等信息。856字段的增加,使得MARC格式能用来整理与组织网络信息资源。OCLC的互联网编目计划InterCat(The OCLC Internet Cataloging Project)就是MARC格式的一个例子。InterCat用USMARC格式,以机读目录格式整理和提供互联网中的资源。MARC格式在世界范围内应用广泛,如英国以UK-MARC、中国以CNMARC(China MARC Format)和欧洲以UNIMARC(the Universal MARC Format)作为机读目录标准。

以MARC格式为标准的机读目录,实质上是图书馆馆藏目录的数字化,它们构成机读公共目录OPAC。而在网络环境下,以MARC格式为准的OPAC方式可以运用到网络资源的检索上,使馆藏资源与网络信息资源结合在一起。

1.2.2 按文献内容进行组织的方式:分类法和主题法。文献分类法和主题法在传统的图书馆文献资料整理工作中起着重要作用,在当今的网络环境下,已越来越多地运用于整理网络资源,以使网络资源能被集中利用。

a.分类法。传统图书馆文献分类法主要包括:美国的《杜威十进分类法》DDC(Deway Decimal Classification)、《美国国会图书馆图书分类法》LCC(Library of Congress Classification)、欧洲的《国际十进分类法》UDC(Universal DecimalClassification)、我国的《中国图书馆图书分类法》(简称《中国法》)等。目前,在网络上已有DDC、LCC、UDC及《中图法》等作为分类工具进行资源组织的检索系统;这些系统多以现有的文献分类法为依据,其中使用最多的是DDC。以DDC为分类工具的分类网络系统有:OCLC的Net First系统、加拿大国家图书馆的主题信息系统(Canadian Information by Subject)、英国联合信息系统电子信息委员会的BUBL LINK系统等。以LCC作为分类工具整理网络资源最著名的是美国衣阿华州立大学编制的网络数据库Cyber-Stacks系统。以UDC方式整理网络信息资源的代表是英国联合信息服务系统的NISS Information Gateway。而中国的教育与科研网络CERNET则使用《中图法》进行分类编目来组织其资源。

由此可见,传统的文献分类法在整理网络信息资源中发挥着有效的作用,并且随着网络使用的普及,它在网络资源组织中的应用必将逐步增加。当然,由于文献分类体系并不是按照网络资源的特点编制的,因此,在对网络资源进行处理时,应采取相应的调整措施。如对类目进行必要的调整,对类目体系的深度进行控制,加强类下说明等。同时以分类法编制的检索系统还应做到:界面显示形式多样,多种检索途径相结合,处理对象层次多样化,编制方式多种途径等。

b.主题法。传统图书馆按文献内容整理资料的方法除分类法之外,主题法也是一种很重要的方法。分类法以知识逻辑的顺序组织资料,而主题法以文字、语词的字顺来整理文献。分类法是从学科体系的观点出发,而主题法则从事物本身、从文字的形式上来组织资源,这两种方法常可以同时使用。如美国计算机研究文献中心建立的“计算机研究资源”(CoRR)就同时采用计算机机械协会的《计算机分类表》和一个概略的字顺主题系统来组织网络资源,两种方法均可作为网络资源的浏览依据。

主题法主要有两个标准:美国国会图书馆主题表LCSH(Library of CongressSubject Headings)和医学主题表MeSH(Medical Subject Headings)。LCSH的主题是综合性的,而MsSH则是专业医学的。从LCSH的结构来整理网络资源的网站是INFOMINE,它是由加州大学河岸分校图书馆建立的;而采用MeSH来整理网络资源最著名的是奥瑞冈卫生科技大学所建立的网络资源服务系统Cliniweb。

在网络环境下,有的检索系统为了方便检索,规定尽量采用受控词汇,以减少不确定的词汇,还有的系统采用主题法与分类法相结合。如采用DDC的BUBL LINK系统和加拿大主题系统,同时主题法也被使用,且规定其主题术语尽量依据LCSH。加拿大主题系统同时也依据加拿大标题表。

1.3 网络环境下新的信息资源组织方式:元数据

Internet的快速发展,网上大量的信息需要有效地组织,以便更好地被检索和使用。虽然有关的网络查询工具能自动从网络资源中提取信息并编制索引供检索,但我们常常发现其查准率和查全率较低,查找到的实际相关有用信息并不多。而传统图书馆的信息组织方法非专业人员难以完全掌握,而对专业人员来说,要完成数量巨大的网络资源的组织与整理所需的人力和成本又太大。我们需要更有效、更简便、更准确的编目规则来描述整理网上资源,元数据(Metadata)结构就是在这样的情况下被提出来的。1995年OCLC与NCSA(National Center for Supercomputing ffApplication)在都柏林核心集会议上提出了都柏林核心元素集(Dublin Metadata Core Element Set,简称Dublin Core 或DC),目的是为非专业图书馆人员提供一种能轻易掌握和使用的网络资源著录格式,从而提高网络资源的开发利用率。DC提出之后,相继出现了许多适用范围不同的Metadata格式。

1.3.1 元数据模式。元数据Metadata通常被定义为“关于数据的数据”(data about data),或者是“描述数据的数据”(data that describes data)。它是用来描述Internet上的数据和资源的属性,促进Internet信息资源的组织和发现的数据,它帮助信息的识别、定位、发现、描述和选择等。通过Metadata能够了解到某个Internet站点的资源类型,某个Web页的标题、作者、主题、关键词及内容摘要等信息。分布在全球Internet上的Web页面,像是一个宠大的有许许多多电子文献的图书馆,它的信息资源需要有序的、按一定标准组织起来,用如像图书馆的目录去组织和查找。而Metadata在本质上具有电子目录的功能,它可以揭示各类型电子文献的内容和其它特征,进而达到网络资源的组织、分类、索引等目的。

元数据的主要元件包括:属性模型代理、属性模型翻译、元数据信息的查询代理和元数据仓库。Metadata的内容是通过<Meta>标记来描述的,<Meta>标记包含在HTML的<HEAD>标签之内。Metadata的应用模式被称为是“引用属性类及值域”的模式,Metadata本身是由一组有关资源的各个方面的属性组成。在元数据标准中,详细说明了可以使用哪些属性、强制使用哪些属性、可选哪些属性、每种属性的精确定义以及属性值所采用的语法等等。

1.3.2 较有影响的元数据格式。目前,有许多团体和机构从事Metadata的研究,出现了几十种元数据格式,其中较有影响的如Dublin Core,PICS,Web Collections,CDF,MCF,RDF等。

a.Dublin Core。都柏林核心集DC是一个国际范围内通用的适用于资源发现系统的Metadata标准,在制定之初,参与者一致主张先建立一套最小的核心著录项。困为在网络环境下,没有一种元数据格式可适用于任何操作环境。因此DC的设计原则是:对资源的内在本质特征进行著录,即内在本质性原则;为了特定的目的或在特定的学科领域内允许使用添加一些必需的著录信息,即可扩展性原则;尽量避免过早制定特定的语法束缚核心集的发展,即语法独立性原则;为保证核心集的灵活性,所有著录项都可选择,即可选择性(或非强制性)原则;所有著录项都可以重复使用,即可重复性原则;可用修饰词对著录项的含意进行修饰,以使其具有自我解释功能,即可修饰性(或可限定性)原则。

DC的设计要求Metadata著录项具有灵活性、规模最小且意义明确,由此产生的DC元数据系统由15个Metadata标记元素组成,适用于HTML的环境。DC可看作是机读目录的网络缩微板,而又避免了机读目录的过分专业化和复杂性,是传统目录学在网络环境下的延伸和扩展,推动了网络信息资源的有效组织和利用。DC的元数据加在HTML文件的<HEAD>标签之内,其内容通过Meta标记来描述,非专业人员就可以很容易完成。另外,也可使用DC生成器,如UKOLN(http://www.ukoln.ac.uk/cgi-bin/dcdot)和DC元数据模板(http://www.lub.lu.se/cgi-bin/nmdc.pl?simple=)等来自动完成其元数据的制作。DC为解决网络资源的组织、开发和利用提供了一种可行的、切实有效的方法。国际上应用DC元数据的项目有:美国数字图书馆目录,美国医学元数据项目,美国教育资料网关,欧洲图书馆及电子资源中的数学资料EULER,欧洲DESIRE项目,法国国家数学预出版物和论文项目,德国元数据项目,芬兰NORDIC元数据工程等。

b.PICS。PICS即“Internet内容挑选平台”(the Plat-form for Internet Content Selection),是另一个Metadata标准,由W3C(www Consortium)组织开发。W3C是一个关于WWW建设及资源组织的国际协会。1995年8月Internet一些主要团体共同制定了PICS规范,目的是为了让用户能方便地找到合适的内容,同时避免那些不合适的、用户不需要的内容传递给用户,特别是儿童。PICS的特点是它的内容分类定级机制,不同的人和机构可以根据其各自的目的和观点标记网页内容。PICS基本结构包括等级服务、等级系统和内容标签,等级服务是其核心。PICS的分类定级平台组合了自我分类定级、第三方分类定级和方便最终用户几个特征,使用户可以对所要浏览的内容进行控制,而不必对信息提供者进行控制。

PICS适用于HTML环境,作为网络资源控制的工具,可为个人及网关所使用。

c.Web Collections。Web Collections即“Web收集”,是一个较早的基于XML的Metadata规范。DC和PICS都是适用于HTML环境,随着XML的发展,提出Web Collections是试图利用XML建立Metadata规范。Web Collections能够方便地应用到Web中上,它采用与HTML相似的风格,将每一个Web Collections包含在标签内,并将其嵌入HTML文件中。同时Web Collections引入层次结构的方法来表示其Metadata,在<XML>标识之内,引入WEBPAGE标识来描述单个的标记元件,引入WEBMAP标识描述一组标记文件。WEBPAGE标识包含在WEBMAP之内。由此就可以创建一个像由许多章节组成的一本书一样的网络资源,WEBMAP的文件组就像书中的章节,而WEBPAGE则描述单个的Web页面。

Web Collections的元数据能深入地描述网络资源,给用户提供方便。

d.CDF。CDF(Channel Definition Format,即频道定义格式)是由Microsoft提出的Metadata规范,它对Web Collections进行了扩充,将HTML从一种Wed页面描述语言扩展到Wed网站描述标记语言。CDF仅使用非常简单的语法,借助<CHANNEL>标签对其频道内容进行描述。标准的Web服务器及IE浏览器支持CDF。

e.MCF。MCF(Meta Content Framework,即元内容框架)是由网景(Netscape)公司于 1997年6月提出的一个利用XML的元数据方案,它被认为是CDF、Web Collections等XML元数据发展的顶点,提供了新的解决Metadata问题的方法。在MCF中,对数据和元数据未进行区分,认为对data和Metadata的区分是没有必要的,数据和元数据描述所需的信息种类非常类似。同时,MCF提出的“单一数据模式和相应的互换格式”以及“通用数据模式及词表”的Metadata框架,使得MCF具有稳定性和开放性,能一定程度地兼容各种Metadata数据,对于新出现的元数据,可以进行动态扩展。MCF使用<XML MCF>标记。

f.RDF。RDF(Resource Description Framework,即资源描述框架)是由W3C组织开发的另一种元数据格式,与MCF相似,认为Metadata是data,也使用XML语言。但RDF比MCF更深入,它的模型结构包括资源(Resources)、属性(Properties)和声明(Statement)三种对象。RDF几乎能够描述所有用统一资源标识(URI)命名的资源。目前,RDF应用于:资源发现,以使搜索引擎功能更强;智能软件,实现知识的共享与互换;描述站点及其相关的内容,即站点编目等。

其它的元数据规范虽有相似性,但彼此不能兼容,RDF能符合多种需要,具有兼容性和互操作性,是目前最灵活、最完善且具健壮性的应用最广的数据格式,极有可能成为将来的元数据标准。

2 现有信息组织方法在网络环境下应用问题探讨

从本文1.2可看出,传统的图书馆组织整理文献的方法仍能在网络环境下发挥作用,它的规范性使其著录及用户检索质量都较高。但传统的手工操作对于数量极为宠大的网络资源而言,费时费力,且其标引速度直接影响其资源的收录范围和更新周期。目前在使用传统的信息组织方法进行网络资源标引时,大多采用自动标引的方法,其速度比传统手工操作快,但自动标引缺少语义判断,容易造成误检和漏检,可加强标引深度和人工干预来弥补。在网络环境下,需要速度快、处理效率高的系统来实现自动标引,或者各有关信息机构共同分工合作编目和标引来实现对网上资源的组织。

另外,由于网络资源数量大、种类多且具动态性,而传统的资源组织方法是针对书目文献信息的特征而言,因此,使用其处理网络资源时,需要不断调整、完善和扩充,以使其更适应网络资源的特点。如MARC格式从60年代发展至今,已经历了大致三个阶段,才可以较好地描述电子资源。随着网络资源的更新和发展,MARC格式如何更好地描述网络资源,这是要考虑的问题。美国国会图书馆正在研究制定“机读目录文献类型定义”(Machine Readable Cataloging Document Type Definition,简称MARC DTD),使MARC格式适用于网络环境,同时简化著录程序。对分类法而言,应结合网络技术对类目体系进行相应调整,如在类目展开中适当使用多重引类和重复反映技术等;同时分类法还应对网络资源的特点进行揭示,采用各种分类途径相结合的方法。而主题法对于网络资源而言,主题词数量不够充分,主题浏览比较简单,可利用分类法与主题法相结合,且两者之间能自由切换,从而能从主题的角度充分利用分类法组织和揭示文献的能力。

采用传统文献的组织方法对资源进行处理,多由专业人员或受过有关培训的人员进行,因大量非专业人员较难完全掌握其规则,从而不能参与进来。因而大量专业人员需要花大量的时间和精力处理网络资源,这是阻碍传统方法在网络环境下广泛应用的一个难点。因此,应针对网络信息资源的特点,对传统文献的组织方法进行必要的调整和简化。

元数据格式虽然目前发展迅速,但它的标准化和各格式之间的兼容以及互操作问题亟待解决,只有解决了以上问题,元数据才能更好地被广泛应用。

3 网络环境下信息组织方式的完善与发展趋势

从以上讨论可看出,现有网络资源的组织方式呈多元化状态,元数据是其发展的特点。未来的网络信息资源组织方式应简单、好用,适合于专业和非专业人员,以应付快速增长的网络信息,同时又降低制作成本。分布式的网络计算机环境将是信息处理的主要环境,因而信息资源组织方法应适应网络计算机环境的要求,如进行网上联机编目等。未来的信息组织方法应具备易扩展性原则,使得新的信息资料可以不断补充进资料库。同时还应具备可修饰原则,专业人员可通过使用修饰功能来提高某些资料的著录质量。网络环境下,还应考虑信息资源的多语种处理以及信息组织的智能化等问题。

标签:;  ;  ;  

网络环境下信息资源组织方法分析_元数据论文
下载Doc文档

猜你喜欢