网络信息资源组织与服务的辩证分析_xml语言论文

网络信息资源组织与服务的辩证分析,本文主要内容关键词为:信息资源论文,组织论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号 G203 文献标识码 A 文章编号 1007-7634(2003)01-0042-03

近年来,随着网络化进程的加速以及网络服务模式的纵深化发展,网络信息资源组织与服务的形式受到了来自“知识管理”的外在动力和“面向用户的资源组织”的内在压力所形成的合力——“必要的张力”的极大影响,其内容和形式将会发生相应的变化。

1 网络信息资源组织的发展进程

(1)传统信息资源组织方法的扬弃。

传统的信息资源组织是图书情报学长期孜孜以求的理论与实践的精华所在,并在此基础上形成了“情报检索语言”的分支学科。传统的情报检索语言在网络环境下的信息资源组织中仍然发挥着积极而有效的作用。目前在万维网上,美国国会图书馆图书分类法、杜威分类法、国际十进分类法的网络版都在试运行中。例如,美国国会图书馆主题词表与杜威分类法结合起来的新体系在杜威主页上出现,用户可以选择国会主题词和分类号来查询信息,或在原有的基础上补充新的词汇。 文献[2]对国内著名的综合门户网站“搜狐”的18个大类的目录式分类体系从类的设置、类的排列、类间关系等方面进行了有益的研究,并从优势互补的角度出发,提出了有利于改善其类目设置等方面的修改意见。

显然,传统的信息资源组织方式在网络环境下必须经过有利于网络信息环境的改造,这从另外一个方面也表现出了传统的情报检索语言的一个新的发展态势。如,网络信息检索工具的关键词检索、概念检索、分类浏览一体化的趋势呼唤着新的、适应网络环境的检索语言的核心技术。传统的具有“后控词表”的、利于提高查准率的“语义检索”方法将如何在网络信息检索的环境下实现,这必然要涉及到传统的信息组织方法的有效移植和扬弃。

(2)网络信息资源组织的有序化——“元数据”的导入。

面对浩如烟海的网络信息资源,人们将如何本质性地表征其固有的特征?经过较长时期的理论与实践的探索,“元数据”概念及其相应标准的导入己成为网络信息资源组织发展的必然,它无疑是网络信息资源有序化进程中不可或缺的阶段。

“元数据”(metadata)通常被界定为:有关数据的数据,或用来描述其他数据的数据。究其本义,其核心要素在于“meta”的内容上,它是HTML(超文本标识语言)语言中一个可选的标记项,只能位于HTML文件的文件头部分,它可被用来描述网页文件的属性(如作者、终止日期、关键词列表等),并且分配这些属性的值。

这种面向Internet信息资源的发现、开发、组织与利用的“元数据”的形式与种类繁多,有注重确认和检索的、著录描述的、资源管理的、资源保护与长期保存的,也有应用于不同领域的元数据的格式。显然,元数据的应用目的、领域和格式具有多元化的特点。而一个元数据本身又具有不同的层次和结构,如内容结构、句法结构和语义结构。

就网络信息资源的确认和检索而言,都柏林核心集(Dublin Core)已成为一种国际范围内标准化了的网络信息资源组织与发现的方法。它是由表现资源内部特征、资源外部特征和知识产权三类的15项数据元素组成。

表1 都柏林核心集“元数据”要素

总之,“元数据”做为网络信息资源组织的基础性元素,为不同形式的网络信息资源的组织提供了必不可少的底层素材,进而形成了不同形式的“标识语言”(markup language)。

2 网络信息资源的组织形式

网络信息资源的组织方式是以“标识语言”为体现的,其功能是用一些特殊的符号为一些需要强调或有特殊含义的词句加上标识,或在一些内容间建立联系。目前,“标识语言”的核心主要有超文本标识语言(HTML——Hypertext Markup Language)和可扩展式标识语言(XML——Extensible Markup Language)。

2.1 HTML

自从Web出现以来,HTML已经成为创建Web页的标准语言。它提供了固定的预定义元素集,可以用它来标记一个典型的、通用的Web 页的各个组成部分。但随着Web的不断发展, 这种以“信息发布”为己任的“标识语言”的弊端便日益凸现出来。例如,对于不是由典型的组成部分(标题、段落、列表、表格)组成的文档,通过排序、过滤、查找以及通过其他方法使用这些信息的数据库,组成树型分层结构的文档等,HTML的功能则显得苍白无力。文献[7]本质性地概括出HTML下述3方面的不足:扩展性方面(不允许用户设定自己文件的标签或者属性,因而扩展性不好);结构方面(不支持描述数据库和面向对象层次的深层结构规范);数据确认方面(不支持检查输入数据合法性的语言规范)。因此,从网络信息资源组织的角度来看,必须开发出以“面向用户”为导向的标识语言。

2.2 XML

XML是针对HTML的不足由W3C(World Wide Web Consortium)XML工作组而开发出的。该工作组是如下界定XML的,“扩展标记语言是SGML(结构化通用标记语言——structured Generalized markup Language)的子集,其目标是允许普通的SGML在Web上以目前HTML的方式被服务、接受和处理。XML被设计成易于实现,且可在SGML和HTML 之间互相操作”。可见,XML是综合创新的结果,即:XML保留了SGML的可扩展功能,这使XML从根本上有别于HTML。XML要比HTML强大得多,它不再是固定的标记,而是允许定义数量不限的标记来描述文档中的资料,允许嵌套的信息结构。HTML只是Web显示数据的通用方法,而XML提供了一个直接处理Web数据的通用方法。HTML着重描述Web页面的显示格式,而XML着重描述的是Web页面的内容。

具体而言,XML具有以下主要的特点:良好的数据存储格式、 可扩展性、高度结构化、便于网络传输。其主要有以下3个模式:

Schema(模式):规定了XML文件的逻辑结构,定义XML文件中的元素、元素的属性以及元素和元素的属性之间的关系,还可以帮助XML 的分析程序检查XML文件标记的合法性。

XSL(Exrensible Stylesheet Language ——可扩展样式语言):规定了XML文档样式的语言, 他能在客户端使网络浏览器改变文档的表示法,从而不需要再与服务器进行交互通信。

XLL(Extensible Link Language ——可扩展链接语言):极大地扩展了目前网络上已有的链接方式。

尽管XML还处在开发、完善阶段,其标准正在由W3C组织制定,但是已经有许多公司表示全力支持XML,如Microsoft公司推出的IE4.0 已经可以显示、处理和编辑XML文档,Microsoft公司作出承诺,要在下一个版本的Office软件如MS Word、Excel中支持XML。此外,IBM、Netscape、Sun公司也对XML及其工具的开发给予了极大的投入。为什么世界著名的网络服务公司对XML如此青睐?这主要是他们预见了XML对未来网络信息服务模式的不可逆转的影响。

3 网络信息资源服务的趋向

被喻为“搭积木”方法的XML, 作为底层的信息组织技术无疑会对其上层信息服务的模式产生深远的影响。XML 将在以下几个方面对网络信息服务的模式产生相应的影响。

3.1 网络服务模式由水平(综合)向垂直(专业)发展

以XML 为基础的专业化的标识语言昭示着网络信息服务将逐渐由水平(综合)向垂直(专业)发展的态势。随着XML技术的不断发展, 逐渐出现了一系列以之为基础的专业化的标识语言。如应用于描述化学和数学公式的标记语言CML和Math ML。自Web问世以来, 数学家们终于可以使用Math ML将数学公式精确地显示在浏览器上。为了满足B2B 和B2C的电子商务模式,专门从事电子商务活动的扩展式标识语言(ebXML)的标准也出现了。目前,英特尔(Intel)和西门子(Siemens)公司正在进行将XML用于电子商务中的供应链管理的过程中。此外, 旨在网络环境下提供一种基于XML 的语音合成和应用的标识语言——语音合成标识语言(The Speech Synthesis markup Language——SSML)也在W3C 的支持下由语音浏览器工作小组(Voice Browser Working Group)进行开发研究。可见,类似上述的基于XML 的专业化的标识语言为由综合化的网站向专业化的网站转轨打下了基础。它无疑也代表了未来网络服务模式的走向。

3.2 具有“语义”的网络信息组织与服务

HTML的一个明显缺陷就是其无法反映网络信息的语义关系。但随着网络及其相关服务的发展,具有语义功能的网络服务便显得不可或缺。目前,开发这种具有语义功能的网络的关键性技术随着XML 等技术的发展而初步具备了,它可为用户提供一个可以以智能化软件逐页进行内容浏览,并为用户完成复杂任务的环境。这种具有语义功能的网络可发挥出其独特的基于网络内容的组织与服务。如XML主题图(XML Topic maps)就又是一项具有诱人前景的技术。XML主题图旨在WWW的内容中提供将浩如烟海的分散的信息进行合成,并对不同的内容加以集中的信息交换的解决方案。这种利于世界范围内“知识”交流的方案又进一步地实现了英国著名情报学家B.C.Brookes“知识地图”的远景。

3.3 高性能数据存储与检索

XML提供了集成化的全文本检索及用于存储XML文件的数据库技术,并从其所提供的统一界面检索信息。因为,一旦XML成为了结构化文件和数据库的标准,该高性能的信息检索系统可以大大减少其投入和产出的成本。

数据仓库和知识挖掘是网络存储及检索技术的进一步拓展。XML 透明的结构化的信息组织方式得天独厚地促进了“面向主题的、集成的、非易失的且随时间而变化的数据集合”技术的进一步实现。

4 结论

总之,网络信息服务的模式将随着从以“发布信息”到以“揭示信息”为导向的网络信息组织方式的发展而不断演进。目前,基于XML 的技术而带来的网络服务模式的变化便明显地体现了这一特点。如上述由水平向垂直发展的网络服务模式的变化;具有“语义”功能的网络服务模式的拓展;高性能数据存储与检索性能的日益凸现;XML 与无线协议标准相结合而形成的无线标识语言(Wireless Markup Language——WML)就是有力的佐证。

标签:;  ;  ;  ;  ;  ;  ;  ;  

网络信息资源组织与服务的辩证分析_xml语言论文
下载Doc文档

猜你喜欢