传统图书馆、门户网站和数字图书馆信息组织方式的比较_数字图书馆论文

传统图书馆、门户网站和数字图书馆中信息组织方式的比较,本文主要内容关键词为:门户网站论文,数字图书馆论文,图书馆论文,传统论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

清华同方光盘股份有限公司TPI协办

信息组织是用户检索获取信息的基础,信息组织的方式随着信息技术的发展不断变化,目前信息组织主要通过传统图书馆、网络和数字图书馆来进行。本文对传统图书馆、门户网站及数字图书馆的信息组织方式的特点进行论述和比较。

1 传统图书馆的信息组织

图书馆经历了三个阶段,第一阶段以馆藏为中心,馆藏形式是印刷型出版物,手工工作方式,对馆藏文献内容不加工;第二阶段仍以馆藏为中心,馆藏形式在印刷型出版物的基础上增加了少量电子出版物,对书目数据及专题数据库进行自动化加工和检索,对馆藏文献内容基本不加工;第三阶段,以用户为中心,馆藏形式为数字信息资源,对文献的内容进行自动化加工,使馆藏有增值效应。本文所指的传统图书馆是图书馆发展的第一、二阶段,即以图书馆馆藏为中心的、馆藏形式主要是印刷型的书刊文献和少量电子出版物,只对书目数据进行手工或自动化加工而对文献内容基本不进行加工的图书馆。传统图书馆对馆藏文献的加工主要采用两种方式:分类和编目。

1.1 传统图书馆对文献的分类

传统图书馆都采用严格的分类体系,国内的图书情报部门主要采用《中国图书馆分类法》(简称中图法)、《中国科学院图书馆图书分类法》(简称科图法)和《中国人民大学图书馆图书分类法》(简称人大法)。这三部分类法在传统图书馆中的文献分类、建立分类著录卡片、建立分类索引工具中发挥了重要作用,并且目前还在沿用。这三种分类法都属于线性分类法,也称层级分类法,它是将分类对象按所选定的若干属性或特征逐次地分成相应的若干层级的类目,并排成一个有层次的、逐级展开的分类体系。即都是根据分类对象所揭示的主题属性进行类目划分,对书刊文献分类标引以后就可了解标引对象的主题特性,因此很多传统图书馆的书刊文献排架是根据书刊分类号进行的。对于图书馆专业人员来说,他们对分类号极为熟悉,乐于使用;而对于普通的用户来说,他们很少了解这种科学而严谨的分类法。

1.2 传统图书馆的文献编目

在图书馆发展的第一阶段,国内图书情报部门主要是根据国家图书馆出版的《国际标准书目著录(ISBD)》、《中华人民共和国国家标准,文献著录总则》、《中国文献编目规则》(以下简称规则)和《西文文献著录条例》(以下简称条例)对中文和西文图书期刊进行著录,建立责任者款目、题名款目、主题款目和分类款目,并组织各种目录或书目供读者检索。在图书馆第二阶段国内图书情报部门主要根据CNMARC和USMARC进行编目,通过对MARC数据抽取字段和子字段制作各种检索点。无论是手工编目使用的《规则》、《条例》还是计算机编目使用的《中国机读目录格式》(CNMARC)、《美国机读目录格式》(USMARC),都是图书馆界经过长期研究规范制定的信息组织的标准依据。编目注重对文献外形特征的描述,如题名、责任者、出版发行者、版本、载体形态等等。书目数据和馆藏文献数据是分离的,不用说手工卡片书目数据及计算机存储的机读目录与它所描述的印刷型出版物是分离的,就是机读目录描述的是一种数据库(如学术期刊全文数据库),它与数据库本身也是分离的。编目数据可以采用关系数据模型,存储在传统的关系数据库中,通过建立含有各种检索点的倒排表和索引文件,对其进行快速检索和定位。《规则》、《条例》、《CNMARC》、《USMARC》编目格式都是极其复杂,除非经过严格的训练。我国编目工作人员须经认证资格培训和考试后才能进行编目。

由此可见,传统图书馆对信息的组织重在外在,数据描述质量高,结构化程度高,但可扩充性差,编目效率低。

2 门户网站的信息组织

目前,门户网站对网络资源的组织主要有两种:网络目录和搜索引擎。网络目录是综合性网站自己的分类法,它的信息组织模式则是采用了分类法原理。搜索引擎基本上都采用关键词匹配的检索技术,其本质是主题法在网络信息组织中的应用。网络信息组织发展到今天,它已不再是单纯地利用某一种原理来组织信息,而是将主题法和分类法进行兼容与整合。

2.1 门户网站的分类目录

门户网站的发展初期,类目设置没有经过严谨科学的规范,只是本着实用主义的原则而设置的,因此它不像传统分类法的类目设置那样以学科种类的划分来揭示和组织信息,也不能反映知识的全貌和内在逻辑性。

门户网站使用它们自己设计的分类表来组织Internet上的知识,这类由网站自己开发的分类表被称为自编分类表。类目是按一定的主题进行组织,并辅之以年代、地区等分类形成分类主题树状结构目录。自编分类表与传统图书馆分类法并非没有联系,表1是三大门户网站与《中图法》的类目相对应情况,说明大部分类目与传统的科学分类法还是相对应的。但从网站或搜索引擎的分类体系来看,充分展示了随意和实用特点。这种分类类目的设置与传统分类类目设置相比,其缺点很明显:(1)类目设置不够全面;(2)类目之间有交叉;(3)类目之间无严谨的层次关系和隶属关系;(4)类目设置动态性强。但这种分类是在网络平台上,与传统分类相比,类目与信息记录之间通过超文本技术直接连接,可以加强交替类目、参见与注释类目之间的横向联系,加强多重列类的纵向联系,可以揭示知识空间的多维联系,使用借助层层链接来实现。而对于不了解分类法的普通用户来说,可以根据规定的分类的树状结构体系,逐级查看,按图索骥,简单而方便。但必须注意对类目体系深度予以控制,减少网络迷航。

表1 门户网站与中图法(第4版)类目对比表

Google Yahoo Sohu

Sina 163

一级类目数 161418 1819

一级类目与中图法5 7 7 8 5

一级类目相一致数

一级类目与中图法3 3 5 4 5

二级类目相一致数

合计百分比

50.0% 71.4% 55.6% 55.6%   52.6%

(分析的类目来自2004年4月2日各网站分类目录)

2.2 门户网站的搜索引擎

搜索引擎在网络信息组织中是利用主题法原理进行信息组织的,通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供检索服务。搜索引擎的工作过程主要分为三步:(1)定期自动搜索有关Web站点,采集各类信息资源;(2)自动对这些资源进行标引、著录、并将结果组织到数据库中;(3)提供基于Web的检索和各种检索限制,并可按相关度、时序等标准输出检索结果。搜索引擎分析具有下述优点:第一,检索方法简单易用,用户可根据需求自拟关键词;第二,检索入口丰富,用户可根据自己的信息需求从多个方面进行查找;第三,检索速度快捷;第四,提供二次检索的机会。尽管有诸多优点,但搜索引擎的查全率太高,精度太小,往往相关性很高的信息被信息洪水所淹没,这是网络搜索引擎的致命弱点,是由搜索引擎的信息组织技术导致的。

网络搜索引擎通过网页搜索机器人Robot从一个事先指定的URL列表出发,提取该网址的网页,并通过页面分析得到其中的链接,然后以宽度优先准则、深度优先准则或启发式准则提取其他本站点或其他站点的页面。目前,搜索引擎基本上都采用全文检索技术,该技术的关键在于将网页中的文本以适当的形式记录到索引库中,最常用的、也是最有效方法是文本信息的基元表示。西文网页的基元就是西文单词,对于中文网页,基元可以是单个汉字,也可以是词或词组,因此中文网页有基于字表的索引和基于词表的索引两种方式。字表法检索速度低,错检率高;词表法以词为索引基元,它需要对被索引的文档进行词条切分。词表法索引的建立较复杂,漏检率较高,且不能进行单字和任意字符串的检索。这种全文检索系统通常采用倒排序建立索引文件,以检索基元作为索引项,相应的记录项中包含网页的编号以及检索基元在网页中的位置和权重。但搜索引擎大多都没有建立索引词之间的相互关系,没有分析文本信息中词与词之间的关系,因此导致搜索引擎的检索没有传统图书馆那么的精准。正是由于搜索引擎这种信息组织方式缺乏控制,使其信息命中率较低,相关性也较低;另外,由于利用关键词和检索式查询,许多网络信息用户不熟悉检索式的应用,况且许多信息用户的信息需求较为模糊,需随着信息查询的深入随时调整自己的检索策略,这些缺点使以主题法为原理的搜索引擎难以在更深层次加以推广。

3 数字图书馆的信息组织

十几年来,数字图书馆的研究和发展,形成了数字图书馆的三种主流模式,即特种馆藏型模式、商用文献型模式和服务主导型模式。特种馆藏型模式数字图书馆是将本馆特色馆藏数字化;商用文献型模式是一些文献服务公司、出版社、代理商等建立的一种商用文献型的数字图书馆,提供全文的期刊、杂志和电子图书等,如超星数字图书馆、中国学术期刊全文版等;而服务主导型数字图书馆则建立在资源整合的基础上,以向用户提供知识服务为目标,这才是真正的数字图书馆,它的体系结构是以三种主要数字化资源为基础,由统一信息访问平台、网上参考咨询(VRD)平台为两翼组成。统一信息访问平台主要解决异构平台的信息资源检索,向用户提供方便检索的统一界面,提供不同数字图书馆的互操作;网上参考咨询平台主要解决用户在访问数字图书馆时的疑问。这两个平台对一个实用的数字图书馆是不可缺少的,在系统结构上有些是相互渗透的。

服务主导型数字图书馆主要体现“以人为本”的主导思想,它的根基是对分布的资源进行整合,落脚点在于服务,这种服务应是个性化定制的、推拉式的。资源整合是通过对散乱列序、相互孤立的信息进行有序化组织、进行知识关联;而个性化服务通过为用户提供友好的交互界面,使用户可以按照自己的目标和需求,设定自己的信息来源、表现形式、网络功能、服务方式,并通过智能检索与椎拉服务,达到真正的服务主导型数字图书馆的服务高效化。这种数字图书馆的发展,必将影响信息组织、信息存储、信息检索等方面。本文将主要讨论服务主导型数字图书馆信息资源组织的方式。

3.1 服务主导型数字图书馆的分布组织

服务主导型数字图书馆以数字对象为组织单元,通过指针、元数据和数据将信息资源进行组织。在总体上遵循数字图书馆分布式组织,即存放在不同地方的信息资源,借助于数字图书馆的标准开放框架进行互联,在总体上构成一个分布式的系统。数字图书馆实际上是计算机可处理的信息集合,或者说是通过互联网连接起来的数字资源库群,是实行分布式管理的信息和知识共享的计算机系统。其主要特征是多媒体数字化共享资源、跨平台跨语种网络化存取、计算机系统分布式管理以及智能化服务。数字图书馆的功能已经大大超过了传统图书馆范围,并以信息集成为显著特征。服务主导型数字图书馆重心在知识服务,该模式的数字图书馆在微观上主要考虑元数据的组织、索引文件的建立、索引词之间的相互关系的参照,即其信息组织必须融入知识组织系统。

对于元数据(Metadata)是Internet中组织信息的重要工具,在信息界已经达成共识。英国的UKOLN(The UK Office for Library and Information Networking)对现有的多种元数据类型进行了分析和比较,并把他们分为三个级别。级别一是相对来说未经结构化的,特别是从资源中自动制取并索引的。它们格式简单,一般由搜索引擎产生。级别二中包括的元数据允许使用者不同对资源进行检索或联系,就能对资源的用途或重要性进行判断。级别三包括的元数据具有复杂的描述格式、详细的标识,能用于定位和发现,还可用于对对象的证明和收藏,但需具备专业知识来制作和维护。级别三之中的代表是MARC。它主要用于组织专业性较强的学术性信息,由于上述所谈的MARC格式的自身特点,因此在网络信息组织并不十分常用。比较常用的是级别二中都柏林核心集(Dublin Metadata Core Element Set,简称DC),它是1995年由OCLC(联机计算机编目中心)与NCSA(美国超级计算机应用中心)联合创立的一套描述网络资源的方法,是一种为实现网上资源的揭示和索引,便于非专业人员了解信息资源特征的著录格式。DC仅仅指定15个基本元素来描述网络信息,但它并没有一个成型的语法体系。RDF(Resonrce Description Framework,即资源描述框架)就是一个对结构化的数据进行编码、交换及再利用的体系框架,它通过对通常意义上的语言,语法和结构的支持,从而提供了在各种不同的元数据体系之间的互操作性,一般意义上讲,所有能够被统一资源标识命名钓资源都可心被RDF描述。RDF的宏伟目标是提供一般描述资源的通用机制,它采用XML(Extensible Markup Language,可扩展标记语言)作为交换和处理元数据的通用语法结构体系。具有良好的发展前景。与MARC格式相比,DC主要用于描述网络信息资源,与MARC格式不同DC着重描述信息资源的内容,并且描述信息是嵌入在被描述的资源对象中;用于描述的基本元素只有15个,与MARC格式相比简单得多,无需经过专业培训,信息创建者和描述者都可以使用它进行信息描述。

3.2 服务主导型数字图书馆融入知识组织系统

美国加加州大学圣巴巴拉分校进行亚历山大数字图书馆就是典型的服务主导型数字图书馆,参与该项目的Linda Hill等人提出了数字图书馆的知识组织系统,主要由系统分类和大致分组模式(包括大致分组归类的类表、系统分类的分类表、标题表、知识分类表)、元数据的系统模式(包括指南、地名辞典)、关系模式(包括实用分类系统、语义网络、叙词表)、和词汇单(规范文档、字典、术语表)组成。从该数字图书馆融入的知识组织系统可以看出,在服务主导型数字图书馆中重在实用分类系统和语义网的建设。

所谓实用分类系统的主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,并且应用面向对象的方法按需要给一些类目加以更细的定义(如特性、限制、推理规则等)。实用分类系统与传统知识分类工具的一个根本区别就是表中的要领、特性、限制条件等内容都是计算机可读的,因而实用分类表中的知识定义是可以被反复利用的。实用分类系统不只是传统意义上的对图书信息的分类,更重要的是实用分类系统在信息系统和数据库的设计中起着规范数据含义的作用,从而为语义网的实现提供了一个必不可少的语义基础。

所谓语义网(Semantic Web)最早是由BernardLee在1998年提出来的。简单地说,语义网就是机器可理解的信息,是数据网或全球性的数据库。因特网联盟(World Wide Web Consortium,简称W3C)把语义网定义为因特网上数据的表述,是当前因特网的延伸,因为信息有清晰明了的含义,使得人与计算机能够更好的合作。

语义网实际上是一种智能网络技术,能理解人类语言,并能推理,不仅可以理解词和概念的涵义,而且还能理出其间的逻辑关系。语义网技术一夜之间得出的组合方式将比一个人穷尽一辈子心力想得到的还要多,有助于我们提高自身的直觉和分析能力,促进全球范围内不同文化背景的人们之间合作。美国互联网之父伯纳斯·李希望到2005年用“语义网”取代目前的万维网。他将互联网变成一个巨型大脑,每一台接入互联网的电脑都能享受人类自5000年以前的全部知识,现在全世界都在关注语义网问题。

服务主导型数字图书馆的许多功能都依赖于实用分类系统,而实用分类系统的产生构造则与图书馆的传统知识管理工具有着密切的联系。图1是一个粗略的示意图,实用分类系统在语义网中起着核心的作用,而传统图书馆知识管理工具(分类表、叙词表)可以作为一个重要的资源,经过加工处理再用到实用分类系统中。实用分类系统中数字图书馆上的应用表现在可以为自动从信息来源中制取元数据提供知识库和规则,也可以提供智能信息服务。

4 结束语

综上所述,传统图书馆、门户网站和数字图书馆的信息组织具有各自特点,在信息资源形式、组织工具、工作方式等方面存在明显区别(见表2),同时又需要改进和完善,随着科学和技术的发展,3种形式的信息组织将进一步相互借鉴,为用户提供更全更准的信息服务。

图1 语义网的运行图

表2 传统图书馆、门户网站、数字图书馆信息组织的区别

传统图书馆 门户网站数字图书馆

印刷型及少量

信息资源形式 电子出版物

网络信息资源 数字信息资源

自制分类表、搜实用分类系统、

组织工具 分类法、MARC索引擎 语义网、知识库

对书目数据及

工作方式 专题数据库进 对网络信息进 对文献内容进

行自动化加工 行自动化加工

行知识组织

组织对检索相

关性

较高

低高

增值效应无

无有

收稿日期:2004-06-30

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

传统图书馆、门户网站和数字图书馆信息组织方式的比较_数字图书馆论文
下载Doc文档

猜你喜欢