网络信息分类系统发展趋势研究_用户研究论文

网络信息分类系统发展趋势研究_用户研究论文

网络信息分类系统的发展趋向研究,本文主要内容关键词为:系统论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号G250.72 G254.1

自从因特网诞生以来,人们就开始了对网上信息资源分类的研究,网络信息分类系统也随之出现。用分类法来组织网上信息资源,可以有效筛选与过滤信息,在一定意义上屏蔽了网络资源相对于用户的复杂性,有利于提高信息检索的查准率。由于形势的发展,网络信息分类系统也面临着多方面的变革。

1 编制机构协作化

协作化表现在三个方面:网络公司与图书馆协作、馆际协作、通过链接方式协作。

1.1 网络公司与图书馆协作

从编制主体看,目前的网络信息分类系统大体上可分为两类,一类由网络公司编制,另一类为图书馆编制。

网络公司人员的优势是精通计算机技术与网络技术,了解网上信息属性,重视普通用户需求,因此设计出的分类体系体现了鲜明的网络环境特点,具有较好的实用性。但其弱点是缺少情报检索语言理论的指导,不重视知识体系的完整性和逻辑性,在处理网上信息时往往只根据个人的理解,随意性较大。所以这种系统缺乏严谨的科学分类、知识分类的理论基础,逻辑性和完整性较差,在知识体系的建构和展示方面还有不少缺陷。由网络公司编制的分类系统主要是具有分类查询功能的搜索引擎,英文的有Yahoo!(http://www.yahoo.com)、Galaxy(http://www.galaxy.com)、Excite(http://www.excite.com)等,中文的有搜狐(http://www,sohoo.com.cn)、网络指南针(http://compass.net.edu.cn:8010)、网易(http://www.yeah.net)、Yahoo!中文版(http://cn.yahoo.com)等。

图书馆员的优势是拥有扎实的文献分类学、信息管理学以及情报检索语言学等方面的理论知识,重视知识体系的完整性和逻辑性,强调词汇控制。但相对来说,他们对网络技术、网络信息、网络环境、网络用户的研究还不够深入,因此其所建系统大都具有知识体系建构完整、实用性较弱的特点。图书馆建立的网络信息分类系统有英国爱丁堡Napier大学图书馆的The Internet Resource(http://www.napier.ac.uk/depts/library/iintres/ir00099.html)、美国伯克利公共图书馆的“图书馆员因特网索引”(Librarians Index to the Internet”,简称LⅡ,http://sunsite.berkeley.edu/internet.index)、美国加州大学河边分校图书馆的“信息矿藏”(InfoMine,http://infomine.ucr.edu.Main)等。

由此可见,网络公司人员与图书馆员在知识结构等方面存在着明显的差异,互有长短。在建立网络信息分类系统方面存在着坚实的合作基础,双方合则双美,离则两伤。现在人们已经逐渐认识到了这个问题,并开始了双方合作的实践。

1.2 馆际协作

在建立大型网络分类检索系统时,单个图书馆往往力不从心,进行馆际协作已是必然之势。这是传统环境下图书馆之间合作在新形势下的发展和突破,它可以真正做到劳动共享、资源共享。馆际协作的典型的是荷兰的ESS网络信息分类系统,它是荷兰国家图书馆与众多的大学及公共图书馆在馆际合作的基础完成的。

1.3 通过链接方式协作

许多网络信息分类系统一般都具有较强的开放性,十分重视用户的推荐,在自建的同时,往往通过链接的方式建立起与相关系统的联系,通过链接,将有关系统作为该系统使用的相关站点,指引用户直接使用。这种做法促进了系统之间的结合,在一定程度上也具有协作开发的性质。

2 内容范围专业化

随着网络信息的迅速膨胀,人们对网络信息分类系统的关注点也从如何找到更多的信息发展到如何找到准确、有用的信息,查准率成为人们对网络信息分类系统的首要要求。但是,目前大多数网络信息分类系统的信息覆盖面太广泛、而专指性较差。因此人们在查询某一特定学科网络信息时,一方面没有专门的网络分类检索系统,另一方面却又似乎任何一个网络分类检索都可以使用,这样检索效果就很不理想。

鉴于此,专业化将成为网络信息分类系统今后发展的主流。专业化的系统可以使创建者按照预先定义好的专题或专业有选择性地收集相关的网页,这样不仅降低了收集信息的难度,而且提高了信息的质量。由于专业性只涉及某一个或几个领域,词汇和用语的一词/一语多意的可能性降低,并且可以利用专业词表进行规范和控制,这样就使查准率大大提高。

为了便于查询特定学科和专业的信息,人们建立专业化网络信息分类系统的积极性日益提高。瑞典技术大学图书馆依据《工程信息分类法》收入工程技术领域的1300余个经过选择的网上资源,建立了“瑞典工程电子图书馆”网络信息分类系统。美国数学协会依据《数学主题分类法》,组织与数学领域有关的网络站点和网址建立了“数学主题分类资源”系统。加拿大多伦多参考图书馆的“业余爱好者天文学分类检索系统”(http://www.mtrl.toronto.on.ca/centres/bsd/astronomy/index.html)基本上是一个依据DDC建立起来的有关天文学的网络分类检索系统。英国Wales Akbervstwyth大学Thomas Parry图书馆针对图书馆学情报学资源建立了“PICK:Quality Internet Resources in Library and Information Science Aberystwyth”网络分类检索系统。美国计算机研究文献中心建立的“计算机研究资源”系统收入计算机方面的网络资源。英国高教系统图书馆的“艺术、设计,建筑、和媒体检索系统”主要收入艺术等方面的网址。以特定地区或对象为目标的专门检索系统,则收入有关该专门对象的站点。如加拿大国家图书馆的Canadian Information by Subject(http/://nlcbnc.ca/caninfo/esub.htm)加拿大“主题系统”只收录与加拿大有关的网络资源。以中学生为对象的“没有围墙的学校”只选择适合少儿需要的网络资源。

3 类目体系多维化

由于传统的分类法主要面向印刷型文献,主要是为了满足图书单线排架的需要而编制的,因此它以学科分类和逻辑划分为基础形成了严密而深细的分类体系。在类目展开时,通常只采用一个标准。为了适应不同用户的需要,有时虽然也采用多个分类际准划分,实行多重列类等方法,但由于受线性结构的局限,在实际标引时,一般采用选择的方法(如最前标号法、最后标号法等)对其加以限制,使类目在单维范围内展开,而不允许将同一对象归入到按不同标准划分的不同类目中,这样就使对象的多重属性无法得到反映,事物的横向联系不能有效地揭示,不利于全面准确客观地反映多维性的知识空间,这样用户因检索角度不同而造成的漏检的可能性大。在传统分类法的线性体系中,尽管也采用了交替列类、编制注释和参见等来加强类目之间的横向联系,但其所起的作用很有限。并且,这些技术措施不仅绝大多数用户无法准确理解,而且连专业人员都不易掌握,这给读者的利用增加了很大难度。

在因特网上,由于面对的是各种类型终端用户,因此需要网络信息分类系统具有不同角度的检索入口。同时由于信息资源的虚拟性,使分类体系摆脱了对象单线排架问题的限制,允许对信息资源进行全方面的分类揭示。而网上超文本技术和链接技术则为构建多维化的分类体系提供了技术服务。

在网络信息分类系统中,知识的多重从属关系采用交替列类和多重列类的方法揭示,在同一类目下,可以根据用户的需要,从不同的角度、按不同的标准、以不同的次序建立下位类,对同一对象进行多次重复反映,建立若干从属母类的平等子系统。这样,一个子类可以隶属于多个母类,一个母类可以采用多种标准进行划分,同一类目可以在不同的位置重复反映,而网上超文本技术和链接技术取代了传统文献分类法的参见、参照、复分、交替、注释等手段,以将多属类目链接起来。这种多维的分类体系可以使用户通过不同的窗口浏览类目,实现多途径、多视角的检索,自由地在各结点之间进行跳跃式查询,传统分类法中固有的集中与分散的矛盾、知识门类的多重从属关系与分类体系线性排列的矛盾在这里将不复存在。

但需要注意的是,建立这种多维化的分类体系要保证知识体系的严密性以及类目之间逻辑性,不能违背基于人类的基本知识常识。在有些网络信息分类系统中,由于设计者缺乏情报检索等方面的知识,类目设置的随意性大,类目关系缺乏规律性,有时甚至出现隶属关系混乱的情况,如东方网景把教育列于自然科学类下,网易在文学类下列出人文历史和宗教。这些都是需要改进的。

4 类目层次缩简化

传统的文献分类法为典型的树状多层次结构,它根据知识的内在逻辑,按照统一标准,信息资源采用从总到分、从宽到窄的划分方式,构成比较纵深的等级结构。而网络的使用对象涉及所有终端用户,如果网络信息分类系统严格按照传统分类体系过细划分类目层次,虽然可以增强知识的系统性,但却可能使用户需要读取10层页面,费时费力,很不方便。因此,为了使系统适合终端用户的使用习惯,增加其易用性,网络信息分类系统将类目体系展开的深度要限制在一定的范围以内。

据研究,类目的层次一般控制在三四层比较合适,最多不要超过6层,否则容易使用户失去浏览的兴趣。相对来说,专业性的系统可以根据需要适当延伸。为控制类目层次,在类目的设计上可以不局限于按单一标准的逻辑划分,可以考虑使同时用若干标准对某一上级类目进行划分,建立若干从属于上级类目的平等的子类,这样不仅缩简了类目层次,而且可以满足用户多途径、多角度检索的需要。

当前,使用杜威十进分类法的网络系统,多数将类目的划分深度保持在三级左右。而美国伯克利公共图书馆的“图书馆员因特网索引”(Librarians Index to the Internet”,(http://sunsite.berkeley.edu/internet.index)分类体系只包括两级类目。信息矿藏 (InfoMine,http://infomine.ucr.edu.Main)分类体系只有一级,“没有围墙的学校”也只有一级。在我国,网络指南针类目为三级,网易的分类检索共分二级类目。

5 类目显示直观化

为了增加系统的实用性与易用性,减轻用户的认知负担,网络信息分类系统在类目显示呈现出与传统分类法不同面貌,即非常重视其直观性。这一点主要体现在三个方面:类下说明扩大化、类目反映提前化、类目显示导航化。

5.1 类下说明扩大化

一些大型网络信息分类系统一般通过点击上位类类目来分层分面显示各级下位类。为了便于用户正确判断类目的内涵与其外延,越来越多的系统开始增加类下说明,其做法是在上位类下面列举出该类所包含的主题或进行注释,通过简练的述评进一步明确其范围或某些不易判断的类目的归属,这种做法有助于克服传统分类法某些类名过于概括的不足。我国的北极星网络信息分类系统(http://www.bejijixing.com.cn/)对所有二级类目都进行了注释。

5.2 类目反映提前化

为了便于用户以最便捷的方式查询到系统提供的热点信息和重要资源,可以通过重复反映的方式,根据信息量和访问频率凸现某些重要信息的级位,提前设置重点类目,将系统最有价值的内容放在突出位置。即选择那些极为重要也就是点击频率较高的类目除在相应位置上设类的同时,还根据使用需要,通过设置镜像类目,以链接的方式在上级类目中对其提前反映、重复显示。这种形式从表面上看打破了原有的逻辑等级层次,但它却有助于系统及时反映用户需求和网络资源的动态变化,方便用户对热点类目的使用,使网络信息分类系统具有传统分类法所没有的动态性。例如,目前很多网络信息分类系统将用户查询频率高的内容如电脑类、互联网类、教育类、新闻媒体类等从科学技术和社会科学类目中拿出来,提前单独列类。

5.3 类目显示导航化

为了防止用户在查询过程失去方向,对当前页面路径迷茫,许多系统正在采取措施,以有效揭示类目的上下级关系。其主要思路是:对上通过在屏幕上显示其上位类等级的方法揭示当前类目的位置,增加对当前类所属各级类目的返回链接,可通过点击直接回访相应的上位类,便于类目的识别与转换;对下采用级联菜单形式,即通过单击或将鼠标移动至选定类目上就在类目右端出现全部下位类类名,双击选定的类目就可进入该类的查询结果页面。这种导航技术可以使用户在各级类目中自由跳转而不迷航,节省了查询时间,避免了不必要类目点击与页面打开。

6 同位类排列规范化

同位类的排列是反映网络分类体系基本特征的一个重要方面,它直接影响同级位类目之间关系的揭示。但是,目前网络信息分类系统的同位类排列却存在着不少问题,许多系统的类目间逻辑关系混乱,类目排列随意,缺乏严谨性和逻辑性,无规律可循,跳跃性过大。

大致分析起来,当前我国网络信息分类系统类目的排列主要有三种情况,一是按类目的字顺排,这种排列借鉴了英文分类搜索引擎的同位类组织方式,但由于汉字字顺排检不如西文便捷,而且由于它割裂了类目之间的逻辑关系,因此其实际效果并不令人满意;二是按类目检索价值及重要程度排,检索频率高的类目排在前列。这种方法也不能揭示类目之间的相关性,并且由于多种原因,它在实践中缺乏稳定性,往往不能坚持到底,因此它不仅不能给用户带来便捷,而且在多维揭示的情况下,还会加剧类目的无序和混乱状态。三是同位类随意排列,这种排列是最差的一种,其检索效果可想而知。

由此看来,当前我国网络信息分类系统在同位类排列方面的情况并不令人乐观,形成这种情况的重要原因之一是系统的创编者缺乏文献信息分类和情报检索语言方面的知识,对传统的文献分类体系研究不深。为了改变这种情况,我们有必要在新的层次上向传统的文献分类法回归,合理借鉴和移植传统文献分类法在同位类排列方面规范、科学的做法:首先应按知识的逻辑次序和重要程序排列,只有无明显逻辑联系的才使用字顺排列,这样,对用户理解和把握知识体系是有较大帮助的。

7 类名语言自然化

整个网络信息分类系统的类目体系在很大程度上是通过类名来实现和表现的,用户也是通过类名来识别和选择检索路径的,因此,类名应该正确反映类目的内涵和外延。

在传统分类法的设计过程中,一些专家和学者十分强调类名的科学性和专业性,但却有意无意地忽略了读者的利益。而在网络信息环境下,用户获取信息的方便性和易用性越来越受到重视。由于网络用户的范围十分广泛,他们的职业、学历、知识储备和知识结构、上网的目的各不相同,这一切又导致了用户利用网络信息分类系统的视角、方法、类型、深浅程度也有很大的差异。在这种情况下,如果类名的语言表述过于专业化,就会增大类名语言与用户语言的差距及两者匹配的难度,降低检索效率,给用户利用网络信息分类系统带来障碍。有鉴于此,对网络信息分类系统类目的命名除了要保证其科学、确切、简洁以外,更要格外注意面向终端用户,类名用语专业性不宜太强,要尽量采用自然语言,以增加类名的透明度,满足广大普通用户的需求。

为了在类名语言方面给用户以充分的支持,缩小信息表述的差距,加大类名语言自然化的程度,可以考虑建立一个智能化的控制词表系统,通过控制词表的后台工作,实现用户自然语言与类名标引语言的相互转换。这个系统具有自学习功能,除能不断建立和调整控制词表中的词间关系以及词语与类目的关系外,更重要的是它能根据用户自然语言的使用频率与表述方式不断调整和更新类名标引语言。这样就可以使类名系统适应网络资源以及用户需求动态化的特性,实现人工语言和自然语言的和谐统一。

8 标引技术自动化

由于网络信息资源具有数量大、范围广、类型复杂、动态性强等特点,因此与传统文献分类体系相比,网络信息分类系统对自动标引的需求更为强烈,自动标引可以减少人力与物力的消耗,提高工作效率。但由于技术的限制,当前有相当一部分网络信息分类系统采用的还是人工标引。人工标引不仅成本高,费时长,而且其较慢的标引速度更直接影响了系统对网络资源的收录数量以及系统的更新周期。为此,国外一些机构正在研究将神经网络技术、机器学习技术以及自然语言的处理技术等应用于网络资源的自动分类,还有一些研究者将基于匹配的、自组织特征映射模型的自动分类方法移植到因特网信息的分类。美国OCLC尤的蝎子计划(Scorpion Project)是一个将分类主题一体化语言应用于网络资源自动分类标引研究计划。由于中文的特点,目前我国网络信息资源标引自动化的研究主要包括语词的切分与识别、主题概念的分析与提炼、自然语言向受控语言的转换等。其中,进行分类转换的关键是建立起一个完备的语词——分类体系的自动转换系统。

当前,鉴于相关技术并不完善,自动分类标引还存在语义判断精度不够、准确率不高、容易造成误检和漏检等不足,因此还需要人工干预来弥补。解决这个问题可以采用自动标引或人机结合标引的方式,即上计算机进行标引,由人工进行质量控制和调整。

标签:;  ;  ;  ;  

网络信息分类系统发展趋势研究_用户研究论文
下载Doc文档

猜你喜欢