适合网络环境的信息分类_搜索引擎论文

适合网络环境的信息分类_搜索引擎论文

适应网络环境的信息分类,本文主要内容关键词为:环境论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

基于内容的分类组织法在纸质图书馆时代,为文献信息的组织和管理立下了汗马功劳,其地位是其他知识组织工具无法相比的。在网络环境下,庞杂无序的信息资源也仍然需要靠分类的途径来进行组织和控制,网络分类目录和搜索引擎就是其产物。

1 分类法在网络环境中的应用

传统分类法是以知识门类的划分来揭示和组织信息的,它客观地反映了知识的全貌及其内在的逻辑关系。这种组织信息的方法符合人类认识事物的逻辑思维方式,因此在网络环境下,分类法仍然是组织与揭示网络信息资源的重要方法。从现有的各种联机数据库、光盘检索系统与网络查询工具的结构与功能看,分类法采用划分范畴的树状结构组织与揭示信息,提供按学科专业或范畴领域检索信息资源的途径,具有很好的稳定性与系统性。它不仅适用于文本信息而且能解决非文本信息、超文本信息等的组织与揭示问题。因特网上许多著名的检索工具如Yahoo、Excite、Infoseek等都是采用分类法组织与揭示网络信息资源的。传统分类法要在网络信息环境下找到自己的合适位置,关键是要在语言特性和信息环境需求之间找到结合点,一般来说,分类法在网络信息环境下的应用主要表现在两个方面,一方面通过分类途径组织网络信息,另一方面提供分类浏览检索。

1.1 组织网络信息

分类法在传统的文献管理中一直起着举足轻重的作用,是其他任何一种检索语言都无法替代的。尽管叙词法在计算机检索系统中的应用比分类法更为广泛,但这并未从根本上动摇分类法在信息组织中的传统统治地位。由于分类法的等级体系具有很大的伸缩性,一种分类表可供不同单位在不同类目等级上使用。这使得它在现有的检索语言中最有可能成为国际通用的语言,成为网络信息组织的通用工具。

分类法的聚类功能及其代码标识为非文本信息的组织提供了一条可行的途径。一般的文本型数据库多采用叙词法作为信息组织的主要手段,因为用自然语言语词作标识的叙词法能直接专指地表达文献的主题概念,比较适用于文本信息的组织,但如果用它来揭示和描述非文本信息,则有点不敷使用。分类法的聚类功能及其代码化标识为之提供了一条可能的途径。比如,我们可以对难于用主题词直接表示的非文本信息特征进行粗分类,将同类信息集中在一起,赋予分类号标识,再结合其它方式使之有序化。

传统分类法是典型的树型结构体系,对知识的组织是采用从一般到具体、从宽到窄层层划分的方式,这种组织方式非常符合人类认识事物的基本思维方式。目前最流行的网络浏览工具Gopher、Yahoo和主题树(Subject tree)都是建立在等级结构上的。DDC、UDC和LCC等分类法都已被用来构建主题树,基于DDC的主题树也已运行于Internet网上。[1]

1.2 提供分类浏览检索

在网络环境下,用户可以通过计算机终端直接查询各种数据库,各行各业、不同文化层次的人都可以直接利用网络的信息资源,用户成分逐渐多样化、复杂化。由于大多数终端用户没有经过专门训练,对信息组织的手段和方式不够熟悉,缺乏必要的信息检索技能,让这些用户用布尔逻辑构造检索提问式,制定检索策略确实有点勉为其难,因此,越来越多的用户通过浏览检索来确定他们不清晰的情报需求,以便根据需要随时调整检索范围。随着浏览检索在网络检索中的重要性逐渐突出,分类法在网络信息组织中的作用也逐渐加强。分类法具有较强的系统性和族性检索功能,其分类体系便于人们浏览一个学科或一个专业范围的情报资料,逐步确定自己的检索范围,因此比叙词法更能适应浏览检索的需要。在现有的联机公众查询目录(OPAC)中,已有一些系统增加了“浏览周围书架”的功能,对通过任何途径查到的条目,均可由此进入分类系统,扩大或缩小检索范围。[1]

分类法用作联机浏览检索时,须对它作某种程度的改造,使之更加适合浏览检索的要求。OCLC于1992年开始因特网信息资源的编目计划,记录因特网信息资源的数据库Net First中,每条记录都包含有DDC的分类号,研究人员根据DDC类目在Net First数据库中出现的频率,提高或降低用于联机检索的DDC类表中某些类目的级次,使之比标准的DDC类表的类目更具描述性,以适应浏览检索的需要。[2]

按事物与学科范畴分类组织信息资源层次清晰,符合人们查询信息的思维习惯,再加上分类法以其分类标识(有号码和语词两种形式)作为检索标识,其等级体系能够反映概念之间的逻辑关系,具有相对的稳定性,不会因语种的不同而变化,因此,分类法最有可能成为国际通用的信息检索工具,成为跨世纪网络信息资源组织与揭示的重要工具。事实也止是如此,如Scropion Project通过编制有关软件,将杜威分类法的相关分类号根据其级别和上下位关系排列出来,并自动地标识到某一特定文献上,达到分类标引信息资源的目的。

目前国际上著名的分类法都非常重视其在网络信息资源方面的应用。其中最具影响的是1996年8月问世的杜威十进分类法DDC第21版电子版"Dewey forWindows"。DDC的Windows专版,其主要进展是通过使用Windows的功能把DDC带进电子信息环境,用于组织各类电子信息资源。电子版本不仅可以在相关索引中列出所需要的信息类号,还可以列出相应的LC主题。

当前无论是局域网还是广域网,除了根据信息外在属性(如地名、代号、文献类型)组织信息与查索点之外,更多的情况是按照信息的范畴(分类)和事物的概念(主题)组织信息。网络查询工具也分为范畴层次查询工具(List-based Search engines)和词语查询工具(Words-based Search engines)。如Infoseek中的 Ultrasmart就是一个以分类列表为主,辅以主题词提问的指南性查询工具。又如我国清华大学制作的《中国学术期刊(光盘版)》(CAJ-CD)的检索系统就是以分类和主题语言为主。由此可见,在网络信息资源日益丰富的今天,分类法与主题法仍然是最主要最有效的组织网络信息资源的工具。

2 分类法在网络目录中的使用

网络中的许多站点都会提供网络分类目录以供用户查询信息,它往往是一种浏览型目录,使用自然语言作标识,是由专家从茫茫网海中挑选出质量较高的网页,依照某种分类法进行组织,并和检索法集成在一起的辅助信息查询方式。网络分类目录具有以下特点:首先,网络目录中的网页是专家人工精选得来,故网页内容丰富;其次,分类浏览方式直观,适合网络新手;第三,有较高的查准率;第四,当检索目的不明确,检索词不确定时,分类浏览方式更有效率。

网络目录在使用分类法时有两种方式,一是自行设计分类法,二是套用成熟的、权威的图书分类法。

2.1 自行设计分类法

自行设计的分类法包括主题分类法、学科分类法及分面组配法等。

主题分类法的特征是一个主题充当一个类目,类目像主题词表一样按字顺排列,而不是以逻辑顺序排列。一个类目又可分为若干细目,同位类的细目也是按字顺排列,这种分类法实质上是分类法和主题法互相融合的产物。它一般设置14个至18个热点事物作为一级主题类目,层次多为4级。最后一级就是列成表的超文本链接点,每个链接点伴有编辑对网页内容的简要介绍。目前绝大多数网站都采用这种方法组织分类目录。主题分类法的优点是以事物分类,和此事物有关的内容全部集中在一起,如汽车大类下包括汽车制造、交易、维修、博览会、汽车书籍和杂志、各种汽车、赛车、高速公路、运输等子类,这种以事物为纲的分类法比较适应交叉学科的主题。但主题分类法容量太小,对网络资源的覆盖率极其有限。

学科分类法是采用科学的分类体系进行分类。如中文搜索引擎“网络指南针”就是采用这种方法,设置一级类目共58个学科,类目按字顺排列,另有二级和三级类目。它的优势主要在于比主题分类法有更大的容量,但要选择内容好的网页来充实这个框架,仅仅靠几个编辑人员是力不从心的,所以,这种分类法以用户提交或推荐网页的方式建立分类系统。

分面组配法的原理是,首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一分面的类目与其它分面的类目分别组配,形成许多组配类目,达到细分的目的。如中文搜索引擎“中华网目”就是采用这一方法,系统设计了两个分面,第一是地域分面,第二是主题分面,查询时,两个分面的类目以及细目可两两组配,组成细分类目。分面组配法专指度高,因此查准率也较高,但对于庞大的、瞬息万变的网络资源来说,编制一个大型的分面组配方案显然是比较困难的。

2.2 套用图书分类法

为了提高分类方案的容量,对网络资源进行大规模地组织与整序,网络目录的设计者将目光投向了大型图书分类法,也就是体系分类法。使用大型图书分类法有几个好处:[1]一是图书分类法以科学体系为基础,体系庞大,在容量上占优势;二是图书分类法为人们所熟悉,有较好的“群众基础”;三是大型分类法不断更新版本,基本上能满足动态的网络信息分类;四是图书分类法有机读版本,网络目录可直接使用。因此许多传统的图书分类法都开始着眼于网络信息的分类。

3 分类法在搜索引擎中的使用

Internet上有数以百万千万计的网点,网上信息的急剧增长使信息查询仅仅依靠逐个浏览网页已不能满足需要,对网上信息进行标引、分类,使信息重组而达到有序化成为决定Internet可用性的重要因素。在此背景下,对网上信息进行精确定位的检索工具——搜索引擎应运而生。搜索引擎是一种对Internet信息源进行自动跟踪标引的新技术,它作为探询网上信息资源宝库的一把金钥匙,自它出现之日起就倍受人们的关注。

以下是对目前网络上较为常用的搜索引擎所使用的分类法进行的比较。

{L1M101.bmp}

从上述表格可以看出:第一,多数搜索引擎提供的分类目录都是由编辑者自行设计的,使用传统图书分类法作为分类目录的搜索引擎比较少。第二,大部分搜索引擎的一级类目都控制在20个左右,二级类目则有多有少,有的搜索引擎在主页上未列二级类。第三,各个搜索引擎的类目在设置上和名称上有很大的相似之处,反映了用户的共同需求。第四,大多数搜索引擎都能提供多种检索途径,但分类目录一般都只设一套,也有少数搜索引擎设有两至三套不同的分类目录。第五,这些搜索引擎的分类目录所采用的分类标准是多重的,反映了信息的不同属性。

4 分类法的未来发展

根据对以上各搜索引擎的分析比较可看出目前搜索引擎在分类过程中规范程度还不高,未来如何对网络信息进行科学地分类,笔者认为主要应注意以下几个方面。

(1)搜索引擎所采用的分类体系。基于目录的搜索引擎将收集到的信息分到某一个类中。典型的基于目录的搜索引擎有两大问题:第一,分类是按分类者或分类软件的分析而定,不一定与用户的意见一致;第二,如果查找的信息没有对应的分类项,则无法进行搜索。因此,将搜索到的信息按一种标准化的分类体系进行分类是比较重要的。

(2)实现中文编码之间的自动转换。当前,网上中文信息存在编码不一致的问题(有的用GB码,有的用BIG5码),许多搜索引擎只能查询某一种编码的中文信息。为了全面查询全国各地(包括台湾等地)、甚至全世界的中文信息,搜索引擎应实现中文编码间的自动转换。

(3)将机器人和人工信息搜寻方式结合起来,做好信息搜集工作。当前搜索引擎的信息搜集方式有机器人自动搜寻方式和人工搜寻方式。机器人方式搜集的信息快速、全面,但质量和准确性难以保证;人工方式速度慢,但搜集到的信息一般准确性高,质量较好。因而,应将两者结合起来,互相补充,从而提高搜索引擎查询信息的质量。

(4)开发集成化网页搜索系统。目前网上大多数的中文搜索引擎都是单搜索引擎。用户在查询信息时必须尝试用所有搜索引擎去找出他所要的信息。而且每个引擎互相覆盖,用户会重复发现一条信息。这说明现有网页搜索系统在搜索结果的数量和质量上还不能满足用户需求。因此,应开发集成化的网页搜索系统,以汇集所有的网页搜索系统,并提供一个统一的界面,用户只需进行一次提问,集成化网负搜索系统就将其适当格式化以后,提交给不同的网页搜索系统搜索,然后将返回的搜索结果进行整理、合并,集成为一个页面或一份报告,带回搜索引擎。这种搜索可大大地节省搜索时间,提高搜索效率,搜索结果也比较全面、准确。现在已出现了一些解决方法,如元搜索引擎和分布式搜索引擎。

(5)采用最新的全文搜索技术,注意全文搜索引擎的开发。目前的中文搜索引擎多以分类为主,再辅之以简单的关键词全文检索方式。这样对信息的查全、查准率都不理想,所以,为了满足用户快速、准确地查询信息的需求,应采用最新的全文搜索技术,开发如主题词、网站名、主机名、题名、作者名等多种查询选择方式并存,功能强大的分类中文搜索引擎。

(6)制定正确反映网页内容的标准语言和格式并倡导实行。要想提高网络资源的查全和查准率,必须对网上最基本的资源单位进行标准规范,每个网页在发布之前,由网页的制作者或专门的人员,对该网页按照一定的标准进行规范,如网页的标题必须能够反映网页的内容,提取能反映网页内容的关键词放在特殊位置,编写网页摘要等。这样做不仅可以大大地提高网络资源的查全率,而且可以极大地降低搜索引擎加工网页的成本和时间。

标签:;  ;  

适合网络环境的信息分类_搜索引擎论文
下载Doc文档

猜你喜欢