分类在信息网络中的应用_文本分类论文

分类在信息网络中的应用_文本分类论文

分类法在信息网络中的应用,本文主要内容关键词为:分类法论文,信息网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类法在传统的文献管理和手工检索中一直起着举足轻重的作用,这是其它任何一种检索语言都无法替代的。尽管叙词法在计算机检索系统中的应用较之分类法更为广泛,但这并未从根本上动摇分类法在知识和信息组织的传统统治地位,尤其在中国这样一个仍然以手工检索为主的国家,分类法更是有着十分广泛的应用基础。随着信息网络的发展,信息量和信息种类大大增加,除了传统的文献信息外,还包括大量的图形、图像、声音、视频等电子信息,信息组织的对象逐渐多样化,其范围也随之扩大,传统的信息组织方式已不能满足需要,其中占据主导地位的分类法不可避免地受到挑战,与此同时也面临着新的发展机遇,随着分类法在信息网络中的使用增多,沿用了百余年的传统分类法在网络环境下焕发了青春,越来越多的人开始重新认识分类法的作用。分类法在信息网络中的应用主要表现在下面几个方面[1]。

1 用于联机浏览检索

在信息网络中,用户可以通过计算机终端直接查询各种数据库,各行各业、不同文化层次的人都可以直接利用网络的信息资源,用户成分逐渐多样化、复杂化。由于大多数终端用户没有经过专门训练,对信息组织的手段和方式不够熟悉,缺乏必要的信息检索技能,让这些用户用布尔逻辑构造检索提问式,制订检索策略确实有点勉为其难,因此,越来越多的用户通过浏览检索来确定其不清晰的情报需求,以便根据需要随时调整检索范围。随着浏览检索在联机检索中的重要性逐渐突出,分类法在联机检索系统中的应用也逐渐增多。分类法具有较强的系统性和族性检索功能,其分类体系便于人们浏览一个学科或一个专业范围的情报资料,逐步确定自己的检索范围,因此比叙词法更能适应浏览检索的需要。在现有的联机公众查寻目录(OPAC)中,已有一些系统增加了“浏览周围书架”的功能,对通过任何途径查到的条目,均可由此进入分类系统,扩大或缩小检索范围[2]。

分类法用作联机浏览检索时,须对它作某种程度的改造,使之更加适合浏览检索的要求。据报道[3],OCLC 研究部正在进行一项改造杜威十进分类法(DDC)使之成为因特网(Internet )的浏览检索工具的研究,该项研究采用OCLC的Internet资源数据库NetFirst数据库作试验模型。NetFirst数据库共有55000条记录,每条记录都包含有DDC的分类号,研究人员根据DDC类目在NetFirst 数据库中出现的频率提高或降低用于联机检索的DDC类表中某些类目的级次,使之比标准的DDC类表的类目更具描述性,以适应浏览检索的需要。

2 用于非文本信息的组织

一般的文本型数据库多采用叙词法作为信息组织的主要手段,这是因为用自然语言语词作标识的叙词法能直接专指地表达文献的主题概念,比较适用于文本信息的组织,但如果用它来揭示和描述非文本信息,则有点不敷使用。这是由于非文本信息如数值、图形、图像、声音信息等为非结构化信息,不象书目信息那样格式化、规范化,其内容特征难于用文字来表达。随着多媒体技术的迅速发展,非文本信息在网络信息资源中所占比重越来越大,如何对这些信息进行有效的组织和管理成为亟待解决的问题,分类法的聚类功能及其代码化标识为之提供了一条可能的途径。比方说,我们可以对难于用主题词直接表示的非文本信息特征进行粗分类,将同类信息集中在一起,赋予分类号标识,再结合其它方式使之有序化。

3 用于超文本系统的管理

超文本(Hypertext )是一种将信息网络中的相关信息有机地编织在一起的非线性信息组织方式,它以节点为基本单位,节点间以链路相连,将网上信息组织为某种网状结构,使用户可以从任一节点出发,根据信息间的内在联系,从不同角度浏览和查询各类信息。这种方式非常灵活方便,在查询过程中可随时转换到自己感兴趣的信息,但却有较大的随意性,不少用户在漫无目的的泛泛查询中徒然浪费了许多宝贵的时间,这就需要对它进行适当控制,而直接反映了概念之间相互关系的分类法为之提供了一个有效的控制手段。

分类法的语义关系网络与超文本系统有某种相似之处,将它用于超文本系统,可以起到指南的作用,对用户的检索过程和检索范围进行控制,为不同专业知识水平的用户提供查询信息的捷径。由于超文本系统提供的是非顺序性的浏览功能,因此,那种线性排列的等级体系分类法是不太适合用于超文本系统的管理的,在这方面分类主题一体化词表是比较理想的选择。分类主题一体化词表是一种将分类表和叙词表结合在一起进行统一控制的检索语言,一般以分类表作主表,既保留了完整的等级分类体系,又通过参照系统反映了概念之间错综复杂的关系,能满足多种检索要求。分类主题一体化词表的完善的关系网络可为超文本系统直接利用,用来设计和管理超文本的链路,并为具有不同检索要求的用户提供最经济有效的检索途径。

4 作为网络信息组织的通用工具

用自然语言语词作标识的主题法系统由于受语种的限制,难于达到国际通用性。而分类法以号码作标识,其等级体系反映了概念间内在的逻辑关系,每个概念在这个分类体系中都有相对固定的位置,不会因所用语种的不同发生变化。此外,分类法的等级体系具有很大的伸缩性,一种分类表可供不同单位在不同类目等级上使用。分类法的这些特性使得它在现有的检索语言中最有可能成为国际通用的语言,成为网络信息组织的通用工具。

事实上,目前国际上著名的几部分类法如国际十进分类法(UDC )、杜威十进分类法(DDC)、美国国会图书馆图书分类法(LCC)等都在谋求网络上的应用,并已取得相当进展。例如, 一些图书馆已在用DDC组织和查询万维网(WWW)上的信息资源,DDC正在努力向通用的多语种浏览检索工具方向发展,力求既能用来组织和检索图书馆的馆藏,又能用来组织和查找Internet上的信息资源[3]。

值得注意的是,目前用于联机检索的大多为传统的大型体系分类法。这或许是由于下面几个原因:

(1)这些分类法已经沿用了相当长的时间, 广泛应用于各个图书情报机构,并被翻译成各国文字,在世界上产生了比较广泛的影响,直接将它们用于网络信息的组织,对现有的信息组织体系影响较小,容易被人们很快接受。

(2)这些分类法几乎都是综合性分类法, 其类目范围覆盖各个学科专业领域,具有通用性。

(3)体系分类法的系统性较之组配分类法要强得多, 其严密的等级体系直接反映了知识分类的成果,更适用于联机浏览检索的需要。

(4)这些分类法大多已有机读版, 如DDC 的机读版“ElectronicDewey”已于1993年出版,1994 年出修订版, 1996 年又将同年出版的DDC 第21 版制成用于视窗环境下的机读版发行, 称之为“Dewey for Windows”。UDC的机读版也已于1994年出版,并制成光盘出售。这说明分类法的计算机化已取得相当进展,为它们在网络上的应用创造了前提条件。

5 促进分类主题一体化

分类法在信息网络中的应用将促进分类主题一体化的发展。近几年来,分类主题一体化有了很大进展,越来越多的分类主题一体化词表编制出版,但一部一体化词表的编制出版周期较长,要推广使用更需相当长一段时间。而在联机检索系统中,分类主题一体化检索则较易实现。美国国会图书馆最近制订了一个有关分类数据的机读目录标准格式,在这一著录格式中,LCC的分类号与美国国会图书馆主题词表(LCSH )的主题词和人名记录相对应,有助于编目人员确定合适的主题词和分类号,并可以用来编制分类号-主题词对应表实行分类主题一体化检索[4 ]。另外,在机读版的DDC记录中,也包含有与DDC类号相对应的LCSH的主题词,在其电子版的相关索引中还直接选用了LCSH的主题词,这些作法在一定程度上对分类主题一体化起到了推动作用。

通过对分类法在信息网络中的应用领域、应用现状及前景的分析,我们可以描述用于网络的未来分类法的主要特征:

(1)机读化 这是分类法进入网络的必要前提。 这里所说的机读化不只是将分类法输入计算机,还要对分类法作适应于网络的改造。例如,用于视窗环境的机读版DDC 包含有四个系统定义的配有多种视窗的检索入口以及四个用户定义的检索入口,大大方便了检索,用户甚至可以在DDC的机读数据中自己增加必要的注释[3]。

(2)国际通用性 在网络中应用的分类法必然会跨越国界, 达到国际通用性,这主要表现在两个方面:一是作为网络信息组织工具的分类法几乎都是多语种的; 二是它们具有更少的政治和宗教倾向性,如DDC第21版就对DDC20版的宗教类作了较大的修订,旨在降低其基督教倾向。

(3)兼容性

体现在各种分类法之间的兼容互换及其与主题法的兼容上。目前世界上几部大型分类法都在寻求联合,例如,UDC 与布利斯书目分类法(BC)正在探讨合作修订医药类的可能性,计划借用BC的主题结构编制一新的UDC医药类表,BC同样也可借用UDC的词汇或结构。与此同时,UDC与DDC也在计划合作编制地区表,希望在国家及地区概念的表达上达到一致[5]。 分类法与主题法的兼容即所谓的分类主题一体化,如前所述,分类法在网络上的应用会推动分类主题一体化。

(4)灵活性 传统的分类法具有相当的稳定性, 一般要使用好几年才作一次修订,即使修订也往往是小敲小打,一般不会从根本上改动其结构体系,且从修订到出版的周期很长,这就使得分类法存在滞后现象,许多新学科、新事物、新概念得不到及时反映。而网上计算机化的分类法则具有很大的灵活性,可以随时进行结构的调整和类目的增删改,并能根据网络的需要作较大的改造。

标签:;  ;  

分类在信息网络中的应用_文本分类论文
下载Doc文档

猜你喜欢