网络信息组织中的分类与主题方法_自然语言论文

网络信息组织中的分类与主题方法_自然语言论文

网络信息组织中的分类法与主题法,本文主要内容关键词为:分类法论文,组织论文,主题论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络信息组织就是采用一定的方式,将Internet中某一方面大量的、分散的、杂乱的信息(网站或网页中可索引的公共信息,不包括各种专门数据库的信息)经过整序、优化,形成一个便于有效利用的系统过程。分类法与主题法是网络信息组织的两种最主要的方法。本文拟分析分类法与主题法在网络信息组织中的应用情况,并探讨应用中存在的问题及解决的办法。

1 分类法在网络信息组织中的运用

1.1 分类法在网络信息组织中的应用现状

目前,分类法在网络信息组织中的应用主要有两种方式:一是采用传统的分类法,主要用于学术性信息资源的组织与查询。如利用杜威十进制法(DDC),比较成功的综合性网络目录有加拿大国家图书馆的“Canadian Information by Subject”。较好的专题性网络目录有加拿大多伦多参考图书馆的“Expanding Universe”,主要面向天文学资源。另有一些特色站点是“GNOSIS”、“CyberDewey”、“Sized”、“WWLIB”等;使用国际十进制分类法(UDC)的网络目录有“BUBLE Subject Tree”,它覆盖了英国国内综合性网上资源。“NISS”,综合性网络目录,类目前标有UDC分类号。“SOSIG”,它选用了UDC的社会科学部分的分类号,共有26个类号;使用美国国会图书馆分类法(LLC)的网络目录如“CYBERSTACKS”,由美国依阿华大学开发,主要提供6大部类的资源。国内分类法在网络信息组织中的应用较少,《中图法》作为容量最大,使用面最广的中文图书分类法,只有在中文搜索引擎“网络指南针”中得到了应用,目前只有两级类目框架。应该说真正意义上的《中图法》的网络版还没有出现。二是采用自编的分类体系,其设计从普通用户出发,主要用于通用性网络信息资源的组织与查询。网络信息组织的自编分类体系大都是主题分类法,主题分类法基本上采用等级结构,以主题为中心,按事物而不是按学科划分类目。大多数中文搜索引擎就是采用这种分类体系来组织信息,如著名的中文搜索引擎雅虎中国(Yahoo!)。

1.2 利用分类法组织网络信息的优势

(1)分类法具有较强的系统性。分类法采用划分范畴的树状结构按事物或学科分类组织网上信息资源,具有层次清晰、体系稳定等优点。

(2)分类法便于浏览检索。分类法的等级结构便于用户在查找时进行浏览。当用户的检索目的不明确或检索词不确定时,分类浏览方式更有效率,它引导着用户按照初始的目标一步一步接近需求的信息。

(3)分类法提供对非文本信息的组织。当前,网络信息资源中非文本信息占的比重越来越大,如:图形、图像、声音、动画等,分类法独有的聚类功能和代码标识在组织和揭示多媒体信息中占有极大的优势。

(4)检索语言的通用性。分类法以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件。

1.3 分类法在网络信息组织中存在的问题

大多数中文搜索引擎都采用自编的分类体系组织网络信息,这种自编的分类体系主要存在以下问题:

(1)分类体系不严密。一些搜索引擎在划分类目时,并未真正从知识领域、知识体系的角度来分类,而仅仅从商业角度考虑,因而使得分类体系漏掉了许多重要的知识领域,体系的系统性和完整性受到很大的影响。如雅虎中国(Yahoo!)的基本大类中没有设置工业类、农业类等基础性类目,而把它们作为二级类目、三级类目,或是分散到其它类目中。

(2)类目之间缺乏逻辑性,隶属关系混乱。部分中文搜索引擎分类体系的类目之间缺乏逻辑性,类目归属关系不尽合理。表现在某些上、下位类之间隶属关系模糊,缺乏合理的知识联系。如“东方网景”把教育列于自然科学类下,“网易”在文学类下列出入文历史和宗教等。

(3)类目名称不规范。主要表现为类名不统一,类名用语不准确,类名不能确切概括类目的内涵。如搜狐称“计算机与互联网”,中文雅虎称“电脑与因特网”,网易中热门查询的“另类”等。

(4)类目划分标准模糊。由于类目设置采用多元标准划分,一些类下往往使用两个或多个分类标准,有的甚至在同一层次上列出不同等级的类目,致使同位类设置显得混乱。

1.4 分类法在网络信息组织中的进一步完善——建立统一的网络信息分类体系

现有的网络信息分类体系,无论是体系的完整性、类目的划分和设置,还是类名的内涵、外延都各不相同,这对网络信息资源的组织、检索造成困难。针对上述问题,建立统一的网络信息分类体系势在必行。

建立统一的网络信息分类体系,必须遵循面向网络信息资源,面向网络技术环境,面向用户的原则,突出其实用性和易用性,充分借鉴网上已编制的分类体系的经验和传统分类法理论、技术和成果。在具体实施过程中,应注意以下几点:

(1)以主题作为聚类标准。网络分类法聚类的标准不是传统分类法的学科,而是以主题作为聚类的主要依据。

(2)从类目的划分与设置来看,应突出重点类目,减少划分的层次。网络分类法的编制应根据多数用户查询的需要,把信息量大、用户感兴趣的知识范畴突出列类,而不必考虑它在科学体系中所处的层次如何。在类目设置和划分时,将大多数类目的层次控制在3、4层为宜。为了减少划分层次,划分过程可以不十分严格地按等级层次进行,而是采用多重列类法,使用若干标准同时对某一上级类目进行划分,建立若干从属上级类目的平行子类目,满足网络用户多途径、多角度检索的需求。

(3)充分揭示信息知识内容的相关性。揭示事物的相关性和根据事物的相关性整序,是信息组织的基本手段。对于知识的多重从属关系可采取交替列类的方法揭示,知识之间的相关关系可大量使用类目参见的方法揭示,通过超文本链接,用户便可透过不同的窗口,浏览被参见的类目。

(4)能与主题词表相结合。在网络信息检索系统中,分类的宽泛浏览检索与使用自然语言的专指检索,应是不可分割的完整统一体。网络信息分类法的着眼点不应只集中在分类法本身,而应顺应分类主题一体化的发展趋势。因此,在编制网络信息分类法时,应考虑到分类法与主题词表的结合,将标引语言纳入分类体系,建立对应关系。

2 主题法在网络信息组织中的运用

2.1 主题法在网络信息组织中的应用现状

主题法在网络信息组织中的使用主要表现为两种方式,一是使用现有词表(叙词表、标题表)组织网络信息。目前,使用现有词表组织网络信息的还不多,主要是美国《国会图书馆标题法》(LCSH)和《医学标题表》(MeSH)被一些网络信息检索系统采用。采用LCSH的系统有:CyberHound Expert Search,Electronic Journal Subject Index等。采用MeSH的系统有:CliniWeb Browse,Alphabetical List of NLM Sections等。二是广泛采用关键词法。关键词法是将信息原来所用的能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。由于关键词法具有种种优点,关键词的抽取可以完全自动化,因此关键词检索在网络中的应用相当广泛。目前,大部分搜索引擎的索引数据库几乎都采用关键词法进行信息组织,如AhaVista是关键词型搜索引擎的典型代表。

2.2 利用主题法组织网络信息的优势

主题法包括标题法、单元词法、叙词法和关键词法。鉴于关键词法的广泛使用,本文将重点讨论关键词法在网络信息组织中的应用。关键词法是直接使用自然语言的一种方法,关键词法的优点概述如下:①关键词是信息中使用的自然语词,依事物聚类,表达主题直观、专指,便于特性检索,可以保证有较高的检准率。②关键词具有较强的组配性。搜索引擎的布尔逻辑检索就是通过布尔逻辑算符把一些具有简单概念的关键词组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。③采用关键词法,不存在词汇滞后问题。④在联机网络环境下,关键词语言具有广泛的用户基础,它的检索习惯和技巧容易被用户所接受。⑤关键词的抽取可以完全自动化,用它来组织揭示信息速度快、成本低。以上优点是关键词法在网络信息组织中得到广泛应用的主要原因。

2.3 主题法在网络信息组织中存在的缺陷

关键词属于自然语言,不作词汇规范和词间关系显示是它的最大特点亦是它最大的缺陷。由于概念与语词不能一一对应,容易造成检索内容的分散,由于不能显示概念间的关系,难以进行族性检索。在网络环境下,采用简单的关键词检索,检索效率都很低,普遍存在着检索结果过多尤其是不相关内容过多的问题。

2.4 主题法在网络信息组织中的进一步完善——后控词表技术

关键词固有的缺陷,使关键词检索方法在网络信息检索中难以得到令人满意的检索效果。虽然大多数搜索引擎都采用了增强关键词检索功能的基本措施,如:布尔逻辑检索、搜寻范围限定检索、二次检索、检索结果相关度排序等,但这些措施还不可能彻底消除关键词检索的缺陷。要提高关键词的检索效率,就必须介入人工语言的因素,在保留自然语言易用性优点的基础上,充分发挥人工语言对信息进行系统组织和对自然语言进行规范控制的作用。目前,较一致的看法是采用后控词表的方法。

使用后控词表是改善关键词法性能的有效措施之一。后控词表采取的是“标引不控制——检索控制”的模式。张琪玉教授指出,后控词表中的控制词并非直接用于标引,而是对作为信息检索标识的自然语言进行控制,建立等级、等同、相关关系。因此,在后控词表中,标引——检索用词是自然语言,非标引——检索用词却是人工语言。后控词表作为一种用户接口,它成功地实现了自然语言与人工语言的转换,克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。随着机读词表的进一步发展及语言处理技术的突破,实现对关键词的后控制是完全可能的。

3 网络信息组织的发展方向——分类主题一体化

分类法与主题法是网络信息组织的两种基本方法,但分类检索与主题检索是完全独立的两个系统,两者没有内在的联系。单纯使用分类和语词的方法组织信息,都满足不了网上用户的查询需求,面对Internet上浩如烟海的信息,用户更需要多种多样的检索方法、功能更完备的检索方法和更加智能化的检索方法。

分类法的族性检索与主题法的特性检索反映了人类思维的两个不同侧面,分类主题一体化是网络信息组织的发展趋势,是自然语言与人工语言的一体化,两者的结合是功能上的互补与增强,它能克服分类法单纯以学科聚类,主题法单纯以事物聚类的局限性。分类主题一体化的实质是在类名、主题词、关键词之间建立对应关系,以便互相转换、互相控制,从而为用户提供分类的、主题的、分类主题的信息检索功能。分类主题一体化的信息组织模式在优化检索性能上的作用可归纳为:①分类与主题组配检索。把对某主题、某事物的关键词检索限定在某一类目范围内进行,以排除无用信息,提高检准率;或在类目范围内进行关键词检索,把检索范围控制在一定的知识领域内,达到精确检索的目的。②实现系统的扩检、缩检功能。例如通过关键词与主题词的对应,将关键词转换成主题词,再转换成多个同义关键词进行扩检,从而提高检全率。或通过分类与主题的对应,实现系统的缩检功能。

收稿日期:2004-02-10

标签:;  ;  ;  ;  ;  

网络信息组织中的分类与主题方法_自然语言论文
下载Doc文档

猜你喜欢