主题-概念组匹配检索语言--对信息检索语言的思考与检索_自然语言论文

主题-概念组匹配检索语言--对信息检索语言的思考与检索_自然语言论文

学科—事物概念组配型检索语言——关于情报检索语言的遐想与求索,本文主要内容关键词为:语言论文,遐想论文,情报论文,学科论文,事物论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

文摘 本文论述的学科—事物概念组配型检索语言是一种新的情报检索语言结构模式,具有学科聚类系统与事物聚类系统结合、先组式语言与后组式语言结合、人工语言与自然语言结合、号码标识与语词标识结合、不变概念代码与可变概念体系结合的特点。文章叙述了它的实现方法和优点以及现有语言改造为这种语言的可能性。

关键词 情报检索语言 学科—事物概念组配型检索语言

分类号 G254.0

本文副题名之所以称为“关于情报检索语言的遐想与求索”,因为这里所叙述的那种情报检索语言目前还没有具体的语种,它是一种理想中的情报检索语言。但构成这种情报检索语言的各种原理和方法目前都已存在,它并不是一种空想的情报检索语言。本文是对这种情报检索语言十多年求索的简略报告。

1 理想情报检索语言应是学科—事物概念组配型检索语言

情报检索语言是对知识进行组织的工具。知识组织,就是将文献中的主题概念进行有秩序的安排,揭示它们之间的内在联系,形成知识网络,以便于利用。其基本原理和方法,不外是按学科聚类或按事物聚类。现有的情报检索语言,或者以学科为聚类核心,那就是分类检索语言;或者以事物为聚类核心,那就是主题检索语言。分类检索语言和主题检索语言各适应着利用知识的一种典型需求,但都有局限性,因为从学科出发的检索要求与从事物出发的检索要求很难绝然分开,而且在检索中时常需要互相变换。所以,最好是使这两种组织知识的原理和方法更密切地结合起来。也就是说,理想情报检索语言应是学科—事物概念组配型检索语言。它由学科分类系统面和事物分类系统面构成,两个面可以互相组配。当按学科聚类时,藉助于事物及其部分面进行系统复分;当按事物聚类时,借助于学科及其问题面进行系统复分。这种情报检索语言既有很强的系统性,又有很大的灵活性。

这种情报检索语言含有分面组配分类法的成分,但它不同于分面组配分类法;它也含有分面叙词法的成分,但它也不同于分面叙词法。我把它称为学科—事物概念组配型检索语言,可简称学科—事物组配语言。

2 学科—事物概念组配型检索语言的本质属性

这种情报检索语言的本质属性可归纳为以下五点:

(1)学科聚类系统与事物聚类系统的结合。人们对客观世界的探索和对知识的利用,不外乎从学科领域和从事物对象这两种角度出发;记载知识的文献,也都是围绕某一学科领域或某一事物对象来论述的。但事实上,这两种角度无论在文献写作中还是在检索过程中都难以绝然分开。分类检索语言和主题检索语言,都分别以适应其中的一种角度为主。当按学科聚类时,造成有关某一事物文献的分散;当按事物聚类时,造成有关某一学科文献的分散。

学科事物概念组配型检索语言要能同时提供学科分类系统和事物分类系统,两者以下列形式构成先组式标引句(注:下面的标引句是由上面的标引句改变字段次序形成的):

学科—面—点:事物—面—点

或 事物—面—点:学科—面—点

这样,既可按学科完全集中文献,又可按事物完全集中文献。当按学科集中文献时借助于事物及其部分面进行系统复分;当按事物集中文献时,借助于学科及其问题面进行系统复分。

(2)先组式语言与后组式语言的结合,体系分类法与组配分类法的结合。从情报检索语言的结构与功能看,后组式语言比先组式语言优越得多。但是,先组式语言的体系明显性、概念明确性以及易用性,却比后组式语言好。所以,先组式语言与后组式语言的结合,是理想情报检索语言应具备的一个条件。

学科—事物概念组配型检索语言按其本质是一种后组式语言,但当它采用上述形式的标引句并将其系统排序时,就具有了先组式语言的性能。同时,在计算机检索系统中,采用上述形式的标引句并不妨碍进行自由组配检索,因而它并未丧失后组式语言的性能。

学科—事物概念组配型检索语言是分类语言,采用上述形式的标引句时,它既是体系分类法,又是组配分类法。

(3)人工语言与自然语言的结合。在使用计算机进行情报检索的条件下,自然语言具有情报检索语言所缺乏的不少优点;但是,情报检索语言的控制原理和方法,仍然是提高自然语言检索效率所不可缺少的。所以,使两者结合起来,应是理想情报检索语言的一个特征。

在学科—事物概念组配型检索语言中,检索系统内部用于标引文献的,既不是分类号,也不是概念词或自然语言词,而是用概念代码。分类号、概念词和自然语言词都与概念代码对应,作为概念代码的外部形式,三者在标引和检索中可任意使用,通过计算机与概念代码自动转换。自然语言可大量使用,任意增补,但在系统内部是受到控制的。

(4)号码标识与语词标识的结合,系统序列与字顺序列的结合。号码标识和语词标识各有优点。号码标识的系统性好,语词标识的直观性好,显然,理想情报检索语言应同时具备这两种检索标识。

在学科—事物概念组配型检索语言中,既使用号码标识(分类号),也使用语词标识(概念词和自然语言词),两者完全对应,具有等价关系。

既然号码标识与语词标识并存,就必定可以同时提供系统序列和字顺序列,也即具有分类检索语言和主题检索语言双重特征。

(5)不变概念代码与可变概念体系的结合。设置不变的概念代码可以说是学科—事物概念组配型检索语言的特异之处。概念代码是学科和事物概念的登记号(顺序号),它固定不变,始终与某一概念相对应,文献实际上是用这种代码来标引的。这样,不变的概念代码是这种语言的主体,而分类号、概念词(代表某个概念的正式词)、自然语言词都与概念代码相对应,仅仅是概念代码的索引而已。概念代码仅在系统内部使用,标引人员和检索人员使用的仍是分类号和语词。采取这种措施,就使概念分类体系具有了极大的灵活性,分类体系的改变与对文献已作的标引无关,概念词和自然语言词的字面上的改变也与对文献已作的标引无关。

3 学科—事物概念组配型检索语言的实现方法

学科—事物概念组配型检索语言的主要实现方法可概括为“分面分析+概念代码+概念对应转换+数据库技术”,现简略说明如下:

(1)对概念进行分面化处理。处理原则与分面组配分类法基本相同(在分面中允许有相当专指的种概念);

(2)将分面分为学科面部分和事物面部分,每一部分再分为第一层的分面(学科或事物)和第二层的分面(学科的问题或事物的部分)。对属于第一层的分面分别按系统性排列,可仿照体系分类法。对属于第二层的每个分面确定一个概括的名称,分为两个序列进行排序(与学科或事物的序列相对应)。并对两个序列的分面分别给予统一的分面序号;

(3)学科—事物概念组配型检索语言词典的主文档设置下列字段:①概念代码(分2个子字段);②分类号(分4个子字段);③概念词或自然语言词;④子文档区分号;⑤临时分类;⑥轮排标志;⑦参照和注释;

注:分类号的4个子字段是:学科或事物、第二层分面序号、第二层分面中的点、表示自然语言词的序号;轮排标志字段放置安插有轮排标志的概念词或自然语言词。

(4)由主文档生成下列4个索引文档:

①概念代码索引文档。包括主文档的1—5字段,按概念代码排;

②概念分类索引文档。包括主文档的1—5字段(无自然语言词),按分类号排;

③概念词索引文档。包括主文档的1—5字段(无自然语言词),按字顺排;

④语词轮排索引文档。包括主文档的1,2,6字段(第6字段是安插有轮排标志的语词改造成词素轮排形式)。

概念分类索引文档、概念词索引文档、语词轮排索引文档都可用于联机标引,也可作为检索途径转入供检索用的文档。

(5)文献标引数据文档包括下列字段:①概念代码;②概念代码;③概念代码;④概念代码;⑤概念代码;⑥概念代码;⑦文献类型复分;⑧文献号。

注 ①②③字段与学科面分类号的前3个子字段对应,④⑤⑥字段与事物面分类号的前3个子字段对应。

(6)将文献标引数据文档利用概念代码索引文档转换成供检索用的文档。该文档包括下列字段:①学科面分类号(3个子字段);②事物面分类号(3个子字段);③文献类型复分;④文献号。

供检索用的文档可根据需要变换字段次序,从而产生不同的分类体系,达到不同的聚类效果。

(7)将概念分类索引文档挂接于供检索用的文档,在检索界面上可随分类号的变动动态地显示对应的概念词。

(8)对词典的各种修改都在主文档中进行,修改后重新生成各种索引文档和供检索用的文档。

4 学科—事物概念组配型检索语言的主要优点

(1)学科聚类系统与事物聚类系统的结合,号码标识与语词标识的结合;系统序列与字顺序列的结合,使它兼具分类检索语言和主题检索语言的性能;学科面与事物面互为复分,使文献主题的展示更为系统;语词标识串的系统展示,是一般主题检索语言所不可能的。

(2)先组式语言与后组式语言的结合,体系分类法与组配分类法的结合,使后组式语言在不丧失其优异性能的情况下,具有先组式语言的体系明显性、概念明确性以及易用性的优点,解决了组配分类法先组散组式使用和后组式使用优点不能兼备的矛盾。

(3)人工语言与自然语言的结合,加强了它的易用性,并使它有可能用于自动赋词标引系统。

(4)不变概念代码与可变概念体系的结合,极大地增加了它的灵活性,使它的分类体系可逐步细化和不断改造,语词标识可更换,不受对文献已作的标引所牵制。

(5)分类体系方案可变换,概念可多向隶属,任何分面都可独立集中文献和系统展示文献主题,各分面又可任意组配,使检索几乎可“随心所欲”。

(6)它具有开放性,可不断增补新概念。

(7)系统可挂接英文索引、分子式索引等。

5 现用语言改造为学科—事物概念组配型检索语言的可能性

第三节已指出,学科—事物概念组配型检索语言的主要实现方法可概括为“分面分析+概念代码+概念对应转换+数据库技术”。由此可见,分面分类法、叙词法、分面叙词法改造为学科—事物概念组配型检索语言是很容易的,标题法改造为这种语言的困难也不会很大。体系分类法如果没有对文献已作标引的牵制,改造为这种语言也是可能的,否则不可能。也就是说,这种语言可利用现成的体系分类法作为素材进行编制。

标签:;  ;  ;  

主题-概念组匹配检索语言--对信息检索语言的思考与检索_自然语言论文
下载Doc文档

猜你喜欢