概念或标识符自动转换技术的应用_自然语言论文

概念或标识自动转换技术的应用,本文主要内容关键词为:标识论文,概念论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G354.43 G254.0

1 自动转换技术在文献标引和情报检索中的应用

1.1 概念或标识对应转换原理

事物概念、自然语言语词和情报检索语言标识三者之间可以对应转换,是情报检索语言赖以建立的基础。情报检索语言创制、文献标引和情报检索的各个过程,都要利用概念、语词、标识对应转换的原理和方法。情报检索语言标识的意义和适用范围,是根据它与自然语言语词的对应关系来确定的。特别是,在概念与语词、语词与标识之间的对应关系并非都是一对一的,这表现为大量的多词一义和一词多义现象。情报检索语言的规范化处理,就是对这种不一一对应的现象进行整理和控制(整理成单向的对应关系,并删繁就简,将某些对应关系加以归并),以构成具有唯一性的和意义明确的情报检索语言标识。

此外,对同一事物的概念,由自然语言和情报检索语言众多语种不同语词和标识来表达,在它们之间也应建立对应关系,达到兼容互换,便于交流。

在人类社会中,概念与语词的关系常常是一对多(一种事物有多个名称)和多对一(多种事物用相同名称)的,但是在情报检索领域,概念与标识应是唯一对应的。因此,只有通过转换,将纷繁的对应关系进行梳理,才能构成具有唯一性的和意义明确的标识进行文献标引和情报检索。

1.2 自动转换技术可广泛应用于文献标引和情报检索

在文献标引和情报检索中的对应转换,通常都是由人工来完成的。但是在情报检索计算机化条件下,大量的转换过程可由计算机自动完成。自动转换技术可广泛应用于文献标引和情报检索过程,其应用大体可归纳为下述三个方面。由于其原理的一致性,各种方法具有共通性。

1.2.1 自然语言与人工语言之间的自动转换

包括自然语言接口、自动赋词、自动赋号、机助标引、后控制词表等。这一类型的转换系统最有实用价值。

(一)自然语言接口

通常的情报检索系统都是人工语言系统。但人工语言的使用者(无论是标引人员还是检索人员)一般不易将其熟练掌握,达到精通的程度。为了方便使用者,并提高选用标识的准确性,可以安装一个自然语言接口,使用者只需从自己熟悉的自然语言语词入手,通过该接口由计算机自动转换成人工语言即情报检索语言的标识进行检索。这种自然语言接口,对检索者来说,犹如使用自然语言系统,感觉不出他是在使用人工语言系统。

分类法系统的类目索引机读版也是一种自然语言接口。

(二)自动赋词

自动抽词标引系统的标引用语是自然语言,缺乏控制,检索效率较差。若在该系统上安装自动赋词程序和对应表变为自动赋词标引系统,则可将抽出的词转换成规范词加以控制,提高检索效率。

自动赋词系统可使用严密的主题检索语言词表,也可仿照主题检索语言词表原理,对自然语言标引用语作有限范围的控制(如只对同义词作规范控制),还可在赋予文献规范词的同时,仍保留自动抽词过程所抽出的原词,兼取人工语言与自然语言的优点。

(三)自动赋号

自动赋号是自动分类的一种。自动赋号标引系统是在自动抽词标引系统上安装自动赋号程序和对应表构成的。与自动赋词标引系统的区别仅在于,其对应表是自然语言语词与分类号的对应。可以使用正规的分类法,也可只进行较简略的分类,同时也可在赋予文献分类号的同时,仍保留自动抽词过程抽出的原词,兼取人工语言与自然语言的优点。

自动赋词系统和自动赋号系统可以结合成为自动赋词赋号系统,即使用“自然语言语词—规范词—分类号对应表”,在同时自动赋予文献规范词和分类号。这种系统同样可保留自动抽词过程抽出的原词。

应当指出,使用严密词表的自动赋词系统和使用正式分类表的自动赋号系统,从检索角度看,也都是一种自然语言接口。

(四)机助标引

机助标引是先用计算机查出人工语言标识,再由标引人员进行判别和修改。

机助标引实际上是在上述三种系统某一种的基础上略作改变而成,其特点仅在于在赋予文献规范词或分类号之前,要等待标引人员判别、确认和作必要的修改。当然,机助标引处理文献所需时间比自动赋词或自动赋号多,但比人工标引少,由于标引人员的参与,其标引质量也可提高。

(五)后控制词表

后控制词表是一种比较复杂的对应表,而且其转换机制与前述四种自然语言与人工语言的自动转换系统正好相反。其输入端是人工语言标引用语(分类号或控制词或两者都有,控制词一般被置于分类号之下),其输出端则是自然语言标引用语且有多个,基本上是一种一对多的关系。也可以以一个自然语言词作检索用词,牵带出在同一控制词下的多个自然语言词,用这些自然语言词共同进行检索。

1.2.2 人工语言之间的自动转换

为了在两种人工语言之间进行兼容互换,以达到便于标引,或便于同时对几个用不同词种标引的人工语言数据库进行检索,就需要在人工语言之间进行对应转换。一些机读版的兼容词表、机读版的分类法主题法一体化标引工具(如《中国分类主题词表》机读版、山西省图书馆承担编制的《中图法》、《科图法》、《人大法》三种分类号对照转换系统等,都是人工语言之间的自动对应转换系统。目前,这类自动转换系统正在增加。

1.2.3 自然语言之间的自动转换

自然语言之间的自动转换是将一种自然语言的语词通过计算机翻译成另一种自然语言的语词,它实际上是一种机读版的双语或多语对照词曲,是一种简单的自动翻译系统。多语种词表的机读版和一般机读词表中的双语种对照索引,都属于这一类。随着国际互联网络的发展,它将成为一种很有价值的检索辅助工具。

2 自动转换程序

2.1 自动转换系统都是一种接口

任何一种概念或标识的自动转换系统都可以认为是一种接口,其入口(被转换的)是检索系统中实际不用于标引和检索文献的概念或标识,其出口(所要转换成的)是检索系统实际用于标引和检索文献的概念或标识。

2.2 各种自动转换系统的差异

从2.1可以看出,各种自动转换系统的原理是一致的,其差别仅在于:

(1)转换方向的差别:一类是从自然语言转换为人工语言标引用语,另一类是从人工语言转换为自然语言标引用语(包括从一个自然语言词转换为其他自然语言标引词),第三类是人工语言与人工语言之间或自然语言与自然语言之间的转换;

(2)转换过程是否有人参与的差别:一类是完全自动转换的,其对应表中的对应关系全部是一对一的;另一类是有人或多或少参与判别的,其对应表中的对应关系有一部分是一对多的。

2.3 自动转换程序举例

各种自动转换程序一般由对应转换程序和对应表维护程序两部分组成。

2.3.1 对应转换程序

(一)自然语言接口对应转换程序举例:

假定:(1)对应表文件为DYB.DBF,设字段:z自然语言词30字符,G规范词30字符,F分类号10字符,D对应类型(一对一为1,一对多为9)1字符;(2)文献数据库文件为SJK.DBF,设字段:w2文献号10字符,g2规范词(赋词前为空)30字符,f2分类号(赋号前为空)10字符,t2文献题录100字符;(3)中间文件DYB-2.DBF、DYB-3.DBF、DYB-4.DBF,其字段同DYB.DBF;(4)检索结果文本文件为JSJG.TXT。其转换程序ZRYYJK.PRG(用dBASEⅢ编,程序不十分完备,但可使用。为节省版面,几个语句写在一行,用“│”分隔,实际使用时应恢复每句占一行,并删去“│”号,下同)语句为:|set talk on│clear│sele 1│use dyb│|set exact on│|accept“检索式:”to x│|copy to dyb-2 for z=x│|sele 2│use dyb-2│if d=1│|store trim(g)to y│|store trim(f)to yy│|sele 3│use sjk│locate for g2=y│|set alternate to jsjg│|set alternate on│else d=9|copy to dyb-3 for z=x│|sele 4│use dyb-3│Iist│sele dyb│|accept“请选择:”to x2│|copy to dyb-4 for z=x2│|sele 5│use dyb-4│|store trim(g) to y2│|store trim(f) to yy2│|sele 3│use sjk│locate for g2=y2│|set alternate to jsjg│|set alternate on│endif│|do while.not.eof()│display│|continue│enddo│sele dyb│use│|sele dyb-2│use│sele dyb-3│use│|sele dyb-4│use│sele sjk│use│return

(注:程序运行中出现“请选择”处为一对多转换,应在判别选择之后再次输入。)

(二)自动赋词和自动赋号对应转换程序举例:

假定:(1)对应表文件为DYB.DBF,设字段:z自然语言词30字符,G规范词30字符,F分类号10字符;(2)文献数据库文件为SJK.DBF(已作自动抽词标引),设字段:w2文献号10字符,z2自然语言词(自动抽出的词)30字符,g2规范词(赋词前为空)30字符,f2分类号(赋号前为空)10字符,t2文献题录100字符。其转换程序ZDFCFH.PRG(用dBASEⅢ编,程序不十分完备,但可使用)词句为:|set talk off│clear│sele 1│|use sjk│sele 2│use dyb│sele sjk│|go 1│do while.not.eof()│|store trim(z2) to zz│sele dyb│|set exact on│locate for z=zz│|store trim(g) to gg│|store trim(f) to ff│sele sjk│|rep1 g2 with gg│repl f2 with ff│|sele sjk│skip│enddo│sele sjk│|brow│use│return

(注:程序运行后若规范词和分类号字段仍为空,则表示对应表中无对应。这部分自然语言词最后一部分用于增补对应表,一部分作自由词标引)。|2.3.2 对应表维护程序

对应表要不断增补新的概念或标识,所以需要不断整理(重新排序),这过程可由程序自动完成。这种程序极简单,仅用几条语句即可。

对应表中的对应关系可进行修改调整。有些对应转换方式(如自动赋词赋号)涉及标引用语,对应表修改之后,可全部重新进行转换(类似数据库修改后的重新索引)。|3 对应表是实现自动转换的关键|3.1 概念或标识的对应表在自动转换中的重要性

对应表也可称为对应词典。在实现自动转换中,对应表相对于自动转换程序来说是更为重要的。这是由于,对应表的质量决定着自动转换的质量,对应表的完备程度决定着自动转换系统作用的大小。

同时,自动转换程序的编制是比较简单的,而对应表的编制比自动转换程序的编制需要更多的人力和时间,甚至要多几百倍。|3.2 建立对应表的若干规则

(1)列入对应表的概念或词,其对应关系应是确定无疑的。若不能肯定其对应关系是否准确,最好不要列入对应表;

(2)对应的范围可随需要而定。如只包括同义关系,还是扩大到近义关系、专指与泛指的关系,等等;

(3)小规模的对应表可不包括词表词,完善的对应表最好包括词表词(即词表正式词也作为一种对应关系重复列入对应表,加入“词表正式词→词表正式词”款目,上述自然语言接口程序就是针对后一种对应表编制的)。

后一种对应表的编制法,是将原有词表的款目词复制出来,填充到源词字段(被转换的词)和目标词字段(转换成的词),并与其他对应条目混合排序即可。|4 自动转换技术应当推广|4.1 各种系统增加自动转换功能有利无弊

检索系统附加自动转换程序,并没有改变原来使用的标引用词。对应表中建立了对应关系的概念或词则予以转换,对应表中未建立对应关系的概念或词则不予以转换。所以,可以说只会“增值”,不会“贬值”,对原有系统绝对不会产生不良的影响。

当然,应当明确一点,即在安装自动转换程序和对应表后,输入的概念或标识无对应不等于不能对应。应当估计到还有一种可能,就是在对应表中尚未建立对应关系,仍需进行人工转换。|4.2 自然语言接口功能可逐步实现

概念或标识自动转换用的对应表必然是经过逐步积累完善的,是不断增长的,它不可能是一次编成的。对应表中所列对应关系的多少,并不限制它投入实际使用,只是发挥作用的大小不同而已。所以,无论对应表中列出多少对应关系(指词表原有的词以外所增加的自然语言词),从几十几百条到几千几万条,都可投入实际使用。

以上分析说明,各种检索系统(无论是人工语言系统还是自然语言系统)都可增加自动转换功能,由于其并不影响原有的标引工具和标引数据,只有增益,有利无弊,因此可以说,自动转换技术可以大力推广应用。

标签:;  ;  ;  

概念或标识符自动转换技术的应用_自然语言论文
下载Doc文档

猜你喜欢