用计算机编制词表软件构建职业分类表--以MultiTes 2005 Pro为例_分类号论文

用机编词表软件构建专业分类表——以MultiTes 2005 Pro为例,本文主要内容关键词为:词表论文,为例论文,专业论文,软件论文,Pro论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G254.1 文献标识码:A 文章编号:1007-7634(2007)12-1859-06

分类表的编制通常是由人工来完成的,编制过程复杂,耗费人力、物力,耗时长且成本高。因此,能否利用计算机来实现分类表的编制或辅助编制,已经成为业内人士关注和亟待解决的问题。目前,随着计算机技术的发展,出现了一批编制分类表或叙词表的软件工具,如MultiTes 2005 Pro,Classlfication Editor,Semphore Taxonomy Manager等。这些软件有利于词表编制者更加方便高效地进行分类表的编制、修订与管理,从而推动了分类表机编化的进程。本文借助词表编制软件MultiTes 2005 Pro试编了一部小型的通信专业分类表,并对其相关过程和技术要点进行了探讨。

1 MultiTes 2005Pro简介

MultiTes 2005 Pro[1]:是由Multisystems公司推出的词表编策软件MultiTes的最新版本。此软件可以在单机或网络环境下,非常方便的编制、浏览和维护叙词表、分类表及其它类型的受控词表。它的主要功能及特点包括:①支持关于受控词表编制的新的国家标准Z39.19,包括词间关系(用、代、属、分、参和范围注释)的规定,允许用户自定义词间关系、范畴、语种和注释等;②对逻辑错误的词间关系具有自动报错功能;③自动生成对应逆向关系;④多种数据导入方式;⑤高级检索提供叙词词串、注释内容、类别、标记、状态和类型检索;⑥多种类型词表的输出:包括字顺表、词族索引、分类显示、范畴索引、轮排索引。

MultiTes 2005 Pro是一个简便易行的词表编制软件,特别是在编制叙词表方面更能显示出它的优势。在编制分类表方面,此软件能够很好的处理类目的多层结构,即利用其定义范畴表(Categories)、创建下位类(NT),以及分类显示(Classiified)的功能,将分类表的类目体系创建并很好的显示出来、然而,此软件不能利用“分类显示(Chassified)”功能把类目注释显示出来。在本实验中,笔者针对MultiTes 2005 Pro在编制分类表的上述不足之处进行了新的探索,即将创建好的类目体系进行转换,然后借用词表软件编制叙词表词间关系的功能,很好的完成了通信专业分类表的编制。

2 分类表构建的总体设计

2.1 分类表的类型

图1 分类表的基本大类

本实验主要编制了两种类型的分类表:①通信专业分类表。其类目及类目关系的设置参照了《教育主题词表》[2]中《分面分类表》的形式;②分类主题一体化词表。本实验编制了叙词表式索引,它和叙词表十分接近,可以通过分类号与专业分类表互相兼容,实现了分类主题一体化。

2.2 体系结构

此专业分类表由编制说明、简表、详表,复分表组成,另附轮排索引和叙词表式索引。

编制说明,对通信专业分类表的编制过程及特点、体系结构。标记符号以及索引等作了简要介绍。

简表。显示了13个基本大类及其二级类目。

详表。共设各级类目248个,类目设置具有一定数量的信息资源保证。学科覆盖面包括通信理论等13个大类(见图1),总体上遵循了从总到分,从理论到应用,从抽象到具体,从通用到专用的排列顺序,同时考虑了通信科学的具体特点。本分类表共设二级类目85个,其余为三级和四级类目。详表中的类目通过分类号显示其纵向的上下位类关系。通过参照、交叉列类揭示其横向的相关关系,注释项揭示类目的含义及范围。其类目结构如图2所示。

图2 分类表详表的结构

复分表。是将主表中按同一标准对类目划分产生的一系列相同于母抽出,单独编列,从而达到简化类表,节省类表篇幅的目的。此通信专业分类表沿用了《中图法》的世界地区表和中国地区表。

2.3 词间关系

词间关系除了上下位类的等级关系外,此分类表此借鉴了《教育主题词表》的编制技术,将分类表的注释改造成代项、参见项和注释项,采用的标记符号及其含义如表1所示。

此外,分类表对于具有多重属性和多面成族的类目进行了交叉列类,以便提供更多角度来揭示和检索信息资源。如,“双频段网络”在“36通信网络”类下列类的同时,在“40无线通信”类下亦列此类。

2.4 标记符号

采用汉语拼音字母和阿拉伯数字相结合的混合制标记符号,按层累标记配置类号。大类由两位数字表示,考虑到将来类目的扩充,类目之间预留了号码,以适应分类表的动态变化[3]。二级类目由大写拼音字母表示,三级类目及以下各级类目用数字表示。如,类目“36A3综合业务数字网(ISDN)”,其中的“36”表示一级类目中的“通信网络”,“36A”表示二级类目中的“数字通信网”,最后一个“3”表示三级类目。

2.5 索引

为通信专业分类表创建一个字顺主题索引,既可以克服类目查找的困难,也有助于集中一主题分散在各个学科门类的相关材料[4],为了减少篇幅,分类表一般采用题内关键词索引(KWIC),但由于MuhiTes 2005 Pro只提供了编制题外关键词索引(KWOC)的功能,此专业分类表的索引采用KWOC形式,即将标目(检索入口词)在索引行的左上角重新显示,后边罗列所有以此标目为检索入口的类目。

此外,本实验还编制了叙词表式索引。它是比利时学者O.温古里安于1966年提出的索引新类型,即在分类表索引款目中增加用、代、属、分、参等参照,加强词间关系的显示。

3 分类表构建的步骤及要点

以下为分类表构建步骤,如图3所示。

图3 分类表的构建步骤

3.1 类目体系的创建

(1)创建通信类别。MultiTes 2005 Pro“定义”菜单中提供了自定义“关系(Relationships)”功能,通过定义“类别(Category)”关系可创建一个通信类别。创建结果如图4所示。

图4 创建的“通信”类别

(2)构建基本大类和二级类目。此创建过程是在选取“通信”类别的基础上,创建新的类目及子类目的过程。进入“定义”菜单中的定义“类目(Categories)”窗口(见图5),选取上步骤定义的“通信”类别,在“类目框(Categories)”中“创建(New)”分类表的所有基本大类,并在下面的“子类框”中创建或添加选定的基本大类的子类目(即二级类目)。在创建基本大类过程中需要输入“代码(Code)”和“描述(Description)”,它们分别代表了基本大类的“分类号”和“类目名”,图5显示了创建的基本大类和选定的基本大类的子类。

图5 创建的基本大类和选定的基本大类的子类

(3)构建其它各级类目。MultiTes 2005 Pro创建三级及其以下各级类目,是通过创建类目的“下位词(NT:Narrower Term)”来完成的,即通过创建二级类目的下位词来创建三级类目,通过创建三级类目的下位词来创建四级类目,以此类推。例如,要创建三级类目“11B1模拟信号处理”,首先需要选取它的上位类“11B信号处理”,可以通过软件提供的“词语检索,(Search term)”功能快速查找和定位此类目。然后,点击右键进入“添加关系(Add relationships)”窗口(见图6),在左上角选择框中选取下位词。“NT”关系,并在右边文本框中输入要创建的类目“11B1模拟信号处理”,保存后则此类目创建完成。

图6 添加关系窗口

(4)类目体系的转换。各级类目创建完成后,可通过“报告”菜单中的“分类显示(Classified)”功能(需把选项框“Print terms in top-down hierarchical format”选中),将类目体系显示出来,(见图7)。然而,这种“分类”显示只能把类目间上下位类的等级关系显示出来,类目之间的参照关系、注释项等,即使已经创建好,也不能通过这种显示功能得以显示。为了克服软件在编制分类表上的这一不足,我们对类目体系进行了转换,即利用软件的“快速数据输入(Quick data entry)”功能,把图7显示结果中的所有类目缩格去掉,排列整齐后,按原有顺序重新导入到新的软件环境中。

图7 类目体系的显示(转换前)

3.2 参照与注释的构建

类目体系转换后,各个类目在新的软件环境中是相互独立的,他们的等级关系只能通过分类号显示。参照与注释的构建是利用软件编制叙词表词间关系的功能完成的,实际上是把转换后的类目当成叙词,为其创建词间关系的过程。

(1)自定义词间关系。MultiTes 2005 Pro提供了创建词间关系(用、代、属、分、参)和范围注释的功能,并允许用户自定义词间关系和范畴。由于MultiTes 2005 Pro在创建词间关系时,能够自动生成对应逆向关系,如,当建立词间关系“A NT B”时,词间关系“B BTA”就会自动生成(A,B代表类目;NT为下位词关系;BT为上位词关系)。因此,在自定义词间关系时,很多情况下都要同时定义对应逆向关系。

此分类表设置了“注释(J)”、“代项(D)”和“参见(C)”三种词间关系,这些关系和符号可以在软件系统中自定义产生。以定义“参见(C)”关系为例:进入定义“关系”窗口(如图4),点击“新建(New)”进入新建窗口。在“关系类型”中选择“Equivalence”,在“关系代码”及“描述”枢中分另输入“C”和“参见”,在“逆关系代码(Reciprocal code)”及“描述”中同样输入“C”和“参见”,然后保存即可。由于代项在分类表中不属于正式类,所以在自定义“代项(D)”关系时,我们不希望它自定义逆向关系。为此,我们借用了不需要定义逆向关系的“Note”关系类型,来定义“代项(D)”关系。

(2)参照与注释的编配。此过程与创建一个类目的下位词(NT)过程相似,即选定类目,右键进入“添加关系”窗口(见图6),在左上角的选择框中选择要添加的关系,如C,D,或是J,然后在后边的文本框中输入具有所选关系的类目,保存即可。在编配过程中,软件所具有的自动报错功能,可自动检验词间的逻辑关系,保证了词间关系的正确创建。

3.3 主表的显示

(1)简表的显示。基本大类和二级类目创建完成后,利用“报告”菜单中的“分类显示”功能把13个大类及其二级类目显示出来,作为此通信专业分类表的简表,如图8所示。

(2)详表的显示。分类表类目的显示是按分类号顺序排列的,在软件系统中相当于把类目当成叙词按字顺排列。因此,分类表详表的显示可以利用“字顺显示(Alphabetical)”功能来完成。

图8 分类表简表的显示

简表和详表的显示结果均为TXT文件形式,用户可以根据实际需要将其导入到其它形式的文件中,以便进行必要的编辑和排版,如:去掉注释和参照项标记符号后边的冒号;将注释与参照项中的分类号放在类名的后边;根据需要进行字体、字号、空格大小以及行距等格式的调整等。经编辑和排版后的分类表详表如图9所示。

图9 分类表详表的显示(编辑与排版后)

3.4 题外关键词索引的编制

分类号直观、简短,可以直接用作分类表索引的地址代码。

(1)预处理。由于“注释项(J)”中具有检索意义的词很少,“代项(D)”不属于正式词,“参见项(C)”在类目体系中已显示,因此,只把类目体系中的类目词作为索引的轮排对象;分类号将作为地址代码,因此要将类目中的分类号至于类目词之后;MultiTes 2005 Pro提供的轮排索引功能,是以整个类目词作为标目建立索引,不能很好的起到以类名中有检索意义的词或字为检索入口的轮排作用。为了使类目得到充分的轮排,需要把类名中有检索意义的字或词用空格隔开。如,把“模拟信号”分隔成“模拟■信号”(■表示空格),则此类目便可生成两条轮排款目,可以通过“模拟”和“信号”两个检索入口检索到。

(2)自动生成索引。点击“报告”菜单中的“轮排索引(Rotated index)”。在新窗口中,选择建立索引的类目范围,在“停用词(Stop words)”文本框中输入那些没有检索意义或由于分隔词产生的不用来作为标目的字或词,例如“的”、“和”、“其它”等,保存后点击“打印输出”按钮,轮排索引便自动生成。

(3)人工校验。需要对自动生成的索引结果进行一定的格式调整和人工校验。包括:去除索引行中多余空格,对齐地址代码(分类号);设置见参照消除重复轮排[5],根据需要进行字体、字号、行距等方面的编辑排版等。

(4)索引的显示。分类表的索引按标目字顺排列,结果如图10所示。

3.5 叙词表式索引的编制

叙词表式索引的特点是在分类表类目索引部分增加参照系统。同样利用MultiTes 2005 Pro创建词间关系的功能来完成,即把上述编制的KWOC的索引款目进行一定的格式调整后,作为叙词重新导入系统,然后为其建立参照系统(即词间关系)。创建过程相当于把类目索引款目作为叙词款目来创建。

图10 题外关键词索引(KWOC)的显示

(1)类目索引的重新导入。将图10所示KWOC的所有索引款目,按“标目▲索引行▲地址代码(▲表示若干个空格)”的形式重新导入新的软件系统中,如“差错▲差错控制▲25A”。之所以按此形式输入,是为了在最后的索引显示时,索引款目仍能按照标目的字顺排列。此过程同样可以利用软件提供的“快速数据输入”功能来完成。

(2)参照系统的创建。首先需自定义词间关系。索引行选用的都是正式类目,所以叙词表式索引的参照系统中未设用项(Y),只有代项(D)、属项(S)、分项(F)和参项(C)。由于软件会自动生成对应逆向关系,而这里的逆向关系是不成立的。因此,同样借用不需要定义逆向关系的“Note”关系类型,来定义以上参照项所代表的词间关系。词间关系定义好后,参照分类表,把经过格式处理后导入的类图索引款目作为叙词,给其创建已经定义好的代、属、分、参等词间关系。自定义和创建词间关系的方法前文已有叙述,笔者不再赘述。

(3)叙词表式索引的显示。叙词表式索引按标目字顺排列,可利用软件“报告”菜单中的“字顺显示”功能来完成(见图11)。

图11 叙词表式索引的显示

用户仍可根据需要进行必要的编辑排版,包括:去掉参照系统符号后边的冒号;具有同一标目的索引款目,只显示第一个款目的标目。如,以“ATM”为标目的款目有两个,则可以把第二个索引款目的标目“ATM”去掉;根据实际需要进行字体、字号、行距等格式的调整等。

5 结语

MultiTes 2005 Pro在编制词表上的优点显而易见。但其在编制分类表上存在一些明显不足。首先,除上下位类的等级关系外,此软件不能通过“分类显示”功能显示类目间的其它关系,需借助软件编制叙词表的功能来完成。在轮排索引的编制上,该软件只提供了自动创建题外关键词索引的形式,而且索引的编制是以整个类名作为轮排对象,不能起到以类名中有检索意义的字或词进行轮排的作用,需要进行一定的人工预处理工作。此外,在分类表和索引创建完成后,需要一定的人工校验,才能使结果更加完善和合理。如,消除索引中的重复轮排,进行一定的编辑排版等。

尽管有以上不足之处,但MultiTes 2005 Pro在一定程度上节省了编制者的时间和精力。相信随着计算机技术的不断发展和业内人士的不断努力,编制分类表的软件工具会越来越智能化,分类表的自动化编制也会不断地完善和发展。

收稿日期:2007-05-28

标签:;  ;  ;  ;  ;  

用计算机编制词表软件构建职业分类表--以MultiTes 2005 Pro为例_分类号论文
下载Doc文档

猜你喜欢