“汉语主题词表”中词语关系的可视化_汉语主题词表论文

《汉语主题词表》词间关系的可视化,本文主要内容关键词为:词表论文,汉语论文,关系论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G350.7

1 引言

《汉语主题词表》(以下简称《汉表》)是一部显示主题词与词间语义关系的规范化动态性的检索语言词表。其词间关系对用户的检索活动有极大的辅助作用:用户可以根据词间关系动态调整检索词,准确表达当前需求,从而提高检全率或检准率。

Thebrain技术[1] 是Thebrain技术公司开发的用图形方式显示及组织信息的一种可视化技术。该技术在揭示信息间复杂关系方面具有明显优势。目前基于这一技术开发的软件有:Personalbrain、BrainEKP、Webbrain,分别用于个人、企业、网站的信息组织与管理,起到了良好的效果。本文利用Personalbrain实现了《汉表》词间关系的可视化,希望能够帮助用户更直观地感知词间关系,更便捷地对所需语词作出判断和选择。

2 《汉语主题词表》词间关系的种类

《汉表》的主表中,每一主题词对应一主题款目,根据实际需要,在主题款目中设置参照项以反映主题词间的语义关系。参照项的种类、作用、符号如表1。

其中,“Y”“D”揭示的是词间等同关系,可帮助用户区分规范和非规范检索词;“S”“F”“Z”揭示的是词间等级关系,可帮助用户扩检或缩检;“C”揭示的是词间相关关系,可帮助用户获得当前检索主题的相关信息。

表1 参照项的种类、作用及符号列表

参照项名称符号作用

用 Y 指引相应的正式主题词

代 D 指引相应的非正式主题词

分 F 指引所含的下位主题词

属 S 指引所从属的上位主题词

族 Z 指引所从属的族首词

参 C 指引有相关关系的主题词

3 Thebrain技术的基本思想及可视化效果

该技术揭示信息关系的基本思想[2] 是:将屏幕空间划分为5大区域,如图1所示。

图1 空间区域的划分

中间是聚焦结点,可代表一个短语、文件、Web页等,四周分布的是与之有关联的结点。这些结点在屏幕空间的不同位置,代表了与聚焦结点的不同关系。而这种关系是由用户自行定义的。比如可定义1区域与聚焦结点是属分关系,2区域与聚焦结点是相关关系等,具体由其习惯与喜好所定。该技术支持的可视化效果有:

(1)快速焦点转移:屏幕下方罗列出区域中出现的所有结点,任意点击其一,则形成以该结点为中心的链接示图。

(2)过量结点的隐藏:当某一区域的结点达到一定数量无法在同一屏幕显示时,部分结点将被隐藏,并用箭头提示,避免由于结点过多而使屏幕显得拥挤。

(3)隐含关系的揭示:不同区域间的结点发生关联时,关联结点间的连线将高亮显示,从而使隐含关系明亮化。

下面以Personalbrain为工具,实现基于Thebrain技术的《汉表》词间关系的可视化。

4 可视化的实现

这里从《汉语主题词表自然科学部分》(修订本)(A—L)分册选取了2个有关联的主题词款目。款目涵盖了主题词应有的所有语义关系,如图2、图3所示。

图2 主题词款目1

图3 主题词款目2

4.1 定义空间区域

首先定义屏幕空间中各区域与聚焦结点的关系,如表2。

表2 屏幕空间中各区域的聚集结点关系表

区域 与聚焦结点关系

1区域 “F”关系

2区域 “C”关系

3区域 “S”关系

4区域 预留

根据表2,主题词款目1的可视化示图如图4。

图4实现了聚焦结点和与之有“S”“F”“C”关系的主题词的可视化,但未显示与之有“D”“Z”关系的主题词。预留的4区域无论是用于显示“D”关系还是“Z”关系,都不能平衡矛盾。这是由显示空间的区域划分数目少于主题词词间关系的种类引起的。解决这一问题有两种途径:一是增加区域数目;二是将这六种语义关系合并。这里我们采用第二种途径。下面将分别阐述不同语义关系合并的原则与方法。

图4 “S”“F”“C”关系的可视化

4.2 “Y”与“D”关系的可视化

“Y”“D”揭示的是主题词间的等同关系,具体包括同义关系、准同义关系、组代关系和语义等价关系,具有这类关系的词,彼此在概念上是等同的或可以视为等同的。而“C”揭示的是主题词间的相关关系,具有这类关系的词,彼此在概念上处于相互关联、交错、矛盾、对立的地位[3]。可见,两种语义关系的内涵是相近的。从另一个角度看,一个主题词款目中“Y”“D”所对应的语词数目甚少(普遍为1—2个),所占显示空间小。基于以上两点,可将“Y”“D”关系与“C”关系合并显示于同一屏幕区域中。然后再对“Y”“D”对应的语词加以标识(因数量少,操作容易),如在其前面加字母“Y”或“D”,以区别“C”对应的主题词。见图5所示。

图5 “Y”与“D”关系的可视化

4.3 “Z”关系的可视化

对族首词的处理则基于这样的考虑:当前聚焦结点与其上位词和下位词的空间相对位置表现出了主题词的等级层次关系,而族首词应当为当前聚焦结点的上位词的上位词(或族首词),它是当前聚焦结点所在等级层次的一部分,若另辟一个空间区域来显示它与聚焦结点的关系,就打乱了已存在的等级层次关系的显示方式。因此,我们将族首词合并于已存在的等级层次体系中,并用图标的虚实来揭示它与上位词的区别。具体就是:若聚焦结点的上位词上方的方块为实心,则该上位词非族首词,若方块为虚则该上位词即是族首词。如图6所示。

图6 “Z”关系的可视化

4.4 “兄弟”关系的可视化

当前聚焦结点的等级层次关系除了有上位关系、下位关系,还有兄弟(并列)关系。聚焦结点所在款目的参照系统没有揭示出这种关系,必须通过其上位词所在款目的参照系统来揭示。如与“电阻焊”有兄弟关系的主题词就反映在其上位词“加压焊”所在款目中(见图2、图3)。这使得完整的等级层次被分解,正是主题法不能有效反映词的族性这一缺陷的表现。传统的解决方法是在主表之外编制词族索引。但借助Thebrain技术,我们可在当前聚焦结点所在款目的可视化视图中将“兄弟”关系一并显示。具体就是:将预留的4区域划分给兄弟词。这样,由聚焦结点及其上位词、下位词、兄弟词构成的词族体系就一目了然。如图7所示。

图7 “兄弟”关系的可视化

至此,以聚焦结点为中心的完整的词间语义关系图得以构建。图中既显示了当前主题词款目中参照系统揭示的词间关系,还显示了传统词表中词族索引才能揭示的一族词的全貌,一定程度上克服了主题法不能有效反映词的族性的缺陷。对检索用户而言,通过该图,他们不用在多个主题词款目中穿梭,不用翻阅词族索引,就能直观而全面地感知词间关系,便捷而准确地选择语词。

4.5 其他可视化效果

如前所述,Thebrain技术还支持一些可视化效果:一是聚焦结点的转移,二是对过量结点的隐藏,三是对隐含关系的高亮显示。这些可视化效果与其最基本的显示原则(即:用空间位置区分与聚焦结点的不同关系)结合起来,使词间关系图能容纳更多的内容,揭示更多的关系。

图8 其他可视化效果

图8是通过对图7实施焦点转移得到的。这种转移有两种方式:一是通过图中的链接找到希望聚焦的结点,二是从屏幕下方罗列的所有主题词中选择希望聚焦的一个。两种方式都能获得以所选主题词为中心的语义关系图。在以“加压焊”为聚焦结点的图8中,“焊接”的下位词数目超出了屏幕显示阈值,超出部分被隐藏, 并用箭头指示。点击该箭头,结点向上滚动,隐藏的结点得以显示。这样既保证了信息的完整性,又节省了显示空间。该方法也用于对所有主题词的罗列(见屏幕下方)。而对于“电阻焊”和“电阻焊机”这两个主题词,传统词表中以当前聚焦结点“加压焊”为首的主题词款目不能揭示二者的关系,只有在以“电阻焊”或“电阻焊机”为首的主题词款目中才能看到二者的关联。但上图用高亮的连线把这种关联显示了出来,从而一定程度上实现了多个款目的词间关系可视化,在有限空间给予用户更多信息。

5 结语

以上实例说明,Thebrain技术能很好地实现《汉表》词间关系的可视化,向用户提供直观而全面的词间关系图,帮助他们提高选择语词的效率。但这里仅仅是一个初步尝试,或许有更好的实现词间关系可视化的技术,这有待我们的进一步探索和研究。

(作者E—mail:azhao223711@sohu.com)

收稿日期:2005—11—23

标签:;  ;  ;  ;  

“汉语主题词表”中词语关系的可视化_汉语主题词表论文
下载Doc文档

猜你喜欢