中国信息检索语言研究透视--基于共词分析方法_聚类论文

我国情报检索语言研究透视——以共词分析为方法,本文主要内容关键词为:透视论文,情报论文,语言论文,我国论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

情报检索语言是为满足情报检索工作的需要而产生的一门人工语言[1]。新中国成立六十年来情报检索语言的发展经历了新中国成立后的发展期(1950-1964年)、文革中的瘫痪停滞期(1965-1978年)、改革开放后的繁荣期(1979-1998年)和网络时代的大变革期(1999年至今)。

共词分析通过对一组词两两统计它们在同一篇文献中出现的次数,进行聚类分析,从而反映出词间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化[2]。共词分析简化了数据,并将数据以一种特殊的可视化方式表示出来,包含着从数据中提取的信息[3]。本文采用共词分析方法分两阶段研究近三十年来我国情报检索语言的研究热点。

1 数据来源

上海图书馆《全国报刊索引数据库》a610字段的关键词是由标引人员加工给出的,用其做共词分析的效果较好,考虑该库获取数据存在一定的局限性,以《维普中文科技期刊数据库》和《CNKI中文期刊全文数据库》作为补充。

笔者采用类号检索与题名检索相互补充的方法,从三个数据库中提取与情报检索语言相关的文献,检索式分别为:G254.0+G254.1+G254.2+[G354.21]+[G354.22]+G254.361;情报检索语言+检索语言+情报语言+自动标引+自动分类。由于“自动分类”一词在情报检索语言中是一个很重要的词汇,但它在汽车、零件等工业领域也较为常见,删除无关内容并去重后,共得到1979-1998年间的数据2829条,1999-2008年间的数据2976条。

2 数据处理

2.1 关键词处理

对CNKI中检索到的1990年之前的97篇没有关键词的论文,从文章的题名、摘要及重要段落中抽取词语补充关键词。并对同义词如“情报检索语言”与“检索语言”,“杜威法”与“杜威十进分类法”、“DDC”,“本体”与“ontology”,“第三版”与“第3版”等进行了统一。

2.2 获得高频关键词

用EXCEL统计各关键词词频,选择词频不小于20的关键词作为高频关键词,得到第一个时期41个高频关键词,第二个时期44个高频关键词,如表1、表2所示。

2.3 构造共词矩阵

高频关键词很大程度上反映了检索语言的研究热点,由于研究热点不太可能独立存在,往往涉及到其他热点或相关知识点,为了进一步揭示关键词间的关系,根据共词分析的思想,将两个时期的高频关键词两两配对,统计它们在同一时期中共现的次数,形成41×41和44×44的共词矩阵。

2.4 构造相异矩阵

为了消除频次差距造成的影响,以揭示关键词间的共现关系,本文选择Ochiia系数法将共词矩阵转化为相关矩阵。其计算公式是:Ochiia系数=A、B 两词同时出现的频次/(A词频次的算术平方根×B 词频次的算术平方根)。

得到的相关矩阵对角线上的数据均为1,表示每个词与自身的相关程度,由于相关矩阵中存在很多0值,可能影响分析结果,用“1”与相关矩阵上的全部数据相减,至此,得到表示两词相异程度的相异矩阵。

2.5 利用SPSS进行聚类

基于“物以类聚”的思想,将两个时期的关键词相异矩阵导入SPSS17.0中进行聚类分析。选择系统聚类(Hierarchical Cluster)方法,采用最近邻元法计算类间距离,采用欧式平方距离计算点间距离,完成两个时期高频关键词的共词聚类,得到各自的类团。

2.6 战略坐标图

1988年Law等提出用“战略坐标”描述某一研究领域内部联系情况和领域间相互影响情况[4]。根据高频关键词的共词矩阵和聚类结果,用战略坐标图这一可视化的形式来反映不同类团内部和相互间的关系。

向心度(X轴)表示类团之间相互影响的强度,可以通过对该类团的所有关键词与其他类团的关键词之间的外部链接的强度加以计算。所谓外部链接,指某类团所包含的关键词与其他类团所包含的关键词共同出现在同一篇论文中,对于这两个类团而言,这两个关键词之间的关联是“外部链接”[5]。一个类团与其他类团联系的数目和强度越大,这个类团在整个学科中就越趋于中心地位[6]。本文采用每个类团与其他类团的链接的和作为该类团的向心度。

密度(Y轴)表示类团内部的关联强度,本文通过计算某类团中每一对关键词在文献集合中共现的次数,即内部链接,然后取这些链接的平均值作为该类团的密度。密度表示该类维持自己和发展自己的能力[7]。

3 情报检索语言领域共词处理结果分析

3.1 聚类结果分析

通过两个时期形成的树状聚类图(略),第一时期通过对41个高频关键词的相异矩阵进行聚类,在阈值为19.5处得到6个类团,共包含29个关键词,其余关键词未聚入任何类目;第二时期通过对44个高频关键词的相异矩阵进行聚类,在阈值为21.5处得到7个类团,共包含30个关键词,其余关键词未聚入任何类目或是聚成了只有两个词的小类团(如分类标引和复分等,此处被忽略掉)。聚类结果形成的类团关系见表3。

3.1.1 改革开放时期情报检索语言的研究热点

经聚类处理,得到6个类团,根据情报检索语言的研究范畴可分为4个研究热点:

①分类法、主题法及典型类表、词表的研究:这些是情报检索语言学科体系中最重要、最核心的组成部分,包括类团1和4。《中图法》是我国一部大型综合性分类法,自1989年11月出版第三版以来,学者便开始研究其中各学科类目的设置,对类目进行评论,找出不合理的地方并提出修订意见。此外,在《科图法》领域也存在类似的探索。在叙词表方面,《汉表》有着与《中图法》相近的地位。经过对比研究分类法与主题法的共性与特性,学者发现分类主题一体化是科学的,《中分表》就是此领域最具代表性的研究成果。

②图书分类及排架:包括类团2和3。书次号是为区分同类书而编制的号码,是索书号的组成部分之一,著者号码和种次号编号用来解决同类书的排列次序问题。在图书分类方面,国内学者研究UDC 这一国际分类法,以便更好地发展国内这一领域。

③检索语言和自然语言在情报检索中的应用:类团5给出了情报语言学的两个分支,即检索语言和自然语言。检索语言是为满足专项任务而设立的一门人工语言,受控的词汇表达概念专一,具有较高的检准率;自然语言直接用作者原来使用的词语进行检索,漏检率较低,能够比较全面检出所有的文献。此外,两者在扩检和缩检、词汇更新速度、检索成本及兼容性等方面各有利弊,相互补充,共同服务于情报检索工作。

④文献自动标引:随着科技的进步,手工标引的速度逐渐不能匹配文献的日益增长。学者开始尝试汉语文献自动标引系统的构建,来提高文献信息处理的效率。

3.1.2 网络时代大变革期情报检索语言的研究热点

同1979-1998年相比,1999-2008年情报检索语言领域保留了一些共性。聚类结果表明有较多的关键词没有聚成类团或仅是聚成了小类团。在网络时代,情报检索语言有了很多新的发展和延伸,现在通常用“信息组织”这个概念来表述它的研究领域[8],这一时期的研究热点有以下几个方面:

①分类法、主题法及类表、词表仍然是主要研究主题:由类团1、3、4组成。在前期研究的基础上,编者修改了《中图法》第三版中的不足,于1999年出版了第四版,第四版学科类目特点成为学者关心的话题。此外,分类主题一体化仍是不变的研究中心。本体这一源于哲学概念的信息组织理论的应用得到重视。

②图书分类类团比较稳定。在图书的索书号方面,解决同类书排架的著者号码和种次号仍是服务于图书馆工作的一个重要方面。

③情报语言类团依然存在。作为情报检索的两种工具,检索语言和自然语言各有优缺点,都存在自己特定的作用领域,并存状态还会继续延续,两者的融合是信息组织的研究重点之一。

④出现了6、7两个新类团。类团6表明自动标引、自动分类由原先的文本信息拓展到网页信息,通过机器学习、算法或模型完成海量信息处理的自动化。在自动标引方面,改进算法以提高精度是近年来的主要研究内容;自动分类难度高于自动标引,目前最常用的自动分类技术主要是基于向量空间模型等。离真正实现自动分类系统还存在一定距离,当前的研究基本还是致力于这些技术算法的改进,研究的深度得到扩展,数据挖掘成为进一步的处理目的。

类团7(网络分类法及网络信息组织与检索),即传统情报检索语言在网络中的应用。已有分类法的电子化、网络化或是专门的网络信息分类法以及搜索引擎这一信息采集、检索的网络工具都是检索语言理论和技术在网络信息组织中的发展。

3.2 类团的战略位置分析

根据共词矩阵和聚类结果计算得到向心度和密度,用MATLAB软件绘出两个时期的二维战略坐标图(图1、图2)。

图1 1979-1998年6个类团的战略坐标图

图2 1999-2008年7个类团的战略坐标图

在战略坐标图中共有四个象限,按从上至下逆时针的顺序依次为第一、第二、第三和第四象限。第一象限中的类团,其向心度和密度都较高,说明该研究热点内部联系紧密且与其他热点有广泛的联系,即处于整个研究网络的中心;类团位于第二象限,说明主题内部联系紧密,但与其他类团之间关系不够密切,虽然该主题已形成一定的研究规模,却还处于网络的边缘;处于第三象限的类团,研究主题不仅处于网络边缘,而且其内部结构松散,研究尚未完全成熟;位于第四象限的类团,内部结构不稳定,研究不够成熟,但其向心度较高,说明主题已较为集中,有进一步的发展空间。

1979-1998年期间,第一象限的类团只有类团1,该类团的向心度和密度都远远高于其他类团,内外联系紧密,成为情报检索语言的核心主题;“检索语言与自然语言研究”位于第二象限,研究已较为成熟,但与其他主题又相对独立;第三象限包括“图书排列方法研究”、“图书分类与种次号研究”和“文献自动标引研究”这三个类团,这些研究尚不成体系;“主题法、词表与分类法研究”位于第四象限,与其他类团联系较密切,但自身内部结构松散,研究受到重视但还不是非常成体系。

1999-2008年期间,第一象限的类团还是《中图法》所在的类团,该领域研究已非常成熟,是所有网络的中心;类团7这个新生主题处于第四象限,虽不是特别成熟但已受到重视,有潜在的发展趋势;其余五个类团都处于第二象限,尤其是“检索语言与自然语言研究”也由第一时期的第二象限变为现在的第三象限,说明这些类团的主题研究均不成体系,且处于整个研究网络的边缘。

4 结论

本文运用共词分析法分两个时期讨论了1979-2008年我国情报检索语言的研究热点,并进行了比较分析。共词聚类分析不同于普通的文献计量方法,它能反映出词间的亲疏关系,进而反映这些词所代表的主题内容的结构[9]。又借助战略坐标图将两个阶段的研究热点进行可视化,从而分析各研究主题在整个研究网络中的战略位置。

需要说明的是,本研究属于探索性研究,难免存在一定的局限性。首先,数据本身不够完善,选取的词语仅是作者给出的关键词或标引人员的标引词,很难从一个整体范围上进行词语的规范化;其次,本文只选取了高频关键词进行处理,受发文时滞的影响,也不能排除少数低频关键词可能成为未来的研究热点;最后,是目前共词分析方法普遍存在的问题,吴清强、赵亚娟曾通过建立加权共词分析模型证明了论文属性对共词分析带来的影响[10]。

标签:;  ;  ;  ;  ;  ;  

中国信息检索语言研究透视--基于共词分析方法_聚类论文
下载Doc文档

猜你喜欢