中文引文索引主题图的构建与实现_可视化技术论文

中文引文索引主题图的构建及其实现,本文主要内容关键词为:引文论文,中文论文,索引论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G203

修回日期:2010-02-26

1 前言

引文,即引用文献(citations),有时又称参考文献,是专业人员为撰写或编辑论著而引用或参考的其他专业人员的相关文献资料及其文献条目。引文索引(citation index),是一种以文献之间的引用关系为基础的文献索引,它以被引用文献(即引文)为标目,其下列出引用过该文献的全部文献(我们称之为来源文献)[1]。

引文索引具备两方面的基本功能:一是引文索引可以作为一种检索工具。引文索引的创始人尤金·加菲尔德先生曾指出,1964年创办科学引文索引(SCI),是第一次想把引文索引法的概念大规模地应用于科技文献检索。引文索引通过文献之间的相互引证关系,将相关文献集结成为一个文献网络,不断扩大检索范围,提供更多的检索入口,从而获取更多相关信息资源。二是引文索引具有一定的信息精选和学术评价功能[2]。引文索引的信息精选和学术评价功能主要体现在两个层次:①宏观层次的信息筛选,即在引文索引的编制过程中,来源文献的甄别和确定是通过一定的标准进行质量评价,进而筛选出高质量的来源期刊;②微观层次的信息萃取,即对引文数据库中提供的数据从引用次数、引用和被引关系、学科、时间、机构等方面进行信息分析和数据挖掘,从而获得关于学科发展过程、态势以及学科发展过程中的优秀学术成果的精选和揭示。

由南京大学中国社会科学研究评价中心研制开发的《中文社会科学引文索引》(CSSCI)不仅为社会科学工作者从事研究与科学管理提供了快捷、科学的查询工具,也为我国社会科学研究评价提供了基本工具和基础数据。目前,关于中国人文社会科学引文索引(CSSCI)的研究大部分集中于利用引文索引数据库中的数据进行某一学科领域的期刊影响、研究热点、学者和机构学术影响分析等,而对于在引文数据库的构建中使用新的技术和方法的研究较少。一般而言,作为引文索引数据库的使用者来说,对于CSSCI关注得更多的是如何充分有效地利用引文索引数据库中的数据信息;而作为引文索引数据库的构建者来说,更多的则是关注如何提高引文索引数据库的质量,从而更加广泛深入地发挥引文索引数据库的作用。我们可以从多个角度提高引文索引数据库的质量,如来源期刊的选定、入库数据的加工质量和加工速度、系统平台等,新的信息组织技术与方法的引进及应用也是其中一种途径,因此,我们可以充分利用一些新的信息组织技术和方法来提高引文索引数据库的信息组织质量,从而增强引文索引的检索、信息精选与学术评价功能。

有鉴于此,本文选取CSSCI中的部分数据作为样例来源,将主题图技术应用于引文索引数据库的构建之中,探索主题图应用于引文索引数据库的可行性以及将来可能面临的问题。

2 主题图应用于引文索引的可行性

主题图,又称主题地图(topic map),作为一种新兴的信息组织方式,起源于20世纪90年代初,在国际标准ISO/IEC:13250中,它被定义为“一套用来组织信息的办法,使用这种方法可以提供最佳的信息导航”[3]。从理论到实践,主题图技术的发展已经相对稳定和成熟。作为一种信息组织技术,它汲取了传统索引、图书馆科学、知识表示以及多种知识组织方法的优点,由于它所具有的灵活性和丰富的表现力,目前已经被国外广泛应用于知识管理、Web应用、语义挖掘等领域。如Schweiger Ralf、Hoelzer Simon、Rudolf Dirk等人提出利用主题图技术来管理医疗信息系统[4],通过主题图揭示医疗临床数据资源之间的联系,并将这种关联作为上下文检索的基础,从而获取更为准确的检索结果;由挪威Ontopia公司开发的意大利歌剧主题图、基于主题图技术的柯达数字摄影配件网站[5]等。

主题图的核心概念主要包括主题(topic)、关联(association)、信息资源实体(occurrences)和范围(scope)4个部分[6]。它在信息资源的上层构建了一个结构化的语义网,独立于技术平台,用以描述主题之间以及主题与信息资源实体之间的关联,通过揭示概念之间的关系,将用户指引到相关的信息资源。引文索引具备三个得天独厚的功能,其中一个重要功能表现在:已发表的文献本身所包含的主题范畴在语义上更准确、更详细;同样,其稳定性和灵活性在语义上也胜过普通的主题索引。而主题图正是在信息资源的上层构建了一个结构化的语义网,在引文索引的构建中应用主题图技术可以从语义层次组织信息资源,增强引文索引的功能。

3 引文索引主题图的构建

主题图技术应用于信息组织主要是通过一些主题图工具来实现的,主题图工具包括三大类型:主题图引擎(topic maps engines)、主题图编辑器(topic maps editors)和主题图可视化工具(topic maps visualization)。目前国外使用比较广泛的主题图工具有TM4J、OKSSamplers、The Goose Works Topic Map Tookit、TMview、TM3D等。在这些主题图工具中,有的是单一性的主题图引擎、主题图编辑器或者主题图可视化工具,有的则是集三者于一体的综合性主题图工具。本文选取的主题图工具是Ontopia公司开发的OKS Samplers,它同时包含了主题图引擎The Ontopia Topic Map Engine、主题图编辑器Ontopoly、主题图导航框架Omnigator以及主题图可视化工具Vizigator 4部分,能够实现主题图编辑、显示和可视化的一站式构建,并且支持中文主题图的开发和构建。

The Ontopia Topic Map Engine是OKS Samplers的核心部分,它的主要功能是通过Topic Maps API允许应用程序以XTM形式导入和导出主题地图,支持在关系数据库中存储、访问、修改主题地图。无论主题地图是以内存、数据库还是虚拟视图等形式存放,应用程序都可以透明访问。主题图编辑器Ontopoly是一个为用户提供手工创建与维护主题地图的工具,为了应用程序开发方便,提供了易于操作的用户接口和本体(Ontology)驱动。这就意味着用户可以从底层本体(Ontology)和提前定义的规则中生成主题地图。Ontopoly编辑页面主要包括4个模块:①Description模块,对所构建的主题图的总体描述;②Admin模块,即Export模块,提供主题图的输出功能,用户可以将已经完成的或者正在编制的主题图以XML文档、XTM、TM/XML以及RDF的形式输出并保存到本地系统;③Ontology构建模块,ontopoly的核心部分,主要是对主题类型(topic types)、资源类型(occurrence types)、关联类型(association types)、角色类型(role types)以及名称类型(name types)5个部分的定义;④Instances模块,定义每个主题类型所对应的实例。从主题图的基本构成要素我们可以看出,引文索引主题图的构建主要包括主题、关联、信息资源实体以及实例的定义。具体构建步骤如下:

3.1 主题类型的分析与定义

在主题图中,主题从属于特定的主题类型,因此首先必须定义主题类型。基于CSSCI向用户提供了来源文献和被引文献两种检索入口,因此,在引文索引主题图中,笔者定义两种主题类型:“来源文献”和“被引文献”。在主题图中,主题是对现实世界中主体结构的描述,不论是一个具体的事物还是一个抽象的概念,都可以称之为主题,因此,在引文索引主题图中我们将“来源文献”和“被引文献”的题名定义为主题。

3.2 信息资源实体的定义

在完成主题类型的定义之后,我们需要为每种主题类型定义它所具备的信息资源实体(occurrence)。信息资源实体是独立于主题图之外的,它可以是有关某一主题的专论,或者描述有关主题的一段文字,也可以是描述某一主题的图像或视频。一个主题可以和一个或多个信息资源实体相联系。

在CSSCI数据库中,来源文献的基本著录信息包括:篇名、英文篇名、作者、作者机构、文献类型、学科类别、分类号、基金项目、来源期刊、年代卷期、关键词和参考文献,因此,将以上12个著录项目全部定义为主题类型“来源文献”的信息资源实体。此外,笔者为来源文献再添加一个全文信息资源实体,通过输入相应文献的链接资源,向用户提供文献的全文信息。因此,在引文索引主题图中,来源文献的信息资源实体总共包括13个。在CSSCI数据库中,被引文献的检索结果页面信息主要包括被引作者、被引文献篇名、被引期刊、被引文献出处和被引次数5项,点击每篇被引文献可以获取到引用过该篇被引文献的来源文献信息。鉴于此,笔者将来源文献也作为被引文献的一个信息资源实体,那么被引文献的信息资源实体总共包括6个:被引作者、被引文献篇名、被引期刊、被引文献出处、被引次数和来源文献。

在进行信息资源实体定义时,需要为每种信息资源实体类型选择合适的数据类型(data type),这是进行信息资源实体定义的关键。Ontopoly主题图编辑器中的数据类型主要划分为外部资源实体和内部资源实体两大基本类型,具体包括:日期、日期时间、超文本标记语言、图像、字符串、数字和通用资源标识符(URI)7种。来源文献所具备的13个信息资源实体除了将“全文”定义为通用资源标识符(URI),其他12种均可以定义为字符串数据类型;被引文献的7个资源实体类型中,除了将被引次数数据类型定义为数字,其他6种资源实体类型全部定义为字符串。

3.3 关联类型的定义

关联(association),是主题图中最有价值的一部分,它是用来展示主题之间的语义关系,可以发生在两个或多个主题之间。在引文索引主题图中,我们可以定义三种关联类型:引用关系、共引关系、耦合关系。

·引用关系。在科学文献体系中,众多的科学文献并不是孤立存在的,一篇文章或专著在写作过程中,一般都需要参阅相关的其他文献,并且在文章或专著中列出所参阅的文献,这就形成了科学文献之间的引用与被引用关系。科学文献之间的引用和被引用关系,在一定程度上反映了后人对前人研究成果的借鉴和参考,是由科学发展的规律与科学研究活动的规律所决定的。在CSSCI数据库中,来源文献和被引文献之间存在着引用关系。

·共引关系。当两篇或两篇以上的文献共同被一篇或多篇文献引用时,我们称这两篇或两篇以上共同被引用的文献为“共引”,在CSSCI数据库中,共引关系设定发生在两篇或多篇被引文献之间。

·耦合关系。如果两篇或多篇文献共同引用了一篇文献,称这两篇或多篇文献之间存在耦合关系。在CSSCI数据库中,笔者定义耦合关系发生在来源文献之间。

3.4 实例的添加

在CSSCI数据库的每条检索结果记录中,文献篇名是进入引文详细信息的连接点,因此,在进行实例的添加时,将每篇来源文献和被引文献的篇名作为实例的名称。由于主题类型、信息资源实体和实例都是相互对应的,因此添加后的各个实例会自动获取对应主题类型所具备的各种信息资源实体。如笔者为主题类型“来源文献”添加篇名为《外文电子期刊收集策略再探》,添加完成之后该篇来源文献自动获取来源文献所具备的13个信息资源实体类型以及与被引文献《美国的图书馆自动化和文献资源共享网络——现状与趋势》之间的引用关系。图1所示的是已定义完成的来源文献实例《外文电子期刊收集策略再探》及所具备的信息资源实体和关联信息。

图1 引文索引主题图来源文献实例

4 引文索引主题图的浏览与检索

4.1 引文索引主题图的浏览

引文索引主题图的浏览主要通过OKS Samplers中的主题图导航框架Omnigator来实现,Omnigator使用简单的基于HTTP协议的客户机/服务器模式,以Tomcat作为Web服务器。使用Omnigator不仅可以对主题地图进行浏览,还具有管理、合并主题地图功能,可以对插件全文索引进行管理。它还利用主题查询语言Tolog对主题地图进行查询、验证主题地图的有效性,更换Omnigator显示模式、视图等。

图2所示的是来源文献《外文电子期刊收集策略再探》的主题图浏览界面。

图2 《外文电子期刊收集策略再探》主题图浏览界面

该浏览界面显示了《外文电子期刊收集策略再探》所具备的关联类型和信息资源实体。其中,关联类型主要是与被引文献《美国的图书馆自动化和文献资源共享网络——现状与趋势》之间的“引用关系”;信息资源实体主要包括它的内部信息资源实体和外部信息资源实体,如分类号、作者、作者机构、关键词、参考文献、全文等。需要指出的是,每一种信息资源实体都是一个主题,均可以点击进入其对应的主题图浏览界面。

4.2 引文索引主题图的可视化显示与检索

引文索引主题图的可视化主要通过OKS Samplers中的主题图可视化工具Vizigator来实现的。在可视化界面中,我们可以选择关于某一主题的一级、二级、三级等几个不同级别层次的可视化显示。《外文电子期刊收集策略再探》的一级可视化界面(见图3),层次越小,可视化所显示的信息就越简单。

引文索引主题图的检索也是在可视化界面中来实现的。在可视化显示上方的检索框中,我们可以输入检索主题,如来源文献的篇名,检索结果会以亮色突显的方式来呈现给用户,从而实现引文索引主题图的可视化检索。

图3 《外文电子期刊收集策略再探》“一级”可视化界面

5 结语

本文以CSSCI中的部分数据作为样例来源,利用主题图工具OKS Samplers实现了引文索引主题图的构建,验证了主题图技术应用于引文索引数据库中的可行性。本实验系统所构建的引文索引主题图具有以下特点:①给用户提供了基于语义的导航,当用户浏览某个主题时,系统就将和该主题有关联的其他所有主题都展示出来,并提供了它们之间存在的语义关联,这种语义关联能够揭示主题之间的引证关系,为科学评价提供依据;②在所构建的主题图浏览界面中,每个主题都具备“超级链接”功能,这个“超级链接”功能是在构建主题之间的语义关联后,由系统自动生成的;③通过利用主题图系统的可视化插件,实现了所构建的所有主题的可视化浏览。

关于主题图应用于引文索引数据库,笔者认为首先需要在不影响整体引文索引数据库使用的前提下,先进行小规模的实验研究,分析引文索引数据库使用主题图技术的可行性;其次,需要判定所构建的引文索引数据库适合使用哪种主题图工具,即进行主题图工具的调研和选定,因为目前国外大部分主题图工具都是付费使用,小部分主题图工具提供一段时间的免费试用期,所以如何选择适合的主题图工具是至关重要的。本文中的实验系统只选择了CSSCI中的部分来源文献和被引文献作为实验对象,还有待于进一步的拓展。同时,主题图技术的其他功能在引文索引中的应用,如合并功能、语义挖掘等,也有待于进一步的研究和开发。

标签:;  ;  ;  ;  

中文引文索引主题图的构建与实现_可视化技术论文
下载Doc文档

猜你喜欢