计算机引文分析的新进展_数据仓库论文

计算机引文分析的新进展_数据仓库论文

计算机引文分析的新发展,本文主要内容关键词为:引文论文,新发展论文,计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 计算机引文分析的意义

计算机引文分析是借助计算机进行引文的统计、分析、模拟、推理,并给出相应的分析结果的研究工作。随着计算机系统性能的不断改进和功能的不断增加,计算机引文计量分析研究的应用越来越广。由于引文分析应用范围的拓宽,新的分析方法和指标体系层出不穷,引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式已经远不能满足高层次分析的需求。计算机和网络技术的不断发展给引文分析提供了条件。在数据处理方面,计算机具有独特的功能和极高的效率,可及时更新数据,统计极为容易,可方便地获得动态数据,还可进行复杂的计算与模型处理,能对收集到的数据进行深度开发。计算机引文分析为解决引文分析中所需要的数据和分析统计等提供了强有力的技术支持,为引文分析的正确性和可靠性提供了保障。随着引文分析研究的不断深入,计算机对引文分析研究将会变得更加重要[1]。计算机引文分析促进了文献计量分析研究向高级阶段发展。计算机文献计量分析可以分为三个主要的阶段:(1)数据处理阶段。在引文计量分析中,数据处理的工作量越来越大,因此需要利用计算机来处理、编辑、分类、统计等工作,从而扩大数据处理的通用性和提高工作效率。(2)系统支持阶段。主要是构造专用的数据库和设计分析系统,或根据需要对有关的数据库内容进行改造,目标是由计算机和数据库构成分析系统,不但从单项工作而且从整体上支持引文计量分析,实现更高程度和更大范围的自动处理。(3)智能化阶段。智能化阶段是计算机辅助文献计量分析的高层次阶段,它不仅仅满足于逻辑推理、定量计算或固定程序,而应该具备灵活的分析判断能力,多方面的推理、处理模糊问题的本领和模糊识别的能力,实现数据处理向知识处理的转变。计算机引文分析利用数据挖掘和知识发现技术等成果,如采用关联、序列、聚类、分类等方法进行深层次的分析,能从大量的引文数据中找出隐含的、事先未知的有价值的信息,揭示其内在的规律。

2 数字化环境下引证行为的变化

随着网络技术和电子出版的发展,网络电子出版物已逐步成为人们获取信息的重要来源。目前国内外出版的论文的参考文献中,已经有不少引用网络参考文献,并且所占的比例越来越大,网络文献正逐渐成为论文的重要参考文献。引文的类型和引用方式等行为方式的变化给引文分析带来许多新的挑战[2]。

2.1 引用文献的来源进一步扩大

在网络环境下,人们获取信息的途径已经十分便捷,参考文献来源的时空限制将日益减少,被引文献的易得性不断增强;引文的直接引用将进一步增加,转引行为将会大幅度减少;作者实际使用的参考文献与其论文的关系将会更加密切,引文分析结果的可靠性也将进一步提高。同时,在全文数据库中,可以方便地找出引用文献的全文内容并与来源文献引证处的内容加以比较,对了解引用者引用动机、分析其引用行为提供了便利,并将使引文分析评价在更具体、更精确的层次上进行。

2.2 引用文献的时间差在缩短

发行简便、时效性强是网络出版的突出特点。网络出版发行使文献的出版周期大大缩短,就文献的发表时间和引用者的使用时间的间隔来看,网络参考文献时差相对较短。参考文献的时效性问题关系到科研成果的质量和水平,它反映了文献对当前研究动态的掌握情况。网络参考文献时效性强的特点使参考最新文献这一原则能够得到较大程度的满足和实现。充分利用网络参考文献,可以改变过去论著的引用文献过于陈旧的状况。

2.3 引用文献的载体具有多样性

传统的参考文献只能提供文字等静态信息,而网络文献却可以通过多媒体提供多种形式的信息,它集文本、图像、图形和声音、视频等于一身,可使人们在阅读文本的同时看到相关的图像或影像,甚至还可以听到相关的音乐或解说。网络引文载体的多样性与灵活性使得网络引用文献能够很好地说明、解释与验证文中的内容,使其评价的功能得到更好的发挥。但在目前,对多媒体文献的引用机理和评价分析方法的研究还是空白。

2.4 网络文献引用行为需要规范

网络信息资源老化具有不确定性,网络文献的更新和变化比较快。作为引文的网络文献,大多是从网页中获得的,而网页的不断更新维护会使该文献在一定时间后消失。许多网络出版物较难在网上找到,有的可能随时间推移而消失,甚至网站也可能因各种原因关闭或无法进行链接,无法进一步了解和查询相关的网络文献。因此,网络文献的稳定性和安全性没有保障。目前网络文献引文还没有统一的著录项目和著录格式,著录方式五花八门,比较杂乱:如有的引文著录文献题名和网址,分为两段或连续著录,无引文著录特有的标识符号;有的只著录引文所在的网址,没有具体文件名称;还有的在网址后用括号标注网络文献获得的具体时间,有的则没有。如此等等,给引文分析评价带来许多困难[3]。由于网络文献著录内容比较复杂,如何准确地著录仍需要进行探讨和统一标准。

2.5 网络文献对分析工具和方法有较大的影响

网络文献具有超文本链接、更新快速和分布较广的特点,一方面为引文分析开辟了新的研究领域,另一方面也对传统的分析评价方法提出了挑战[4]。网络文献引文评价功能随网络环境的变化而不断增加。在目前的引文分析中,通常只要统计参考文献的数据便可完成分析任务,而网络文献的引用关系十分复杂,网页既有论文引用的参考文献,又有网页之间包含的链接关系。网页的链接机制与引文机制有许多相似之处,但也存在一些区别。网页链接的数据已经数字化,可以利用计算机自动操作,交互性强,并能对有关的数据进行多方面的深度分析。网页链接的范围较广,除了引证外,还包括参考、应用、相关等,有时甚至是一些意义不太大的广告。链接涉及的载体类型多,动态性强,数量多,有关数据量大。因此,要编制网络引文分析工具和进行相关的分析有许多新的问题需要进一步研究。文献载体形态的变化必然会影响文献信息传播及其引用行为的模式,由此引发的新问题应该引起高度关注。必须对网络形态下的引文指征作出科学考证,才能恰如其分地揭示当代科学研究活动特征并予以合理评价,使引文分析“经典定律”在时代进步中获得发展。文献[5]曾经对普赖斯的“论文被引态势曲线”进行科学性和实用性分析,考察其在网络形态下的适用性和局限性,并根据Web数据特征进行了文献被引特征及其新型算法的探索,得出了普赖斯曲线已不再适合当今的文献载体形态,应该采用多种模式对其进行研究和描述的结论。

3 计算机引文分析的新发展

3.1 网络电子出版物的引文链接

随着电子出版物的不断增加,电子期刊论文的引文链接是值得注意的问题。近年来论文引文链接有了许多新的变化,具有不同的特点。目前主要有以下几种实现方式:

(1)封闭式静态链接系统。这种系统的所有链接都存在本地数据之间(封闭式),而且所有链接都通过专门程序事先计算,并通过嵌入URL或存放于专门数据库的链接记录来表达(静态链接)。它主要解决各种链接数据的处理和链接数据库的管理问题,链接准确性较高,但对于链接源中包含的别人拥有的链接对象如另一出版商的全文期刊就难以处理。其特点是逻辑模型中所有部分均由链接者本地控制。许多信息服务商将自己的文摘索引数据库、全文期刊、文后参考文献、全文等都链接起来,典型的产品有ISI的Web of Science,NASA的Astrophysical DataSystem等。

(2)开放式静态链接系统。主要解决如何为链接源中包含的别人拥有的链接对象提供链接,其主要方法是资源拥有者互相提供链接对象的标识符或URL。例如全文出版商向文摘索引商提供期刊文章的标识符和URL,后者将标识符或URL嵌入自己的文摘索引数据中或记载在自己的链接数据库中,从而建立两者间的链接,如Elsevier Science Direct,PubMed/PubRef,SilverLinker,Swets Navigator Linker等都是这类系统。中国学术期刊网拟利用Elsevier Science Direct电子期刊所具有的一种开放式的URL,通过参考文献元数据项的分解组合得到和确定引文链接网络地址,从而实现中国期刊网全文数据库引文与外文文献电子全文的链接[6]。

(3)开放式动态链接系统。上述两类系统中链接源与链接对象间的链接都是事先固化在URL或链接记录中,往往只能处理一对一链接,因此对建立链接后出现的新链接对象、链接对象在建立链接后的变动、一对多情况下的选择性链接等都无能为力。所谓动态链接系统是在用户需要链接时才根据一定规则计算链接路径和进行链接,因此可对用户链接前出现的链接对象或位置予以链接,也可在链接的计算规则中嵌入选择规则实现选择性链接[7]。尽管开放式动态链接系统的规则描述难度较大,但是从发展趋势来看,这是链接整合发展的结果。如著名的Springer Link除了加入与二次文献出版服务引文链接(直接链接到原出版社的文献全文)外,还应用了CrossRef交叉链接功能。目前国外主要有两种开放链接系统,一是商业出版界的CrossRef/DOI系统,二是由Ex Libris公司推广的SFX/OpenURL系统。CrossRef系统是1999年11月由当时世界著名的12个商业和非商业出版商发起建立的,自从2000年6月系统启动以来,每年以新增50多万篇文献的速度增长。它的任务是使网络学术文献之间的引文链接有效和可靠,减少用户检索和内容发现的障碍。CrossRef是网络出版的一项新技术,它既是参考文献标注的一项革新,更为文献信息的传播方式带来革命性的影响,对期刊文献检索利用也起到很大的作用。它有以下几个特点:(1)没有无效链接:因为DOI链接是一个永久性的链接,出版商和其他CrossRef成员会在CrossRef参考数据库记录及其引文之间创建并维护一个可靠的永久性的链接。(2)只要与CrossRef签定一个合同,就等同于和所有参加CrossRef的出版商签定了链接协议,从而避免了与众多出版商签定大量双边链接协议的麻烦。(3)通过一个链向被引文献的链接将不同出版商的数字出版物整合起来,从而使订购这些出版商出版的数字资源增值。在SFX/OpenURL框架下,可实现不同Web学术信息资源的动态链接,包括全文电子资源、题录和文摘数据库、引文数据库、在线书目系统、电子印刷本系统及其他Web资源,并能提供许多扩展服务。OpenURL摆脱了传统URL抽象的与物理地址密切相关的缺点,使URL可以携带对象的元数据,只要编制一种简单的程序就可以解析出数字对象的元数据,为进一步利用提供了可能。SFX能根据接收到的OpenURL产生恰当的链接。它主要由一个服务组件构成,服务组件在收到一个OpenURL之后,将解析该OpenURL获得元数据,或通过该OpenURL提供的标识符到相关服务器上获得元数据。然后通过这些元数据,并根据单位资源情况和订购政策产生出恰当的链接。SFX/OpenURL系统工作原理是:首先,由信息提供商在资源系统中为文献参考书目加入OpenURL,并产生一个SFX链接图标,这就是SFX链接源。其次要在服务器上安装一个SFX服务组件,也可以利用远程服务器。当用户点击由资源提供商为某参考文献设置的SFX链接图标时,描述该参考文献的OpenURL将被发送到SFX服务组件,SFX服务组件解析该OpenURL得到该参考文献的元数据,利用这些元数据对提供何种服务进行分析和评估,最后当SFX服务组件完成预定的工作后,向用户显示一个SFX服务列表窗口。SFX的“扩展服务”包括全文链接(可能会有多个链接),各种数字资源链接(如索引数据库、专利数据库、百科全书等),OPAC系统查询,文献传递服务,作者其他著作查询,还可以查询相关网络文献等。然后用户可以选择这些“扩展服务”。如点击全文链接,SFX将链接到图书馆含有该全文的资源,并显示该全文。SFX/OpenURL系统的特点是:(1)上下文敏感(context-sensitive)链接。对于相同的一篇参考文献的SFX链接,不同机构用户有不同的链接内容。理论上SFX系统提供给用户的链接都是“合适”的,即SFX链接目标都是该机构的用户有权查看的。没有订购过的资源链接将不会提供给用户。(2)开放链接(open linking)。任何应用OpenURL框架的数字信息源都能把它的元数据发送到服务组件,这些组件能用相同的标准的方式来处理元数据,通过OpenURL来传送。也就是说,只要是能与OpenURL兼容的数字资源都能通过SFX/OpenURL系统整合。OpenURL框架也可以兼容其他的参考链接系统,为与其他参考链接系统的整合提供了条件。(3)SFX/OpenURL系统不仅可以整合数字资源,还能提供一些相关资源的扩展服务。(4)SFX还能提供各种统计报表及其他功能,如点击的次数、下载全文的次数等[8]。

3.2 基于网络的引文数据库的发展

近年来引文数据库纷纷提供网上服务,其中基于Web的引文索引数据库Web of Science的功能变化值得关注。它由科学引文索引扩展版(Science Citation Index Expanded,SCI-Expanded)、社会科学引文索引(Social Science Citation Index,SSCI)、艺术与人文科学引文索引(Arts & Humanities Citation Index,A&HCI)三大著名引文索引数据库组成,主要用于检索论文被收录和被引用情况。Web of Science充分利用了Web技术,将传统的引文索引与先进的Web技术相结合,检索功能有较大的加强,不仅使数据库内的所有信息都相互链接,而且还允许链接到许多其他信息数据库,构成了一个具有扩展能力、灵活、强大的信息工具[9]。它具有如下一些独特的特点:(1)收录范围广,内容涉及科学技术各个领域的期刊。(2)更新频率快,每周更新。(3)可跨年度或多年度检索,允许检索整个数据库或指定检索年份,以每个年度进行跨年度检索。(4)被引作者检索在检索被引作者时,可以检索该篇被引文献的所有作者。(5)可以检索到在不同年份中共同引用某些参考文献的相关文献。(6)通过Times Cited(被引次数)检索功能,不仅可看到某篇文献被引用的次数、引用文献和著者列表,而且还可以直接链接,看到引用文献的全记录。(7)超文本链接引文索引是按照论文与其参考文献的关系进行排列而编制的索引,展示了科技文献内容主题之间的相互联系。引文索引不仅能够揭示作者何时在何刊物上发表了何论文,还能够提供研究思路,将某一研究课题的过去、现在和未来的信息连接起来,将不同学科、不同领域的信息连接起来。Web of Science打破了传统的学科分类界限,能够从多维的角度反映学科之间相互交叉、相互渗透的关系。(8)利用网络环境构建“一站式”信息服务平台。Web of Science和其他资源一起整合为Web of Knowledge(WOK)平台,可以使系统在引文检索机制的基础上,同时整合多种有价值的学术信息资源,可以实现跨库、跨专辑、跨时段检索,与其他信息检索系统如全文检索系统实现无缝链接,从而提供更加全面的信息服务。

3.3 数据仓库与引文数据库

数据仓库是集成的面向对象的数据库集合,是用来支持决策分析的。它具有如下特征:(1)数据仓库是面向主题的。与传统数据库系统面向应用不同,数据仓库是围绕主题来组织数据,每个主题对应一个明确的客观分析领域。按主题组织数据,反映了按主题开展决策分析对数据的要求。(2)数据仓库是集成的。数据仓库通过对各种系统的数据进行重新组织和集中存储,实现了对不同格式和重复内容的数据的统一,从而为决策分析提供一致的高质量的数据来源。集成数据意味着随后运用设计方法来建立数据仓库。(3)数据仓库的数据是与时间相关的。首先,数据仓库的数据都包含时间项,标明了该数据的历史时期。其次,数据仓库数据是一系列的数据写照,反映不同时期的业务变化,其有效性和准确性与时间相关。最后,为了满足决策支持中对趋势发展和时间序列等分析的需求,数据仓库存储有长期的历史数据。(4)数据仓库是相对稳定的。在事务处理系统中,数据需要经常的更新操作,如记录的插入、删除、修改等,而数据仓库不进行实时的数据更新,只进行定期的数据装入。相对稳定是指数据仓库中的数据不进行实时更新。从数据的使用方式上看,数据仓库的数据是稳定的。

数据仓库系统能获得高质量数据,降低建造成本,提供更适时的数据访问,效率和性能进一步提高。数据仓库可解决如下问题:(1)多数据源问题。实际应用环境非常复杂,数据可能分布在不同的地理位置上,使用不同的数据库和操作系统平台,在普通的应用环境中很难将这些高度分布的数据集中。在构建数据仓库进行数据转移的过程中,则可以通过数据转移工具将位于不同平台、不同数据库中的数据按照一定的规则,集中在一个数据仓库中,达到充分利用各种数据源的目的。(2)保证数据的完全一致性。由于应用不同所造成的数据不一致性问题在实际工作中显得异常突出。在传统的业务系统中很难将这些数据综合在一起进行分析和处理,因而无法获得真实的分析结果。在构造数据仓库的过程中,将充分考虑数据的不一致性问题,将系统中不一致的数据,根据数据一致性原则转移到数据仓库中,从而保证数据仓库中数据的完全一致,这对做出正确的决策是至关重要的。(3)能充分利用历史数据。历史数据在决策中起着非常关键的作用,因为只有充分利用历史数据才能准确地进行各种趋势分析。在传统的数据系统中,历史数据大多被存储在磁带、光盘中,要查询一次历史数据是费时、费力的事情,况且各年的数据可能存储在不同的介质上,如果想分析历年的数据将非常困难。数据仓库中主要存储的就是历史数据和大量的汇总数据,因而基于历史数据的分析在数据仓库系统中则显得容易。(4)提高分析的效率。决策分析主要是针对各种汇总数据进行的,而业务系统中存储的都是具体的数据,因而在进行数据分析时,势必要进行大量的计算,效率很低。在基于数据仓库进行分析时,效率则会显著提高,因为数据仓库存储的就是一些经过预先计算的汇总数据。(5)便于随机查询分析。数据仓库使得决策支持进入实用化阶段。对数据仓库的联机分析访问能力是至关重要的,因而需要有先进的联机分析工具为用户提供分析功能,它通过快速、交互地访问各种可能的信息视图,帮助分析数据。

引文分析系统是一个比较典型的分析处理系统。传统的关系数据库系统的理论和方法在处理这类型的应用时显得不太适宜,必须把分析数据从录入系统中提取出来,按照分析处理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库理论的出发点就在于认识到存在着两种不同的信息处理系统:事务型处理系统和分析型处理系统。两者之间存在着巨大的差异使得事务型处理和分析型处理的分离成为必然,从而提出一整套关于建设体系化的数据环境的理论和方法。引文分析需要建立数据仓库。首先,引文分析是一种典型的分析型处理,数据仓库中的多维分析模式在引文分析中比较适用。其次,引文分析所处理的数据特点与数据仓库的数据特点一致,都是历史积累性的、综合性的和非更新性的。第三,数据仓库理论的引入,使引文分析系统的框架变得清晰,更具有系统性。引文索引系统的建设其核心就是引文数据仓库的建设。按照数据仓库理论将事务型环境与分析型环境分开构造的思路,设计引文索引系统体系框架在录入系统和分析系统之间,通过数据转换程序将源数据取出并转换为目标模式,然后装入数据仓库;通过联机分析处理服务从多维数据库析取多维分析数据;分析人员使用联机分析处理工具透过联机分析处理服务访问多维数据库进行引文分析。中文社会科学引文索引系统在进行分析系统设计和实施过程中,借鉴了数据仓库和联机分析处理的理论和技术,取得了较好的效果[10]。

3.4 网络自动引文标引系统

随着网络技术的迅速发展,网上的科学文献急剧增长。但由于网络文献存在着严重的无序问题,要进行手工标引操作基本上不可能,因此需要提高索引编制的自动化程度,应用计算机智能和自动地编制索引[11]。自动引文标引可以极大地提高效率,有效地改变信息传播和反馈的效率,加快知识的传播速度。自动引文标引系统还可以链接相关的科学文献,使用户能够迅速追踪文献的来源和途径,能够快速地获取所需文献。

近年来国外对网络文献的自动引文索引系统做了许多研究,如CiteSeer就是一个典型的网络自动引文标引系统。它是美国普林斯顿的NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)的基础上建设的一个学术论文数据库。它提供了一种通过引文链接的检索文献的方式,从多个方面促进学术文献的传播和反馈[12]。CiteSeer采用机器自动识别技术搜集检索Web上的PostScript和PDF两种格式的学术论文。然后依照引文索引方法标引和链接每一篇文献。ACI系统能自动地从电子格式的文献中制作引文索引。它能自动地发现并著录电子格式论文的结构位置(如篇名项、著者项、文摘项、正文项和引文项等),识别以不同文件格式出现的同一文章的引文,识别文章正文中出现的引文上下文。CiteSeer标引的做法是:首先使用搜索引擎及启发式方法爬行网络,搜索信息,下载PostScript或PDF格式文档,运用PreScript进行文本转换。转换后,检查文档的引文状况,如引文的形式、出现的位置,最后按印刷页逆序排列文档。其次,处理和分析文献。一旦CiteSeer发现有可用形式的文档,它就会定位到参考文献,或通过识别头部来定位引文。引文位置及形式确定之后,CiteSeer开始抽取引文,并通过引文识别符、向量空间或缩进来描述引文。CiteSeer分析每一篇引文,抽取字段,如题名、作者、出版年、页码或引文识别符。然后提供提问和浏览。CiteSeer使用关键词方式供用户进行提问,搜索后返回一个与提问相匹配的引文列表。列表中的引证文献和被引文献之间建立了关联链接,而且索引了引证文献和被引证文献的全文。用户搜索到文献后,可使用引文链接进行浏览。CiteSeer能自动统计文献有关引用数据,自动生成包括文献或作者引用率、点击率和出版物影响率等排行榜。CiteSeer除了对来源文献的篇名、著者、出版项、文摘等内容作标引外,还针对网络学术论文的特点,研究开发了有特色的引文标引项,如:(1)引文上下文标引项。将文章正文中引用标识前面和后面出现的若干词组或句子以粗体字标引突显出来,使读者不用读原文就能获取文章中出现的引用信息。(2)相关文献标引项。从不同的角度,应用特殊算法自动计算出文献之间的相关值,然后按照相关系数排序列在每篇文献的标引记录上。其中包括活跃参考目录,相似文献,基于正文的相似文献,共同引用的相关文献。(3)引文标引与时间分布。CiteSeer在标引每篇论文的参考文献时,并不照搬原文中的引文顺序,而是对这些引文按被引次数重新组织排序,被引次数多的在前,并在每条引文前标明该文献的被引次数。CiteSeer对某一主题检索输出的引文除了给出题录标引外,还在页尾标出该主题的引文发表时间分布图,可直观地了解到文献出现的时间走势,对查找文献和预测学科发展有积极意义。与过去的引文索引数据库相比,CiteSeer在全文性、综合性、效率和即时性方面具有更大的优势。CiteSeer能更快地揭示引文的网络信息影响。CiteSeer是自动引文标引系统,文献又源自网络,一旦有学术性文献在网络上出现,它就能自动找出文章的引文并标引进索引系统,即时把所有网上学术文献包括预印本、技术报告、会议录等的引证关系突显出来,更新和更快地反映引文的信息影响。这对一些前沿学科的研究人员来说,能够迅速方便地找到更新的引用文献。CiteSeer在网上免费提供服务,极大地发挥了引文索引的文献检索和评价功能。CiteSeer还有一些附加的网络服务,如每篇论文都设有修正链接,可以连接到讨论区,看到相关的评论、综述以及新的研究成果。当然CiteSeer也存在一些问题,如目前收录文献的学科范围还比较较窄,学术评价功能尚不成熟,还不能像商用数据库那样提供综合性学科内容的引文索引,不可能取代像科学引文索引那样历史悠久的引文索引系统。它的计算机识别技术也有待完善。目前CiteSeer完全依靠机器自动操作还存在许多问题,如不能准确地分辨出子字段,无法消除不同作者相同名字的歧义,引文在文献中若无标识则不会被标引等[13]。但不管怎样,CiteSeer毫无疑问给网络文献的引文自动标引带来许多新的启示。

3.5 基于XML的引文索引

引文索引在科学研究、信息检索、绩效评价等方面具有独特的利用价值,结合当今Web上数据表示和数据交换的新标准XML的优势,可以研究基于XML标记语言的引文索引模型,在此基础上考虑引文索引的构建、检索和引文分析的实现方法[14]。XML具有简单性、可扩展性、互操作性和开放性等特点,其基本思想是用元素组成文件的逻辑部件,定义任意一组具有说明内容含义的标记来满足不同内容的需求,并且用嵌套和引用来表示元素,用XML对数据对象进行元数据标记。XML能够描述不同的数据对象,每个数据对象包含相应信息资源的基本内容。使用XML建立信息数据模型,在此模型的基础上进行信息的描述、组织和检索。它与关系数据库的层次数据结构描述相结合,既能准确地表达数据对象的特征,又可以清晰地表示出文献之间的引用与被引用关系。在此基础上借助全文搜索引擎的强大索引功能,便能实现引文索引的构造、检索和引文分析的功能。基于XML所建立的引文索引模型,可以突破传统的HTML标记只能用来描述内容的显示格式的限制,从而极大地提高在Web上进行信息检索的准确度。XML还是一种元标记语言,可以通过DTD(Document Type Definitions)或Schema定制标记来描述数据。DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。定义严格的数据结构,用户可以容易地将文件的属性映射到其他数据结构或对象分级结构中去,使得在客户端的浏览器与服务器端的数据源之间能够可靠地传输数据,便于引文数据在网络发表。XML还具有语义性特点,可以利用类似RSS的整合工具对网络有关的引文数据进行聚合,便于全面的分析。

3.6 引文数据的挖掘分析

数据挖掘是从大量数据中挖掘隐含的、先前未知的、具有潜在价值的知识或规则。这些规则蕴含了数据之间的特定关系,揭示出有价值的知识。数据挖掘的主要模式有聚类、关联规则、序列模式、分类等。聚类是把一组个体按照相似属性而归成若干类别,其目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。关联规则是寻找在同一个事件中出现的不同项的相关性。序列模式和关联规则相似,其目的也是挖掘数据之间的联系,它的侧重点在于分析数据间的前后序列关系。分类要解决的问题是为一个事件或对象归类。将数据挖掘的有关方法和模式移植到了引文分析,发挥它能够从大量的、不完全、模糊的、随机的数据中自动、有效、智能地提取隐含于其中的有用信息和知识的优势,克服以往研究方法仅仅是研究少量数据进行浅层次分析的缺陷与不足,建立应用数据挖掘对引文数据进行智能分析的创新方法体系,为定量测度基础研究与文献之间的知识转移机制提供了可能[15]。

过去的引文分析主要是在文献统计基础上对文献利用行为进行描述,通过等级序列分析,对期刊、作者、文章、语种、文献类型、时间分布、引文率等引文指标进行分析、比较和排列,研究引证规律和评价质量。此外,还对引文的流向规律、文献老化、论文的集中与离散等进行研究。然而这些分析着重在表层上对引文的关系进行分析,其结果存在一定的局限性。因此,在引文计量分析的基础上,可以从引文网状关系上进行挖掘分析,在更深的层次上认识引文的规律。如对若干重要的、有代表性的分析对象进行“文献耦合”的聚类分析,揭示学科结构特点、研究热点、发展源流及专业相关程度和科学交流方式。利用知识发现的相关分析法对引文数据进行挖掘,可以研究科学发展的有关规律。如科学发展的继承性可以从文献的引用与被引用关系上体现出来。通过对引证关系的挖掘分析,可以揭示科学研究的脉络,发现科学理论和方法的历史演变过程。通过文献耦合与共引的分析,可以揭示科学的这种整体化发展趋势,探讨科学的交叉渗透性和科学发展的规律。通过引文分析法对科学系统进行共时性和历时性分析来研究科学发展的层次结构性和动态性,探讨其发展趋势。还可以借助共引聚类分析和多维标度分析相结合的方法,研究科学结构以及专业子结构之间的超微观结构关系[16]。用引文按年代分布所构成的历史图和引文的网状关系进行研究,能够揭示科学产生背景、发展概貌、突破性成就以及未来发展的方向等。根据引文分析的结果,一方面可以揭示各国科技政策、人才政策和战略的现状;另一方面,还可以探索科学研究与科技政策、文化背景之间的关系;研究跨国科学交流、不同国家之间情报的输出和吸收的关系。目前国外已经有学者在进行这方面的研究。文献[17]提出了一个利用Web引文数据库自动对引文进行挖掘的方法,包括有关的算法、过程等。文献[18]提出了从数字文献自动提取引文信息的方法,并且提出相关的挖掘模型。引文的挖掘分析应以相当规模的数据量为基础。极少的数量差异有可能是由于某种偶然因素造成的,不具有实质性的统计意义。因此,利用引文挖掘分析应注意首先应有较充分的数据源。现有的引文数据库及其检索系统主要是为检索服务设计和生产的,在某些方面不完全符合数据挖掘和知识发现研究的需要。所以,对引文数据库及其检索系统的选择必须符合既定目标的要求,对所选数据库检索系统的结构要有较为详细的了解,预先确定其是否符合既定研究目标的要求。

3.7 可视化技术在引文分析的应用

可视化技术最早是针对科学计算提出的,目前的研究更多集中在信息可视化方面,其研究对象主要是大型数据库、网络资源以及各种类型的信息集合。信息可视化的基础是计算机图形学和认知心理学。认知心理学揭示了人类感知和认识世界的方式,为信息可视化理论提供指导。计算机图形学提供了可视化实现工具。可视化技术不仅在揭示信息资源的广度与深度上有很大的优势,而且它能够将隐藏在信息资源内部的、复杂的、抽象的语义以直观的图形方式呈现给用户,为用户直观、方便获取所需信息提供了有效途径。信息可视化可以帮助人们操纵、浏览、过滤、理解大规模数据,并方便与之交互,从而发现信息之间的关系特征和规律。面对不断增长的网络信息资源,信息可视化具有广泛的应用前景。

引文分析可视化旨在探讨如何利用计算机系统设计的方法和工具,把引文网络以一种直观网络图的形式显示出来,提供引文分析的查询和分析平台。可视化技术在统计数据管理领域中的应用,解决了传统的数据管理方法中存在的不够清晰、不直观、界面枯燥等缺点,充分发挥其视觉方面的优势,将数据库中的数据与图形和图像相结合,从而使分析结果生动有趣、更直观、简便。目前国内外提供引文数据检索服务的数据库系统仅能从某些方面了解引用情况,无法从宏观上把握某个学科领域内的引文整体情况。因此,在现有的引文数据库提供的数据基础上,利用计算机信息可视化技术并结合引文分析的理论基础,可以研究一种直观、快速查看引文关系的网络图,为分析引文的引用关系提供依据。目前国外已有学者在进行这方面的研究。如美国Drexel大学的Howard分析了情报科学1972—1995年的作者共引情况,用图表揭示了对情报科学影响比较大的机构和单位,学科发展结构以及作者关系情况的变化等[19]。1999年Chen利用三维虚拟技术开发一套把作者共引关系表示出来的图表,并分析了大型的引文网络结构[20]。加拿大多伦多大学的Yuan An提出了研究计算机文献的相互联系的结构方法,通过数字图书馆检索到有关文献的引用情况,然后应用图表可视化的算法来展示它们之间的关系,并研究其中的一些规律[21]。英国Brunel大学的Chen Chaomei利用可视化技术分析了有关文献的共引情况图,为揭示其有关的规律提供依据[22]。Steven Noel根据文献的引文耦合提出了有关的可视化方法[23]。

文献间的引用和被引用关系构成了特定的引文网络,它包含了以文献为结点、以文献引证关系为边的链型、树型、网型结构。这些链、树、网可以用加权有向图来统一描述。常见的引文网络有时序网络、同引网络、耦合网络等。目前引文网络聚类分析的可视化方法主要有:(1)神经网络自组织特征图法(Self-Organizing feature Map,SOM)。SOM网络为一种自组织特征映射的网络,是由Kohone提出的一种人工神经元网络,它采用无导师学习的分类方法,能把任意维的输入信号变换到一维或二维的离散网格上,并保持一定的拓扑有序性。Howard D.White和Xia Lin等人用SOM算法实现了作者共引聚类和概念聚类分析的网络图[24]。(2)路径发现网络法(Path Finder NETwork,PFNET)。PFNET是根据经验性的数据,对不同概念或实体间联系的相似或差异程度做出评估,然后应用图论中的一些基本概念和原理生成的一类特殊的网状模型。它对不同概念或实体间形成的语义网络进行表达,从一定程度上模拟了人脑的记忆模型和联想式思维方式。PFNET具有一定的稳定性,可以对不同的概念、实体进行分层和聚类[25]。引文关系聚类图的可视化包括作者、文章、期刊等类型,这些图的结点分别是作者、期刊或文章,边即权重是他们的被引用或者引用情况,可以利用上面两种算法实现时序网络、同引网络、耦合网络的可视化。在实际应用中应该充分发挥不同算法的优点,为引文分析提供多种直观的图形。

4 结束语

综上所述,引文分析研究手段的信息化将是今后的一种发展趋势。计算机辅助引文分析将为解决引文分析评价研究所需要的数据和分析统计方法等提供强有力的技术支持,极大地提高引文分析研究的效率,进一步扩大其适用范围,也为引文分析的精确性和可靠性提供保障。总的来看,文献的数字化与网络化给引文分析提出了许多新的研究课题,目前应当加强对引文分析的数据库、数据仓库、数据挖掘与知识发现、网络环境下的引证行为分析方法等方面的研究。

注释:

①本文为教育部留学回国人员科研启动基金项目(03JA860001)的研究论文之一。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

计算机引文分析的新进展_数据仓库论文
下载Doc文档

猜你喜欢