基于知识服务的引文索引数据组织研究(Ⅰ)--引文数据的特征与功能分析_文献分析法论文

基于知识服务的引文索引数据组织研究(Ⅰ)--引文数据的特征与功能分析_文献分析法论文

面向知识服务的引文索引数据组织研究(I)——引用数据特征及其作用分析,本文主要内容关键词为:数据论文,引文论文,索引论文,特征论文,作用论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

学术引用体现了学术的继承性,反映了学术成果之间的关联性,引用中的细节信息对我们研究学科发展的态势,分析学科研究特点,了解学术共同体的研究习惯,把握不同领域学术资源分布和各学科重要学术资源都有着极大的帮助作用。因此,在构建引文数据的数据组织之前,首先应当深入分析学术引用过程中的各类信息,总结文献数据所反映出来的特征,探求这些特征所能呈现的规律,以帮助我们更科学地组织引文索引,使引文索引在知识服务中发挥更大的作用。

2 研究背景

伴随着信息化社会的到来,大量信息产生的同时,人们却发现很难从信息中获得需要的知识。在我国,知识服务的概念从上世纪90年代初被提出,至今一直都是科技管理领域的研究热点。张晓林[1]先生在《走进知识服务:寻找新世纪图书情报工作的生长点》一文中明确提出知识服务的十项特征,并对知识服务的运营模式进行了详细的阐述,为图书情报领域树立了新的研究方向。

引文索引是对学术引用最有力的表达工具。引文索引的起源可以追溯到1873年美国出版的供律师查阅法律判例的检索工具《谢泼德引文》。1927年格鲁斯等人即采用了引文分析法分析了化学中某些科技期刊论文的参考文献[2]。20世纪60年代开始,美国在加菲尔德的带领下先后研制了SCI、SSCI、A&HCI等一批优秀的引文索引。我国从80年代末期开始陆续开发了CSCD、ISTP、CSSCI等引文索引。

在当前知识服务的大背景下,传统的引文索引逐渐暴露出功能单一、分析预测能力缺乏、缺少个性化服务等不足,对文献知识服务工作的开展造成阻碍。因此我们在创建引文索引之前,需要深入分析引用过程中的各项数据以及这些数据之间的关联,挖掘其深层次的含义,充分发挥各项数据的效用。目前国内对引用过程中具体信息分析的文章并不多见,且主要是针对文后参考文献的作用[3-6],对其他数据的分析则基本没有涉及。因此笔者希望本文的分析研究能对今后引文索引的开发与设计工作提供有益的启示和帮助。

3 引用关系分析

科学文献间的引用与被引用构成了一种引证关系,这种引证关系不仅体现在文献之间存在关联,其中还蕴含着大量的知识和规律。本文将从引用关系中的被引对象、引用形式、引用关联和引用角色四个方面进行阐述。

3.1 被引文献分析

3.1.1 被引文献类型分析

图书情报领域将文献类型划分为:图书、期刊论文、会议论文、学位论文、报告、报纸、专利、标准、参考工具、网络资源等。从学术角度来看,每一种类型的文献都有其鲜明的学术特征,例如,网络资源(如学术博客、学术论坛)时效性最快,但其资源的可靠性和真实性又受到一定的质疑:论文反映了学术热点和学术界关注的问题,相对图书而言,出版及时,能更快地反映学术研究前沿领域,尤其是会议论文(特别是各领域学界顶级会议论文)更是各学术领域学术前沿和重要研究成果的代表:图书的学术性表现在其成果更加成熟;最具权威性的文献无疑是标准和政府报告;最具科技创新性的文献应属专利等。

另一方面,从被引文献类型分析也可以发现不同学科学者的阅读习惯和他们研究所倚仗的主要学术资源,深入分析还可以发现不同学科学者对研究资料获取手段的差异。正如上段所述,图书的学术观点相对论文而言更加成熟一些,而论文较图书体现的是更新的研究成果。因此,可以通过一个学科或一个领域研究成果引用图书或论文的比例,考察学科的成长性、成熟度和活跃度。例如,较人文社会科学而言,自然科学整体上发展迅速,其引用的论文占整个引用文献的70%以上,而人文社会科学的引用文献中55%上是图书[7]。如果细致考察各种类型的被引文献比例,可以验证许多猜想和发现学科更多特征。

通过被引文献的类型分析,我们可以从被引文献类型的信息中探究学科和有关研究领域的成熟度、发展趋势和研究特征,了解学者对学术资源的趋向和获取手段等,同时还能够从这类信息中挖掘出尚未被人们意识到的有关规律。同样也可以发现学术研究中的重要文献(如,对学术研究有重要影响的学术著作或经典著作、高被引论文等)。所以,在引用信息的数据组织上我们应当关注被引文献类型信息的标注和编码,促进引文索引在知识服务中发挥更大作用。

3.1.2 被引文献语种分析

被引文献语种是指学者在研究中引用了哪些语种的文献,通过被引文献的语种可以发现各学科的学者对国际研究成果的关注程度,对国际文献的获取能力以及对外语文献的阅读能力等。从学科角度来看,可以分析学科或领域研究是否与国外研究接轨,国际上科学的学术理念和研究方法是否被引入到其研究领域。一般说来,国外文献引用较多的学科,该学科研究的发展较为迅速,与国外研究接轨的能力也越强,学科地域开放度越大。因此,如果将被引文献语种在引文索引系统中反映出来,势必将增加引文索引的效能,使之帮助我们分析各学科研究的国际化程度。

外文文献语种众多,我们不仅要重视主流外语语种(如英、法、德、日、俄等语种),也要关注其他如斯拉夫语系、阿拉伯语等非主流但在某些研究领域有着重要作用的语种,因为这些语言文献对学界研究历史、民族、宗教等有很大帮助。一般而言,被引文献语言标注的越全面,其引用分析就能更全面的把握国外各类语种文献对我国各研究领域的影响。

另外,如果我们从横向比较学科,我们了解到各学科学者对国外文献的获取能力、阅读能力、关注度的差异,以提请落后学科的重视。从纵向角度分析,可以看到各学科多年来对国外文献利用的变化轨迹,从这一轨迹中我们也许可以发现某些学术领域非常有价值的信息。总之,在引用信息的组织上标注语种,并非只是简单地对被引文献的语种统计,更重要的是可以从中挖掘隐藏于被引文献中、具有很大学术指导作用的信息。因此,在引文索引的组织中,细致标注语种信息将能从某一角度提升引文索引的知识服务能力。

3.2 引用形式分析

在科学论文的撰写中,针对引用的文献有多种形式:①文中注,指作者文章中直接标出引用文章的出处、内容和观点的引用;②脚注,指在文章每页的底部对文中某些内容所做的注释,一般是解释说明;③尾注,指在文后给出的引用,和脚注相似,但主要是以参考文献形式给出。一般来说,三种引用形式各有偏重,文中注主要引用的是一句话或一段文字,引用较为直接,并且与所述内容联系更加紧密;脚注更侧重于数据来源和资料引用;尾注更多地表现为参考文献。因此,对引用形式的分析,可以探索人们的引用习惯,发现学科之间的引用差异,对规范学术引用有一定的帮助。

从目前的学者引用来看,许多人易混淆了这三种引用形式。例如,文章的脚注中既有资料来源又有参考文献,有的甚至在尾注中除了参考文献外,还有文字解释性注释,这些都应属于行文规范性的缺失。虽然,目前少数文献的引用存在一定的不规范,但我们还是可以从绝大多数引用中分析出许多端倪。如学科之间的引用形式差异,历史学、古文献领域较多使用文中注,自然科学领域主要表现为参考文献形式(尾注),而社会科学许多领域则是脚注、尾注均具。

因此,研究引文索引的引用形式的编码和组织,并通过分析其引用形式,可以探索学科之间的引用习惯和差异,发现学术引用中尚不规范的引用行为,从而促进学科之间的引用行为趋于规范和统一。当然,也可以根据引用形式的数据分析,了解各学科学者的研究习惯和引用行为,找到各学科学者的引用行为规律。更重要的是,引用形式的统计分析结果为学界提供了又一条知识服务的新路径。

3.3 引用关联分析

文献的引用行为虽然都是个体行为,但无数的个体引用行为在无形中却形成一张庞大的引文网络,这个网络可以为我们探索文献间的关系,从而发现隐藏在引用中对科学研究和文献规律非常有价值的知识。在这个引文网络中,大量的文献存在着关联,根据关联强度和形式,将其分为直接引用、引用耦合和同被引三种类型。不同的关联形式对应不同的分析方法,对知识服务而言也会起到不同的作用。

文献中的引用在不同程度上反映了文献间的关系,这些施引和被引用文献的联系关系形成了引用网络,通过这个引用网络可以得到与引用相关的统计、分析和评价数据,例如文献被引量、作者被引量、期刊被引量统计等。文献的被引量在一定程度上反映了研究成果的科学价值和学术影响,可以根据被引量对学术成果进行评价,同样可以利用被引量对作者、机构、期刊以及国家和地区的科研状况、学术影响力等进行分析评价。另外,通过引用网络的引用链我们可以发现一项研究的来龙去脉和发展轨迹,根据网络中被引量高的结点我们可以很方便的得到在某一研究领域的重要或高影响力的文献。

引用网络中,多被引结点说明有多篇文献引用该结点所代表的文献,这种现象就被称之为引用耦合。具有引用耦合关系的多篇文献,普遍认为存在一定的关联,耦合的强度通过文献之间共同引用的参考文献数量来测定[8]。文献之间耦合强度越高,研究主题越接近,文献也越相似,这一思想对文献的聚类工作具有重要的指导意义[9]。将文献耦合的思想进一步推广,我们还可以进行作者耦合、机构耦合、期刊耦合分析等。

所谓同被引是指两篇或多篇论文同时被其他文献引用的现象,同被引强度一般通过同被引的次数来测度[10]。同文献耦合相似,同被引次数越高的文献被认为在研究主题和研究内容上越接近,文献的相关度越高。与引用耦合相比同被引分析更为客观,因为文献被引用完全是一种被动性行为,作者本人很难控制,此外引用耦合的强度是固定不变的,同被引强度则具有动态变化性,因此同被引分析常常用于学科前沿的探测研究。

值得一提的是,在引文网络的构建过程中,需注意数据匹配的粒度问题。由于参考文献是由各个作者自己标注的,不可避免地会存在信息误差,例如书籍改版前后页码的不一致,多位作者合著文章被引时作者信息标注的差异问题等,如果采用细粒度的精确的字符匹配算法,则往往会引起数据分析的不准确。因此在对引用网络以及引用关联进行分析时,为得到更准确的数据,既要考虑数据的组织问题,也要考虑匹配算法问题,在信息主体一致的情况下,应根据客观需要,灵活的设置数据匹配的粒度。

3.4 引用角色分析

根据作者写作需要和写作目的不同,在引证过程中,引文充当的引用角色也各不相同,大体上引用角色可以分为以下四种:①综述性引用,也称罗列式引用,作者通过引文列举出目前的研究现状,但不表达自己的观点;②学术观点的引用,是继承式引用,指作者对该观点持有赞同意见并在文章中进行表述;③学术启发式引用,是一种发展式引用,作者不仅赞同此观点,而且该观点对作者新思想的形成具有启发意义;④批评性引用,也称为否定性引用,作者引用文献的目的是为了批评和否定,继而提出自己的观点。

同一文献中的引文常常具有不同的引用角色,同一篇引文在不同的文献中也往往会充当不同的被引用角色。通过文献引用角色的分析,我们同样可以发现引用关系中隐藏的知识。例如,一篇文献多次作为学术启发式引用,说明了该文献具有较高的研究价值,对之后的研究起到重要的启发作用;相反,一篇文献若被多位作者作为批评性引用,说明该文章可能真的存在一些问题。同理,对于学科分析也是如此,学术启发式引用多的学科思维更加活跃,发展迅速;批评性引用多的学科则思想对撞激烈,可能存在多个观点对立的学派。

引用角色为引文分析提供了新的分析视角,在引文索引中若能对每一篇参考文献标注其引用角色,则可以利用这些标注信息,分析学者不同的研究特点、研究习惯,以及各学科间的发展对比,继而可从更深层面发现研究领域内重要的学术文献,而不是仅仅从文献的被引次数来衡量。

4 引用主体分析

在引文分析过程中,不同的分析视角对应不同类型的元素,有些元素能够作为一个独立的分析对象,并在引用过程中起到主导作用,我们称之为引用的主体。对引用主体的分析能够使我们更深入的理解文献之间的引证关系,并挖掘出由此产生的多个主体间的关联。

4.1 来源文献分析

根据文章的具体内容,可以将来源文献的类型分为研究型、评论型和综述型三种,进一步细分,研究型文章可分为理论研究和应用研究等类型;评论型又可分为学术评论、图书评论和学术批评等类型;综述型可分为会议综述和学术综述等类型。每种类型都具有其鲜明的特点,从学科角度来看,我们可以通过对文章类型的统计看出某个学科的研究特征,如评论型文章较多,说明这一学科注重学术批评、学术思想活跃;综述型文章则可以帮助学界进行学术回顾和总结[7]。另外,我们也可以从文章的类型可以看出研究者的专业特长,如发表论文多为应用型说明该学者在平时的科研工作中更注重实践,一般具有较强的动手能力。此外,从文章的类型还可以看出一个期刊的收录偏好,是偏重理论研究还是偏重于应用实践,能否接受不同意见,等等。

从来源文献的引文数量中我们也能发现一些规律,例如学术综述型文章的引文数量要普遍高于其他类型的文献。从学科角度分析,引文数量能够反映一个学科研究的整体学术规范程度和学者的学风。因此,在引文索引中需要考虑对来源文献的文章类型和引文的数量进行标注,通过文章类型的统计分析以及不同类型文章的引文数量的考察,可以帮助用户发现学科研究的主流成果和研究成果中尚缺完备的方面。

4.2 作者分析

一个学科要发展,根本动力在于学科的研究群体,在于每一位科研人员的努力。文献作者是引用行为的施动者,在引证过程中起着决定性的作用。从与作者相关的数据资料中,我们可以发现众多隐含的知识:例如,从学科发展的角度分析,发文作者的数量能反映一个学科的研究实力;作者的年龄分布反映了学科研究的人员结构与学科发展前景;通过作者的性别统计可以分析出不同学科研究中性别的差异性;分析作者的研究领域还可以发现哪些方向是学科研究的热点,主要有哪些学者在研究,结合时间数据还可以考察学科研究热点的变化情况,这些都可以帮助年轻学者尽快找准研究方向,确定研究目标。

一篇文章可能有多个作者,同一作者也会发表多篇文章;一个作者常常需要引用多位作者的文章,自己的文章也同时被其他人引用,因此文献与作者、作者与作者之间形成了复杂的网状关联。目前在图书情报领域,针对作者合著和作者引用网络的分析文章非常多,但由于对作者背景资料的缺乏,对作者以及作者之间关联的分析还不够全面和深入。

在传统的引文索引数据库中,仅存储了发文作者的姓名、地区和所在机构这几项简单的信息,如果能将作者的出生日期、性别、研究方向等详细的背景资料也在数据库中进行组织和存放,用户通过引文索引就可以获得更深层面的知识服务,例如可以查看某领域年轻学者都在研究哪些内容,可以分析和对比不同年龄段学者的研究特点如何,可以比较哪些学科更适合女性学者的发展,甚至可以对学科的发展前景作出预测。

4.3 机构分析

经初步统计,文献的发文机构主要来自于教育科研机构、党政机关、军队系统以及以医院、图书馆、报社、出版社为代表的企事业单位,其中以教育科研机构(如高等院校、研究所)最为普遍,从发文的内容以及期刊名称上也能看出不同类型机构的发文具有鲜明的职业和专业特色。对发文机构的相关统计数据进行分析,我们从中也能发现一些隐藏的知识和规律,比如从发文量和文章级别可以看出机构的科研人数、科研力量,以及该机构的研究特色等;从发文数据可以分析各领域跨机构合作状况,对加强学者间的交流和学科的交叉发展具有重要的作用。传统引文索引中,对于机构信息的标注往往存在一些不足和误区,具体分析如下:

(1)作者的区分问题。一般来说,发文作者都会标注机构信息,但因工作或学习需要,同一作者常常会标注多个机构,另外由于机构名称标注的不规范,有人用全称有人用简称,以及机构合并、更名等因素,相同的机构会出现多个不同的名称,这些都给基本的数据处理和数据分析带来了困难,常常导致错误的分析结果。

(2)跨机构合作问题,所谓跨机构应该是指处于不同机构的不同学者之间的合作,若同一个作者标注多个机构的情况则不属于真正跨机构合作的范畴。在目前的引文索引数据库中,对于跨机构合作并没有进行很好的数据组织与标注,研究人员需要自己完成数据采集和处理工作,工作量大,并且各研究者在数据处理过程中也会因处理方式问题,造成分析结果的不准确。

(3)不同类型机构的表示问题。如何对机构进行分类并有效地表示是提供深层次知识服务的前提,例如要“检索全国‘985’高校十年来的发文量和被引量”,在目前的引文索引中需要首先知道全国“985”高校是哪些学校,然后根据名单依次进行检索,最后还需将所有信息进行汇总,不仅效率低下,而且还容易出现差错。解决的方法是对机构的类型进行科学的编码,依据编码信息可以快速地获取数据进行分析处理,继而为用户提供所需的知识服务。

因此,面向知识服务的新型引文索引需要克服上述不足之处,在引文索引数据的组织过程中,要充分做好机构信息的编码和标注工作,要克服机构名称变化引起的问题。

5 引用过程中其他信息的分析

除上述引用主体外,在引文索引中还存在一些其他的信息,如期刊、地区、关键词、基金、发文时间等,这些信息在引文知识服务同样起到重要的作用。

期刊选刊的标准问题,同样是引文索引建设的重要研究内容。对期刊分类的优点在于,通过期刊的遴选帮助用户有目的的寻找到需要的信息,并能有效的控制期刊的质量,有利于学科的不断发展进步。通常我们将期刊分为核心和非核心两大类,而伴随着不同引文索引系统的诞生,也产生出了多种分类方法和评价指标,这些都为全面客观的反映学科发展全貌提供了良好的条件。此外,对于期刊还需注意期刊名称的变革问题,通过考察期刊名称的历史沿革,用户不仅能够获取更全面的期刊数据,而且能对期刊的发展历程有更深入的了解。

通过发文的地区信息可以对比分析不同区域的科研实力,研究地区之间的合作情况以及科研人员的区域流动性等社会化问题。目前,在文献中对于作者的地区标识问题,并没有形成统一的规定。大部分期刊采用了地名标注的方式,但地名标注同样存在很多问题:有的用全称有的用简称,有的标注省和市甚至到县区,而有的只标注市或从市到县区,另外还有地名变更等情况。因此在引文索引中,同样需要对地区信息设置编码,通过建立发文地区对照字典,将不同的地名按照地区进行合并、归类,避免数据分析时产生错误。

关键词是文献研究内容的涉及主题体现,结合文献引用关系的关键词统计,可以用来跟踪学科研究的热点和发展趋势,具体包括关键词的出现总频次与各年度频次变化两个方面。在一段时间内,出现频次高的关键词一般可以认为是该领域的研究热点;对于出现频次是逐年上升的关键词,结合关键词最早出现的时间和学科半衰期数据可以判断该关键词是否是学科新的发展方向。

从发文的基金标注中我们大致也能判断文章研究范畴和研究深度,一般来说,有基金资助的文章质量要高于非基金文章,国家级项目、重点项目文章的质量普遍要高于一般性项目文章。不同类型的基金在学科研究中的作用是不尽相同的,如“863”、“973”等科研项目代表了国家重点资助的科技攻关方向;国家级的基金项目,通常代表了领域内最新的研究方向和科研动态;专项基金一般为特殊地区、特殊行业或部门所设;此外还有各单位自己设置的各类基金项目。因各类基金项目种类繁多,在引文索引中需要对基金信息进行科学的分类组织和有效的编码标识。

时间是文献资料非常重要的一个属性,同时也是提供知识服务的必备属性。例如,从不同时间段的发文量和被引量数据中可以跟踪学科的发展路径;从被引文献的发文时间可以分析对比不同学科的特点;从时间刻度上跟踪关键词的变化可以对学科的研究热点进行全面的分析;此外,众多的分析评价指标也都与时间特征相关。

6 结语

知识服务概念的提出是信息化社会发展的必然趋势。随着信息技术的不断进步,电子数据资源的极大丰富,为引文索引的创建提供了良好的技术条件和数据基础,同时我们也要看到,知识服务的需求对引文索引的数据组织与架构设计也提出了更高的要求。数据依然是服务的源泉,为了给用户提供更有效更优质的服务,必须深入分析数据,总结数据的特征和数据之间的关联,掌握其呈现的规律,在引文索引的数据组织过程中注意将这些方面进行标引,为面向知识服务的引文索引建设提供强有力的数据保障。

收稿日期:2013-09-27

标签:;  ;  ;  ;  ;  ;  ;  

基于知识服务的引文索引数据组织研究(Ⅰ)--引文数据的特征与功能分析_文献分析法论文
下载Doc文档

猜你喜欢