引文网络分析方法集成的研究进展_科学论文

引文网络分析的方法整合研究进展,本文主要内容关键词为:引文论文,研究进展论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号G306

1 引言

科学学是以科学技术活动为研究对象,以科学文本(如科学论文、手稿、演讲稿等,尤其是科学论文)为分析手段探讨其发展规律的元科学。在科学学的发展历程中形成了两种基本的研究范式[1]:内容无涉的客观文本范式(以下简称为客观文本范式),内容有关的社会认知构建范式(以下简称为社会认知构建范式)。作为科学学重要组成部分的科学计量学研究主要以客观文本范式为主,较少关注社会认知构建范式;而作为其重要组成部分的引文网络分析,更是把客观文本分析范式发挥到极致。随着引文网络分析的深入开展,单纯的客观文本分析范式的发展空间越来越小,难以适应科学计量学发展的需要,与其他方法整合共同完善引文网络分析的方法体系已成为其向纵深演化拓展的重要趋势。本文试图对引文网络分析与其他方法整合的研究现状进行梳理,为引文网络分析方法的研究提供新的思路和素材。

2 引文网络分析的方法整合需求

如图1所示,引文网络分析过程是基于此框架进行的:分析人员在一定研究范式的指导下,基于一定的研究目标,选择合适的数据源,然后运用相应的技术实施数据处理,得到分析结果并对结果进行解释说明。在这一过程中,各个环节都可能与其他方法进行整合。主要表现在分析范式的改变、数据来源的多样化、分析技术的集成、结果展示的可视化等方面。

图1 引文网络分析的分析框架

传统的引文网络分析一般是文本内容无涉的。在内容无涉的客观文本分析范式中,科学文本被当成一种客观资料。它秉承的基本理念是:科学是依据事实(如观察实验数据)、规则(超越个人与社会)的活动,科学语言具有规则精确性、明晰性、逻辑连贯性特征,因而只要对科学进行文本分析就可以获得对科学的全部认知,“他们相信,至少就其理想形式而言,科学文本可免于修辞或文学分析之累”[2]。所有这些都源于:①人们对科学语言超然性的过高估计。即科学文本是科学知识的表现外壳,当科学知识视为自然自在的元叙事时,则科学语言表现出一种超然于个人、情感、社会、修辞、劝说等的中立性语言,它便成为连接自然本质与元叙事科学知识的媒介,科学文本便成为书写自然之书;②科学文本书写过程中的标准性与规则性。即科学论文具有标准结构格式,使用规范的学术术语,广泛引证与所述主题有关的其他研究成果、背景资料,按科学活动的技术规则来描述实验活动(如重复实验、经验证实、逻辑规则等);③科学文本评审制度的严格性规范性。即科学文本作为承载科学思想的载体,需要接受科学活动规则两方面的审核:论文发表时的同行评议和论文发表后的同行引用。正是由于这种双重审核的存在,保证了文本内容的合理性与科学性。

尽管引文分析的客观文本范式取得了很大的成功,但人们对它的质疑却一直没有停止过。加菲尔德曾指出,“从某种意义上说,引文统计是对科学活动的测度”,“只是对科研工作和兴趣的一种反映”,“说明不了科学工作的性质、科学工作效用或影响的原因,这些因素只能通过对被引材料的内容分析或同行专家评议,才能够探究清楚”[3]。Mullins在《科学论文的结构分析》中提到,要从科学论文的每一个方面来展开研究,“从标题到参考文献,从图表到写作风格,还有词的利用,分析论文的每个方面都能得到有价值的信息”[4]。这些都表明,科学计量学单纯依靠客观文本分析范式难以完全把握科学发展的脉络,必须把客观文本分析与认知构建分析进行整合,增加对被引材料的内容分析或进行专家评议,才能完整地认识引文网络分析的科学活动规律。

引文网络分析长期以来使用单一的数据来源,包括SCI、SSCI及A&HCI。主要原因在于这些数据库拥有独家引文数据,难以找到其他可与之相比的数据库。随着数据库的发展,越来越多的数据库具有高质量的引文数据,因而使从多个数据源获取引文数据进行对比分析或整合多个数据源的引文数据进行综合分析成为可能。其他的难题如:早期的引文网络分析由于技术上的限制,主要通过统计分析方法来完成相应的计量工作,对于海量数据的处理力不从心,文本挖掘技术在一定程度上解决了这一难题;对所有文本一视同仁的处理,难以解决细分结构的难题,社会网络分析技术对解决这些问题提供了可能;对引文网络分析的结果展示,早期主要是通过计算统计指标值结合统计图(如饼图、直方图等)反映单个指标的分析结果,没有或较少反映文献的关系,这一难题由于结合社会网络分析方法及可视化方法的出现可以更加形象化地展示分析结果。

3 引文网络分析的方法整合研究进展

3.1 客观文本范式与认知构建范式的整合

3.1.1 以共引为基础的共词和共引整合

Braam等人[5-6]以共引分析得到的聚类结果为基础,利用引用这些聚类文献的引文标题词进行共词分析。结果表明,这种整合不仅有助于清晰地标注类名,而且有助于全面和深入地认识学科结构。这是由于共引聚类可以反映特定领域发展的历史脉络,而标志引文内容的标题词可更好地反映领域发展现状,历史与现状的结合能够说明特定领域的发展态势,以此为基础的预测可靠性更好。我国学者柴省三首先引入了这种新的理论和方法[7],并运用该方法进行了实证研究[8]。侯跃芳等人利用该方法探讨“妊娠糖尿病”领域的发展态势并对该方法的可靠性进行了较为深入的探讨[9-10]。

以共引为基础的共词与共引整合虽然开启了客观文本分析与认知构建分析结合研究的先河,但其研究数量较少,研究深度有待进一步拓展,可靠性值得验证,尤其是该方法的机制机理等问题有待研究。

3.1.2 以引用为背景的词—参考文献整合

一个领域或者专业的研究者一般拥有共同的知识基础,对参考文献的选择和利用反映了这种共同的知识基础;与此同时,作者在文本内容表达过程中选用不同词汇来表达相应主题概念,这些概念是知识基础的外化。因此,参考文献与作者用词具有整合起来的可能性。

Besselaar等人[11]和Heimeriks等人[12]为研究领域主题结构的发展演化提出了词一参考文献共现方法。研究认为,一个研究领域或者专业可以用包含研究问题和方法的期刊网络和参考文献的交叉文献集合来定义。而用于划分知识结构的方法无论是共词和共引都存在不足。共引方法由于受到时滞的影响,反映的是学科的历史结构;共词由于词的模糊性以及特征表示方法的不足,得到的知识结构可能没有实际的意义。为了弥补这些缺陷,作者提出了把词和参考文献进行结合分析的方法。该方法的主要思想如下:首先把科学领域看作是一个交流网络,利用期刊出版物来描绘该交流系统;进行研究时,研究者会同时选择描述研究主题的词和参考具体的文献,参考文献是词具体含义的背景信息,有了背景信息的词分析就减少了词本身的模糊性;再把与文献相关的这两个属性结合起来,共同决定研究专业的细分结构。作者利用该方法在情报学领域进行了实证分析,结果表明知识结构的划分清晰。

这种整合方法与前面所述的在共引基础上再进行共词分析方法不同,它在分析词关系的同时考虑了引用关系,而且把引用作为背景信息来解决语词意义的模糊性问题。应该说,这种整合更为彻底,但其效果与机制有待进一步探索。

3.1.3 基于引文网络图与主题词关联的微观机理探析

引文网络图不仅从形式上展示了文献间的引用关系,更多地体现了知识概念的继承与发展关系。因此,基于引文网络图来研究主题词的继承发展关系,不仅能够有效探讨科学发展过程中的微观机理,而且有可能奠定客观文本分析与认知构建分析整合的理论基础。

Jo等人[13]对引文网络图与主题词关联的微观机理进行了初步探索。他们的研究假设为引文网络图中联系紧密的文献的主题更相关。对于给定的词汇A,假设H1表示A和主题相关,假设H0表示A和主题不相关。观察A的词汇引用网络图O(GA)在假设H1条件下的概率数值,和假设H0条件下O(GA)的概率数值,利用两个条件概率的差来表示和主题A是否相关,如公式(1)所示。

两种方法本质上是相同的,只是着眼点有所不同,分析目标存在差异。Jo的研究是基于引文网络图来探讨主题词间的相互关系,目标是探索在当前的研究领域可能出现的新主题发展方向;吴清强的研究用词汇引用图来验证文献引用网络,目标是探索主题词标识的优化技术。研究结果表明,利用引用关系(引文网络图或词汇引用图)对数据集收敛可以起到知识结构划分的效果。因此,利用基于引文网络的词汇引用图关系来识别词簇主题为主题层面的结构分析(尤其是学科研究前沿及可能的发展方向)打下了很好的基础。

上述整合客观文本范式与认知构建范式的研究都局限在词(关键词或标题词)与参考文献的关系上,并没有使用文本的所有词汇,因而其是否可以代表文献本身与引文的关系,需要进一步探讨。但该方面的发展代表了引文网络分析的内在发展要求,实现了客观文本范式与认知构建范式的有机整合,有利于创新引文网络分析范式。

3.2 数据获取的多源数据整合

多数情况下,科学计量学研究的数据来源比较单一,其主要原因在于各数据来源的差异比较大,难以完全达到预期研究目标的质量要求。随着数据库和计算机数据处理技术的发展,多家大型数据库都增加了引文数据,为使用多源数据进行引文网络分析提供了可能。

多源数据整合首先需要从不同数据库获取多个数据并把它们合并为一个整体数据集进行分析。例如Eom[16]从3个来源获取分析数据研究决策支持系统1971-1990年的知识结构变化;Janssens等人对两个不同来源的数据进行整合从而研究图书情报领域的知识结构划分[17]。

Synnestved[18]把WoS和Medline中有关生物医学的引用信息通过记录链接方法整合在一起并实现了引用数据的可视化表示。研究结果表明,多个来源数据库的引用信息能够提高数据的质量,并增加可视化中的爆发词以及关键词改变的等级排序,减少单一引文数据库造成的偏见,形成更加丰富的信息空间。这种整合首先是通过多源数据来扩大数据集,并把两种不同来源的数据信息特征进行合并,以提高引文网络分析的全面性和准确性。可以说,基于记录链接方法来整合多源数据应该是引文网络分析在数据处理方法上的新尝试,其可靠性与有效性还有待于更进一步验证及优化。

由于不同数据库的结构不同,因而数据整合中遇到的问题比较多,如名称不匹配、数据标识方式不同、数据存储格式存在差异等。然而,对于多任务的引文网络分析来说,从不同数据库整合相应的数据资源是必须解决的基础问题,因此开展数据整合方法研究应是今后重要的研究方向。

3.3 数据分析技术方法的整合

3.3.1 与数据挖掘方法的整合

科学文献的指数级增长,使得如何从巨大的信息源中快速准确地识别重要和关键信息成为科学研究的关键。传统计量学方法由于受到数据处理方法与技术手段的限制,只能把分析对象限定在标题、摘要、关键词及引文等对象上,利用词频统计方法和引文方法进行计量学研究。该方法虽然在实践中被证明是有效的,但这种方法本身存在缺陷,诸如阈值选取的主观性、选择高频词带来的信息损失以及忽略词位置差异而引起的误差等。而数据挖掘技术的出现,为引文网络分析快速处理海量信息提供了新的方法与技术。近年来将引文网络分析与数据挖掘技术整合起来进行引文网络分析已受到学者们的关注。

Glenisson等人[19]结合文本挖掘方法和引文平均出版年对2003年ISSI的19篇会议论文结构进行初步分析,结果表明该方法整合是有效的。他们又利用相同的方法扩大了数据集,对2003年Scientometrics的所有论文进行分析,结果表明利用全文比起利用标题和摘要的方法在揭示知识结构方面更加准确,并使用两种方法分析同样的数据来证明文本挖掘技术在引文网络分析中的有效性[20]。

Janssens等人[17]利用数据挖掘方法得到词-文献矩阵,利用文献耦合得到参考文献-文献矩阵,分别利用相加求平均值和逆卡方方法把从两个不同角度得到的文献相似矩阵基于统计方法结合起来,结果表明两种方法都改善了领域主题分类和知识结构的划分效果。Janssen[21]后来在其博士论文中对数据挖掘和文献耦合的方法整合进行了详细阐述,并以图书情报学领域以及生物信息学领域为例进行了实证分析。

3.3.2 与社会网络分析技术的整合

早期引文网络分析方法对数据集从总体上进行研究,这样就难以识别出引文网络中的细分结构,社会网络分析技术提供的结构划分方法为引文网络分析提供了在簇水平上研究网络结构的可能性。

Marianne等人[22]应用社会网络技术方法研究了2002年德国大学与研究所的网络结构,并应用BibTechMon软件对网络结构进行了可视化。结果表明,结合社会网络分析技术的引文网络分析能更好地展示网络的细分结构。

Schildt等[23]利用Sitkis软件研究了共引过程中的高密度子网络,并与两种对比算法的处理结果进行了比较,结果表明整合社会网络分析技术和引文网络分析方法得到的结果更能从细分结构上获得研究领域的发展态势。

Katarina[24]以太阳能电池研究中的纳米技术应用为例,把共作者方法、共引方法与社会网络分析技术结合起来分析了该领域的知识结构中心,并探讨了该领域的研究影响、科学结构与研究产出的测度方法。作者最后指出“以出版物及引文来测度研究产出与影响,反映的是科学作为一个生产系统的视角,而以中心度之类的科学结构测度则反映的是科学作为知识扩散的基础设施的视角”。

另外,文献[25-27]也在不同程度上把引文网络分析方法与社会网络分析技术有机结合起来共同探讨计量学上的各种问题。

3.4 结果展示的可视化方法整合

引文网络分析的可视化一直是研究者们的研究目标。Price最早使用文献模型来描述引文网络的拓扑结构[28];Small[29]和Kessler[30]分别开创了用共引方法与文献耦合方法来分析引用模式的可视化方法;Narin开创了利用期刊引用模式来研究科学结构的可视化方法[31]。

著名计量学家加菲尔德博士倡导并开发的HistCite[TM]是引文网络分析可视化的重要软件之一。该软件基于对文献间的引用关系进行分析和解构,从而界定特定学科的发展趋势,历史重大事件,以及各大学、研究所及作者科研文章的产出数量,并根据结果进一步做出所需拓扑图表等[32]。加菲尔德用它来进行了大量的研究[33-35]。但HistCite本身也存在一些不足[36],如文献间引用关系的密切程度无法反映、难以研究内部变化、可视化对象的被引频次确定的随意性等。

陈超美开发的Citespace软件也是引文网络分析可视化的重要软件。该软件使用pathfinder算法[37]和最小生成树(minimum spanning trees)算法[38],对科学文献共被引网络进行处理;还提供了“爆发检测”(burst detection)算法,用频次变化率高、增长速度快的“爆发词”(burst term)来分析科学的前沿领域和发展趋势。该软件通过对科学文献题录数据,特别是对引文数据和关键词数据的分析和处理,以图谱的方式呈现科学发展的演化过程以及科学发展的前沿与趋势[39-40]。

4 结语

引文网络分析的方法整合研究,从不同侧面、不同角度、不同层次上丰富了引文网络分析的内涵,其中多源数据整合、与文本挖掘技术及社会网络分析技术的整合及可视化方法的使用体现了引文网络分析的外在扩展趋势,而客观文本范式与认知构建范式的整合则体现了引文网络分析的内在发展要求。笔者认为,在今后的引文网络分析拓展研究中,除继续关注多源数据整合及与其他技术方法的整合外,还应该更多地关注如何实现客观文本范式与认知构建范式的有机整合,尤其是引文分析与全文文本语词分析的整合,这将是今后研究的重要内容之一。这不仅对于促进科学计量学本身具有非常重要的意义,而且对于科学学这一学科体系的完善也具有非常重要的影响。

标签:;  ;  ;  ;  ;  ;  

引文网络分析方法集成的研究进展_科学论文
下载Doc文档

猜你喜欢