文献计量学在战略情报研究中的应用分析_聚类论文

文献计量法在战略情报研究中的应用分析，本文主要内容关键词为：计量法论文,情报论文,文献论文,战略论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

文献计量法作为一种定量的文献统计分析方法，是战略情报研究方法体系中不可缺少的组成部分。战略情报研究有3种类型：动态监测研究、态势分析研究和前瞻预测研究，而文献计量法主要应用在后两种战略情报研究中[1]。笔者将从几个具体的战略情报研究案例入手，深入分析文献计量法在其中的具体应用情况。

1 文献计量法在战略情报研究中的具体应用

1.1 一般文献计量法的应用

一般文献计量法就是通常所说的文献统计分析，它是利用统计学方法对包含战略情报的相关文献特征进行简单统计分析，用数据来描述或解释文献的数据特征和变化规律，从而达到战略情报研究的目的[1]。

1.1.1 计量科研产出数量科研产出即科学研究在增进知识存量方面的直接贡献[2]，而科学论文是测度科研活动和科研产出的最有效的指标[3]，因此对科学论文的统计便成了测度科研产出的主要方式。计量科研产出对认清某些国家、重点机构和学科领域的发展历史、现状都具有重要作用。科研产出的计量有两个维度：一是计量对象维度，是指具有科研产出的单位，包括世界层面、国家层面、机构层面、期刊层面和个人层面；另一个是计量范围维度，是指具体计量的科学研究层次，包括科学共同体、学科、科研领域和主题。这两个维度的交叉及进一步计算可以得出多个不同计量指标，如某学科论文产出总量、某国家在某领域的论文总量、某个主题论文的世界分布等。

英国思想库DEMOS于2007年1月发布的《新思维导航图》(The Atlas of Ideas)系列报告《中国是下一个科学超级大国吗》[4]是这些报告中的一个。该项目的研究目标就是要对中国的科学与创新情况进行调查研究，目的在于为英国和欧洲寻找合作的新机遇。具体要记录中国正在哪些科研领域处于先进水平，并预测未来的优势领域，找出中国新型的科技优势领域和创新中心。

这份报告的基础部分就是通过计量科研产出来映射我国科学和创新中的主要发展（领域）和关键因素。报告中首先使用的计量指标是“单个国家产出科学论文占全世界科学论文产出总量的百分比”。通过对我国以及世界其他几个主要国家这项指标的多年对比，得出结论：我国论文产出量急剧增加，从1995年约占全世界的2%到2004年的6.5%。报告使用的第二个计量指标是我国在某一特定领域的论文产出量。从统计结果可以看出，我国一些领域如材料科学、分析化学、水稻基因组学表现突出。例如，通过1999-2004年的文献数据统计，我国在纳米科学领域的论文总量排在第三位，仅次于美国和日本。报告使用的另一项指标是某一机构发表论文的总量，并由此得出2004-2005年我国最高产的10个科研机构：中国科学院、清华大学、浙江大学、北京大学、上海交通大学，等等。表1从前述的两个计量维度总结该项研究中使用的几项文献计量指标。

1.1.2 测度科学研究质量在衡量科学研究水平时，论文的质量与论文的数量同样重要。

引文频次是客观反映科研成果质量的一种重要工具。其中最基本的是单篇论文被引次数统计，在此基础上可以做期刊、机构、国家等计量对象的被引频次统计。

篇均被引频次就是用一段时间发表论文总数去除这些论文总被引数，所得的值即为篇均被引频次。还可以在此基础上从国家、学科、领域、主题、期刊和个人等层面做进一步限定，得出的就是不同对象的平均被引频次。

影响因子最早是用来衡量期刊质量的，是ISI公司用来遴选期刊的主要指标，后来也进一步演化到论文的评价上。期刊影响因子建立在两个因素之上：分子为之前两年发表在期刊上的论文当年被引用的次数，分母为之前两年发表论文总数[5]。C.Hoeffel在文献[6]中总结说：虽然“影响因子”自身存在很多问题，并不是一个测度期刊质量的理想工具。但就影响因子现有的优点而言，它无疑是科学评估的一项良好技术。

《中国科学与技术的结构和基础设施》[7](The Structure and Infrastrcture of Chinese Science and Technology)是由美国海军研究办公室(Office of Naval Research)的R.Kostoff等人完成的对中国科学技术核心竞争力的识别与分析。该报告指出，对一个国家科学与技术核心竞争力的评估主要包括两个方面：技术基础设施和技术要点(Technology Thrusts)以及技术要点之间的关系。技术基础设施包含了某一研究领域的高产科学家、刊登这一领域大量论文的期刊、高产研究机构和高被引论文／作者／期刊等内容。该项目选择的分析数据库是科学引文索引(SCI)数据库与美国工程索引网络版(Engineering Compendex)，除了使用文献计量法来识别高产科学家、刊登这一领域大量论文的期刊、高产研究机构等数量信息外，还使用了基于引文的简单统计方法来识别高被引论文／作者／期刊等，并以此来解决“高产”后面的质量测度问题。

报告以纳米技术(Nanotechnology)为例对整个研究过程进行说明。研究中通过文献量和引文统计来反映我国在纳米技术领域的科研状况。测度的内容主要有：高产作者、包含纳米技术论文最多的期刊、高产机构、高产国家、最高被引用的第一作者、最高被引用期刊、最高被引用论文。并通过不同国家统计数据的横向比较来确定我国的纳米技术研究水平目前在国际上的地位。在包含纳米技术论文最多的期刊测度上，还计算了这些期刊从2003-2005年初的影响因子。分别对中美两国刊载纳米科学领域论文最多的各11种期刊的论文数量及影响因子做了测算，美国11种期刊的影响因子的中值为3.9，而中国期刊的影响因子中值仅为1.19。另外，在最高被引用论文的测度上还使用了另外两组数据：限定引用次数(Times Cite)和SCI总引用次数(Total SCI)。“限定引用次数”是论文被纳米科学领域论文（来自2003-2005年初SCI数据库）引用的次数，而Total SCI是该论文在SCI数据库中的总被引次数，包含了自论文发表以来被所有领域论文引用的情况。

1.2 特殊文献计量法的应用

特殊文献计量法相对一般文献计量法而言，是利用特殊的统计学方法和文献计量法对文献特征进行复杂统计分析，来揭示相关战略情报研究对象的发展状态和变化规律，预测未来发展趋势的一种分析研究方法[1]。

1.2.1 跟踪研究前沿前沿是代表研究领域内最新发展的受关注的研究焦点。通过学科前沿可以追踪和推测学科或专业的发展动向及趋势。引文分析是目前确定科学前沿问题的主要方法，虽然在具体操作上又有所差别，但文献共引及聚类方法却是确定前沿的方法中的主流。

基本科学指标数据库(Essential Science Indicators,ESI)[8]中将研究前沿(Research Front)定义为在专门主题中通过聚类分析确定的被称作核心论文的一组高被引论文。采用的方法就是共引分析和单链(Single-linkage)聚类算法，整个分析建立在Thomson Scientific数据库的期刊文章统计数据和引文数据基础上。它需要先确定5年时间段多学科范围内的高被引论文，根据论文的被引频次，选择靠前的1%的论文形成被引论文列表，再设定阈值去除关联度非常低的共引对(Co-cited Pair)，将那些非常相关的文献聚在一起。

其阀值计算公式为：

式中，N为标准共引阈值；nAB为文献A和文献B被共引的次数；nA，nB为文献A和文献B的被引次数。

同时满足nAB≥2和N≥0.3两个条件的两个文献才被挑选出来做进一步聚类。聚类采用的是单链聚类：开始时有一个满足要求的“共引对”，然后通过这种聚类方法就可以发现其他的共引对，直到再没有“共引对”可以添加到集合里。聚类结果的大小可以有不同，最小的只有两篇文章，而大的可能会非常大。

研究前沿分析不能识别出所有的研究领域或一个研究领域的所有论文。然而，它可以辅助识别一些包含有重要工作的研究领域和聚集了很多研究人员的领域。

1.2.2 映射研究领域一个研究前沿对应的是一个研究主题而不是一个研究领域[9]。研究领域的分析是一种科学活动的中水平(Meso-level)分析，这种分析非常适合于抓住科学活动的质的变化[10]。进行领域研究的首要工作就是要映射研究领域(Research Area)。充分利用文献共引以及由文献共引延伸出来的词的共引、著者共引、期刊共引、主题共引等一系列基于文献的共引关系，是完成这项工作的有效方法。《快速发展研究领域》(Rapidly-developing Research Area)是日本第八次技术预见系列研究报告中的一个，由日本科学技术政策研究所(National Institute of Science and Technology Policy,NISTP)于2005年5月发布。其目标就是要用引文数据库识别快速发展的研究领域，主要是基础科学的研究领域，并检查日本在这些领域的表现[11]。图1是这项研究的主要流程[11]。

图1 快速发展研究领域的研究流程

这项研究按照研究前沿→研究领域→快速发展的研究领域(Rapidly Developing Research Area)这一流程进行。识别研究前沿部分完全沿用了Thomson公司的ESI数据库识别研究前沿的方法和结果。而研究领域的构建方法与研究前沿的构建方法类似，具体做法是将每一个研究前沿设想成一篇论文，分析这些研究前沿间的同引关系(Cocitation)，将具有同引关系的所有研究前沿聚类成簇。

这项研究还引入了快速发展前沿(Rapidly Growing Front)的概念，它是通过计算被引用频次增减的增长率和回归直线的斜率得到的。将包含了1个以上研究前沿的研究领域抽取出来，就构成了快速发展的研究领域。最后通过定性分析来获得每个领域的名称、概况等内容。

日本科学技术政策研究所的这套办法也多次应用于他们参与的其他战略情报研究中，如与OECD合作完成的报告《抓住科学演化本质，制定新的科学指标及学科分布图》(Capturing the Evolving Nature of Science,the Development of New Scientific Indicators and the Mapping of Science)(2007)[9]和日本科学技术政策研究所独立完成的《科学地图2004》(Science Map 2004)[12]。图2是他们与OECD的合作项目《抓住科学演化本质，制定新的科学指标及学科分布图》中映射的研究领域图[9]。

在以上研究中，论文引证所体现的研究者之间的交互，被作为绘制科学领域的独特因素。科学研究领域通过这种交互而自发地涌现，就像一个自组织过程。采用这种方法，使得我们有可能超越传统学科界限来全景式地理解科研活动。

2 文献计量法的相关因素分析

2.1 数据源的抽取

数据源抽取策略的恰当与否直接影响着情报研究的质量。不同的文献数据库在数据的表现形式、收录范围、主题表达、数据加工程度上都有所差别。例如上文提到的几个战略情报研究数据库中，科学引文索引除提供文献基本信息外还收录每篇论文的引文信息，建立了引文索引；基本科学指标数据库是在SCI基础之上的深加工产品，提供了高被引科学家排序、机构排序、国家和期刊的排序、高被引论文和研究前沿等信息；工程索引(EI Compendex)则主要收录工程技术期刊文献和会议文献。因此在具体的情报研究工作中，要根据项目要求、分析对象和不同数据库的特点来制定不同的数据遴选策略来抽取数据源。

2.2 数据加工方法

对抽取出的数据源进行加工的方法主要有两类：统计和聚类。通过对不同文献内容的统计和聚类，可以得出多种不同的分析数据。其中相对复杂的加工方法是聚类，聚类可以依据不同的文献单元进行，如文章标题、关键词、文摘、全文和期刊等。目前有很多聚类算法应用于文献数据的加工上。例如，基本科学指标数据库识别研究前沿时采用的单链聚类算法，除此之外还有多链(Multi-linkage)聚类、因子矩阵(Factor Matrix)聚类、划分聚类(Partitional Clustering)，等等。

图2 当前科学活动鸟瞰图：映射出的133个研究领域

Kostoff在文献[13]中将文献聚类方法作了总结，并把这些聚类方法分成概念聚类方法(Concept Clustering)和文档聚类方法(Document Clustering)两类。概念聚类所针对的对象是具体的词和词组，是这些词或词组在同一个文献单元中的共现(Co-occurrence)基础上进行聚类。具体概念聚类方法有因子矩阵法、多链词／词组法、自组织概念抽取法(Self-organizing Concept Extraction)、网络分析法，利用概念聚类方法可以识别技术要点，特别是其中的网络分析法在确定这些技术要点之间的关系上有很好的效果；而文档聚类针对的是整篇文章，是在整篇文章的相似性基础上进行聚类，将文献集合划分为不同的主题类(Thematic Categories)。具体的文档聚类方法有贪婪式字符串匹配算法(Greedy String Tiling)、划分聚类、数据压缩(Data Compression)聚类和期刊聚类，利用文档聚类方法主要是来划分学科领域。

2.3 分析结果

文献计量的直接结果往往都是些文本、数字类的信息，这不利于快速把握分析结果以及在此基础上的进一步研究工作，因此需要使用各种方法将这些内容以更为直观的方式展示出来。信息可视化方法便成了完成这项工作的首选，它使用图像来显示多维的非空间数据，将数据通过图形化、地理化形象真实地表现出来，并且找出数据背后蕴涵的信息[1]。将信息可视化方法与文献计量法结合在一起便可以对共词、共引等文献计量信息进行可视化分析。这在DIANE（美国阿灵顿研究所研制的数字分析环境）、VantagePoint和Miri@d（法国科研中心科技信息研究所的数字数据库分析平台）上都有实际的应用。

2.4 与其他研究方法的关系

文献计量法是一种定量的分析方法，提供的是数据、图形等量化的基础信息，需要与内容分析法、德尔菲法、情景分析法、实地调研法、个别访谈法等定性方法结合起来使用才能发挥它的强大效力。例如在日本科学技术政策研究所的“快速发展研究领域”的项目中，使用文献计量法映射出133个研究领域后，要通过对每个领域内文献内容分析和征求各领域专家的意见来获得每个领域的名称、概况等内容。另外如《日本第八次技术预见》中的4个主要的方法体系中，也是将文献计量法应用于整个项目的“基础研究”的“快速发展研究领域调查”部分，使其作为进行后续研究的基础，如图3所示[14]。

图3 日本第八次技术预见研究方法分布图

3 结束语

近年来，文献计量法已经从单个学科领域的科学研究与发展分析上，逐步扩展到从战略上对整个科学共同体的发展状况及趋势的把握。文献计量法自身的理论和方法也在不断完善和发展，如共引分析理论研究逐渐深化，应用于数据处理的聚类方法逐步扩充，与信息可视化方法的结合，这些都为文献计量法在战略情报研究中的应用提供了理论基础和多种应用手段。

收稿日期：2008-04-23

标签：聚类论文; 科学论文; 文献分析法论文; 文献论文; 计量法论文; 战略分析论文; 影响因子论文;

文献计量学在战略情报研究中的应用分析_聚类论文

猜你喜欢