科学知识地图的开发过程_科学论文

科学知识图谱的发展历程,本文主要内容关键词为:图谱论文,发展历程论文,科学知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2007-11-22

中图分类号:301 文献标识码:A 文章编号:1003-2053(2008)03-0449-12

自从人类出现伊始,人们就开始有意识地不断归纳、总结及勾勒已经发现的科学知识地图。只不过是在这几千年的历史中,直到20世纪后半叶,尤其是近20多年来,由于电子存储技术、数据传输、信息检索和各种可视化技术的发展,使得人们获取海量信息和处理海量信息的能力大大加强。随后,科学知识图谱的理论和发展也得到了空前的发展,在此,我们有必要对科学知识图谱的产生、发展与研究现状做以简要的介绍。

1 科学知识图谱的概念及其由来

科学知识图谱,是显示科学知识的发展进程与结构关系的一种图形,它是以科学知识为计量研究对象的,当属科学计量学(scientometrics)的范畴。当它在以数学方程式表达科学发展规律的基础上,进而以曲线形式将科学发展规律绘制成二维图形时,便成为最初的知识图谱。从这意义上说,用定量统计方法发现科学知识指数增长规律的科学计量学奠基人普赖斯(D.Price)[1],也是科学知识图谱的早期开拓者。随着科学计量学的发展,描绘科学知识和科学活动规律的数学模型,逐渐从二维空间模型发展为开始运用三维空间模型,科学知识图谱也相应地从简单的曲线图发展为较复杂的三维立体图。应当说,著名德国科学计量学家克雷奇默(H.Kretschmer)关于科学合作的三维空间模型研究[2][3]大大地推动了科学知识图谱的发展。因此,知识图谱绘制是科学计量学的发展与创新。科学知识图谱定义为可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入。其描述的对象主要包括:从事科学技术活动和作为知识载体的人,显性或编码化的知识,以及过程或方法。

在科学计量学研究中,传统的研究科学学科领域发展规律的方法近乎残忍:学者们为了了解一个学科领域发展的整体状况,就必须查阅该领域的几乎所有文献。很显然,大量的文献使得这一工作既费时又困难,并且难以重复进行,这里面还会掺杂主观的判断。人的精力和时间是有限的,因此这一工作可以说非常艰巨。因此,科学计量学家们一直努力在寻找一种同传统方法相比,具有更大的客观性、科学性、数据的有效性、高效率的新方法来研究科学学科的结构与进展。

20世纪50年代开始,科学引文索引开始了大规模的商业性应用。加菲尔德(E.Garfield)于1955年发表在《科学》(Science)上的关于引文索引的文献奠定了引文分析的基础。作为ISI的创始人,加菲尔德推动了代表学术共同体的多学科数据库——SCI(科学引文索引数据库)的发展。不仅如此,加菲尔德还为研究科学的动态发展状况设计了一系列成熟的概念性工具。引文分析的概念成为当今科学计量学、文献计量学、信息计量学、网络计量学的基础。

加菲尔德的发明极大地改变了科学计量学家们研究科学共同体的方式。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究——在《应用引文数据撰写科学历史》中绘制了DNA研究领域的历史发展图谱。不久之后,普赖斯用相同的数据在他一系列经典著作——《巴比伦以来的科学》、《小科学,大科学》、《科学文献的网络》中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法已经应运而生了。

经过多年的发展,特别是ISI提供的引文数据库使引文结构的大样本统计分析越来越便利,知识图谱已成为科学共同体结构与发展实证研究的主流方法,广泛用于很多学科领域。老一代的研究者们为了界定学科而研究科学文献的结构,并将其可视化,尽管他们并没有应用“知识图谱”这个术语。新一代的信息科学家们正在努力通过知识图谱这一技术手段来实现动态发展着的科学学科的可视化,揭示科学学科的动态发展规律[4]。

2 科学知识图谱的发展历程

奈瑞(F.Narin)、莫尔斯(J.K.Molls)[5]和怀特(H.D.White)和麦肯恩(K.W.McCain)[6]最早在ARIST对文献计量学研究成果进行了汇编。1997年,怀特和麦肯恩对引文分析的发展历程和其在文献可视化方面的应用作了清晰的叙述[7]。鲍格曼(Borgman)和弗莫(Borgman,Furner)[8-10]对能够用于信息评价、解释、预测和学术评价的文献计量学方法作了全面的综述。维尔森(Wilson)[11]对信息计量学,包括文献计量学研究和其他的矩阵研究方法作了非常全面的综述。陈朝美(Chen Chaomei)[12]认为深入地进行科学知识图谱的理论和实践研究将是今后的一个中心议题。

2.1 引文分析与科学知识图谱

现在被广泛应用的SCI诞生于20世纪50年代,由加菲尔德创建,这奠定了今天的引文分析基础。加菲尔德早在1955年的Science上发表的一篇论文,认为传统的基于学科的检索和摘要服务难以满足研究的需求,提出将引文索引作为一种新的文献检索与分类工具[13],怀特和麦肯恩曾在1998年著文高度评价了这项工作:“加菲尔德,ISI的奠基者,多年致力于实现他的创建多学科引文索引的研究。SCI标志着科学信息检索的根本性突破。它作为能够为科学家,学者和各知识领域的研究者提供独一无二的资源的商业产品,已经发展成为一套复杂的用以理解科学发展动力的概念工具。引文分析的概念成为广为人熟知的科学计量学、文献计量学(bibliometrics)、信息计量学(informetrics)、电脑计量学(cybermetrics)和网络计量学(webometrics)的基础。加菲尔德的发明对我们研究知识交流产生了深刻的影响”[14]。

基于引文数据的可视化图谱的开创性研究是由加菲尔德等人在1964年由手工完成的DNA领域的历时态图谱。随后1965年,普赖斯运用相同的数据完成了他的经典论文“科学论文网络”[15]。知识领域的可视化(knowledge domain visualization)是通过空间表征法(spatial representations)来显示的各知识领域间的关系,它旨在揭示由科学文献和引文路径的复杂交织所反映出的科学交流。

加菲尔德于1994介绍了纵向图谱(longitudinal mapping)的概念,并指出一系列历时代排列的序列图谱可以用于发掘科学前沿[16]。各领域的科学家能够利用这类图谱预测一个学科的发展趋势,而且又由于这种方法能够使某个领域中重要的作品可视化地显示出来,从而使初学者能够通过图谱中显示的关键作品的标签,以及图谱中显示出的无形学院及其成员来熟悉该领域的研究状况及内容。

1981年,ISI出版了开创之作《生物化学和分子生物学的科学地图》[17],它基于对该领域一年的相关作品的共被引分析(co-citation),勾勒出了102个独立的文章簇群,这些簇群,代表着学科研究前沿,从而形成了生物化学和分子生物学领域重要研究活动的点布图。这个工作历时几个月。加菲尔德和斯莫尔(Henry Small)解释了引文结构在识别科学前沿变化方面的作用。从而形成一个由102个论文聚类(article cluster)组成的点图,其中的点都代表着该领域重要的研究成果。而后,ISI开发了SCI-Map软件,只要给定某个作者、论文或关键词作为起点,就可生成一个图谱,并随着以两篇文章共被引强度或两点的距离为阈值的调节以发展图谱。图中各点的位置是由几何方法聚类而成。1994年,斯莫尔使用SCI-Map绘制了AIDS研究图谱[18],1999年,又提出了科学通道(passage of science)的概念[19][20],他在深入揭示学科间关系的同时,从书目数据库入手成功地发现了一条“跨越学科边界通往目标领域的通路”[21],例如可以通过不同学科文献的连结可以发现某个学科领域的方法、观点、模型或试验结果移入或移出其他学科而形成科学通道,斯莫尔称之为跨学科施肥(cross-disciplinary fertilization)。他开发了一个算法可以用来刻画300多篇文章间的这种科学通道轨迹。

NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)机制基础上建设的一个学术论文数据库,即ResearchIndex(又名CiteSeer),它提供了一种通过引文链接检索文献的方式,为ISI引文索引提供了有益的补充资源。目前,ResearchIndex可以检索到互联网上超过500,000篇的Postscript和PDF文件格式的学术论文。主要涉及计算机科学领域,包括互联网分析与检索、数字图书馆与引文索引、机器学习、神经网络、语音识别、人脸识别、元搜索引擎、音频/音乐等。ResearchIndex在网上提供完全免费的服务(包括下载PS或PDF格式的全文),系统已实现全天24小时实时更新[22]。

荷兰莱顿大学的学者们,尤其是诺洋斯(E.C.Noyons)和冯苑(A.van Raan)的研究使文献计量图谱技术(bibliometric mapping)得以深入的发展[23-27]。他们开发了一套特殊的用于文献计量图谱的数学方法,基本假设是每一个研究领域可以用一些重要的关键词来表征。因此,每个作品都可以列出一些关键词,通过对两个作品关键词的比较,可以分析出两篇作品的相似性,即共有的关键词越多,两篇作品就越相似,并由此发展了研究科学领域自组织结构的方法论,并把这一方法论应用于神经网络的研究[28]。

2.2 图谱的生成和可视化

1987年,美国国家科学基金会(NSF)发表了一份研究报告,《科学计算中的可视化》,宣称NSF立即开始长期资助科学可视化(scientific visualization)领域的研究[29]。这份报告被认为是科学可视化这一领域诞生的标志,第一届IEEE可视化会议于1990年召开。科学可视化主要由地球资源学、物理学、计算机科学等领域中从事大型计算研究的科学家领导。科学可视化是基于物理世界、自然科学中的数据。例如:卫星送回大量的数据,可视化是快速分析数据、发现有趣现象的有用工具。科学可视化不涉及金融数据、商业信息、文献信息、抽象概念等现实社会和社会科学中的数据与信息,但对这些数据的可视化同样有意义,并且所用方法与科学可视化有很大的不同[30]。用二维和三维图像表征物理现象的科学可视化图一般交互性都不很强,而对抽象的非物理现象,如文献数据集,网络通道模式等的信息可视化技术交互性却很强。“信息可视化(information visualization,InfoVis)”这一术语最早出现在罗伯逊等(G.Robertson)的论文[31]中,它是指在计算机、网络通讯技术支持下,以认知为目的,对非空间的、非数值型的和高维信息进行交互式视觉表现的理论、技术与方法[32]。目前信息可视化已成为一个与科学可视化并列的研究领域。值得一提的是,信息可视化的发展是由信息检索领域的研究大大推动的,卡德(S.K.Card)[33]和赫斯特(M.A.Herst)[34]都曾对可视化检索的成果进行过综述。尽管“信息可视化”这一概念最早出现在1989年,但早在1983年美国耶鲁大学统计学教授塔夫特(E.R.Tufte)就已经发表了数据图理论[35],并相继在1990年[36]和1997[37]年出版了3本著作,至今在信息可视化领域都有着极高的学术价值。

1960年代至1980年代,美国的许多大学或机构陆续进行了一些超文本(hypertext)方面的研究,如布朗大学的Intermedia,美国麻省理工学院的Aspen,施乐公司的NoteCards,苹果公司的Hypercard,马里兰大学的Hyperties,随着这些超文本系统的出现,超文本的研究逐渐形成一个专门的研究领域,其旨在方便人们在超文本空间中获取信息。人们普遍认为超文本的概念来源于范尼瓦·布什(Vannevar Bush)在30年代提出的一种叫做Memex(Memory Extender,存储扩充器)的设想,即在有思维的人和所有的知识之间建立一种新的关系[38]。美国SunSoft公司的杰出工程师占考博·尼尔森(Jakob Nielsen)曾说过这样的话来描述90年代以前超文本的发展:“思想孕育于1945年,诞生于60年代,经过70年代的哺育,80年代进入现实世界,85年以后发展速度加快,于1989年达到高潮,形成了一个新的领域[39]”。进入90年代以后,超文本的发展进入了一个新的层次,技术开始向着网络化、分布式、开放和标准化发展。

地理信息系统(geographic information system,GIS)是信息可视化和传统的地图学之间的一个研究领域。地理地图(geography)坐标提供了一个最方便和自然的组织框架,其中相伴着大量的信息。与此相似,隐含大量信息而生成的可视化主题地图(thematic map),被称作信息地图(information landscape)。较著名的有维斯(J.Wise)的SPIRE/The-mescape[40]和查尔摩斯(M.Chalmers)[41]的BEAD,以及道奇(Martin Dodge)和吉秦(Rob Kitchin)对地理地图如何影响信息地图的论述[42]。

信息可视化的发展速度非常快,从学术Google上以“information visualization”为检索词,共检索到677,000条文章记录。JASIST(《美国信息科学与技术学会会刊》)和Scientometrics(《科学计量学》)也开辟了域可视化(Domain Visualization)专栏。以前与这些期刊有关的学者主要是来自于图书馆和信息科学领域,而非其它潜在的相关学科学者,如计算机科学,信息可视化,地理信息系统,而现在情况发生了变化。在过去的15年中,信息检索已经在信息可视化研究主流中占据了主导地位,像引文分析和域分析等领域仍然是与科学共同体的研究紧密相关[43]。

采用计算机现代信息技术处理复杂的科技信息,利用计算机软件处理引文信息,对前沿科学进行探索和预测,是多年来美国信息科学家一直在探索的研究领域。计算机可视化信息处理软件,是通过直观的动态图像信息处理的方式,显示出专业领域中出现的交叉学科的复杂现象,从而获得详尽的前沿科学信息分析结果[44]。这些信息分析的结果将有助科学家在最短的时间里了解和预测前沿科技研究动态,有助于在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据。

3 科学知识图谱的原理与分类

科学知识图谱研究是一个以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展[45],如图1所示。其基本原理是分析单位(科学文献、科学家、关键词等)的相似性分析及测度。根据具体不同的方法和技术可以绘制不同类型的科学知识图谱。

图1 科学知识图谱的学科背景

3.1 传统科学计量图谱(Two Dimensional Scientometric Map,2DSM)

传统的科学计量学图谱是以简单的二维、三维图形式表达的,而且它们之间在某些情况下是可以相互转换的。如二维的柱形图(图2)、线形图(图3)、点布图、扇形图、二维平面分布图以及三维图(图4)等,它以最直观的形式表达了一些科学统计结果。

图2 ISI中录有摘要或关键词的记录比例柱形图[46]

图2表明,1991年以前,ISI数据库中收录的论文中都没有摘要和关键词,因此针对于摘要和关键词所做的知识图谱研究都是排除了1991以前的文章。而且1991年以后发表的论文也出于各种原因只有71%的文章有关键词记录,这使得依此做知识图谱会有所欠缺,相比较而言,1991年后有84%的文章录有摘要,所以用摘要进行知识图谱的绘制更准确一些。图3是美国科学计量学家彼沃(J.Beaver)对生物学、化学和物理学领域的论文进行的合著统计,合著论文的比例随时间呈现指数增长趋势。

图4左侧的三维图清晰地显示出两个合作峰,将其转化成俯视二维图,可以更准确地看出合作的年龄结构。在中国管理科学领域,26-30岁的年轻学者最易与他人合作,其中与41-45岁的中年学者合作的比率最高,其次是与61-65岁的年长学者合作。而两个峰值之间的51-55岁的学者是合作的低谷区,近乎于合作的年龄断层,而这个断层正是中国科学合作现象的独特之处,即文化大革命导致的合作断层。

图3 合著论文增长趋势线形图[47]

图4 管理科学合著年龄结构的三维图和平面分布图[48]

3.2 三维构型图谱(Three Dimension Configuration Map,3DCM)

三维构型图谱是由国际著名科学计量学家克雷奇默教授创立的。她将新的数学方法引入科学计量学领域,根据梅茨格(W.Metzger)在1986年创立的心理学中的“构型(configuration)”理论,借助非线性函数形象地描述了科学家合著网络构型的三维图形,揭示出高层次人才比低层次人员更容易合作而取得更多成果,并揭示了社会网络中人际关系结构的普遍特性,即“物以类聚”和“相辅相成”。

梅茨格(W.Metzger)“构型”或(“格式塔”)定义为:“如果一客体的形式不是取决于具体的构成材料,也不依赖于将其各个部分固定下来,而是依赖于若干个力(张力等)的平衡,就称它为‘构型’。此外,如果一过程的形式或它的路径不是被一些不能逾越的渠道所限死,也不限制在一个自由度,而是由若干场力的自由作用(当存在着许多自由度时)所造成的,也称之为‘构型’……因此,我们将这些客体一般地称为构型,正如皮亚杰指出的,它们的构成归因于若干力的平衡交互作用。在此语境中与构型相对的概念是嵌合(mosaic)。在一个嵌合里,各个部分是按照一种外部确定的格局安排的,而且各个部分在一定程度上互不了解;然而在一个构型中,可以看到各组成部分和点是处在一种比较密切地交流和相互作用的动态中:每一部分和所有其他部分都相互作用,而如果让它形成某种有序的格局,则每一个部分都会去确定所有其它部分的位置,同时它自己的位置也立即被其它部分的整体所确定”[49]。

基于梅茨格的“构型”定义,克雷奇默做出如下假设:如文献中一致指出的那样,社会结构的所有的个别表现形式都在一个具有均衡力的系统内相互作用的,从这里出发就有可能对相应的三维构型的表现形式建立起一种假说。这些形式应该按照简化趋势尽可能地简单、有序、和谐和一致,而且其构成应符合某些确定的规则[50]。基于此假设,克雷奇默选择了一种幂函数作为研究的出发点,创立了用来描述科学合作的社会网络构型非线性函数模型,即:

相应得到了一个由4个参数和1个常数的非线性函数,不断改变参数,从而得到三维构型图像(图5),显示出科学合作中的“物以类聚”(上图)和“相反相成”(下图)的普遍规则。

3.3 多维尺度图谱(Multi-Dimensional Scaling Map,即MDSM)

MDSM的基本原理是多维尺度分析。在多维空间中,人们常以点表示每一个事物或物件,这些点是根据事件或物件彼此间的相似关系安排位置的。越相似的物件,其两点间的距离越近,而相异的两物件,其两点间的距离较远。这些点所在的空间即为欧几里德几何(Euclidean)空间,可以是二维、三维或多维的。多维尺度分析通过某种非线性变换,把高维空间的数据转换成低维空间中的数据,变换后的低维数据仍能近似地保持原高维数据间的关系的一种技术。通过MDS可以在较低维空间中直观地看到一些高维样本点相互关系的近似图像。共被引分析中最常使用的是克拉斯卡尔非度量(Kruskal non-metric)多维标度技术。该技术已经成为SPSS中一个分析模块。共被引分析中如果用n个分析对象的共被引矩阵(n×n)作为原始数据,那么这n个分析对象可以看成是n维空间的n个点,每个对象所对应的那行数据即为该对象的n维数据。MDS就是要将这n维数据所表示的对象散列到低维空间(一般是二维),并且在低维空间中的散列点表现出原n维数据之间的位置关系和亲疏程度。

图5 从非线性函数得到的三维构型[51]

图6 国际科学学主流学术群体及代表人物知识图谱[52]

注:影响力越大的学术群体边界越粗

图6是对1995年至2004年的10年间被引频次最高的70篇文献进行多维尺度分析与聚类分析,绘出文献共被引图谱,展示了科学学主流研究领域的总体状态。

通过多维尺度分析以及聚类分析,我们得到了科学学主流学术群体及其代表人物知识图谱(见图6)。高被引频次证明了这些作者对科学学的发展产生了巨大而深远的影响,他们所代表的学术群体推动了科学学不同分支领域的衍生与发展,堪称科学学各个领域的领军人物。图谱中清楚地显示出,近10年来,国际科学学界按作者聚集度与群体影响力形成了6大主流的学术群体:学术群体1当中的学者们主要从事科学学的应用研究——科技政策与科技管理的研究;学术群体2、3、4当中的学者们主要从事科学学方法研究,包括信息科学与信息检索方法、科学知识图谱与可视化方法以及网络计量学方法等等;学术群体5中的学者主要从事社会历史环境下的科学技术与社会关系的研究;学术群体6中的学者从事科学学基础理论研究,主要是科学计量学引文分析理论以及建立科研指标与评价体系。

3.4 社会网络分析图谱(Social Network Analysis Map,即SNAM)

社会网络研究发端于20世纪20、30年代英国人类学的研究,其基本事实是每个行动者都与其他行动者有或多或少的关系,社会网络分析就是要建立这些关系的模型,力图描述群体关系的结构,研究这种结构对群体功能或者群体内部个体的影响。美国社会心理学家莫雷诺(Moreno)创立的社会测量法为社会网络分析奠定计量分析基础。发展至今,社会网络分析已经被广泛应用于网络社会关系发掘、支配类型发现(关键因素)以及信息流跟踪,通过社会网络信息来判断和解释信息行为和信息态度。而且作为一种跨学科的研究方法,社会学、心理学、经济学、信息科学、系统科学与计算机科学的共同努力,使得社会网络分析从一种隐喻成为一种现实的研究范式[53]。

在情报学领域,最早是南丝(R.E.Nance)等在1972年对消息传播结构进行分析,利用可获取性和灵活性对信息网络进行分析[54]。在引文分析中,通过社会网络的方法可以找出有影响力的文章,或核心文章,奥提(Evelien Otte)和鲁索[55](Ronald Rousseau)在对133位合作作者形成的社会网络分析中,形成了其中57位作者构成一个核心网络,其中波特(Ronald S.Burt)是社会关系网中最核心的论文作者(17篇),这与应用传统文献计量分析而得的核心论文作者威尔曼(Barry Wellman)(34篇)有所不同。他们也指出,情报学家对出版物研究、引证和同被引网络、合作关系和其它社会相互作用形式通过互联网都构成无标度的社会网络,而在所有这些研究中社会网络分析都具有广泛应用。伦敦Facetation2003年的报告[56]指出,信息检索和文献计量是社会网络分析目前在图书情报科学的主要应用领域,社会网络分析可能在LIS的三个领域得到发展:社会知识网络嵌入、社会网络的互联性和信息传播管制以及网络关联桥的研究。

1996年以后出现大量将社会网络分析方法应用于Web的实例,其目的是为了找出对用户查询的最权威的回答页面,将页面生成和链接当作“主体”对象,通过链接簇或者核心节点标明网络中的核心资源。其中,较为典型的是Google的网络链接排序、搜索引擎主题搜索、页面信息嵌入和过滤等[57]。

普赖斯最早将社会网络分析中的有关无标度网络概念引入科学论文引文网络分析[58],通过文章之间的内在联系建立文献对象之间的链接网络关系,巴拉巴斯(Barabasi)和阿尔伯特(Albert)提出了类似的幂指分布结果可以应用到社会网络和一般Web网络,从而识别和分析对于保持网络稳定性具有重要作用的“大顶点”,即关于Web网络增长的生长模型(B-A模型)[59]。按此模型,利用“顶点增加”和“连接关联”可以定义Web网的一次引用和链接,进而通过顶点和边的扩展描述无标度网络的形成,它广泛应用于合著网络的研究,并以此推广到知识的各种载体及单元间的关系分析。

图7是运用社会网络分析的原理和技术,对国际科学学领域6种期刊①100个高频关键词绘制的共词网络图谱。

这里引入社会网络分析中的联接度k核分析法,建立不同联接度k核的共词网络图谱。这种共词网络显示出一般社会网络的层级结构特征。由最高联接度(k=12)的核所形成的网络图谱(图7),可以看出构成科学学相对独立研究领域的三个知识群:由科学(1)、知识(4)、系统(11)、绩效(6)等主要知识元组成的知识群a;由信息获取(13)、构思设计(18)、行为(22)、略策(52)等主要知识元组成的知识群b;由创新(2)、技术(3)、公司(9)、网络(12)、工业(14)、研发(15)、管理(16)、模式(20)、组织(27)等知识元组成的知识群c。不难看出,a、b、c三个知识群基本上分属于科学学的理论、方法和应用三个研究领域。

图7 国际科学学类期刊高频关键词共词网络的3个核心知识群

3.5 自组织映射图谱(Self-Organizing Map,SOM)

人的大脑具有大量的细胞,但生物学研究表明其作用各不相同,在大脑空间中处于不同位置的脑细胞控制着人体不同部位的运动,即处于不同区域的脑细胞对来自某一方面的刺激信号的敏感程度也不一样,这种特定细胞对特定信号的特殊反应能力似乎是由于后来的经验和训练形成的。由此,卡汉(T.Kohone)提出了人造神经中枢网络对信息可视化及其重要的自组织特征映射模型,它采用无导师学习的分类方法,能把任意维的输入信号变换到一维或二维的离散网格上,并保持一定的拓扑有序性的结构。陈定权以二维空间和著者共被引分析为例,说明了其基本原理和过程[60]。

80多个世界性的新闻组网络系统中的数以万计的文档都通过SOM映射法映射到万维网中。夏林等首先将SOM方法应用于文档的信息可视化分析,其Visual SiteMaps技术可以显示出从数据库中提取出来的重要的概念串[61]。1995年,Hshinchun Chen和他同事在美国亚利桑那州(Arizona)大学的人工智能实验室中开发出了ET-Maps技术,他们创建了多层次图像的SOM方法,用于对大量文档和网页自动分类[62][63],Yahoo就是利用了这个原型进行浏览和检索。ET-Map是一种类映射,它将共享许多名词短语的群文档映射到2维图像上,每个颜色的区域表示包含相似文档的唯一主题,一个主题区域的大小与这个种类的文档数量有关,中间中心度被应用于规划在内容上相关的,在映射上接近的主题区域。其显示了一个信息空间的“顶-底”视图,以便提供给用户一个直观的信息地图。

波朗科,弗朗索瓦和拉米莱尔(X.Polanco,C.Francois,J.C.Lamirel)于2001年提出了SOMs的多层映射扩展,即Multi-SOMs方法[64],这是一种自动地划分图像为逻辑区域的串命名的方法,提出了图像概括机制,并讨论了其在可视化、浏览器和科学技术信息分析方面的潜在应用。Multi-SOM方法的基本组件[65]。

拉米赖尔等利用Multi-SOM的理论和方法对欧盟15个国家的大学网站链接情况做的基于联合国教科文组织的学校代码和引文两种角度的合作图谱(图8)。这是一种可以超链接的图谱,即点击其中的某点,就会自动地出现另一幅以此点为基础的树形扩散图。其中左图是基于学校代码的图谱,表明德国明斯特是中心城市,这意味着德国北部在计算机科学研究方面占据优势地位。右图是基于学校研究主题的图谱,表明在德国经济科学和人工智能的研究,数据库和组织管理研究是高度相关的,信息系统研究也由于其有众多的分枝而显得颇为丰富。在计算机科学领域,编程语言是其核心,即是其他主题研究的根源。

图8 基于学校代码和引文的Multi-SOM树形图谱[66]

3.6 寻径网络图谱(Pathfinder Network Scaling Map,PFNET)

寻径网络是根据经验性的数据,对不同概念或实体间联系的相似或差异程度做出评估,然后应用图论中的一些基本概念和原理生成的一类特殊的网状模型。它对不同概念或实体间形成的语义网络进行表达,从一定程度上模拟了人脑的记忆模型和联想式思维方式,主要应用于认识心理学和人工智能等研究方面[67]。在一般变换情况下PFNET具有一定的稳定性,并且通过对PFNET的分析,可以对不同的概念、实体进行分层和聚类。

该算法检查所有数据之间的关系,然后建立数据间最有效连接的路径。最终结果是将数据以及数据之间的关系表达成一个图,图中节点表示数据,线表示数据之间的关系。这个算法起源于1990年美国心理学家R.W.Schvaneveldt对认知心理学语义关系的研究,它与社会网络分析具有共同的数学模型[68]。他的基本思想在于应用一种较最小生成树法更复杂的连接删除算法,经过模型运算删除网络中大部分的连接,而只保留其中最重要的连接,其目标在于将一个复杂网络进行最大限度的简化。将PFNETs引入作者共引分析(ACA)的同时,也就将认知心理学语义分析、社会网络分析方法和可视化软件的优势借鉴到ACA方法中来,因此为传统ACA方法注入了活力。

关键路径网络绘制的目标,本质上来讲是简化一个稠密的网络。关键路径网络的拓扑结构由两个参数来决定:r和q。r参数定义为基于闵可夫斯基度(Minkowski)距离的给定网络的空间度量。当r=1时,等于两点间距离之和,r=2时,Minkowski距离就是最熟悉的欧几里德距离。当r=∞时,这条路径的值定义为是它所有构成连线中的最大值。这一距离被叫做距离的最大值。

如果比可选路径的权重大,那么i和j之间的直接路径就不满足算法的不均等条件,i和j之间的连线就要被删除,因为算法默认这种连线不能代表节点i和j之间关系的最显著的特点。q参数具体指两节点间可选路径连线的最大长度。q的值可以设置为2到n-1之间的任何整数,这里n是网络中节点的数量。当q=2时,表示的是三角形不等规则(两边之和大于等于第三边);q=3时,表示的是四边形不等规则(三边之和大于等于第四条边)。在通常情况下,取r为无穷大,q为节点总数减1,对应的网络表示为PFNETs(r,q)。PFNETs与最小生成树(Minimum Spanning Tree简称MST)的区别是,PFNETs的边数可能小于n-1,但是MST的边数必须为n-1[69]。如果一个可选路径的值比直接路径小,那么直接路径就会被删除。按这种方式,关键路径法大大减少了原网络中的连线的数量,但所有的节点保持不动,最后结果的网络即为最小值网络。

关键路径网络法具有自身的优势,与其他类似如多维尺度和最小生成树等算法相比,它具有能获得更精确局部结构的能力。然而,关键路径算法具有很复杂的运算过程,这对于处理大的网络,也是一个考验。

PFNETs算法在科学知识图谱绘制过程中,将文献、主题词、关键词、作者等研究者要分析的信息视为节点,并假设节点间由加权的路径相连,权值为被分析对象的共被引频次,仅显示节点间最短路径。在图谱中,关键节点控制着学科领域研究的走向。其余节点以关键点为核心形成不同的研究范式,进而构成学科结构全景。如果某学科领域缺乏关键的节点,图谱中节点则呈现出相对松散的状态。当大量节点都与某关键节点具有较高的共引强度时,学科分支领域自动形成,而无须单独的聚类程序。因而比起采用皮尔逊系数的传统ACA方法,利用原始共引频次的PFNETs算法使结果更为丰富。并且PFNETs算法减少了传统ACA模式的复杂性,结果更为可靠,因而在现今ACA分析中备受推崇。

美国德雷克塞尔大学信息科学技术学院陈超美首先使用Pathfinder算法实现了对超文本链接网络聚类的分析[70]。2004年,他又基于引文分析理论并将其范围进行了扩展,应用JAVA语言开发了CiteSpace信息可视化软件,是近几年来在全美信息分析中最具有特色和影响力的可视化信息软件,其最初版本始发于2004年9月13日,随后,其版本不断的升级和更新,现已更新到CiteSpace2.0.11b版本(2007年3月20日)。利用CiteSpace分析软件,可以通过引文网络分析,探寻学科领域演化的关键路径,找出学科领域演化的关键文献(即知识拐点),分析学科演化潜在动力机制,并预测学科发展前沿。

注释:

①《科学的社会研究》(Social Studies of Science);《科学技术与人类价值》(Science Technology & Human Values);《科学计量学》(Scientometrics);《美国信息科学技术协会会刊》(Journal of the American Society for Information Science and Technology);《研究政策》(Research Policy );《研发管理》(R&D Management)。

标签:;  ;  ;  ;  ;  ;  ;  

科学知识地图的开发过程_科学论文
下载Doc文档

猜你喜欢