国内知识地图研究回顾和评价:2004/2010年*_可视化论文

国内知识图谱研究综述与评估:2004-2010年*,本文主要内容关键词为:图谱论文,知识论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 研究目的和意义

知识图谱(Mapping of Knowledge)是显示科学知识的发展进程与结构关系的一种图形[1],是当今科学计量学、信息计量学、文献计量学以及情报计量学等学科共同关注的前沿学术领域之一。由于知识图谱方法能较直观地解读人类知识,有利于隐性知识的挖掘,目前已被广泛应用于人文社会科学与自然科学领域。

有关知识图谱的由来,陈悦博士和刘则渊教授认为,科学知识图谱的产生同绘图学和地图学有一定关系[1]。据有关文献介绍,早在20世纪70年代,美国国家基金会就出版了关于科学基金的地理分布报告,这被认为是国外最早研究知识地图的文献之一[1]。此后,知识地图在大量基于数据库的绘制工具推动下,突破了仅描述知识地理分布的局限,逐渐发展成为内涵更加丰富的知识图谱。2003年,美国科学院组织的“知识图谱测绘”(Mapping Knowledge Domains)大会的召开则标志着专家们对知识图谱绘制开始了大规模的深入研究。在该会议上,来自不同领域的专家发表了20多篇学术论文,介绍了有关知识图谱的最新研究成果[1]。自此以后,知识图谱领域的学术研究逐渐兴起。

在国内(大陆地区),大连理工大学是较早地(约2004年)从科学计量学的视角引进“科学知识图谱”方法的研究机构,他们在此领域已经开展了大量研究并取得了较为丰富的成果,为推动国内该领域的研究做出了很大的贡献[2]。在他们的影响下,国内参与该领域研究的人员和研究机构、发表的论文和应用的领域越来越多,呈现出日益繁荣的局面。但是,由于国内开展这方面研究的时间不长,误用、错用、盲目使用等情况也时有出现,并已经引起有关学者的一些疑问和忧虑[3]。我们认为,基于近年知识图谱领域的已有研究,分析其现状、明确其问题、考察其趋势、提出其对策,即对该领域的已有研究进行一次“科学学”视角的回顾性、反思性考察研究已经提上日程。

通过查阅文献,我们发现,除了任红娟、张志强已经对国外知识图谱的研究状况进行了文献计量分析[4],以及廖胜姣[5]、秦长江[6]、梁秀娟[7]等对国内知识图谱方法的研究作了一些定性为主的综述外,到目前为止,还没有文献对国内知识图谱领域的所有研究论文进行过系统的、定量为主的综述,特别是没有对2009年,2010年的相关文献进行过综述和评估,而这两年又恰是国内发表知识图谱论文数量激增、最能反映国内目前研究水平的一个时间段。鉴于此,本文拟为弥补此缺憾而作。本文研究的主要内容是:国内知识图谱领域的研究总体上达到什么样的程度,主要的研究机构有哪些,主要的研究学者有哪些,近年的研究热点是什么,存在的问题主要有哪些,今后的发展趋势怎样等,以期对该领域相关研究工作的进一步开展能有所帮助。

2 研究方法与数据收集

学术期刊作为科研成果的重要发布渠道,是科研工作者的首选,因此本文选择国内收录期刊较全的数据库——CNKI中国学术期刊网络出版总库作为数据源。

为尽量收齐样本,本文确立了“先粗后精、先大后小”的取样策略。具体方法是:先选择“知识图谱”、“知识地图”、“可视化”和“社会网络分析”等作为检索词,以“篇名或关键词”为途径分别进行检索,检索时间为2004-2010年,共检索出6641条记录(检索时间:2011年2月20日),输出的题录字段有“篇名、作者、作者单位、关键词、基金项目、摘要、刊名、发表年、第一作者”共9项。由于绝大多数论文并非属于文献(科学)计量学知识图谱研究领域,为此又对这些论文进行严格的人工筛选,最后确认264篇论文作为本文文献计量研究的数据样本。

本文研究的主要方法是:先用词频统计以及基于共词分析的可视化知识图谱等文献计量方法研究论文的产出结构和研究热点,然后通过逐篇阅读重要论文,运用内容分析法来分析论文的主题、内容、方法和研究进展等,最后归纳分析得出结论。

3 论文产出结构分析

3.1 论文总量分布

对264篇论文的年度分布统计表明,最早的相关论文是2004年由中山大学信息管理系胡利勇和陈定权发表在《情报杂志》第11期的《引文分析可视化研究》。该文认为,引文网络可以通过聚类的分析方法,用直观的网络图形式显示出来。很明显,文中的“网络图”便是后来称为科学知识图谱的一种。2005年,该领域论文共有6篇,其中大连理工大学的陈悦和刘则渊合著的《悄然兴起的科学知识图谱》一文在国内首次使用了“科学知识图谱”一词。2006年以后,论文数量有较快的增长,到2010年已达到年发文百篇以上的规模(因CNKI数据录入有滞后现象,实际数量应该超过100篇)。

3.2 发表期刊分布

经统计,264篇论文分别发表在90种期刊上,其中发表1篇论文的有52种,发表2篇的有18种,发表3篇的有5种,发表4篇及以上的共有15种。表1列出了发表论文数在3篇及以上的期刊。由表1可以看出,这些期刊绝大多数属于图书情报及科技管理领域期刊,并以核心期刊居多,而且也不乏像《中国图书馆学报》、《情报学报》、《科学学研究》、《科研管理》等国家一级学术期刊。

对90种期刊的所属领域大致归类,我们还发现,知识图谱研究论文主要发表在图书情报类和科技管理类期刊中,其次是一些高校的学报,见表2。值得注意的是:教育学领域期刊也占到了全部期刊类别的12%强,发表的论文数量则超过了5%,这说明,教育学科已成为知识图谱方法的一个重要应用领域。

3.3 作者分布

经统计,264篇论文中共有合著论文195篇,合著率高达73.8%;共有作者595人次,篇均作者数达到2.2人(见表3)。

如果在统计中不分作者排名情况,把所有作者都统计在内,那么264篇论文共有作者327位,其中发表论文在6篇及以上的作者有16位,除浙江树人大学的汤建民、武汉大学的马费成和河北大学的陈兰杰外,其余13位均来自大连理工大学。

如果单纯按第一作者统计,发现共有159位不同作者,其中发表1篇论文的作者有125位,发表2篇的作者有9位,发表3篇的作者有7位,发表4篇的作者有8位,发表5篇及以上的作者有10位。表4列出了发表论文在5篇及以上的10位高产作者及其所在机构。由表可见,大连理工大学在前10名中占了7席,可见其研究力量的强大。

3.4 机构分布

经统计,第一作者所在机构共有82家,其中高校系统75家,科学院、情报所系统6家,还有一家是高等教育学会。可见,知识图谱的研究力量主要集中在高校。表5列出了11个发表论文在4篇及以上的机构。

由表5可知,大连理工大学的研究成果数量遥遥领先,约占全部论文的1/3,不愧为国内“知识图谱”研究的先行者。

另外,如果进一步结合表5的“第一作者人数”进行考察,则可以发现:各研究机构的论文发表篇数与第一作者人数大多是相对均衡的,但浙江树人大学的7篇论文全是由其科学计量学研究中心主任汤建民教授一人所发,显示出该机构的第一作者人数明显偏少,说明其成员的研究力量还没有很好地发挥出来,今后应加大人才培养力度。

3.5 基金资助分布

264篇论文中共有139篇论文受到239个基金项目资助(有些论文拥有不止一项基金),占论文总量的52.9%,总篇均资助达0.9项,这是一个非常高的基金资助率。其中,国家社会科学基金和自然科学基金达到106项,占全部基金项目的45%;教育部、省级和校级课题也不在少数;部分论文还参与了国际合作,见图1。可见,知识图谱领域已经成为一个从国家到地方、从政府到高校都比较重视和关注的研究领域。

4 研究论文的内容分析

4.1 论文研究热点分析

4.1.1 关键词词频统计

按关键词统计,发现264篇论文中共有关键词1094个,篇均关键词约4个。为了准确反映论文研究的主题,我们把一些意义相同或相近的关键词进行一定的归整,如把“CiteSpaceⅡ”统一修改为“CiteSpace”,把“科学知识图谱”和“可视化图谱”统一为“知识图谱”,等等。最后我们得到了频次在7次及以上的前20个关键词,见表6。综观这20个高频关键词,大致可以发现:论文的研究热点主要在于通过社会网络分析、共词分析、同被引分析、聚类分析等科学计量学和文献计量学方法,利用CiteSpace等可视化软件,研究各学科领域的研究热点和研究前沿,选择的数据源主要有CSSCI等。

4.1.2 作者—关键词共现的可视化分析

更进一步,我们可以通过基于共词的可视化分析来绘制出研究知识图谱的知识图谱。在这里,为了显示出作者和关键词的关系,我们在知识图谱中加入了第一作者的元素参与共现,同时,为了使作者与关键词在知识图谱上有所区别,又在作者前面加了“#”符号。笔者认为,“知识图谱”作为一个最高频的关键词,与其他关键词(或作者)共现的次数太多,不利于图谱的识别和解读,因此去掉了该词参与共现。图谱绘制的方法是:先计算出所有关键词及作者的词频,选择其中词频≥3的关键词(或作者)84个(25位作者和59个关键词,去掉了“知识图谱”)进行共现运算,设定的共现次数≥3;然后用社会网络分析软件Pajek绘制出有关知识图谱研究的作者一关键词共现的知识图谱,见图2。

在图2中,顶点大小表示关键词(或作者)词频的高低,连线粗细表示共现次数的多少。可以发现,有近一半的作者及大部分的关键词之间是没有连线的,即它们没有同时与其他的作者或关键词共同出现在3篇及以上的论文中。这从另一方面表明,有关知识图谱研究的热点还是比较集中的,主要分布在“(信息)可视化”、“社会网络分析”、“科学计量学”、“CiteSpace”、“共词分析”及“知识地图”等主题上。

由图2可以比较直观地得知,与“科学计量学”相关(共现3次及以上)的作者有6位(侯海燕、王淇、陈立新、许振亮、汤建民、梁永霞),是数量最多的,其次是与“可视化”有关的作者有5位,两者拥有共同的研究者是陈立新和许振亮;与各关键词相连最多的作者是“陈兰杰”与“汤建民”,他们都拥有4个关键词,其次是“马费成”、“房宏君”等,他们有3个关键词相连。在图2中还可以解读出如下信息:王淇研究的重点是对体育科学的科学计量学分析;汤建民主要是在科学(文献)计量学领域应用社会网络分析软件及方法进行共词分析和研究;陈兰杰主要通过信息可视化软件CiteSpace研究某些学科的研究热点及前沿;马费成主要研究在知识管理领域如何用知识地图(或概念地图)进行知识评价;姜春林研究的数据(或对象)主要来源于CSSCI;康宇航则主要对跟踪技术的可视化进行了研究。

4.2 论文研究的主要内容

通过关键词词频统计及共现分析,我们大致可以直观地了解知识图谱领域的研究热点,但更详细准确的分析显然需要通过阅读论文的摘要和正文来获取。经过阅读,大致归纳出了知识图谱研究的主要内容。

4.2.1 知识图谱的相关概念与理论研究

这方面论文的主要目的是为了普及知识图谱知识,推广其应用研究。主要论文有《悄然兴起的科学知识图谱》[1]、《科学知识图谱应用研究概述》[5]、《知识图谱——信息管理与知识管理的新领域》[6]、《科学知识图谱研究综述》[7]、《复杂网络理论的情报学应用研究》[8]、《科学知识图谱的发展历程》[9]、《论学科知识网络的理论基础》[10]、《科学知识图谱——科学计量学的新领域》[11]等。

4.2.2 知识图谱的可视化方法、技术及软件研究

有关可视化方法的研究论文主要有《基于SOM聚类的文本挖掘知识展现可视化研究》[12]、《基于专利引文的技术跟踪可视化研究——共引、互引、他引、自引》[13]、《可视化同被引分析技术综述》[14]、《信息可视化的发展趋势研究》[15]、《多元统计与社会网络分析法在知识图谱应用的实证研究》[16]、《用信息可视化方法分析科研领域发展状况》[17]、《两种方法构建的作者共引知识图谱的比较研究》[18]、《科技文本的可视化分析研究》[19]、《可视化数据探索及其应用》[20]等。

软件在知识图谱的可视化过程中无疑起着至关重要的作用,这方面的文章主要有《CiteSpaceⅡ:科学文献中新趋势与新动态的识别与可视化》[21]、《引文编年可视化软件HistCite介绍与评价》[22]、《Pajek在情报学合著网络可视化研究中的应用》[23]、《社会网络分析与可视化工具NetDraw的应用案例分析》[24]、《CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究》[25]等。

4.2.3 知识图谱在学科前沿和研究热点分析中的应用

知识图谱方法在研究某学科领域的研究热点和发展趋势等方面已有了较多的研究成果,这部分论文占了绝大多数。如《近10年我国情报学研究领域主要作者和论文的可视化分析——基于社会网络分析方法的探讨》[26]、《基于Web of Science的国际ERP研究热点与研究前沿的信息可视化分析》[27]、《破产法研究国际前沿的可视化分析》[28]、《近5年我国会计学研究热点可视化分析》[29]、《力学各分支学科研究前沿和发展趋势的可视化分析》[30]、《国际纳米科技前沿领域研究热点图谱分析》[31]、《我国工商管理研究的知识来源与结构——基于文献计量法的分析》[32]等。

4.2.4 知识图谱在期刊评价与研究中的应用

知识图谱在对期刊的研究热点、研究趋势及学术影响力等方面的研究也有着得天独厚的优势,这方面的论文主要有《期刊文献计量与知识图谱对《情报科学》的解读》[33]、《基于知识图谱的美国《科学哲学》研究前沿和热点探讨》[34]、《《高等教育研究》研究热点及其知识基础图谱分析》[35]、《科学技术学期刊群的可视化分析》[36]、《期刊共引分析及可视化实证研究——以图书情报学研究为例》[37]、《学术期刊网络结构的文献计量及可视化分析》[38]等。

4.2.5 知识图谱在作者合著网络研究中的应用

通过合作网络的知识图谱绘制,可以直观地识别出较大规模的合作团队和团队组成结构,可以认知区域间和机构间的科研合作水平,从而对科研管理提供依据。该方面的论文主要有《中国科学计量学国际合作网络研究》[39]、《国内教育学科论文合著情况研究——1998-2007CSSCI文献计量和作者合作图谱分析》[40]、《学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例》[41]、《EAMOLA成员科研合作行为的网络可视化研究》[42]、《基于CSCD和SCI的跨省区科学合作网络可视化分析》[43]、《社会网络分析方法在图情领域合著关系的实证研究》[44]、《基于文献计量的卓越科研机构描绘方法研究——以国内教育学科为例》[45]等。

5 结语

通过对知识图谱研究论文的文献计量和内容分析,可以得出以下几点结论。

(1)从论文数量看,呈逐年增长态势;从发表这些论文的期刊看,大部分都发表在国家一、二级核心学术刊物中;从作者数量看,论文的合著率和篇均作者数均非常高;从基金资助情况看,研究论文受到了各级基金的广泛支持,特别是国家自然科学和国家社会科学基金项目占了近一半。

(2)大连理工大学在该领域中处于领先地位,武汉大学、中国科学院、浙江树人大学、南京大学、天津师范大学、河北大学等在知识图谱领域也都有较强的研究实力。总的来说,研究力量主要集中在高校。

(3)论文研究的主要方法是社会网络分析、共词分析、同被引分析、聚类分析等,使用最多的可视化软件是CiteSpace和社会网络分析软件Pajek和Netdraw,主要用途是将知识图谱应用于各学科领域的研究热点、发展趋势及作者合作网的分析。

(4)从论文研究的主要内容看,知识图谱领域已形成了一个从“概念、理论”,到“方法、技术”、“软件支撑”,再到“研究应用”都有所涉及的研究领域,为后续更广泛和更深入研究打下了一定的基础。

但是,通过阅读这些论文,同时也发现,目前有关知识图谱的研究至少还存在以下一些问题,需要引起重视。

(1)由于目前国内对知识图谱的研究在整体上仍处于起步阶段,因此,从内容上看,虽然在理论、方法和应用等方面都已有一定数量的论文,但总体仍表现为“零碎的研究较多、孤证的研究较多,应用性的研究较多。或者说,还只有一些散点而没有形成系统的网”的特点[2]。因此,我们不仅要继续加强知识图谱的应用研究,同时还应进一步重视对原理与方法本身的研究,以期为知识图谱方法的相关应用提供更为坚实的理论支撑。

(2)大部分论文的数据样本,在选择上具有很大的随意性,有些论文甚至没有说明获取样本的具体步骤,而且阈值的选择也没有标准可循,这无疑会影响研究结论的严谨性和可靠性,必须引起重视。

(3)对知识图谱方法的理论假设、关键技术、自身局限、应用现状和存在问题等方面的回顾性、反思性研究还非常缺乏,今后应该加强这方面的研究。

(4)由于知识图谱方法对数据的依赖性很强,要求也很高,因此应进一步重视开发适合于各种来源数据库所下载的数据进行处理的软件,以减少研究人员在数据收集、数据清洗、数据处理等方面的时间和精力。

(5)从各篇论文的知识图谱看,目前对知识图谱的标注也很不规范,建议对每幅知识图谱最好在数据来源、数据规模、可视化软件、阈值大小等方面进行标注,以便于其他人在异时异地的情况下仍能正确地识别和解读[2]。

标签:;  ;  ;  ;  ;  ;  

国内知识地图研究回顾和评价:2004/2010年*_可视化论文
下载Doc文档

猜你喜欢