判断新研究趋势的技术框架研究_关键词分类论文

判断新兴研究趋势的技术框架研究,本文主要内容关键词为:框架论文,趋势论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.73 [文献标识码]A [文章编号]1003-2797(2008)03-0076-05

一般而言,研究人员在进行课题研究前,都要查询大量的相关文献,通过大量的阅读来把握相关文献中表现出来的与课题相关研究的进展情况,从而制定有效的研究计划。科学文献中的主题热点趋势变化有着其内部和外部的原因。内部的原因包括科学上新的发现和新的突破,例如科学家发现了青霉素可以杀死许多致命性细菌,其后关于青霉素的文献急剧增多。外部的原因包括一些突发事件对科学研究的影响,例如恐怖袭击后,卫生保健、创伤后应急障碍等的研究就成为热门的研究方向[1]。对于研究人员而言,仅仅知道有哪些研究话题是不够的,研究话题受关注的程度也在随着时间发生着变化。这些都需要耗费研究人员大量的时间和精力来跟踪阅读相关的科学文献来把握。而且研究人员的精力是有限的,阅读的文献量也是有限的,难免会出现对研究趋势把握上有偏差。那么,如何依靠计算机来辅助判断海量科学文献中隐含的研究动态和研究趋势,是一个需要亟待解决的问题。

本文通过分析国内外相关机构开发的新兴研究趋势探测系统,总结其在新兴研究趋势探测上已有系统所采用的技术方法,分析其实现特点和设计思路,提出从海量医学信息资源中判断新兴研究趋势的技术框架。

1 新兴研究趋势的概念

April Kontostathis等于2003年提出新兴研究趋势(Emerging Trend)的定义是:“随着时间逐渐引起人们兴趣、并被越来越多的学者讨论的主题领域”[2]。

从这个定义中,我们可看出Emerging Trend的实质是在某个科学研究领域中备受研究者关注的一组主题领域集合,与Price[3]和ESI[4]提出的研究前沿(Reasearch Front)、Soma Roy[5]关注的初始趋势(Incipient Trend)、Naohiro[6]等提出的新兴主题(Emerging Topics)等含义类似,指的是科学研究中极具发展潜力的研究方向。Emerging Trend的特点在于它由一组当前正在研究的主题领域来代表研究方向,而每个主题领域则是由多个关键词或词组来表示的。如对生命科学领域新兴研究趋势挖掘的任务就是发现在生命科学研究领域中当前正在研究的一组主题领域簇。

2 相关研究

国外多个研究机构在新兴研究趋势自动探测方面提出了多种方法和相关的原型系统。从自动化角度划分,有需要专家或用户介入的半自动化系统,也有基于机器学习方法的全自动化系统。从采用的技术方法上来看,可以分为文献计量学指标的可视化方法、文献计量学指标的综合评价方法。

2.1 文献计量学指标的可视化方法

应用文献计量学指标来判断主题研究的动态趋势,是一个简单且实用的方法。ThemeRiver[7]、TOA(Technology Opportunities Analysis)[8]等将统计指标在时序上表现出来的变化用图形展现出来。应用的文献计量学指标包括:关键词词频统计、关键词共现词频统计、来源机构统计、来源国家统计等。文献计量学指标的可视化方法本身并不指出哪些主题是研究趋势,而是通过图形展现各个统计指标在时序上的变化情况来直接反映客观的统计数据事实,最后的判定则交由用户或专家依据指标变化情况来进行判断。

(1)将按时序统计的各项指标以图形方式作为结果来展示。一部分项目单纯应用文献计量学指标的系统将各个统计指标按年进行统计,并将一定时间段内的统计指标走势以形象的图形展现出来,而将Emerging Trend的判断交由用户或专家。如TOA系统将关键词词频(关键词由用户指定)、来源机构、来源国家等按年进行统计,以直方图、对数图、Fisher-Pry曲线图以及地域研究图谱来客观展示这些指标在时间、空间上的变化情况;在图形展现上较有特色的则是ThemeRiver系统。该系统统计在一定的时间间隔内包含关键词(由用户指定)的文献数,将某个时刻包含某个主题的文档数作为该主题的强度,每个主题以一种颜色的河流来标识,并自动形成河流型的图形。

(2)将指标变化的图形趋势与用户定义的变化趋势进行匹配。如用于在专利数据中发现专利发展的动态趋势系统PatentMiner[9]。它根据用户输入的选择标准动态生成SQL查询语句检索美国专利数据。该系统有两个主要的组件:短语区分(运用连续模式挖掘)和趋势探测(运用Shape Query)。根据用户定义的检索短语及短语间单词的间隔距离(可以以单词数、语句、段落、章节来限制距离)来计算术语在一定时间间隔中的共现频次。同时允许用户来定义一个Emerging Trend在文献中表现出词频的走向形状,通过形状匹配来检查某个主题是否为Emerging Trend。

(3)应用信息抽取和模式匹配的方法。如美国马萨诸塞州大学开发的TimeMines[10]运用TDT预研语料与TDT2作为来源语料库,并以词性标注工具JATG来对语料库进行词性标注。应用信息抽取技术抽取其中的名词短语作为关键词,统计这些关键词在一定时间段内分布情况。该系统预先定义一个有固定基础比率变化的模式,将关键词在时序上的分布模式与默认模式相比较,提取其中变化显著的关键词,将一定时间段内有相同分布的关键词进行聚类组成一个主题,最后以二维坐标系展现一定时间段内的研究主题。X轴为时间,Y轴为一个主题的关注程度,在统计上最显著的主题显示在最上端。

2.2 文献计量学指标的综合评价方法

(1)美国Lehigh大学开发的分层分布式动态索引(Hierarchical Distributed Dynamic Indexing,HDDI)[11]文本挖掘算法。HDDI通过信息/特征抽取、属性子集选择、文本挖掘和机器学习技术来从文本数据中进行前沿热点探测。该项目认为一个前沿热点应该满足两个规则:“随着时间其语义内容会越来越丰富(例如,在该领域出现更多的概念);引用增多导致的相关概念出现频率增加”[11]。也就是说,只有当一个概念随着时间其出现频率在逐渐增长并且与其他一些相关概念的共现频率也显现增长的概念才能被认为是前沿热点。该项目首先清洗来源数据,保留原始文档中的相关章节,并对每个单词依据词汇和上下文规则来进行词性标注。在此基础上按照规则表达式来抽取复杂名词短语(即概念),并且运用语义局部性(Semantic Locality,sLoc)的思想将概念进行归类。根据抽取的概念和概念聚类统计概念的词频,该项目将其中的7项值作为神经网络的输入值,采用7*10*2的神经网络。当评价一个测试样例时,就把定义在0到1之间可变的阈值加到正输出中。该值与负输出相比较,如果该值大,那么这个概念为Emerging Trend,反之则为非Emerging Trend。

(2)通过衡量主题在文献集合中表现出受关注程度和有用性的增长来划分主题。Le Minh Hoang[12]在其博士论文中引用了Kontostathis对新兴研究趋势的定义,将对新兴研究趋势的判断过程分为三个部分:Topic Representation(主题描述)、Topic Identification(主题界定)、Topic Verfication(主题判断)。在Kontostathis的基础上加入了关注主体(研究人员、研究机构、文献来源等)的权威性的考虑。他赋予每个主题6个属性值,如表1所示。根据这6个属性值来衡量每个主题的受关注程度以及有用性,受关注程度为每个主题属性值1,3,5,6的平均值,有用性的衡量为每个主题属性值2,4,5,6的平均值。这6个属性值一部分来源于文献计量学的统计结果(如t[k,i](1),t[k,i](3),t[k,i](5)),一部分来源于通过数据挖掘方法来从文献语义内容角度进行计算(如t[k,i](2),t[k,i](4))。根据受关注程度和有用性衡量值的大小将主题进行分类:受关注程度和有用性的衡量值均大于0为新兴研究趋势(Emerging Trends);受关注程度大于0而有用性小于等于0则为潜在的新兴研究趋势(Potentially Emerging Trends);受关注程度小于等于0而有用性大于0则为不显著但对研究有用的趋势(Creative Trends);受关注程度和有用性的衡量值均小于等于0为陈旧的趋势(Obsolete Trends)。

2.3 当前研究存在的问题

当前对具体研究领域中研究趋势判断大都集中在对科技文献的分析上,在此基础上提出研究趋势的判断方法或模型。采用共词分析、词频统计、引文分析以及文献来源地的声望衡量等方法,监测文献集合在不同统计特征项上随时间发生的变化,以此来探测研究趋势。笔者认为当前对于研究趋势判断的研究中存在着以下一些问题:

(1)主题领域的界定局限于词频和词共现方法,没有从语义角度来聚类关键词形成主题领域。主题界定是研究趋势判断中第一个也是最重要的一个步骤,无论是ESI采用的从高频引文文献簇中抽取关键词组的方法,还是HDDI的基于语义局部性思想来界定研究主题,其基本理念都是基于高频词和词共现的理论,将论文多次提及的关键词或者共现强度较高的关键词聚类为同一个研究主题,然后在此基础上判断主题是否为研究趋势。词频和词共现的方法都是从关键词在论文中出现的次数以及与其他关键词共现强度这种表面联系来确定主题,从而忽视了关键词的语义含义以及在上下文中的含义,容易形成泛义的主题。

(2)数据来源单一,没有形成全面的评价指标体系,不能从多方面展现主题特征。从上文分析研究趋势所具有的特点来看,代表研究趋势的一组主题词簇之所以能够称为某个学科领域中的研究热点,是从多个方面来反映的,而不是仅仅限于在文献集合中的表现。对研究趋势的判断需要结合多种资源从多方面、多角度来进行综合的评判,通过一体化的评价指标体系,来完成某个具体学科领域的研究主题特征展现,为最终的主题评价提供依据。

(3)评价标准不一。目前有多个研究机构和学者从不同的角度来制定评价标准对研究趋势进行判定。大部分都是采用的文献计量学指标,但各有侧重,统计的方法也各式各样。

3 判断新兴研究趋势的技术框架

通过对新兴研究趋势的概念和判断方法的调研,针对目前存在的问题,笔者基于医学领域的资源,提出了判断医学领域新兴研究趋势的技术框架,如下页列图所示。

(1)主题领域界定。首先应明确主题领域的概念。笔者认为主题领域应是包含一组具有强文本表示功能的特征关键词。所谓强文本表示功能是指“在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来”[13]。基于这样的理解,要利用计算机自动从文本集合中挖掘出主题领域应采用基于语义的挖掘方法。从文档集合中抽取出文章重点讨论的专业关键词,涵盖UMLS(Unified Medical Language System,医学一体化语言系统)中包括的关键词以及没有包括在内但有实际意义的关键词。通过关键词所在位置、文本长度等来统计关键词的加权词频,挑选出前200个关键词进行关联聚类。关联聚类是通过关键词之间在文献集合中的共现强度以及在分类词表中相互关联关系来进行聚类的,形成n个重点主题领域,以备后续的主题领域特征表现和是否为新兴趋势的判断。

判断医学领域新兴研究趋势的技术框架示意图

(2)主题领域特征表现。综合分析新兴研究主题和研究较成熟主题在各个方面表现出的特点,并借鉴其他新兴研究趋势判断项目所采用的评价指标和方法,笔者从中归纳出评价某些主题是否为新兴研究趋势的指标,并对这些指标进行进一步的抽象和划分。根据评价指标体系,利用文本挖掘技术挖掘出主题领域在这些指标属性上所表现的特征。笔者认为新兴研究趋势的表现特点不应只局限在文献计量特征方面,如国家政策、基金支持、专利技术、研究机构的网站等都可以反映当前的研究趋势。一个研究主题要成为当前的研究趋势,是有着各种各样的因素的,应从全面的角度来考虑新兴研究趋势的特征。这就需要调研某个学科领域的研究主题在各个方面的表现特点,并将这些表现特点通过数学方法进行归纳总结。表2展现的是笔者通过研究新兴研究趋势的表现特点拟定的评价指标体系。

(3)主题判定。该部分是对以上两个部分得到的主题领域及其在评价指标体系上的表现特征进行的综合判断。一个主题领域的研究情况是随着时间发生着动态变化的,要进行研究趋势的判断就需要对评价指标的时间序列进行分析,综合评价指标体系中的各项指标,对其进行抽象,归纳为主题领域的表现特征。依据主题领域的各项表现特征在时间序列上的变化,通过时间序列的数学模型进行综合判断。根据每个主题领域在每个特征指标上的不同表现情况,将候选主题领域划分为新兴研究主题、成熟研究主题、潜在新兴研究主题。新兴研究主题的特征是研究时间短、各项评价指标均呈现增长趋势;成熟的研究主题的特征是研究时间较长、各项指标呈现低水平稳定增长或部分指标出现下降趋势;潜在的新兴研究主题的特征是研究时间短、研究活跃度包括的各项指标呈现增长趋势但其他指标增长不明显。

4 结语

进行新兴研究趋势的主动挖掘和判断是一个复杂的处理过程,需要综合运用文本挖掘技术、文献计量学、网络计量学、时间序列分析等多种方法,多角度、多层次来综合判断某一个具体学科领域的新兴研究趋势。笔者以医学领域的信息资源为基础,设计了基于医学领域新兴研究趋势挖掘和判断的技术框架,为新兴研究趋势的判断提供一条行之有效的途径。

(收稿日期:2007-11-12)

标签:;  

判断新研究趋势的技术框架研究_关键词分类论文
下载Doc文档

猜你喜欢