知识发现视角下的文献量化:荟萃分析框架论文

知识发现视角下的文献量化:荟萃分析框架 *

张孜铭1 刘 向1曾培春2

(1.华中师范大学信息管理学院 武汉 430079;2.华中师范大学经济与工商管理学院 武汉 430079)

摘 要: [目的/意义] 针对科研人员对于定量文献综述的需求,解决传统荟萃分析缺乏对具体情境的适应性问题,为历史文献的知识发现提供一种实践性强的应用框架。[方法/过程] 通过将荟萃分析与系统量化文献综述方法有机结合,并辅之以数据挖掘相关方法,建立了一种历史文献的量化-荟萃分析框架,并以计划行为理论模型相关文献为实例进行研究。[结果/结论] 结果发现该框架在定量文献综述方面有诸多优势和广泛的应用场景,可以从不同角度实现知识挖掘与知识发现。

关键词: 荟萃分析;知识发现;SQLR;数据挖掘;TF-IDF

随着互联网与科学技术的发展,专业和学术信息急剧增长,科研人员面临着“信息过载”的困境[1],各领域研究人员受到时间和资源的限制不能全面及时的掌握研究对象的相关信息,普遍存在着对于原始文献综合分析方法的需求,这一需求在进行某一主题下的“知识发现”情境中尤其突出。要想从海量异构的历史文献中结合具体情境实现知识发现,需要引入先进的技术手段,将文献资源进行定量描述分析,揭示各类文献知识节点间内容的、形式的多重关联,实现文献知识内容的立体化[2]

荟萃分析是解决这一问题的经典文献定量分析方法,它可以对某一特定主题下的文献进行系统化的分析与评价[3],此方法被广泛的运用在医学研究领域。同时,荟萃分析方法还具有良好的领域移植能力,在其他自然科学领域的跨学科研究中也有着广泛应用[4],近年来,被引入到图书情报领域用于成果集成和文献评价[5]。然而,作为原生的自然领域研究方法,它依赖于原始文献规范化、结构化的实验步骤进行量化指标的提取,并对同一领域内具有争议性的研究问题进行分析整合,找到该问题的主流研究结论。但在图情领域这样的社会科学范畴,一致性往往与研究情境强相关,传统的荟萃分析欠缺对这种适用情境的考量,使其无法在偏倚结果中找到某一结论在不同情境下的内在一致性,也无法发现一致性结果背后所存在的情境差异性,大大压缩了荟萃分析的适用范围,而这对于知识发现又是十分必要。因此,若想将荟萃分析引入图情领域,从方法本身改进的角度入手较为困难。故本文不准备讨论如何改进传统荟萃分析方法,转而将着眼点聚焦于这一方法与其他方法的组合使用,利用其他方法的优势对传统荟萃分析的内在缺陷加以弥补。具体而言,本文在荟萃分析的基础上结合量化文献综述(Systematic Quantitative Literature Review,SQLR) [6]和数据挖掘的思想,提出了一种具有情境适应性的量化-荟萃分析框架,促进对于历史文献的知识发现。

1研究综述

1.1基于文献的知识发现 基于文献的知识发现起源于Swandon教授构建的“基于非相关文献的知识发现方法”[7],后续与“共词”“共引”相关研究加以融合,这一概念才得以正式提出[8]。数十年的发展后,基于文献的知识发现也不在局限于某一个或一组特定的信息计量方法,而逐渐发展为一个研究体系。知识发现视角下,研究者需要从海量高度分化的文献中挖掘出隐含关联的问题,其本质是利用应用词频、短语、概念、概念词频等文献内容信息,借助数据挖掘相关方法完成隐性知识的显性化[9]。文献与文献之间,也不再被看做零散的存在,而是相互联系的知识单元,需要结合实际需求发现关联点和分化点,以实现知识的集成[10]。目前,这一方向研究的关注点有三:a.文献知识内容的量化。需要找到一种具有一定通用性的文献量化指标的提取方法。b.科学的推断计量方法。该方法需要建立在严格的数理基础和相关背景支撑,以求关联建立的严谨性。c.情境的适用性。量化指标的提取、计量方法的使用都需要为具体研究情境服务。本文所提出的量化-荟萃分析框架也主要是针对这三点提出的。

1.2荟萃分析应用发展 “荟萃分析”又称“元分析”,该方法于1976年被提出[11],它基于Fisher关于合并多个假设检验p值的研究[12],是一种利用统计学技术对历史文献的统计量进行合并的方法。该方法提出之初是为了辅助临床决策,解决循证医学中样本不足导致的统计效能较低的问题,后被广泛应用在医学领域当中。如在医学领域顶级期刊《柳叶刀》中,Min Jun等人运用其分析了贝特类药物对于心血管的影响[13],Rey等人运用荟萃分析分析了血栓性紊乱和胎儿流产中关系[14]。荟萃分析的开展需要大量存在定量化规范化指标的文献,故很容易将这种方法推广到其他依赖于实验,具有统一情境的自然科学领域,但在研究情境多样化的社会领域一直应用困难。为突破这一困境,Schmidt等人将关注点聚焦到实证类文章中,大量文献在研究同一问题时应用了结构方程模型,模型的理论来源多为某一经典模型的变体,并且存在可以体现效应值的量化指标,提出了此类文献的一般荟萃分析步骤[15]。这一步骤体系在综合组织内部和组织间的知识转移[16],创业导向对企业绩效的影响[17]等企业管理方面相关文献上取得了很好的效果。除此之外,该方法在图情领域的应用近年来也有了较大发展,据统计,截止2013年,共计有外文文献54篇,中文文献9篇[18]在文献研究中应用了荟萃分析,近几年整体增长也一直保持上升趋势,但推进速度较慢,推进缓慢的原因主要在于荟萃分析的实施依赖于历史文献研究报告方式的一致性[19],许多学者受限于研究的具体情境、文献的测量工具、数据处理方式、研究设计、测量工具、衡量标准等方面的不同或文献样本较过少而难以完成严格意义上的荟萃分析[5]。就以该方法在图情领域的主要研究成果来看,荟萃分析的主要适用情境还是集中在Schmidt等人的体系标准下对于结构方程模型相关的实证文章的研究,许多学者应用此方法对信息系统持续使用模型[20]、信息技术接受模型[21]、信息系统成功模型[22]等图情领域相关的经典模型的文献进行了分析。此外,荟萃分析还可以应用于历史文献的知识发现[23],通过与数据挖掘的相关技术结合,能实现对某一研究问题的知识挖掘。但就现有发展来看,这一研究方向的主要困难在于缺少在大环境下对领域知识发现的宏观流程把握。

1.3量化文献综述与知识发现 量化文献综述是一种系统识别文献、提取文献信息主要信息并进行量化分析的方法,该方法能够有效辅助传统荟萃分析方法[6]。该方法在以往研究实践中被证明可以大大方便研究人员从历史文献中发现知识[24]。这种方法弥补了传统荟萃分析方法的一些缺陷,如对于文献的基础分析数量的要求相对较低,同时能将文献内容上的一些其他指标进行量化分析,更易结合不同的实际情境进行知识发现。例如,Busalim利用SQLR方法研究了社交商务,发现用户行为和网站设计是当今社交商务关注的重心,并指明了该问题的未来研究方向[25]; Kim等人利用该方法研究了志愿者管理的问题,发现了影响志愿者保留和离开的主要因素[26]; Riebe用这种方法进行高等教育团队中团队合作教学法的应用,从教育学和交易成本两个角度解决了团队合作教学法的影响因素[27]。从实践视角看,如果把采用SQLR方法进行组织的文献集合看做一个知识库,对这个知识库进行数据挖掘的过程也是知识发现的过程[28],例如可以将SQLR方法与关联规则相结合,完成网站内容质量的综合评价[29]。因此,本文试图创立一种适用于非一致情境的文献研究通用性框架,将SQLR方法和荟萃分析方法加以结合,并辅之以数据挖掘相关算法,以实现对历史文献的知识挖掘与知识发现。

2研究框架

2.1研究思路 根据Kitchenham等人总结的SQLR方法的工作流和文献[14-17]中有关社会科学领域的荟萃分析一般步骤[30],结合知识发现任务的实际需要,本文将研究过程总结为:准备、实施、分析三个阶段,图1所示为各阶段划分与该阶段主要工作。准备阶段主要完成选题、文献检索和筛选以及文献评价工作,该阶段需要根据研究的问题定义明确的研究目标,确定研究对象,建立研究规范体系和确定文献纳入方向,从而构建文献检索策略,根据策略检索到初始文献集后进行筛选与评价工作,该阶段的输出是一个精简后的文献集合。在实施阶段,为了解决传统荟萃分析仅能处理不一致结果的相关文献的问题,本文选用Fisher的P值合并方法[8]进行一致性检验作为后续分析的前置工作,根据检验结果决定后续分析是采用以荟萃分析或者SQLR为主体的方法步骤,该阶段的指标选取思路采用[15]对于统计量的处理方式。上一阶段输出得到的文献一致性或偏移性结果集合与权重指标作为最后分析阶段的输入,据此决定各文献的优先级并提取出内容指标进行量化,将数据挖掘的方法加以应用,从而实现对历史文献的知识发现。

2.2文献检索与筛选 在确定完研究问题与方向后,构建研究问题方向相关关键词库,提取出有利于检索的关键词中英文形式,并构造检索式。构造完检索式,根据实际需求,在中文数据库知网、万方、维普等或在外文数据库ScienceDirect、Springer、EBSCO等中进行检索,得到初始文献集合。对于初始文献集合,针对该研究问题对于文献时效、文献类型等进行文献初筛,使得选取文献更好的适应于研究问题。根据初筛结果,整理出初筛文献的质量信息库,然后根据文献质量相关指标进行评价与筛选,该步骤一方面用于提高入选分析的文献质量,另一方面可以通过设定文献质量阈值有效控制文献数量,使得最终得到的文献集合便于分析方法的应用。最终得到的精选文献集合用于实施阶段的文献分析,文献检索与筛选流程如图2所示。

其中r i 为转化为Z 系数后的效应值,k 为总体内包含的样本效应值的个数,为平均效应值,设定能接受的最小效应值r c ,据此可以计算失效安全系数,公式如下:

图 1量化 -荟萃分析框架整体思路

图 2文献检索与筛选步骤

2.3指标提取与一致性检验 对于经过文献筛选过的精选文献集合,需要从中提取出可以被量化的统计指标,对于带有统计数据的文献的共有性指标一般有r 值和p 值。对于没有记录r值的文献可以仅统计相关性的变量关系的定性分析。在描述性分析中,完整呈现论文作者、文献发表时间、研究对象、样本数量、以及各影响因素之间的关系[20-22]

对于文献的质量与评价,可以参考Busalim[24]的文献评价表格,根据实际的需求从不同的质量维度选择指标对文献进行评价,根据每个表项的符合程度,总体表项的符合多少来确定最终纳入文献,常用的评价指标如表1所示。

表 1文献质量评价指标

由于传统荟萃分析方法得以实行的重要前提是,各文献结论之间不存在一致性,所以需要对文献进行一致性检验。这种一致性是指:在给定显著性水平下,针对同一研究对象,可以认为各文献中反映研究结论的统计量之间的差异仅由随机误差造成。这种一致性检验一般通过合并各研究结论的p 值后进行假设检验加以实现。部分文献中可能并未出现p 值数据,但是有t 值、z 值或F 值等数据,此时有两种处理方法,一种是将各统计量转换成p 值采用Fisher法进行合并(式1),另一种是采用Stouffer法(式2)对多种统计量采用统一的u值进行合并[31],具体公式如下:

2016年5月16日,国家发改委、国家能源局等八部委联合印发了《关于推动电能替代的指导意见》(发改委能源〔2016〕1 054号),指出电能替代技术作为解决空气污染、促进我国能源革命和供给侧结构性改革的一种重要措施和技术,具有至关重要的地位,成为我国能源发展战略。相关电力、能源发展报告中也提出提高电力消费占终端能源消费比重以及增加电能作为二次能源的使用量。

当停站时间不包含司机确认信号的时间时,十陵站、成都大学站的停站时间可由30 s缩短至25 s,追踪间隔也可在优化紧急制动距离的基础上进一步降低至73 s,如图7所示。

χ 2=-2∑ln(p i ),i =1,2,…,g v =2g

(1)

其中,g 为研究数量,v 是自由度,p i 是每篇文献中研究对象所对应的p 值。合并完p 值后对照统计表可以得到文献统计结果的一致性。

进行地铁项目建设过程中,通常情况下只关注混凝土自身的防水性和抗压强度,在防水措施上有所忽视。如果只是一味地靠混凝土的防水性能,不但起不到防水的效果,同时混凝土在强度上用量上就会有所增加,与此同时,增加混凝土的用量就会导致水化热的发生,给混凝土带来严重的损坏,最后混凝土会有裂缝,造成水的渗漏情况。

完成分词的预处理后,对于知识发现很重要的一点是根据词频和权重信息确定文献的优先级排序[34]。由一致性检验步骤中从各文献提取出的变量关系值,便可结合实际需求确定文献选择的优先级,找到优先级文献中的关键词,建立倒排索引后,计算每个词在每个文档中的TF-IDF值[35],其表达式如下:

Fisher法对于一致性反映的合理之处在于,它移除了各研究中样本量差异对研究结果的影响,并根据总自由度适当扩充了对于随机误差的容纳度,并将分散的统计量合并为一个特定的统计量,使之能在统一的显著性水平下进行假设检验。

(2)

通过上述平台,一方面完成对高校图书馆学术信息资源的存储;另一方面完成对学术信息资源的挖掘。通过这种海量挖掘的方式,并结合各种挖掘算法,进而完成对高校图书馆学术资源的共享。

(3)

2.4量化 -荟萃分析过程 对于上述结果中检验不一致的文献,参照在社会科学领域应用的传统荟萃分析方法进行检验,可以参照Schmidt等人的方法完成后续分析步骤[15]。对于研究结果同质性很强的文献,此时进行荟萃分析的价值不大,但是可以对其内容参照SQLR方法进行量化分析。

除SQLR方法外,引文分析等传统文献计量方法进行后续分析从理论上也是可行的,但与荟萃分析的结合性不如SQLR方法,SQLR方法具有以下几个显著优势:a.荟萃分析方法对于文献资料的预处理步骤与SQLR相合,使用SQLR方法从实操上来说更加便利。b.SQLR方法与知识发现任务的耦合性更好。c.SQLR方法更能弥补荟萃分析方法的缺陷,反映出特定研究对象在文献整体一致性背后的情境差异性。

为进行后续量化分析,提取文中的有效内容,首先需要对文献进行分词并去除停用词,在选择好分词词典后,如果用Freq (X )表示X 的词频,Total 表示词典中的词频总数,则分词的概率准则为

(4)

在检验完文献结果本身的一致性后,还可以计算失效安全系数[32]来衡量这些文献整体的一致性受发表偏倚的影响程度,研究结果越稳定时该值越大,可信度越高,反之结论可能存在偏倚。首先,需要提取各文献中的相关系数作为效应值,然后把相关系数转化为Fisher的Z系数,这样做的目的是把效应值分布转化为渐进正态分布简化计算[33],再计算平均效应值。计算时需要将抽样标准误的平方倒数作为权重,对Z系数进行加权平均,公式如下:

TF -IDF ij =TF ij ·IDF ij

(5)

(6)

(7)

上式中TF -IDF ij 表示第i个关键词在第j篇文献中的TF-IDF值,word i 表示选择的第i个关键词,literature j 表示第j篇文献,|Literatures |表示文献集合中的文献总数量,Freq (word i ∈literature j )表示第i个关键词在第j篇文献中的词频。在提取出各关键词的指标后,每一篇文献就对应着一个关键词TF-IDF值向量,该向量为这篇文献的特征向量,这也就完成了文献指标的基本量化工作,根据其特征向量可以进行相应的分析与数据挖掘和知识发现。

根据公式(3),将各因子对方差解释力作为权重对两个因子进行加权,可得企业价值共创体系价值创造能力综合性指标评价值:

数据挖掘是对文献集合进行知识发现的重要措施[28],它可以从大量数据中自动发现有用的知识与先前未知的有用模式[36]。根据前文步骤中提取到的量化结果识别模式的主要方法有关联分析和聚类分析两种方式。关联分析主要是通过建立关联规则,结合Apriori算法,找到各文档关键词之间和文献之间的内在关联,识别出有用模式,可以指导后续研究的开展设计,发现对领域知识组织结构的有用信息,进而实现知识发现[37],例如文献[29]中,通过提取出网站内容中的关键词,发掘关键词之间的潜在关联,实现对网站的评价。相较于被广泛应用于内容评价的关联分析,聚类分析方法很少有研究涉及,其重要原因在于很难对文献的内容进行量化。但是,在量化-荟萃分析框架的前置分析步骤中,已经完成文献内容的量化工作,直接就能进行聚类。应用聚类分析则可以对各文献的主题进行自动化的分组,发现其内在联系,通过聚类往往可以发现某一研究领域下存在哪些研究范式,哪些热点话题,研究的组成有哪些特征,得出的结果可以指导文献组织与管理、文献划集与分类、文献标引等工作。聚类算法的选择需要结合提取出的数据分布情况来进行选择,总体目标是使得同一文献集群内文献量化特征差别尽可能的小,不同集群间差别尽可能大,已便找到某一领域在某些情境下的共有特征,或者同一领域在部分情境下的独特特征。

3实例研究

根据计划行为理论模型的常用简称,在多次实验后,本文选取检索式为“计划行为理论”OR“计划行为模型”OR“TPB”OR“Theory of Planned Behavior”在最大的中文文献数据库知网(CNKI)中进行检索,得到3 319条记录,筛除掉外文文献,时间节点不在2014年的文献有1 803篇。因文献数量较大,为方便实例统计分析,此处设定高域值的文献质量指标,去除文献所在期刊影响因子<0.8的文献,剩余 51篇,再去除理论性的文章和没有统计数据指标的文章,最终得到24篇。因r值缺失较多,根据其相关性进行变量关系分析得表2。

图 3计划行为理论模型

根据上述研究框架,本文选取计划行为理论(Theory of Planned Behavior,TPB)模型,研究该模型在中国的文献内的5年应用情况,该方法由Icek Ajzen提出[38],并被广泛的应用于用户行为的实证研究当中。该模型的主体由4个部分组成,即行为态度(AB),行为规范(SN),知觉行为控制(PBC),行为意愿(BI)组成,他们之间的关系如图3所示。

表 2精选文献集中的变量关系

续表 2精选文献集中的变量关系

根据上表可以发现基本上所有模型都发现AB-BI、SN-BI、PBC-BI都具有显著性,但是对于SN-AB,PBC-AB,SN-PBC的关系,少部分文献得出的结论并不显著。总体上个变量之间的相关关系表现为一种一致性。再对p值进行描述性统计得表3。

表 3精选文献集的描述性统计

得出上表结果后,可以发现,各文献变量之间关系的样本数量充足,除SN-PBC的变量关系存在最大值和最小值都是0的状况,其他统计结果和前面一样具有两级分化特征,变现为p值的最小值都为0或者接近于0,而p值的最大值可达0.4519。但是后续需要通过对各文献的 p值采用Fisher法进行合并检验后确定是否一致,检验结果如表4所示。

科研绩效评价方面:第一,考核指标的权重分配是难点,权重的分配影响评价结果的准确性。第二,研究方法一般为定性分析或简单定量研究,在数学模型基础上展开绩效评价的研究相对较少,在模型分析结果的基础上展开对策研究的也不多见。第三,已有研究大多集中在高校科研传统管理模式上,针对科研经费管理系统平台的绩效评价模块研究较少。如何在科研经费管理系统的大数据环境下,逐步建立起合理准确的评价体系模块也是本课题的研究重点。

表 4p值合并检验

注:***表示在0.005水平下显著

根据表4结果所示,各变量关系均具有显著性,同时选取0.1作为可以接受的最小效应值指标可以得到整体的失效安全系数为:194.0853,说明研究结果表现为高度的一致性,且这种一致性趋势的可靠性很高,故而选取量化分析方法作为后续分析方法。根据各文献变量的显著性情况,结合文献内容进行详细分析,可以提取一些具有共性的关键词,以共现性的反映具体对象的实词计算TF-IDF值。本文采用Python的jieba分词库在去除停用词后进行分词,根据得到的结果,选取了“心理”“消费者”“服务”“收益”“情绪”“体验”,部分TF-IDF值的结果如表5所示。

由各文献的TF-IDF分布可以知道文献所含有的关键词可能含有一定集群性特征,所以本文选取K-means[39]进行聚类,基本原则是将相近的数据尽量归为一类,而不同类的数据尽量有较大的差别。本文首先根据SSE的变化趋势确定K-means的聚类数量,观察图4曲线的SSE可知,当聚类数量为5时,曲线降低趋势逐渐趋向于平缓,因此确定K-means的聚类数量为5。为更清晰表述结果,将实施K-means聚类后的结果绘制如图5的示意图,据此我们可以发现一些有特色的研究,以及文献的集群性特征。文献所含的关键词确实展现出一定程度的聚类效果,其中出现了一个大量文献集聚的集群,以及2个明显分离的由单文献构成的集群。分离性的集群是具有某种个性化特征的文献,而具有集聚起来的文献集群则可以体现这一领域文献的共性特征,具体的文献编号见表2所示。例如,图中的文献集中分布区,该区域从内容上大多探讨某一场景下的用户意愿或者用户行为问题,而明显分离的17号文献和10号文献将这一理论应用于众包机理研究和生态治理研究,十分有新意,在具体操作中,需要结合研究目的、情境来提取结果中最有趣的模式。

表 5部分文献选取关键词 TF-IDF值描述统计

图 4TF-IDF值的 SSE

图 5K-means聚类结果示意

4结 论

本文从对历史文献进行定量整合的实际需求出发,探讨了定量文献综述的经典方法荟萃分析在情境适应性上的缺陷,将其与SQLR方法进行结合,提出一种全新的量化-荟萃分析框架,能够充分反映研究主题下的情境,结合数据挖掘的相关方法,可以实现知识挖掘与知识发现。并在文后通过TPB模型的研究为实例,演示了该框架的应用过程。该框架将荟萃分析、SQLR方法和数据挖掘相结合,实现一种优势互补,形成了理论创新。且这一应用框架具有良好的通用性,具备着移植到其他领域的可能性,在文献综述、文献计量、知识管理方面都有广泛的应用潜力。然而,该框架虽然降低了传统荟萃分析对文献规范化定量数据的要求,引入了TF-IDF这样在绝大多数文献中可量化的指标,但在一致性分析阶段依然需要使用到文献中涉及的统计量,故而不能用于处理一致性未知情况下定性文献的处理。结构方程一类的实证文章的综合分析依然是最佳适用对象,但也可以用于其他有明确统计量的文献。未来工作中将研究如何将纯定性文献也纳入这一研究体系中来。

美国的粮食并没有贱卖,美国拥有世界最高的劳动生产率,当然也拥有最低的粮食成本。2015年美国小麦为240美元每吨,按2015年汇率计算,大约1.2元每公斤,同期国内市场小麦最低收购价格为1.18元每公斤。考虑美国的粮食到岸价格包含了运输费和关税,但没有低得离谱,不能说低价卖粮。从美国进口的大豆便宜,在价格上形成压倒性优势,同时从美国进口的转基因大豆出油率为21%~23%,而中国生产的大豆的出油率只有19%左右,所以美国很希望能够向中国倾销其大量的农产品,通过农产品来保持美中贸易逆差的缩小。

教师应意识到,生物学习的目的不能局限于考试成绩,而是学生能够将所学到的生物知识应用到生活实际,更好的服务于生活,开展生活课外活动就是将生物知识与实际生活有效结合的重要方式.在紧张、高压的高中学习氛围下,开展生物课外活动,不但能放松学生的心情,还能使学生在清新的氛围有效的进行互动,获取新的生物知识.

参考文献

[1] Bawden D,Robinson L.The dark side of information:Overload,anxiety and other paradoxes and pathologies[J].Journal of Information Science,2009,35(2):180-191

[2] 刘江玲.面向大数据的知识发现系统研究[J].情报科学,2014(3):90-92.

[3] Moher D,Liberati A,Tetzlaff J,et al.Preferred reporting items for systematic reviews and meta-analyses:The PRISMA statement[J].Plos Medicine,2009,6(7):e1000097.

[4] Goodman J E,Boyce C P,Sax S N, et al.Rethinking meta-analysis:Applications for air pollution data beyond[J].Risk Analysis,2015,35(6) :1017-1039.

[5] 玉 敏,曲建升.Meta分析在成果集成研究中的应用与发展[J].情报杂志,2017(12):67-72.

[6] Griffith.Systematic quantitative literature review [EB/OL].(2019-01-02).https://www.griffith.edu.au/griffith-sciences/school-environment-science/research/systematic-quantitative-literature-review?tdsourcetag=s_pcqq_aiomsg.

[7] Swanson D R.Undiscovered public knowledge[J].Library Quarterly,1986,56(2):103-118.

[8] Gordon M D,Lindsay R K.Toward discovery support systems:A replication,re-examination,and extension of Swanson's work on literature-based discovery of a connection between Raynaud's and fish oil[J].Journal of the Association for Information Science & Technology,1996,47(2):116-128.

[9] 安新颖,冷伏海.基于非相关文献的知识发现原理研究[J].情报学报,2006,25(1).

[10] 吴常青.知识集成与基于非相关文献的知识发现法[J].情报杂志,2007,26(11):32-34.

[11] Glass G V.Primary,secondary,and meta-analysis of research[J].Educational Researcher,1976,5(10):3-8.

[12] Fisher R A.012:A mathematical examination of the methods of determining the accuracy of an observation by the mean error,and by the mean square error[J].Monthly Notices of the Royal Astronomical Society,1920,80:758-770.

[13] Jun M,Foote C,Lv J,et al.Effects of fibrates on cardiovascular outcomes:A systematic review and meta-analysis.[J].Lancet,2010,376(9746):1051-1052.

[14] Rey E,Kahn S R ,Michèle David,et al.Thrombophilic disorders and fetal loss:a meta-analysis[J].Lancet,2003,361(9361):0-908.

[15] Schmidt F L,Hunter J E.Methods of meta-analysis:Correcting error and bias in research findings[J].Evaluation & Program Planning,2006,29(3):236-237.

[16] Raymond van Wijk,Jansen J J P,Lyles M A.组织间和组织内知识转移:对其前因后果的元分析及评估[J].管理世界,2012(4):159-168.

[17] 张 骁,胡丽娜.创业导向对企业绩效影响关系的边界条件研究——基于元分析技术的探索[J].管理世界,2013(6):99-110.

[18] 李雪梅.元分析方法与图书情报学[J].图书情报工作,2013,57(11):26-31.

[19] Saxton M L.Meta-analysis in library and information science:Method,history,and recommendations for reporting research[J].Library Trends,2006,55(1):158-170.

[20] 韩 啸,李 洁.基于期望确认的信息系统持续使用模型研究:一项荟萃分析[J].图书情报工作,2018(1):54-60.

[21] Legris P,Ingham J,Collerette P.Why do people use information technology?:A critical review of the technology acceptance model[J].Information & Management,2003,40(3):191-204.

[22] 韩 啸,黄剑锋.信息系统成功模型的荟萃分析:基于国内十年研究文献[J].图书馆论坛,2019.

[23] 刘红煦,曲建升.主流Meta分析软件功能及其在领域知识发现的拓展应用研究[J].数据分析与知识发现,2016,32(5).

[24] Pickering C,Byrne J.The benefits of publishing systematic quantitative literature reviews for PhD candidates and other early-career researchers[J].Higher Education Research & Development,2014,33(3):534-548.

[25] Busalim A H,Hussin A R C.Understanding social commerce:A systematic literature review and directions for further research[J].International Journal of Information Management,2016,36(6):1075-1088.

[26] Kim E,Cuskelly G.A systematic quantitative review of volunteer management in events[J].Event Management,2017,21(1):83-100.

[27] Riebe L,Girardi A,Whitsed C.A systematic literature review of teamwork pedagogy in higher education[J].Small Group Research,2016,47(6).

[28] Fayyad U.Knowledge discovery in databases:An overview[C]// International Workshop on Inductive Logic Programming.1997.

[29] Rekik R,Kallel I,Casillas J,et al.Assessing web sites quality:A systematic literature review by text and association rules mining[J].International Journal of Information Management,2018,38(1):201-216.

[30] Kitchenham B A,Charters S,Kitchenham B,Guidelines for performing systematic literature reviews in software engineering.EBSE Technical Report EBSE-2007-01[C]// Icse.IEEE Computer Society,2007.

[31] Lee S,Gonçalo R Abecasis,Boehnke M,et al.Rare-variant association analysis:Study designs and statistical tests[J].American Journal of Human Genetics,2014,95(1):5-23.

[32] Orwin R G.A Fail-safe n for effect size in meta-Analysis[J].Journal of Educational Statistics,1983,8(2):157-159.

[33] Rosenthal R.Parametric measures of effect size.[J].The Handbook of Research Synthesis,1994,231-241.

[34] 张云秋,郭柯磊.基于双向词频统计的非相关文献知识发现排序方法研究[J].情报科学,2009,27(8):1240-1244.

[35] Wen A,Lin W,Ma Y,et al.News event evolution model based on the reading willingness and modified TF-IDF formula[J].Journal of High Speed Networks,2017,23(1):33-47.

[36] Tan P N.Introduction to data mining[M].New Jersey :Addison Wesley,2007:2-7.

[37] 高劲松,李迎迎,刘 龙,等.基于关联数据的知识发现模型构建研究[J].情报科学,2016,34(6):10-13.

[38] Ajzen I.From intentions to actions:A theory of planned behavior[M].Action Control.Berlin:Springer,1985:11-39.

[39] Hartigan J A,Wong M A.Algorithm AS 136:A k-means clustering algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.

Document Quantification from the Perspective of Knowledge Discovery Quantification -meta -analysis Framework

Zhang Ziming1 Liu Xiang1 Zeng Peichun2

(1.Central China Normal University,School of Information Management,Wuhan 430079;2.Central China Normal University,School of Economics and Business Administration,Wuhan 430079)

Abstract :[Purpose /Significance ]In order to fit the needs of scientific researchers for quantitative literature review and make the meta-analysis adapt to the specific situation,this paper provides a practical application framework for knowledge discovery of historical literatures.[Method /Process ]This paper establishes a quantification- meta-analysis framework for literature by combining meta-analysis with systematic quantitative literature review methods and data mining.The theoretical model of planned behavior was chosen to perform how to use this framework as an instance.[Result /Conclusion ]The results show that the framework has many advantages and extensive application scenarios in quantitative literature review,which can realize knowledge mining and knowledge discovery from different angles.

Key words :meta-analysis;knowledge discovery;SQLR;data mining;TF-IDF

收稿日期: 2019-03-11

修回日期: 2019-04-26

基金项目: 国家自然科学基金项目“专利引证网络中创新节点的浮现与长期演化研究”(编号: 71673106);中央高校基本科研业务费项目“基于专利网络的发明演进路径研究”(编号: CCNU19QN025)的研究成果之一。

作者简介: 张孜铭 (ORCID:0000-0002-3341-5574),男,1998年,研究方向:数据挖掘与知识发现;刘 向 (ORCID:0000-0003-4315-2699),男,1983年生,博士,副教授,研究方向:知识网络与知识演化;曾培春 (ORCID:0000-0002-4324-0691),女,1997年生,研究方向:应用经济学。

通信作者: 张孜铭

中图分类号: G256

文献标识码: A

文章编号: 1002-1965( 2019) 09-0150-08

引用格式: 张孜铭,刘 向,曾培春.知识发现视角下的文献量化:荟萃分析框架[J].情报杂志,2019,38(9):150-157.

DOI :10.3969/j.issn.1002-1965.2019.09.023

(责编/校对:贺小利)

标签:;  ;  ;  ;  ;  ;  ;  

知识发现视角下的文献量化:荟萃分析框架论文
下载Doc文档

猜你喜欢