考虑全局和局部信息的科研人员科研行为立体精准画像构建方法论文

考虑全局和局部信息的科研人员科研行为立体精准画像构建方法

张亚楠,黄晶丽,王 刚

(合肥工业大学管理学院,合肥 230009)

摘 要 通过为科研人员构建科研行为画像,科研人员能够便捷地使用各种个性化科研服务,促进科研人员提高科研效率。已有的研究往往将画像问题简单地抽象为多分类问题,没有考虑到信息的充分利用和画像更新问题。为此,本研究提出了一种考虑全局和局部信息的科研人员科研行为画像方法,引入深度学习方法,借助深度学习自动从数据中提取高度抽象特征的特点,提取科研人员局部画像,结合全局信息构建科研人员的立体精准画像。最后,使用科研社交平台科研之友上的科研人员科研行为数据,对本研究提出的方法进行验证,证明了本研究提出方法的有效性。

关键词 科研创新;深度学习;用户画像;主题模型

1 引言

在当前我国大力促进科研创新的环境下,科研创新能力已逐渐成为社会发展的关键[1]。基于科研创新的产业改革一直是我国经济发展的核心,科研组织,如学校、科研院所等作为创新的主体,一直在科研创新进程中发挥着重要作用,同时在科研创新中,科研合作的作用也变得越来越重要[2]。随着学术研究的深入和跨学科科研方向的拓展,不同学科的科研人员将自身的科研经验、拥有的知识和各种科研资源进行共享,可以为其他科研人员的研究提供更多的思路和灵感,进而提高科研人员借助跨学科和跨领域知识进行科学研究的能力。借助跨学科和跨领域的科研合作的优势,全球范围内的科研人员都可以实现科研成果的共享和科研经验的交流。科研人员在自己的科学研究方向下与相关的科研人员进行合作能够提高知识交换和科学研究的效率,最终使得科研人员的科研效率得到很大的提升。但个人的科研兴趣、科研环境等因素每天都在发生变化,大量的科研信息和科研信息的不对称给科研人员之间的合作造成了阻碍,大量科研行为数据的存在,也给科研人员科研行为数据的分析带来了新的挑战。随着数据分析、数据挖掘等技术的不断发展,“用户画像”的概念逐渐形成,为解决上述问题提供了新的方法[3]

根据考虑的主体的不同,用户画像的方法大致可分为两类:基于个体人员产生的数据进行画像的方法和基于全局人员产生的数据进行画像的方法[4]。首先,用户画像的构建问题可以看作是一个多分类问题。科研人员在进行科学研究过程中会产生大量的科研人员行为数据,这些数据既有科研人员的属性信息也包括用户自产生的科研成果数据(如论文、专利和获奖信息等),基于这些数据去构造科研人员特征再结合已有的分类方法对科研人员的未知属性进行预测[5-7]。这些方法在进行预测时依靠科研人员自己产生的数据来提取特征,Burger等[8]提取了个体用户三个方面的特征,分别是姓名、其他静态属性信息以及推特数据(文本数据、图像数据等),基于N-gram 语言模型提取文本特征,并最终结合支持向量机、朴素贝叶斯等经典分类算法对用户的性别做预测。另一种是基于全局人员数据的画像方法。一方面,用户画像需要提取出用户的标签,但在实际应用中缺少相应的有标签数据,而为数据打上标签耗时又耗力,导致有监督学习方法在应用中的成本过大;另一方面,基于特定的数据集的画像标签预测任务提取出的特征难以迁移到其他数据集,构建出的画像方法泛化能力较弱[9]。针对这些不足,有研究人员想通过引入无监督学习方法,通过对用户群体信息的深入分析来减少对个体用户自产生数据的依赖[10-13]。Mislov 等[14]利用学生产生的社交数据和不同学生之间的关系信息,采用无监督学习的方法从中提取主题作为特征,对学生的学院进行预测。

这一年多的时间里,设计方案、技术方案中每个细节的优化,都要经过专家论证拍板。工程建设中遇到的每一个技术难题,随时请教专家现场讨论决定。盐环定扬水工程的高质量来自高标准,来自建设中的一丝不苟。

综上所述,虽然用户画像理论及相关技术已经得到了较为广泛的研究,但是进行科研合作的科研人员的用户画像具有独特性,其所面临的数据量大、数据冗余及数据动态更新等问题致使传统的用户画像方法无法完美地解决这些问题。为此,本研究提出一种同时考虑全局科研人员行为数据和个体科研人员行为数据的画像方法,通过结合无监督模型和有监督模型,利用无监督模型对全局科研人员科研行为数据进行分析,提取科研人员全局画像特征,在此基础上,利用深度学习方法能够自动从数据中提取高度抽象特征的特点,使用有监督的深度学习模型对个体科研人员的画像信息进行提取与更新。总的来说,本研究提出的方法从全局和局部两个方面出发,完成科研人员科研行为画像的构建。最后,为了验证本研究所提方法的有效性,在科研之友平台上抓取的科研人员科研行为数据集上进行实验,通过实验结果可以看出,与已有的方法相比,本研究提出的方法在使用的各项指标下都取得了较好的结果。

2 考虑全局和局部信息的科研人员科研行为立体精准画像方法

为了充分利用科研人员在科研过程中产生的行为数据,提高科研人员画像的精度。本研究将主题模型和深度学习中的长短期记忆网络引入科研人员的画像构建过程中,使用主题模型处理全局科研人员科研行为数据,使用长短期记忆网络提取科研人员局部动态变化的科研行为。接下来,本节将首先所介绍提出方法的框架,接着对每个部分进行展开介绍。

2.1 考虑全局和局部信息的科研人员科研行为立体精准画像方法框架

为了充分利用科研人员的科研行为信息,本研究利用主题模型提取科研人员全局的画像标签,再使用长短期记忆网络提取科研人员的局部画像标签权重,最后为了能够充分利用数据中的时序信息,借助长短期记忆网络在序列建模方面的优良特性,使用长短期记忆网络对科研人员画像标签进行预测,提出一种考虑全局和局部信息的画像构建方法Two Stage Persona(TSP),该方法的整体框架如图1 所示。

图1 TSP方法整体框架图

由图1 可知,本研究提出的方法主要包括两个部分。

本研究提出的科研人员科研行为立体精准画像构建方法中,首先是要根据全局科研人员科研行为的信息,构造其全局画像标签并且获得标签权重。由于全局的科研人员画像信息缺乏针对个体研究人员的画像属性变化的敏感性,无法捕捉到个体研究人员在时间维度上画像属性的变化信息。基于此,在得到科研人员全局的画像标签及权重以后,本研究提出使用长短期记忆网络(LSTM)来提取科研人员的特征标签,充分考虑科研人员的时序特征信息。

在进行实验之前需要对数据进行预处理,首先在科研之友平台上抓取每个科研人员的科研行为数据,包括论文、专利和获奖等信息等,接着提取出的论文名称、专利名称以及其他相关数据,并将这些数据抽象成文档。使用基于Python 的分词包Jieba对这些文档进行分词和去除停用词处理。在提取全局画像时,将预处理后的数据作为LDA 的输入,得到文档的主题分布以及每个主题下的主题词,将主题词作为全局画像的标签,将主题词的概率作为全局画像标签权重。在提取局部画像信息时,将每个科研人员的科研行为数据按照时间平均拆分为多份,使用L-LDA 得到每个时间段文档的标签信息,作为LSTM 的学习目标,训练LSTM 得到局部画像的权重。除此之外,在使用CNN 进行实验时,需要将每个词语转换成向量的形式,将文档抽象为图像形式,转化成二维数据进行训练。

2.2 考虑全局信息的科研人员画像构建

在当前科研创新大环境下,科研人员在进行科学研究时,为了加速研究进程或者寻找研究灵感,通常会与其他相关研究者进行合作,在合作过程中除了个体研究人员产生的成果数据,还会有其他合作者的成果数据,在合作过程中通过全面的考虑所有研究者的行为数据可以挖掘出个体研究人员的隐含特性,为了充分利用这些科研数据,本研究首先考虑利用全局信息来构建科研人员群体的画像标签,形成立体的科研人员画像。

近年来,像案例中的“谁是球王—乒乓球、羽毛球、足球”、“谁是舞王”、“广场舞”等,属于草根竞技的体育参与方式转型的范畴,即“从娱乐玩耍变为娱乐竞技”、“从边缘化组织变为有序组织”、“从个人喜好变为群众喜好”、“从观赏者变为参赛者”等,将草根们的热情一步步激发出来,使草根文化与全民健身文化联系更加紧密,保障全民健身活动可持续发展。

主题模型是一种基于概率模型的文本聚类模型,是一种无监督学习模型,由于其具有挖掘出文本中隐含主题的能力,一直受到学术界和业界的关注。经过长期的研究和发展,在基本的主题模型基础上,众多研究者提出了大量的改进模型。在生成文本时,主题模型的基本假设是,每篇文档是由多个主题构成的,各个主题在文档中占有不同的比重,同时每个主题下对应着词语的概率分布,也就是不同的词语在该主题下出现的概率大小。基于以上的假设,在生成一篇文档时,首先生成文档的主题分布,在生成的主题分布基础上再生成出文档中每个词语的分布。最终使用极大似然估计的方法,估计出其中文档关于主题的分布以及主题关于词语的分布,一般采用采样的方法来完成文档的生成。由于传统的主题模型属于无监督模型,在进行科研人员科研行为画像特征提取时,每个科研人员的主题分布可能各不相同,无法保证每个科研人员的画像特征保持一致,为此在使用传统LDA 主题模型的基础上引入了L-LDA,L-LDA 的概率模型如图2所示。

图2 L-LDA概率模型图

不同于传统的LDA 主题模型,L-LDA 是一种有监督的主题模型,在文档生成之前,每个文档都会被赋予与其相关的标签,目的是为了将主题模型得到的主题限定在所给的标签范围内。

假设所有科研人员集合为K ,每个科研人员表示为k ={1,2,3,…,K };每个用户所有时刻的科研行为数据集合为T ,每个科研人员的科研行为数据在t 时刻表示为dk ,t ={dk ,1,dk ,2,dk ,3,…,dk ,|T |};每个科研人员的画像特征权重向量在t 时刻为VGk ,t ={VGk ,1,VGk ,2,VGk ,3,…,VGk ,|T |};全局科研人员科研行为画像特征标签池为A ={a 1,a 2,a 3,…,a |N |},N 为主题词个数,也可以称为标签池大小,N ∈R 。首先考虑全局科研人员科研行为信息,将每个科研人员科研行为数据抽象为一个文档,其中每个文档代表一个科研人员所有时间的科研行为数据。针对所有科研人员科研行为数据,使用传统的LDA 主题模型,将得到主题作为所有科研人员的全局画像特征。基于全局画像特征,使用L-LDA 针对每个科研人员不同时刻t 的科研行为数据进行训练,得到个体科研人员在t 时刻的全局画像特征权重向量。具体流程如图3 所示。

图3 全局画像方法

LSTM 是循环神经网络(RNN)的多种变种网络之一[17-18]。RNN 是一种可以对序列数据进行建模的序列模型,可以处理如机器翻译、语音识别等序列问题,但是由于RNN 内在的一些缺陷,RNN 对长序列数据的处理能力较弱。而LSTM 通过对隐藏层的改进来控制神经元之间的影响,通过内部的门机制选择出需要遗忘的数据和需要长期记忆的数据,使得LSTM 在序列数据建模时,可以很好地捕捉序列数据对最终结果的影响。在科研人员的特征提取任务中,LSTM 不仅可以提取相邻词语之间的特征关系,同样对于距离较远的词语也能提取到其关系特征,从而提高模型对科研人员科研行为数据利用的程度。基于以上问题,本研究采用LSTM 方法,基于上一步中使用L-LDA 得到的科研人员画像标签权重,针对个体科研人员的科研行为数据进行序列建模。使用的网络结构如图4 所示。首先,由于每个科研人员的行为数据的长度是不一致的,在进行多分类之前首先要保证这些行为数据长度保持一致;其次,以长度一致的文本向量作为文本特征对其进行多分类,得到文本的分类结果,作为此科研人员的画像特征标签及权重。

由于互联网有很强的开放性,所以客户可以应用互联网广泛收集信息,这是导致互联网时代产品价格波动幅度上升的主要诱因之一。对于应用互联网进行财务管理的企业来说,交易过程中往往会按照用户的需要更改商品定价,这种现象会在很大程度上增加企业运行的财务风险。

2.3 考虑局部信息的科研人员画像构建

(1)提取科研人员全局标签和权重。为了提取科研人员科研行为的全局信息,将所有科研人员科研行为数据抽象为文档,使用无监督的LDA 主题模型,抽取文档的隐含主题的分布,作为所有科研人员的全局标签信息,也就是全局基准标签权重;接着使用L-LDA 针对科研人员每个时间点的科研行为数据进行分析,得到科研人员画像标签在每个时间点的分布,抽取主题概率作为画像标签权重[15-16]

MGD患者白内障手术前后OSDI差异具有统计学意义(F=1193.031,P<0.001),术后1、2、3个月较术前上升66.7%、82.4%、85.2%,。

中国人民大学心理研究所教授雷雳之前在接受媒体采访的时候讲过一个心理学的试验,说“婴儿熟睡时,在他们鼻子上抹上胭脂,醒来后让他们照镜子,结果发现,15个月左右的孩子会看着镜子,摸自己抹了胭脂的鼻子。也就是说,从这个时候开始,孩子就能区分自己和他人了——因为他们知道那个红点是自己鼻子上的”。

最后,对于L-LDA 的参数推断部分,采用Gibbs 采样的方法,在Gibbs 采样中需要的全概率公式为由于在使用LDA 进行画像标签提取时,已经获得了科研人员的标签,基于此,每个科研人员科研行为数据得到的主题的权重即是其画像标签的权重。

图4 局部画像方法

模型包括两个部分,第一部分是文本特征表示,第二部分是画像标签权重提取。首先,将长度不同的文本转换为长度相同的文本特征表示,基于LSTM 学习得到的抽象的文本表示向量的维度是相同的,长度为LSTM 神经元节点个数。文本特征表示也就是LSTM 编码的过程,基于LSTM 中的输入门、遗忘门、输出门以及神经元状态。具体来说,网络共包括三层:文本输入层、LSTM 文本表示层和标签层。输入是科研人员科研信息文本中单词对应的词向量表示,也即图4 中左侧的每一列向量代表一个词语的词向量表示,当文档中的词语按顺序完成输入以后,LSTM 隐含层得到的h (t )就是抽取到的本文的特征[19]。第三层是文档的真实标签层,该层的节点数等于数据集标签数。这层只在训练过程有用,通过引入训练样本的真实标签,有监督的学习科研行为文本的表示。其次,基于上一步得到的个体科研用户的画像标签权重,与全局标签权重进行合成并进行更新,也就是LSTM 的解码过程。具体来说,解码过程的目标是在文档特征表示h (t )的基础上,训练分类器对待测样本进行分类,输出最可能属于当前文档的标签。网络也包括三层:标签输入层、LSTM 解码层和画像标签提取层。以第一部分得到的标签特征作为本部分的先验知识,标签输入层给出一个文本标签权重w 1时(w 1或者Start),预测文本的下一个标签权重w 2(w 2或者End)。从而得到每个科研人员在t 时刻的画像标签权重向量VLk ,t ,最后根据式(2)与第一部分L-LDA 得到的科研人员在t 时刻的画像标签权重VGk ,t ,形成该用户在t 时刻的最终画像权重VAk ,t ;再使用LSTM模型,模型的输入为科研人员在t 时刻的之前s 个时间点的科研行为数据,输出则是科研在t +n 时刻的画像标签权重。具体的方法流程由图5 给出。

图5 局部画像算法流程

其中,a 表示局部标签权重的重要性,且满足0<a <1,a 越大,则局部画像特征的作用越强。

3 实验设计

为了对本研究提出的考虑全局和局部信息的科研人员科研行为立体精准画像构建方法进行验证,下面将分别对实验过程中所采用的数据集、评价指标、对比方法和实验流程进行描述。

3.1 数据集

为了验证本研究提出方法的准确性,本研究选择在国内的科研社交平台科研之友上抓取的科研人员相关科研行为数据集上进行实验。科研之友在2006 年正式上线,广大科研人员可以在科研之友平台上提交自己相关的科研成果信息,同时也可以和其他科研人员交流合作。选择科研之友的主要原因在于其具有海量的活跃科研人员,这些用户每天生成大量的科研相关数据,如论文、专利和获奖信息等。科研之友作为国内一个知名的科研社交平台,分析其数据的方法也可以扩展到其他的应用场景。数据集中包括2532 位科研人员、89781 篇学术论文及相关专利数据,以及每位科研人员在某个时间段的科研行为数据,如在某些时刻获得哪些奖励、发表哪些论文等信息。

3.2 评价指标

在本次用户画像构建过程中,由于每个科研人员画像属性的取值可以有多个,并且这些取值都是不重复的。鉴于此我们可以使用传统的多分类问题的性能评价标准如准确率(Accuracy)、查准率(Precision)、召回率(Recall)、F 值(F -score)。通过这四个评价指标,可以对本研究提出的考虑全局和局部信息的科研人员科研行为立体精准画像构建方法做出客观的评价。

(1)准确率(Accuracy)

此外,时间趋近化还能够通过时态来体现,通过使用现在进行时态将未发生事件拉近到发话者当前的时间节点。在叙述性话语中,发话者多采用现在时或过去时,而《报告》涉及到中国的话语中所使用的时态多为现在进行时,例如:

该指标是指最终预测出的标签,正确的预测结果占所有预测结果的一个比例。

(2)查准率(Precision)

该指标是指最终预测出的标签中,预测正确的标签所占的比例。

(3)召回率(Recall)该指标是指最终预测出的标签,预测正确的标签占用户真实的标签的比例。

(4)F -score

该指标用来平衡准确率和召回率,综合评价最终结果。

为了方便后期使用这些评价指标,首先需要引入混淆矩阵的概念,通过混淆矩阵我们可以比较直观地看到所用分类算法的性能,传统的二分类混淆矩阵如表1 所示。

表1 混淆矩阵

3.3 对比方法

传统的用户画像方法没有考虑时间维度的信息,仅仅将用户画像构建问题抽象成多分类问题,也没有考虑到画像的权重变化问题;本研究同时考虑了科研人员的全局和局部科研行为数据,在此基础上,又考虑了科研人员在时间维度上画像标签以及画像标签权重的变化。基于以上分析,本研究根据使用数据的情况不同,选择仅使用全局科研人员数据的L-LDA 方法,以及仅考虑局部信息的LSTM作为对比方法,同时为了体现出LSTM 相较于其他深度学习网络对序列数据建模的优势,选择MLP、CNN 深度学习方法进行对比[20-21]

3.4 实验流程

(2)提取科研人员局部权重并更新。将得到的科研人员每个时间点的画像标签权重和全局基准标签权重进行加权融合,并将此权重向量作为学习目标,将科研人员每个时间点的科研行为数据词向量作为输入,借助长短期记忆网络高度抽象的优良特性对L-LDA 的得到的权重进行修正,学习出考虑科研人员局部行为数据的画像标签权重,再将此权重与全局基准的标签权重进行融合,得到综合画像权重。最后再使用长短期记忆网络,以综合画像权重为输入,对后续画像权重进行预测,对得到的标签进行排序,最后根据设定的权重阈值进行筛选,使得科研人员的画像标签和标签权重能自适应地进行更新。接下来,本研究将对这两个部分进行详细介绍。

实验基于Python 环境,使用的包为Keras,在实验中主题词个数(标签池大小)N 分别设定为10、20、50、100、200,a 值分别设定为0.1、0.2、0.4、0.6、0.8、1,ε 的值分别设定为0.5、0.6、0.7、0.8、0.9,s 设置为3,n 设置为1,长短期记忆网络中的神经元个数与主题词个数相同,其他参数为Keras 中默认的参数。在数据集划分时,选择所有数据的80%作为训练集,剩余的20%作为测试集,实验共进行10 次,取10 次评价指标的平均值作为最终的结果,整体实验流程如图6 所示。

在中产阶层执政的城邦中,中产阶层的力量必须要么强大到超过另外两个阶层的力量之和,至少要强大到超出其中一个,这样中产阶级就可以联合其他任一阶层,而牢牢掌握住政权,使之表现出中产阶层的公民政体的特点,而防止它滑向纯粹的平民政体或纯粹的寡头政体这样两个极端。所以,中产阶层执政的政体是一个适中的政体,是“最优秀的政体”[2](P146)。

图6 实验流程

4 结果分析与讨论

4.1 实验结果

经过反复的实验测试,发现本研究提出的科研人员科研行为画像构建方法在a =6、ε =0.7、标签池大小N 设为50 时达到最好。表2 给出各个方法最好的结果的情况。

从表2 可以看出,仅考虑局部信息的LSTM 方法和仅考虑全局信息的L-LDA 方法在Accuracy、Precision、Recall 和F -score 四个评价指标下均劣于同时考虑全局信息和局部信息的MLP、CNN 和TSP。其次,由于本研究使用的LSTM 在建模时能考虑到数据的时序信息,相较于另外两种深度学习网络,在四个评价指标下都取得了更好的实验结果。这说明相较于其他深度学习网络,LSTM 由于其特有的循环结构,对序列数据的建模能力更强,能够充分挖掘数据中的序列信息。最后,相较于其他方法,本研究提出的画像方法TSP 在各个指标中均取得了良好的结果。这说明在科研人员科研行为画像构建过程中同时考虑科研人员的全局数据、局部数据以及考虑数据之间的序列关系对提高画像的准确度有很大促进作用。

表2 统计结果表

4.2 分析与讨论

本节对实验过程中所涉及的参数进行分析与讨论。首先,分析标签池大小N 对最终实验结果的影响;其次,对权重阈值ε 进行讨论;最后,对局部系数a 进行讨论,分析局部画像权重a 的大小对最终实验结果的影响。

3.1.2 培养条件:培养室的相对湿度及温度,培养基中的无机成分,氮素的供应形态均会影响百合玻璃化苗的发生率。培养基中糖与琼脂浓度常与玻璃化苗成负相关关系。

1)标签池大小N 对实验结果的影响

设计方案的质量受参与者个人能力和随机因素的影响。实验结束后对两组参与者的方案平均得分进行了统计,如图5所示。实验组和对照组参与者的个人平均得分可以作为两组参与者能力水平的一个对比。如图5所示,两组人员的能力基本持平,如果以平均得分作为衡量能力的一个指标,实验组的平均能力得分是6.04,对照组是6.05,基本一样。因此,可以认为实验结果展示的差异受参与者个人能力的影响并不大。

为了比较标签池大小对不同方法的影响,在比较标签池大小时其他参数都保持最优值,将标签池大小设置为N =10,20,50,100,200,具体的实验结果如图7~图10 所示。图7~图10 分别表示在Accuracy、Precision、Recall 和F -score 四个评价指标下不同的标签池大小对不同方法画像结果的影响。从图中的结果可以看出,相较于对比方法,本研究提出的方法在四个指标下均取得良好的实验结果。同时,从结果中可以看出,CNN 由于能够捕捉文本中的结构信息在整体表现上优于MLP。随着标签池大小的增加,各项指标都在逐渐上升,当N =50 时,各项指标取得最好的结果。这主要是因为,当标签池变大时,能够作为科研人员画像标签的标签数量在增加,但是当标签增加到一定数量时会有冗余特征加入,过多的冗余特征导致最终的各项评价指标变差。

图7 不同标签池大小N 下Accuracy的对比

图8 不同标签池大小N 下Precision的对比

图9 不同标签池大小N 下Recall的对比

图10 不同标签池大小N 下F -score的对比

2)权重阈值ε 对实验结果的影响

首先,ε 的取值为ε =0.5,0.6,0.7,0.8,1,ε 是为了对最终得到的标签进行过滤,筛选出权重大于ε 的标签作为最终科研人员画像标签,从而使得不同时间的科研人员的画像标签和权重都是不同的。通过图11~图14 可以发现,相较于对比方法,本研究提出的方法在各个指标下均取得良好的实验结果。当ε 不断增加时,各个方法的效果都在不断地变好,当ε =0.7 时,各个方法达到最优的效果。这表明当ε 增大时冗余的标签会被过滤,但是当ε 增加到一定程度时,正确的标签也会被过滤,从而导致各项评价指标下降。

图11 不同权重阈值ε 下Accuracy的对比

图12 不同权重阈值ε 下Precision的对比

图13 不同权重阈值ε 下Recall的对比

图14 不同权重阈值ε 下F -score的对比

3)局部系数a 对实验结果的影响

根据特色社会主义市场经济,电商(商务秘书)人才的需求量迅速增加的现状。改变教育观念,以做人为核心,加强综合素质教育,创设1+X场景实验室。“1”代表场景实验室,“X”代表校企合作单位的真实岗位场景。

局部系数a 是为了衡量局部标签权重和全局标签权重的重要性。由于对比方法中,L-LDA 仅考虑科研人员科研行为的全局信息,LSTM 方法仅考虑局部科研人员科研行为数据,所以此处只有MLP、CNN 和本文提出的TSP 三种方法进行对比。通过图15 可以看出,在局部系数逐渐变大的过程中,各项评价指标均保持上升,这说明考虑全局和局部的科研行为信息能够有效地提高科研人员画像的准确度,但是加入全局信息对整体准确性的提升是有限的,当达到一定值以后,整体评价指标呈下降趋势。但是,这也说明本研究提出的方法确实能够提高科研人员画像的准确性。

层次性的教学评价体系,能够及时了解学生的学习状况,教师可以根据反馈信息进行教学模式的不断调整和优化,不断提升课堂教学效率。诊断性评价、形成性评价、总结性评价和自我评价、小组互评等,都是比较先进的教学评价体系[4]。诊断性教学评价,能够帮助教师了解学生对道德与法治相关知识的掌握程度,有利于教师制订教学计划。小组互评的方式,能够在学生之间形成有效的监督,提升学生的学习积极性和主动性,提升课堂教学氛围。多元化评价体系的构建是提升教学质量的重要途径。

图15 不同局部系数a 的各项指标对比

5 总结与展望

本研究提出了一种考虑全局和局部信息的科研人员科研行为立体精准画像方法,方法首先考虑全部科研人员提取科研行为数据,从中挖掘出隐含的画像标签特征;其次,考虑到随着时间的推移每个科研人员的科研兴趣和外界环境会发生变化,从个体科研人员的角度出发,借助深度学习自动提取高度抽象特征的特点,对科研人员的历史科研行为数据进行建模,从中挖掘其科研画像标签;最后,将全局信息与局部信息进行融合,共同合成科研人员的最终画像标签,构建出科研人员的立体精准画像。本研究选取了科研之友中的科研数据进行实验,通过实验结果可以看出,相比于其他方法,本研究提出的新方法在所选的评价指标下都有着良好的表现,证明了同时考虑科研考虑全局和局部信息能够从全面的角度描述科研人员,从而得到科研人员的立体精准画像。

通过考虑全局信息和局部信息对科研人员进行画像构建,使得全局信息和局部信息可以相互补充。但是在互联网时代,网络中还存在着大量的科研人员的社交信息,这些信息以文本、图像、声音等形式进行存储,对这些不同形式的数据进行挖掘,从多个数据源将这些数据进行融合来构建科研人员的画像,是本研究接下来的工作重点。

参考文献

[1]创新引领发展,建设科技强国[N].经济日报2017-11-03(010).

[2]涂静.科研合作网络中知识共享的演化研究[J].情报理论与实践,2018,41(2):39-45.

[3]Fawcett T,Provost F J.Combining data mining and machine learning for effective user profiling[C]//Proceedings of 2nd Inter‐national Conference on Knowledge Discovery and Data Mining.Palo Alto:AAAI Press,1996:8-13.

[4]袁莎,唐杰,顾晓韬.开放互联网中的学者画像技术综述[J].计算机研究与发展,2018,55(9):1903-1919.

[5]余传明,田鑫,郭亚静,等.基于行为-内容融合模型的用户画像研究[J].图书情报工作,2018,62(13):54-63.

[6]姚迪,张超,黄建辉,等.时空数据语义理解:技术与应用[J].软件学报,2018,29(7):2018-2045.

[7]黄文彬,吴家辉,徐山川,等.数据驱动的移动用户行为研究框架与方法分析[J].情报科学,2016,34(7):14-20,40.

[8]Burger J D,Henderson J,Kim G,et al.Discriminating gender on Twitter[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics,2011:1301-1309.

[9]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,13(10):1952-1961.

[10]何娟.基于用户个人及群体画像相结合的图书个性化推荐应用研究[J].情报理论与实践,2019,42(1):129-133,160.

[11]王凌霄,沈卓,李艳.社会化问答社区用户画像构建[J].情报理论与实践,2018,41(1):129-134.

[12]林燕霞,谢湘生.基于社会认同理论的微博群体用户画像[J].情报理论与实践,2018,41(3):142-148.

[13]张海涛,崔阳,王丹,等.基于概念格的在线健康社区用户画像研究[J].情报学报,2018,37(9):912-922.

[14]Mislove A,Viswanath B,Gummadi K P,et al.You are who you know:Inferring user profiles in online social networks[C]//Pro‐ceedings of the Third ACM International Conference on Web Search and Data Mining.New York:ACM Press,2010:251-260.

[15]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

[16]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A super‐vised topic model for credit attribution in multi-labeled corpora[C]// Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics,2009:248-256.

[17]Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks[C]// Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.New York:IEEE,2013:6645-6649.

[18]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neu‐ral Computation,1997,9(8):1735-1780.

[19]Lu Z Y,Tan H H,Li W J.An evolutionary context-aware sequen‐tial model for topic evolution of text stream[J].Information Sci‐ences,2019,473:166-177.

[20]Riedmiller M.Advanced supervised learning in multi-layer per‐ceptrons—from backpropagation to adaptive learning algorithms[J].Computer Standards&Interfaces,1994,16(3):265-278.

[21]Zhang X,Zhao J B,LeCun Y.Character-level convolutional net‐works for text classification[C]//Proceedings of the Conference on neural Information Processing Systems.2015,28:649-657.

A Method Considering Local and Global Information for Constructing Stereoscopic and Accurate Portraits of Scientific Researchers

Zhang Yanan,Huang Jingli and Wang Gang
(School of Management,Hefei University of Technology,Hefei 230009)

Abstract: By constructing scientific research behavior portraits,researchers can easily use various research services for ef‐ficiency.Existing research often abstracts the portrait problem into a multi-classification problem without considering the full use of information and the problem of updating portraits.Accordingly,this study proposes a scientific research behav‐ioral portrait method for researchers considering local and global information and introduces a deep learning method.Deep learning can extract highly abstract features for sequence modeling,extracting partial portraits,and combining global infor‐mation to build stereoscopic and accurate portraits.Finally,based on the actual scientific research behavior data,the meth‐od proposed in this study is verified,and its effectiveness is proven.

Key words: scientific research innovation;deep learning;user portrait;topic model

DOI: 10.3772/j.issn.1000-0135.2019.10.002

收稿日期: 2019-04-24;修回日期: 2019-06-26

基金项目: 中国科学技术信息研究所情报工程实验室开放基金;国家自然科学基金项目(71471054,91646111);安徽省质量工程项目(2016msgzs053,2017ppzy02);合肥工业大学质量工程项目(JYZD1710)。

作者简介: 张亚楠,男,1995年生,博士研究生,研究方向为深度学习和用户画像;黄晶丽,女,1998年生,硕士研究生,研究方向为信息管理与信息系统;王刚,男,1980年生,博士,教授,研究方向为商务智能和数据挖掘,E-mail:wgedison@hfut.edu.cn。

(责任编辑 魏瑞斌)

标签:;  ;  ;  ;  ;  

考虑全局和局部信息的科研人员科研行为立体精准画像构建方法论文
下载Doc文档

猜你喜欢