基于大数据分析的科研项目创新评估系统的研究论文

基于大数据分析的科研项目创新评估系统的研究

何 媛1,刘龙丁1,施海晶1,杨章志1,代 青1,杨要兵2,陈 咏1

(1中国医学科学院医学生物学研究所 云南 昆明 650118)

(2云南达霆科技有限公司 云南 昆明 650051)

【摘要】 科研项目创新评估是科研单位管理创新项目立项决策过程中的一项重要工作,通过创新评估可让我们在众多的创新设想中,挑选出具有良好创新前景的项目。本文分析了科研项目创新评估实践中的难题,提出了基于大数据分析的科研项目创新评估流程,并建立了相应的计算机专家系统,以解决科研项目创新评估实践中的难题。

【关键词】 大数据分析,科研项目管理,创新评估,专家系统

1 引言

科研项目创新评估是科研单位管理创新项目立项决策过程中的一项重要工作,通过创新评估可让我们在众多的创新设想中,挑选出具有良好创新前景的项目。目前在科研项目创新评估实践中,一般是通过手工收集相应信息,再结合评估人员的经验来完成创新度评估,该方式主要存在两个问题:一是通过手工收集信息不仅速度慢,而且容易造成信息片面或是重要信息的丢失,产生“信息瓶颈”;二是评估人员的经验偏差易导致评估结果有较大的误差。因此,信息获取的低效率及评估人员经验偏差已成为制约科研项目创新评估深入开展的严重障碍。

(2)目前PEMFC冷启动主要有氢氧催化反应、改变工作参数、气体吹扫等策略,这些方法基本能实现PEMFC冷启动,但大部分都是通过辅助手段实现的,这样会加重系统负担,增加制造成本。

“顺阴阳、奉四时、行王政”[1]615,是先秦、秦汉时期国君对于自身职责的认知注《尚书·尧典》“乃命羲、和,钦若昊天,历象日月星辰,敬授人时”([清]孙星衍撰,陈抗、盛冬铃点校:《尚书今古文注疏·尧典》,北京:中华书局,1986年,第10-12页)是较早关于王者“顺时施政”的记录。。王者以四时为总纲,顺应十二月物候与万物生长规律,引导人们安排农业生产,避免灾异发生,这就是“时禁”灾祥观。

大数据分析是指是从大量的、不完全的、有噪声的、模糊的、随机的数据中采集、分析得出更有价值的信息。当今在信息时代,大数据分析无处不在,已广泛应用于包括互联网、公安、电信、能源和娱乐等社会各行业。例如,在互联网行业,通过大数据分析技术,电商可以分析用户行为,进行商品推荐或精准广告推送,做到千人千面。在公众安全领域,通过大数据分析技术,可以实时监测民众舆情,采取针对性的措施疏导民众情绪;以及通过分析众多道路监控视频数据,确定违法嫌疑人员移动路径及活动范围等信息。

在科研项目创新评估中,大数据分析亦可发挥其强大的威力。通过大数据分析技术采集与创新设想相关的学术论文、期刊等数据,再通过相应创新评估模型分析评估所采集的数据,最终输出创新评估报告。该方式不仅可有效的克服创新评估的信息瓶颈及人员经验偏差,同时也能在创新设想投入实施后,对中间过程进行监测与评估。

使用ICP-AES(以高纯氩气正常吹扫2h或高速吹扫0.5h后),在选定的仪器工作条件下测量各待测元素。

图1 基于大数据分析的科研项目创新评估流程图示

2 数据采集

数据采集主要使用网络爬虫技术,通过不同的学术库连接器,基于关键词对数据源进行查询访问,访问返回的结果数据经过数据预处理后进行持久化保存或提供后续业务逻辑的数据集输入。

⑤参见应品广《中国需要什么样的竞争中立(上)——不同立场之比较及启示》,《中国价格监管与反垄断》2015年第2期。

在本项目中,数据采集主要对PubMed、Google Scholar、Bing学术、万方、维普等数据源进行文献标题、文献关键字、文献摘要、文献作者、文献发表信息、文献论文索引信息、文献原文、文献引用记录等数据进行采集。

解析后的数据需要根据判断依据模型进行结构化的处理。判断依据模型主要定义了论文标题、论文作者、论文发表时间、论文关键字、论文摘要、论文全文内容等元数据。通过数据ETL算法,将解析后的数据进行抽取、转换、加载等步骤,转化为按照判断依据模型定义的面向业务的结构化数据。

无论是通过模拟查询,还是通过API接口查询获取的数据,都需要经过解析。其中API接口查询获取的数据解析较简单,根据接口协议可直接进行解析;通过模拟查询获取的页面数据则相对复杂,需要对返回的页面接口进行分析以确定有用信息体在页面中的位置,再通过页面解析算法及字符串处理等最终形成结构性的数据。此种解析方法具有一定的错误概率,并在页面改动后有解析失败的风险。

数据应用包含两个方面,一是将预处理的数据持久化保存于数据库中,二是应用创新评估模型分析经过预处理的数据。

图2 数据采集器工作流程图示

3 数据预处理

数据预处理是将从不同数据源采集到的不同格式的数据,通过数据解析及数据ETL算法将其转化为面向业务的结构化数据,为数据分析提供基础。

3.1 数据解析

1)通过模拟关键词查询的方式,对目标数据源关键词查询页面进行模拟操作,对返回的查询结果页面进行页面下载,同时考虑分页数据访问。通过此方法需要对页面数据进行解析过滤,以提取论文的主体内容才能进行后续的数据ETL。

3.2 数据ETL

为提高系统的整体运行效率,保证在最短的时间内得到期望的信息,数据采集连接器将根据目标数据源的查询策略采用两种不同的方法进行数据采集:

基于大数据分析的科研项目创新评估流程主要包括数据采集、数据预处理、数据应用、输出报告几个阶段,如图1所示:

4 数据应用

2)通过目标数据源提供的API接口进行查询,接口返回的数据经过协议规则解析后可直接进行后续的数据ETL。该实现方法的缺点是需要目标数据源提供相应的API接口。数据采集器工作流程如图2所示:

创新评估模型可为设想的创新点定义多个关键词,每个关键词可定义其在分析不同数据源中权重和扣分行为。例如:SCI、Nature期刊发表的论文,其含金量一般高于其它数据源的学术论文,在定义权重时可分配给SCI、Nature数据更高的权重。对于设想的创新点,则可定义评价策略、创新区间定义及创新级别。创新级别越高,则表示本次创新设想在当前具备较好的科研创新价值,可进行更进一步的财务风险、技术风险、生产风险、市场风险等评估。科研项目创新评估模型如图3所示:

图3 科研项目创新评估模型图示

5 输出报告

输出报告是将经过创新评估模型分析得出的结果信息,根据已定义的报告模板生成评估报告,供用户使用。

将以上基于大数据分析的科研项目创新评估流程建设为计算机专家系统,即可充分发挥大数据分析的优势,以下为我单位建设的科研项目创新评估系统的总体功能架构图:

6 结语

通过建立基于大数据分析的科研项目创新评估系统,不仅能高效、全面、准确的采集数据完成科研项目创新评估,克服了创新评估实践中的信息瓶颈及人员经验偏差,也可在创新设想投入实施后对中间过程进行监测与评估。但应注意及时维护系统功能,避免在数据源页面更改后导致数据解析失效的问题。

王树林踏上了去省城的动车。四个小时后,他走出车站,一眼就看见不远处一辆别克商务车前伍亦苒笑盈盈的微笑。职业套装。短裙。亭亭玉立。丰采照人。

【参考文献】

[1]施培公.论技术创新项目评估[J].科技管理研究,1995年第4期.

[2]梁威,刘满凤,唐厚兴.技木创新项目选择评价体系研究[J].科技与管理,2006年第5期(总第39期).

【中图分类号】 TP39

【文献标识码】 A

【文章编号】 1009-5624(2019)09-017788--0033

基金项目: 国家重点研发计划(2018YFC1200305)

作者简介: 何媛(1980-),女,本科,工学学士,助理研究员,中国医学科学院医学生物学研究所,从事生物安全管理工作。

标签:;  ;  ;  ;  ;  ;  

基于大数据分析的科研项目创新评估系统的研究论文
下载Doc文档

猜你喜欢