杰出科学家的科研产出规律-以拉斯克医学研究奖得主为例论文

杰出科学家的科研产出规律
——以拉斯克医学研究奖得主为例

任晓亚1,2,张志强1,2,陈云伟1,2

(1. 中国科学院成都文献情报中心,成都 610041;2. 中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190)

摘 要 重大科学突破的产生离不开科学知识和学术思想的积累与继承,了解有关学科领域杰出科学家群体科研产出的一般规律,有助于科研人员了解相关学科领域的研究发展趋势和发展特点,实现“继承-创新”式研究;有利于管理和决策者了解相关学科领域的科学发展规律,完善学科领域的管理资助政策和机制等。本文在构建理论模型的基础上,综合运用定性聚类分析与定量聚类分析方法。以生物医学领域获得拉斯克医学研究奖的319名科学家为代表样本,经过数据清洗最终得到文献31095 篇,通过LDA 主题模型提取研究主题并进行共现网络分析,从语义层面分析该领域杰出科学家科研产出的一般规律。本文得出了生物医学领域杰出科学家在获奖成就细分学科、研究主题演变与分布、获奖年龄趋势及发文期刊等方面的规律。

关键词 杰出科学家;拉斯克奖;科研产出;主题识别;LDA-共现分析

科学领域的重大突破不是一蹴而就的,除了政策环境、科研资助、人才培养等方面的支持[1],更离不开科学知识和学术思想的积累与继承。在现代科学史上,“站在巨人的肩膀上”更是得到深刻的体现,前人所做出的重大成就对后续研究往往有不可估量的价值[2],一项重大发现可能会开辟一系列研究,引发一连串创新,形成诺贝尔奖级别的科学发现和科学突破传递链。如德国物理学家伦琴(Wilhelm Röntgen)因X 射线的伟大发现获1901 年第一届诺贝尔物理学奖,直到今天,以X 射线为基础展开的诸多研究成就了几十位诺奖获得者,如约里奥·居里夫妇、劳厄、布拉格父子、巴克拉、康普顿等有突出贡献的科学家。

国际科技奖励制度正式形成于18 世纪[3],重要科技奖项获得者获得的科技成果奖励,本质上是国际相关领域科学共同体对其学术成就和贡献的肯定与褒奖。一般认为,重要奖项获得者符合我们对杰出科学家的定义与认知。因此,文章选取享有盛名的“拉斯克医学研究奖”获得者作为生理医学领域杰出科学家的代表群体,研究其科研产出的一般规律,特别是研究领域分支与研究内容的分布,有助于科研人员和决策者把握生理医学等相关学科的发展动向与关注焦点,为该领域研究人员取得新的研究突破、做出创新成果提供参考思路。

1 相关研究述评

国内外学者对优秀科学家群体及其科研产出的规律已经进行了较为丰富的研究探索,而在其中,对国际公认的最具权威、最有影响力的学术界“顶级桂冠”——诺贝尔奖获得者进行的研究分析最为广泛。

以杰出科学家及其出版物为研究对象的评价研究中,Ma 等[4]对1901—1989 年诺贝尔物理学奖获得者发表论文的使用语言进行了统计分析,并补充以不同时期下各类语言论文所占比重。Jenkin[5]剖析了诺贝尔物理学奖得主William Henry 和William Lawrence Bragg 之间的特殊合作研究关系(父子关系)。Chariker 等[6]学者通过学术指导关系绘制出诺贝尔奖获得者的学术家谱图。而张志强等[7]深入剖析了诺贝尔物理学奖获得者的学术型师承关系及规律,提出师承效应能够显著缩短未来获奖者作出重大创新成果所需的时间等重要观点。

以杰出科学家及其出版物为研究对象的文献计量研究中,Kademani 等[8]分析了1964 年诺贝尔化学奖获得者Dorothy Mary Crowfoot 每五年在核心期刊的发文数量,证实其符合Bradford-Zipf(布拉德福-齐普夫)定律。Zhou 等[9]对1901—2012 年193 名诺贝尔物理学奖得主的382 篇标志性文章进行文献计量分析,得出在被引次数、期刊影响因子、发文国家等方面的特点与趋势。李江等[10]通过分析341 位诺奖得主的引文规律,进而提出引文曲线分析框架,并对其适用性进行了深入思考;而Egghe 等[11]学者则以诺贝尔奖和菲尔兹奖获得者的零被引论文为视角,分析其与常用科学计量指标(h 指数、论文数等)之间的相关性,发现h 指数与零被引论文数量呈正相关关系。此外,Mazloumian 等[12]发现著名科学家具有里程碑意义的论文得到了许多引用,同时提高了自身其他出版物的引用率,得出重要论文具有“提升效应”的结论。

以杰出科学家及其出版物为研究对象的预测研究中,Hu 等[13-14]以2016 年诺奖得主的出版物为实证案例,提出基于TOPCM 和TTPCM 算法的“火花指数”(Sparking Indices)来识别引文网络中的奠基性文献。唐川等[15]利用多文献计量指标和支持向量机的方法对图灵奖获得者进行识别和预测。

本文引入社会心理学的经典理论:社会认知理论。社会认知理论[18]的核心思想是,每个人都生活在社会中,他的行为既可能影响他人,也可能被他人所影响,要想让自己的行为发生好的效果,就必须很好地认识和理解他人及其行为的规律,从而对他人行为作出反应。

2 数据与研究方法

2.1 数据说明

阿尔伯特·拉斯克医学研究奖(Lasker Medical Research Awards) [16]由Albert and Mary Lasker 基 金会于1946 年设立并管理,先后设立基础医学研究奖、临床医学研究奖、公众服务奖和特殊贡献奖(即特殊成就奖),主要授予医学领域取得重大发现和突破、作出突出贡献的科学家。拉斯克奖在医学界素有“诺贝尔奖风向标”之称,截止到2019 年4月,拉斯克奖获得者中已经有86 人获诺贝尔奖[17]

对31095 篇研究论文进行主题抽取,发现cell、protein、infection、human、patient、gene、disease、mutation(变异/突变)等主题词度中心性(degree)较高,在网络中较为重要(图6)。经过模块化算法(modularity),可将网络划分为11 个模块。对提取出的研究主题以及相关文献进行深入解读,将研究主题主要归纳为如下几方面:①分子生物学与遗传学,多集中在蛋白质与基因方面,如近年来有关DNA 甲基化介导的基因表达的研究,修改CRISPRCas9 的ENL 遗传疗法在抗白血病方面的作用,通过实验研究组蛋白H3 在Rsk-2 基因突变的表达情况,以及从染色体中去除组蛋白甲基化等研究;②细胞层次上的生物学研究,如培养人类多能干细胞(PSC)以及测定其发育与分化潜能的方法,将人胚胎或诱导多能干细胞(hESC/iPSC)来源的肝细胞样细胞(HLC)作为戊型肝炎病毒(HEV)研究的常规肝癌细胞培养系统的替代方案等,对当前医学领域不仅具有重要的理论意义,在器官修复、疾病治疗等方面也极具临床价值;③临床免疫反应、疾病产生的机理以及疾病治疗方法(尤其是药剂开发)等,如研究发现酪氨酸激酶抑制剂STI571(后被称为信号转载抑制剂571 或伊马替尼)在慢性粒细胞白血病(CML)的有效作用,经过临床试验与药物改进,彻底将其从不治之症转变为仅通过终身口服药就可治疗,极大地提高了治愈率;再如针对苍白球内侧核(GPi)和丘脑底核(STN)的烧蚀和慢性刺激对帕金森病和其他运动障碍患者认知和精神治疗方面的一系列重要研究与进展。

2.2 研究方法

2.2.1 理论模型构建

设立专门的国有资产管理员职位,对国有资产建立专门的备查登记薄,对国有资产的实际情况进行准确记录,及时登记国有资产的变动,从根本上解决账实不符、有物无帐、有账无物的问题。同时,可以防止国有资产的丢失和损毁,利于管理部门掌握国有资产的配置情况,减少资源闲置,方便部门间相互调剂。

现有研究多是采用文本分析、数理统计和文献计量等方法,对优秀科学家进行学术关系、合作网络、引文计量的特点与评价分析,以及在此基础上的识别、预测研究,而从学术知识积累继承角度切入,针对科学家获奖成就与研究主题的分析较为少见。本项研究在理论模型的指导下,主要通过定性聚类方法、LDA-共现分析方法,从语义层面分析杰出科学家科研产出,特别是研究方向与研究内容的一般规律。

配置根保护主要为了防止新加入到网络中的交换机被选举为根交换机,从而影响网络的稳定.当交换机端口启用根保护后,该端口将会成为指定端口,并且在任何情况下也不会被选举为根端口.在这里我们以交换机SW2为例,给出根保护的详细配置命令.

借鉴格式塔学派著名心理学家勒温(K.Lewen)的“场论”研究:B=f(P,E)[19]。其中,B 代表人的行为;E 代表环境;f 是变量;P 和E 的交互作用形成心理场,即情境。人的行为是由人(P)和他的心理生活空间(E)的相互作用决定,也就是说,一个人的行为是其人格或个性与其当时所处情景或环境的函数。

在学术信息交流环境中,不论是科研选题,还是科研合作等科学活动,科学家之间同样存在互相影响的现象。运用上述思想来思考科学家取得突破性研究的问题,我们可以作出如下假设:在某个研究领域,科学家长期受到优秀科学知识的熏陶,形成一定的“科学思想场”,那么他就有可能做出“继承-创新”研究,甚至取得重大突破。因此构建如下函数关系:

其中,B 表示科学家取得重大突破(breakthrough);S 表示科学家个人或科学家群体(scientist);SE 表示凝聚优秀科学知识且知识可自由传播的学术环境(scholarly environment);O 表示其他自然和社会因素(others),如政治经济环境、科研条件等。S、SE 和O 三者的共同作用,是科学研究得以萌发、产生新思想并最终实现创新突破的充分必要条件。科学家能否取得重大突破,是由科学家个人的学术精神、凝聚优秀思想与知识精华的学术氛围和其他环境因素相互作用而决定的。因此,本文主要以生物医学领域的杰出科学家为研究对象,对其历年来科研产出(以论文为代表)的研究内容进行主题抽取与关联共现分析,也就是对SE,即科学家的“科学思想场”进行研究,分析杰出科学家研究主题分布等一般规律。

借助数学中定量聚类分析的思想,对1946 年以来拉斯克奖获得者的182 项获奖成就进行定性聚类分析。邀请领域专家参与,归纳重大突破的范畴与类别,对奖励的科学成就的主要归属领域予以分析。首先将获奖成就划分为基础医学、临床医学和其他贡献三大层次,继而再细分为不同层次的获奖成就;其中,基础医学类重大突破成就可划分为免疫学、遗传学、分子生物学(包括蛋白质、抗生素等研究主题)、神经科学、病理生理学、细胞生物学、细菌学共7 类;临床医学类重大突破成就可划分为病理学、疫苗学、药理学药剂学、麻醉学、外科医学、生物材料/医疗设备共6 类。

2.2.2 定性聚类分析方法

在最优工艺条件下进行马铃薯预处理工艺验证实验。通过软件Design-Expert 8.0.6对所得到的响应面模型进行分析,得到马铃薯最佳预处理工艺参数为漂烫温度91.34 ℃、漂烫时间4.17 min、切片厚度4.1 mm和冷冻时间3.05 h,此条件下马铃薯的规范化综合得分为0.9453。考虑到实际操作的可行性,修正参数后马铃薯脆片最佳预处理工艺为漂烫温度 91 ℃、漂烫时间4 min、切片厚度4 mm和冷冻时间3 h,得到规范化综合评分0.9572,与预测值基本一致,说明该回归模型准确,主成分分析与响应面分析法相结合对马铃薯脆片预处理工艺进行优化的综合评价方法准确可行。

为了更好地打造独立学院理论研究与交流的平台,突出胜利学院学报特色,积极推动全国理论界和独立学院同行们对独立学院办学思想、办学方针、办学经验和办学规律的科学研究,《中国石油大学胜利学院学报》从2008年第1期开始已设置“独立学院研究”栏目。本栏目涵盖独立学院办学思想、办学方针、办学体制、培养目标、课程建设、教学改革、师资队伍建设、招生就业制度改革等内容。热忱欢迎对独立学院有研究的相关机构、专家、学者投稿。

2.2.3 LDA-共现分析方法

在对306 名科学家研究主题进行定量分析时,本文拟采用LDA-共现分析的方法。其中,LDA(latent Dirichlet allocation) 主 题 模 型 是2003 年 由Blei 等[20]首次提出的,已在图书情报领域得到了广泛应用。LDA 模型本质上是将隐含主题看成词语特征的概率分布,同时将每个文档看作是潜在主题的概率分布[21]。基于LDA-共现分析的方法,能够发现研究主题的关联聚类关系,挖掘潜在知识,揭示医学/生理学领域杰出科学家的研究主题分布。

简单来说,这一研究思路主要是:首先从概率分布角度识别科学家论文标题与摘要中的主题词,然后根据齐普夫定律(Zipf's Law) [22]提取高频主题词,进而进行词聚类与关联矩阵的共现分析。

在获得上述31095 篇文章的基础上,通过DDA(Derwent Data Analyzer) [23]进行数据清洗与字段提取等操作,提取出科学家发表文章的“TI”、“AB”和“PY”字段,利用数据挖掘平台KNIME 3.7[24]进行文本预处理,以期提高主题识别的准确性。预处理的连接模块包括:字符串转换、去除标点与数字、大小写转换、词干提取、停止词过滤、过滤少于3 个字母的单词(考虑到生物医学领域专业术语的特性,如DNA、RNA 等),最后构建主题词词袋(图1)。

图1 拉斯克奖获得者文献数据预处理流程

3 数据分析

3.1 描述统计分析

从当前高中生物课堂教学现状发现,其中还存在着一些教学问题,对学生的生物知识学习产生了不利影响,教学中的教学设计模式和当前教学要求没有契合。信息化时代背景下,生物课堂的教学就要注重现代化方式的应用,这也会是教学改革发展的要求,但是在实际的教学中,一些生物教师在教学模式的设计应用中,并没有对现代化的教学模式充分重视,还是采取传统的教学方法,这就很难提高生物教学的整体效率。

3.2 领域重大突破定性聚类分析

过去73 年以来,拉斯克基础医学研究奖、临床医学研究奖和特殊贡献奖一共对182 项具有重大进展和重大意义的获奖成就进行表彰。

按照前述研究方法与专家咨询,针对获奖成就,将其获奖领域划分为基础医学、临床医学和其他贡献三类维度;同时,将基础医学领域的获奖成就划分为免疫学、遗传学、分子生物学(包括蛋白质、抗生素等研究主题)、神经科学、病理生理学、细胞生物学、细菌学共7 类;将临床医学领域的获奖成就划分为病理学、疫苗学、药理学药剂学、麻醉学、 外科医学、 生物材料/医疗设备共6类(表1)。

图2 拉斯克奖获得者国家分布

图3 拉斯克奖获得者机构分布

1. 国家按所属国籍统计,其中4 人为双国籍,7 人国籍不详;2. 图中仅展示获奖人数3 人及以上的机构。

表1 拉斯克奖获奖成就定性聚类分析

续表

续表

农村土地流转率因农村社会保障水平的提高而增加。改革开放初期,农民以农业生产为主要收入来源,土地是农民极其重要的生产要素,也是其赖以生存的基础。随着计划经济体制转变为社会主义市场经济体制,粗放型生产模式转变为集约型生产模式,以土地作为社会保障的形式也发生了变化,在原本单一的生存保障基础上,附加了发展保障功能。由于土地在农民养老、就业、医疗方面给予农民基本保障,一般情况下,农民不愿意放弃土地。但是在基本养老保险、医疗保险等社会保障制度不断建立健全的条件下,农民选择摆脱土地束缚,将土地作为养老保障的作用也日渐减小。当社会保障制度完全替代土地保障的作用,农民可能选择永久放弃土地[10]。

在基础医学类重要突破中,遗传学类获奖成就多是奖励首次在DNA 分子、RNA 分子、基因等的生物化学反应中有重要发现的、深入研究的科学成果,如Edwin Southern 和Alec Jeffreys 分别于1975 年与1984 年提出的Southern 印迹和DNA 指纹识别技术,对人类遗传学和法医诊断学产生了革命性影响;Mary Claire 经过多年研究在1990 年发现导致遗传性乳腺癌的遗传标记,并将其命名为“BRCA1基因”。分子生物学类获奖成就主要是对蛋白质、抗生素、激素等的深入研究,且近年来尤为热门,如Arthur L. Horwich 在1989 年发表的有关蛋白质折叠的研究获得2011 年拉斯克奖;Peter Walter 和日本分子生物学家森和俊在未折叠蛋白质反应方面的研究共同分享了2014 年拉斯克奖;以及Jeffrey M.Friedma 在1994 年发现瘦素及其在调节体重中的作用,为人类肥胖问题发挥了重要作用。病理生理学类重要突破多集中在脑部、心血管与癌症的发病机制与理论研究上,但主要集中于21 世纪之前,如获得1958 年拉斯克奖的Irvine Page 对高血压机制的研究,在高血压领域发挥了近60 年的重要作用;以及美国神经生物学家Roger Sperry 在脑功能方面(裂脑)的研究获得1979 年拉斯克奖,随后凭借这一发现获得了1981 年诺贝尔生理医学奖。

临床医学类获奖突破多是在临床疾病治疗手段与药物研发方面作出突出贡献的科学家,如中国科学家屠呦呦发现青蒿素拯救了数百万受疟疾侵害的人,借此获得2011 年拉斯克奖;Napoleone Ferrara发现了VEGF(血管内皮生长因子),并制造了第一种抑制多种肿瘤生长的抗VEGF 抗体;Harvey J.Al‐ter 和Michael Houghton 在1988 年发现HCV(丙型肝炎病毒),经过对其结构和复制的不断深入研究与测试,由Michael J. Sofia 等三位科学家组成的科研团队研发出丙型肝炎药物索菲布韦(sofosbuvir),使得丙肝病毒得到治愈,分别获得2000 年和2016年拉斯克奖。

从定性聚类结果来看,我国基础医学和临床医学的科研人员,可以进行遗传学、分子生物学以及病理学中疾病治疗方法及药剂开发等方面的深入研究与拓展,努力取得理论与实际应用的重大突破并得到国际同行的认可,具有更高的获奖可能性。当然,获得褒奖不是生理医学领域科学家唯一的目的,在不断积累领域知识的研究基础上,提高人类健康状况,探求生命的真谛与科学的真理,才是科学家毕生的追求。

3.3 杰出科学家研究主题定量聚类分析

利 用KNIME 的Topic Extractor (Parallel LDA)主题抽取功能模块进行主题识别,通过主题模型降维,结合齐普夫定律选取高频主题词,然后,通过关联二维矩阵进行语义关联,采用经典的K-means聚类算法实现主题词的聚类,运用Gephi 0.9.2[25]绘制研究主题共现关系的可视化图谱。在对单个科学家和306 位科学家的研究论文进行主题抽取时,经过多次实验与效果比较,最终相关参数设置如下(图4):对单个科学家文献抽取主题时设置K=5(即5 个主题数),每个主题由6 个主题词描述,α=0.1,β= 0.01,迭代次数为1000 次;306 位科学家的K 值为100,每个主题由20 个主题词描述,其余参数不变。

3.3.1 科学家研究主题个例分析

以2018 年度拉斯克基础医学研究奖获得者Allis的293 篇论文为例(图5),抽取排名前30 位的主题词,采用FR(Fruchterman-Reingold)布局算法进行共现网络分析,网络中节点的平均聚类系数为0.843。

图4 个人科学家(左)与科学家群体(右)主题模型有关参数设置

图5 Allis论文主题识别结果示例(左)与研究主题共现网络(右)

Allis 因发现组蛋白化学修饰如何影响基因表达而获奖。经过对其研究论文的主题抽取,发现his‐tone(组蛋白)、chromatin(染色质)、methylation(甲基化)、DNA、modification(修饰)等为高频共现词。从可获取的1991—2018 年的文献中,Allis 发表的多是关于组蛋白翻译后修饰(PTMs)作为一种靶蛋白工具在生理学领域疾病治疗机制中的应用、组蛋白NatD(N-α-乙酰基转移酶D)在体外和体内调节肺癌细胞的迁移和侵入的作用、连接组蛋白H1 的磷酸化和基因表达等研究的文章。对文章内容进行深入解读,证明Allis 在组蛋白修饰领域已有多年连续性研究,这也说明,重大科学突破的产生并不是偶然的,离不开坚实的研究基础、知识积累与不断开拓的发现精神,以此才能达到学术生涯的高峰。

实验发现,利用金属电极(如铁、铜、锡)在电解的作用下,能够分别生成二价铁离子、二价铜离子、二价锡离子,然后进一步与溶液中的过硫酸铵发生氧化还原反应生成SO-4·自由基:

3.3.2 杰出科学家研究主题共现分析

“别胡说了。”他轻蔑地挥了挥手,然后他突然一转身进了卫生间,砰地将门关上,我听到他在里面说:“我被你们气傻了,我都忘了自己快被尿憋死了。”

对1946 年以来拉斯克三项奖获得者的获奖成就定性聚类,受篇幅所限,对获奖成就进行高度凝练与概括,与原始获奖成就的表述相比不够具体。可以发现,在生理医学领域的重要科学突破中,基础医学类的遗传学(17.6%)、分子生物学(13.2%)和病理生理学(10.4%),以及临床医学类的临床病理学(18.7%)和药理学药剂学(10.4%)的研究奖项数量最多。

通过拉斯克基金会官网,确定样本为1946 年来获得拉斯克基础医学研究奖、临床医学研究奖和特殊贡献奖的319 名科学家(截止到2018 年有326 人次获奖,其中7 人2 次获奖;下文简称为拉斯克奖)。科学家年龄、机构等数据主要来源于科学家学术简历、维基百科等官方渠道。科学家文献数据来源于Web of Science 数据库,数据检索时间为2019 年1 月8 日—2019 年3 月25 日,设定 文 献类型为Article 和Review,最终获取到306 名拉斯克奖获得者发表的全部学术文献(13 人未检索到文献数据);同时,与科学家个人学术简历进行映射比对,去除同名作者、标题与摘要不规范等干扰数据,最终共获取到31095 篇文献。

图6 领域杰出科学家研究主题共现网络

3.3.3 不同时间区间的杰出科学家研究主题共现分析

由式(3)求得使用1 nm厚的MgO介质层时,Al/MgO/Si间的接触电阻降至为3.2 Ω,为Al/Si直接接触时的1/3,表明一定厚度的MgO介质层可改善Al/Si接触,降低Al/Si间的肖特基势垒,从而提高Gr/Si太阳能电池的性能.

考虑到生理医学的学科特点以及可获取的杰出科学家在不同发表年份文献数据的规模,划分出三个时间区间抽取对应主题词,分别对不同时期下主题共现网络的特点进行深入解读(图7)。

截止到2018 年,获得拉斯克医学研究奖的319名科学家,在国家分布和机构分布中均表现出较高的聚集性。国家分布中,美国表现极为突出,以231 人次获奖者遥遥领先,占比约71%,英国、德国分别以29 人次、12 人次位居前列,法国(9 人)、加拿大(7 人)与日本(6 人)均有5 名以上科学家荣获桂冠(图2)。工作机构分布中,获奖者仍集中分布于美国的大学与研究机构,其中,洛克菲勒大学、哈佛大学、美国国立卫生研究院(NIH)、哥伦比亚大学、约翰霍普金斯大学与霍华德休斯医学研究所均拥有10 人以上长期工作的拉斯克奖获得者(本文的长期工作特指保持工作5 年及以上),洛克菲勒大学医学院拥有23 位,哈佛大学医学院拥有19 位(图3)。

1)1930—1980 年

在1930—1980 年,生理医学的优秀科学家非常关注cell、patient、antibody、virus、receptor 等相关研究,如对细胞结构、细胞成分和调节功能、提取抗体及其在脑组织中的渗透过程的研究,病毒基因转录机制、菌株及疫苗制备,以及对白血病细胞培养与靶细胞鉴定、肺癌的诊断技术、哮喘等慢性支气管炎的鉴别与治疗,等等。这一时期产生了一大批先驱科学家(如免疫病理学之父Henry G. Kun‐kel,获得1960 年诺贝尔奖的Macfarlane Burnet 等)与引领性研究,这也与获奖成就定性聚类分析有较为一致的结论,定量结果与专家定性判断较好地相互印证。

图7 不同时间区间领域杰出科学家研究主题共现网络

2)1981—1999 年

1981—1999 年的近20 年间,科学家们的深入研究主要集中于细胞生物学、分子生物学与遗传学等领域,语义处理后cell、active、protein、patient、gene、express、bind 等主题词较为显著。如有关低密度脂蛋白受体(LDL receptor)的研究进展、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、鉴定顺式高尔基体的标记蛋白、突触融合蛋白的作用机制、细胞分裂周期(CDC)基因的发现、TOR 信号通过调控真菌(如酵母)的转录调控细胞的生长和代谢、免疫检测与免疫应答、基因导向的酶前体药物疗法治疗肿瘤等内容,生物医学在细胞水平与分子水平上的机制、功能等研究取得了较大进展。

3)2000—2018 年

进入21 世纪以来,生物医学面临更多的机遇与挑战,经数据处理得到样本的高频主题词是func‐tion、cell、active、protein、response、human、ex‐press、disease 等,在众多研究中,以遗传学、分子生物学(以蛋白质的研究居多)、细胞生物学、病理学的有关研究居多。如研究人员通过对信使RNA分子的研究发现新型基因调节机制,对载脂蛋白E(APOE) 的基因位点的检测方法、诊断以及研究APOE 对疾病发病机制或人类认知功能的影响,发现细胞在分子水平上感受氧气含量的机制及其对相关疾病的药物研发的理论指导意义,对HIV 脂肪代谢障碍症的特征以及患者所服用的蛋白酶抑制剂(如利托那韦)的临床实验等取得重要进展的研究。

为防止孔壁泥皮硬化,造成洗井困难,影响出水量,在填砾结束后,立即进行洗井作业,本次采用活塞洗井法、水泵抽水法进行交替洗井。先用活塞洗井8 h,然后将水泵下到滤水管底部进行抽水洗井,同时加入适量焦磷酸钠软化泥皮浸泡12 h后,换活塞洗井8 h,再换水泵洗井12 h,直至水清砂净,纯洗井时间达到了36 h以上。

科技奖项主要授予的是作出原创性贡献的科学家。在306 名获得拉斯克奖的生理医学科学家中,其研究主题的聚类效果较为显著,在不同时期,领域杰出科学家比较集中的研究主题有一定重合,又存在差异。这就反映出学术知识的交互效应,即“科学思想场”的作用,学术思想的积累、继承、再创新得到了体现。相较于只针对获奖成就分析的定性结果,语义抽取文献主题的共现分析更能体现学术研究的主流趋势与受关注度较高的研究方向,这些大多是能够持续做出创新成果的研究领域。定量分析结果便于生理医学领域的科研人员直观了解领域先驱与带头人的研究成果与主题,为其提供了更加明确的研究思路,也为进一步的“继承-创新”研究提供数据支持。

3.4 其他规律

3.4.1 研究成果发表期刊分布

经统计可获取的拉斯克奖获奖科学家发表的所有论文,在生物医学领域,样本群体在期刊Pro‐ceedings of the National Academy of Sciences of the United States of America (PNAS) 上发表文章最多(2806 篇),其次是美国生物化学与分子生物学学会期 刊Journal of Biological Chemistry (1004 篇) 和CNS(Cell、Nature 与Science 共1654 篇),位居前五位(图8)。

期刊影响因子作为评价期刊的指标褒贬不一,一直存在各种各样的误差性和局限性[26],但在依旧缺乏科学规范、完全有效的同行评议的今天,期刊影响因子在总体上反映期刊水平方面仍是无法替代的存在。本文借助“2018 年中国科学院文献情报中心期刊分区表”[27]检索出样本科学家研究成果分布的Top 20 期刊的最新影响因子及所属小类学科(表2)。生物医学领域的杰出科学家的研究论文,多发表在这些高水平、高影响力期刊上。

3.4.2 获奖年龄趋势

考虑到研究内容的需要,按年度将1946—2018年来297 位拉斯克奖获得者(22 位出生年不详)的获奖年龄进行曲线拟合,可以发现,科学家获奖年龄整体呈波动上升趋势,从1946 年的平均54 岁上升到2018 年的平均73.5 岁,73 年来整体平均上升了19.5 岁(图9)。对于学术界的“顶级桂冠”诺贝尔奖,获得者获奖的年龄也呈“老龄化”趋势[28],如2018 年的得奖者平均年龄达到了72 岁,而在50年前左右,得奖者们的平均年龄大约在56 岁。随着现代科学的进步,一方面科学家群体日益庞大,竞争愈加激烈;另一方面,一定程度上也表明,科学家做出的重要成果,需要更长的时间得到学术同行、颁奖委员会乃至全社会的检验、评估与认可。本文尚没有分析获奖科学家的获奖成果产出的年龄,这是能真正反映科学家科学创新的峰值年龄。

近年来,中央、省、市各级政府高度重视渔业发展,各项规划及文件相继出台,对各地渔业发展作出了相应的要求和指导,2017年中央1号文件特别提出了“加快推进渔业转型升级”。当阳市将发展现代渔业作为推动农业和农村经济结构战略性调整的一个重要内容和切入点,出台了相关政策,将水产业作为重点特色产业打造,提出到“十三五”末,全市水产养殖面积达到16.04万亩,渔业产值突破17亿元,水产品总产量达到6.69万吨,渔业生态环境逐步修复改善,渔业资源保护与开发不断强化。

4 结论与思考

本文对生理医学领域的杰出科学家(以获得拉斯克奖的科学家为样本)科研产出的一般规律进行论述,构建理论模型,综合运用定性聚类分析与定量聚类分析并作对比,主要采用LDA-共现分析方法,从语义层面提取出科学家的文献研究主题分布。不同于传统基于引文的科学家合作网络的视角,而是计算研究主题词的关联,构建共现网络寻找领域杰出科研人员较为集中的研究方向与内容。主要结论如下。

图8 拉斯克奖获奖科学家研究成果来源Top 20期刊

表2 拉斯克奖获奖科学家研究成果来源Top 20期刊、影响因子及所属分类

图9 拉斯克奖获奖科学家获奖年龄趋势

(1) 拉斯克奖获奖科学家主要分布于美国(71%)、英国(9%)、德国(4%) 等科技发达国家,这三国主导了83.4%的绝对领先地位;就职机构中美国的大学与研究机构同样表现良好,获奖者仍集中分布于洛克菲勒大学(23 人)、哈佛大学(19 人)、NIH(12 人)、哥伦比亚大学(11 人)、约翰霍普金斯大学(10 人)与霍华德休斯医学研究所(10 人)(本文仅统计科学家长期工作达5 年及以上的机构)。

(2)1946—2018 年,拉斯克基础医学研究奖、临床医学研究奖和特殊贡献奖(公共服务奖不在本研究范围内)一共对182 项具有重大进展和重大意义的获奖成就进行表彰。获奖成就多是属于基础医学类的遗传学(32 项,17.6%)、分子生物学(24项,13.2%)和病理生理学(19 项,10.4%),以及临床医学类的临床病理学(34 项,18.7%)和药理学药剂学(19 项,10.4%)方面的重大进展。其中,遗传学与分子生物学领域的获奖成就多是奖励首次在DNA 分子、RNA 分子、蛋白质、基因等的生物化学反应中有重要发现的、开创性的科学成果;基础病理生理学重要突破多集中在脑部、心血管与癌症的发病机制与理论研究上;临床医学的成就多是颁发给在临床疾病治疗手段与药物研发方面作出突出贡献的科学家。

由图16可以获得faFM和waFM欧式空间点的坐标变换,faFM在Lv、Q方向的变动范围分别为-0.08 mm~0.08 mm和-0.1 mm~0.1 mm,waFM在Lv、Q方向的变动范围都为-0.2 mm~0.2 mm。

(3)重大科学突破的产生得益于学术知识的积累,Allis 因发现组蛋白化学修饰如何影响基因表达而获得2018 年度拉斯克基础医学研究奖,他在组蛋白修饰领域已有多年连续性研究,对其文献进行语义抽取的结果也表明,histone(组蛋白)、chroma‐tin(染色质)、methylation(甲基化)、DNA、modi‐fication(修饰)等为高频共现词。同时,通过抽取拉斯克奖获得者共计31095 篇文献的主题词,发现生理医学领域的杰出科学家主要进行分子生物学与遗传学(多集中在蛋白质与基因方面)、细胞生物学与临床免疫反应、疾病病理及治疗方法(尤其是药剂开发)等三大方面的科学研究,这也是获奖主题的“高发区”。主题-共现分析的结果也反映出,为了做出重大创新成果,在积累优秀研究思想的基础上,应该充分给予科学家较长时间的研究周期,保障其继承性、持续性的深入研究。

就外商投资流向区域而言,外商在我国的直接投资具有明显的区域性特征。从1979年改革开放至今,外商对我国的直接投资多集中在东部沿海城市和珠三角、长三角一带。目前,我国东部地区的实际外资吸收额约占总外资的87%,中部地区约占10%,西部地区仅占 3%。其中长三角区域约占44.5%。随着我国“一带一路”的推广,“一带一路”沿线地区收纳的外商直接投资金额虽有所提升,但仍仅占外商在我国实际投资金额的4.3%。

(4)在不同时期,科学家所关注的研究主题存在一定的重合与差异,各具特点:在1930—1980年,主要是关于细胞结构、成分和调节机制、分子生物学(尤以抗体、病毒的研究居多)、临床疾病治疗的研究;在20 世纪80—90 年代,多集中于生物医学在细胞水平与分子水平上的机制、功能等方面的深入研究;进入21 世纪后,有关遗传学、分子生物学(以蛋白质为主)、细胞生物学、病理学的研究居多。随着现代科学技术(如实验仪器)在生物医学领域的推广与应用,生物医学不断取得新的进展与突破,加速促进人类征服疾病、探求真理。

(5)生理医学领域优秀科学家的研究成果多发表在高影响力期刊上。此外,科学家的获奖年龄整体呈“老龄化”趋势,73 年以来从平均54 岁的获奖年龄上升到2018 年的平均73.5 岁,整体上升了19.5 岁。本文尚没有分析获奖科学家的获奖成果产出的年龄,这是能真正反映科学家创新峰值的年龄,之后将会做针对性研究。

本文的局限是:在数据上,主要以Web of Sci‐ence 数据库为数据获取来源,限定了语种为“英语”,但部分科学家的发文语言并非只是英语,且未涉及专利数据,因此数据不够完整;在方法上,运用主题模型抽取主题词的方法存在一定误差,且只选取了高频主题词进行解读分析,而在实际的科学研究中,取得重大科学突破的也有可能属于“冷门”领域,经过科学家长期、踏实地钻研最终做出开创性、引领性研究。本文仅从学术思想积累继承的角度做了浅显分析,主要结论仅针对且仅适用于生理医学领域。下一步的研究中,在丰富不同基础研究领域研究样本的基础上,将深入剖析科技奖项授奖的历史进程中领域科学的演变与发展特点,深度挖掘重要学术思想和知识的积累、传递过程链与传递规律;以及改进提取主题词和设置参数的研究方法,以使定量结果更加准确;并将“核心思想”按照科学的划分方法进行知识标注(如研究方法改进、实验设备相同等),以更好地反映出科学家实现重大突破的知识规律。

致谢 感谢中国科学院文献情报中心2017 级博士研究生刘自强在数据预处理过程中提供的帮助!

参 考 文 献

[1] 许合先.诺贝尔自然科学奖领域知识与人才的传承规律及启示[J].科技管理研究,2008,28(6):503-505.

[2] 叶鹰,刘艳阳.科技类诺贝尔奖定性聚类分析[J].科学学与科学技术管理,2005,26(2):17-20.

[3] 李奕嬴,朱军文.经济学国际学术奖项的类别、相互关系及影响力高低的图谱分析[J].情报杂志,2017,36(5):82-89.

[4] Ma C F,Su C,Yuan J P,et al.Papers written by Nobel Prize win‐ners in physics before they won the prize:An analysis of their lan‐guage and journal of publication[J]. Scientometrics, 2012, 93(3):1151-1163.

[5] Jenkin J.A unique partnership:William and Lawrence Bragg and the 1915 Nobel Prize in physics[J]. Minerva, 2011, 39(4):373-392.

[6] Chariker J H, Zhang Y H, Pani J R, et al. Identification of suc‐cessful mentoring communities using network-based analysis of mentor-mentee relationships across Nobel laureates[J]. Sciento‐metrics,2017,111(3):1733-1749.

[7] 张志强,门伟莉.诺贝尔物理学奖获得者中师承效应量化研究[J].情报学报,2014,33(9):926-935.

[8] Kademani B S, Kalyane V L, Jange S. Scientometric portrait of nobel laureate Dorothy Crowfoot Hodgkin[J]. Scientometrics,1999,45(2):233-250.

[9] Zhou Z W, Xing R, Liu J, et al. Landmark papers written by the Nobelists in physics from 1901 to 2012: A bibliometric analysis of their citations and journals[J]. Scientometrics, 2014, 100(2):329-338.

[10] 李江,姜明利,李玥婷.引文曲线的分析框架研究——以诺贝尔奖得主的引文曲线为例[J]. 中国图书馆学报, 2014, 40(2):41-47.

[11] Egghe L, Guns R, Rousseau R. Thoughts on uncitedness: Nobel laureates and Fields medalists as case studies[J]. Journal of the American Society for Information Science and Technology, 2011,62(8):1637-1644.

[12] Mazloumian A, Eom Y H, Helbing D, et al. How citation boosts promote scientific paradigm shifts and Nobel Prizes[J]. PLoS ONE,2011,6(5):e18975.

[13] Hu X J,Rousseau R.Nobel Prize winners 2016:Igniting or spark‐ing foundational publications?[J]. Scientometrics, 2017, 110(2):1053-1063.

[14] Hu X J, Rousseau R. Scientific influence is not always visible:The phenomenon of under-cited influential publications[J]. Jour‐nal of Informetrics,2016,10(4):1079-1091.

[15] 唐川,唐卷,房俊民,等.图灵奖得主识别与预测研究——基于多文献计量指标和支持向量机[J]. 情报杂志, 2015, 34(2): 69-72,78.

[16] The Laker Awards 拉斯克医学研究奖[EB/OL]. [2019-02-10].http://www.laskerfoundation.org/awards-overview/.

[17] Laker Award[EB/OL]. [2019-04-10]. https://en.wikipedia.org/wi‐ki/Lasker_Award.

[18] 班杜拉.思想和行动的社会基础:社会认知论[M].林颖,等译.上海:华东师范大学出版社,2001.

[19] 库尔特·勒温.拓扑心理学原理[M].高觉敷,译.北京:商务印书馆,2003.

[20] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J].Journal of Machine Learning Research,2012,3:993-1022.

[21] 王连喜,曹树金.学科交叉视角下的网络舆情研究主题比较分析——以国内图书情报学和新闻传播学为例[J]. 情报学报,2017,36(2):159-169.

[22] Li W. Random texts exhibit Zipf’s-law-like word frequency dis‐tribution[M]// Random Texts Exhibit Zipfs-Law-Like Word Fre‐quency Distribution,1992.

[23] Derwent Data Analyzer[EB/OL]. [2019-03-25]. https://clarivate.com/products/derwent-data-analyzer/.

[24] KNIME[EB/OL]. [2019-02-21]. https://www.knime.com/knimesoftware.

[25] Bastian M, Heymann S, Jacomy M. Gephi:An open source soft‐ware for exploring and manipulating networks[C]//Proceedings of the Third International AAAI Conference on Weblogs and So‐cial Media.Palo Alto:AAAI Press,2009,8:361-362.

[26] Seglen P O.Why the impact factor of journals should not be used for evaluating research[J].The BMJ,1997,314:497.

[27] 中国科学院文献情报中心期刊分区表[EB/OL]. [2019-04-10].http://www.fenqubiao.com/.

[28] 门伟莉, 张志强. 诺贝尔科学奖授奖时滞研究[J]. 情报学报,2015,34(4):361-370.

Laws Governing Outstanding Scientists'Research Output:The Example of Lasker Award Winners

Ren Xiaoya1,2,Zhang Zhiqiang1,2 and Chen Yunwei1,2
(1.Chengdu Library and Information Center,Chinese Academy of Sciences,Chengdu 610041;2.Department of Library,Informa‐tion and Archives Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190)

Abstract: Important scientific breakthroughs are inseparable from the accumulation and inheritance of scientific knowl‐edge and academic thoughts. Understanding the general laws of outstanding scientists' research output in their respective fields will not only help researchers grasp the main development trends and characteristics of relevant disciplines, but also help decision-makers understand the laws of scientific development in pertinent disciplines and improve management fund‐ing policies and mechanisms. In order to establish a theoretical model, this paper uses qualitative and quantitative cluster analysis as research methods. Using 319 scientists who won the Lasker Medical Research Awards in the field of biomedi‐cine as representative samples, we obtained 31 095 articles, after data preprocessing.The research theme was extracted by LDA topic model,after which we conducted co-occurrence network analysis on the semantic level to find the general laws of outstanding scientists' research output within biomedicine. The article summarizes the laws in qualitative clustering of award-winning achievements,main research topics distribution,award-winning age trends,and publications distribution of outstanding scientists within the field of biomedical science.

Key words: outstanding scientists;Lasker Award;scientific research output;topic identification;LDA-co-occurrence analysis

DOI: 10.3772/j.issn.1000-0135.2019.09.002

收稿日期: 2019-04-15

基金项目: 中国科学院战略研究与决策支持系统建设专项“主要领域规划状态监测与分析”(GHJ-ZLZX-2019-31),“中长期规划——世界科技发展形势与环境分析”(GHJ-ZLZX-2019-43)。

作者简介: 任晓亚,女,1994年生,博士研究生,主要研究方向为科学计量学;张志强,男,1964年生,博士,主任,研究员,博士生导师,主要研究方向为科技战略与规划、科技政策与管理、科学学、情报学理论与方法等,E-mail:zhangzq@clas.ac.cn;陈云伟,男,1978年生,博士,研究员,硕士生导师,主要研究方向为社会网络分析、生物信息学等。

(责任编辑 王克平)

标签:;  ;  ;  ;  ;  ;  ;  

杰出科学家的科研产出规律-以拉斯克医学研究奖得主为例论文
下载Doc文档

猜你喜欢