英国高校科研数据管理需求调查与实践分析_数据管理论文

英国高校研究数据管理需求调研实践分析,本文主要内容关键词为:英国论文,数据管理论文,需求论文,高校论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      [中图分类号]G250 [文献标识码] A[文章编号]1003-2797(2016)04-0083-10

      1 研究数据管理需求调研

      大数据时代的科研活动,逐渐转变为以数据为驱动的科学发现范式[1],Jim Gray提出的“数据密集型科学研究第四范式”正是这种转变的体现[2]。研究数据成为数据密集型科研发现的中心,对机构研究数据的管理成为新范式下科学发现的重要保障。目前越来越多的机构已经开始实施研究数据管理活动。

      研究数据管理指通过对数据的组织、备份、存档、共享、出版、数据的安全管理等,实现对机构研究数据有效管理,充分发现数据的潜在价值,支撑基于数据的科学发现[3]。而机构在进行研究数据管理活动时,一般首先要了解机构研究数据管理现状,分析研究数据管理需求,在了解现状的基础上针对性的进行研究数据管理。

      DCC推荐的构建研究数据管理服务的步骤中,进行研究数据管理需求调研处于第二步,目的是分析研究人员的数据管理需求,找出当前的现状和你期望的研究数据管理服务[4]。陈大庆在调研30所英国、美国、澳大利亚高校研究数据管理服务的基础上,构建高校数据管理服务路线,其第一步是进行需求评估,包括了解科学数据特征,了解研究人员数据分享和管理行为,了解研究人员对数据管理服务的期望。他认为,评估科研人员的数据管理需求及行为有助于确定制定数据管理政策的必要性、使用的数据管理工具的类型、数据基础设施建设的投入力度、数据管理培训的侧重点、数据管理服务的具体内容等,是每个高校开展数据管理服务前所必不可少的一个环节[5]。

      从国外高校研究数据管理实践来看,进行研究数据管理需求调研也是目前大多数高校的必要步骤。本文通过英国高校研究数据管理需求调研实践的调查,希望能够了解国外是如何进行研究数据管理需求调研,分析其进行需求调研的目标、步骤、问题设计、方式方法等,为我国高校图书馆开展研究数据管理提供参考。

      2 英国高校研究数据管理需求调研实践

      通过文献调查、网络调查以及内容分析法,对英国高校的研究数据管理需求调研实践进行梳理,从整体来看,英国的高校大多都曾进行研究数据管理需求调研,限于篇幅,本节以南安普敦大学、诺丁汉大学、牛津大学、埃克塞特大学四所大学为例,调查其研究数据管理需求调研实践,希望通过对四所大学实践的梳理,了解英国高校的需求调研行为。

      2.1 南安普敦大学基于数据资产框架(Data Asset Framework,DAF)的研究数据管理需求调研

      南安普敦大学于2009年5月对社会科学学院进行研究数据管理需求和现状调研,调查时,参照DAF框架来组织和实施,主要的实施步骤包括[6]:

      (1)成立专门小组。包括4位成员,其中包括DataShare项目负责人、图书馆员、研究助理。

      (2)基于DAF框架设计调查问卷。在设计问卷时,最初的计划是按照DAF制定的“机构数据资产核心元数据集”和“机构数据资产描述元数据集(扩展版)”来采集信息,设计调查问卷。然而经过预调研发现,过多的元数据信息采集给研究人员增加了负担,通过和研究人员讨论,最后将问卷调查的时间控制在8分钟以内,参考帝国理工学院数据资产审计时的元数据采集方案,以及牛津大学数字资产保存中心的意见,设计的调查问卷既包括“拥有数据资产是什么”的问题,还重点关注数据资产是如何进行管理的。同时问题的答案也用简单易懂的语言进行表述,这样大大增加了问卷的回收率。

      (3)通过伦理委员会评估。社会科学学院规定所有涉及人文的项目都要通过伦理委员会的批准。

      (4)开展问卷调查。通过Email向全体职工发送调查问卷的链接,并通过学院办公室提醒职工参加问卷调查。最后从124名职工中,回收47份调查问卷,其中12位回答自己没有研究数据,35位回答自己是研究数据的产生者或管理者。

      (5)通过访谈深度了解数据管理需求和现状。从以上35位参与问卷调查的研究人员中,选取17位进行访谈调查。考虑到需要涉及不同的数据类型,这些人员来自不同的部门,每人访谈时间为40~55分钟。

      2.2 诺丁汉大学研究数据管理调研

      诺丁汉大学于2012年开展研究数据管理需求调研,属于ADMIRe项目的前期基础,ADMIRe目的是建立一种可持续的研究数据管理框架。进行研究数据管理需求调研能梳理当前大学的数据资产和研究数据管理需求现状,为建立可持续的研究数据管理框架打下基础[7]。

      诺丁汉大学以问卷调查的方式展开调研,参考DAF框架的“机构数据资产核心元数据集”和“机构数据资产描述元数据集(扩展版)”,问卷的问题设计主要围绕以下几个方面展开:

      (1)理解和掌握研究人员拥有的数据资产。

      (2)评估当前机构的研究数据管理实践水平。

      (3)收集用户对研究数据管理的需求。

      (4)研究人员的数据共享行为和态度。

      调查问卷的发放主要经过两个阶段进行,最终回收有效问卷366份。其中122份来自医药和健康学院,97份来自理学院,65份来自工程学院,47份来自社会科学学院,35份来自艺术学院。

      对回收调查问卷进行数据分析,得到的主要结论如下:

      (1)目前存在的数据类型多样,特别是非电子版研究数据依然占较大的比重。

      (2)研究数据的保存介质和地点多样化,但是备份策略不规范。

      (3)学校的数据存储策略运用较广,但U盘等也是主要存储途径。

      (4)大部分研究人员不愿意共享数据给学校外的人员。

      (5)研究人员期望更多的数据管理培训,其中排在首位的是帮助制定DMP。

      诺丁汉大学经过上述调研过程,对机构的研究数据管理现状以及数据管理需求有一个整体的评估,认为依然处于初级阶段,学校应该积极开展和推广研究数据管理活动,培养数据管理意识,对于ADMIRe项目来说,研究数据的推广是一个长期的过程,可能超出项目的持续时间范围。

      2.3 牛津大学研究数据管理需求调研

      牛津大学于2012年11月开展研究数据管理需求调研,属于DaMaRO的前期基础,目的是支持牛津大学研究数据管理活动的开展。也是主要采用问卷调查的方法开展调研[8]。

      牛津大学研究数据管理问卷调查面向所有学科展开,采用在线问卷的方式,问题设计围绕四个部分展开:

      (1)被调查者信息,包括研究人员信息,研究数据信息。

      (2)研究数据管理现状。包括研究数据管理重要性认识、研究数据保存时间、地点,研究数据管理政策等。

      (3)关注度和态度调查。包括对牛津大学现有数据管理政策的关注、对数据共享的态度、希望得到的研究数据管理帮助等。

      (4)对牛津大学Databank数据管理服务的认识和态度。

      最终回收314份有效问卷,其中25%的调研对象来自人文学科,25%来自数学、物理和生物学,29%来自医学,20%来自社会科学。调查发现了学科之间研究数据管理的差异性,对研究数据管理现状和研究人员的研究数据管理需求等,为牛津大学开展研究数据管理活动提供保障。

      2.4 埃克塞特大学研究数据管理需求调研

      埃克塞特大学于2012年2月开展研究数据管理现状调研,属于Open Exeter项目的一部分,目的是了解研究数据是如何被使用和管理的。埃克塞特大学研究数据管理需求调研首先采用问卷调查的方式展开,然后有针对性地进行重点访谈[9,10]。

      问卷调查在参考DAF框架的基础上,主要围绕以下几个问题展开:

      (1)研究人员如何使用和管理数据。

      (2)研究数据的类型、大小、备份、存储等信息。

      (3)研究人员对研究数据的开放共享态度和意愿。

      (4)研究人员希望得到的服务和培训。

      问卷调查采用在线调查的方式展开,共回收有效问卷284份,其中37份来自商学院,55份来自数学、物理和工程学院,46份来自人文学院,59份来自生命和环境学院,41份来自社会学院,46份来自医学院。调研发现包括:

      (1)不同学科、院系研究数据管理活动差异较大。

      (2)很少有研究人员制定研究数据管理计划(DMP)。

      (3)研究数据的存储方式多样,包括U盘、移动硬盘、光盘等。

      (4)研究人员有较强的研究数据管理培训意愿。

      (5)研究数据的复杂性,包括数据类型、数据格式、数据应用软件、数据描述等都有较大不同。

      在问卷调查结束后,埃克塞特大学根据问卷调查的结果,选择不清楚或者重要的研究人员进行重点访谈,获得更详细的数据管理需求。

       3 研究数据管理需求调研实践总体分析

      基于对英国高校研究数据管理需求调研实践的梳理,分别从调研时间、参考框架、调研方式、问卷调查问题个数、回收问卷数量、调研对象等方面进行总结和分析,如表1所示。

      

      3.1 参照数据资产框架DAF开展调研

      为了规范和指导高校在进行研究数据管理时,如何进行本机构研究数据保存和管理现状调研,英国JISC于2008、2009年资助英国格拉斯哥大学、伦敦国王学院、爱丁堡大学、巴斯大学、UKOLN(英国图书馆网络工程事物所)5所机构进行数据资产审计框架(Data Audit Framework Development(DAFD))的研究,最终提出一套系统但实用的审计机构数据资产现状的方法和程序。主要目标是构建一种通用的高校数据资产审计框架,高校在进行研究数据管理时,可以参照这个框架进行数据资产的调研,称为数据资产框架(Data Asset Framework(DAF))[11-16]。经统计,已经有十余所高校,例如爱丁堡大学、谢菲尔德大学、牛津大学、诺丁汉大学等开展了基于DAF的研究数据管理调研[17-25]。

      DAF制定了“机构数据资产核心元数据集”和“机构数据资产描述元数据集(扩展版)”来记录更详细的数据资产目录信息,数据资产调查员可以参照这两个元数据集来完善机构数据资产目录[26]。从调研来看,英国高校在进行研究数据管理时,基本都参照DAF框架来进行研究数据管理需求或现状调研。可以参考DAF建议的数据资产审计步骤来进行研究数据管理需求调研方案的设计,也可以参照“机构数据资产核心元数据集”和“机构数据资产描述元数据集(扩展版)”来进行问卷和访谈问题的设计。

      3.2 调研的主要方式

      调研的方式主要包括问卷调查和访谈两种。

      大多数问卷调查采用在线问卷链接、Email发放和现场纸质投放相结合的方式进行。在进行问卷设计时,既可以面向全机构采用通用的调查问卷,也可以针对不同的学科设计调查问卷,诺丁汉大学设计的一些问题,除列出普适答案供选择外,还鼓励用户自己写出自己独特的答案。也可以进行多次问卷调查,南安普敦大学在2009年3月首次对社会科学学院进行了基于DAF的研究数据管理调研,2010年5月又对光学领域进行了研究数据问卷调查,在前两次的基础上,组织者认为应该在全校范围内开展问卷调查,故在2011年5月开始了面向全校的第三次研究数据管理问卷调查[27]。

      在进行问卷调查时,可以不同学科使用通用的调查问卷,在问题设计中考虑所有学科的共性特点,大多数高校都采用这种方式进行。然而不同学科之间研究数据的保存和管理可能有着较大的差异性。在进行问题设计时,还可以根据学科特征,设计相互独立的问题,以学院或系为单位展开问卷调查。这样能够得到该组织研究数据管理现状有关的更加详细的信息。爱丁堡大学在进行调研时,针对地球科学学院、综合生物研究中心、神学院、经济和社会研究中心、SFC脑成像研究中心、天文学院分别展开数据资产审计和问卷调查,得到不同学院较详细的数据管理现状信息。

      有些还在问卷调查结束后,针对特别重要的研究数据或研究人员特殊的数据服务需求,对个别对象进行深度访谈,以期获得更详细的材料[28]。访谈可以获得问卷调查中难以获得的信息,对某些需要的问题进行详细分析,加深对研究数据管理需求的理解。

      3.3 调研目的

      根据对英国高校实践的梳理,高校进行研究数据管理需求调研的目的,可以总结为以下几个方面:

      (1)调研当前机构所拥有的研究数据现状,梳理机构研究数据资产。

      (2)理解机构研究数据管理现状,评估当前研究数据管理水平。

      (3)梳理研究人员的数据管理实践。

      (4)收集用户研究数据管理需求,发现可以改进的地方。

      (5)对未来的管理和服务提出期望。

      3.4 调研人员

      研究数据管理需求调研是整个研究数据管理项目的一部分,是研究数据管理开展的基础,需要组织专门的人员来负责问卷调查,一般都是由图书馆员来负责进行,包括管理人员、教师代表等。例如谢菲尔德大学由University Research Data Management Service Delivery Group来负责,项目组成员包括专业信息管理人员和教师代表[29]。南安普敦大学2009年3月对社会科学学院进行研究数据管理调研时,调研小组包括4位成员,其中包括DataShare项目负责人、图书馆员、研究助理[30]。诺丁汉大学由ADMIRe项目组成员组成的试验小组来负责调研。

      3.5 调研对象

      研究数据管理需求调研的调查对象为本机构研究数据的生产者、使用者、管理者等,涉及不同的学科领域,不同知识层次的研究人员、博士生、硕士生等。在调查对象的选择上,充分考虑对象的全面性和代表性,选择不同领域的研究人员进行抽样。谢菲尔德大学以通知通告等方式,力图鼓励全校科研人员,特别是相关的人员,包括图书馆员、研究团队、IT部门、研究主管等参与调查。诺丁汉大学的调研对象分为教授、副教授、讲师、博士、博士后、研究员等,涉及艺术学、工程学、医学、社会科学等学科。爱丁堡大学的调研对象来自神学、经济学、生物学、脑科学、生物学等不同学科。调查对象选择的全面性和代表性关乎研究数据管理的基础是否坚实,有时也可以通过行政命令的方式让更多的人员参与调查。

      4 英国高校研究数据管理需求调研的主要内容

      研究数据管理需求调研,主要调研什么,从英国高校的实践来分析,可以总结为五个方面:一是对研究人员信息的识别,不同层次、学科的研究人员的数据管理需求不同,因此要识别不同的研究人员;二是调研研究人员产生、使用的研究数据现状,通过梳理研究人员产生的研究数据,分析基于这些研究数据产生的管理需求;三是调研研究人员数据管理现状,识别不同的数据管理活动,以及基于这些活动产生的服务需求;四是调研研究人员数据开放共享行为,以及对开放共享的意愿和需求;五是对研究人员期望得到的服务和帮助进行调研。以下对英国高校研究数据管理需求调研的主要内容进行分析(图1)。

      

      图1 研究数据需求调研内容

      4.1 研究人员现状

      研究人员的身份类型是进行调研时首先要考虑的问题。在进行调研时,要考虑被调研者的学科专业,对于不同的学科可能要设计不同的问题。第二要区分不同类别的研究人员,主要分为:研究人员(教授、副教授、研究员、副研究员)、学生(博士生、硕士生、本科生)、管理者(数据管理员、IT管理员、部门领导)等。

      4.2 研究人员产生的研究数据现状

      这个指标目的是调研高校研究人员产生的研究数据的属性信息,通过设计一系列的问题,包括研究数据描述、类型、所有权、大小、格式、存储等,来梳理拥有哪些数据资产,这些数据在哪里保存,所有权属谁,数据量大小等。通过这些问题,可以最大程度的了解当前研究人员产生的数据现状,主要包括:

      (1)研究数据的所有权。研究数据的所有权是谁,研究人员是否具有研究数据的所有权。研究数据的归属是进行数据管理的主要前提。南安普敦大学调研发现,33%的研究人员认为数据的所有权是研究人员本人,26%的研究人员认为归学校/机构所有,3.6%的人员认为归所支持的基金所有,还有13%的研究人员不知道数据的所有权是谁[31]。诺丁汉大学调查发现,21%受访者认为知识产权属于数据创建者,19%受访者同意属于项目组,15%同意属于机构,12%受访者同意属于资助基金。还有23%的受访者不清楚知识产权应该属于哪里[32]。

      (2)研究数据的类型。研究人员在科研过程中创建和使用的数据多种多样,对整个机构的研究数据类型进行调查,可以分析机构内各种研究数据的比例,确定研究数据管理的重点。诺丁汉大学研究数据类型主要包括:文档、电子表格、网站、实验室笔记、数据库、问卷、录音带/录像带、照片/视频、幻灯片/样本、数字对象、原始数据、模型/算法、应用程序、其他[33]。谢菲尔德大学对该问题的设计和诺丁汉大学相似。牛津大学的研究数据类型选择项设置为:文本型、数值型、统计数据、地理空间数据、图片、音频、多媒体、书目等[34]。爱丁堡大学将数据类型分为:计算机程序生成数据、传感器生成数据、图片/X光片、网站数据、word、Spss数据、音频、视频、田野调查数据、病人记录、实验室笔记等[35]。

      (3)研究数据的文件格式。研究数据的文件格式,指研究数据以什么数据格式来进行保存的,既包括当前主要的文件格式,例如.CSv、.txt、.DOC、.Xls、pdf、txt等,同时也包括各学科领域特定的数据格式,例如生物学领域常用数据格式为fasta、fastq、gff。牛津大学在进行问卷调查时,希望受访者能够列出所有使用的文件格式,以保证在进行研究数据管理时,可以有相对应的处理软件。

      (4)研究数据的存储介质。研究数据如何存储也是调研的重点。根据诺丁汉大学的调研,按重要性排列常见的存储方式包括:①工作电脑和笔记本电脑的硬盘;②机构文件存储服务;③外部存储器;④USB闪存盘(U盘);⑤基于Web的网络存储;⑥传统纸质介质。其他存储方式还包括:CD/DVD、Email、磁带、软盘、照片。

      调查结果显示,研究人员通常将他们的数据存储在至少四个地方,甚至有的存储在八个以上的地方。后续的采访证实了大部分数据都留在原生地(如实验室的机器),然后转移到研究者认为的最安全的地方。在大多数情况下,一般是机构文件存储或外部存储。然而,许多人都依赖于基于Web的网络存储,如Dropbox和谷歌文档,从而提高数据的保密性、安全性和数据许可机制[36]。爱丁堡大学天文学院主要的存储介质包括磁带、磁盘阵列、第三方存储、学校服务器、CD/DVD等。

      (5)研究数据的数据量。研究人员产生的数据量决定了哪里需要更多的数据存储服务,根据不同的学科特征,可以将数据大小分为几个档次:<1GB,1~50GB,50~100GB,100~500GB,500GB~1TB,1~50TB,50~100TB,>100TB。诺丁汉大学调研中,数据量为1~50GB最多,占总数的28%,100~500GB次之,占总数的14%,然后是1~50TB,占4.5%。谢菲尔德大学也是1~50GB最多,占总数的29%,第二是1~50TB,占总数的13%。

      (6)研究数据的备份周期、备份介质。研究数据的备份是保证数据安全的重要手段,研究人员是否进行备份,备份周期为多久,通常备份在哪种介质,文件调查都应该回答这些问题。诺丁汉大学调研发现,一般研究人员会进行每天备份(占35%),16%的受访者会进行每周备份,9%的受访者从来不备份。南安普敦大学54.2%的受访者有规律的备份计划,14%的受访者利用学校的备份系统进行备份,仅有2.1%的受访者表示从未进行过备份[37]。爱丁堡大学也将其作为调研的主要问题。

      (7)研究数据的备份地点。在备份地点上,诺丁汉大学受访者的选择依次为:外部存储设备、机构文件服务器、U盘、实验室服务器、CD/VCD。大部分受访者都会将数据备份在2种以上的介质上。南安普敦大学64.4%的受访者备份在本地系统。

      (8)研究数据的保存时间。不同学科领域研究数据具有不同的保存时间,通常将研究数据的保存周期分为项目持续时间、0~5年、5~10年、10年以上。例如爱丁堡大学SFC脑成像研究中心,天文学、生物学数据被保存10年或10年以上,神学、社会学、经济学等学科的数据被要求保存在学校的文件服务器,受访者不知道具体的保存时间。谢菲尔德大学18%受访者表示数据被保存6~10年,49%的受访者表示不明确具体的保存时间。南安普敦大学45.9%的受访者表示会永久保存。

      (9)研究数据描述。受访者将自己产生的、主要使用的研究数据描述出来,包括研究数据名称、所属研究项目、研究数据描述、所属学科类别等信息。通过受访者的描述,可以快速掌握机构的研究数据资产信息。

      4.3 研究数据管理现状

      这个指标主要目的是理解和掌握研究人员的研究数据管理活动,偏重从研究人员的研究数据管理实践,研究数据管理行为、研究数据管理政策等方面来调研,目标是分析基于这些研究数据管理活动可能产生的研究数据管理需求与服务。

      (1)研究数据管理重要性。研究人员对研究数据管理重要性的认识关系到是否能够快速推进管理活动。牛津大学的调研发现,64%的受访者认为非常重要,28%的受访者认为一般重要,7.6%的受访者认为有利于科研,0.3%的受访者认为没有必要[38]。

      (2)研究数据管理政策。包括对研究数据管理政策、工具、网站、服务的了解。牛津大学较早地开展了研究数据管理活动,包括研究数据管理计划、网站建设、DataStage、DataBank系列工具开发、牛津大学科技资源存档系统等,因此首先要对当前用户的了解程度进行调研。例如牛津大学调研发现,已经有21.7%的用户注意到学校已经开展研究数据管理,2.2%的受访者曾经访问过数据管理网站,16.9%的受访者知道该网站,但没有访问过[39]。而南安普敦大学91.3%的受访者都认为对学校的数据管理政策不太了解。

      (3)研究数据管理人员。研究数据的管理人员是研究数据的主要责任者,对后续推动研究数据管理起着重要作用。爱丁堡大学研究数据的管理主要是由数据生产者个人、IT部门或项目指定人员完成。南安普敦大学调研发现,63.9%的数据由研究人员自己管理,其他的负责机构还包括项目负责人、研究团队、第三方合作者、数据存储仓库等[40]。

      (4)研究数据管理计划(DMP)。数据管理计划(DMP)指在进行科研活动中,有相应的数据创建、管理、共享、保存以及使用数据的限制等数据管理方案[41]。诺丁汉大学调查发现,仅有25%的受访者表示有DMP,66%受访者没有DMP的支持。在有DMP支持的25%的受访者中,30%是由于项目明确规定,必须有DMP的支持,而63%则是出于其他的原因,进一步访谈发现,这些可能是在某些研究领域,项目组本身已经形成良好的数据管理机制。通过这种调查,就可以针对该领域调整相应的数据管理服务,而不需要再进行DMP的普及[42]。爱丁堡大学针对不同学科调研发现,SFC脑科学研究中心、生物学具有良好的DMP,而天文学、经济学、社会学则没有相应的DMP计划。

      (5)数据管理软件。研究人员在进行数据操作和管理时,使用的数据管理软件对研究数据的类型、研究数据的使用方法等都有较大的影响。因此在进行问卷调查时,也应该调研相关的数据管理软件。伦敦大学卫生与热带医学院进行研究数据管理调研时发现,该院研究人员使用的数据管理软件依次为:Stata、Excel、Access、Nvivo、R、SPSS、Epidata、Mysql等。

      (6)元数据描述。元数据描述是进行数据管理和检索的主要手段,研究人员在创建和保存数据时需要进行元数据描述,以方便再次使用和查找。诺丁汉大学调查发现,绝大多数受访者都没有进行元数据描述。在进一步访谈发现,一方面是因为支持基金没有要求元数据描述,另一方面研究人员缺乏这方面的知识,不知道怎么进行元数据描述,或者没有支持的工具来完成这个操作[43]。

      4.4 数据的开放和共享

      数据开放和共享的权限和层次决定着进行研究数据管理时,能对其进行多大程度的操作和访问,通过研究人员对数据开放共享行为的调研,掌握研究人员的研究数据需求,以及开放共享的方式等。

      (1)数据的开放和共享层次。研究数据如何开放,项目组产生的数据可以被哪些人群访问,这个问题可以确认当前的数据共享层次,一般分为只有数据创建者可用、项目组内部访问、本学科/本领域访问、机构内访问、基金资产访问、出版商可访问、数据开放等几个层次。诺丁汉大学调查发现,目前研究数据的共享有限,44%受访者同意只有数据创建者可访问,24%受访者支持项目组内部访问,7%同意本学科/本领域访问,6%同意机构内可访问。爱丁堡大学研究人员认为,在一定时效内,研究数据只对项目组负责,项目外部人员很难共享到数据。牛津大学、谢菲尔德大学等的调研也发现,大多数受访者同意数据创建者和项目团队内部开放和共享,其他人员则是有条件的共享。

      (2)项目结束后开放数据意愿。即在项目结束后是否可以实现研究数据的完全开放和共享,或者实现更大程度的开放和共享。诺丁汉大学调查发现,22%的受访者同意项目完成后开放数据;爱丁堡大学天文学院规定,在数据存档后的一年或18个月内,严格执行数据保密政策,这个时间段后可以开放获取。南安普敦大学73.8%受访者同意项目完成后开放数据,而其中数学、心理学、社会科学受访者有相对较少的意愿开放数据,工程学、地理学和人文科学则更愿意开放数据。

      (3)是否愿意将数据存储在公共数据库。调研表明,大部分受访者都不愿意将数据存储在公共数据库中,除非是由于项目基金资助的要求。谢菲尔德大学9%的受访者同意保存在公共或专题数据库,63%的受访者则表示不会选择这样保存数据。诺丁汉大学仅有13%的受访者愿意存储在公共数据库,有27%的受访者同意存储在本单位机构库中。

      (4)影响存储在公共数据库的主要因素。研究人员更关注数据的保密性和安全性,认为公共数据库保密性较差,因此,在建设研究数据机构库时,既要保证数据的开放共享,也要重点考虑数据的保密性和安全性。

      4.5 希望得到的服务和培训

      研究人员在进行数据管理过程中遇到的困难和希望得到的帮助是进行调查主要的目的之一,英国高校在进行调查时,主要从以下几个指标来完成。

      (1)研究数据管理遇到的主要困难。伦敦大学卫生与热带医学院调查发现,在研究数据保存和管理中,研究人员主要遇到的问题和挑战依次为:如何进行数据归档,数据开放和共享权责约定、相关的数据描述、数据安全问题、数据存储空间缺乏等[44]。南安普敦大学问卷调查发现,研究人员遇到的主要困难包括:在数据备份上,没有足够的备份空间,且人工备份比较耗费时间,希望能够进行自动备份;在组织数据上,查找数据、数据的版本控制比较困难[45]。

      (2)最希望得到的研究数据管理服务。研究人员最希望得到的研究数据管理服务,按照诺丁汉大学的调研,依序为:建立研究数据管理网站、更大的文件存储空间、DMP支持、如何更好利用最终数据、支持敏感数据、支持数据出版等[46]。南安普敦大学调研时设定的选项为:数据管理培训、DMP支持、更多的数据存储服务等。

      (3)曾经接受过哪种研究数据管理培训。从调研来看,大部分研究人员都未接受过系统的研究数据管理培训。例如诺丁汉大学仅有7%的受访者曾经接受过研究数据管理培训,其接受的主要培训包括:数据统计技巧、数据收集技巧、数据组织和管理、数据记录技巧、数据存储技术、知识产权、数据保护、基于领域数据的研究方法、备份策略等[47]。

      (4)希望得到哪种研究数据管理培训。爱丁堡大学研究人员希望得到的研究数据管理培训依序为:如何开展研究数据管理计划、数据保存技术、元数据描述、如何记录产生的数据、数据共享计划、数据的知识产权、基金要求的数据管理技术、格式化数据、数据道德等。诺丁汉大学研究人员最希望得到的研究数据管理培训包括:数据管理计划(DMP)、记录研究数据、保存数据、标准化数据、数据共享、元数据描述、伦理与契约合同、知识产权等。谢菲尔德大学研究人员期望的数据管理培训为:如何保存数据、如何开展研究数据管理计划、数据的知识产权、如何记录数据等。

      5 对我国图书馆开展研究数据管理的帮助

      数据密集型科研范式已经到来,对机构研究数据进行管理成为大家的共识。在进行研究数据管理时,对科研人员的研究数据管理需求进行调研成为必要的步骤,英国高校的研究数据管理需求调研活动为我们提供了参考和借鉴,从本文的分析来看,我国图书馆在进行研究数据管理活动时,要注意以下几个方面:

      (1)积极开展研究数据管理需求调研,为开展研究数据管理打下坚实基础。开展研究数据管理已经成为大数据时代科研活动的重要保障,国外很多大学图书馆已经开展研究数据管理活动,我国也已经逐渐开始重视研究数据管理,图书馆应积极尝试开展研究数据管理,认真进行研究数据管理需求调研,为下一步开展研究数据管理打下坚实的基础。

      (2)参照DAF框架来进行研究数据管理需求调研。从英国高校的实践来看,参照DAF框架来进行需求调研是大多数高校的做法。我国在开展调研时,可以首先认真学习DAF框架建议的方法和步骤,参考DAF框架,结合自身的特点,制定适合自己的需求调研方案。

      (3)进行调研时先进行预调查,再进行多个学科调查,最后在全校铺开。在进行需求调研时,可以根据需要在有条件的院系首先展开,在取得前期经验的基础上,再在全校展开调查,最后获得全面的数据管理信息。埃克塞特大学首先对7名博士后进行预调研,根据反馈意见最后对问卷设计进行修改,例如对某些模糊不清的问题进行重新措词,对问题的先后次序进行微调等,然后才在全校全面开展。南安普敦大学进行了多次研究数据调研,首先是2009年3月,基于DAF对社会科学学院开展了数据管理现状调查,此次调研是基于JISC的DAFD(Data Audit Framework Methodology Development)项目的实验,实证了DAF框架在研究数据资产审计当中的应用。2010年5月8日~31日,开展了针对光学领域的第二次问卷调查,2011年5月,在总结前期调研经验的基础上,在全校展开研究数据管理问卷调查。

      (4)从研究数据现状、研究数据管理行为、研究数据开放共享行为,希望得到的服务和培训等方面展开需求调研。如何进行研究数据管理需求调研,从哪些方面收集需求信息,英国高校的实践行为可以作为参考。从本文的分析来看,主要围绕研究数据现状、研究数据管理行为、数据的开发和共享行为、遇到的困难和挑战、希望得到的服务和培训等方面展开。通过这些问题,既能了解研究数据管理现状,也可以根据现状分析研究人员可能的需求和服务。

      (5)问题数量恰到好处,不能太多。问卷设计的目标是全面了解研究人员的需求,问题设计越多,则越能收集更多的相关信息。然而研究人员时间有限,过长的问卷回答时间往往会导致研究人员放弃问卷,因此,在问题设计时,要综合考虑问题数量和答卷时间,在有限的时间,有限的问题数量中更多的反映需求现状。南安普敦大学在进行问卷调查时,调研小组发现时间主要浪费在询问研究人员拥有的数据资产,于是改为询问数据管理,最终答卷时间不超过8分钟。利兹大学于2012年7月到2012年10月开展研究数据调研活动时,参考爱丁堡大学和南安普敦大学的调研活动,最后确定设计相对简单的问题集,答卷时间控制在10~15分钟之间[48]。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

英国高校科研数据管理需求调查与实践分析_数据管理论文
下载Doc文档

猜你喜欢