嵌入式学科服务中科研数据的监控研究_数据管理论文

嵌入式学科服务中的科研数据监管研究，本文主要内容关键词为：嵌入式论文,学科论文,科研论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

对科研数据加强管理已经在一定范围内达成了共识，以美国和英国为代表的各类科研资助机构从2003年起先后出台了相关政策，要求研究项目申请和完成时提供相应的数据管理计划和说明，这其中包括了美国科学基金会(NFS)、美国国家卫生研究院(NIH)、美国国家海洋和大气管理局(NOAA)、美国人文基金会(NEH)、美国博物馆和图书馆服务协会(IMLS)、英国艺术与人文研究委员会(AHRC)、英国生物技术和生物科学研究委员会(BBSRC)、英国癌症研究中心(CRUK)、英国工程与物理科学研究理事会(EPSRC)等知名机构。从大处看，在国际层面上，经济合作与发展组织(OECD)2004年就举办过部长级会议Ministerial Declaration on Access to Research Data from Public Funding[1]，而到了2008年.欧盟提出了欧盟科学数据长期保存计划(Permanent Access to the Records of Science in Europe，PARSE.Insight)[2]。从小处看，也有不少国外高校制定了自己的科研数据保存政策，像美国的杜克大学、斯坦福大学、肯塔基大学、密歇根大学等高校甚至早于NIH、NSF制定了科研数据保存和获取政策[3]。另外，英国的牛津大学[4]和剑桥大学[5]、澳大利亚的墨尔本大学[6]、卧龙岗大学[7]等也都制定了相应科研数据管理政策。据不完全统计，全球已有上百所高校发布了自己的科研数据管理政策。

制定科研数据管理政策是一方面，而执行同样很重要。相关的研究表明，在组织部门中，图书馆是比较理想的数据监护的组织和实施单位[8]，如英国图书馆联盟[9]、加拿大研究图书馆联盟[10]都提供数据管理培训和技术支持，提供数据发现、获取、归档等服务，还提供虚拟的科研环境。美国的NSF也在其报告中指出，科研图书馆应该在数据监护方面给予科研机构业务和技术支持，为其提供相应的数据服务[11]。而对于高校图书馆而言，学科服务是其重要的工作内容之一，特别是嵌入式学科服务的兴起，也为各类相关业务活动提供了更多的创新模式和更好的服务手段。本文将在科研数据监管和嵌入式学科服务分析基础上对牛津大学此领域的理论研究和实践开展进行探讨，重点考察其嵌入机构的科研数据监管服务项目，探讨嵌入式学科服务中如何更好地开展科研数据监管服务。

1 科研数据监管

数据已成为信息化时代推动科技发展、学术研究的重要资源。科研数据又被称之为“科学数据”，英国JISC(Joint Information Systems Committee)将科学数据定义为“原始的研究数据”[12]；国内学者归纳认为科学数据不仅包括科学研究过程中产生的原始性、基础性数据以及根据不同需求加工后产生的衍生性数据，还包括各种观测、勘探、实验和试验、调研中所获得的科学数据以及广大科研人员长年累月的研究工作所产生的分散的科学数据[13]。科研数据是信息时代最基本、最活跃、影响面最宽的一种战略性资源，对于科技创新具有显著的支撑作用，其得到广泛的重视与数据驱动研究范式的兴起也密切相关。《第四范式：数据密集型科学发现》一书提出了科学研究的“第四范式”，以大数据为基础的数据密集型科学研究(Data-intensive Science)是继实验型科研、理论推演、计算机仿真之后新的科研范式，将会是科研人员今后进行科学研究及科学发现的主要模式[14]。这些使得对科研数据的保存和共享受到了前所未有的重视，为将其价值最大化也带动了数据监管的研究和实践。

“数据监管”一词2001年首次出现在伦敦举行的“Digital Curation：Digital Archives，Libraries and E-science Seminar”研讨会上，此次研讨会也被认为构建起了图书情报专家、档案管理、数据管理专家和科学家们之间的桥梁[15]，其后英国的DCC(Digital Curation Center)[16]、UIUC的图书馆与信息科学研究生院[17]、微软的Jim Gray等[18]、美国的Shreeves和Cragin[19]等机构和个人都给出了其对数据监管的定义和理解。结合国内外专家的看法，笔者认为数据监管活动主要有以下几个特征：是一项持续性任务；是对数据的周期性、系统性维护；要能提升数据价值。国际性研讨会和国际刊物通常被认为新兴研究领域确立的标志。以DC为主题的国际系列学术会议有英国DCC主办的International Digital Curation Conference[20]、美国信息科学与技术协会举办的科研数据获取与保存峰会RDAP(Research Data Access and Preservation Summit)[21]，此外还有一些与DC有关的专题性研讨会，如北卡教堂山分校信息与图书馆学院2007年主办的DigCCurr2007[22]、台湾大学图书馆和伊利诺伊大学图书馆联合主办的“E-Research：新世代学术研究之利器”研讨会等。与DC有关的国际性学术期刊已经有Data Science Journal、The International Journal of Digital Curation，而International Journal on Digital Libraries、Journal of Digital Information以及JASIST等期刊也刊登了大量数据监管理论研究和实践进展方面的论文。

在数据监管实践方面，参与主体众多，具体到图书馆方面，霍普金斯大学图书馆2007年成立了Digital Research and Curation Center(DRCC)，关注于数字图书馆中数据的可获性与合理保存，提供专业的数据管理服务[23]；麻省理工大学图书馆2008年搭建面向全校的数据管理网站，为用户量身定制个性化数据管理流程[24]；而在国内，CALIS也建设了“高校科学数据共享平台”，基本形成了数据提交、数据组织、数据保存、数据共享、数据使用等规范，而此平台项目的建设主持方武汉大学图书馆还面向其校内开通了“武汉大学科研数据管理平台”，该平台隶属于图书馆的学科服务平台，是学科服务的一种。复旦大学也建设了复旦大学社会科学数据平台，其中复旦大学图书馆承担了基本需求分析、元数据规范、平台设计方案等工作。

2 嵌入式学科服务中的科研数据

要更好地理解嵌入式学科服务中的科研数据，需要从图书馆嵌入式学科服务、图书馆参与科研数据管理以及融入嵌入式学科服务的科研数据监管等几个方面来审视和探讨。

2.1 嵌入式学科服务的发展

ARL以Transforming Liaison Roles为主题发布报告，提出学科馆员应该嵌入用户的研究、教学和学习过程中，建立参与用户学术行为的新模式[25]：Shumaker等将图书馆嵌入式服务模式分为物理嵌入、组织嵌入和虚拟嵌入三种[26]；初景利等认为学科服务的嵌入包括目标嵌入、功能嵌入、流程嵌入、系统嵌入、时空嵌入、能力嵌入、情感嵌入、协同嵌入八个方面[27]；刘颖从物理空间的嵌入、数字空间的嵌入、社会关系的嵌入、组织结构的嵌入等方面对嵌入式学科服务展开讨论[28]；杨蔚琪则认为嵌入式学科服务的特点主要体现在目标嵌入、内容嵌入、过程嵌入、时空嵌入、系统嵌入、协同嵌入等方面[29]。不管如何定义与划分，嵌入式学科服务都是需要馆员融入到信息环境中，随时解决用户遇到的各种问题，满足用户在研究、教学和学习过程中的各种需求，这其中就包括了对科研活动的支持。针对科研活动的嵌入式学科服务也有很多种，诸如馆员加入研究团队、开设专门用于研讨的空间、嵌入用户计算机桌面的信息服务工具等。一般而言，针对科研用户开展的嵌入式学科服务应针对课题的不同研究阶段提供不同的服务[30]。不过，对嵌入式服务中的科研数据管理问题关注得并不是很多。

2.2 图书馆与科研数据管理

长久以来，大学图书馆在科学研究支持方面发挥着重要作用，如图书文献资料的保存、编目、查找，数字化及数字资源环境建设，学科服务，参考咨询。近年来大学图书馆对数字资源的管理、共享等方面的实践使其有能力为高校科研人员提供数据监管服务。Luis Martinez等直接提出图书馆员在未来科研数据管理中将会拥有新角色“data curators”[31]；Rick Luce认为图书馆在e-science环境下将会改变传统的文献和学术交流视野，聚焦于数据领域开展数据保存(存档)、机构库建设、资源发现、数据素养教育与培训等工作[32]；Gold Anna认为图书馆在科研数据服务中的角色主要体现在国家数据管理规划和发展策略制定的参与者、高校科研数据管理的实施者、科研数据管理人才的培养者三个方面[33]。相比其他类型的图书馆，大学图书馆更容易接触到各学科科研数据，也有机会和研究人员、教师们建立密切的联系，通过开展各种类型的科研数据管理服务实现科研数据的有效管理和共享，使得图书馆真正成为高校的数据监管中心。国外已有不少大学图书馆开展了科研数据管理介绍与指南、数据监护、数据管理培训、数据管理咨询、相关工具与资源的推荐等服务[34]。

2.3 嵌入式学科服务与科研数据监管

图书馆学科服务在理论和实践上已经积累了一定的成果和经验，所以可以通过深化学科服务，使得图书馆在科研数据监管领域占据一席之地，成为新科研环境下知识管理与服务的全能者[35]，并且学科服务和科研数据监管都具有学科性、动态性、协同性等特点，所以从未来长远来看它们的发展方向也是一致的。

科学研究是一个动态、交互的过程，要求相关的数据服务融入到科研活动的各个阶段，具体表现为人员、产品、平台、服务的全方位融入。图书馆员将以科研人员合作者的身份出现，制定相关规范要求，协助科研人员利用相关工具查找其所需文献、数据，记录实验过程并存储结果，以实现相关数据成果在未来的共享和再利用。这就需要图书馆员能根据用户需求的动态变化灵活驾驭整个数据服务过程(包括数据的采集、整合、存储、评估、分析、再利用等)[36]，实现资源、人员、工具、服务的动态组合，满足用户不断变化的需求。针对e-science的发展，学科服务应嵌入到科研环境中，关注不同学科对信息资源的需求特点[37]，另外，科研数据管理与服务在本质上是一种跨界服务、嵌入式服务及动态服务，所以更需要强调融入科研一线，嵌入到用户科研环境和科研过程，提供个性化服务，方便用户发现、获取、利用其所需科研数据[38]。

面向嵌入式学科服务的科研数据监管要从服务层次设计、数据环境构建、科研数据组织与揭示、数据信息素养培养以及人员组织等方面去探索图书馆馆开展科研数据监管的方式和模式。具体而言，图书馆科研数据监管服务可以按照服务中所需的智力程度分为直接数据存取服务和数据分析服务，前者是基础，后者是趋势；而从嵌入式学科服务的具体服务形式上来分，可以分为过程嵌入、人员嵌入以及平台嵌入[39]。虽然国内研究者对嵌入式学科服务和数据监管都有着一定的理解，在理念推广、思路探讨等方面也有一定的积累，但是对具体如何在嵌入式环境下开展科研数据监管工作却讨论得不够。

3 牛津大学的科研数据监管

牛津大学对科研数据监管的探索由来已久，其认为保证科研数据在今后能够被检索到是科研项目的重要组成部分，因为在必要的时候科研过程和结果需要被验证和持续维护。

3.1 数据监管生命周期模型

牛津大学基于对科学研究中的数据及数据监管需求的深入理解，提出了图1所示数据监管生命周期模型，包括了数据管理计划、数据备份和安全、数据分享和归档三大部分，此模型成为牛津大学科研数据监管实践的指南。

3.2 数据管理计划

数据管理计划是数据监管的起始，这一部分包括数据管理计划清单、大学和资助机构政策、数据管理计划内容、伦理和法律问题、数据的组织和描述五部分内容。

(1)数据管理计划清单。众所周知，持续地管理数据可以减少数据丢失的风险。数据管理计划清单要告诉科研人员在数据监管前，甚至是数据产生前，需要考虑的内容有哪些，该清单将帮助科研人员在整个项目的生命周期内维持、保护并且提升研究数据的价值。

(2)大学和资助机构政策。不同的研究资助机构有着不同的科研数据管理政策，表1概括性地介绍了几个牛津大学的主要资助机构数据政策。

(3)数据管理计划内容。数据管理计划要确保数据管理的所有方面都在项目开始时被充分考虑，并在其后整个项目过程中持续地被维护。数据管理计划有时候也以不同名字出现，如数据分享计划(NIH)、技术附件(AHRC)等，不同政策框架下的数据管理计划内容各不相同，不过一般都会包括：①项目介绍；②对现有数据的调查；③项目产生的数据；④数据组织的方法；⑤数据管理方面的问题；⑥数据分享与归档；⑦具体责任；⑧资金及分配。当然，在具体计划制定和实施时绝不是上述罗列的这么简单，比如在考虑数据组织方法时，怎么命名数据文件?数据如何组织到文件夹中?数据集是用文件系统还是用数据库?如何管理不同机器间的数据传输和数据同步?如何在数据层面管理与研究同事间的协作?如何追踪不同数据文件和数据的不同版本文件?上述这些问题都需要被进一步考虑。

(4)伦理和法律问题。数据的分享要遵守一定的法律和道德要求。一般情况下，研究人员使用知情同意、匿名化、访问控制等策略后，绝大多数的研究数据是可以被合理合法利用的。①知情同意书要让科研项目组成员们了解科研数据如何被保存、存储、使用以及如何保密、相关承诺和维护等问题，为保证充分知情，同意书要提供足够的信息并被免费告知，若没有处理好此类问题很容易造成数据被限制使用、出版和分享。②数据匿名化能保证个人、组织或商业机构不被识别，牛津大学专门提供了定性数据匿名和定量数据匿名的指南。③对于有一定密级的数据，访问控制是常用控制手段，不同层次的访问控制权限适用于不同的数据，在有些场景下还需要将访问机密数据的权限和访问非机密数据的标准结合在一起。

(5)数据的组织和描述。良好的数据组织和描述有助于科研数据被检索，进而提升其共享率和数据价值。在数据组织时，首先要考虑的是文件格式问题，现在用的这些文件格式五年后会不会被继续使用呢?其次是数据关联问题，要使用最合适的信息组织工具以确保相关数据以某种方式连接在一起。另外，给数据文件添加关键词或者标签可能有助于以后被更加容易地找到，尤其是那些音频文件和视频文件，图书馆员或数据管理人员也可以使用元数据来描述科研数据或数据集。

图1 牛津大学数据监管生命周期模型

3.3 数据备份和安全

好的数据管理实践包括要确保在研究过程中产生的数据是安全的，因此研究者有责任定期进行数据备份。备份与归档不同，一般而言归档文件会独立于现存的原文件，而备份副本文件则会依存于本地计算机中的现存文件。前文提到的牛津大学的HFS(Hierarchical File Server)服务在备份的时候会为现存文件创建三个副本，每一个都有单独的磁盘，一般一个副本存储于磁盘库中，其他两个副本分别存储在异地防火保险柜中，而且在当前磁盘库中也会保留两个版本的文件：当前版本和倒数第二个版本(即当前版本创建之前备份的版本)。

不仅仅是数据备份，在研究成果正式发布或者出版前，科研人员希望能够控制访问研究数据的权限，包括谁能访问、访问权限以及跟踪其他人对自己的数据做了什么。科研人员也有义务保证研究数据中所涉人员信息的机密性，同样，某些类型的数据可能具有商业敏感性或是需要通过知识产权进行保护。正因为科研人员对数据有着责任，牛津大学提供了一系列安全措施以降低遗失数据、暴露数据或损害数据的风险。

3.4 数据分享和归档

数据分享可以使科研人员的研究基于前人，避免低层次的重复，这一方面是资助机构的要求，符合公众利益，二来也可以使得科研数据得到反复的验证和测试，提高了研究的科学性。同时，在技术飞快发展的环境下，数据分享也是促进数据重新被利用、发现新知识的绝佳手段。数据的分享离不开数据存储，在英国，一些研究机构或研究资助机构要求研究人员将其研究数据存储至指定的数据中心，如ESDS(Economic and Social Data Service)或NERC(Natural Environment Re-search Council)数据中心。不过目前牛津大学尚没有官方的存储库，牛津大学研究档案馆(the Oxford University Research Archive，ORA)预计将基于Databank承担起存储研究数据的职能。

4 EIDCSR项目及其实施

2006年牛津大学成立了数字存储指导小组(Ox-ford Digital Repositories Steering Group，ODRSG)，2008年启动了数据管理存储服务的探索项目，2009年嵌入机构的科研数据监管服务(Embedding Institutional Data Curation Services in Research，EIDCSR)和人文学科数据管理支持架构(Supporting Data Management Infrastructure for the Humanities，SuDaMIH)获得了JISC的支持和资助，其中EIDCSR项目是牛津大学开发研究型数据管理基础设施项目的一部分。

4.1 EIDCSR项目简介

EIDCSR项目的关注点是确保科研中产生的数据能够被安全地保存和记录在案，确保未来的可获取和再利用[41]。在EIDCSR项目基础上，SuDaMIH项目进一步关注在不同的学科特点基础上开发具有特色的基础架构和设施。在牛津大学图书馆、计算机服务部、学术服务部、伦理委员会和各类研究人员的通力合作下，牛津大学制定出指导数据监管活动的数据监管生命周期模型，对整个监管活动的具体流程及其具体注意事项都有详细描述，而EIDCSR项目的具体实施则是围绕着Technologies for 3D Histologically-detailed Reconstruction of Individual Whole Hearts(以下简称“3D心脏项目”)这一具体项目展开的，所谓“嵌入”即嵌入到该课题研究的每一个过程中去。

3D心脏项目是由BBSRC资助的，聚焦于豚鼠心脏3D组织重建技术，研究团队通过对豚鼠心脏进行切片、磁共振成像、仿真模拟，进而形成心脏模型，研究有助于临床观测心脏纤维分布走向，并能通过观测对比心脏健康情况。该项目由牛津大学的两个研究团队——心脏机电反馈小组(the Cardiac Mechano-Electric Feedback Group，CMEFG)和计算生物小组(the Computational Biology Group，CBG)联合开展研究，其间还得到牛津大学心脑血管医学部门DCM的支持。该项目中会产生大量数据，EIDCSR项目组和上述两个研究小组共同工作，通过了解该项目的工作流程梳理科研数据结构，明确数据类型，借鉴了DCC数据生命周期模型[42]将整个研究过程映射到数据生命周期中。在具体项目实施中，EIDCSR项目组参考3D心脏项目资助机构的数据监管政策要求，并结合牛津大学在数据监管方面已有的积累，将数据管理基础设施和配套工具嵌入到研究人员的工作流中，以实现数据管理工作嵌入科学研究的每一个过程，从而在数据生命周期的各个阶段提升数据监管实践。

4.2 项目需求分析

EIDCSR项目初始阶段，负责项目牵头的牛津大学图书馆对3D心脏项目研究小组进行了需求调研，通过发送电子邮件和组织内部沟通等方式向其介绍EIDCSR项目情况，积极主动地邀请他们参与科研数据监管方面的研究和实践。如果相关的科研人员有一定意向，简短的调研表和通用的数据资产登记表模板都会被及时提供，在接下来的访谈中他们还被要求描述其研究领域和研究问题，并提供一些关于数据产生和收集的细节，如生成的数据类型、数据量及相关软件和设备等。然后，访谈分析人员会根据研究人员的回答填写数据资产登记表，项目中所用的数据资产登记表是基于数据审计框架方法(Data Audit Framework Methodology，DAM)的，该方法是由DCC和JISC联合开发的，能够帮助研究机构执行数据收集和数据管理审计。一般而言，整个访谈不超过1个小时，通过访谈，EIDCSR项目实施人员能够更好地理解该研究数据产生和利用的过程，并且能共同确定研究有何种数据、要存储在哪里、谁对这些数据负责、如何被访问和增值等问题。

数据资产表是数据管理人员和科研人员沟通交流的工具，可以帮助他们就数据资产的一些重要属性达成一致，关键的属性包括但不限于数据集名称、描述、创建者、权限等。在实际项目推进中，因为研究会产生不同数据类型的数据，所以基于DAM设计了多张数据资产登记表，包括组织数据(Histology data)资产登记表、解剖和扩散张量磁共振成像数据资产登记表以及分割、网格、仿真、3D心脏图集数据资产登记表等。在此基础上，EIDCSR项目组和3D心脏项目研究人员还共同确认了安全存储、数据传输与检索、元数据规范等方面的需求。

4.3 项目具体实施

此阶段的任务是将上阶段的需求转化为实施计划，EIDCSR项目组根据3D心脏研究小组的需求，为其构建恰当的符合政策要求的元数据模式、存储检索模式、政策框架实施等。

(1)元数据模式。牛津大学图书馆和EIDCSR项目组对元数据标准进行了深入研究，虽然已经有很多专业学科的元数据标准被使用，但是想找到一个几乎适用于任何研究数据的基本元数据框架还是很难的。EIDCSR项目组选择在参照都柏林核心元数据的基础上创建自己的核心元数据字段，同时允许个别研究小组自定义其具体领域下的字段。牛津大学图书馆的Databank系统非常灵活，其只要求任何发送过来的数据至少包含唯一标识符、数据创建者姓名、权利信息、数据集名称这4项元数据信息，其他建议的元素则主要来自都柏林核心条款[43]和数据引证模式[44]。EIDCSR项目组和3D心脏项目组研究人员共同确认的元数据核心字段由一般元数据和监管元数据组成。

(2)安全存储和检索服务。在整个研究数据生命周期中，安全存储和检索服务已被嵌入到数据监管实践中了，其中图书馆的DAMS提供合适的管理架构，Databank进行元数据管理和登记，HFS被用于提供安全地长期数据存储。在项目初始阶段，包含物种、性别、心脏样本重量等信息的数据被研究人员作为基本的、核心的数据，在项目全面展开后，研究人员不仅会将XML编码保存的描述数据在本地目录上更新，同时负责归档的人员还会同时启用EIDCSR元数据归档客户端将数据文件和元数据相互关联在一起，数据文件被发送至HFS，元数据被发送至Databank。Databank搜索界面可以用来定位相关的数据资源，查看数据集的描述元数据(包括数据集产生的过程)，研究人员可以发送请求来获取资源，如果请求被数据监管长官批准的话，请求者可以获得下载数据的URL地址。数据监管长官的默认值设置为研究项目的主持人，但是此职责可以被委托给其他的研究人员或是具有明确数据监管职位的人。

(3)数据监管政策和指南。数据监管不是简单地建立一个数据存储检索分享系统，还关乎一系列的政策问题。3D心脏项目研究是从BBSRC处获得资金的，而BBSRC本身对数据管理有自身的政策要求，从2007年起，BBSRC对获取和出版研究成果以及数据共享等方面多次发出声明，表示其认可并支持国际性的数据共享工作[45]。牛津大学对EIDCSR项目提出的数据监管方面的要求主要体现在前文介绍的数据监管生命周期中，这也是牛津大学数据监管的最佳实践指南。

此外，EIDCSR项目不仅推动研究数据的保存，还特别强调数据的获取，这也是数据保存的价值所在，其专门开发了workbench可视化软件，可以阅览三维的MRI图片，该软件为开源软件，所以不仅牛津大学相关研究人员可以使用，也能为其他组织的人使用。

5 对我国开展科研数据监管服务的启示

牛津大学在数据管理架构上的实践为其他大学提供了学习的案例，其广义的研究数据工作流和监管工具具有足够的适用性和可扩展性，保证了各个学科的研究团队能够同样好地保存和记录他们的研究成果，这为我国开展数据监管服务、提供嵌入式学科服务提供了丰富地借鉴。

5.1 过程嵌入视角下的数据监管

数据监管的生命周期应该和科研活动的开展及其数据的生命周期匹配起来，图书馆等相关数据监管机构在开展此类服务时，应该充分了解具体研究推进的各个阶段，调研用户数据管理上的需求，制定合理的数据监管计划。过程的嵌入更多体现在对不同学科、不同类型项目的把握上，因为不同的学科产出的数据都有自身的学科特征，比如人文社会科学产生的数据大多是文本或调研数据，而生物医学专业则更多是实验数据和观测数据。不同类型的数据对数据监管的要求也有所不同，比如对于不可再生的数据往往需要长期监管和保存，而对于实现成本较低的实验数据可能只需要记录实验条件和相关设备，并不要监管整个实验数据本身。数据监管工作要真正嵌入到科研过程中才可能根据不同学科标准和不同研究需求，在弄清楚产生数据的类型、特点、重要性、机密性以及是否要遵循资助机构数据管理要求的基础上，由学科馆员和科研用户一起制定出切实可行的数据监管计划，进而为科研数据提供量身定做的监管服务。

过程嵌入视角下的数据监管还需要图书馆等数据监管机构提供更多服务功能，并通过各种手段提升用户共享数据的意愿。在研究开展的不同阶段可能需要数据加工描述服务、数据存储服务、数据发现和共享服务等不同的服务功能，数据加工描述服务是基础性工作，需要学科馆员辅助科研人员根据科研数据的类型、特点和相关资助机构数据管理要求描述和处理数据；数据存储服务是数据监管所需核心功能，要在科研价值判断的基础上为科研数据选择合适的存储期限和存储地点；而数据发现和共享服务则常常会和图书馆提供的检索功能结合在一起，帮助科研用户发现、检索、获取数据。

5.2 人员嵌入视角下的数据监管

嵌入式学科服务中常常采用学科馆员融入研究团队的方式开展相关服务，数据监管服务提供中这一点同样是极其重要的，在牛津大学的案例中可以发现大量场景下工作都是由包括图书馆馆员在内的多个小组共同推进的。在我国，不少图书馆已经开展了多年的学科服务，学科馆员与科研人员之间也建立起相对紧密的合作关系，这为图书馆推广数据监管服务以及在实践过程把握用户需求奠定了基础，学科馆员成为图书馆和科研人员之间的桥梁，承担“最后一英里”的职责。所以从某种意义上来说，人员嵌入是将数据监管服务融入到日常学科服务中的关键。

人员嵌入和组织嵌入也有着密不可分的关系，数据监管服务的开展也与具体科研项目的特征有关。对于一些由政府资助的大型研究项目而言，其研究数据一般存储在专门的数据中心和存储库中，学科馆员融入其中发挥的作用更多是协调性的、辅助性的；而一些相对较小项目的科研数据则可能会被存储到机构库或大学自建的存储系统中去，这时学科馆员不仅要说服科研人员并监督科研数据被纳入监管体系，还要通过其努力促使科研数据增值以推动创新，其作用将会是主导性的。图书馆作为学科服务提供的主体，也应该创造更多机会提升学科馆员数据监管方面的技能，只有这样，其才可能融入团队活用数据监管模型，创建针对性的数据组织、描述、存储标准。

5.3 平台嵌入视角下的数据监管

数据监管平台的构建是数据监管活动依赖的基础设施，平台应包含如数据资产提交、检索、浏览、用户管理等功能。平台只有连接用户嵌入流程才可能真正发挥作用，从某种意义上来讲，平台嵌入是过程嵌入和人员嵌入的系统固化。因为数据监管可能涉及的参与者较多，需要考虑的因素也较多，所以一般会采用合作共建。当然，共建的模式多种多样，有校内合作模式，有校外合作模式，甚至还有国内外合作模式。比如牛津大学EIDCSR项目是由图书馆、计算机服务中心、IT指导办公室合作搭建的，属于校内合作模式；康奈尔大学DataStaR项目既是一个平台，又是一系列服务，由康奈尔大学图书馆和华盛顿大学圣路易斯分校一起合作开发的，属于校外合作模式；而新墨西哥大学图书馆主导的DataOne则是与世界各地知名的地球环境研究机构合作的分布式数据监管体系，是国内外共建模式的代表。数据监管平台的建设要符合机构的数据管理需要，选择的搭建模式也要与之匹配，不管最终物理存储于何处，平台所涉各方都应该是一体的，目标一致地开展协作、共同推进。

在平台建设推动中，图书馆应积极主动地发起数据监管服务方面的交流和会谈，通过与校内部门、研究机构、其他数据存储机构或数据监管平台的协作，实现资源的互补和利用。牛津大学图书馆就建议采用分开存储数据和元数据的方法以最大限度地利用现有平台资源，以减少数据监管服务提供的成本支出，当然将数据和元数据放在一起以简化流程在另外一些场景中也许是更好地选择。相对集中的数据监管平台可以提高IT基础设施利用率，也有利于周边数据管理工具的开发以提升图书馆员和科研人员的数据管理效率。

在今天，数据监管服务已经成为研究型图书馆新的战略性服务，而科研数据监管也和学科服务密不可分，希望本文上述的梳理、借鉴和探讨能够帮助国内研究型图书馆更好地审视这项业务，更好地开展此类服务。

标签：数据管理论文; 元数据论文; 大数据论文; 嵌入式论文; 组织环境论文;

嵌入式学科服务中科研数据的监控研究_数据管理论文

猜你喜欢