国外数据监控教育与职业发展研究_大数据论文

国外数据监护教育与职业发展研究,本文主要内容关键词为:职业发展论文,国外论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 数据监护概述

高校图书馆在数字资源长期保存领域已经有20余年,但未对科研过程中所产生的大量数据给予足够重视,随着国内外科学共享工程的开展,国内外的机构库累积了海量的科学数据,如何有效地对科学数据进行管理和完善,是高校和科研机构迫切关心的问题。数据监护(data curation)服务逐渐成为国外科研及实践的热点[1]。

根据英国联合信息系统委员会(JISC)的定义[2],数据监护指在数据的生命周期内,对数据进行评估管理、维护和完善增值,以便于数据在当前和未来被使用。数据监护有两层含义:一方面指对科学数据的选择、注释、组织和存储;另一方面还有产生附加价值和知识的功能:新数据是经过实质性加工、具有智力投入的成果;监护过程具有增值的普遍特性[3]。

数据监护被美国大学与研究图书馆协会(ACRL)列为2012年学术图书馆十大趋势之一[4],美国高校图书馆开展了一系列的数据监护实践活动[5],如2007年国家科学基金(NSF)的以图书馆为主体、计划5年资助5项重点研究课题DataNet计划,该计划于2009年全额资助由新墨西哥大学图书馆开展的DataONE项目[6]和约翰·霍普金斯大学图书馆开展的Data Conservancy项目[7]。为了培养数据监护专业人员,伊利诺伊大学开展数据监护教育计划DCEP[8]及北卡罗来纳大学的数字化监护课程项目DigCCurr[9]。

美国之外,欧洲国家的一流社会科学数据中心,如英国国家数据资料库(United Kingdom Data Archives,简称“UKDA”)、德国社会科学基础设施协会(GESIS)、荷兰国家数据档案和网络服务中心(DANS)、欧洲社会科学数据存档委员会(CESSDA)等均对数据监护进行了一系列的研究与实践活动,富有成效。

社会科学研究的成果会影响政府关于教育、工资、健康和养老金的政策。每一项研究都很大程度上依赖于研究人员所使用的大集合高质量的数据。对于社会科学数据而言,数据监护并不是新生事物,UKDA更是有四十余年的数据监护历史。数据监护的意义在于:研究过程需要验证、重复、链接和共享科学数据;研究数据的高投入、易损失和不可替代性;从现有数据中产生“新”知识的潜力;研究基金机构的数据保存需求;作为机构资产进行管理[3]。为了解数据监护的全貌,本文选择UKDA为对象,针对它开展的数据监护活动做一案例研究,阐述其标准与实践。

2 UKDA简介

UKDA由欧洲科学研究理事会(ESRC)、JISC和埃塞克斯大学资助,于1967年成立,并持续从这些机构获得资金支持,UKDA是英国最大的社会科学与人文科学数字资源仓储平台。2005年以来,UKDA被国家档案馆指定为数据托管和存储处。

UKDA从高校、政府和商业部门获得高质量的数据,并提供持续访问这些数据的途径。通过与英国国家档案馆、国家统计局等官方机构,世界银行及国际货币基金等组织的合作与资料交换,UKDA目前共收录5000余种、且平均每年持续更新新增200种的人文社会主题资料集,内容涵盖人口、社会、政治、经济、行政、法律、环境、医疗和历史等领域。

UKDA一直都是欧洲乃至世界的数据监护和共享数据的领先者。诚如UKDA的数据长期保存负责人Matthew Woollard所言[10],UKDA的数据监护有四十余年的历史,积累了丰富的专业经验。为确保提交到UKDA的数据现在和将来可用,UKDA在多个地点部署数据的多种格式的多个版本,并保证数据的易得性、可用性和可靠性。

3 数据监护的四部分

UKDA的数据监护主要分为处理流程、质量控制、数字资源保存策略和可信的数字资源仓储平台四个部分[11]。

3.1 处理流程

所有收藏提交到UKDA之前,必须经历过一系列的数据处理步骤以备共享和重用。

图1 UKDA数据处理流程

如图1所示,分为9个步骤:

(1)数据转换:数据到达UKDA之前,工作人员与政府部门、研究人员和其他数据拥有者、创建者联络,以确保数据以最好的形态处理存储。

(2)给数据分配处理标准:UKDA有四个层级的处理标准,将根据数据集的实际情况来选择其中一个处理标准。所选择的标准取决于包括对数据集的性质和状况、文档的数量和复杂度、使用状况的评估,以及是否适合提供到网站上供在线浏览系统工具使用等这些条件的评估。UKDA提供三个数据的在线浏览系统工具,包括NESSTAR、HISTOP和ESDS。它们收录的数据集有所侧重。

(3)数据处理:在处理之前,UKDA会检查提交的文件,验证数据和检查数据标签,并确保数据的完整性。如有必要,UKDA还将和数据提交者合作对数据进行匿名化处理,以便保密数据。然后,为调查数据准备变量列表,或为定性和历史研究数据准备数据列表。这些准备工作通常使用内部脚本,而且往往是手工加工,在此基础上准备存档和传播版本的数据。最高的处理标准往往需要对调查文本进行标签完善、将调查变量分组以及用XML标记,处理之后,可以通过在线系统的访问。

(4)文档处理:在数据处理的同时处理文档,文档是便于更好地使用数据的所有资料的集合。如果材料不全,会请数据提交者提供。然后将文档转换为相关的可用的格式,如分页在线用户指南。

(5)创建元数据:在数据处理和文档处理开始,进行元数据创建,并持续到它们完成之后。元数据的信息来自数据提供者填写的表单,其他的工作由专业编目人员进行。编目采用DDI元数据规范,以便数据被检索、共享和引用。

(6)其他使用者信息:添加包含数据集处理标准的细节信息的文件。数据提交者有机会访问已经处理归档的数据集和处理过程信息。

(7)发布数据:当所有的数据和文档准备完毕后,这些材料将被转移到存储系统,该系统核查所有的文件是否被添加,并确保这些文件没有问题。在这个阶段,数据集的目录记录予以公布,提供给用户访问。

(8)数据传递:UKDA通过资源发现系统相连的下载系统传递数据给用户。同时UKDA管理数据集访问的条件,回答用户咨询,并保存用户的使用数据用于战略规划之用。

(9)数据保存:在多个安全的地方以多个版本保存备份数据,确保没有数据丢失。当新的格式成为普遍格式时,UKDA也跟着迁移数据和其他文件成新的格式。

3.2 质量控制

UKDA处于制定数据处理国际标准的最前沿,这些数据涵盖定性和定量数据。对数据的质量控制分不同等级,取决于有多少“附加价值”被添加到数据。质量控制伴随着数据处理进行,数据有四个层级的处理标准A*、A、B和C,大部分数据处理过程包括验证和内容检查。绝大多数的定性数据以A的标准处理,少部分被加强到A*。B和C很少用到,一般用于关于旧报纸数据的研究。处理标准如表1所示。

定量数据的质量控制包括:数据集大小检查、元数据检查、数据可用性检查、保密性检查和元数据完善等方面。

质量控制还包括不同处理过程的格式转换的检查,包括从摄入过程到保存过程的检查,从保存过程到数据发布过程的检查等。UKDA有内部程序自动完成大多数的数据格式转换,确保没有数据或内部元数据丢失。

3.3 数字资源保存策略

数字资源保存策略概述了UKDA的主要活动的基础架构,这些活动围绕积极的数字资源保存原则展开,以确保监护的所有资源的真实性、可靠性和逻辑完整性,同时给教学研究或学习提供永久可用的版本。UKDA的数据保存策略符合OAIS参考模型,在此基础上根据保存的具体资料的特性进行增加和修改,均基于开放和可用的文件格式、数据迁移和媒介的更新。

数据保存策略每两年修订一次,一方面开展对所有资料保护进行必要的措施,另一方面适应和扩展国内外数字资源保存的新标准,以此满足立法和问责制的要求和广大用户的期望。

UKDA制定合适的战略方针,通过监控硬件和软件的发展和迁移收藏的数据系列,来确保在数字资源长期保存技术方面的领先优势,并通过在所有处理过程中嵌入质量意识,不断提高各方面的保存相关的工作流程。

3.4 可信的数字资源仓储平台

一个可信的数字资源仓储平台能为现在和将来提供长期可靠的数字资源的访问。通过定义、满足和支持普适标准,在这方面UKDA走在了前列。信赖是数字资源保存的关键要素之一,同时也一直是数据提供者和用户之间一个重要的议题,随着标准和最佳实践的出现,它日益成为更加正式的主题。

UKDA通过三个方面来确保仓储平台的可信:

3.4.1 对机构的信任

学术团体对电子资源保存或其他保护服务的依赖正在迅速增加。无论是本地图书馆保存、协作机构之间进行保存或由第三方机构保存都需要一个审核和认证的公正的组织[12]。从社会学的角度来看,提供长期数据访问的任何机构要获得完全信任,必须发表公开声明,说明他们遵循的数据处理的做法和所提供的数据的出处。

3.4.2 信任的标准

公众会普遍相信国家统计局发布的数据,有什么标准可使公众信任仓储平台发布的数据并评估信任的等级呢。有三个关键标准分别是:数据批准印章(DSA)[13];可信的数字仓储平台的审核和认证(ISO 16363[14]);可信的数字典藏标准(DIN 31644),可用来给UKDA类似的数据仓储平台评估自身支持的信任等级。

(1)数据批准印章(DSA):欧洲信任框架的入门级标准,为仓储平台、数据的生产者和使用者之间的关系提供了16项指南。DSA最初来自社会科学和人文社区,由荷兰数据归档和网络服务(DANS)机构主导,但它适用所有部门。与ISO和DIN标准相比,DSA没有审计过程或实地考察。DSA用最小的成本为仓储平台提供信任等级的评估,仓储平台对照16项指南进行自我评估,然后被DSA认可的其他同行评审。UKDA参与了创建DSA,并通过DSA的信任等级认证。

(2)ISO 16363:可信的数字资源仓储平台的审查与认证,于2011年9月成为推荐的实践活动。它的前身是可信的数字信息库和审核检查表(TRAC),被提供审核和认证机构的需求的ISO 16919支持,由可信的数字资源库授权体(ISO-PTAB)管理。标准分为三个主要部分:组织基础设施、数字对象管理和基础设施、安全风险管理。每个部分提供了大量的测度例子,仓储平台可以对照例子对自身符合要求的指标进行评估。一旦全面启动和运行,PTAB支持在完整的审计和实地考察之前,仓储平台自我评估。作为APARSEN项目的一部分,UKDA参与了2011年ISO 16363最终版本的测试和审计。

(3)DIN 31644:是可信的数字典藏资料和文件编制标准。由DIN可信数字典藏工作组在10个核心需求的基础上开发的。范围从档案馆、图书馆和博物馆等机构到旨在以数字形式保存信息的所有机构扩大。该标准有三部分:组织、知识产权实体的管理、基础设施和安全。数字典藏与最佳实践的例子为每一个需求以及文学的附件完成的标准。DIN标准作为APARSEN项目的最后测试过程的一部分完成,并于2012年在德国出版。

3.4.3 构建可确保信任的框架

UKDA为审计和认证数字仓储平台,正在贯彻新兴的综合性框架,包括上述的三个标准:DSA、ISO 16363和DIN 31644。入门级必须达到DSA的标准,扩展级别要求,除了DSA,还需要提供一个对DIN或ISO标准的自我评估的外部同行评审。正式认证要求ISO或DIN标准。

这个框架由欧盟委员会支持和协调,旨在提供适合不同组织类型和目标的一系列解决方案,重点在于随着时间推移提高组织的信任等级。三个信任标准的代表都签署了理解备忘录,用于投入审计和认证数字资源仓储平台的综合框架。

作为UKDA为这个框架宣传工作的一部分,UKDA已经为欧洲社会科学资料档案理事会(CESSDA)的所有成员构造一个项目提议,以便成员了解自己的信任等级,保持与DSA的一致性,并为成员的数据档案采纳的其他标准提供支持和反馈。该项目预计在2012年年底开始,也将DSA指南与CESSDA-欧洲研究基础设施的联盟(CESSDA-ERIC)之间的需求进行映射。

4 结语

随着各国对科学数据的越来越重视,数据监护正成为一种涉及多种不同学科和研究机构的研究和实践活动。与美国的数据监护活动相比,UKDA更注重构建可信的数据资源和仓储平台,鉴于UKDA在欧洲的地位的重要性,UKDA参与三个欧洲可信的标准制定并进行推广。UKDA的数据监护涉及处理流程、质量控制、数字资源保存策略和可信的数字资源仓储平台四个方面,需要整体规划和各个环节的通效配合,短期看费时费力,但从40多年的实践来看,效果显著,非常值得我国在建设科学数据中心时借鉴。

(收稿日期:2012-11-20)

标签:;  ;  ;  ;  

国外数据监控教育与职业发展研究_大数据论文
下载Doc文档

猜你喜欢