国外通用数据库的政策调查与分析_机构知识库论文

国外通用型数据知识库的政策调研与分析,本文主要内容关键词为:知识库论文,通用型论文,国外论文,政策论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      收修改稿日期:2015-06-15

      分类号:G237.6

      1 数据知识库政策是科研数据开放共享的核心环节

      数据已成为科技界的“一等公民”(First Class Citizen),过去仅仅依赖科研论文作为学术评价的方式是一种历史局限[1]。为了有效地促进科研数据开放共享,科研人员逐渐形成了较为规范的数据发布途径和数据权益贡献体系,包括:利用数据知识库存储与发布科研数据;利用数据期刊发表经过同行评议的科研数据描述符[2];利用学术期刊发表有可重复验证的科研数据所支撑的学术论文[3]。

      三者之间的具体关系如图1所示[4]。由此可知,科研数据知识库(Research Data Repository,RDR)并不仅仅是一个科研数据开放共享的基础设施,更是整个规范的科研数据评价体系的基石。数据知识库的研究重点不仅是信息系统建设,还涉及数据质量审核与数据贡献评估,更重要的是作为整体科研数据发布规范政策的重要组成部分。

      

      图1 科研人员发布数据的三种途径及其关系[4]

      科学研究有赖相互批评、相互成长、相互借鉴;在循环与动态的科学研究过程中,可理解的科研数据成为支持科学结论检验的重要依据[5-6]。科研数据既是科学研究的结果,也是启发进一步科学研究的宝矿[7],为了确保科研数据和相关信息的可获取、可理解和可使用,国家政府、科研资助机构、科研教育机构、科研数据中心、科研人员、图书馆员和数据知识库管理员等都发挥了重要的贡献[8],相关权益分析逐步展开[9],科研数据开放共享的基础环境正在形成[10]。科研数据的开放共享,不仅需要将其可靠存储,而且需要建立严谨细致的科研数据溯源管理[11]。

      由于国家、基金组织、科研机构、期刊等对支撑科研成果的科研数据提出强制性存储要求和鼓励性建议,国际上建设了一批服务于科研社群的高质量数据知识库,如:Edinburgh DataShare[12]、Open Data LMU[13]、PANGAEA

[14]、Dryad[15]、figshare[16]、The Ber(li)n Digital Pantheon Project[17]等。为了帮助科研人员分辨并遴选合适的数据知识库,进而存储和重用其科研数据,数据知识库注册与目录系统应运而生,主要有OAD[18]、re3data.org[19]等,它们以全新的方式对数据知识库的相关信息进行整合、链接和呈现[20]。

      中国在科研数据基础设施建设与研究方面已取得一定成果,如科研数据共享工程[21]、地球系统科研数据共享平台[22-23]、寒区旱区科学数据中心[24]、国家人口与健康科研数据共享平台[25]、国家农业科研数据共享中心[26]等,这些数据中心集中于大数据和项目数据的建设,目前已经形成一套科学数据的共享体系[27],但对于通用型数据知识库的政策研究尚处起步阶段。

      数据知识库,因其自身随着科学技术方式和环境的变化而发展,而且面对不同的学科领域、数据形态、应用层面有着不同的特点和分类[20]。根据前期调研结果[28-29],在本文中将数据知识库分为通用型和专业型两大类,如表1所示。

      

      2 数据知识库的政策研究

      2.1 研究提问

      数据知识库不仅是一套信息系统,更重要的是作为科研数据开放共享的推进器。因此,传统的信息系统政策调研,注重“创建-提交-管理-使用-保存”流程管理的内容,并不适用于数据知识库调研。与之相反,如果从“用户”和“非用户”的角度进行“逆思考”,即为什么有的数据知识库得以获得广大科研人员的支持,有的数据知识库则难以被为之所用。

      本研究从“利益关系人”的角度切入,包括科研资助者、科研管理者、信息服务者、出版商、科研人员等角色。围绕数据知识进行简化后,表明数据管理者(数据知识库本身的管理团队和经验团队)、数据提交者(愿意贡献科研数据的科研团队或者个人)、数据使用者(可能是同一批或者不同的科研人员)三方角色,关系着数据知识库是否得以有效运行。

      鉴于此,笔者的研究提问是:谁(第一角色)号召着谁(第二角色)存储数据,并且规定谁(第三角色)如何使用数据。笔者将第一、二、三类角色所关心的问题作为本文的研究问题,总结如表2所示。在研究问题下的政策观测问题,即是本文分析国外通用型数据知识库政策内容的思路。

      2.2 研究对象

      本文对数据知识库的相关政策进行研究,以Dryad数据知识库有关条款[37]为主,以figshare为辅[38],系统地梳理数据存储、使用、管理过程中各方的权益与义务,归纳总结国际通用型数据知识库的政策。上述两个数据库中,Dryad由一个非营利组织管理,为多种多样的数据类型提供一个通用的主页,主要存储被国际数据知识库接受与出版的同行评议论文的相关科研数据集,且不限制数据格式。figshare目前受Digital Science的资助,允许用户上传诸如图片、数据集、多媒体、论文、海报等多种形式的文档。

      

      2.3 研究方法

      本文研究设计的方法参考《前瞻导论——形塑未来与推动政策》[39]所提到“政策内容采集”到“政策建议提出”的过程,设置观测重点。在研究过程中参考《型人导论》[40]第二章,以实用主义方法论的四大原则判断具体内容选取与否,并且在不同政策内容中,以合理的方法筛选能够解释现况的最佳选择方案,据此提炼政策要素。

      3 科研数据知识库的权益管理规范

      3.1 确保科研数据服务质量的审核机制

      (1)数据知识库对发布的数据进行审查和组织,确保文档的元数据是规范、正确、可用的。Dryad中大部分是经过同行评审的数据包[41],figshare要求确保所提交的数据中不包含任何个人信息和医疗信息,并且不违反英国《数据保护法》(Data Protection Act,1998)(作为一家公司,需要遵守注册所在地所适用的法律)[42]。

      (2)为保证提供服务的质量,数据知识库在其声明中说明可能会进行若干审查,包括[43]:对包含个人的、敏感的或不合适的信息进行内容审查;对著作权和许可声明中潜在的与CC0豁免规定相冲突的内容进行审查;对内容是否符合文件格式和最低报告准则进行审查,并在发现内容不符合条件时提醒提交者或出版商。

      (3)数据知识库要求提交者的数据文件是可被打开的、未被损坏的、没有病毒的,而且不涉及商业利益及其可能存在的纠纷。

      3.2 科研数据的标识规范

      (1)清晰说明数据来源。数据知识库的数据来源包括多种形式,例如实验团队产生数据,从其他数据库中获取的数据,对他人的数据经过整理衍生而成的数据。无论是哪种数据来源,都需要有明确说明。

      (2)以数字资源唯一标识符(Digital Object Identifier,DOI)为核心的标识规范。

      例如,Dryad中每个数据包的DOI通常为:“http://dx.doi.org/10.5061/dryad.[NNNN]”格式[41],其中,“[NNNN]”4位数字为数据包编号,在其后加注文件的版本信息,格式为“/1”,“/2”等(“/”前的数字用于表示该数据包的第几个文件)。

      当新版本文件发布时,在版本信息后加注更新信息,如“.2”,“.3”等。因此,如文件信息:“http://dx.doi.org/10.5061/dryad.[NNNN].2/2.3”,则表示此文件为“http://dx.doi.org/10.5061/dryad.[NNNN]”数据包的第2个文件的第2版的第3次更新内容。

      而figshare中每个数据包的DOI格式为:“http://dx.doi.org/10.6084/m9.figshre.[NNNNNNN]”[44],figshare遵从DataCite元数据标准,要求用户对文件添加如下信息[45]:标题(Title)、作者列表(Authors)、类别(Categories)、标签(Tags)和一份对该文件详细的解释说明(Description)。同时为了维护研究成果的真实性和持续性,实行版本控制,在数据页面提供数据更新标识(Retrieved)。理论上,数据更新后DOI保持不变[46]。图2以“All Hands to the Pump:Notes from NCCARF's 2010 International Climate Adaptation Futures Conference”[47]数据文件为例进行说明。

      3.3 科研数据的长期保存

      出于长期保存需要,进行数据迁移[37]:数据知识库在与作者签订知识产权协议的基础上,可对数据内容的格式进行转换,确保数据在所占容量、存储效率等方面便于传播和再利用,保证对数据内容的日更新频率,及时将提交者提交的内容存储到远程服务器以及长期保存系统中。另外Dryad和figshare均与CLOCKSS[48]合作保存数据内容的副本,迁移数据格式到最新版本,保证数据可无限期访问。

      3.4 科研数据的传播使用规范

      (1)开放获取时期。科研数据的发布,应当考虑各方利益关系人的权益,确定合理的时滞期,数据知识库可以提供一个时间区间。如Dryad规定时滞期为1~10年[37]。

      (2)许可协议。数据知识库可以提供明确规定或者推荐许可协议(如元数据CC0,数据CC-BY等)[41,49]。国际上通行的许可协议还包括:开放数据共享公共领域贡献及许可证(PDDL)等,特别强调数据库的有关条款[50],规定了一套与数据库相关的社会规范,如开放数据共用授权社会规范等[51]。

      (3)允许发布的内容被第三方复制或索引。如Dryad支持与数据期刊论文和特定数据知识库(如GenBank、DataONE、TreeBASE)数据相互关联。

      (4)撤销条款。内容发布后,数据知识库还应时刻关注其使用情况,认真记录提交者和用户提出的问题及撤销公告[37]。例如Dryad认为内容不合适时(包括敏感的、侵权的、不合法的资料,或者法律顾问认为其包含对Dryad存在风险的内容),有权决定暂时或永久删除该内容。在对内容的元数据或其他文档记录进行修改和整合后,更新数据文件,并与出版商勘误表进行关联。(有的期刊出版商与数据知识库进行合作,共同处理数据发布的问题,例如PLoS和Dryad等多个数据知识库进行合作。)

      

      图2 figshare数据呈现内容

      (注:其中红色圈中是每一份数据文件必须包含的信息,黄色圈中是数据更新的呈现。)

      4 科研数据提交者的权益管理规范

      4.1 提交者权益

      (1)提交者享有免费存储定量数据的权益,超过该容量后,需提交附加的数据费用。为鼓励与保障数据提交工作的自觉有序进行,知识库需向数据提交者提供一定的免费存储空间。如Dryad提供10GB[37],figshare提供1GB的免费容量[52]。

      (2)提交者有更新元数据的权益。Dryad规定[37]提交者可以更新已发布数据包的元数据,以及向已发布数据包提交新的或更新的文件,且无需缴纳另外的数据发布费(仍然可能需要支付附加存储费),对于更新的文件,同时要保留并提供获取到的所有之前发布的版本,每个文件将被赋予一个唯一标识符,且数据包的元数据将包括关于版本顺序的更新信息。在figshare中,提交者可以更新类目、标签和描述信息,但这些并不构成新的版本,只有对标题、作者和文件信息进行修改时才形成新的数据版本[53]。

      (3)提交者有权设置开放时滞期。在时滞期内,数据仅供项目和课题承担单位及授权范围内的用户访问和使用。时滞期过后,可向社会公众全面或分批次开放[54]。在实践中,需要注意区别开放获取时滞期、开放时期和最低保存期。

      4.2 提交者义务

      提交者一方面要保证数据内容的正确性、合法性,另一方面还需遵守知识库的相关规定。具体包含以下三点[37]:

      (1)数据提交者必须保证是内容的作者,或已获得内容作者的授权,可将内容发布到知识库,保证内容的正确性,不存在虚假或误导信息。

      (2)提交者在提交数据内容的同时即被认为知晓并遵守数据知识库的许可协议,并允许数据知识库依据该许可协议开放其数据,以及对内容的推广与宣传、格式转换、元数据修改、删除部分内容等操作。此外,提交者在遵守数据知识库有关内容发布的许可协议时需保证符合出版商、资助机构、用人单位等的相关准则与合同,避免可能引起的纠纷。

      (3)提交者应保证提交内容不侵犯知识产权、个人隐私权等国家的相关法律法规。

      5 科研数据使用者的权益管理规范

      5.1 使用者权益

      数据使用者在遵循开放获取的前提下,可以免费使用科研数据。例如,在Dryad政策中,使用者对知识库中的数据内容享有免费下载、重加工、再利用以及交流等多项权益,但前提是需遵循知识库对数据内容的相关许可协议。科学数据的开放共享可追溯到2010年的开放科研数据原则“潘顿原则”(Panton Principles),认为开放科研数据意味着允许任何用户以任何目的免费通过互联网对数据进行下载、复制、分析和再利用。同时,不受资金、法律或其他技术壁垒的限制[55]。目前,数据知识库普遍遵循潘顿原则。

      5.2 使用者义务

      (1)数据知识库的引用规范。如Dryad要求用户采用的引用格式[41]如下:

      <Creater>(<Publication Year>) Data from:<Title>.Dryad Digital Repository.<Identifier>

      如图3所示,在该引用实例中,既包括原文的引用信息,还包括Dryad规定的对数据包的引用信息。

      Westbrook JW,Kitajima K,Burleigh JG,Kress WJ,Erickson DL,Wright SJ(2011)Data from:What makes a leaf tough? Patterns of correlated evolution between leaf toughness traits and demographic rates among 197 shade-tolerant woody species in a neotropical forest.Dryad Digital Repository.http://dx.doi.org/10.5061/dryad.8525

      

      图3 Dryad知识库中数据内容引用格式案例[41]

      同理,fighsare在其每一份数据之下都会有“Cite this”的标识,如图4所示[56]:

      

      图4 figshare知识库中内容引用格式案例[56]

      (2)除了引用ID识别码外,也可以对存储科研数据的知识库网址进行引用。如ArrayExpress功能基因组学实验数据库要求在引用数据时包含数据的识别符和ArrayExpress主页网址[57]。

      (3)若干数据知识库也会推荐采用DataCite的引用格式或者类似格式。如GEO(Gene Expression Omnibus)建议提交者引用其识别符(GSExxx),同时也建议用户引用他人的原文和该文章所对应数据记录的识别符[58]。

      (4)在使用数据知识库时,使用者必须遵守数据知识库及使用者所在当地的国家法律、法规,不得使用非法方式;不得损害其他使用者的权益,或破坏数据知识库的功能。

      6 结语

      6.1 实践意义

      基于以上论述,笔者提炼数据知识库的政策要点,如表3所示。建立数据知识库时,可以参考此表进行政策规划;图书馆员推荐科研人员存储科研数据时,也可利用此表进行权益说明;机构知识库存储与传播科研数据时,可以参照此表进行有关的政策补充条款等说明。

      

      6.2 研究局限

      本文根据调研的部分数据知识库的有关条款,形成系统性的针对通用型数据知识库的政策框架。将研究结论进行推广时,需要注意各国法律法规以及科研生态体系的不同,并且在长短期资助经营上的考虑等。

      例如,Dryad对其存储的数据内容与元数据全部实施CC0许可协议,已经与数据提交者签署知识产权转让协议,并且采取一定的收费形式。国际上,有些数据知识库对存储的元数据采用CC0协议,而对数据本身采用CC-BY或者其他许可协议。

      此外,数据知识库政策能否照搬到机构知识库还是需要一定的政策调整,通用型数据知识库面向的是全球科研人员,而机构知识库面向的是具有专业属性的一批科研人员或者教职员工。无论是Dryad还是figshare等数据知识库,均保证了一定的存储空间,但超过这个空间,则要收费。一方面,数据与论文不同,可能数据集需要不断追加存储量;另一方面,数据存储涉及不同版本的数据集,因此政策中,往往规定作者可以修改元数据,但更改或者增减数据,则需要通过申请或者额外付费等。不仅在收费问题上,机构知识库的立场与通用型数据知识库不同,而且在存储内容乃至管理方式上也有所不同,这些都是值得注意的政策细节之处。

      6.3 未来研究

      本研究针对“通用型数据知识库”进行调研分析,对于其他“专业型数据知识库”还需进一步研究。中国科学院文献情报中心组织编译了《科研数据知识库的政策汇编》①报告。未来将调研我国科研人员的需求,以及我国数据知识库优秀实践案例,形成关于数据知识库政策的最佳实践汇编,提供更为具体详尽的遴选参考范例。

      (致谢:感谢中国科学院计算机网络信息中心刘峰老师以及匿名评审老师的指导意见。)

      作者贡献声明:

      刘晶晶:论文修改,信息补充,案例采集和分析,参考文献整理;

      顾立平:研究设计,查找信息源,政策分析,论文最终版本修订;

      范少萍:论文起草,提出研究问题与框架。

      ①该报告已在中国科学院文献情报中心机构知识库提供开放共享,编译人员:茹丽洁、戚义姣。

标签:;  ;  ;  

国外通用数据库的政策调查与分析_机构知识库论文
下载Doc文档

猜你喜欢