学术论文与科学数据整合出版研究_数据集成论文

学术论文与科学数据集成出版研究,本文主要内容关键词为:学术论文论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

数据是科学假设、科学分析以及科学理论形成的基础证据,同时也是同行科学家数据评估和检测科研结果的重要证据[1]。可以说数据是论文的重要组成部分,很大程度上决定了论文的质量[2]。而且数据具有可再利用的特性,大量数据的积累能提供可计算化、可挖掘的扩展价值,数据的价值从长远来看可能超越论文的价值。为给论文评审提供依据,同时促进数据再利用,很多学术期刊开始要求作者在发表论文时将数据公开,要求将数据存储到公共数据仓储库中,或者可以按要求免费提供,也有部分期刊开始将学术论文与数据进行关联,实现论文与数据的集成出版,如Nature,PLos Series,Science,Molecular Biology and Evolution,Biology Letters等。也出现了集成出版数据和论文的数据期刊(data journals),如Biodiversity Data Journal,Geoscience Data Journal,Earth System Science Data,Journal of Chemical and Engineering Data等,数据期刊在出版时,所有与论文相关的材料包括文本和数据都会被作为数据统一存储和处理。学术论文与科学数据集成出版是一种新型的出版模式,已得到越来越多学术期刊的认可和重视,必然会成为学术出版的新趋势。集成出版也是一项比较复杂的工程,涉及学术期刊数据出版政策、集成出版方式、数据共享、数据出版技术等多个问题,同时涉及出版者、作者、数据中心、评论者等多个角色,这些都值得深入分析和研究。

2 学术期刊数据出版政策

国外很多期刊出版社制定了数据存缴和出版政策,本文选择具有一定代表性的Nature,PLos ONE,Biology Letters和Science四种学术期刊进行分析对比,发现学术期刊相关的数据存缴和出版政策主要可划分为以下四种类型。

2.1 论文出版时必须把相关数据提交到数据仓储库(data repository)

(1)Nature[3]。它的数据存缴政策的核心是帮助作者出版内容以促进科学价值的体现和数据集的可再利用,而不是为了控制对数据的检索。

Nature认为现存的科学数据仓储在数据标准制定及促进数据共享中扮演着重要的角色。Nature数据出版政策中规定,如果某个学科或领域有公认的数据仓储库,作者必须将数据存储到Nature建议的数据仓储中,Nature给出了一个建议的数据仓储列表[4]。如果学科领域还没有公认的数据仓储库,则需要将数据上载到figshare[5]或Data Dryad[6]系统中,这是两个通用的仓储库系统,它们支持对于数据的同行评论过程。同时,如果现存的仓储库不支持同行评议或发生不再维护的问题时,Nature期刊也将这两个系统作为后备仓储,可以帮助期刊完成数据的同行评议过程。

(2)PLos Series[7]。PLon ONE自2008年开始就有了数据共享政策,建议如果已建立公共数据仓储的,应该出版前把数据存储到数据仓储中,如存储基因芯片数据到Array Express或GEO,存储基因序列数据到GenBank,EMBL或DDBJ,存储生态学数据到Dryad。同时在出版论文中应标识适当的数据对象标识符或访问控制号。如果没有合适的仓储库,数据应该提交到某个开放获取的机构知识库(IR)或通用仓储如Dryad中。

(3)Biology Letters。它是英国皇家学会出版社(RSP)出版的期刊之一,RSP遵循统一的数据存缴、出版和共享政策[8]。RSP建议数据集应该存储到一个合适的、业界公认的仓储库中,并且需要将数据集的访问控制号、链接或DOI包含在论文中的数据检索部分,同时,数据集也需要以DOI形式包含在论文的参考文献列表中。如果没有专门学科领域数据仓储库,作者则应该把数据存储到公共仓储库如Dryad中。

(4)Science。它支持集成出版数据的有影响的数据仓储库[9],因此,适当的数据集(包括基因芯片数据,蛋白质或DNA序列,原子坐标,气候数据等)必须存缴到合适的数据仓储中。同时,访问控制号或特殊的检索地址需要包含在出版论文中。

2.2 数据作为论文支持文件一并提交

Nature的政策也明确指出所有描述原始数据(指直接由实验或观测产生的数据)的文档也应该存缴到适当的外部仓储中。Nature鼓励作者提供“裸数据”,因为这种形式的数据更容易被其他研究者再利用。作者也可以提供其他的补充信息文档,包括源码、模型、工作流和汇总表,但原始数据不能作为补充信息提交[3]。

PLos数据政策中指出如果没有合适的仓储库存缴数据,数据也可以作为论文的支持文件提交[7]。

Science政策规定没有适当仓储库的大数据集必须封装后作为补充材料提交给Science,或者数据存储在机构Web站点不易提交时,应该向第三方提供一份数据备份以便Science能够提供给其读者。补充资料可以包括文本、图像、表格、联机视频和动画、音频和数据库等[9]。

2.3 对于非开放数据的出版政策

对于合理的要求数据应该免费提供,但在数据出版过程中,有一部分数据因各种原因可能无法开放和公开,对于这类数据PLos也制定了相应的管理政策[7]。如果论文中的结论来自于对专有数据的分析,而作者又不愿意或不能公开这些数据,则论文中必须包括一份数据的分析文档,以便其他人可以重现分析并且构建结论。政策中还规定任何对于提供和使用数据的限制都需要进行判断,评估是否可能影响论文的重要性,甚至可能影响论文的出版。

Nature政策中建议如果数据集不是向公众开放的,作者必须提供安全的链接和账户,以便能够以秘密和安全的方式检索和评估数据。如果数据类型特殊的仓储库不提供秘密的同行评议,Nature鼓励作者将数据上载到figshare中接受同行评议,之后如果论文被接受也可以将数据转存到其他适当的仓储库中[3]。

Science要求在论文提交时要取消所有有关数据、编码、资料及原始数据等的限制,向编辑和审稿人完全开放[9]。在研究中产生的任何附属的数据或材料,如果不能开放访问和使用,需要对这些数据进行描述和说明,并且在提交论文时向编辑发送一份描述文档用来备份。

2.4 数据质量控制政策

数据的质量与论文及期刊的质量紧密相关,有些学术期刊在数据存缴政策中对数据质量也有明确的政策要求。

Nature制定了数据信誉原则和质量原则[10]。数据信誉原则主要是对科学家研究产生的数据进行信誉评估。内容包括对于数据集信誉记录的引用和同行评议机制,识别在传统论文中可能没有资格成为作者的研究者,建立一个可以向公众提供的数据、相关代码和工作流的引用索引,允许作者出版在传统期刊中不易出版的有价值的数据集。质量控制原则的制定是基于如果出版的数据是真正可用的,就需要对实验的精确性以及描述的完整性进行评估。如通过同行评议来评估技术能力、每份数据描述以及相关数据集的完整性,由学术期刊编辑部认可的领域专家来确定数据的标准化,同行评议至少由一位实验技术专家和一位数据标准专家实施等。

3 论文与期刊集成出版形式

3.1 数据存储在数据仓储中,通过数据描述符或引用与论文关联集成

以Nature、PLos ONE等为代表的期刊开始关注并实施论文与数据的关联集成出版,普遍采用的方式是把数据存储在适当的数据仓储中,论文中明确标识数据集的访问控制号、链接或DOI号,数据集也需要列入参考文献列表。

以Nature期刊为例,建立了专门的科学数据出版平台,科学数据出版框架如图1[11]所示。基于科学数据出版平台完整实现了论文、数据的集成出版,论文与数据集成的桥梁是数据描述符(Data Descriptor),Nature将其定义为一种新型内容类型,它主要提供对于数据的细节描述,聚焦于数据如何被产出、被谁产出以及如何能够被其他研究者再利用。数据描述符与传统的记述性描述内容及结构信息(指元数据)兼容。出版的数据描述符将与相关的期刊论文和存储在数据仓储中的数据文档链接。Nature期刊把与数据集成出版的论文叫Data Descriptor Paper[12]。数据描述符是基于结果开展研究和数据产出之间的重要桥梁,同时它因为能够同时服务于人和机器用户还将产生更多增值的价值。

基于Data Descriptor集成出版论文与数据的实际框架和内容,Nature期刊也给出了详细的内容与格式模板。模板中主要包括以下内容:

题目(Title)

文摘(Abstract)——有关研究的简明描述,结果数据以及利用数据产生新的科学发现的潜能。

背景和摘要(Background & Summary)——一个有关研究和数据生成的概述,这部分内容也要包括创建此数据集的目的以及潜在的利用价值。

方法(Methods)——详细描述过程或数据产出实验的细节,细节要足够详细以便其他研究者能够重复此研究。

数据记录(Data Records)——与Data Descriptor相关的每个数据记录的描述,包括信息被存储的仓储以及数据文档和数据格式的概述。

技术验证(Technical Validation)——任何实验或分析都需要支持数据集的技术质量。

使用说明(Usage Notes)——能够帮助其他研究者再利用数据集的指南或建议。

出版内容模板与传统学术论文相比增加了数据记录、技术验证和使用说明,此三项内容专门针对与论文相关的数据描述、数据质量验证及数据使用说明。

图2[13]给出了基于Data Descriptor形式出版期刊的样例,在论文中增加了数据记录内容,同时在参考文献中也增加了对应的数据参考内容。

3.2 基于Dryad仓储平台的集成出版

Dryad数字仓储是一个生命科学领域的仓储资源库,也是一个灵活和可持续的数据出版框架,它将数据存储过程与学术论文出版紧密结合,对与科学出版物相关的数据提供发现、免费使用和引用服务[14]。它提供一种以前缺乏的长期、稳定、保存和更新数据的机制,同时遵循开放数据原则,基于CCO协议提供数据的开放服务,也通过引进数据对象标识符促进数据的可引用。

Dryad保存数据并通过尽可能简单的技术紧密地将数据与论文的handling系统集成,因此合作的期刊能够方便的使用。Dryad系统的核心是“论文与数据的集成提交”(integration of manuscript and data submission)服务,这是一项免费服务,允许期刊出版者方便地将论文稿件和数据提交到Dryad中,对于超过10GB的大数据集的提交会收取一定的费用。目前Dryad已集成268种期刊、4197个数据包和12 079个数据文档。

图3[15]是期刊与Dryad集成的基本工作流,通过在期刊的论文提交系统中设置向Dryad的自动通知,可以实现期刊与Dryad系统的集成。期刊与Dryad的集成是免费的,其目的是向所有希望通过低预算实现数据存储,并且加强期刊与数据间链接的期刊提供服务。一般作者可以在论文提交前把数据存储到Dryad中,如果论文被接受,还可以把更多的个人数据文档集成到作者的数据包中,作者的数据包在Dryad中会获得一个唯一的长期稳定的DataCite标识符DOI,作者可以把DOI增加到最终的论文中,DOI可以加在论文文本描述中或最终的参考文献中。这种集成技术简单易行,同时期刊和作者都不必付出很多的时间和经费成本。

期刊与Dryad集成的主要特点[16]:(1)精简的作者数据提交过程,Dryad承诺作者提交数据时间不超过15分钟;(2)存档数据与出版论文之间长期稳定的链接,允许作者以机器可读的形式存储各种复杂类型的数据,保证数据文档可以通过Web或搜索引擎被发现和被索引,通过链接到数据文档加强论文的可见性,按照期刊出版政策规定数据的延迟出版,保证数据安全,系统也可提供对于数据的同行评议,与论文保持一致。

3.3 以数据期刊方式出版数据

在生物学、地球科学领域研究数据的重要性尤为突出,但大多数传统学术期刊还不能很好地实现对数据的出版,特别是各类格式特殊的数据出版存在较大的障碍,科学家也对数据共享和出版的安全性存在顾虑。因此,在生物学、地球科学领域率先出现了新型的数据期刊(Data Journals),随后在化学化工及物理学领域也开始有了数据期刊。

数据期刊一般都是联机出版期刊,它并不是只出版数据,而是以出版data papers为核心,所谓data paper指描述一个数据集,给出数据收集、处理过程、软件工具、文件格式等细节描述[18]。它是一类以描述一个或一组数据集为首要目标的出版物,有些数据期刊只出版短的data papers,如Geoscience Data Journal,出版物可以不包括对于假设和结论的分析和背景,datapapers直接链接到存储在数据中心的数据集。但也有部分数据期刊不仅只出版数据,如数据期刊的代表之一生物多样性数据期刊(Biodiversity Data Journal,BDJ)[19]创建了一种基于同行评议、开放获取、综合的联机出版平台,主要目标是促进与生物多样性相关的各种类型数据的出版、分发和共享。在BDJ平台中,所有元素包括论文文本、物种形态描述、事件、数据表等全部都按数据对待和存储。

BDJ不仅是一种期刊,也不仅仅是一种数据期刊,它是创建了一种工作流和框架,通过一种导航的自动出版过程把写作、审稿、出版、存储、分发、互操作、收集和数据再利用全部集成完成。BDJ联机出版平台有三项主要功能:(1)基于PENSOFT Writing Tool的合作论文创作,在此作者、审稿专家、编辑、导师、文字编辑都在同一平台工作,完成论文写作、审稿、编辑等主要过程,论文创作过程中可以随时选择与外部相关论文、物种分类、物种名、图表、地图等的连接;(2)联机同行评议,自动提交进行联机同行评议并返回评议结果;(3)论文以XML格式出版,与各类数据关联和集成。

基于BDJ平台出版的数据期刊有效地实现了对论文、图、表、地图、物种分类、数据和参考文献的关联与集成。

4 结语

数据在科学研究中的重要地位已得到很多学术期刊的认可,以Nature、Science为代表的顶级学术期刊也开始正式提出出版与论文相关数据的要求,并制定了相关的数据存缴和出版政策。数据出版是一种基于网络的联机出版模式,如Nature、Biodiversity Data Journal都建立了专门支持数据出版的平台,同时也是一种全新的数据共享机制。数据与学术期刊论文的关联集成出版,可以解决数据的评价和再利用问题;数据出版与数据仓储库的结合,则解决了数据的存储、发现、共享问题。

数据与学术论文的关联出版中涉及作者、期刊出版者、评论者、数据仓储等多个角色,各个角色面对数据出版这一新兴事物都需要承担新的任务和挑战。如作者除了传统论文的撰写,还需要根据期刊要求提供data papers来描述数据,同时要了解各个期刊的数据出版政策和要求;期刊出版者需要制定数据出版政策,可能还需要建立支持数据出版的平台系统,要建立数据同行评议机制等;评论者除了传统的论文同行评议之外,还需要有相关数据专家或技术专家支持对数据的同行评议;各领域数据仓储库是期刊推荐的数据存储首选,数据仓储库一方面要保证数据仓储库质量及在领域中的地位,另一方面也需要拓展对期刊数据出版、数据同行评议、数据标识符DOI的支持。

标签:;  ;  ;  ;  ;  ;  ;  

学术论文与科学数据整合出版研究_数据集成论文
下载Doc文档

猜你喜欢