数据发布理论与实践中的几个关键问题_大数据论文

数据发布理论与实践中的几个关键问题_大数据论文

数据出版理论与实践关键问题,本文主要内容关键词为:理论论文,关键论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       DOI:10.11946/cjstp.201504270342

       1 有关数据出版的研究现状与问题的提出

       早在2005年,国外学者开始关注数据共享和出版的制度障碍[1]。国外早期的研究主要集中在分析数据出版的重要价值[2]、介绍实践经验[3]。随着数据出版实践的开展,研究集中在探讨数据出版中遇到的各种问题,如:作者使用数据但不引用的问题[4]、当前学术出版模式不适应数据密集型科学研究的问题[5]、数据的匿名评审问题[6]、数据格式带来的数据再利用问题[7]。上述对数据出版的研究并不系统,由于研究较为分散,不足以引起重视。随着国外数据出版实践的发展,对数据出版的研究成果也开始集中。具有代表性和较具影响力的成果是专门刊载学术出版研究成果的SSCI期刊Learned Publishing于2014年9月出版的“数据出版”专刊,该专刊从多角度来解读数据出版相关问题。其中来自Wiley出版集团的编辑Fiona Murphy简要梳理了科研数据与出版之间的关系,介绍了相关实践[8]。来自科技界的Sarah CALLAGHAN则讨论了数据引用的原则并给出了一些数据引用和链接的具体案例[9]。Hazel Norman介绍了英国生态学会(British Ecological Society)在数据存储方面的实践[10]。图书馆界的Susan K.REILLY介绍了图书馆界在数据共享方面的实践[11]。Varsha K.KHODIYAR等则指出应该开发新的学术评价工具,用以评估学者在数据、软件和匿名评审方面的学术贡献[12]。来自研究数据联盟(Research Data Alliance)的Andrew Treloar介绍了RDA在推动数据出版和共享方面的经验与教训[13]。

       国内学术界、图书馆界和期刊出版界也于近年来开始关注数据出版。刘晶晶等以数据期刊Scientific Data为例,分析了其数据出版政策[14]。马建玲等以国外四种知名科技期刊为例分析了期刊的数据出版政策,并讨论了数据与期刊集成出版的三种形式[15]。傅天珍等对我国期刊数据出版政策进行了调查,指出国内制定数据出版政策的期刊非常少,学科分布不平衡,国际影响力高的期刊更重视数据出版,并给出了一些具体对策性建议[16]。何琳等将数据出版分为数据仓储、机构库、期刊自行负责3种模式,并回顾了当前国内外的数据出版进展[17]。刘凤红等比较了国内外数据论文的实践情况[18]。欧阳峥峥等对国外15种数据期刊进行了调研,总结了成功数据期刊的经验[19]。侯经川等对国际数据引证的现状进行了综述,指出数据引证已有一定进展但还存在不少问题[20]。刘闯对全球变化科学研究数据出版的实践情况进行了梳理[21]。与国外的研究相比,国内的研究大多是对实践经验的梳理或调查,对数据出版中涉及的关键问题研究得较少。

       上述国内外的研究成果对于数据出版理论研究和具体实践都有重要参考价值,传达出如下重要信息:第一,目前国内外学术界、出版界和图书馆界、科研主管部门已经日益重视数据出版。第二,数据出版已经取得一定进展,然而数据出版也存在不少困境。主要困境包括:目前出版的数据仅仅是全球科研数据中的极少部分,已经出版的数据利用率非常低。目前国内外的研究还存在以下问题,使得现有研究成果不足以解决上述困境:

       其一,研究重实践而轻理论。研究的视角多从数据出版具体实践角度出发,很多研究并没有给数据出版进行严格的定义。而梳理上述文献发现,图书馆界、出版界以及学术界对数据出版虽然有一定程度的共识,但具体理解或定义却有较大差别,这是因为图书馆员、学者和出版者对出版和对数据本身的理解是不同的。因而,虽然不同论文中都出现了“数据出版”这样的词汇,但具体含义却并不相同,有的甚至区别很大,这将影响对数据出版的深入研究和实践。

       其二,从学术出版和学术传播角度审视数据出版的成果,特别是分析学术传播体系因应数据出版的成果过少。笔者认为,研究数据出版实践固然重要,但如果不能解决数据出版与学术传播体系的关系问题,国内外数据出版的困境将得不到解决。综上所述,本文在梳理国内外数据出版理论成果与具体实践的基础上,从学术传播角度对数据出版中涉及的关键问题进行分析。

       2 概念界定:数据出版实践与研究的基本前提

       在学术传播语境下,数据出版是指与科学(包括自然科学和社会科学)研究产生的数据(research data)的出版有关的活动,这是学界共识。国内外类似电话黄页的出版物,将非科学研究产生的数据予以出版,不论是出版图书还是数据库,都不在我们应该讨论的范围之内。数据出版指的是围绕科研数据展开的与出版相关的活动,这也有别于科研论文及论文内包含的图表等部分的数据库出版。数据出版的出现并非偶然,它显示了网络技术发展带来的大数据环境对科研活动的深刻影响。虽然上述国内外文献中,很多都使用了“数据出版”(data publishing,data publication)词汇,但在给出的定义中,“数据出版”的含义却是不同的,有些文献虽然未给出具体的定义,但从文献的相关内容看,不同背景学者对数据出版的理解是不同的。

       虽然提到数据出版,不少出版界或科技界人士都知道,但如果要给数据出版一个准确的定义,不同背景的学者却有不同理解。梳理关于数据出版不同的定义,不同观点争议的焦点主要在以下几个方面:

       2.1 数据出版中的“出版”的含义

       有学者认为“只有经过类似于科学论文发表一样,经过同行专家评审的科研数据的正式出版,对科学家科学数据成果的评价才有可能有序地进行。”[21]还有学者认为数据出版就是“数据发表”,是指“任何将数据上载到网络或其他媒介并允许他人使用的行为”[18]。上述两个定义的不同之处在于,前者认为出版必须严格依照学术论文的出版标准,经过同行评议环节,后者则认为只要数据上传到网络并允许他人使用就是出版。这两种观点在国内外都有一定的代表性,也反映了学界对“出版”概念的争议。

       笔者认为,数据出版作为新的学术成果出版形态,其“出版”的含义与论文的出版不能完全等同。正如有学者指出的,在网络环境下学术出版的概念和范式需要重新定义[22]。但数据出版,也并非单纯地指将数据上传于网络,这实质是数据共享行为。出版包含了“组织、审查、共享、保存”,数据出版中的出版也包含了这四层含义。与数据出版相关的概念有数据共享和数据监护(curation),前者指作者将数据上传于互联网的行为,后者指图书馆在数据共享或出版后向读者监护数据及信息的行为。数据出版与数据共享相比,多了一个评议和编辑加工的过程。而数据监护相对于数据出版,更侧重于对读者的服务和对数据的管理,数据监护中的数据不仅包含科研数据,也包含教育教学使用的数据。

       因而,数据出版仍然有对数据及相关信息的评议和编辑加工过程,但这个过程不同于论文的出版。可以这样说,数据出版没有论文出版那么“正式”,但并非毫无把关人的单纯数据共享。而且,数据出版的主体和客体也比论文的出版多样化,对这些问题,笔者将在下文阐述。

       2.2 数据出版的客体

       顾名思义,数据出版的字面意思似乎应该指科研“数据”的出版。如上文两位学者给出的定义,都把数据出版的客体指向了科研数据本身。然而,梳理国外一些关于数据出版的定义,会发现数据出版的核心并非是“数据”的出版,而是与数据相关信息的出版。

       按照一些学者的定义,传统学术出版有五大功能[23],分别为:第一,登记功能。能够让学者主张学术发现的优先权。第二,证明功能。证明记名学术主张的有效性。第三,识别功能。能够使学术系统内的参与者识别新的主张和新的发现。第四,存档功能。保存学术记录。第五,奖赏功能。通过学术传播系统中衍生出来的计量学评价参与者(作者、期刊)的表现,进而通过学术体系对参与者给予各种回报。而数据出版在上述五大功能之外,有学者认为它还有一个独特的“说明功能”(definition):即解决“被出版的(数据)到底是什么?”而这个说明功能正是数据实现上述五大学术出版功能的基础。这个说明功能又可以分为两大部分,其一为“帮助(数据的)再利用”:即能够使出版物(数据)永久可用的信息以及使之在其他环境也可用的必要知识(存档、识别、描述);其二,承认推动者:即能够使评估和识别相关作品成为可能的信息(登记、奖赏、证明)[23]。

       上述数据出版中衍生出来的不同于传统论文出版的功能实质是靠数据相关信息的出版而不是数据的出版来推动的。所以不少学者关于数据出版的定义,核心就是数据相关信息的出版,而不是数据的出版本身。如有学者认为数据出版就是“取得已经在研究中使用的数据,并且扩展到为什么、什么时候以及怎样收集、处理这些数据的(信息)”[23]。还有学者认为,“数据出版就是让数据在互联网上永久可得,但出版的数据必须经过一个让其与较容易识别的信息一起出现的过程,这些信息与数据的可信赖性、可靠性、格式和内容相关”。[6]甚至有少数学者认为数据出版就是与论文相关的数据的出版,数据是依附于论文而不是独立的单元。也有学者认为数据出版,就是出版与数据利用相关的信息,包括数据的获取方法、对数据的说明、元数据等一系列信息[24]。

       综合上述定义,笔者认为,对于数据出版而言,数据的发布是前提,但数据出版也包括数据相关信息的出版。

       2.3 数据出版的主体

       学术论文的出版主体是期刊出版单位,虽然论文的评审由学术界完成,最后的发行也可能交给大型出版商或数据库出版商。但检视传统论文出版流程,论文出版的整个流程多数由期刊出版单位控制。其中匿名评审环节,虽然由出版单位外的学者进行,但谁来评阅、评阅什么、评阅规则、评阅意见是否采纳仍然由出版单位控制。可以说期刊出版单位在论文的出版过程中控制了包括论文及处理信息在内的信息流,当前国内外的期刊出版都采用了办公自动化系统处理稿件,这些系统基本按照稿件处理流程来控制信息的流动。

       数据出版与论文出版最大的不同在于出版主体的多样化,如果把数据出版的主体严格限定为出版单位,那么数据出版可能无法开展。因为大多数期刊并不具备存储数据的技术条件,因此,从事数据出版的期刊可能只能控制出版过程中的部分信息流——即数据的相关信息或部分小型数据。因而,数据出版的主体是多样化的,而且数据出版需要不同主体之间的合作。数据出版与传统论文出版的最大区别还在于,传统论文出版以封闭的版权保护控制流程,而数据出版却必须以开放、共享的出版模式来促进各种主体的合作。若依赖于传统的版权模式,则部分数据出版模式就不可能展开,例如:如果数据存储中心不开放数据的访问,部分期刊就无法进行数据出版。在实践中,期刊出版单位、大学或研究所等学术机构、相关协会、学术社区等都参与到了数据出版当中。

       综上所述,笔者认为,数据出版指学术共同体中的学术期刊、学术机构或学术社区等相关主体,在科研工作者把自己或同行产生的科研数据及相关信息发布于互联网之前或之后,实施或组织实施对这些科研数据或与科研数据有关的信息进行评议、编辑加工使之符合一定规范和标准并能为学术界方便地获取及再利用和引用的过程。在上述过程中,对数据或相关信息的同行评议以及质量把关可以由上述不同主体单独组织或单独实施,也可由不同类型或相同类型机构合作组织或实施,还可由不同类型机构各自独立组织或实施部分过程再通过DOI链接等手段让不同机构的工作成果共同形成数据出版物。

       3 数据出版的形态与未来

       3.1 基于客体的划分

       按照客体,也即数据与论文的关系来划分,数据出版的形态有三种:

       第一,数据附属于出版物。这是脱胎于传统的论文出版模式,在这种模式下,数据并不独立,仅限于与已经发表的期刊论文相关的部分。国外不少知名期刊,如Nature等采用这种模式出版数据。

       第二,独立的数据出版。这种模式指数据或描述数据的信息独立出版,不依赖于论文。很多数据存储机构进行的数据出版属于这种类型。这种出版模式,接近于传统的数据共享,与共享的区别在包含了对数据及相关信息的把关过程。

       第三,出版物附属于数据。这是一种近年来兴起的数据出版模式,即出版的核心是数据,但与数据相关的出版物是附属。

       笔者认为,从客体来看,数据出版与论文出版的区别在于数据出版涉及的数据信息量比论文庞大、涉及的信息类型比论文复杂。客体的复杂导致在很多情况下,单一主体没有能力独立组织出版过程,因而,从主体来划分数据出版类型也有别于论文的出版。

       3.2 基于出版主体的划分

       笔者认为,如果与传统出版模式对照,按照出版主体对信息流的控制方式来划分,数据出版又分为以下3种主要模式。笔者梳理的这3种分类相对于文献[6]更为清晰,文献[6]主要是从数据存储的角度予以划分,而且本文的划分则从出版主体切入,并且将二次出版涵盖进来。文献[17]虽然按照不同主体将数据出版划分为3种模式,但3种模式实质仅包含了笔者划分的前两种模式,没有体现出在数据出版实践中非常普遍的由不同主体共同实施数据出版的过程,如:期刊负责数据论文,其他机构负责数据。

       第一,出版机构控制模式。这种模式与传统论文出版最接近,即主要由期刊出版单位控制围绕数据的信息流。这种模式下涉及的出版物既包括数据,也包括与数据相关的论文。不管是数据附属于论文还是论文附属于数据,期刊既控制论文的出版,也控制与论文相关的数据出版。在这种数据出版模式下,整个数据出版是由期刊推动的,期刊出版单位是整个出版过程的把关人。数据及论文的评议由第三方——学者完成。

       这种模式按照数据是否由期刊出版单位存储分为两种:

       一种模式是由期刊进行数据的存储,数据完全是传统学术论文的附属物,作者在交稿后,期刊选定的评审专家在评审论文的同时也评审数据。在这种情况下,由于数据是学术论文的补充,因此数据不能独立存在,而是论文的延续。这是最早开始的一种数据出版类型,随着电子期刊的发展而出现。国外的Nature等杂志采用了这种模式。但是随着数据量的增长,这种模式的弊端也日益凸显。因为数据附属于论文,受到多方面的限制,如:数据内容、数据大小、格式等,数据不独立导致不能对数据进行单独引用。最大的弊端是,因为数据的评审与论文的评审同步进行,大大加重了评审专家的负担,使得数据影响论文的评审。从技术上看,数据需要占用大量存储空间,数据的管理也要耗费期刊大量人力,一般期刊难以承受。国外的The Journal of Neuroscience杂志在实施了一段上述模式的数据出版后,于2010年发布了一个编辑部声明,宣布该杂志不再接受作者投稿时提供附加材料(包括数据),也不再评审附加材料,而且该杂志也不再将作者提供的附加材料发布到其网站上。该杂志随后给出的理由是附加材料严重影响了论文的评审过程[5,25]。

       因为上述模式的实行有诸多障碍,一些期刊不要求作者将与论文相关的数据上传到自己的网站,而是上传至指定的存储机构并提供数据获取代码。往往是在特定学科领域获得广泛承认的数据存储机构。例如:Nature集团出版的数据期刊Scientific Data针对不同学科指定了一系列的数据存储中心,并在其网站提供了访问入口[26]。与上述模式相同的是,作者上传的数据仍然要与论文相关,而且期刊要求作者必须上传数据,否则论文将不被出版。由于数据本身并不受期刊控制,那么这种模式下数据一般应该是开放的,否则读者很难访问相关数据。

       由出版机构控制流程的优势在于出版机构能够通过出版方面的专业知识,严格控制数据及相关信息的学术质量,能够按照出版标准和学术规范加工数据的描述信息。

       第二,非出版机构独立控制模式。在这种模式下数据出版往往由科研机构、大学或相关学术组织建立的专门数据存储机构进行数据的出版。这也是当前进行得非常多的一种数据出版模式,通过搜索引擎我们很容易找到这些机构的网站,如:我国的地球系统科学数据共享平台、中国动物志数据库等数据存储机构,美国的康奈尔大学数据中心、美国国家冰雪数据中心等等,还有不少是跨国的数据存储机构。这样的数据存储机构在国内外数量众多,目前这些数据存储机构储存了大量的科研数据。

       这种模式的优势是数据的存储和数据的描述信息都在同一机构的服务器上,数据与描述信息同步呈现,避免了可能出现的数据难以获取的情况。与期刊相比,这些存储机构多为获得国家资金支持的大型研究机构,有雄厚的技术实力实现数据管理和监护。但是,由于数据存储机构是研究机构而不是出版机构,在对信息的加工方面不具备期刊的专业性,因而呈现出来的数据描述信息肯定不如正式出版的数据论文详细,在规范性和标准化方面也往往较差。这样的数据出版,更接近于数据存储,呈现的数据描述信息质量差,影响了学术界对其“出版物”地位的认定,部分期刊甚至不允许将这类数据的描述信息列为参考文献[4]。另一方面,这些研究机构既存储机构内学者提供的数据,也存储外部数据,虽然他们也对数据进行了评审,但评审的公正性会受到外界质疑,也影响了其权威性。

       第三,混合模式。有些学者按照数据出版的过程把除了作者的相关主体的角色划分为推动者、鉴定人管理者、评审控制者、把关者、元数据编辑者、元数据制作者、评审者、存储者、监护者[6]。前两种模式中,这些角色绝大部分情况下由出版机构或数据存储机构独立承担。而混合模式,就是出版机构和数据存储机构分别担任上述角色,共同形成数据出版过程。由于数据的多样性和数据存储机构的多样性,在不同情况下,出版机构和数据存储机构担任的角色和具体角色并不相同。最典型的一种模式就是出版机构出版数据论文,数据存储于数据存储机构,这时数据存储机构作为数据存储的推动者和数据鉴定人管理者负责数据质量,期刊作为评阅过程的控制者负责数据及数据论文的学术质量,评议过程由第三方完成,双方各自制作数据和数据论文的元数据。在其他情况下,可能稍有不同,例如有时作者数据的上传并非由数据存储机构推动,而是由期刊推动的,数据也由期刊评审,但元数据由存储机构制作。

       相对于前两种模式,这种混合模式相对灵活,能够最大限度发挥期刊和数据存储机构各自的优势。当然这种模式需要两家机构配合好,因为出版过程是双方共同进行的,一旦数据或出版物信息有变动,必须同步更改。值得注意的是,笔者在这里提出的混合模式,是针对出版主体的角色而言,范围比文献[6]提出的“混合overlay”模式要宽。

       第四,“二次出版”模式。目前研究数据出版的文献中并未关注数据出版物的二次出版问题,但这对数据出版的效果至关重要。笔者认为,随着各国高度重视科研数据的共享,会产生海量的数据和海量的数据信息,因而在数据出版后,提高数据在利用者中的可见性甚至比数据出版本身更为关键。因而,既要建立数据出版物的“门户网站”,对全球海量数据进行监护。还要建立数据出版物搜索引擎,使利用者能够方便地搜索到所需要的数据出版机构。这实质上是所有网络出版物到达受众的两大手段。目前,由德国研究基金会(German Research Foundation)资助的于2012年成立的re3data.org网站就是这样一个数据的门户网站。数据存储机构可以在该网站注册,该网站会对注册的机构进行评审。在网站上可以用关键词搜索数据存储机构,可以按国家、主题或内容类型浏览数据存储机构,目前该网站已经有1205个经过评审的数据存储机构的信息和链接[27]。

       3.3 数据出版的未来

       上面大致归纳出了当前数据出版的形态,但数据出版作为新生事物也正在不断发展,具体形式也在不断创新。例如:上面几种数据出版模式中都有对数据的评审环节,但在实践中评审的过程是不同的。除了用传统论文出版模式的评审,当前一些出版数据论文的出版机构还采用了把数据论文上传到学术社区,由学术社区匿名评审,作者根据意见修改数据论文,最后将评议意见和作者的反馈都发布出来。

       笔者认为,数据出版正是把单纯的数据共享和数据存储纳入到学术传播的过程,因而数据出版的重点在于“出版”而不是数据。调查显示,大部分研究人员几乎不访问或使用已发表的数据[17]。通过出版将数据及其信息规范化、标准化,促进数据的再利用。只有通过出版才能让数据的再利用与论文的再利用一样进入学术传播系统,通过传播激励作者上传或发表描述数据的信息。

       由于数据出版的复杂性和专业性,数据出版未来的发展趋势应该是多种主体合作,形成多样化的出版模式和合理的社会分工。如:著名出版商爱思唯尔就和数据存储机构PANGANEA数据中心合作进行数据出版,将数据和论文通过DOI进行关联[5]。当前的数据出版,数据提供者和数据论文或数据描述信息的作者往往为同一主体,未来的数据出版还应该允许非数据的提供者撰写数据论文,即允许第三人撰写类似书评一样的论文来发掘数据的学术价值。

       数据出版的最终目标是汇集与开发全球的科研数据,形成科研数据网络,最终形成科研大数据环境。因而,每个参与主体的作用都很重要。特别是学术期刊,因为掌握了出版伦理规范和标准的专业知识,数据出版的专业化和标准化离不开期刊的参与,期刊也能利用自身的优势地位促进作者进行数据出版。

       4 数据出版的主要障碍:伦理规范与标准的缺失

       4.1 当前的数据出版缺少学术“奖惩”功能

       在网络环境冲击下,传统出版物如:报纸、图书受到很大冲击,但学术期刊却在数字化浪潮中一枝独秀,受到的冲击最小。这得益于经过多年形成的学术传播生态体系,在这个体系中:作者投稿、期刊出版(数据库集成)、图书馆机构购买。作者的投稿意愿、社会对学术论文的需求、期刊的出版意愿高度一致,最终形成一个良性循环的系统。系统运转的动力正是来自于围绕论文出版形成的“奖惩”体系。这种奖励体系演变到今天,形成了以期刊文献计量评价部分代替论文学术评价的独特现象。国外的SCI、SSCI、A&HCI、EI,国内的CSCD、CSSCI等以文献计量学为主要指标的系统收录期刊成为国内外学者发表论文的主要目标,促进了学术出版的繁荣。能否进入这样的检索系统,甚至具体的影响因子数值成为评价期刊学术质量的指标。在这些系统收录的期刊发表论文,成为评价学者学术能力的指标之一。虽然这个系统的运行并不完美,目前也受到国内外学者的质疑,但其运行效果却不容置疑,极大促进了学术出版和学术交流。

       在学术传播体系中“奖励”系统与“惩罚”系统是相伴而生的。因为作者都希望自己的论文被他人引用,但却不一定愿意规范地标注引用他人论文的情况,客观地反映他人的学术贡献。因而,为了保障“奖励”的有效性、权威性和客观性,“惩罚”系统应允而生。这个“惩罚”系统就是近乎苛刻地学术论文出版规范和标准。最典型的就是参考文献的著录规范和标准,由于已经形成了一种学术界和出版界公认的伦理规范和标准,一旦作者没有规范地标引他人成果,就会面临道德惩罚,也会让期刊声誉受损。这种体系不是一朝一夕建立的,而是通过不断演变的出版单位外部和内部规范,通过学者、编辑和管理者的社会化逐渐形成的。

       而数据出版由于是新生事物,目前尚未形成类似论文出版的各种伦理规范和标准,这就使得数据出版物的学术评价机制没有形成,对作者缺少“奖励”机制,导致作者投稿动机不足。另一方面,由于还没有形成相应的伦理规范和标准,导致“惩罚”功能失效。调查显示,60%的学者愿意利用他人的数据,但仅有40%的学者愿意发表数据[5]。国内外的调查还显示,只有少部分学者愿意把数据出版物列入文后参考文献[3,28]。上述调查结果和学界争相发表论文,在论文写作时小心翼翼,生怕漏引一条文献形成鲜明对比,其原因正是因为数据出版伦理规范尚未建立,导致无法形成有效“奖惩”机制。

       这就导致当前的数据出版主要是由上向下推动,而不是自下而上高度统一。目前推进数据出版的除了部分期刊出版单位,主要是带有政府色彩的基金管理机构或者学术机构,如:美国的国家基金管理部门要求其资助的研究开放数据,我国的科技部及中科院等部门和机构都在大力推进数据的共享,2014年,英国生态学会在下属期刊中推行了强制数据存储政策[10]。而具体到广大的科研工作者,则明显动力不足。

       4.2 数据出版的复杂性导致统一规范和标准短期内难以形成

       数据与论文不同,论文虽然也有学科的区别,但论文是结构化的数据,科研数据却是非结构化的,种类多样,例如:视频、统计数据、图像、计算数据、编码表、计算模型、问卷等等都是数据,这就导致对数据的描述需求也存在学科差异。有的学科数据可能不需要太多附属信息就能再利用,有的学科需要更多说明。如前文所述,数据出版的形态也远比论文出版复杂,有多种形态,涉及多种类型的主体。此外,数据出版与论文出版另一个不同之处是,随着科学研究的“大数据化”,数据出版更需要跨国合作,一些涉及人类、涉及地球的基础数据一个国家根本无法完成,这也增加了数据出版的复杂程度。数据出版的复杂性导致短期内确实难以形成统一的伦理规范和出版标准。目前,已经有一些相关组织正在推进数据出版以及相关标准的制定,如:推动数据共享的RDA(Research Data Alliance)、推动数据引证的DataCite等组织,美国标准化组织制定了《在线附加于期刊论文材料的推荐惯例》(Recommended Practices for Online Supplemental Journal Article Materials),已经有一些可供参考的标准可以用。但还远远不能满足数据出版的需要。对此,亟须理论探索和具体实践。笔者调查了我国的数据出版情况,发现一些数据存储机构的元数据和给出的数据引用模式与国外相比规范性更差[29],在数据描述信息和出版者所给的引用信息中甚至找不到具体的数据获取方法,给出的链接是数据存储网站而不是数据的链接,也没有COI。

       4.3 数据出版需要哪些规范和标准

       目前,至少应该在以下几个方面制定相关规范和标准,至少在一定学科、一定范围应该先制定出下列标准,最后在兼顾多样性和统一性的要求后,形成一国甚至全球统一的数据出版规范和标准。主要包括:

       首先,与数据出版有关的伦理规范。制定数据出版的学术伦理规范是为了保证数据出版的顺利进行。通过出版规范保障数据出版必须保证数据及相关信息的真实性、客观性、可获得性,从而保证数据出版物的价值。为了保证数据出版具备这些因素,可借鉴传统论文的出版模式,制定一套行之有效的“奖惩”机制,如规定对于数据造假者和隐瞒引用数据出版物信息的具体惩罚措施,对于高质量数据出版物的引用应视为对论文的引用,不得在论文写作著录文献时歧视数据和数据出版物。若作者引用数据出版物而不标注,也应视为与引用论文而不标注同等的学术不端行为。只有在传统学术出版伦理中加入数据出版的内容,才能使当前的数据出版进入整个学术传播体系。否则,数据出版更多是数据存储和数据监护,数据的学术价值得不到有效开发。对此,国外学者已经开始探索性研究[12]。

       其次,应制定数据出版用稿规范。最迫切的主要有两个方面:其一,评审机制。数据出版评审规范的建立对于提高数据出版质量有重要意义,评审规范的建立需要考虑两方面的因素。一是内部因素,主要指数据出版所出版的数据本身的质量,在评审规范中对数据的质量、规范性、真实性等因素作出具体的衡量标准;二是外部因素,如对评审者的素质要求、评审机制的完善等。还需要研究具体的评审主体,因为数据出版物既涉及文本性信息,又涉及丰富多样的数据信息,传统的学界审稿人不一定能够胜任,对此,是否引入专门的数据评审员是值得深入探讨的问题。总之,如何建立一种有别于论文匿名评审机制的具体数据出版评审机制是数据出版用稿机制的核心。其二,具体用稿机制。与传统论文出版不同,在数据出版中会涉及多个主体之间的合作,主体之间如何配合形成科学用稿机制是另一个值得研究的问题。

       其三,数据引用规范。现在,国内外一些重要机构在数据出版引用方面的规范一般包括作者(Author)、名称(Title)、版本(Version)、发布机构(Publisher)、发布时间(Publication year)、传播机构(Distributor)、传播时间(Distribution date)、唯一标识符(Unique identifier)、解析网址(Bridge service),并且规定了这些元素的引用格式[30]。随着数据出版的不断发展,这些元素将进一步丰富与细化。但是我国的现状是并没有启动行业甚至国家层面的数据引用规范,现有规范是数据存储机构自己制定,存在不统一、不规范问题。

       其四,元数据标准。元数据是数据的数据,是对数据及信息资源的描述性基础信息。元数据对于数据出版有重要意义,因为数据是多样的,但是却可以通过统一的元数据标准来结构化、规范化。元数据的意义还在于,只要是数字资源信息都可以有元数据,这就让数据出版物和数字化之后的传统学术出版物——学术期刊、学术著作之间形成同类的结构化数据,使数据出版和期刊、图书在数字环境中形成一定程度的统一标准。2014年,我国国家标准《GB/T 30522-2014科技平台元数据标准化基本原则与方法》开始实施[31],但是这一标准并非具体的元数据标准,而是元数据标准化的原则和方法。因而,一些数据存储机构制定了自己的数据出版元数据标准,如:国家科技基础条件平台建设基础科学数据共享网项目组在借鉴国内外元数据标准研究成果的基础上编写了《元数据参考模型》[32],其中对元数据的格式、语义、语法、注册、一致性测试和评估完善等方面的内容进行了规定。当务之急,应当在借鉴国内外已有的元数据标准基础上,尽快制定我国统一的数据出版甚至是数字出版的元数据标准。

       作者贡献声明:

       张小强:撰写初稿,根据评审意见对论文全面修订并定稿;

       李欣:撰写第三部分初稿部分内容,整理文后参考文献,撰写中英文摘要初稿。

       收稿日期:2015-04-27 修回日期:2015-07-30

标签:;  ;  ;  

数据发布理论与实践中的几个关键问题_大数据论文
下载Doc文档

猜你喜欢