科学数据标准规范体系框架研究_科学论文

科学数据的标准规范体系框架研究,本文主要内容关键词为:标准规范论文,框架论文,体系论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       1 引言

       科学数据是人类在认识世界、改造世界的科技活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息[1]。在大数据科研环境下,对科学数据的获取和利用是保障与促进科研创新的前提。国内外缺少统一的科学数据标准规范体系,妨碍了不同领域科学数据的交换与共享。笔者在总结他人研究成果及调研现有科学数据平台标准的基础上,探讨了科学数据标准体系框架,认为该标准体系由价值鉴定标准、数据质量规范、元数据编写规范及元数据标准、分类编码标准、数据发布规范、引用标准六个方面构成,以期对科学数据标准规范体系的建立提供借鉴。

       2 科学数据标准规范体系框架及其内容

       2.1 科学数据标准规范体系框架

       我们认为科学数据标准规范体系框架由以下内容组成:价值鉴定标准、数据质量标准、元数据编写规范及元数据标准、分类编码标准、数据发布标准、引用标准,如图1所示。

      

       图1 科学数据标准规范体系框架

       2.2 框架构成的要素

       2.2.1 价值鉴定标准

       科学数据价值鉴定标准为衡量科学数据质量提供了参考依据。我们在借鉴相关研究的基础上[2],提出科学数据价值鉴定通用标准,主要由以下内容组成(见表1)。

      

       其中,成本效益标准中的替代成本仅适用于除观察与观测数据外的科学数据。在实际对科学数据价值进行判断时,需要进一步制定详细的可量化价值鉴定标准指标,使标准具有可操作性。每一指标所涵盖的范围应明确,并尽量避免各指标所涵盖内容之间的交叉。

       2.2.2 数据质量标准

       数据质量测评是鉴定科学数据价值的首要依据。我们在参考中国科学院计算机网络信息中心制定的《数据质量评测方法与指标体系》[3]的基础上,归纳出数据质量评价指标,如表2所示。

      

       除了上述通用的数据质量测评规范,我们还需要制定专业领域的数据质量标准。如可借鉴中国林业科学研究院资源信息研究所针对林业领域制定的《林业专题空间数据质量控制标准》[4],提出林业专题空间数据的质量标准包括数据的完整性(包括数据覆盖范围和数据层完整)、位置精度(包括数学基础精度、平面位置精度)、属性精度、合理性(包括数据逻辑一致性、拓扑一致性、成图合理性)等内容。

       2.2.3 元数据编写规范及元数据标准

       (1)元数据编写规范

       元数据编写规范包括数据集名称规范和数据集摘要规范。如地球系统科学数据共享网制定了《元数据编写规范(讨论稿)》[5]。其数据集名称应包含数据统计时间、区域、精细程度、专题要素等内容。如数据集名称“全国1∶10万土地利用数据(1980s,1995,2000)”。其中“全国”为数据的区域;“1∶10万”为数据的精细程度;“土地利用”为专题要素;“1980s,1995,2000”表示数据统计时间。数据集摘要规范需说明数据来源和数据的加工生产与整理方法。在编写元数据时,还应注重元数据的粒度规范,即在哪个层次上(数据实体、数据集、数据库)编写元数据,如地球系统科学数据共享网规定以数据集为基本单位进行元数据的编写。

       (2)元数据标准

       我们认为,元数据标准包括通用的元数据标准和专业领域的元数据标准。

       ①通用的元数据标准。通用的元数据标准应包括描述信息、元数据参考信息和联系信息3个模块,如中科院网络信息中心制定了通用的《数据集核心元数据标准》[6],其中描述信息、元数据参考信息均为必选模块,联系信息为辅助模块。元数据元素由9个属性来定义:中文名称、英文名称、标识、定义、类型、值域、可选性、最大出现次数、注释。3个模块及其所包括的元数据元素如表3所示。②专业领域的元数据标准。为了解各专业领域科学数据的元数据标准现状,笔者对地震[7]、林业[8]、生态[9]、煤地质学[10]领域的专业元数据标准,从元数据实体和元素的定义和描述方式及其属性、元数据实体集模块划分3个方面对其元数据标准进行归纳,如表4所示。

      

       由表4可知:a.在元数据实体和元素的定义和描述方式中,地震和林业领域均包括摘要表示和字典表示两种方式,地震领域还提出了用UML(Unified Model Language)图方式。UML图采用统一建模语言进行模型的构建,并用以表示元数据子集、元数据实体和元数据元素之间的关系。b.在定义和描述方式的属性元素中,地震和林业领域的摘要表示属性相同,字典表示的属性中,林业领域比地震领域多了“级别”属性,地震领域中的一个属性为“短名”,在林业中为“短名和域代码”,其他属性均相同,生态领域的数据元素属性除了比地震领域的多“英文名称”属性外,其他的大致相同。c.在元数据实体集模块划分方面:地震、林业、生态、煤地质四个领域均包含标识信息、分发信息、数据质量信息三个模块。可见,在制定专业领域的元数据标准时,此三个模块为必要模块,其他模块可根据专业领域的不同建立其特有的信息模块。

       2.2.4 分类编码标准

       为了解各个专业领域的科学数据分类编码现状,笔者对基础科学数据[1]、地震[11]、人口健康[12]、林业[13]、煤矿安全领域[14]的科学数据的分类编码规范进行分析,从编码结构/分类法、代码形式、代码长度、代码表示方式四方面对专用分类编码规范进行归类整理,如表5所示。

      

       2.2.5 数据发布规范

       数据发布是数据共享的前提。《地震科学数据发布规范》包括数据的分级、元数据的发布要求、元数据的发布对象及发布方式、质量控制等内容[15]。地震科学数据分为四个等级:一级数据为可向社会公众公开发布的数据;二级数据为能够向国内、国外用户提供的数据;三级数据为可以向国内用户提供的数据;四级数据为只允许向特定范围的用户提供的数据。发布方式有在线方式和离线方式。一至三级数据以在线方式为主发布,在线方式主要通过网站提供数据的查询、浏览和下载,四级数据主要采取离线方式发布,离线方式主要通过光盘和纸介质等媒体提供数据。元数据的发布要求应为所有用户提供查询和下载服务。发布原始数据或加工数据时,应同时发布与该数据集相关的基础数据;发布加工数据时,应同时说明数据加工的方法和程序,以及使用的原始数据和基础数据;鼓励发布与数据解释或应用所需的应用程序;鼓励对原始数据进行加工和产品开发,并发布加工数据和产品;应尽可能提供数据的可视化展示;应采用国家标准物理单位,并说明或标明数据的单位;应说明数据的质量信息。数据的发布对象及发布方式如表6所示。

      

       在发布数据时,一级、二级、三级数据均要求应同时发布相应的元数据或文档说明,注明数据来源、内容、格式、时间属性(范围和分辨率)、空间属性(范围和分辨率)、制作单位等。二级和三级数据还要求注明统计处理方法、质量状况和质量控制方法。各级数据在发布前均需对数据进行质量控制,四级数据的要求最为严格,必须按照国家有关标准和规范制作,并经过严格的质量检测后才能发布,发布时要采取必要的安全措施,保证数据的安全。

       2.2.6 引用标准

       科学数据的规范化引用目的是借鉴传统文献评价体系,使用类似引文的评价方式,对数据创建者的贡献给予承认并量化贡献度。数据规范引用有利于保护数据创建者的知识产权,便于统计和分析数据引用情况。为用户提供数据定位和参考机制,增加数据的重用与共享,并提供了验证科研过程的路径[16,17]。科学数据的规范化引用格式分别由通用领域和专业领域提出。

       (1)通用领域科学数据引用规范

       中国科学院计算机网络信息中心提出科学数据通用领域的引用规范[18,19]。其引用规范均包含两种形式,分别为由必选元素组成的引用格式和由全部元素组成的引用格式两种。

       计算机网络信息中心制定的《科学数据引用规范》对科学数据的引用包括八个必选要素(作者、名称、发布机构[发布机构]、发布年份、传播机构[传播机构]、传播时间、唯一标识符和解析地址)和一个可选要素(版本)。其中,由必选元素组成的引用格式为:作者.名称.发布机构[发布机构],发布年份.传播机构[传播机构],传播时间.唯一标识符;解析网址.由全部元素组成的引用信息格式为:作者.名称(版本).发布机构[发布机构],发布年份.传播机构[传播机构],传播时间.唯一标识符;解析网址.

       (2)专业领域科学数据引用规范

       笔者调研国家地球系统科学数据共享平台,此平台也为用户提供了数据引用格式,如在数据直通车栏目的20个条目数据集中[20],除了2条的数据引用声明元素中没有解析网址,其他18条数据引用格式均为:作者.名称.出版者,出版时间.唯一标识符,解析网址。

       如:张镱锂,李炳元,郑度.《论青藏高原范围与面积》一文数据的发表:青藏高原范围界线与面积地理信息系统数据.全球变化科学研究数据出版系统,2014.DOI:10.3974/geodb.2014.01.12.v1,http://www.geodoi.ac.cn/doi.aspx?doi=10.3974/geodb.2014.01.12.v1[21]。

       笔者进一步浏览本平台的其他数据集,发现引用格式与数据直通车中的并不一致,说明此平台引用标准还没有完全统一。

       目前,数据引用格式还需进一步规范化。制定数据引用标准需要考虑以下几个基本问题:数据版本、数据粒度、数据验证、引用数据或数据论文、唯一标识符分配[16,17]。数据引用标准制定需要数据拥有者、数据出版商、数据用户、数据整合者、数据监管者等的共同努力。

       3 结语

       笔者初步构建由价值鉴定标准、数据质量标准、元数据编写规范及元数据标准、分类编码标准、数据发布标准、引用标准组成的科学数据标准体系框架,并探讨了其组成的要素。目前,还未建立关于价值鉴定标准的完整的指标体系;在数据质量规范方面,专有领域的质量测评指标有待细化;元数据标准中标准模块、元数据表示方式及元数据要素属性也需要进一步规范;分类编码还缺少通用标准;引用标准因学科领域、平台的不同而有所差异。科学数据标准体系本身仍需进一步完善,如将数据交换格式、数据资源加工规范、互操作技术规范、数据库建设规范、资源唯一标识符规范、数据服务规范等随着研究的丰富与实践的积累逐渐纳入标准体系之中,对于科学数据的标准规范体系的探讨还处于起步阶段。

标签:;  ;  ;  

科学数据标准规范体系框架研究_科学论文
下载Doc文档

猜你喜欢