中国科学院科学数据标准体系研究与实践论文

中国科学院科学数据标准体系研究与实践*

胡良霖1郑晓欢2朱艳华1高瑜蔚1周园春1

(1.中国科学院计算机网络信息中心 北京 100190;2. 中国科学院办公厅 北京 100864)

〔摘 要〕 针对科学数据资源多源且异质异构的复杂特点,中国科学院制定了完善的科学数据标准体系,研制并发布实施了包括数据采集与加工、元数据、数据管理、数据质量、数据服务等方面40 余项标准规范,内容全面覆盖了科学数据资源全生命周期的关键业务节点,并根据需要集成到5 个指导规范中。本文全面总结了中国科学院在科学数据标准规范方面取得的主要成果,以期为落实国家《科学数据管理办法》提供参考借鉴和解决方案。

〔关键词〕 中国科学院 科学数据 标准体系 研究与实践

1 引言

科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据[1]。大数据时代,科学数据的获取和利用是促进科研创新的前提和保障。当前科技创新对科学数据的需求日益迫切,我国科学数据的管理与应用仍然存在明显不足,特别是有许多高价值的科学数据并未在国内得到充分的共享和使用,中国在科学数据开发利用、开放共享和安全保护等方面还有很大的改进空间[2]

2018 年3 月17 日,国务院办公厅正式发布《科学数据管理办法》(以下简称《办法》)。《办法》明确规定“法人单位及科学数据生产者要按照相关标准规范组织开展科学数据采集生产和加工整理。”《办法》发布以后,社会各界反响热烈。截至目前,黑龙江省、甘肃省、陕西省、云南省、昆明市等多个省市先后出台了科学数据管理实施细则。中国科学院(以下简称中科院)于2019 年2 月11 日正式发布了《中国科学院科学数据管理与开放共享办法(试行)》,指导全院的科学数据共享,是中科院实施国家大数据战略的重要举措[3]。在各省市和中科院发布的《办法》实施细则类文件中,都强调了对科学数据标准的研制和遵从。

科学数据资源建设和服务是一项庞大且复杂的系统工程,其标准化也涉及科学数据全生命周期的众多关键业务点。中科院自1986 年启动科学数据工作以来,一直高度重视科学数据标准工作,并逐渐形成了较为完善的科学数据标准体系[4]。本文全面梳理了30 多年来,特别是2000 年以来,中科院在科学数据标准规范方面的发展历程和取得的主要成果,以期为社会各界落实国家《办法》提供参考借鉴和解决方案。

2 发展历程

中科院科学数据标准工作的系统化开展始于“十五”期间,自此以来中科院立足实际需求,面向应用实效,扎实推进标准的研制和推广应用工作。从“十五”面向分布式异构数据资源的规范化统一服务,到“十一五”数据资源及其应用环境(含国家科学数据共享工程项目“基础科学数据共享服务平台”)建设和服务的标准体系形成,再到“十二五”响应“海-云”环境和“十三五”适应大数据环境下科研模式变革的标准体系完善,科学数据标准的研制和应用与时俱进。中科院科学数据标准发展主要经历了以下四个关键阶段。

19周龄4个处理组鸡体重和胫长见表4。由表4可以看出,育成期不同的蛋白质水平对鸡体重和胫长造成的影响,在统一日粮后,饲喂5周,即蛋鸡在19周龄时各处理的体重和胫长已无显著差异(P>0.05)。

无论是国家大力推行教育体制改革还是努力将移动学习与高职英语相融合,这一切都是为了学生未来可以更好地就业和生活。因此,我们应当努力拓展英语教学方法,优化移动学习方案,力求学生英语水平与教师教学水平同步提高,让网络信息技术的发展与现代教育体制的改革相融合,一起携手并进,达成培养更多社会需要型人才的目标。

2.1 “十五”数据标准规范建设初见成效

“十五”期间,标准规范研发团队面向科学数据库建设与服务的切实需要,开始有规划、有组织地开展标准规范建设,同时联合各建库单位系统地研究和制定了21 项规范,基本覆盖科学数据库建设的全过程,具体包括数据库建设过程与文档规范、技术规范、元数据标准框架、核心元数据标准等。此外,标准规范研发团队还重点深入到地球科学、化学、生物学等领域,发动和组织学科领域专家成立领域标准工作组,研究和制定了多个学科领域的专用规范,如学科领域元数据规范、数据共享服务规范、数据质量规范等,直接应用于学科领域科学数据库的建设与共享[5]

2.2 “十一五”数据标准规范体系形成

“十一五”期间,科学数据标准规范体系基本形成,内容覆盖了科学数据库的建设和服务的基本内容,指导数据库从需求分析、设计实现到服务全过程关键内容的实现,并在应用中取得了良好的效果。标准规范研发团队结合项目实际需求,完成了三项数据政策(科学数据共享办法、数据托管存储管理办法、科学数据加工增值管理办法),以及数据加工与建库、元数据、质量管理、集成与服务四个系列的24 项标准规范的研制。其中专业数据库建设规范、建库技术指导规范、数据库服务网站建设指导规范、数据应用环境建设与服务标准规范框架四项标准是在项目进展过程中,根据实际需要,超额完成标准研制项目任务指标的内容。

2.3 “十二五”面向“海-云”环境标准规范体系趋于完善

立足“海-云”环境下科研模式的新特点和新需求,标准规范研发团队面向中科院数据云服务体系的海量科学数据存储基础设施,研究制定基础设施建设、运行和服务的技术规范和服务标准,完成了基础设施协同运行技术规范和协同运行服务规范等两项管理规范;面向云环境中数据库自助管理与共享服务软件平台、科研人员组织数据交换与共享云平台,完成了用户统一认证接口、互操作接口和科学数据服务效果评测系统相关接口规范等三项技术规范;面向“海-云”环境下科学数据资源集成和应用服务的新特点,完成了语义查询扩展规范、基于用户行为的相关度修正、本体适用性评估规范、科学数据引用规范和数据溯源表达模型等五项服务规范。

2.4 “十三五”面向大数据标准规范体系再发展

“十三五”期间,标准规范研发团队面向大数据开放、融合和创新等对基础环境、资源汇聚融合、大数据技术开发以及管理运行模式等关键环节的新需求,制定面向开放、可扩展的大数据资源集成接口、大数据资源整合与服务等方面的标准规范。研发团队目前已经研制了包括规定数据服务语法互操作要求的数据互操作规范;满足科学大数据工程项目数据标识服务平台与大数据平台接口要求的科学数据标识接口规范以及发现元数据、数据对象元数据等多个数据规范等。

3 制定原则

五项指导标准主要是结合了中科院数据库项目的实际需求,即《主题数据库建设规范》《专题数据库建设规范》《参考型数据库建设规范》《所级数据库建设规范》和《专业数据库建设规范》。“十一五”期间,中科院从信息化战略资源高度系统地规划科学数据资源体系,根据学科领域的数据整合需求,规划建设参考型数据库、主题数据库、专题数据库和专业数据库。其中,专业数据库由具体研究所承担建设,主题、专题和参考型数据库则通过组织相关研究所进行跨所联合建设[6]。“十二五”期间增设了研究所级数据库类型。每类数据库的确立都凝聚了老一辈数据科学家的智慧和心血。指导规范规定了每类数据库在内容组织、技术实现、运行维护和共享服务等方面需要完成的工作和具体的要求,这些内容都来自前述专用标准。

3.1 符合相关国家标准和国际标准

我们在充分调研国内外相关标准适用范围的基础上,遵循科学数据领域已经发布的相关国家标准和国际标准,并根据实际工作需要进行扩展和调整。如在标准编写方面遵循《标准编写规则》(GB/T 20001)、《标准体系构建原则和要求》(GB/T 13016)等;元数据撰写方面遵循《元数据注册系统》(GB/T 18391)、《地理信息元数据》(ISO 19115)等;数据标识方面遵循《科技资源标识》(GB/T 32843 )等有关的规定和要求。

3.2 满足项目的切实需求

科学数据资源管理活动的每个环节都离不开标准规范,在数据资源集成整合、共享建设、应用服务等过程中均需要建立相应的长效工作机制和规范要求。科学数据标准规范研制力争做到有现实需求,能解决具体问题;有共性特征,能解决通用问题;有配套实现,能解决应用问题。

3.3 研究内容适度前瞻

除了满足数据项目建设需求之外,标准研制还兼顾科学数据发展的前沿问题和热点问题。如针对异构数据的语义集成、数据规范化引用和数据溯源等问题,研发团队率先研制出《本体适用性评估标准》《数据引用规范》和《数据溯源表达模型》等标准内容,其中后两项标准已经作为国家标准正式发布。

3.4 加强与学科领域的合作

针对科学数据学科领域广泛的特点,信息技术人员和中科院地理所、土壤所、山地所、动物所、空间中心、金属所等领域专家成立了多个标准工作组,持续推进学科领域标准规范研制工作。我们一方面利用中科院计算机网络信息中心在计算机信息领域的技术优势,另一方面充分发挥专业领域的学科优势,力争做到专业上各司其职,强强联合。

鲁迅说:“中国一向就少有失败的英雄,少有韧性的反抗,少有敢单身鏖战的武人,少有敢抚哭叛徒的吊客;见胜兆则纷纷聚集,见败兆则纷纷逃亡。”(引文同上)说的就是从众现象。

3.5 标准体系灵活可扩展

在项目实施周期内,标准规范研发团队参加了历次科学数据库的技术培训,藉此向建库单位进行了全面的标准规范宣贯,保证标准规范在项目内的实施和应用。在标准规范的支持下,科学数据库参建单位参照各项标准规范,推进了各自数据库的建设,以统一的形象为用户提供数据应用服务。

如图1 所示,科学数据标准体系主要包括“专用标准”和“指导标准”两大类。其中,专用标准针对科学数据资源建设中涉及的采集与整理、元数据与数据模型、数据处理与增值服务、系统与接口、管理与技术、应用与服务等方面进行了明确且细致的规定。指导标准则基于专用标准,满足实际项目中具体数据库建设的应用需求,全面指导该类数据库的建设和服务。

3.6 将项目标准谨慎提升为国家标准和国际标准

对于能够通过软件工具支撑实现的规范,标准规范技术团队还开发了配套软件工具,尽可能把标准规范中可以固定的内容固化到软件中,以软件带动标准的贯彻落实,提升其效果和质量。已经开发完成的元数据收割工具、数据完整性检测与评价工具、资源与服务注册系统、数据资源关联与发现工具、科学数据服务效果评测系统、数据门户平台集成系统等,都采用相关标准实现了项目层面的部署和应用。详见表2 。

4 科学数据标准体系

在中科院科学数据库项目和基础科学数据共享服务平台项目的支持下,历经“十五”的探索、“十一五”的建设、“十二五”和“十三五”的完善和再发展,我们已经建成了较为完整的科学数据标准体系。标准规范研发团队在国家现有标准的指导下,严格参照国家标准“三稿二审”的工作模式,编写项目标准规范,保质保量。已建成的科学数据标准体系在统一的架构下,彼此协调一致,内容覆盖了科学数据建设和服务的基本内容,能够指导数据库从需求分析、设计实现到共享服务的全过程关键节点,并在应用中取得了良好的效果。

这里要突出海鸟无畏,展翅滑翔(动),而作者却首先描写天地都是静的——“月朗星稀,风平浪静”,从而衬托海鸟的动态是那样令人震撼。

说明:通过这些问题让学生体验和感知,在学生的感知基础上抽象概括生成集合的概念.从生活中的例子出发,有利于学生的理解;通过分组实验活动,让学生参与并体验,同时寓教于乐.概念的得来要让学生参与,让学生有充分的体验和感悟.

图1…………科学数据库标准规范体系模型

4.1 专用标准

3.4 小结和本研究的局限 目前国内对于临床指南的研究大多集中于指南的制定、更新和评价等方面,而对临床指南在医师群体中的认知和应用情况的调查研究相对较少。本研究从眼科医师对临床指南的认知和应用情况两方面进行问卷调查,发现受访者对临床指南普遍持认可态度,但认知与应用尚欠理想;职称、最高学历、医院级别影响指南认知和(或)应用。

专用标准共有41 项,具体包括:采集与整理标准13 项、元数据与元模型标准4 项、系统与接口标准5 项、数据管理标准10 项、数据质量3 项以及数据服务标准6 项。详见表1。

表1…………科学数据专用标准

4.2 指导标准

中科院科学数据标准研制主要遵循以下6 个基本原则。

5 实施推广

5.1 开发标准规范配套工具软件,在项目内培训和实施

在实际工作中,标准规范研发团队还与院内外科研机构建立了良好的关系,共同致力于将具有广泛应用价值的项目标准谨慎地提升为国家标准和国际标准,至今主持或参与研制的国家标准和国际标准达到12 项。特别是2015年年底,全国信息技术标准化技术委员会大数据标准工作组成立,确认了12 项大数据国家标准研制任务,其中《科学数据引用》和《数据溯源描述模型》两项国标由中科院计算机网络信息中心牵头完成并正式发布。

表2…………支撑标准规范实施的软件工具

科学数据标准体系作为一个开放的、可扩展的系统,在遵循数据相关国家标准的基础上,着眼于现状和未来,兼顾近期需求和长期目标,经历“十五”“十一五”“十二五”和“十三五”等关键发展阶段,不断进行更新和完善。在科学数据标准体系研制过程中,既要考虑已有数据资源建设和服务的成熟技术,强调标准体系框架的相对稳定性,又要兼顾关键领域标准和技术标准的新进展和新趋势。

实验参照本间智晴的方法设定驯化时间,主要测定放声后鱼群的聚集率(标志框内鱼尾数与总鱼尾数的百分比)。以及放声后鱼群的反应时间和聚集时间。实验驯化时间分为两个阶段,第一阶段为先放声60s,停止放声60s,接着再放声30s后投饵120s,总时间为270s;第二阶段为先放声90s,停止放声60s,再放声30s后投饵120s,总时间为300s。实验天数为12d,每日驯化4次。投饵量参照佐藤靖的研究报告,1次投饵量为15.7g。

5.2 部分项目标准提升为国家标准和国际标准

经过十余年的努力,中科院科学数据标准工作已经逐步形成了“有需求,多合作,要实用,慎提升”的特点。中科院计算机网络信息中心是其科学数据中心体系建设的总体牵头单位,先后作为第一责任单位完成了《生态科学数据元数据(GB/T 20533—2006)》《信息技术 数据溯源描述模型(GB/T 34945—2017)》《信息技术 科学数据引用(GB/T 35294—2017)》和CODATA 国际标准《天然气水合物描述语言(Gas Hydrate Markup Language)》,以第二责任单位完成了《检测资源信息共享体系建设指南(GB/Z 27414—2012)》和《土壤科学数据元数据(GB/T 32739—2016)》。详见表3。

表3…………参与完成的国家标准列表

5.3 标准成果应用到中科院院外单位

自“十一五”项目结束以来,在线发布的标准建设成果已被访问下载17 万次之多,配套工具软件已经在项目内全面推广使用,部分成果(如数据自主管理与发布工具、数据网络服务与访问监控统计系统等)还广泛应用到项目之外。中科院科学数据标准体系在中科院信息化数据库、国家基础科学数据共享服务平台等项目中得到应用和实施,此外,还将标准规范成果推广至新华社、烟草研究院等院外单位。

2014 年8 月,标准规范研制团队承担了新华社云平台项目标准规范制定课题。标准规范的建设既要满足当前已有的云计算平台的运行需求,也要保障计算虚拟化平台、云存储平台、PaaS 平台、大数据及应用开发平台等众多平台的建设和实施工作,从资源申请工作流程和设备接入、管理、应用、服务、接口标准、服务目录标准、架构治理标准、隐私与安全等方面推进标准规范的建设工作,完成了计算虚拟化平台整体标准规范、云存储平台整体标准规范、PaaS 平台整体标准规范、大数据及应用开发整体标准规范等,并将其作为新华社企业技术标准发布。

2018 年,团队承担了中国烟草总公司科技重大专项烟草科研大数据标准体系研究课题。标准规范研制团队通过借鉴国内外大数据标准体系现有研究成果,充分结合烟草科研活动的特点和烟草资源体系的特征,研制了包括基础标准、技术标准、业务标准和管理办法等在内的烟草科研大数据标准体系;同时,根据实际业务需求,分阶段完成其中的基础标准和技术标准研制工作。

6 结语

中科院科学数据标准体系覆盖了数据资源从建设到应用及效果评估全生命周期的规范化管理内容,完成了包括数据采集与整理、元数据与元模型、系统与接口、数据管理、数据质量、数据服务等在内的40 余项专用标准,并根据项目需求将其集成到5 项指导标准中。经过十余年的努力,标准规范研制团队还参与了12 项国家标准和国际标准的研制。科学数据标准规范在中科院科学数据资源建设和应用服务工作中发挥了重要的助推作用,提升了科学数据规范化建设和服务的能力。大数据时代,面向中科院大数据资源深化发展的需求及大数据驱动科研发现的应用要求,我们的科学数据标准体系还将持续更新,不断完善。

致谢:中科院科学数据库项目始于1986年,十五期间,标准规范建设开始有规划、系统地开展。科学数据标准体系的研制一直得到有关领导、数据科学家、领域专家和一线科研工作者的指导和帮助,谨此一并致谢。

参考文献:

1. 国务院办公厅关于印发科学数据管理办法的通知.[EB/OL].[2019-03-19]. http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

2.科技部举行《科学数据管理办法》新闻通气会.[EB/OL].[2019-03-19]. http://www.scio.gov.cn/xwfbh/gbwxwfbh/xwfbh/kjb/Document/1627104/1627104.htm.

3.中国科学院科学数据管理与开放共享办法.[EB/OL].[2019-03-19]. http://m.cas.cn/tzgg1/201902/t20190220_4679797.html.

4.中国科学院科学数据标准规范体系[EB/OL]. [2019-03-19].http://www.csdb.cn/datacenter/.

5.科学数据库专家委员会.中国科学院科学数据库二十年:科学数据库与信息技术论文集[C].北京:中国环境科学出版社,2006:1-8.

6.陈明奇.中国科学院科技数据资源现状及其发展思考:科学数据库与信息技术论文集[C].北京:科学出版社,2011:1-7.

Research and Practice on Scientific Data Standard System in Chinese Academy of Sciences

Hu Lianglin1 Zheng Xiaohuan2 Zhu Yanhua1 Gao Yuwei1 Zhou Yuanchun1
( 1. Computer Network Information Center of CAS; 2. Department of General Administration of CAS )

〔Abstract〕 In response to the complex nature of scientific data resources and heterogeneous heterogeneity, Chinese Academy of Sciences has developed and published a comprehensive scientific data standard system, including more than 40 standards of data processing and database construction, such as metadata , data management, data quality and data services,and integrated them into five guidelines as needed. This paper comprehensively summarizes the main achievements of the Chinese Academy of Sciences in the standardization of scientific data, with a view to providing reference and solutions for the implementation of the National Scientific Data Management Measures .

〔Keywords〕 Chinese Academy of Sciences Scientific data Standard system Research and practice

〔中图法分类号〕 G250

〔引用本文 格式〕 胡良霖,郑晓欢,朱艳华,等.中国科学院科学数据标准体系研究与实践[J].图书馆,2019(11):006—010.

* 本文系中国科学院“十三五”信息化专项项目“科学大数据工程”(项目编号:XXH13505)研究成果。

(来稿时间:2019 年5 月)

〔作者简介〕 胡良霖(1973—),男,中国科学院计算机网络信息中心正研级高级工程师;郑晓欢(1981—),女,中国科学院办公厅高级工程师;朱艳华(1982—),女,中国科学院计算机网络信息中心高级工程师;高瑜蔚(1989—),女,中国科学院计算机网络信息中心工程师;周园春(1975—),男,中国科学院计算机网络信息中心研究员。

标签:;  ;  ;  ;  ;  ;  

中国科学院科学数据标准体系研究与实践论文
下载Doc文档

猜你喜欢