大数据背景下科学数据互操作实践进展研究_科学论文

大数据背景下科学数据互操作实践进展研究,本文主要内容关键词为:数据论文,进展论文,操作论文,科学论文,背景下论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       中图分类号:G203 文献标识码:A

       DOI:10.11968/tsygb.1003-6938.2015069

       1 引言

       大数据时代的计算机和数字设备产生并积累了海量的科学数据,科学研究从独立、小型的学术行会形态转移到大规模、更加互联和开明的科学家群体中。科学研究范式相应发生了根本性转变,进入到基于数据密集型计算的“第四范式”。这一范式的特点是科学研究建立在掌握尽可能多的科学数据基础之上。因此,迫切需要将科学数据纳入正式的学术交流过程,使之成为一种跟文献一样可以公开获取的资源。正如吉姆格雷描述的科学研究第四范式愿景:“能够实现所有的科学数据和文献的统一。创建数据文献交互操作的世界,更好的实现学术交流。”[1]

       科学数据的互操作正是实现上述愿景的一个先决性条件,它帮助实现跨学科、跨社区的学术信息交流。CODATA中国委员会将科学数据的互操作列为大数据时代支撑科学研究的共性技术之一[2]。因此,实现科学数据的互操作,构建基于科学数据的第四范式对学术信息交流和创新具有深远的意义。

       2 科学数据互操作概述

       2.1 科学数据互操作概念

       大数据时代越来越需要跨学科进行科学研究,比如地理观测领域依赖于多学科的科学数据分析。包括水文学、地质学、农学、地理学、生物学、GIS等。但是由于不同学科的系统和软件平台不同,产生的科学数据在格式、结构、语义关联、准确度等方面都存在差异。比如水文学计量长度的单位是米,数据格式是MIF,而地质学用的是千米,数据格式是GML。因此需要对科学数据实行必要的转换,实现就这一过程是科学数据互操作。

       科学数据互操作作为整个互操作问题的一方面,目前还没有一个统一的定义,许多学者立足各自的视角对其提出了不同的观点。例如Scott A.Renner教授将科学数据互操作定义为跨越不同组织机构和系统的界限以一种统一、有效的方式正确阐释和理解科学数据的能力[3]:Maurice教授认为科学数据互操作是为有效的信息交流而进行的数据管理活动,包括科学数据的清洗、耦合、融合、迁移以及信息提取等[4];Marijn Janssen教授认为科学数据互操作是两个或更多的数据集相互连接、结合、处理的能力[5]:Nancy Ide教授等人把科学数据互操作分为语法互操作和语义互操作两方面。其中,语法互操作是指系统依赖于特定的协议进行相同格式的结构化数据交换,通常是通过XML格式和Web服务技术;语义互操作确保信息以相同的方式进行解释,这要求对不同本体的共同理解[6]。

       根据以上学者对科学数据互操作的不同定义,本文认为科学数据互操作强调把不同格式和结构的数据集成在一起操作,可以理解为两个或更多的学科系统之间交换彼此的数据集信息并且使用所交换信息的能力。

       2.2 科学数据互操作最新研究进展

       大数据时代科学研究范式的变革要求科学数据是开放和互操作的,它的实现会极大推动科学研究的步伐。因此,学者们对其研究表现出极大的热情。会议方面,“种质资源数据互操作国际电子商务大会”(2013年12月)[7]与“第八届加拿大公共安全科学数据互操作研讨会”(2014年11日)[8]相继召开,科学家们共同探讨了各自领域不同数据源和资源的当前互操作状态以及面对的问题:2014年4月“语义互操作大会”在雅典召开,旨在促进语义互操作技术的发展[9]。

       理论研究方面,美国SAFECOM国土安全项目[10]以及R.Rezaei教授[11]分别提出了用来定义和衡量科学数据互操作体系成熟的五个阶段。实践探索方面,张晓林教授[12]、JF Ethier教授[13]以及MA Dhuieb教授[14]等针对不同的应用场景构建了相应的科学数据互操作规范框架;何克清教授[15]、王芳教授[16]等对科学数据互操作标准协议的应用进行了深入研究。社会应用层面,爱尔兰Edward Curry教授[17]以美国Marijn Janssen教授[5]等试图通过关联数据和数据组合的方法促进科学数据的互操作;日本Maikic Z教授[18]、SB Datta教授[19]等通过构建新型的内涵数据库(Intensional RDB)来实现大数据的互操作。

       3 国际机构科学数据互操作实践研究状况

       大量国际组织、科研机构和政府部门等同样对科学数据互操作的研究表现出极大的热情。因此像欧盟GRDI2020科学数据基础设施建设项目、全球空间数据基础建设GSDI协会、美国安全数据研究组织IJIS、科学和教育组织OGCII、医学数据研究机构West Health、Kahua公司等各行各业均投入巨额经费致力于科学数据互操作的实践研究。欧盟GRDI2020项目、美国UIS组织和医学研究所West Health是国际上三个比较知名的科学数据设施建设机构,面对海量且格式多样的科学数据,其投入大量资金与人力致力于实现日益增长的科学数据洪流之间的互操作,并提出了许多卓有成效的科学数据互操作实践方案,对于国际机构科学数据互操作的实践研究具有较高的代表性。

       3.1 欧盟GRDI2020项目

       3.1.1 项目简介

       欧盟GRDI2020(Global Research Data Infrastructures)[20]项目是由欧盟第七框架资助的构建科学数据基础设施项目,该项目旨在2020年实现全球科学数据基础设施建设的战略愿景。2011年1月,GRDI2020项目发布了《全球科学数据基础设施:重大数据挑战》报告。该报告提出了构建全球科学数据基础设施面临的主要挑战和必须解决的问题,并指出为了探索利用海量数据,必须开发新型信息化基础设施,构建管理数字化、联网的科学数据环境。

       3.1.2 研究进展和战略目标

       针对科学数据互操作,欧盟GRDI2020项目指出科学数据互操作是影响科研合作和科学数据共享的根本性问题,也是科学数据基础设施建设中面临的主要挑战之一。该项目旨在通过“共享和共同参与”的战略来实现科学数据的互操作[21],主要包含:

       (1)构建共享和综合的科学数据互操作框架。此框架是一个综合的模型,它对科学数据互操作的所有方面给出统一的定义,涵盖从技术层面到组织层面,以及现存的和即将产生的科学数据互操作方法。这样科研机构就能通过这个共享的模型形象具体地对数据互操作问题和解决方案进行比较,找到最适合自己的方法技术。该框架应该由现存的方案扩展而来,比如EIF(European Interoperability Framework)。

       (2)制定科学数据互操作的共同标准。欧盟GRDI2020项目指出为机构制定互操作共同标准是实现科学数据互操作最有效和最理想的方案。针对不同机构的利益、文化及设备等方面的差异性,科研机构可以自发地构建小规模的“事实上的标准”(De facto standards)[22]。小规模群体发展成熟的技术方案是针对特定问题的、及时、合理的,并且是在群体的共同实践中达成一致的。这比在大规模群体中寻找适合自己的技术方案要更加高效。

       (3)科学数据附有详细的溯源信息。这些信息包括科学数据开放的标准、数据格式、语义、数据进行互操作方式等。它为科研人员提供关于科学数据不同的见解和意见,方便科研人员发现和再利用科学数据。但溯源信息不是一成不变的,随着科学数据应用学科和机构的增加,要始终保证科学数据的来源、隐私、质量等随需要而不断改变。

       (4)创建关于科学数据互操作的基础设施。此基础设施作为全球科学数据基础设施建设的一部分为各机构提供数据互操作服务。此基础设施包含数据互操作的各种技术工具和其对应的优缺点。基础设施包含的数据互操作工具和技术越多,对数据共享和再利用的促进作用就越大。但是预想的基础设施只包含综合的工具和技术,要针对特定场景的互操作及特定数据源的需求创建起来非常困难。

       3.2 美国IJIS组织

       3.2.1 组织简介

       IJIS组织[23]是于2001年成立的一个联合政府部门和各私营企业的非营利性组织,它致力于加强国家信息安全,提升各级司法、公共安全和国土安全部门的信息共享和保护机制。IJIS指出,公共安全数据的共享和互操作至关重要,只有及时、准确地理解海量和实时的安全数据才能有效预防犯罪的发生。因此,IJIS组织将公共安全科学数据互操作作为其重点项目之一,并专门设立PSDI(Public Safety Data Interoperability)委员会负责公共安全科学数据互操作的研究工作。

       3.2.2 研究进展和战略目标

       PSDI各安全部门已经充分认识到科学数据互操作的重要性,认为未来几年科学数据互操作将彻底改变公共安全通信中心的作用。PSDI指出公共安全科学数据互操作是指安全部门能够使用定义明确的并且被高度重复使用的操作流程来交换不同格式的数字信息。实现科学数据互操作的关键在于为各安全部门制定一个共同的标准协议[24],具体如下:

       (1)PSDI将公共安全科学数据互操作形式分为结构化科学数据互操作和非结构化科学数据互操作两种。结构化科学数据互操作是指通信中心与其他相关部门如警察、消防、医院等之间的数据交换;非结构化的科学数据互操作是指通信中心与广大市民、私营部门、政治领导等之间的数据交换,它涉及各种普遍的数据格式如图像、视频、音频、文字等之间的交换。

       (2)PSDI要求科学数据互操作必须为原生数据生产方制定一个共同的标准协议,协议规定以下几点关键问题:对于结构化科学数据的互操作,应该有一本“数据字典”来制定统一的词汇和语法,这样就能统一规定进行互操作的数据格式;对于非结构化科学数据互操作,生产方应该为图片、音频、视频等格式的数据设定一个常用的文件格式;对于所有类型的科学数据互操作,必须规定明确的操作流程,使其按照同样的操作流程完成。

       (3)IJIS组织使用了NIME[25]作为政府和企业的科学数据互操作标准协议。NIME目前已发展到3.0版本,它为所有安全部门提供共享数据的互操作标准。这些标准在这些部门的具体实践中发展而来,贯穿科学数据互操作的整个生命周期。首先,它作为“数据字典”,里面规定了关于科学数据已经在各部门间达成一致的术语、定义、关系、格式等,比如在数据格式上全部使用XSD和EXCEL格式。其次,NIME提供关于科学数据互操作结构化的方法、技术工具以及操作流程等。NIME保证了安全部门人员能够准确、及时、完全的获取关键信息,加速了信息决策。

       3.3 West Health医学研究所

       3.3.1 研究所简介

       West Health[26]是位于美国华盛顿的一个独立的非营利性医学研究机构。West Health与其他研究机构共同合作,探讨和研究如何让独立系统的重要医学科学数据实现互操作,以开拓更前沿、精湛的医疗技术、政策和设施,使人们能够以低廉的价格享受到高品质的医疗服务。

       3.3.2 研究进展和战略目标

       2013年3月,West Health经过调查指出实现医疗科学数据的互操作能够在医疗系统方面每年至少节省300亿美元。但是现在由于缺乏科学数据互操作,科学数据存在于独立的系统中无法互通,医疗设备不能共同操作,医疗人员在技术上花费的精力比在病人身上多,严重束缚了治疗决策。为了解决上述问题,West Health专门成立了“医疗互操作中心”加大对医学科学数据互操作的研究。

       West Health指出实现科学数据互操作需要所有相关利益者参与进来、共同合作。所有医疗机构以及协议的制定机构应该遵循以下六个关键步骤来实现[27]:

       (1)认识到缺乏科学数据互操作是一个危机,尽快做出改变。所有相关利益者必须充分认识到科学数据互操作在医疗安全、效率和资金花费等方面的重要性,集体参与进来并迅速做出以下改变:协议制定机构召集所有相关利益者为科学数据互操作制定共同标准协议。所有医疗机构停止继续使用专有系统;不再购买不能连接的系统和一次性访问接口;开始基于开放标准的互操作协议进行采购。

       (2)正确认识科学数据互操作问题。医疗设备每天都在产生可以用来提高医疗服务的海量科学数据,但是设备之间相互独立,不能连接和共享数据。我们需要一种可靠的方式实现跨设备、跨医疗系统、跨地区的科学数据共享和互操作。因此,要为设备供应商设置一个可预见的技术路线图,强调科学数据共享和互操作的中心作用;各机构开始共享科学数据来确保科学数据互操作协议的有效执行。

       (3)加快对明确的可持续数据互操作标准协议的采用。协议制定机构要发展明确的、能够解决互操作问题的标准,同时保持标准和技术方法的现代化,不要停留在旧技术阶段以免阻碍了标准的创新。各相关利益者参与到标准的制定中去,确保标准能够满足自己的需求。

       (4)确保科学数据的有效性、隐私性和安全性。各医疗机构用一种系统工程方法[21]来保证自身医疗系统数据的有效性、隐私性和安全性。协议制定机构在制定标准协议时同样要充分保证机构数据的有效性、隐私性和安全性。

       (5)为医院、卫生系统和医务人员减少技术复杂性。目前医院在设备集成上面对太多的障碍和复杂性,导致医疗人员不得不在技术上花费比病人身上更多的时间和精力。因此,医疗机构要杜绝使用为医护人员增加负担或复杂流程的技术。协议制定机构创建的标准要保证机构以统一的方式来链接和访问数据。开发更简单、更容易实现、更方便使用和更现代化的标准。

       (6)根据互操作标准协议开发新的技术方法使用数据流。医疗设备时刻在产生大量数据流,需要把原始科学数据转化为有用的信息。先进的数据分析工具能对数据流进行更好的挖掘。

       通过以上三大国际机构针对各自状况给出了具体的科学数据互操作实践方案(见表1)。

      

       可以看出,科学数据互操作包含多方面的任务,需要多方的共同努力。

       首先,各相关利益方应该采取更加开放的心态与政策,其系统要足够开放以实现与不同利益方的不同系统在不同层次上的互联;各方对于其产生的科学数据应该附有详细的溯源信息,以帮助数据利用者对科学数据质量和语义的评估。

       其次,制定标准协议仍是大数据时代解决科学数据互操作问题的重点和关键。对于标准协议的制定机构而言,应充分调查和比较相关利益方选用的元数据方案、技术平台、协议规范等异同点。并根据多方主体对科学数据互操作的需求设计针对不同应用场景的、简单易实现的互操作方案,避免反复定义标准协议导致互操作更加复杂和混乱。

       再次,开发与使用先进的数据处理技术与工具将有效促进科学数据互操作的实现。大数据时代,仅靠过去单一的技术与工具已不能胜任海量数据的处理,我们需要更加善于开发相关的技术和工具,以支持从数据采集、清洗、管理、分析等整个数据处理周期。而这些工具与技术的使用,必定为科学数据互操作的实现提供强大的帮助和支持。

       4 科学数据互操作实践研究面临的主要问题

       4.1 科学数据开放政策落实困难

       科学数据的开放与互操作是相辅相成的,科学数据开放是数据进行互操作的前提,数据互操作对科学研究的巨大促进作用促使各机构将科学数据开放。尽管有很多关于数据开放和数据共享的政策,但落实情况并不尽如人意。据调查,目前仅有25%的科学数据实现了共享,并且科研机构对待科学数据跨学科开放的态度一直在变化[28]。

       中国科学院计算机网络信息中心侯艳飞工程师指出[2],科研激励机制,知识产权问题,国家安全、机密和隐私保护问题,成本问题,个体心理和组织文化问题以及有关技术和基础设施问题是数据科学时代制约科学数据开放政策落实的主要因素。

       4.2 难以制定科学数据互操作共同标准协议

       科学实验过程中,对科学数据的收集、处理、管理和归档等往往由不同的人按照各自的目的使用多种系统完成。系统和方法的多样性使得科学数据的格式、结构、语义关联、规模等方面千差万别。因此,必须制定标准协议对数据格式、通信协议、软件接口以及互操作的方法和技术工具等一系列要素进行结构化的统一。

       但是由于不同机构的利益、文化、设备等众多方面的差异以及资金等问题,共同标准协议很难达成一致,并且其服务的范围越广,制定起来就越复杂和困难。各研究机构一致认为缺乏基于开放标准的共同协议是制约科学数据互操作实现的最大障碍。

       4.3 缺乏定义科学数据互操作的共同框架

       目前各学科和机构之间没有对科学数据互操作的各方面形成明确的定义和统一的结构体系。欧盟GRDI项目指出[21],缺乏定义科学数据互操作的共同框架看似微不足道,其实是阻碍科学数据互操作发展的一个根本问题,它导致了科学数据互操作体系不能协同地朝着共同的战略和方法发展。

       科学研究中会不可避免地进行科学数据互操作,如果有定义科学数据互操作方法和技术的框架,科研机构就能寻找到其他机构已经发展成熟的技术方法来解决自己的问题,避免了这些发展成熟的技术方法只局限在某一学科或机构。

       4.4 科学数据质量低影响互操作的有效性

       大数据时代的科学数据产生速度、规模和复杂度的增加更容易产生各种类型的误差和错误。科学数据质量的多样性,包括不正确、不完整、不精确、不相关、不及时等对数据的有效性和实验结果会产生很大的影响。当数据质量低时,即使是相同结构的数据库进行科学数据互操作时也会出现问题。

       中国科学院计算机网络信息中心黎建辉主任指出[2],目前数据质量理论和技术的研究在识别数据错误的理论和模型、定位和自动发现数据错误的技术和方法以及高修复错误数据的技术等各方面都面临着挑战。半结构化和非结构化数据的质量、统一的数据质量逻辑框架、分布式数据清洗等更是其中突出的挑战性问题。

       5 结语

       大数据时代的科学研究范式发生根本性变革,实现科学数据的共享和互操作,构建基于科学数据的、开放协同的科学研究新范式能够极大推动学术信息交流,加速科学研究发现与创新的步伐。

       本文详细介绍了欧盟科学数据基础设施建设项目GRDI2020、美国安全数据研究组织IJIS以及医学数据研究所West Health三个具有代表性的国际机构对科学数据互操作的实践研究状况,发现科学数据互操作的实现需要多方的共同努力,制定基于开放标准的共同协议仍是大数据时代实现科学数据互操作的关键,开发与使用先进的数据处理技术与工具将有效促进科学数据互操作的实现。最后指出了目前科学数据互操作实践研究面临的主要问题,包括科学数据开放政策落实困难、难以制定科学数据互操作的共同标准协议、缺乏定义科学数据互操作的共同框架、科学数据质量低影响互操作的有效性等。

       收稿日期:2015-03-26

标签:;  ;  ;  ;  ;  

大数据背景下科学数据互操作实践进展研究_科学论文
下载Doc文档

猜你喜欢