电子科学环境下科学数据监督质量控制模型研究_大数据论文

e-Science环境下科学数据监管中的质量控制模型研究,本文主要内容关键词为:质量控制论文,模型论文,环境论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       目前,科学研究的范式已经进入数据密集型科学范式的大数据时代[1]。在这种环境下,基于数据的科学探索成为科研行为的主要特征,科学数据日益成为科研活动最重要的基础资源和直接驱动力。然而,由于大数据本身具有的4V特性,使得科学数据产生诸如不一致、不精确、不完整、数据冲突等数据质量问题的几率剧增。按照GIGO(Garbage In,Garbage Out)原则,如果科学活动中输入数据不能反映客观事实,那么再好的算法再好的超级计算机也不能取得预期效果,甚至会带来致命的后果。2011年,俄罗斯“快车-AM4”通信卫星发射失败,其原因是惯性制导和陀螺稳定平台的转向时间间隔数据的错误设定[2]。而根据美国医疗协会统计,由于数据错误引起的医疗事故,仅在美国竟然导致每年高达98000名的患者丧生[3]。劣质数据带来的不良后果,引起了人们对科学数据质量管理的关注。

       产品质量是企业的生命线,说明了质量对于企业的重要性。同样,科研数据质量在科研活动中也起着非常重要的作用,正日益成为影响科学技术研究水平的关键要素。基于此,有必要围绕科学数据质量管理展开深入的研究,理论上建立起科学数据质量控制的参考模型,实践上探索科学数据的管理方法,为推进基于数据的科研探索活动提供优质的科学数据。本文在梳理国内外科研数据监管相关研究的基础上,分析科学数据质量控制的理论基础,构建科学数据质量控制过程参考模型,进而解析了模型的基本原则、流程及各子过程的详细构成。

       1 相关研究

       数据监管(Data Curation)是近年来被重点关注的研究课题。目前对于数据监管(Data Curation)的定义有很多种,最典型的是英国联合信息系统委员会JISC(Joint Information Systems Committee)给出的定义:数据监管是为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动[4]。这里的数据实质上就是指科学数据。需要注意的是,国内学者由于理解不同,出现了对“Data Curation”不同的翻译,如“数据策管”[5]、“数据监护”[6]、“数据监管”[7]、“数据存管”[8]、“数据管护”[9]或者“数据管理”[10]等。本文比较倾向于采用数据监管这种翻译,因为该词较能反映科研数据管理活动的动态过程。

       从笔者的调查来看,科学数据监管已引起广泛的关注,研究的内容涉及科学数据监管的多个方面:①科学数据监管模型。科学数据监管模型是将具体的数据监管过程概念化,构建抽象的数据监管体系框架,以便指导科学数据监管的实践。如英国数据监管中心DCC(Digital Curation Center)数据监管模型[11]、牛津大学的机构数据监管基础设施模型[12]、国际性的开放档案信息参考模型[13]、IBM的数据治理模型[14]等。②科学数据监管成熟度模型。数据监管成熟度模型是衡量一个组织的数据监管能力的度量模型。典型的有雪城大学的数据监管能力成熟度模型[15]、澳大利亚国家数据服务项目提出的成熟度模型[16]、Joyce Ray提出的成熟度模型[17]。③科学数据监管的技术与平台研究。数据监管涉及的技术包括分布式技术[18]、网格技术[19]、数据挖掘技术[20]、元数据管理技术[21]等。另外,不少研究机构也推出了自己的科学数据监管软件或平台,比较著名的有麻省理工学院的DSpace系统[22]、约翰霍普金斯大学的数据监护系统[23]等。然而,这些科学数据监管的理论与实践研究中,对于科学数据的质量控制研究较为不足,亦未见到单独系统的研究成果。

       数据质量问题已经引起了广泛的关注,人们从不同角度对数据质量管理进行了研究,取得了不少的成果,突出体现在以下几个方面:①数据质量管理框架。数据质量管理框架从宏观上研究数据质量问题,提出基本概念、解决思路、实施方案等质量管理工作构架。一直以来,数据质量管理框架都是各大科研院所和机构研究的重点,比较著名的有:20世纪90年代麻省理工学院全面数据质量管理团队提出的全面质量管理框架(Total Quality Management Framework,TQM)[24];美国联邦数据架构委员会(Data Architecture Subcommittee)提出的数据共享和系统集成应用的基础数据质量框架[25];欧洲数据信息质量研究所(European Institute for Data and Information Quality,EIDIQ)设计的信息质量管理(Information Quality Management,IQM)框架[26]、2009年GS1(Globe Standard 1)推出的数据质量框架[27]等。②数据质量成熟度。如IBM数据治理能力模型[28]、Ismasel Caballero等提出的IQM成熟度模型[29]、胡良霖等提出的基于数据生命周期的科学数据质量成熟度模型[30]。③数据质量评价。数据质量评价是对应用系统的整体或部分数据质量进行评估的方法和过程,帮助数据用户了解应用系统的数据质量水平。最著名的是国际货币基金组织(IMF)提出的DQAF(Data Quality Assessment Framework)评价框架、杨栋枢基于熵权与层次分析法的运营监控中心数据质量组合权重评价模型[31]。

       从上述调查可以看出,对数据质量管理的研究由来已久,研究的成果对于科学数据的质量控制有借鉴作用。然而,从当前的研究成果来看,虽然提出了数据质量管理框架,对数据管理中用的词汇、概念、方法、工具以及主要的数据管理职能和环境元素进行了定义,但未能在数据质量管理中体现质量改进的理念;同时,提出的数据管理职能过于复杂,没有突出重点和主次;另外,未能将数据生命周期的理念融入到数据质量控制中,理论成果不易用于指导实践。基于此,本文在前人研究的基础上,以全面质量管理的持续质量改进模型PDCA为蓝本,重组数据质量管理职能,并结合数据生命周期及大数据理论,构建出科学数据质量的控制模型。

       2 科学数据质量控制模型的构建基础

       科学数据质量控制模型构建是一个复杂的过程,需要借鉴和吸纳多学科的理论思想,包括全面质量管理、ISO 8000系列标准、数据生命周期及大数据理论,基本思路如图1所示。

       (1)全面质量管理。ISO8402对全面质量管理(Total Quality Management,TQM)的定义是“一个组织以质量为中心,以全员参与为基础,目的在于通过顾客满意和本组织所有成员及社会受益而达到长期成功的管理途径”。全面质量管理认为质量管理不是一个部门的事,而是全员、全过程、全方位的参与到质量管理过程中来,构建一个研制质量、维持质量和提高质量的有效体系。全面质量管理的思想在产品管理和项目管理中得到了广泛应用,也被引入到数据管理领域。如20世纪90年代麻省理工学院全面数据质量管理团队提出全面质量管理框架(Total Quality Management Framework,TQMF),通过借鉴物理产品质量管理体系的成功经验,提出了基于信息生产系统的数据质量管理体系[32]。与一般的信息生成系统产出的数据不一样,科学数据具有类型多样、学科复杂、精确度要求高的特点,要对其质量进行控制,更需要引入全面质量管理思想,建立起一套科学严密高效的科学数据质量管理体系,多环节、多部门、多要素有机结合,为科学活动提供高质量的数据资产。全面质量管理理论为模型提供了较为系统的数据质量管理构架,并且也奠定了数据质量管理的持续改进理念。

       (2)ISO相关质量标准。全面质量管理为数据质量管理提供了质量持续改进的理念,是达到科学数据质量目标的一种愿景,而ISO相关的质量标准则为实现这个愿景提供了基础。2008年,国际标准化组织颁布了ISO8000系列标准,在这个标准里明确数据即产品的概念,其质量可以被管理,并定义了数据的质量特征,提出了一个包括初级、认知、规范、管理和优化在内的5阶段信息管理成熟度[33]。TDM和ISO系列标准两者结合起来,为数据质量管理提供了深化发展的方向。同时,ISO质量标准为实施质量控制提供了切实可行的数据质量度量指标和成熟度度量指标,为理论与实践假设了一道连接的桥梁。

       (3)数据生命周期理论。与产品生命周期类似,为了便于对数据进行细化管理,将数据管理划分为若干个阶段,这些阶段共同组成了数据的生命周期。数据生命周期实质上是采取一种分而治之的策略,将复杂的数据管理过程分解为较为简单的组成部分,再针对简单的过程设计解决方案。目前,数据生命周期理论已经逐渐运用到数据监管中,不少数据监管模型都是基于数据生命周期提出具体的体系构架,只是对于数据生命阶段的划分各有不同。如英国数据监管中心提出的生命周期包括概念化、创建或接收、鉴定与选择、采集、保存存储、获取与利用、转化与迁移、保存规划、社区观察与参与、数据描述信息表示10个阶段,而王芳和慎金花则将数据生命阶段划分为战略规划、数据收集、数据处理、数据保存、数据利用、服务质量评价6个阶段[34]。数据生命周期将数据管理划分为若干个阶段,这种分而治之的策略能够帮助我们更加合理地细分数据质量控制的过程,从而制定出具有实践指导意义的数据管理制度、组织架构以及对应的技术规范,协调各流程制度、技术规范的有效运行,从而提升数据服务水平与数据使用效率。

       (4)大数据理论与技术。大数据最近几年成为人们热议的名词,实际上,大数据在其还没成为社会广泛关注的焦点之前就已经普遍存在,尤其是在天文学、生物学、物理学、环境生态学等学科领域,产生了大量的原始数据、实验数据、测试数据、基因数据等。据资料显示,截止到2008年,全球仅可统计的天文学数据有40TB、地震数据60TB、基因数据80TB[35],而且科学研究数据一直呈现指数级增长的趋势。大数据带来了科研第四范式,同样改变了数据质量控制过程。大数据理论为数据质量识别、评价、预测等都等数据质量控制关键活动提供了实施平台和科学的数据科学家支持体系。

       以上几个方面的理论为我们构建科学数据的质量控制模型提供了理论上的指导。基本思路如图1所示。

      

       图1 科学数据质量控制模型的构建基础

       如图所示,e-Science环境下的数据质量控制模型是一个以全面质量管理为基础,以系统观来构建数据持续改进的科学数据质量管理体系;以数据生命周期管理模型中定义的数据/信息管理流程、数据质量管理流程、数据生命周期的概念和过程来定义和细分数据质量管理的过程;以ISO8000系列标准的循环来界定数据质量度量的指标;以大数据理论来构筑科学数据质量控制的平台和数据科学家参与的包括数据质量控制委员会、数据质量控制工作组和数据科学家在内的多层数据质量控制组织体系。

       3 科学数据质量控制的参考模型

       3.1 基本结构

       本文在参照麻省理工学院全面数据质量管理模型的基础上,将ISO8000系列标准、数据管理、技术平台以及人力资源等相关要素纳入到数据质量管理的范畴,构建了科学数据质量控制的参考模型。科学数据质量控制的参考模型基本结构如图2所示。

      

       图2 科学数据质量控制的参考模型示意图

       科学数据质量控制模型由两大部分组成:核心过程和辅助过程。核心过程遵循质量持续改进的质量管理理念,划分为Plan-Do-Check-Act(PDCA)四个过程,这四个过程是一个持续的循环,通过循环,初步完善改进科学数据的质量。辅助过程是核心过程得以实现的支持条件,包括科学数据管理、标准和规范、技术平台和工具以及组织与人力资源管理。

       3.2 核心过程

       核心过程是指直接参与数据质量管理的一系列活动。参照质量管理的PDCA循环,我们将科学数据质量控制的主要过程划分为四个部分:规划(Plan)、实施D(Do)、审查C(Check)和改进A(Action)。

       (1)规划(Plan)。收集相关资料,分析科学活动的具体要求,识别科学数据的质量要求和标准,并制定出使得数据质量符合科学活动要求的书面计划,主要包括以下几个步骤:确定要解决的数据质量问题、进行现状调查、分析质量问题的根本原因、制定数据质量管理计划。数据质量规划的过程如图3所示。

      

       图3 数据质量规划的过程图

       其中,输入依据中的数据质量战略即科学数据质量的长期规划,反映了组织对科学数据质量控制的态度、愿景;环境因素是指数据质量管理所面临的政策、法规、标准、行规等外部因素;组织过程资产是指历史经验、最佳实践、知识、组织制度等内部因素。

       输出中的科学数据质量管理计划描述如何实施科学数据质量政策,以及组织准备如何达到科学数据质量的要求;科学数据质量测量指标是与衡量数据质量是否符合目标的数据质量属性,要求明确定义、分类,并合理分配技术、费用、人力资源的指标数量和指标权;科学数据质量检查表是根据科学数据质量管理的最佳实践,列出一系列最有可能产生质量问题的检查清单;数据质量改进计划是根据来自上一循环的改进建议所做出的规划。

       数据质量规划的工具和技术采用质量管理中常见的工具,包括质量管理老七种和新七种工具,该过程图中仅列出常用的几种。

       (2)实施(Do)。通过审计数据质量生命周期各过程的质量要求和质量控制测量结果,设计出具体的行动方法、方案,进行布局,采取有效的行动,确保采用合理的质量标准和操作规程来实现质量管理的目标。主要的过程有实施质量管理计划和数据质量审计,前者包括质量预防措施和质量改进措施,后者是对执行过程的监督和控制。其过程如图4所示。

       其中,输入依据是来自于上一过程的数据质量管理计划、数据管理工作规范、数据质量改进计划以及数据质量标准。

      

       图4 数据质量计划实施的过程图

       输出成果包括:数据管理绩效,即当前的数据质量现状及数据管理工作的进展;数据质量管理绩效,即数据处理记录,数据创建、读取、更新、删除、更新的活动进程;清洁数据,即通过按照数据质量目标和要求,对数据生命周期内的科学数据进行规范化数据处理过的数据;组织过程资产是指为科学数据用户和数据质量管理者定义详细的数据质量管理工作相关的各项规范和操作指南,包括科学数据源清单、数据处理指南、数据错误修正指南、数据质量监控和控制的规范、操作指南、预防措施等。

       采用的工具与技术除了上节的数据质量规划工具与技术之外,主要包括质量审计、过程分析和数据清洗工具。其中质量审计是按照审计程序对特定的质量管理活动进行的结构化的审查。

       (3)审查(Check)。通过一系列操作技术和活动,来核实科学数据的质量是否满足需求,也即是对质量管理计划执行的效果进行检测。主要包括数据质量评测和数据质量成熟度评估。其过程如图5所示。

      

       图5 数据质量检查的过程图

       审查的依据主要是前面两个过程的成果:数据质量管理计划、数据质量测量指标、数据质量绩效、数据质量检查单。主要的工具和技术有:偏差分析,即将数据质量绩效与数据质量计划进行比较,评判数据质量水平和数据质量控制过程的实现程度;数据质量评估方法,即对数据质量测量指标进行综合运算,获得数据质量值的方法等,如用户体验法[36]、层次分析法[37]、熵权法[38]、决策树法[39]、规则推理法[40]等;数据质量检查方法是对数据质量进行预测以及判别数据质量因素的方法,如控制图法、帕累托图法、统计抽样、趋势分析法等。

       主要的成果有:数据质量检查结果,即按照数据质量检查单进行核实的结果;数据质量评估结果,即当前的数据质量总体水平及存在的数据错误;数据质量改进请求,即通过定期或实时监控数据质量现状,发现一贯性数据错误,提起改进数据生成过程或要求的更改请求;数据质量管理绩效信息,即当前所完成的活动记录。

       (4)改进(Action)。根据数据质量检查的结果,总结数据质量控制的效果,分析数据错误的原因,确定改善数据质量的方案。主要的过程如图6所示。

      

       图6 数据质量改进的过程图

       改进过程的主要结果包括:数据质量问题和原因,即存在的数据质量问题及其追溯出的原因;数据质量改进建议,包括数据清洗的方案、对产生错误数据的根本原因进行分析,提出防止错误数据复发的预防措施;找出数据质量控制过程中存在的漏洞,制定详细的数据管理进程的改进方案;制定对改进方案的数据质量度量指标;组织过程资产更新,即通过对数据质量检查的评测,发现在数据质量控制过程中行之有效的措施,并形成标准化的控制过程,以便在以后的质量控制过程中执行和推广。

       3.3 辅助过程

       辅助过程不直接参与科学数据质量的改进过程,但可以为核心过程提供物质、人力资源等方面的支持。可以划分为以下几个过程:

       (1)科学数据生命周期管理。数据生命周期管理主要指对结构化、半结构化以及非结构数据全生命周期管理相关的策略、流程和分类等[41]。主要包括以下几个子进程:①数据生命周期划分。包括科学数据生命周期管理的总体原则、流程设计、数据生命周期内各阶段的数据管理策略、科学数据分类原则与标准、科学数据生成、发布、交流、共享、存储的详细规范管理。②元数据管理。对业务元数据和技术元数据以及元模型、存储库创建通用语义进行定义和管理。③数据安全管理。主要包括数据访问权限控制、数据质量安全水平的衡量标准和控制过程定义、用户ID和密码管理、用户数据访问监控及日志保持记录,数据安全绩效评价及详细的活动、安全标准的数据访问权限设置、数据管理、数据安全审计等工作。

       (2)组织和人力资源管理。运行良好的数据质量管理组织结构,具备数据质量管理知识和能力的工作人员,是科学数据质量管理过程得以顺利实施的关键要素之一。包括以下两个方面:①组织管理。主要是帮助建立起合适的数据质量管理委员会、数据质量工作组、数据质量管理员,设置科学数据质量管理的组织构架、制度和运行机制。②人力资源管理。主要制定增强数据质量管理人员的知识和能力的教育和培训方式,加强数据质量管理相关的知识管理过程。

       (3)大数据技术平台和工具。主要包括大数据质量管理系统的体系结构设计、服务器构架、数据模型以及数据交换和共享所采用的传输机制、数据接口、数据标准、存储库创建通用语义定义的方法和工具等。

       (4)标准和规范管理。标准和规范是实现科学数据质量管理的前提,在规划数据质量管理时,就应当从法律、规章、标准等各个层次建立起完备的法规体系,才能保证数据质量管理过程得以顺利实施。包括数据质量管理的国际标准、行业标准、国家政策、行业规范、数据共享规格、组织内部制度、活动程序等。

       4 控制模型中涉及的主要方法

       在科学数据的质量控制过程中,需要借助于一些方法与工具,实现对数据质量的检测、识别、评估。除了借用常用的管理方法以及质量管理中常用的质量规划和质量控制方法之外,由于科学数据的特殊性,也要借助于人工智能、计算机科学、数据库等领域的一些技术和方法。主要包括以下几类:

       (1)统计学方法。统计学方法1924年由休哈特(Shewhart)引入质量控制领域,至今仍是企业质量管理的主要手段,就是运用统计学的方法和技术对过程进行分析和控制,识别和控制过程中的波动。科学数据质量控制中,可以通过对数据生命周期的分析和控制,识别出数据价值创造过程中的偏差,从而揭示数据质量水平和找出数据质量问题。常用的方法有:层次法、调查表法、排列图法(帕拉图法)、因果图法、直方图法、控制图法、散布图法等。

       (2)运筹学方法。这类方法运用运筹学或者系统工程的原理和方法,来分析事物相互关系、探求实现目标的最优路径、找出最佳决策以及安排时间进度,主要解决全面质量管理中PDCA循环的P(计划)阶段的有关问题。常用、的方法有相互关系图法、亲和图法、树状图法、矩阵图法、系统图法、网络图法、过程决策程序图法、过程分析法等。

       (3)信息科学方法。这类方法运用信息论、计算机、人工智能的原理和技术,对科学数据的采集、分析、处理、识别和理解的基础上作出判断、决策或控制。主要解决科学数据质量评估、数据错误识别及其自动修复问题。其中,科学数据质量评估的常用方法有:简单比率法、最大-最小运算法、加权平均法、基于规则的评价法、基于熵权的评价法等;数据质量问题自动识别法有:规则法、贝叶斯推理法、Sql约束条件法、完整性约束法等;数据质量问题自动修复法有:基于规则的修复、贝叶斯真值推理法、基于机器学习的不完整数据修复法等。

       这些方法适用于数据质量控制的不同过程,其有效性见表1。

      

       5 结束语

       科学数据质量控制模型是在戴明PDCA质量管理模型的基础上,从管理视角提出的一个数据质量管理体系构架,该模型的特点是:

       (1)全面性。该模型将质量管理PDCA循环与科学数据生命管理过程相结合,将科学数据质量控制的进程划分为核心进程和辅助进程,突出数据质量改进过程的作用和地位,同时贯彻全面质量管理的思想,将科学数据质量管理相关的政策、标准、法规以及人力资源等因素纳入模型。

       (2)动态性。传统的模型将科学数据质量管理划分为若干个阶段,每个阶段制定出相对应的质量保证措施,用以确保每个阶段的数据输出质量。实际上,这是一种静态的质量保证机制,取决于预制的质量指标和质量措施。而核心进程划分的PDCA四个子进程形成一个数据质量管理循环,并且每一个循环运转结束,数据质量管理水平就会提高一步,然后进入下一个循环。这样整个质量管理过程总处于动态的循环之中,不断改进过程,不断提高数据质量管理水平。

       (3)预见性。传统的科学数据质量管理模型重视数据质量的评价,提出了许多质量评价指标体系,然而,质量评价体现了一种事后检测的理念,靠检测来控制数据质量显然不能真正地提高数据的质量。该过程参考模型重视科学数据的质量预见,P环节是PDCA循环的起点,体现了现代质量管理的事前预防的基本理念,通过不断的循环,逐步改进P环节的规划和预防措施,确保在数据生产过程中少出现错误。

       在“数据密集型科学发现”的e-Science环境下,科学数据质量成为科学活动成败的关键要素之一。本文从质量动态改进的视角构建了科学数据质量控制的参考模型,并基于全面质量管理的思想,将科学数据质量管理划分为核心过程和辅助过程两大类,核心过程完成科学数据的质量改进,辅助过程则从技术、法规、资源等方面支持质量改进过程。该模型的核心部分采用PDCA循环的形式表示,可以使科学数据质量管理的思想方法和工作步骤更加条理化、系统化、图像化和科学化,有助于推进科学数据的全面质量管理,提升科学数据的质量管理水平。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

电子科学环境下科学数据监督质量控制模型研究_大数据论文
下载Doc文档

猜你喜欢