加强大数据审计数据中心建设_大数据论文

加强面向大数据的审计数据中心建设,本文主要内容关键词为:数据中心论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      一、面向大数据的审计数据中心建设

      数据中心是指将数据经过统一的数据定义与规范命名、实现集中存储,从而达到数据共享与利用的数据环境。随着国家审计进人大数据时代,审计对数据集中的要求也越来越高,传统审计数据中心已经不能完全满足审计应用的需要,建设和发展面向大数据的审计数据中心成为一种必然。

      (一)面向大数据的审计数据中心建设目标

      一是构建一个稳定可靠、可以拓展并且低耗的服务运维环境,为审计数据的存储和利用提供有效的硬件支持;

      二是构建一个容量大、效率高、目录结构合理的存储体系,并对当前零散审计数据资料进行归档整理,保证数据的整体性和安全性;

      三是部署高效、实用的大数据采集软件和分析软件,支持多种数据结构的采集,支持对大数据集的深入、宏观的查询与分析,发挥审计的参谋性和建设性作用;

      四是构建可靠的安全防护系统和数据容灾备份系统。

      (二)面向大数据的审计数据中心系统架构

      以云存储、云计算为基础建设的审计数据中心的体系构架主要包括了硬件层、虚拟层、数据层和应用层,虚拟层是有效保障数据中心正常运转以及服务的核心。此外,安全防护系统和容灾备份系统贯彻整个数据中心的各个层级,与硬件层、虚拟层、数据层和应用层一起组成了面向大数据的审计数据中心。

      硬件层。硬件层是审计数据中心的基础,主要包括了服务器群、磁盘阵列机房环境以及带宽资源,主要是交换机与硬件之类的网络设备,该层被视为数据中心的基础骨架,能够有效降低硬件的成本。

      

      虚拟层。虚拟层是一个虚拟化的环境,它是云计算数据中心的基础设备层。虚拟层的存在会将硬件层的基础设备硬件系统,如存储、网络设备及服务器等全部进行虚拟化,从而建立一个共享的、按需分配的基础资源设备,分布式的数据存储系统的存在是为了能够应用于海量的数据存储以及访问。

      数据层。数据层囊括了审计机关开展审计业务和综合管理涉及的全部数据,包括结构化数据和非结构化数据。按照数据的具体内容和用途,可以把数据层划分为原始数据区、审计管理数据区、交互共享数据区、行业数据区以及指挥决策数据区。各数据区的数据存储于虚拟层的云平台上,支持处于其上的云应用程序。

      应用层。应用层被称为审计数据中心的操作层,是为审计人员开展审计业务和综合管理提供各种专门应用,根据审计人员的不同需求提供与之相应的服务。

      二、杭州审计数据中心的建设构想

      从2003年开始,杭州市审计局建成了“财政联网审计应用系统”等一批拥有自主知识产权的审计信息化建设成果,十多年来为提升审计监督能力提供了强有力的保障。然而随着审计大数据时代的到来,各信息系统的数据间不能比对分析的数据壁垒问题日益突出,原有硬件系统存储空间小和运算速度慢的特点也在一定程度上阻碍了审计信息化工作的推进。

      如何建设一个满足大数据审计的地市级审计数据中心成为当务之急。审计数据中心的建设是一个复杂的系统工程,笔者结合大数据审计的需求和杭州审计信息化建设的现状,重点对地市级审计数据中心的平台建设、数据仓库建设、安全防护体系建设提出了一些设想。

      (一)地市级审计数据中心的基础平台建设

      杭州市审计局已有的审计业务和审计管理电子数据达到了10TB,考虑到审计信息化工作的发展需求,建设审计数据中心存储容量的近期规划在200TB左右,远期规划达到1PB左右,还要根据数据规模配备相应参数规格处理器和内存。

      为便于管理,适应系统分步建设需要,提高系统稳定性,每一个专业审计的数据分析软件使用一台应用服务器。数据量相对较小、访问不频繁的专业审计的数据分析软件,可通过虚拟化技术合并使用数据库服务器。数据量大、访问频繁的专业审计的数据分析软件,使用独立的数据库服务器,如果该服务器仍难以承受访问压力时,可从其他数据库服务器划拨资源。根据审计署审计数据中心系统规划要求,由于数据中心对数据存储和分析性能要求高,因此对数据分析服务器、存储等硬件设备的参数要求偏高,以服务器和存储设备为例,国家审计数据中心选用的数据库服务器CPU为4路6核,内存64GB,4块146GB SAS硬盘;应用服务器CPU为2路4核,内存8GB,4块146GBSAS硬盘。国家审计数据中心存储设备选用华为磁盘阵列,初次配置磁盘有效容量60TB。结构化数据采用FC盘进行存储,非结构化数据采用SATA盘进行存储,该磁盘阵列同时支持上述两种类型的磁盘。按照此标准,要建设200TB存储容量的审计数据中心,系统硬件和机房环境的投入较大,地方审计机关很难承担前期建设投入和后期运维成本。

      

      杭州市政府早在2013年就建设了政府云平台,杭州政府云平台相当于审计数据中心系统架构中的硬件层和虚拟层。杭州政务云平台底层以阿里云先进的飞天架构为基础,单个集群可以为杭州市政府提供约25000核CPU、55000G内存、4000TB硬盘存储容量的服务能力。如果将大数据审计数据中心建设在政务云平台上,一是可以有效降低前期投入成本;二是云平台良好的运维环境可以提高系统运行的稳定性;三是便于从其他部署在云平台上的行业、部门获取审计数据;四是后期系统扩展只需要通过申请云计算CPU资源和存储空间即可,便于操作。

      (二)地市级审计数据中心的数据仓库建设

      数据仓库为审计应用平台提供结构化数据环境,为数据挖掘技术的应用提供良好的平台,为审计分析提供面向主题的、集成的、稳定的、反映历史变化的后台支持。通过建立面向不同专业、区域的主题域,设计数据仓库拓扑模型,进行数据结构、元数据、主数据、关联关系和审计信息资源目录库的设计,建立一个长期动态可用的审计机关数据仓库。

      主数据库。主数据是应用系统或者应用软件之间共同使用,具有稳定性的基准数据。主数据服务功能实现各行业审计基准数据的集中管理,向应用系统或者应用软件提供原始数据。主数据库可分为被审计单位信息库和专业基础库,其中被审计单位信息库包括了被审计单位的基本管理信息、业务知识和人员信息。专业基础库则根据数据来源的不同可分为财政数据库、社保数据库、税收数据库等专项审计数据。在主数据库的建设过程中要注重电子数据标准化和汉化,使数据便于审计人员理解和使用,必要时可以把数据字典也纳入主数据库。

      非结构化数据。非结构化的数据已经在计算机审计工作中扮演着越来越重要的角色,如卫星地图数据在国土审计、矿产资源审计、农林水审计中对核对工程量、确定开工时间、施工位置等方面发挥着重要作用,然而在以往的审计信息系统建设中,因为非结构化数据分析技术不成熟和数据标准不统一等原因非结构化数据很少在审计信息化系统中得到利用和体现。作为适应大数据时代的审计数据中心的数据仓库建设,为了最大限度地发挥各种数据的作用,不仅要考虑结构化数据的存储利用,也要考虑非结构化数据的存储利用。因此在数据仓库中要规划专门的存储空间用来存放非结构化数据,并安装能够便于审计人员使用非结构化数据的专用软件,如文件阅览器、Office软件、视频播放器、音频播放器、卫星地图专用软件等。

      元数据库。元数据是定义和描述其他数据的数据。元数据库就是对审计信息资源统一按照核心元数据标准进行描述的集合。核心元数据包括元数据标识、资源名称、资源负责方、资源发布时间、资源摘要、资源定位、资源格式和资源分类等基本要素。不论是结构化数据还是非结构化数据,都可以通过元数据来进行统一描述。通过构建元数据库,审计人员可以实现对所有类型电子数据的检索和使用。

      关联关系库。关联关系库是一个电子数据单元(包括数据表格、数据字段)与其他电子数据单元的勾稽关系的描述集合。通过查询关联关系库,可以帮助审计人员拓展审计思路,丰富关联分析的方法。审计人员也可以把在新发现的关联关系添加到数据关联关系库中保存下来,帮助其他审计人员更快地熟悉和掌握审计电子数据。

      审计信息资源目录库。审计信息资源目录库用来存储审计管理类和审计业务类信息资源目录的相关数据。为了便于管理,所有审计信息资源(包括结构化数据和非结构化数据)应该按照数据类型、用途、使用频率、使用方法等分门别类,按照一定规则统一存储。按照《国家审计数据中心基本规划》“信息资源分类”进行分类,审计信息资源目录的第一级包括审计管理类和审计业务类。审计管理类的下级分类包括:法律法规信息、领导决策信息、审计文书信息、机构人员信息、计划统计信息、审计档案信息、审计培训信息、机关事务信息、审计对象信息、对外公开信息、政务共享信息和其他管理信息。审计业务类的下级分类包括:预算执行审计、税收审计、金融审计、企业审计、社保审计、固定资产投资审计、农业与资源环保审计、外资运用审计、经济责任审计和其他审计。审计信息资源目录的第二级以下的分类,参见管理审计数据规划和各专业审计数据规划。信息资源目录库实现以元数据为基础对审计数据资源的有序分类,并提供目录编制、目录检索和目录发布的功能。

      (三)地市级审计数据中心的安全防护体系建设

      安全是审计数据中心的生命,大量审计数据的集中,既带来数据使用的方便性,也带来了极大的风险,一旦发生数据泄露,危害极大,后果将十分严重。因此,提高数据中心安全级别,确保数据中心的设备安全、系统安全、网络安全和数据安全至关重要。为了切实保障审计数据中心的安全,审计机关可采用“人防+技防”的方式来建立审计数据中心整体安全防护体系。

      “人防”就是制度管理和权限管理,首先要制定审计电子数据的采集、管理和使用的制度,从制度上杜绝数据泄露和滥用数据的行为,尤其要严格控制电子数据的输出,原则上只能输出分析结果,原始数据不得输出;其次,要根据不同工作岗位设置不同的数据使用权限,不同权限的人访问不同级别的数据,以提高数据的保密性。

      “技防”就是使用各种网络安全软硬件设备防止可能发生的数据泄露和数据毁坏的情况。根据审计数据中心各应用系统数据的重要性以及保密需要,配备相应的网络安全设备,有效应对来自网络的威胁,如病毒、黑客入侵等。网络安全软硬件主要包括以下产品和软件:防火墙、安全网闸、入侵检测、漏洞扫描、防病毒、安全网关、签名验证和信息安全综合监控与管理平台等。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

加强大数据审计数据中心建设_大数据论文
下载Doc文档

猜你喜欢