商业大数据采集与处理的“获取”与“返回”_分区表论文

商业大数据采集与处理的“获取”与“返回”_分区表论文

业务大数据采集处理的“取”与“还”,本文主要内容关键词为:数据采集论文,业务论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      随着数字化审计进入到大数据时代,如何做好业务大数据的采集和处理工作,成为摆在审计人员面前的一道难题,也是关系审计项目开展至关重要的首个战场。在某道路车辆通行费信息系统审计项目中,面对日均50万次通行、每月1500万条记录、仅通行记录就超过4亿条的业务大数据,湖北省武汉市审计局不断探索应用技术和方法,做好数据的采集、分析清理和还原工作,为整个项目顺利实施打下基础。

      “还”,即恢复庞大的数据,尝试数据库平台中提供的大容量数据导入技术;分析处理大数据中包含的记录,选择“分区表”这一项近年来出现并流行的技术,提升查询语句的效率。

      “取”,即获取庞大的数据。这个问题之所以放在后面,并非本末倒置,而是受前述“还”的限制——为了使用大容量数据导入技术,使用文本文件的方式,也带来了文本文件的新用途,随后一一述说。

      “取”数据

      (一)方式选择

      直接连接被审计单位的业务系统并不是一个合适的选择:首先,这种方式可能影响被审计单位业务系统的正常运行;其次,数据传输或转换过程中如果有错误发生,则没有对数据进行整理的机会;最后,一旦错误发生,数据采集需要从头再来,除非有依据可以把已经导入的数据清晰地划分出来。

      而使用文本文件有着明显的优势:可以对业务数据按时间段分批导出,选择业务系统比较空闲的时段进行;可以控制文本文件的大小,并对文件中的数据进行初步整理。

      (二)文本规范约定

      “取”数据的关键点,是双方约定数据的时间范围以及文本规范,主要包括:

      1.约定采集数据的时间范围。

      2.数据文件的分段。可以按照时间来分段导出,也可以按照文件大小来分段导出。核心目的是减少大文件的出现。

      3.约定数据文件的字段顺序。字段的顺序最好与建表语句一致(如果不一致,则要根据数据文件中的字段顺序,修改导入数据操作时指定的格式化文件,以保持二者的一致)。

      4.约定字段分隔符和行分隔符。

      5.约定文本类型字段的标识符。

      6.约定日期字段的文本格式,一般选择yyyy-mm-dd和hh:mi:ss.mmm的格式。

      7.约定空值字段的导出形式。

      (三)“取”数据的步骤

      1.约定数据的时间范围以及文本规范。

      2.获取相应业务表的建表语句。如果表名和字段都是字母形式,则还要提供表名和字段的中文含义。

      3.获得文本格式数据文件。

      “还”数据

      (一)数据导入技术

      SQL Server的数据库平台中提供大容量数据导入技术,主要有命令行方式的bcp命令以及Transact-SQL的bulk insert语句和openrowset(bulk...)语句。这三种方式都使用大容量日志恢复模式,高效地完成从文本文件到数据库的大容量数据复制工作,而bcp命令还支持从数据库到文本文件的逆向大容量数据复制工作。

      (二)分区表简介

      分区表是使用“分区函数”依据记录中“分区字段”的值对其进行分类,分别放入“分区方案”所定义的文件组中。从而将一个巨大的表从逻辑上分为若干小表,一旦查询满足分区的条件,将简化查询的数据规模。这种实现对于查询语句来说是透明的,也就是说审计人员在查询时不用关心是否是分区表。增加的操作是定义合适的分区函数、分区方案,并将分区函数添加至需要创建为分区表的建表语句中即可。

      分区函数一般选择整型、日期型、字符串型等为分区依据;分区方案则既要与分区函数对应,又要考虑到存储系统的性能。可以在创建表时直接将其定义为分区表,也可在需要时把普通的表更改为分区表,在操作上略有不同。如果可能的话,建议在创建表时直接定义为分区表,因为把普通表改为分区表,涉及大量的数据录入操作。

      (三)“原”数据的步骤

      1.根据业务数据的具体情况,定义合适的分区函数和分区方案。

      2.转换建表语句。将“取”到的建表语句,转换为SQL Server的标准;如果需要定义为分区表,则要添加分区表的语句定义部分。

      3.创建表结构。检查无误后执行,将表结构由定义变为现实(不要在导入数据前创建索引)。

      4.检查数据文件,看是否有格式上的错误。如果是全局性的现象,必须进行修正。

      5.生成每一个表的格式化文件。格式化文件是大容量数据导入数据的基础条件,可以依据步骤2中创建好的表,使用bcp的命令生成格式化文件。

      命令如下:

      bcp ETCAudit.dbo.CBS_SUBLEDGER_OBU format nulc-T-x-f D:\DFormat\OBU车辆通行费明细账-c.xml-t“|”

      6.使用bulk insert语句,将文本文件的数据导入至数据库中。可以选择任意三种方式的数据导入技术,选择不同,执行的环境不同。下面是bulk insert的示例(FROM后面跟的是文本文件的全路径文件名,FORMATFILE指定了格式化文件,ERRORFILE指定了导入过程中出错的数据存放的文件)。

      语句如下:

      BULK INSERT CBS_SUBLEDGER_OBU

      FROM ‘D:\审计数据\OBU车辆通行费明细账20110701-20110731.txt’

      WITH(CHECK_CONSTRAINTS,CODEPAGE=‘RA W’,DATAFILETYPE=‘char’,

      FORMATFILE=‘D:\DFormat\OBU车辆通行费明细账-c.xml’,

      MAXERRORS=999999,

      ERRORFILE=‘D:\审计数据\ERRORDATA\OBU车辆通行费明细账20110701-20110731-E.txt')

      7.检查、更正错误数据。根据错误提示,修改ER-RORFILE参数指定的保存错误数据的文件中的值,修改保存后,重新执行第6步(语句中的文本文件要修改为ERRORFILE参数指定的文件)。

      8.完成数据导入后,创建相关索引。如果是分区表,则需要将索引和分区对齐。

      在该审计项目中,被审计单位花费两周的时间,提供了37个业务表的数据,分为259个文本文件,文件容量共计347G,其中单表最多分为53个文件。为了提高自动化程度,减少人工的重复操作,审计人员将目标表、数据文件放入一个导入文件对应表中,通过编写脚本自动完成各表和众多数据文件的导入工作。根据导入耗时统计,共用时74441秒,折算为1240分钟或20.68小时。

      有了前面的“取”“还”首场战役的胜利,审计人员可以在后续战场中充分利用数字化审计的优势,在了解相关规章制度,并与技术人员沟通的基础上,编写语句,找出疑点数据。

标签:;  ;  ;  ;  

商业大数据采集与处理的“获取”与“返回”_分区表论文
下载Doc文档

猜你喜欢