信息系统审计中的分层抽样方法研究_分层抽样论文

信息系统审计下的分层抽样方法研究，本文主要内容关键词为：信息系统论文,方法论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

信息系统审计可分为内部控制审计和数据真实性合法性审计两个方面，而后者成为审计人员发现问题和发掘问题的主要信息来源，因此对信息系统内部的数据分析成为目前信息系统审计工作的重中之重，但是如何从大量的、杂乱无章的海量数据中发现潜在的、有用的信息却成为信息系统审计亟须解决问题。目前的信息系统审计方法中所涉及到的数据分析法有测试数据法、平行模拟法、在线连续审计技术等方法，但是这些方法一方面技术门槛较高，一般审计人员无法涉足；另一方面每次测试结果差异性较大，如果多次测试会导致审计周期延长，审计成本增加。由于上述原因，审计人员在信息系统审计中，不得不通过盲目的浏览大量的财务和业务数据，来从中发现有问题的特征数据，使得信息系统审计从一种常规审计变成了一种“特殊审计”。通过多年的审计经验，笔者结合信息系统审计数据量大的特点，提出将数据挖掘技术与传统审计分层抽样相结合的方法，缩小了审计人员审查数据的范围，降低了信息系统审计中数据分析的门槛，使得审计效率大大提高。现在，笔者就将信息系统审计下，审计分层抽样的研究内容进行一一介绍。

一、传统的审计分层抽样

审计分层抽样是指先将总体的单位按某种特征分为若干次级总体（层），然后再从每一层内进行单纯随机抽样，组成一个样本。分层可以提高总体指标估计值的精确度，它可以将一个内部变异很大的总体分成一些内部变异较小的层（次总体）。分层抽样比单纯随机抽样所得到的结果准确性更高，组织管理更方便，而且它能保证样本总体中每一层都有个体被抽到。而对于审计来说，它可以使得审计人员只需要对于被抽取出的部分样本进行审计即可，因为这些样本已经具备了所有被审数据的全部特征，因此分层抽样技术在审计抽样中常被采用（如图1）。

图1 分层抽样流程图

目前审计分层抽样模块的研究与开发还处于起步阶段，在国内的审计软件中，大部分的分层抽样模块是通过传统的统计学抽样方法来实现的，比如在现场实施审计系统(AO)的抽样审计模块中就有分层抽样的功能。审计过程中具体的分层抽样如下：一个单位2008年业务招待费共500笔，为了了解这个单位业务招待费的真实性和合规性，审计人员需要对这500笔的财务支出进行逐笔的核对工作，这是一个简单但是漫长的工作，因此审计人员决定采用分层抽样的审计方法。首先审计人员确定从中抽取一个容量为100的样本，样本容量与总体的个数的比为1∶5，为了在抽样中更好地发现问题，我们将数据进行分层，招待费支出0-5000元的分为第一组（低风险区，125笔）、5000-10000元的分为第二组（中风险区，280笔）、10000-30000元的分为第三组（高风险区，95笔）（如图2），这样在各个风险区域内抽取的样本个数依次为125/5，280/5，95/5，即25，56，19。通过AO软件中的分层抽样工具，审计人员只需要对上述三个层次内的共计100笔支出内容进行审计即可达到审计目的，不但缩短了审计时间，而且还提高了审计效率。

图2 传统数据分层图

二、信息系统审计下传统审计分层抽样的不足

传统的审计分层抽样虽然能够为审计人员带来较高的审计效率，特别是在数据量巨大的信息系统审计中，效果尤其明显。但是笔者发现，在审计机关的近年的信息系统审计项目中，审计人员很少将该方法运用到信息系统审计中。经过与现场审计人员的探讨，笔者发现有如下几点原因：

(1)适合审计机关使用的审计抽样参数不健全，影响了审计统计抽样方法的使用。审计抽样参数不仅是审计抽样方法运用的基础，而且是审计经验与统计学原理结合的产物。由于我国审计机关处于审计抽样实践的探索阶段，因审计抽样经验不足，虽然形成了一些经验数据，但未能形成体系，影响了审计统计抽样方法的使用。比如在信息系统审计中，审计人员对住房公积金的归集数据进行审计分层抽样时，抽取样本的数量、样本的置信区间、允许的误差值等等抽样参数，均需要审计人员自行确定。一旦这些参数设置不准确，抽样的结果也会明显的不同，无形中加大了审计风险。

(2)审计分层抽样方法的一维性，很难适应目前信息系统中数据多维化的需要。审计人员反映，在对被审计单位的财务数据进行分层抽样时，一般是按照金额字段来进行的，因此大多数分层抽样算法均是建立在针对一维数据的分析和计算上，即使是较为先进的AO软件也同样如此，但是随着被审计单位信息化的发展，业务数据也被纳入了审计抽样的范围，同时业务数据的多维性（例如产成品的抽查，需要考虑产成品的型号、生产时间以及出厂价格等因素）也为审计抽样带来难题。

(3)抽取样本数量巨大，如何通过样本数据的特征查找出所有的特征数据成为难点。审计人员普遍反映，虽然审计分层抽样技术能够通过抽取一定数量的样本来缩小审计范围，但是针对数据量巨大的信息系统（如医保数据），单项业务数据均在500万条记录左右，即使通过审计分层抽样方法，样本数量也需要在20-50万条记录左右，对于审计人员来说，从这些样本中查找出特征数据工作量仍然很大。即使审计人员查找出特征数据，如何采用适当的技术方法扩展到审计对象总体，得出该类问题在总体中金额大小，成为制约审计人员数据分析的瓶颈。

三、解决审计分层抽样在信息系统审计中存在问题的对策

根据审计人员在信息系统审计中所提出的困难和问题，笔者结合计算机学科的数据挖掘的算法知识，对现有的审计分层抽样方法进行了改进，使之能更加适应信息系统审计的需求：

(1)假设抽样业务数据分为K层，为了确定一定区域内抽样数据的分布特征，定义数据的中心为：

以计算出的抽样数据中心点为中心，对整个区域进行划分，得到初始的k个区域将所有的抽样数据分配到对应的划分区域中，如图3所示，划分的区域的数目与分层抽样的层数K相关：

a.K=2，进行一次划分，形成2个区域；

b.3≤K≤4，进行二次划分，形成4个区域；

c.5≤K≤8，对形成的区域在进行第三次划分，形成8个区域；

d.9≤K≤16，对形成的区域在进行第四次划分，形成16个区域；

图3 数据区域划分图

通过式(4)得到初始的k个聚类中心，直至聚类中心的k值与审计分层抽样所需的层数K相等为止；

(4)从这K个聚类中心出发，应用聚类算法，得到聚类结果。

(5)计算出每个聚类中数据的方差，按照审计分层抽样算法的计算公式，计算出每个层次所需抽取样本的数量。

四、新型审计分层抽样方法应用实例

为验证上述改进算法在审计抽样中的实际效果，采集了某公路收费站2008年1月业务支出1076笔，每笔数据由支出类型和支出金额两个属性组成，最大采购项目支出6000万元，最小项目支出45万元，平均值为589万元，全部1076笔支出的总方差为=51333.33。如果采用传统的分层抽样算法，由于抽样数据是二维数据，审计分层抽样无法进行，即使将采购金额划分出来单独进行分层抽样，由于方差比较大，样本抽样的规模也会比较大，且所有的数据混在一起进行抽样，审计抽样所需要的异常数据并不能被很好地发现。（预先设定样本数量为100，可信赖程度为95%，可容忍性误差为4%）

采用改进后的审计分层抽样算法，预设数据分为5层进行抽样审计，先将数据按照风险性高低进行5个种类赋值（风险低的取值1，……，风险最高的取值5），然后将数据按照中心点划分为8块，对数据点最多的区域作为第一个聚类中心，选取距离第一个区域最远的区域的中心点，作为第二个聚类中心，以此类推，共找到5个中心点；分别计算每个对象到中心点的距离，把每个对象分配到最类似的簇中，所有对象分配完成后，从这5个聚类中心出发，应用聚类算法，得到聚类结果：

第一个聚类48个数据，平均值3305.50万元，方差＝34736.67；

第二个聚类78个数据，平均值1890.73万元，方差＝12769.81；

第三个聚类109个数据，平均值1012.86万元，方差＝7643.58；

第四个聚类254个数据，平均值483.42万元，方差＝3062.33；

第五个聚类587个数据，平均值281.98万元，方差＝731.17。

表1 聚类效果表

表2 审计抽样样本数量表

根据新型审计分层抽样算法的结果，审计人员在抽取样本数量同样为100的情况下，在金额较大的高风险区域抽取的样本量要比原始审计分层抽样方法更加合理。根据抽样结果，审计人员发现第一层抽样的25个数据中有4笔大额支出存在违规问题，在总结这4笔违规支出的特征后，利用AO、ACCESS、SQL-Server等软件的查询功能查出违规支出在总支出金额中的具体金额和比例，为审计人员发现问题、梳理问题节省了大量时间，也提高了信息系统审计中的数据分析方案的可操作性。

审计分层抽样能够通过抽取被审计数据中的特征数据样本，缩小审计范围，提高审计效率。但是由于自身的缺陷，很难在信息系统审计中被审计人员使用。笔者将数据挖掘技术与审计分层抽样相结合，能很好地解决信息系统审计中数据分析方法单一的问题，不但降低了数据分析的门槛，而且提高了审计效率，为审计人员进行信息系统审计开辟了一条新的途径。

标签：分层抽样论文; 聚类论文; 审计抽样论文; 审计软件论文; 样本容量论文; 审计方法论文; 审计目的论文; 方差论文;

信息系统审计中的分层抽样方法研究_分层抽样论文

猜你喜欢