统计数据质量评价方法研究综述_参数估计论文

统计数据质量评估方法研究述评，本文主要内容关键词为：述评论文,统计数据论文,质量论文,方法论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

加强数据质量评估是提高统计数据质量的有效手段。目前中国统计数据质量评估工作进展不快，与评估方法的不成熟或应用不当不无关系。为此，有必要对现有的统计数据质量评估方法作一个系统梳理，并讨论其进一步发展的方向。鉴于目前绝大多数关于统计数据质量的研究文献实质上仍然是围绕统计数据的准确性而展开研究，而本文所讨论的统计数据质量评估方法，如逻辑关系检验法、计量模型分析法、核算数据重估法、统计分布检验法、调查误差评估法基本上也都属于准确性评估维度，同时对统计数据质量的多维评估法也将进行探讨。

一、逻辑关系检验法

逻辑关系检验法是以政府统计指标体系中各个统计指标之间存在的包含、恒等以及相关等内在逻辑关系为判断标准、实现对统计指标数据的可信度的粗略检验。如果在检验中某一组统计指标数据违背了它们之间所存在的特定的逻辑关系，则表明该组统计指标数据存在可信度问题，有可能是其中的一个或一部分数据不可信，也有可能是整组数据均不可信，需要进行进一步的分析与核查。按照检验所依据逻辑关系的不同，该方法可分为比较逻辑检验法和相关逻辑检验法。

（一）比较逻辑检验法

比较逻辑检验所依据的逻辑关系是由于统计指标在概念、口径及范围等要素方面的差异而形成的单向包含或者恒等关系，它是传统的检验方法之一，目前在各级统计部门检查各种统计数据质量时普遍使用，也是多数学者、公众和媒体质疑中国GDP等统计数据的起点或重要依据。例如，基于中国存在已久的各地区GDP的总和显著大于全国GDP以及各地区GDP增长率的加权平均数显著高于全国GDP增长率等数据不一致现象，孟连、王小鲁认为各地区GDP增长数据普遍存在不可信问题，全国GDP增长数据虽然由国家统计局在汇总数据的基础上经过审核、评估、验证，并作了相应的调整，但在很大程度上也不可信，需进行进一步的分析与验证[1]；Rawski则质疑中国GDP统计数据的可信性[2]。

显而易见，比较逻辑法检验的依据是普遍适用的整体与部分的关系以及基本的社会经济统计理论等，故具有操作简单且通俗易懂和检验基础稳固等优点，但其劣势也非常明显，体现为检验结果的粗略性及多重指向性：一方面，只要被检验的统计指标数据间没有出现大的逻辑关系矛盾，则该组数据就可以被接受，但合乎逻辑关系只是统计指标数据可信的一个最基本的必要条件；另一方面，当被检验的统计指标数据违背了特定的逻辑关系，这虽然表明该组数据中存在可信度问题，但对于具体是哪一个或哪一些数据不可信？还是整组数据均不可信时，此方法却不能回答，也无法显示可信的数据大概是多少，故上述问题只能依赖于假设或进一步的分析与验证。

（二）相关逻辑检查法

相关逻辑检验所依据的逻辑关系是由紧密联系的客观社会经济现象所决定的统计指标之间的高度相关关系，主要有两种表现形式：一是总量指标本身之间存在比较稳定的比例或比率关系，即由此计算的相对指标应在特定的范围里取值，如增加值率、财政收入占GDP比重、三次产业间的比例等均应比较稳定；二是总量指标的变动趋势之间存在相当程度的同向或反向一致性，亦即各自的增长率之间应该在方向上相符、在幅度上一致，如菲利普斯曲线表明通货膨胀率与失业率之间的关系、能源消费增长率与GDP增长率之间应保持同向且大致相同的幅度等。在实证研究中，孟连、王小鲁通过分析各种价格指数、货运增长率以及电力和能源消费增长率等指标与GDP增长率之间的关系，认为1996-1998年中国GDP指数有较大虚增成分[1]；Rawski则以1997-2000年间中国实际GDP增长24.7％、而在同一时期能源消耗却下降了12.8％为理由明确提出对中国GDP增长的质疑，在详细分析1998年航空旅客运输的数据后，Rawski认为2.2％是1997-1998年中国GDP增长率的一个上限，实际结果有可能远远低于它，甚至有可能是负数[3]。对于这种观点，Lardy则明确表示反对，理由是虽然能源消耗出现了下降，但在1997-2001年间中国财政收入和总进口却分别增长了近90％和70％[4]。

相关逻辑检验法同样是一种传统的检验方法，与比较逻辑检验法相比，其检验依据已从整体与部分的关系扩展到了社会经济现象中普遍存在的相关关系，其适应性更广，在检验深度方面也有一定提高，并在一定程度上可揭示某些情况下的可信的统计数据大概是多少，因此也成为大众、媒体及学者等衡量、质疑统计数据可信度的最常用工具。同时，其不足也更为明显：一方面，它的检验结果在一定程度上也具有多重指向性，因为所选取的作为对比基准的指标数据与待检验指标数据处于同等位置，任何一个数据都不可信会使其背离指标间原本存在的相关关系。如Rawski和Movshuk均指出Lardy用于分析的基准变量财政收入和进口都存在高估，如进口的高速增长是由于走私等地下经济的合法化而非经济增长引起的，其结论不可信[3,5]；张新、蒋殿春则以相同理由驳斥了Rawski，认为从GDP与就业增长这种无序关系出发进行推断，与其断言GDP增长数据被虚报，不如说因隐形失业问题所导致正式登记的就业数据严重失真更为恰当[6]。但另一方面，更致命的缺陷是其检验依据，即用于在检验两个指标间存在稳定性的高度相关性的同时，而更倾向于是一种假设，特别在当今复杂的经济形势中，很多时候并不一定成立。实际上，任何一个国家的经济增长都是由多种因素决定的，没有任何一种单独的经济活动及其指标能够完全解释GDP的增长，尤其是像中国这样的大国经济。而Holz则明确指出，近期大多数批评中国工业增加值和GDP统计数据的文献是无事实根据的，因为他们的批评是建立在对相关基准或控制变量的含义和范围的错误理解上的[7]；张新、蒋殿春在研究中国宏观经济高速增长与企业业绩逐年下滑这一“悖论”时，认为经济总规模与企业盈利能力完全属于不同的经济范畴，互相之间并不存在什么可比性，而如果选择了恰当的比较对象，宏观和微观之间并无什么矛盾可言[6]；任若恩在评论Rawski和孟连、王小鲁的研究时指出，关于经济增长率和能源增长率应该大致相等的假定不成立，工业增加值与货物运输、能源消费量的相关关系也很难稳定[8]；Rawski自己也承认虽然下降的能源消费确实支持低的GDP增长率，但不能依赖官方能源数字得出关于GDP增长的稳固结论[3]。

由上可知，逻辑检验法作为一种传统的检验方法，操作简单且通俗易懂，在对数据的可信度进行初步检验的情况下得到了广泛的应用。但是，从检验的方法技术角度来看，逻辑检验法要么过于粗糙，要么根基不稳。

二、计量模型分析法

计量模型分析法是指以建立计量经济模型为基础、对相关指标的数据质量进行评估的一类统计数据质量评估方法。由于社会经济统计指标之间的相关关系十分复杂，相关逻辑检验法在评估统计数据质量时经常失效，一些学者便尝试借助于计量经济模型等一些功能更为强大的工具来评估统计数据质量，从而形成了统计数据质量评估的计量模型分析法。该方法的基本思路与步骤是：首先，通过深入的分析，依据相应的经济或统计理论建立计量经济模型，因变量通常为待评估的指标；其次，选取样本数据对所构建的模型进行参数估计，并对估计结果进行初步检验，得到具体的模型；第三，对所得到的具体模型进行分析，再根据相应的理论或假设得出待评估的统计数据是否可信的结论。

（一）模型构建

模型构建是计量模型分析法的一个最为关键的步骤，能否构建出一个科学、实用的模型，是计量模型分析法能否有效评估统计数据质量的关键点之一。而要成功地构建一个用于统计数据质量评估的计量模型，建模者不但需要具备高超的建模艺术，而且要准确地选出适当的模型类别。

目前，用于统计数据质量评估的计量模型大部分可分为以下四类①，即：传统回归模型、经典时序模型、面板数据模型和其他计量模型，后者包括自回归分布滞后模型、误差修正模型、曲线回归模型、联立方程模型以及向量自回归模型等。

传统回归模型凭借深入的理论分析能有效地刻画宏观经济现象之间复杂关系；经典时序模型凭借对指标历史数据的详细考察能有效地描述指标数据的变化规律；面板数据模型在有效地刻画宏观经济现象之间的复杂关系的基础上，还能描述出上述复杂关系在不同个体（如各省）或者不同时期间（如各年）的差异，并在某些情况下还能测算对因变量具有确定影响的不可观察变量的影响；而其他模型对宏观经济现象之间的复杂关系的描述也同样有效，有的从静态扩展到动态，有的从一维扩展到多维。

计量模型对指标之间的关系或指标数据规律的强大刻画能力为其在统计数据质量评估方面的应用提供了坚实的基础，这也是其优势之所在。但是，该方法也存在一定的缺陷，体现为在实际评估中，计量模型对样本数据的要求或假设过于严格，在现实中很难得到满足。对于被选为评估基准的解释变量的数据，研究通常假设其在整个样本期都可信，这种严格的假设便导致了在实际评估中评估结论具有多重指向性。对于被解释变量（即待评估指标），研究假设依评估目标的不同存在两种情况：一种是在要评估待评估指标在整个样本集内的数据质量的情况下，通常假设待评估指标的数据绝大部分基本可信；另一种是在只评估待评估指标在整个样本集内的部分样本的数据质量的情况下，通常将整个样本集分为训练集样本和评估集样本，并假设待评估指标的数据在训练集样本内基本可信以便用于模型估计。前一种情况有时能使评估陷入无意义的尴尬，比如当评估结论是被评估指标大部分统计数据不可信时，那么基于这种不可信的统计数据估计的评估模型也就不可信，从而基于这种不可信的评估模型得出的评估结论也就可信度不高，于是所做的评估也就没有丝毫的意义。后一种情况下，假设同对解释变量的假设类似，过于严格，在实际评估中容易导致评估结论具有多重指向性。而在某些特定条件下，它也能使评估陷入尴尬②。对于含有内生解释变量的模型，对被解释变量的假设在以上两种情况下都会使评价陷入无意义的尴尬。而从适用性来看，不同类别的模型有不同的适用范围。与其他三类模型相比，面板数据模型的适用范围相对较小，它主要适合于中间层次的数据（如地区一级的数据）的可信度评估，而其他模型则既适合于中间层次数据的可信度评估，也适合于汇总层次的数据（如国家层面的数据）的可信度评估。

（二）模型估计

模型估计是计量模型分析法的一个极为重要的步骤，能否对评估模型中的各个参数做出性质优良的估计，不但是影响后续模型分析是否有意义的一个重要要素，而且也是影响整个统计数据质量评估的一个重要因素。在借助计量经济模型评估统计数据质量时，研究者有选取尽可能多的解释变量的倾向，因为所选取的解释变量越多、模型对变量间的影响机制表述得越具体，对经济现实的刻画也就越逼真。但是这种倾向却非常不利于模型估计，因为所选取的解释变量越多、违背参数估计假设的可能性就越大，参数估计的效果就越差，对于涉及GDP等特殊宏观经济变量的模型就更是如此。

为尽可能地提高参数估计的效果，研究者应在估计参数时进行某些处理，尽量消除多重共线性、自相关及异方差等违背参数估计假设的因素；或者在估计参数时不再习惯性地选用普通最小二乘估计，而是选择加权最小二乘估计、二阶段加权最小二乘估计、最大似然估计或广义矩估计等更稳健的估计方法。Klein、Ozmucur和阙里、钟笑寒在研究GDP或其增长率的可信度时选取了尽可能多的、来源相对独立的、代表性强的经济指标作为解释变量，为排除多重共线性的影响，同时也为节省自由度，他们在估计模型参数前先对原始自变量做了主成分分析，再将得到的主成分作自变量进行参数估计，并根据主成分与原始指标的关系将各主成分的估计系数还原成原始指标的系数[9-10]。而阙里、钟笑寒还在回归方程中引入了残差自相关项（即AR项），以消除随机扰动项之间存在自相关的影响[10]。

在估计出具体的评估模型后，对其进行初步的计量经济学检验，即拟合优度检验、参数显著性检验、方程整体显著性检验以及残差正态性检验等是评价模型估计效果的一个重要手段。但是，在很多现有的研究中却很难见到完整的上述检验，特别是关于残差的正态性检验，从而导致很多效果欠佳的评估模型被用于统计数据质量评估，当然也就难以做出科学、准确的评估。

（三）模型分析

模型分析是计量模型分析法的重点，是整个统计数据质量评估的落脚点。目前来看，在现有研究中主要有如下三类分析方法：

1.重点分析所拟合模型中的各个解释变量的系数，判断模型所反映的解释变量与被解释变量之间的关系是否与社会经济常识或构建模型时的预期相符。如果模型中解释变量与被解释变量之间的关系出现了与社会经济常识相违背的情况，则说明样本期的指标数据不支持经济理论，在假设其他指标数据都可信的情况下，便可推断出所评估的指标数据不可信；而如果模型中所有解释变量与被解释变量之间的关系均与社会经济常识相符，则说明样本期的指标数据支持经济理论，样本数据的可信度与经济理论之间提供了相互验证，从而可认为所评估的指标数据可信。如Klein、Ozmucur的研究结果为所选取的15个基本经济变量的变动与中国官方估计的GDP增长的相关关系完全符合经济规律，特别地，能源增长与GDP增长也是正相关的，据此，他们认为中国GDP增长数据是可信的[9]。

2.重点分析所拟合模型中的某些参数估计值的时期稳定性，它多用于拟合的模型是生产函数的情况，分析的参数估计值大多与全要素生产率相关。在一定时期内，若一个地区的社会经济运行状况较为平稳，没有出现大的技术进步或体制变迁，则全要素生产率应该比较平稳，不会有大的波动或跳跃；如果所拟合的模型中，与全要素生产率相关的参数估计值出现大的波动或跳跃，但又无法从经济运行现实中找到适当的原因（如大规模的技术进行或体制变迁），则表明样本数据存在可信度问题，而在假设各投入要素的指标数据准确的情况下，便可认为产出数据（多为GDP）不可信；反之，则认为样本数据不存在可信度问题，所评估的统计数据是可信的。如杨冠琼认为全要素生产率的变动在短期内必然是一个相对平稳的过程，从而可以从其变动样式反推GDP及其增长率的可信性[11]161-204；孟连、王小鲁则通过在生产函数中使用时间趋势变量，估计了中国1953-1997年期间及其两个子区间的工业、第三产业和国民经济整体的综合要素生产率的增长率，得出1992-1997期间中国经济增长率大约被高估了2.5个百分点，工业增长率虚增的幅度估计大致在4％，而第一、第三产业增长率没有大幅度的虚增等评估结论[1]。

3.在分析所拟合模型的参数估计值的基础上，重点分析模型的预测误差。这类模型分析方法的核心思想是在所构建的模型通过各种计量经济学检验、经济意义检验的情况下，以被评估指标的模型预测值作为其实际值的参照标准，对其实际值的可信度做出判断。具体的操作方法是选用一定的规则，如Grubbs准则、Dixon准则、学生化残差、cook统计量以及w-k统计量等，对评估时期内的各个误差进行判断或统计诊断，看其是否在正常的范围之内，若判断或诊断认为误差在正常的范围之内，说明被评估的指标数据是可信的；否则说明被评估的指标数据不可信，除非能找出特别恰当的原因。而依据评估目标是评估待评估指标在整个样本集内还是在部分样本上的数据质量的不同，该类模型分析方法可分为样本内平滑误差分析和样本外预测误差分析。刘洪、黄燕通过对1978-2004年的模型预测误差的分析，认为在中国1978-2003年间的GDP数据真实可靠的假定下，中国2004年公布的GDP数据是准确的[12]。

对于上述三类分析方法，重点分析各个解释变量系数的经济意义的方法很容易受到参数估计方法的影响，这就要求研究者在进行参数估计前做出某些必要的处理或选用稳健的参数估计方法。同时，该分析方法也是一种最为基础的分析方法，在实际评估中模型分析不应仅停留于此，而应该还有更深入的分析。重点分析某些参数估计值的时期稳定性的方法在某种程度上限于生产函数模型，并且与其他分析方法相比，该方法对所选择的估计模型与样本数据的依赖性也更强。重点分析模型的预测误差的方法可以说是最为合理、深入的分析，特别是其中的基于统计诊断理论的误差分析，它应该成为以后进行模型分析的首要选择。

综合之，计量模型分析法的主要不足是要求或假设作为评估基准的指标数据充分可信。虽然在现实评估中该方法也受到所构建的评估模型、参数估计以及分析方法等有效性的影响，但上述因素均非内生于该方法，通过努力均能在较大程度上得到解决。而计量模型分析法的主要优势除了模型能有效地刻画宏观经济现象之间的复杂关系外，更重要的是它紧扣了统计数据质量或准确性评估的现实基础。实际上，由于统计数据的“真值”通常是无从知晓的，特别是在宏观经济统计领域，对统计数据质量或准确性的评估也只能退而求其次，即评估统计数据的可用性、适用性和有用性，只要其可用、适用并且有用，便可认为统计数据是可信的、准确的，而开展计量模型分析正是统计数据主要的用途之一。

三、核算数据重估法

核算数据重估法是指以从统计核算的角度重新估计特定的统计指标数据为基础，以实现对相关统计指标的数据质量进行评估的一类统计数据质量评估方法。评估的基本思路是：第一，以待评估统计指标的统计核算规范或方法为依据，通过分析找出待评估统计指标在核算实践中存在的具体问题，并对其展开详细的分析；第二，根据具体的分析结果，最大限度地挖掘现有资料，有针对性地采用一些替代数据或者运用规范的方法来重新估计待评估统计指标数据；第三，以重新估计得到的统计指标数据为参照标准，对官方公布的统计指标数据进行准确性评估。运用该方法进行统计数据质量评估的关键是如何重新估计待评估的统计指标数据。核算数据重估法是对于逻辑关系检验法的另一拓展，多用于评估GDP及其构成项目的现价水平数据和增长率数据的准确性，具体主要包括：

（一）偏差修正重估法

偏差修正重估法主要用于评估现价GDP及其构成项目水平数据的准确性。重新估计现价GDP的基本做法是：在对现价GDP的核算规范与核算实践展开对比分析的基础上，以官方公布的现价GDP数据为初始值，加上本来应该统计却在核算过程中漏掉了的增加值，减去本来不应该统计但在核算过程中统计了的增加值，同时对由其他各种原因而导致的在数量上多或少统计了的增加值进行相应的调整。但是由于受到可获取资料不足的影响，在实际评估中重新估计现价GDP的通常做法为：针对核算实践中存在的具体问题进行具体分析，并以此为基础略带主观地选择某种方法计算出一些替代数据，或者颇为主观地直接选用一些替代数据来修正特定问题对现价GDP的影响，比如针对中国现价GDP核算中，同时也是现价服务业增加值核算中存在的居民住房服务增加值被低估的问题。许宪春经过详细的理论与实践分析，提出运用市场房租估算法或成本估算法来重新估算居民住房服务增加值以修正该问题对现价GDP的影响③。考虑到市场房租估算法和成本估算法均具有一定的优缺点，且两种方法在某种程度上又互为补充，许宪春在实际分析中将两者结合起来，并利用两种方法所得的居民住房服务增加值的平均值作为居民住房服务业的增加值[13]。

偏差修正重估法提供了相关统计指标的可供参考的数据，是对官方统计数据的强有力的检验，这是偏正修正重估法的主要优势，也是其他两种核算数据重估法的优势所在。但是，偏差修正重估法也存在一些问题，即待评估统计指标的重新估计结果容易受到所选用的替代数据或者计算替代数据的方法的影响。选用不同的替代数据或者不同的方法计算替代数据以修正某特定问题对现价GDP的影响，现价GDP的重新估计结果之间可能相差很大，并且替代数据或者计算替代数据的方法的选择具有一定的主观性。这就要求针对核算实践中存在的具体问题展开具体分析，尽可能客观地选用替代数据或者计算替代数据的方法。

（二）价格指数重估法

价格指数重估法是对SNA中关于物量核算的一种规范方法，即价格指数缩减法的一个应用，主要用于评估GDP及其各个构成项目增长率数据的准确性。重新估计GDP增长率数据的基本做法是：从GDP的各个构成项目出发，选用适当的价格指数对每一构成项目的现价价值进行缩减，得出各个构成项目的不变价价值；汇总各个构成项目的不变价价值，得出不变价GDP；将相临年份的不变价GDP进行对比，计算得出相应的GDP增长率数据，例如针对中国GDP（或行业增加值）增长数据因价格缩减不足等原因而可能存在高估的问题。任若恩尝试了以农副产品收购价格指数、工业生产者价格指数以及消费者价格指数内的服务性专门指数，分别缩减第一、二、三产业的现价增加值，得出了1986-1994年间以1985年不变价格计算的GDP总量及其组成部分，并计算该期GDP及其组成部分的实际增长率[14]106-109；Keidel则从支出法的角度重新估计了中国1979-2000年的GDP增长率，具体做法是：以城镇和农村CPI分别缩减城镇和农村居民消费、以全国CPI缩减政府消费、以官方投资缩减指数缩减资本形成以及以零售价格指数缩减贸易差额，最后加总各构成要素的实际值，并据此计算支出法GDP的增长率，同时针对官方公布的农村消费数据与住户调查得到的农村消费数据的不同，又给出了两个估计值[15]；Shiau也从支出法的角度重构了中国1982-2000年的GDP增长率，但与Keidel的研究相比，Shiau的研究更详细，表现在对名义居民消费支出的不一致和对政府消费支出价格指数进行了调整，编制了出口价格指数和进口价格指数，以满足重新估计支出法GDP时的需要[16]。

价格指数重估法的评估效果容易受到现价GDP及其构成项目的准确性、特别是所选用的缩减价格指数的合理性的影响。一般来说，评估中GDP的构成项目划分得越细，各个构成项目所对应的价格指数（如果存在的话）就越能反应各个构成项目中的价格变化，从而也就越合理。但在中国的统计实践中，价格指数资料一直存在很大的缺口，于是对于很多的GDP构成项目，均需要选择其他的某种价格指数作为替代的缩减指数，又由于中国编制价格指数的程序并不透明，要找到适当的替代价格缩减指数存在巨大的困难，从而在一定程度上限制了该方法的评估效力。

（三）物量指数重估法

物量指数重估法是SNA中关于物量核算的另一种规范方法，即对物量指数外推法的一个应用，主要用于评估工业、农业等行业增加值增长率数据的准确性。其基本思想是以待评估统计指标的各个具体构成成分的实物产量为基础元素，运用特定的指数理论（如拉氏指数理论）计算各个具体构成成分的实物产量的综合增长率，并以此作为待评估统计指标的实际增长率。

以工业增加值的增长率的重新估计为例，其主要步骤为：第一，按照工业的某种行业分类在每个行业中选其代表性产品，再以某个时期为基期，计算各种代表性产品从基期到报告期的产量指数；第二，以基期各种代表性产品的产值占其所在行业的全部代表性产品的产值总和的比重为权数，并以计算各个行业内部各种代表性产品的增长率的加权平均数为各个行业从基期到报告期的综合产量指数；第三，将各个行业从基期到第t期的综合产量指数乘以它们各自的基期增加值，得出各个行业在第t期的基期价格增加值，并层层汇总，得出上一层行业分类中各行业部门乃至整个工业的基期价格增加值；第四，将工业或其某种行业分类中的行业部门的第t期基期价格增加值除以相应的基期增加值，便得出工业或其某种行业分类中的行业部门从基期到第t期的发展速度；在此基础上计算出工业或其某种行业分类中的行业部门的各种增长速度，例如Wu选择了17个工业部门、81个工业行业的161种代表性产品，以1987年为基期，对中国1952-1995年的工业增长率进行了重构[17]。Wu的估计结果得到了Maddison的全盘采用[18]139-167。

物量指数重估法紧扣工业增长率的含义，以工业产品的实物产量为基本元素重新估计工业增长率，有效地避免了“不变价格”对增长率带来的影响。同时，工业产品的实物产量统计数据的准确度也较高，因其只是作为工业总产值和增加值统计的基础，而不是各级政府所关心的政绩指标，故所受到的主观干扰相对较少，这也是物量指数法的另一个优势所在。物量指数重估法的不足也较为明显，主要体现为如下三点：一是在各个行业内选择的代表性产品的代表性问题，即如果所选择的代表性产品的代表性不够充分的话，那么工业增长率等数据的重新估计值的代表性或有效性将会受到严重的影响，直至无效；二是该方法隐含了两个十分严格的假设，即各个代表性产品的价格结构和各个行业的技术水平或者说增加值率在整个工业增长率的重新估计期内均保持不变，与所选择的基期相同；三是它没有对针对产品质量的改进进行相应的调整。

四、统计分布检验法

在社会经济统计领域，统计总体中的各个个体的标志值在理论上会服从某一特定的统计分布。鉴此，通过对各个个体的标志值进行特定的统计分布检验，可初步判断出各个个体的标志值是否正常、可信。

（一）常规分布检验方法

统计分布检验法的过程是：第一，通过对待评估指标进行深入的理论分析或对其历史资料展开翔实的经验研究，找出其服从的具体的统计分布；第二，检验待评估指标在各个个体上的取值的经验分布是否与分析得出的理论分布一致，若检验通过，则说明待评估指标在各个个体上的取值总体上是可信的，否则说明待评估指标在个体上的取值存在较大的误差，还需进一步分析原因；第三，以分析得出的理论分布为基础，应用Grubbs准则、Dixon准则等识别待评估指标在各个个体上的取值的异常点，并对异常点进行认真审核，判断其是否可信。如成邦文等人证明在社会经济系统中，反映研究对象规模大小的统计数据（如产量、产值等）近似服从对数正态分布，并提出可以通过对数正态分布的检验和异常点识别的方法对社会经济规模指标的统计数据的总体质量和异常点进行检验和识别。同时，成邦文等人又将这一研究成果从一维统计数据推广到了多维统计数据之中[19]。

这类方法主要用于在数据生产过程中评估基层调查单位填报的原始数据的可信度，但同时也可用于评估地区、部门一级的分类汇总数据的可信度，而无论评估对象是哪个，其评估结果在表明各评估数据的可信度之外，在较大程度上还能映射出上一层总体汇总指标数据的可信度。

（二）分布检验缺陷弥补方法

统计分布检验法的缺陷也较为明显：一方面，所应用的前提条件是待评估指标服从某一特定的概率分布，但在许多情况下却很难获得这种理论分布；另一方面，对于各个个体数据中出现的一致性偏差还尚无法估计，即使得到肯定的检验结果也无法排除在各个个体数据中存在系统性偏差的可能性；而对于非一致性偏差其探测能力也受到各个个体所处的位置影响，那些处于理论分布中心位置附近的个体，即便出现较大的统计偏差也不一定会表现为数据异常点而被探测到。

针对上述情况，成邦文等人指出该方法具有的突出优点，即本身就具有抗虚假性，故不真实的统计要通过检验是很困难的，而未通过检验的统计数据也不可能通过对不真实数据的修改而使之通过的情况也就未必突出[20]；王华和金勇进则认为该方法实际评估操作的有效性未必如此乐观[21]；傅德印则提出：用茎叶图、字母值、箱线图、编码表、悬浮式直方图、阴尼线性或非线性平滑法及中位数平滑法等探索性数据分析方法，探测个体数据中存在的异常点以控制汇总数据的质量[22]。傅德印的观点在“在无意中”弥补了统计分析检验法在无法获得理论分布时不能应用的不足④，但也同样存在无法估计一致性偏差和对非一致性偏差的探测能力有限等不足；李选举、向书坚和傅德印提出的对以判别分析识别数据中的异常点或数据是否失真则有所改进，尤其是在非一致性偏差的探测方面[23-24]。

五、调查误差评估法

统计数据的可信度评估归根结底是对数据中所包含误差的评估，而从数据的生产过程来看，这种误差最先表现为统计调查误差。通常来说，调查误差可分为抽样误差与非抽样误差。对于抽样误差，统计学中已经有一套比较成熟的评估理论与方法；对于非抽样误差，由于其成因复杂，目前评估方法较为有限，而以下两类比较具有代表性：

（一）非抽样误差间接评估

非抽样误差间接评估是通过开发某些间接指标来评估非抽样误差的大小。由欧盟资助的多国开发项目，即自我评估清单开发（DESAP），开发了一份“统计调查自我评估简略清单”，作为各个统计调查项目的管理者评估相应调查数据质量及考虑改进措施的标准化工具，它以“统计调查单位无回答”、“统计调查项目无回答”、“抽样框过大”以及“抽样框不全”作为反映非抽样误差情况的指标，并给出了1～5五个等级作为实际评估时的选项[25]。由于该方法的主要目的是为项目管理者考虑改进措施服务，所以该方法只对多种具体类型的非抽样误差进行了评估，而并没有对此做出进一步的评估与综合，这就决定了该方法无法对调查数据中所包含的非抽样误差大小做出具体的综合判断。欧洲统计系统的另外两套数据质量管理工具——质量报告和质量指标也采用上述指标等反映非抽样误差[26-27]，与简略清单相比，虽然它们的评估更为详细，但同样也没有对非抽样误差做出综合评估。

（二）非抽样误差事后抽查

非抽样误差事后抽查是通过事后质量抽查来评估非抽样误差大小，多用于普查和大型抽样调查中。该方法需要进行事后重复调查，并将所获得的数据同初始调查所获得的数据进行比较分析，最终评估出初始调查数据中所含非抽样误差的大小。采用的估计方法通常包括两类：一是以事后质量抽查资料为准进行估计，如中国第二次经济普查的质量抽查便以抽查资料为准，通过计算全国经济普查的单位填报率及主要指标误差率等指标来评估普查数据中的误差大小；二是采用双系统估计，即同时使用初始调查资料与事后质量抽查资料进行估计，如美国、瑞士等世界上许多国家的人口普查均通过事后抽样调查，使用基于捕获再捕获模型的事后分层双系统估计量方法，求出全国人口的一个“真实估计”，并以此为标准评估人口普查数据的误差大小[28]。中国第五次人口普查则同时采用了上述两种方法估计多种误差率，但对双系统估计方法的应用却非常粗糙，因为它缺失了该估计方法赖以成立的关键一步，即在估计之前没有进行事后分层。

以事后质量抽查来评估非抽样误差大小，其隐含的假设为初始调查的非抽样误差来源于调查设计的不合理和调查实施过程的不规范，而事后重复调查的设计则足够合理，调查实施过程也足够规范。但是，关于社会经济统计调查的“真值”是否存在？目前尚无定论，以事后重复调查的结果为标准进行的估计也就不一定那么准确了。而双系统估计虽然考虑了事后重复调查也可能存在的误差，但其应用的前提，如两次调查的样本均来自同一个总体且相互独立，每一个个体进入样本的概率相等，两次抽样和调查时总体大小不变却较为严格，从而需要进一步地改进。如何进行更有效地事后分层？如何有效地消除初始调查与事后重复调查之间产生的关联影响？等等，均是必须考虑的问题。

总体来看，调查误差分析法从产生统计数据偏差的源头入手，对统计数据的可信度进行评估，由于其所采用的评估技术与思路更为科学和可靠，而所利用的评估基准信息资料也更为翔实与可靠，因此，相对于其他统计数据可信度的评估方法而言，该方法的评估结论具有更强的说服力[29]。

六、多维评估法

统计数据质量的内涵经历了由一维向多维发展的过程，相应的，统计数据质量的评估方法也由一维的准确性评估向多维评估延伸。目前，多维评估法主要包括多维多级测量法、质量指标集法、用户满意度调查法和模糊综合评价法。

（一）多维多级测量法

多维多级测量法是国际货币基金组织（IMF）基于数据质量评估框架（DQAF）提出的一种评价方法。IMF认为：统计数据质量是一个十分模糊的概念，很难进行直接的评判，但是在统计数据生产和公布的各个环节采用国际公认的标准、指南或良好做法能有效地保障统计数据质量，所以一种有效的变通作法是评估各个国家在统计数据生产与公布的各个环节对国际标准或准则的采用程度，并以此来反映相应的统计数据质量，其基本评估步骤为：首先，参照数据质量评估框架，将统计数据质量分为质量的前提条件、保证诚信、方法健全性、准确性与可靠性、适用性以及可获得性六个方面，并进一步将每个方面细化为若干个质量要素作为基本评估元素；其次，针对每个评估元素，分析某国（或某个地区）生产待评估指标或指标集时的实际做法，并将实际做法同数据质量评估框架中的要求相比，得出它们各自的等级评估结果，即遵守、在很大程度上遵守、在很大程度上不遵守、不遵守四个等级中的一个；最后，将各个评估元素上的等级评估结果罗列在一起，以一张表格予以展示出来[30]。

多维多级测量法从统计基础条件、核心统计过程以及统计产品等方面对统计数据质量进行了全方位的评估，其优点是评估全面而系统，能有效地满足各种不同类型的数据用户对质量评估的要求；其缺点是对于各个基本评估元素的等级评判具有一定的主观性，而以数据质量评估框架中给出的要求为评估标准在某些情况下也有待进一步商榷；同时多维多级测量法没能给出一些综合的评估结果。

（二）质量指标集法

质量指标集法是欧洲统计系统（ESS）基于其数据质量定义开发的一种评价方法，其基本思路是对数据质量定义的每一维度有针对性地开发几个评价指标并对其进行评价。目前，ESS在各个数据质量维度下均已开发出了一些指标，如在相关性维度下已开发的两个评估指标，即用户满意度指数和可获得的统计数据比率[27]。该方法的优点是针对性强，缺点是所开发的指标大多需要进行二次调查取得数据，成本太大。质量质指集法未能对所有指标进行综合而得出一个综合质量指数，故该评估方法仍处于进一步开发之中

（三）用户满意度调查法

用户满意度调查测评法是将顾客满意度理论应用到统计数据质量评估中而形成的一种评估方法。在ESS开发的质量指标集方法中，相关性质量维度下的一个具体指标——用户满意度指数，是采用用户满意度调查方法来获取数据的，因而该方法可以被看做是质量指标集法的一个分支，但近年来也被作为一种单独的统计数据质量评估方法[31]。由于统计数据产品的特殊性，用户满意度测评法在统计数据质量评估领域应用的理论研究进展比较缓慢，因而在实践中也没有形成较为成熟的测评范式。

统计数据用户满意度调查法大致包括如下几个步骤：一是以一般的顾客满意度模型为基础构建相应的统计数据用户满意度模型；二是围绕所构建的用户满意度模型设计统计数据用户满意度测评指标/项目体系，即为模型中的每个潜变量设计一些测评指标/项目；三是开展统计数据用户满意度调查以获取满意度测评的原始数据；四是按照一定的方法对原始数据进行分析、处理，形成统计数据用户满意度指数，并对用度满意度的影响因素、影响路径展开具体分析，以指导统计数据质量的改进。

用户满意度调查法从数据用户角度出发，以用户对统计数据质量的满意度评价作为数据质量的评估结果，这与统计数据质量的定义十分吻合；而且，它能够形成一个综合的统计数据质量指数即数据用户满意度指数，分析用户满意度的影响因素和影响路径等，这对统计数据质量的改进有一定的指导意义。但是，该方法的局限性亦十分明显，主要体现为它需要开展专门的统计调查，这就会出现一系列与调查相关的问题，比如样本的代表性问题、调查对象回答问题的主观性问题、调查成本费用高昂问题等。

（四）模糊综合评价法

针对多维多级测量法等多维评估方法不能给出综合评估结果的不足，许涤龙和王芳提出的模糊评价法则有所改进[32]。模糊评价法实际上是将模糊综合评价方法应用到数据质量评价之中，其基本评估步骤是：第一，在分析数据质量内涵的基础上，建立数据质量评价的指标体系；第二，分析指标体系中的每一指标的相对重要性，并按各指标的重要性程度对每一指标赋权；第三，建立质量评价等级，对各个指标进行模糊等级评判并进行模糊运算，得出数据质量隶属于某个等级的概率。如许涤龙和王芳将统计信息质量分为表述质量、内容质量和约束质量三个方面，并进一步细化为准确性、及时性、实用性、可比性、可衔接性、可理解性、可获得性和有效性等八个指标，采用层次分析法对各个指标进行赋权，建立很好、较好、一般、较差和很差五个等级，对中国统计数据质量进行了模拟模糊评估。该方法的另一优点是对于“质量”这一具有一定模糊性的概念，应用模糊评估与模糊数学理论相一致；其缺点主要表现为进行指标模糊等级评判以及指标赋权均存在较大的主观性。

由上可知，目前统计数据质量的多维评估法还十分薄弱，这与人们对统计数据质量内涵的理解有关，也与人们长久以来对统计数据质量的关注重点有关，但这丝毫不会影响对统计数据质量进行多维评估的意义。随着统计数据质量的多维内涵的巩固以及人们对统计数据质量要求的不断提高，相信统计数据质量的多维评估法会得到一定的应用。

七、评估方法的再归类与发展方向

前文对统计数据质量的评估方法进行了比较系统的讨论与总结，总的来看，各种评估方法在某种程度上均能对统计数据质量作出评判，但在适用性、有效性等方面均存在一些差异，可以说是各具优势与不足。为进一步加深对各种评估方法的认识，有必要对其进行归类总结，并探讨其发展方向。

（一）评估方法的再归类

首先，按照评估维度不同，统计数据质量的评估方法可以分为一维评估法和多维评估法。一维评估法用于评估统计数据质量的一个维度，目前主要是用于评估统计数据的准确性或可信度，包括前述逻辑关系检验法、计量模型分析法、核算数据重估法、统计分布检验法和调查误差评估法及其所属的各种方法；多维评估法则用于评估统计数据质量的多个维度，如准确性、及时性、适用性、可比性、可衔接性、可理解性、可获得性和有效性等[33]，也包括前述多维评估法中的各种方法。显然，目前国内采用的统计数据质量评估方法主要是一维评估法，而国外采用的统计数据质量评估方法主要是多维评估法。中国多是在外国专家评估中国某些统计指标的数据质量（可信度）时，才见到国外采用一维评估法。

其次，按照评估方式不同，统计数据质量的评估方法可以分为三个类别，见表1。

按照上述分类，笔者考虑到科学性与实用性相兼顾的原则，在进行统计数质量评估时，首选应该是第一类方法，其次是第二类方法，而第三类方法自身的局限性较多，一般情况下不宜采用。

（二）评估方法的发展方向

为了更有效地进行统计数据质量的评估、提高统计数据质量管理工作的水平，笔者认为应进一步加深对统计数据质量评估方法的研究，近期主要应在以下方面寻求突破：

1.计量模型分析法方面。计量模型分析法从经济分析的角度入手，特别是从经济模型与统计数据能否相互支持与验证的角度展开对统计数据可信度的评估，可以说紧扣了统计数据如果可用、适用并且有用，即便可信与准确的认识或假设十分有利于促进统计数据质量的提高和统计数据功能的有效发挥。其后续的研究方向应该是：一方面，不断完善现有的评估方法，特别是其中应用面板数据模型和统计诊断理论的评估方法；另一方面，开发出更多、更有效的评估模型，如应用结构方程模型、状态空间模型等模型对统计数据质量进行评估。

2.核算数据重估法主要是物量指数重估法方面。应用相关指数理论从产出的实物量增长角度来计算实际经济增长率，充分体现了实际经济增长的内涵及其核算的主要目标，也是许多统计发达国家的实际做法。因此，无论是从改进经济增长率数据质量还是从促进统计国际接轨的角度出发，中国未来实际经济增长率计算方法的改革方向均应是物量指数法。围绕该方法的后续研究应该是不断放宽其假设条件，如采用链式指数或者时期链式指数等指数形式代替定基指数，针对主要产品的质量改进进行相应的质量调整等。

3.调查误差评估法方面。统计调查误差是影响统计数据准确性的最初始因素，它不仅可能给统计数据带来系统偏差，还会增大统计结果的不确定性程度。围绕该方法的后续研究应该包括事后质量抽查的应用和误差效应测量等方面。

4.多维评估法方面。统计数据质量的内涵由一维（准确性）向多维延伸是一种必然现象，而且不同数据用户对统计数据质量在各个维度的要求也有所不同。故该类方法将有较大的发展与应用空间，后续研究的重点应该是：如何开发出既能满足不同类型的数据用户的特定需求、又能对统计数据质量做出总体评价的多维评估方法，同时还有国际上成熟的评估体系（如DQAF）在中国的应用问题。

注释：

①值得指出的是：在应用经济模型研究统计数据质量的研究方面，这里划分的四类计量模型占据了绝对的主导地位，但也还存在少数的其他模型，如数据包络分析（杨冠琼，2006）和I-0产业感应度模型（宋瑞礼、任泽平，2009）等。

②在样本为时序样本时，如果评估结论为待评估指标的数据在评估集样本内不可信，那么这在某种程度上将直接推翻待评估指标的数据在训练集样本内基本可信的假设，因为通常训练集样本在前一段时期，评估集样本在后一段时期，且对于政府统计机构来说，其统计水平或能力是不断提高的，现在却都不能统计出可信的数据，以前的就更无法统计出可信的数据，除非是现在出现了人为造假而以前却没有。

③市场房租估算法是利用城镇居民住房每平方米的市场房租价格的平均值乘以所有城镇居民住房的使用面积，得到所有城镇居民住房按市场价格计算的房租收入，以此收入作为城镇居民住房服务的总产出，再参照房地产开发与经营单位的增加值率，计算出城镇居民住房服务的增加值；而成本估算法是用每平方米的平均造价乘以全国城镇居民住房总的建筑面积计算出全国城镇居民住房的固定资产价值，按4％折旧率计算虚拟固定资产折旧，并以此作为城镇居民住房服务的增加值。

④之所以是“在无意中”，是因为傅德印提出该方法时看中的是它的简单、实用以及能够在不毁坏其他原始数据的前提下而突出表现出极端数据或没有用处的数据等特性。

标签：参数估计论文; 统计模型论文; 参数检验论文; 解释变量论文; 可信区间论文; 关系逻辑论文; 经济论文; 增加值论文; 中国gdp论文;

统计数据质量评价方法研究综述_参数估计论文

猜你喜欢