突发公共事件统计中纵向缺失数据处理方法研究_大数据论文

公共突发事件应急统计中纵向缺失数据的处理方法研究，本文主要内容关键词为：纵向论文,缺失论文,事件应急论文,方法论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

公共突发事件下的应急统计工作涉及统计数据的搜集、处理、分析、评价、共享与发布等内容，其中，数据处理和分析是应急统计过程中非常重要的环节。缺失数据(Missing Data)在公共突发事件的应急统计数据分析中是一个非常普遍的问题，并在一定程度上危害数据分析结果的有效性[1]。在过去的20多年时间里，处理缺失数据统计方法是统计学研究中的一个活跃领域，人们针对这一问题提出了许多统计分析方法[2]，如基于完全记录单元的方法(Complete-Subject(Case)Analysis)[3]，基于EM(Expectation Maximization)算法的最大似然法[4]，单值借补方法(Single-Value Imputation)[5-6]，多重借补(Multiple Imputation,MI)方法等[7-9]。

国内外对于纵向数据集的缺失值处理方法的应用研究尚不多见，茅群霞、李晓松等研究了多重借补法MCMC模型在有缺失值的妇幼卫生纵向数据分析中的应用，但是没有将其与其他方法进行对比分析，也没有考虑在不同缺失率下的应用情况[10]。Peter Elliott、Graeme Hawthorne将六种缺失数据处理方法用于处理一类重复测量的数据，并认为最近邻匹配法借补(Closest Match)能得到较优结果，但是这些方法基本上都不适用于对多变量含缺失值的随机缺失数据集的处理[11]。Huson、Salgo运用LVCF法、基准值借补和多重借补等三种常见的方法对HIV1型病毒传染的两阶段治疗试验数据进行了缺失值处理，并认为结果无明显差异[12]。

本文针对公共突发事件应急统计数据的纵向数据集，提出用一种得分匹配法来进行缺失值的借补处理，并将其与另外三种缺失值处理方法进行比较，即构造各种不同缺失率的随机缺失数据集，分别采用四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理，得到相应的变量均值及其标准误等的估计值，并与完整数据集相应的变量均值及其标准误进行比较，从而对其借补效果进行评价。

一、资料与方法

（一）资料来源

本研究资料来自2008年中国民政统计年鉴，1991-2005年这15年间每年的因灾造成物资损失数据，其中完整数据的指标变量包括直接经济损失X1（亿元），倒塌房屋X2（万间），受灾面积X3（万公顷）。

由表1可以看出，在α=0.05的置信水平下，对每个变量各参数是否为0进行t检验，差异均有统计学意义；对每个变量进行Shapiro-Wilk（正态性）检验，只有X1近似服从正态分布，X2、X3呈偏态分布。

（二）借补方法

1.LVCF借补法。LVCF(last value carried forward)也称LOCF(last observation carried forward)，是处理含缺失值的纵向数据的常用借补方法之一，一般用于在首个时间点上无缺失值的情况，即在纵向数据中出现的缺失值用其之前的数据替代，其后的缺失数据依次采用这种方法来替代。

2.无条件均值抽取法。无条件均值借补(unconditional mean imputation)是常见的单值借补方法之一，它用所研究的变量的均值来代替该变量中的每一个缺失数据。该方法存在明显缺陷，会降低被替代变量可能的实际变异程度。无条件均值抽取法对上述方法进行了改进，它从缺失值的可能值的预测分布中随机地抽取借补值，而不是从这个分布的中心取值，也就是在已求出的借补值上加上一个服从相应分布的随机偏差。例如，对于服从正态分布的变量Y，表示其所有观测值的均值，表示基于完全个体Y的样本方差，则无条件均值抽取值为加上一个均值为0方差为的随机正态偏差。本文选用正态随机偏差，考虑到研究变量的偏态性，所以在用此方法处理前先对变量值进行对数变换。

3.多重借补法。多重借补方法由Rubin(1987)最早提出，它涉及用一系列（m个）合理的填充值代替每个缺失值，产生m个完全数据集，并对这m个完全数据集分别使用标准统计方法进行分析，然后结合这m个结果进行多重借补估计推断的方法。其理论基础是Bayesian理论，借补值通过重复下列两步获得。第一步：使用估计的平均向量和协方差矩阵，独立地对每个观察对象的缺失值进行模拟填充，例如用代表第i个观察对象有缺失值的变量，代表第i个观察对象没有缺失值的变量，然后从的后验预测概率分布中，抽取的借补值。第二步：利用第一步获得的“完全样本”，重新估计数据集的平均向量和协方差矩阵，然后把这些新的估计值，又重新用于第一步，这两步反复计算，直至迭代收敛，一个近似于缺失值的借补值才被抽取保存。

4.得分匹配法。在很多数据分析过程中，变量之间存在着某种相关关系，前述三种方法均没有考虑变量之间的相关性。根据所选公共突发事件应急统计数据的纵向数据集的变量特点，本文提出用一种得分匹配法来进行借补，该方法思路是：在包含完整数据的时点记录中，寻找与缺失数据时点记录中未缺失变量取值得分最接近的时点记录，然后用该完整时点记录中的对应变量值加上实际变异来进行借补。具体模型如下：变量，其中i=1,2,…,I;t=1,2,…，T分别表示变量个数和变量取值的时点数。假设缺失，则在拥有完整数据的记录中寻找一个t值，使得：

则借补值为：

表1 完整数据集统计分析结果表

其中表示根据第i个变量已观测数据计算出的标准差，变量在不同时点的取值差异的得分除以是为了消除不同变量的量纲差别。设定±的选择原则为：与使最大的的符号相反。

二、计算结果

对完整数据集，分别构造缺失率为10%、20%、30%、40%的随机缺失数据集，然后分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种方法对每一种缺失率的数据集缺失值进行处理，其中多重借补的借补次数参考OferHard的研究[13]。采用SAS9.1进行数据借补和统计分析，结果见表2至4。

表2 借补后X1的统计分析结果表

综合三个变量的处理结果，当缺失率为10%时，从变量均值来看，得分匹配法、INCF法处理结果以及MI借补25次后的结果基本无差别，均与完整数据集的分析结果较为接近；从变量标准误来看，得分匹配法、LVCF法处理结果与完整数据集的分析结果最为接近。当缺失率为20%，从变量均值来看，得分匹配法、LVCF法、均值抽取法处理结果以及MI借补25次后处理结果无明显差别；从变量标准误来看，得分匹配法、LVCF法、均值抽取法处理结果与完整数据集的处理结果较为接近。当缺失率为30%，从变量均值来看，得分匹配法、均值抽取法处理结果以及MI借补50次后处理结果与完整数据集的分析结果较为接近；从变量标准误来看，得分匹配法、均值抽取法处理结果与完整数据集的分析结果最为接近。当缺失率为40%，从变量均值来看，得分匹配法、LVCF法、均值抽取法处理结果以及MI借补50次后处理结果均与完整数据集的分析结果有明显差别；从变量标准误来看，得分匹配法处理结果与完整数据集的分析结果最为接近。

表3 借补后X2的统计分析结果表

三、研究结论

1.LVCF法在数据缺失率较小时处理数据有优势，操作简单。但这种方法会极大地弱化变量可能的实际变异程度：用前一个时间点的观测值代替缺失值不能反映出该变量的实际变异，其真实值往往不同于该替代值，从而使经处理后的变量变异的程度减小。因此随着缺失率的增加，LVCF法处理效果将迅速恶化。

2.均值抽取法与LVCF法相比，考虑了变量的实际变异，因此随着数据缺失率的增加，处理数据效果的稳定性较好，但是要依赖于可靠的预测分布的选取。

3.多重借补法有效地克服了单值借补方法的主要缺点，能产生较为准确的借补数据集，但因为考虑了缺失数据预测的不确定性，导致借补结果中变量的标准误过分放大，因此它更适用于比较复杂的缺失数据集。对于借补次数的选择也需要慎重考虑，由借补效率RE来看，当数据缺失率小于等于20%，借补25次时三个变量的借补效率均达到了0.99以上，增加借补次数至50次后结果反而不好；当数据缺失率增加到30%，借补25次时仍有变量借补效率低于0.99，此时可增加借补次数至50次。

表4 借补后X3的统计分析结果表

4.得分匹配法本质上属于一种热平台借补方法，与前述三种方法相比，它的优点在于考虑了变量之间的相关性，更加充分地利用了数据包含的信息，如研究资料中因灾造成物资损失的指标变量之间可能存在同向变动关系。另一方面，得分匹配法也考虑了含缺失值变量的实际变异程度。对于本文所采用的研究数据集，得分匹配法的处理结果与完整数据集的分析结果最为接近。但是，这种方法仍然属于单值借补方法，没有结合借补的不确定性，在面临复杂的缺失数据情况时，难以取得好的效果，例如遇到没有完整时点记录可用的情况或者是用于消除量纲差别的变量标准差与真实值相差太远的情况。

本文研究表明，对于多变量的纵向缺失数据的处理在方法的选择上一定要谨慎。当只有少数缺失值发生时，LVCF法简单而有效；随着缺失率的增加，均值抽取法和多重借补法处理效果更稳定；得分匹配法借补缺失值考虑了变量之间的相关性，最大程度地利用了数据集包含的信息，同时考虑了含缺失值变量的实际变异程度，因此取得了最好的借补效果。然而在面临复杂的缺失数据情况时，得分匹配法的有效应用尚待进一步研究。

标签：大数据论文; 数据抽取论文; 纵向研究论文; 变量论文;

突发公共事件统计中纵向缺失数据处理方法研究_大数据论文

猜你喜欢