未回答处理中的多重插值方法_大数据论文

无回答处理中的多重插补法,本文主要内容关键词为:插补法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、多重插补法的主要思想

无回答问题处理中的演绎插补法、均值插补法、回归插补法以及随机插补法等都属于单一插补法,即对每一无回答值只寻找一个插补值。Rubin在80年代初期以单一插补法为基础,提出多重插补法(multiple imputation)。其主要思想是,给每个无回答都构造m个插补值(m>1),根据每组插补值都产生一个完全数据集,这样,经过m次插补就可以产生m个完全数据集;对每组完全数据集使用标准的完全数据分析方法分别进行分析,得到m次分析结果;综合m次分析结果得出最终结论。

多重插补法的形式各异,但一般都要经过以下三个步骤,即:(1)插补(imputation);(2)分析(analysis);(3)合并(pooling)。(详见图1)

图1 对无回答的多重插补

(一)插补

在插补阶段,多重插补法对每个无回答都构造m个插补值,从而产生m个观察值和插补值共同组成的完全数据集。这是三个阶段中最为关键的阶段,插补结果直接影响统计推断的有效性。理想的多重插补一般都按照以下方案:每个插补模型,对无回答Y[,m]的m次插补,实际就是从Y[,m]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当?

显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。隐性模型被认为是潜在的隐含的“修补”特定数据结构的方法,比如非参数方法、最近距离法等。尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。例如,Herzog和Rubin曾在美国普查局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。

插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。可忽略的(Ignorable)模型假设具有相同X值的回答者和无回答者的差异都是随机的。不可忽略的(Non-ignorable)模型则假设即使具有相同的X值,回答者和无回答者之间的Y值具有系统差异。在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。

插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得出有效推论。例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽略了抽样变异性,即被抽取的相同X值的Y回答值与相同X值的总体Y值的随机差异性。要正确反映这种变异性,才能在既定无回答机制下得出多重插补的有效推断。利用近似贝叶斯靴环法(ABB)可以满足这一要求。在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,其中有n[,r]个回答者,n[,m]=n-n[,r]个无回答者。ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。这里从n[,r]个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。

(二)分析

使用标准的完全数据分析方法对每组完全数据集分别进行分析,得到m次分析结果。这一阶段不用考虑无回答问题,相对比较简单。

(三)合并

综合m次分析结果得出最终结论,比如计算m次分析结果的均值、方差、置信区间等。

假设表示对总体的某种估计(比如均值、回归系数等),表示相应的方差估计。多重插补后,对每个无回答数据产生m个插补值,则最后得到m套完全数据样本S[,1],S[,2],…,S[,m]。任意样本S[,i]的总体估计为,方差估计为U[,i],则多重插补的估计为:

多重插补的方差估计包括两部分:插补数据集内的方差和插补数据集间的方差。

插补数据集内的方差就是各数据集方差估计的均值:

插补数据集间的方差则是估计值本身的样本方差:

因此,多重插补的方差估计表示为:

二、单一插补法与多重插补法的比较

(一)单一插补法的优缺点

目前,单一插补法在项目无回答中应用非常广泛,它具有很多优点:(1)对无回答进行插补,在多数情况下可以降低单变量统计中的无回答偏差;(2)插补法通过一定的方式给无回答项目赋值得到一个完全的数据集,各种分析均可以在插补后的完全数据集上展开,这是加权调整法所不具备的优点;(3)当数据收集者与分析者是不同主体时,由于数据收集者更为理解无回答的产生过程,掌握更多的相关信息,因此由其进行插补,很可能要比使用复杂统计模型的数据分析者进行推断所得到的效果更好;(4)节省时间和精力,不必为不同的目的剔除不同的缺失项。

与多重插补法相比,单一插补法具有使用方便简单、成本较低等显著优点。但是,单一插补法也有很多缺点,主要是:(1)无回答是未知的,但在对插补后的数据进行分析时是把插补值视为真实数据处理,因而插补值的插补误差可能会导致估计值的偏差;(2)即使已明确无回答的产生机制,由于单一插补没有考虑无回答的变异性,最终的分析也会低估变异性;(3)采用插补数据代替无回答,可能会歪曲反映变量的分布和变量间的关系,尤其是在利用均值插补、热层方法、距离函数和确定性回归等方法,进行与变异性密切联系的数量关系的分析(例如相关性分析)时,可能会导致有偏估计。

(二)多重插补法的优势

多重插补法比单一插补法具有显著优势。多重插补法弥补了单一插补法的主要缺点,在功能上有了很大的提高。归纳起来,多重插补法的优势在于:(1)多重插补法可以利用插补值之间的变异反映无回答的不确定性。这种不确定性既包括无回答原因已知情况下抽样的变异性,还包括无回答原因不确定情况下所造成的变异性。(2)单一插补的一个重要缺陷是在把插补数据当作调查数据处理时导致对准确性的过高估计,而多重插补对于插补后的数据,可以提供合理估计的抽样误差。多重插补是进行误差估计的一个有效方法。(4)单一插补可能会扭曲变量间的关系,进而导致有偏估计,而多重插补能够保持变量间的相关性。(5)多重插补的适用条件放宽,应用范围更加广泛。许多单一插补方法都要求较低的无回答率或者完全随机无回答机制,现实中这种情况较少见。多重插补则在较高无回答率和随机无回答机制下都可能获得较好的估计。(6)多重插补有利于进行不同插补方法的比较。多重插补可以采用不同的插补方法构造缺失数据插补集,然后对每个插补集的估计结果进行比较,观察不同插补方法对分析结果的影响。(7)多重插补数据可以模拟特定方法下估计值的分布以及总体参数的贝叶斯后验分布,以便更好地理解和进一步改进插补方法。

三、对多重插补法的进一步讨论

随着多重插补理论的发展及其在实践中应用的逐步扩展,一些人对多重插补方法提出了批评与疑问。这些意见主要可归为两大类,即批评一:怀疑重复插补推断的有效性。有人提出,多重插补法使用模拟数据进行推断,其结果不能被接受,并且,模拟过程还增加了随机噪音。批评二:多重插补在操作上非常困难,操作过程复杂、工作量大、需要大量多余的数据存储空间等,因此,即使多重插补的推断质量有所提高,相对于提高的质量付出的成本更大。其实,这两类批评都是无法成立的。首先,多重插补并不是要通过模拟数据创造信息,而是再现观察的有效信息,从而能够使用只针对完全数据的工具进行有效分析。当然,即使是采用有限次插补所带来的随机噪声也是因此而付出的代价。因此,批评一不成立。其次,批评二也是不成立的,理由如下:(1)插补集的数量不必很多,多重插补就会带来收敛,从而可以得到一致性估计和真实的推论(注:Rubin等人1986年进行的一项研究表明,在项目无回答率中等程度的情况下,对研究变量而言,有两组插补值就可以了,如果有三组就可以满足更高的项目无回答率。)。当然,如果无回答比例较大,插补的重复次数也必须增加才能得到真实的推论。但是,一般的实际调查中,无回答率往往并不是很高。(2)多重插补其实简化了数据使用者的工作。许多调查中,数据收集者与使用者是不同的主体。由于多重插补工作都是由数据库构建者完成,使用者只需直接利用标准方法进行分析即可,因此,多重插补法实际上是简化了数据使用者的工作。(3)计算机技术的发展使得多重插补法具有简单易行的发展趋势。事实上,随着计算机技术的突飞猛进,硬件设备的计算能力已不成问题,而且越来越多的专门的软件,可以很容易地进行多重插补并对经过多重插补的数据进行分析。

当然,相对来说,多重插补的工作量大于单一插补。但是,在无回答率适当的情况下,多重插补只需插补较少次就可以达到收敛,这时工作量上的难度并不算大。即使在无回答率较高的情况下,较少次插补的结果可能不会令人满意,但此时进行单一插补的效果可能会更差。根据Rubin对插补模型适当性的要求,通常使用的单一插补方法都是不适当的,但在现实中,许多统计机构钟情于单一插补法而不是多重插补,主要是因为存贮、处理多重插补数据集的成本要远远高于单一插补成本,这一点在大规模调查中尤为突出。

近年来,对无回答(缺失数据、不完全数据等)的分析越来越多,使用的统计方法也越来越前沿。目前,无回答处理技术有了很大的改进,而且距离一般数据分析者也越来越近。在这些新技术当中,多重插补法因其有效性和普遍适用性尤为引人注目。

当然,多重插补绝非当然处理无回答数据的唯一工具,还有一些统计软件已开始在建模的同时直接考虑无回答数据的处理。这些程序与多重插补法一样对缺失数据的预测分布进行平均,但它们使用的不是模拟技术而是解析和数学的方法(注:如全信息极大似然估计法(FIML,Full Information Maximum Likelihood Estimation)和结构方程模型法(Structural Equation Modeling Approach)等。),可以对完全数据或不完全数据直接进行极大似然估计。在达到一定样本量的条件下,这种直接进行的极大似然估计与多重替代法的结果趋向一致。并且,由于这种方法不依赖于模拟,其效果可能还会优于多重插补法。然而,这种方法最大的缺点是计算复杂,对每种模型都要执行特定的程序。相比之下,多重插补法的适用性就广阔得多,适用各类模型。

总的来说,多重插补法在调查无回答数据的处理方面具有较好的发展前景。

四、无回答插补调整原则(注:Roderick J.A.Little,Missing-data adjustments in large surveys,Journal of Business&Economic Statistics,July 1988,Vol.6,No.3.)

相对于其他处理方法,无回答的插补调整特别是多重插补具有很大的优势和良好的应用发展前景。但是,使用插补法也不可避免地会带来一些问题。插补后的完全数据集并非真实完全数据集,但是许多使用者在进行分析时都把它看作真实数据处理,从而可能会导致估计偏差。而且,插补法并不能保证由插补后的完全数据集求得的估计量一定比由原数据集求得的估计量偏差小,事实上该偏差可能会更大,它取决于插补方法的选择以及进行插补时的前提假设与真实情况的近似程度。

因此,在使用插补技术时应格外慎重,错误的插补比不插补还要糟糕。例如,一个变量的样本均值插补结果与丢弃不完全样本后所估计的总体均值是一样的。而且,前者还会带来一个相关的标准误差。这一标准误差的性质较差,因为它是建立在高估的样本规模上的。为了避免这些错误,需要制定并遵守一定的插补原则。

(1)对插补后的数据一定要定义一个变量,以标识出插补值。这样处理一方面便于估计插补法的影响,另一方面也便于不同的分析人员按自己的设想采用不同的插补方法,重新定义插补值代替原插补值,使得数据处理更具灵活性。并且,数据提供者还应将调整过程的操作特点告诉使用者,以明确其局限性。

(2)插补模型的选择,应以分析目的为依据。在研究分布问题时,插补应注意尽量保持原样本的分布,即预测值中要加入随机误差。当然,如果分析的主要目的在于均值或总和估计,加入随机项则是不太有效的。

(3)插补时应考虑到样本中所有已观测到的项目。利用一个样本中所有的项目可能是不现实的,特别是在大型调查中尤其如此。因此在实际工作中,需要根据对研究主体的认知对项目加以选择。正确的使用辅助信息可以得到更精确的预测,但遗漏重要变量可能会歪曲估计结果。

(4)每一个无回答调整模型都对应一定的假设前提,预测模型应尽量避免超出这一数据范围过度外推,除非有客观证据证明这些方法的有效性。例如,很多无回答机制在实际中是非随机的,而处理中许多模型都建立在简单随机假设之上。由于这些方法太多地依赖于不能验证的假设,因此对它们实际效果的评价不能象有些作者评价得那么高。

(5)给定已观测样本,则插补应建立在对无回答数据分布预测的基础上。一个系统的插补方法应对数据建模,而一个模型表明一个分布,插补的性质取决于潜在模型的性质。

最后需要指出,无回答的调整方法很多,选择时应慎重,需要在充分了解和掌握数据情况的前提下,具体情况具体分析,寻找到在当前条件下最适宜的方法。对于各类插补,共同的目的在于使不完全样本的已有信息得到最佳利用。

标签:;  ;  ;  ;  ;  

未回答处理中的多重插值方法_大数据论文
下载Doc文档

猜你喜欢