基于REML方法和贝叶斯方法的小样本不平衡单因素随机效应模型方差分量估计的仿真与比较分析_随机效应模型论文

REML法和Bayesian法对小样本不平衡单因素随机效应模型方差成分估计的模拟比较分析，本文主要内容关键词为：方差论文,不平衡论文,样本论文,效应论文,成分论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

引言

随机效应模型在医药、生物、经济领域中的数据分析中经常可见[1]。例如，应用随机效应模型来评价职业紧张研究的个体效度，即量表是否反映了个体特征，以及个体是否如实完成了问卷的效度评价。在遗传流行病的病因学研究中，目前主要考虑的是遗传和环境因素共同作用的结果，利用随机效应模型可以定量地评价遗传因素和环境因素对数量表型性状的作用。在临床研究中，例如多中心临床试验，由于同一中心内的个体存在某些共同特征。如医疗水平、病人病情、生活习俗、地理环境、经济文化、气候等，使得同一中心内不同个体间存在一定程度的相关性，而不同中心的个体这些因素可能不尽相同[2]。在多中心临床试验中，可以把中心的水平当作随机效应用随机效应模型来模拟分析，因为随机效应模型的拟合既考虑了中心水平的差异，而且考虑了个体之间的差异，因此相对来说分析的结果更加的可靠和准确。

在职业安全评价方面的研究中，某研究者想了解，某一石油化工厂所有女性工人苯的内暴露的平均值是否超过了国家的职业接触限值。随机地从该厂中抽取3个生产车间，并分别从3个车间中随机地抽取共13名女工，取尿中粘康酸(tt-MA)作为苯的生物学检测指标。该研究旨在用粘康酸作为苯的生物学检测指标来了解所有生产车间女工的苯的内暴露情况[3]。本次研究中由于生产车间是随机抽取的，生产生间存在随机波动，考虑生产车间对总体估计的影响，并且同一车间的女工之间存在相关性，把生产车间作为随机效应来拟合随机效应模型分析，可以提高参数估计的可靠性。

在上述的例子中，在模型的建立过程中，首先对方差成分分析是非常必要的。如果方差成分没有很好地分析和充分地考虑，模型的准确性会受到影响，同时参数的估计可能是有偏的[4]。由于方差成分估计值的准确性会直接影响到固定效应及其标准误的估计，因此，准确地估计方差成分是很重要的。关于随机效应模型的方差成分估计已经有很多的方法，如极大似然估计(MLE)、限制极大似然估计(REML)、最小方差二次无偏估计(MIVQUE0)、贝叶斯估计(Bayesian)等。其中限制极大似然估计(REML)最初是由Patterson和Thompson提出的，方差参数估计是一致性的[5]。方差参数的估计受到样本大小的影响。在多中心临床试验中同一中心内不同个体间存在一定程度的相关性，其相关性的大小也可能对方差参数的估计产生一定的影响。方差成分估计值的准确性还取决于被用于分析的中心数量，同时要考虑数据结构。同样的道理，在上述的例子中，对其方差成分估计时，生产车间的数量和每个车间的女工个体之间存在相关性，以及样本大小和数据的平衡情况都有可能对其产生影响。

本文主要通过计算机模拟来分析和比较限制极大似然法和贝叶斯法对不平衡单因素的随机效应模型方差成分估计的精确程度的影响，同时比较样本量的大小、单位的数量、单位内相关系数的大小对估计准确性的影响。

一、原理和方法

单因素随机效应模型：

用SAS软件对每一组设计按参数值均按(1)式重复模拟10000次，得到7种不同的设计的数据集并进行分析。SAS软件的MIXED模块分别用限制性最大似然法和贝叶斯法对方差成分进行估计。方法评价从两个方面：点估计和区间估计。点估计通过计算方差估计值距真值的偏差和估计的标准差；区间估计通过计算估计可信区间对真值的覆盖率和可信区间宽度值来评价。

二、模拟结果

不同设计的数据集的组间方差的估计结果见表1。限制极大似然估计出现方差为零，但是贝叶斯估计没有出现方差为零。对于限制极大似然估计而言，当样本量增加一倍时，零估计的百分比减少40%左右。单位的数量增加，零估计百分比也不断减小，单位数由6增加到10时，减少的比例要小于3增加到6的情况。ICC增加时，零估计的百分比也在减少。在样本量较小，单位数比较少和ICC比较小时会导致更多的零估计。

表1 REML和Bayesian对组间方差的估计比较

*：偏差＝估计值均数－真值；覆盖率是指估计的95%可信区间包含真值的比例；ICC表示单位内相关系数；设计15(3,5,7)表示样本量为15，共有三个单位，每个单位的个体分别为3,5,7，下同。

关于区间估计的比较，从95%可信区间覆盖率来看，REML估计比Bayesian估计稍微接近95%，除了在ICC等于0.1时，因为受零估计的影响，ICC为0.1时的零估计比例为38.8%。但是从95%可信区间的宽度中位数来看，REML估计的可信区间不可靠，其95%可信区间的宽度中位数都比Bayesian估计的要大，特别是当ICC等于0.1时，95%可信区间的宽度中位数远远大于Bayesian估计。在ICC等于0.9时，REML估计的95%可信区间的宽度中位数比较接近Bayesian估计。

关于点估计的比较，本次模拟结果可知从偏差(bias)看，限制性最大似然法比贝叶斯法对组间方差的估计更加接近真值，Bayesian估计的偏差都比REML估计的要大。当ICC等于0.5，REML估计的百分偏差在2.5%至24.0%的范围内，而Bayesian估计的百分偏差在11.0%至67.0%的范围内。当ICC等于0.1时，REML和Bayesian估计的百分偏差最大，分别为102%和190%，而ICC等于0.9时；REML和Bayesian估计的百分偏差分别为1.6%和45.4%，都比ICC等于0.1和0.5时的百分偏差要小。随着ICC的增加，REML估计和Bayesian估计的百分偏差都逐渐减小。随着样本量的增加和单位数的增加，REML估计和Bayesian估计偏差都逐渐减小。

比较REML和Bayesian对各种设计组间方差估计的标准差，REML估计的标准差都要小于Bayesian估计。随着样本量和单位数量的增加，两种方法估计的标准差都不断减小，而单位数量的增加对标准差的减小更有影响力。随着ICC的增大，REML估计的变异系数没有明显变化趋势，分别为101.2%，100.2%和100.4%。而Bayesian估计在ICC为0.1时的变异系数为86.2%，ICC为0.5和0.9时变异系数分别为104.1%和101.4%。综合偏差和标准差两方面计算的均方误差（MSE：偏差和标准误的平方和）来看，REML估计的MSE都比Bayesian估计的要小。

对组内方差的估计见表2，关于不同的设计对方差估计的影响，贝叶斯估计和限制极大似然估计基本相同，两种方法估计的准确性很接近，估计值近乎是无偏的。REML和Bayesian估计的95%可信区间覆盖率都接近95%。REML和Bayesian估计的可信区间的宽度均值都很接近，两者估计的标准差也很接近。ICC从0.1增加到0.9，REML和Bayesian估计的百分偏差都逐渐减小。当ICC等于0.5，REML估计的百分偏差在0.1%至11.0%的范围内，而Bayesian估计的百分偏差在0.03%至26.0%的范围内。

表2 REML和Bayesian对组内方差的估计比较

三、讨论

在两阶段随机抽样的研究中，这些数据都呈现了层次结构。例如，在几个随机选择的中心进行的临床试验。如上述的叙述中，在职业评价过程中，先随机抽取几个生产车间，然后从生产车间中分别随机抽取不同的工人来参加研究。在以前的研究中往往忽略了层效应，即没有考虑车间之间的随机波动。对这些层次结构的数据可以考虑用随机效应模型来对参数估计，提高参数估计的准确。本研究主要为不平衡数据结构的数据，通过计算机模拟实验，比较近几年发展起来的常用统计软件SAS中采用MIXED模块的REML法和Bayesian法在不同设计中对模型的方差成分估计。

本研究中，Bayesian法对方差成分估计是通过SAS的MIXED过程实现的，默认以Jeffreys（杰弗莱）原则定义的无信息先验分布，然后很方便地进行模型参数估计得到后验分布，并可以求出参数值的可信区间进行描述。Jeffreys先验分布对于单参数估计的情况很有用，但是在多参数情况下会出现问题。对随机效应方差可信区间的求解一直是经典统计方法的难题，但是Bayesian法通过模拟参数的后验分布，可以很容易获得参数的统计描述。

本研究过程中REML法对方差估计值出现了零，而在Bayesian估计没有出现零值，Bayesian估计相对准确。关于组间方差成分估计出现等于零的情况，是因为方差成分估计为负的，建立模型过程中自动将其保留并把方差成分设为零。贝叶斯方差成分估计不会出现负的方差成分，也就是结果不会出现零值的情况[6]。同时试验表明：REML和Bayesian法都可用于该模型的参数估计，但是REML法在结果输出方面有一定的局限性，表现为REML对参数估计的可信区间不可靠，而Bayesian法可以给出比较可靠的可信区间。在本实验参数指定的条件下，两种方法对方差成分估计的结果都与真值比较接近，尤其是组内方差的估计，几乎是无偏的。样本量的增加，估计的准确性不断的提高。当单位数为6时两种方法估计的准确性比较高，在多中心临床试验中，有学者提出中心数为5时比较合适。本研究结果提示在小样本不平衡结构数据，关于单因素随机效应模型方差成分估计，REML估计法的效率和精密度要好于Bayesian法。

标签：随机效应模型论文; 样本方差论文; 总体方差论文; 可信区间论文; icc论文;

基于REML方法和贝叶斯方法的小样本不平衡单因素随机效应模型方差分量估计的仿真与比较分析_随机效应模型论文

猜你喜欢