重复测量数据混合模型及其混合过程混合线性模型及其SAS软件实现_线性模型论文

重复测量数据的混合模型及其MIXED过程实现——混合线性模型及其SAS软件实现,本文主要内容关键词为:模型论文,线性论文,测量论文,过程论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在系统结构数据中有很多的数据属于重复测量数据(Repeated measures data )和纵向数据(Longitude data),如临床药物疗效在不同时间点观测其疗效、少儿卫生中儿童生长发育的追踪调查等。由于这类数据存在自相关性及随机误差分布于不同的层次,实践中不宜采用常规方法分析。针对一元的重复测量数据已有较多的研究应用,多元的情形也日趋完善。其分析方法可采用方差分析和模型拟合的方法。前者应用较多,并有系统的研究工作[1],该方法难于如线性模型一样对各因素给予直观的参数估计,而且比较某因素均数的差别时,往往只考虑了固定效应,而忽略了随机效应的存在,这样做显然会损失许多信息,是不合理的。另外数据不等距、不平衡及缺失值的处理也是一个缺憾。分析软件有SAS的GLM及专业软件REP等。近些年,Goldstein等采用多水平模型及其MLN/MLwiN软件为分析重复测量数据提供了有力的工具[1,2]。

SAS博采众长,提供的MIXED过程对重复测量数据,无论方差分析或模型拟合方法及存在的某些问题,针对不同的设计类型,在MIXED模块中都尽可能地得到了解决。而且较GLM有更完善的理论基础、更强的功能、更灵活便捷的操作及更可信的结果[3]。本文针对重复测量数据在方差分析基础上,重点对模型拟合的方法做系统的应用研究。

一、模型与语法

重复测量数据的随机误差来自于不同层次,如何通过模型来定义其层次结构?以较为常见的裂区试验设计为例,假设资料包括两个实验因素A、B,则相应模型表示为:

式中μ为均数,α、β(αβ)为A、B及其交互作用的固定效应,u、e为随机效应。当B为时间因素时,即为重复测量数据,使得数据不独立,存在自相关。采用常规方差方法须满足齐性和球对称条件,或者采用多元分析方法,如混合模型(多水平模型、随机效应模型等)。在此重复测量因素为观察时间,则二水平的聚集单位为个体,水平一单位为各时间点上的观察值。

重复测量数据的分析与一般混合线性模型一致,但在理解和分析目的上有所不同。比较而言,前者要复杂些,在MIXED过程中,根据不同的结果需求可选择ESTIMATED 、LSMEANS、RANDOM、REAPTED等语句实现重复测量数据的分析。

二、实例分析

将24只动物(编号为G)随机分为对照、PC、AD.P和AD.T四组(以A表示),测量缺血再灌注中HR在缺血前、缺血后5、15、30、60分钟(以T表示)的变化,见表1。

表1 缺血再灌注中HR的变化

例号缺血前 5′

15′

 30′ 60′

 1 125

125

120

 134 134

 2 115

108

118

 128 118

对照组

: :

 :

 ::

:

 6 115

126

120

 126 122

 1 120

120

120

 115 120

 2 137

127

117

 127 114

 PC组

: :

 :

 ::

:

 6 135

110

114

 122 110

 1 135

108

107

 108 118

 2 125

109

126

 126 128

 AD.P组 : :

 :

 ::

:

 6 134

108

108

 108 104

 1 125

102

108

 117 118

 2 125

106

110

 116 136

 AD.T组 : :

 :

 ::

:

 6 124

102

98108 108

该数据具有裂区设计的特点,文献[4]进行了多水平模型分析。由于数据在时间点上的重复测量,使得数据不独立,具有相关性,且误差分布于不同层次,不能满足常规方差分析的要求。本文利用MIXED过程进行混合线性模型再分析。

为检验数据是否满足Huynh-Feldt条件,在REPEATED语句中,分别用TYPE =HF与TYPE =UN(Unstructured)进行了分析,观察其似然比变化,结果显示:Chi-Squre=43.7443,v=9,P<0.0001(非结构型协方差矩阵的自由度为15;HF条件下,自由度为6,因此上者自由度为9),说明数据不满足Huynh-Feldt条件,不宜采用常规裂区方差分析方法进行统计分析。因此对数据拟合非结构型协方差矩阵,见表2。

表2 重复测量分析结果

表2中依次为协方差矩阵、模型有关统计量、固定效应估计值及其假设检验。无效模型(NUll Model)的似然比检验(LRT)Chi-Squre=57.43,v=14,P=0.000说明非结构型协方差矩阵要优越于普通常方差的最小二乘法估计。自由度为14表示前者15个协方差估计值与后者1个估计值之差。结果显示:不同组及不同时间点的HR变化具有显著性差异。

将分组变量(A)转换为虚拟变量拟合随机效应模型,随机部分引入T和A[,2]的方差、协方差。拟合结果见表3。

表3 随机效应模型分析结果

表3结果显示,分组及时间均具有显著性。而且随机效应估计值提示,在A[,2]组的时间效应在每个个体的变化有所不同,分析结果与文献[4]一致。

由于本例为裂区设计的结构,时间T是嵌套在A因素下的,因此更合理的分析应做如下定义(结果略):

model hr=ata*t/s;

从而可确定A、T之间是否存在交互效应。

三、小结

对于普通裂区方差分析,采用MIXED对模型可直接定义为:

model hr=ata*t;

random gt *g;

或random intercept t/sub=g;

无须GLM中使用的TEST语句,使用简洁。

在重复测量分析中,可以使用TYPE=UN与HF检验数据是否满足Huynh-Feldt条件。也可利用VC(Variance compents)、AR(1)拟合模型。与GLM不同的是,由于对多数重复测量模型SUB指定了区组及TYPE定义了协方差结构,REPEATED之后不必指定重复效应。另外LSMEANS、ESTIMATE、CONTRAST与GLM相似,本文不再赘述,但在估计均数时MIXED还考虑了随机效应部分,结果更可信。

在模型中定义了未知的协方差结构,因此估计方法采用了ML,而非REML。

当小样本时,结果中的Z统计量并不可靠,这时可通过-2Log Likelihood的变化来考察参数显著性。

本文随机效应模型的结果与文献[4]的估计值略有出入,是由于MIXED与MLN算法及计算时所要求的精度不同造成的。MIXED迭代精度达到1E-08,且收敛快。对文中数据笔者用MLN,当提高精度(1E-04)时则需要上百次迭代。两者是否都是无偏估计,有待进一步探讨。另外MIXED还可有效地分析不等距、有缺失值等重复测量数据。

标签:;  ;  ;  ;  

重复测量数据混合模型及其混合过程混合线性模型及其SAS软件实现_线性模型论文
下载Doc文档

猜你喜欢