重复测量数据混合模型及其混合过程混合线性模型及其SAS软件实现_线性模型论文

重复测量数据的混合模型及其MIXED过程实现——混合线性模型及其SAS软件实现，本文主要内容关键词为：模型论文,线性论文,测量论文,过程论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

在系统结构数据中有很多的数据属于重复测量数据(Repeated measures data )和纵向数据(Longitude data)，如临床药物疗效在不同时间点观测其疗效、少儿卫生中儿童生长发育的追踪调查等。由于这类数据存在自相关性及随机误差分布于不同的层次，实践中不宜采用常规方法分析。针对一元的重复测量数据已有较多的研究应用，多元的情形也日趋完善。其分析方法可采用方差分析和模型拟合的方法。前者应用较多，并有系统的研究工作[1]，该方法难于如线性模型一样对各因素给予直观的参数估计，而且比较某因素均数的差别时，往往只考虑了固定效应，而忽略了随机效应的存在，这样做显然会损失许多信息，是不合理的。另外数据不等距、不平衡及缺失值的处理也是一个缺憾。分析软件有SAS的GLM及专业软件REP等。近些年，Goldstein等采用多水平模型及其MLN/MLwiN软件为分析重复测量数据提供了有力的工具[1,2]。

SAS博采众长，提供的MIXED过程对重复测量数据，无论方差分析或模型拟合方法及存在的某些问题，针对不同的设计类型，在MIXED模块中都尽可能地得到了解决。而且较GLM有更完善的理论基础、更强的功能、更灵活便捷的操作及更可信的结果[3]。本文针对重复测量数据在方差分析基础上，重点对模型拟合的方法做系统的应用研究。

一、模型与语法

重复测量数据的随机误差来自于不同层次，如何通过模型来定义其层次结构？以较为常见的裂区试验设计为例，假设资料包括两个实验因素A、B，则相应模型表示为：

式中μ为均数，α、β（αβ）为A、B及其交互作用的固定效应，u、e为随机效应。当B为时间因素时，即为重复测量数据，使得数据不独立，存在自相关。采用常规方差方法须满足齐性和球对称条件，或者采用多元分析方法，如混合模型（多水平模型、随机效应模型等）。在此重复测量因素为观察时间，则二水平的聚集单位为个体，水平一单位为各时间点上的观察值。

重复测量数据的分析与一般混合线性模型一致，但在理解和分析目的上有所不同。比较而言，前者要复杂些，在MIXED过程中，根据不同的结果需求可选择ESTIMATED 、LSMEANS、RANDOM、REAPTED等语句实现重复测量数据的分析。

二、实例分析

将24只动物（编号为G）随机分为对照、PC、AD.P和AD.T四组（以A表示），测量缺血再灌注中HR在缺血前、缺血后5、15、30、60分钟（以T表示）的变化，见表1。

表1　缺血再灌注中HR的变化

例号缺血前　5′

15′

　30′　60′

　1　125

125

120

　134　134

　2　115

108

118

　128　118

对照组

:　:

　6　115

126

120

　126　122

　1　120

120

　115　120

　2　137

127

117

　127　114

　PC组

:　:

　6　135

110

114

　122　110

　1　135

108

107

　108　118

　2　125

109

126

　126　128

　AD.P组　:　:

　6　134

108

　108　104

　1　125

102

108

　117　118

　2　125

106

110

　116　136

　AD.T组　:　:

　6　124

102

98108　108

该数据具有裂区设计的特点，文献[4]进行了多水平模型分析。由于数据在时间点上的重复测量，使得数据不独立，具有相关性，且误差分布于不同层次，不能满足常规方差分析的要求。本文利用MIXED过程进行混合线性模型再分析。

为检验数据是否满足Huynh-Feldt条件，在REPEATED语句中，分别用TYPE =HF与TYPE =UN(Unstructured)进行了分析，观察其似然比变化，结果显示：Chi-Squre=43.7443，v=9，P＜0.0001（非结构型协方差矩阵的自由度为15；HF条件下，自由度为6，因此上者自由度为9），说明数据不满足Huynh-Feldt条件，不宜采用常规裂区方差分析方法进行统计分析。因此对数据拟合非结构型协方差矩阵，见表2。

表2　重复测量分析结果

表2中依次为协方差矩阵、模型有关统计量、固定效应估计值及其假设检验。无效模型(NUll Model)的似然比检验(LRT)Chi-Squre=57.43，v=14，P=0.000说明非结构型协方差矩阵要优越于普通常方差的最小二乘法估计。自由度为14表示前者15个协方差估计值与后者1个估计值之差。结果显示：不同组及不同时间点的HR变化具有显著性差异。

将分组变量(A)转换为虚拟变量拟合随机效应模型，随机部分引入T和A[,2]的方差、协方差。拟合结果见表3。

表3　随机效应模型分析结果

表3结果显示，分组及时间均具有显著性。而且随机效应估计值提示，在A[,2]组的时间效应在每个个体的变化有所不同，分析结果与文献[4]一致。

由于本例为裂区设计的结构，时间T是嵌套在A因素下的，因此更合理的分析应做如下定义（结果略）：

model hr=ata*t/s；

从而可确定A、T之间是否存在交互效应。

三、小结

对于普通裂区方差分析，采用MIXED对模型可直接定义为：

model hr=ata*t；

random gt *g；

或random intercept t/sub=g；

无须GLM中使用的TEST语句，使用简洁。

在重复测量分析中，可以使用TYPE=UN与HF检验数据是否满足Huynh-Feldt条件。也可利用VC(Variance compents)、AR(1)拟合模型。与GLM不同的是，由于对多数重复测量模型SUB指定了区组及TYPE定义了协方差结构，REPEATED之后不必指定重复效应。另外LSMEANS、ESTIMATE、CONTRAST与GLM相似，本文不再赘述，但在估计均数时MIXED还考虑了随机效应部分，结果更可信。

在模型中定义了未知的协方差结构，因此估计方法采用了ML，而非REML。

当小样本时，结果中的Z统计量并不可靠，这时可通过-2Log Likelihood的变化来考察参数显著性。

本文随机效应模型的结果与文献[4]的估计值略有出入，是由于MIXED与MLN算法及计算时所要求的精度不同造成的。MIXED迭代精度达到1E-08，且收敛快。对文中数据笔者用MLN，当提高精度(1E-04)时则需要上百次迭代。两者是否都是无偏估计，有待进一步探讨。另外MIXED还可有效地分析不等距、有缺失值等重复测量数据。

标签：线性模型论文; 软件过程论文; 协方差论文; 方差论文;

重复测量数据混合模型及其混合过程混合线性模型及其SAS软件实现_线性模型论文

猜你喜欢