亚健康人群分类及其临床特征分析&基于数据挖掘过程的Logistic回归方法研究_数据挖掘论文

亚健康人群分类及其临床特征分析与评价——基于数据挖掘流程的Logistic回归方法的研究，本文主要内容关键词为：亚健康论文,数据挖掘论文,人群论文,特征论文,流程论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

数据挖掘方法从诞生开始，就一直是活跃在各个科研和应用领域，怎样将数据挖掘和传统统计结合使用，发挥各自的长处，找到好的结合点，是值得探讨的问题。受社会竞争加剧，工作压力加大，心理负担加重及不良情绪干扰等因素的影响，亚健康状态的发生率日益增多，不仅影响人们的生活质量，还与多种常见病、多发病的发生发展密切相关。但由于亚健康状态概念宏观模糊，与正常和疾病状态难以明确界定，给临床干预研究带来困难。本文应用数据挖掘流程以及使用Logistic回归建模方法，对亚健康状态的流行病学调查数据进行分析，建立了亚健康状态判断模型，现报道如下：

一、材料与方法

（一）资料来源

本组资料来源于2003年3～10月对北京市不同行业的居民进行的调查，发放亚健康状态中医基本证侯流行病学调查[1]问卷4000份，回收问卷3676份，合格问卷3624份。

（二）研究标准

(1)被调查者纳入标准：①符合本课题的亚健康专家诊断标准[2]，②年龄35～55岁，③愿接受调查。

(2)合格问卷的判断标准：①一般信息中除地址和联系方式外的项目必须填写，②再次排除有疾病诊断者，③全部问题条目的缺失和漏填不超过5‰。

(3)问卷排除标准：①不符合纳入标准者，②患有心脑血管、糖尿病、肿瘤等重大疾病，③患非重大疾病但需用药维持者，④不愿合作者。

(4)排除疾病的方法：调查前统一进行体检，包括：血尿常规，血脂，血糖，乙型肝炎病毒检测，肝肾功能，心电图，B超等项目，由各三级医院体检中心医师负责排除疾病诊断。

（三）研究目的与方法

(1)研究目的

一是亚健康分类模型的建立，即从初步分类的数据集中抽象出一个分类模型，该模型能够很好地拟合当前分类结果并能够解释其意义，对未知的人群分类具有指导作用，具有预测意义，这是数据挖掘最通用的目的之一。二是亚健康影响因素分析，即从亚健康的56个症状变量中筛选出重要的影响因素，为亚健康诊断和亚健康量表的设计打下基础，这使得模型必须对实践具有指导和解释意义。

(2)统计学方法—基于数据挖掘流程的logistic回归模型

根据数据挖掘的流程，在对数据进行充分理解的基础上，首先从众多冗杂的变量中进行清理工作，挑选出符合我们分析目的的重要变量，然后将事先分出的实例作为训练集，选择logistic回归模型建模，然后将模糊人群或新的待分类人群变量代入模型中进行分类，本文在已确定好的2613例典型亚健康人群上进行模型的估计，最终将训练好的模型进行部署，应用到新的数据中，在这里即对模糊人群进行回判，最终达到将全体人群进行分类的目的。

模型训练过程：首先将全部2613例按7:3的比例随机分为训练集（1830例）和测试集（783例），在训练集上训练模型，在测试集上对模型准确性进行测试。

变量选择方法：在模型训练中，变量的选取非常重要，过多的变量可以导致模型过度拟合的可能性增加、计算时间过长、破坏参数估计的稳定性、共线性可能增加等，因此，对于上述情况，常用变量降维的方法如主成分法、变量聚类法等解决，本文中所用的是综合各方面考虑的更为全面的一种新方法，不仅仅是单独使用一种方法，而是根据需要几种方法结合应用，建模和数据处理流程图如图1所示（图略，参见原文）。

(3)研究辅助工具

所有程序均在SAS8.2中通过编程实现。

二、过程及结果

按图1所示建立的基于数据挖掘流程的logistic回归模型详细过程及相关结果解释具体如下。

（一）数据预处理-变量降维

(1)使用相关系数对变量降维：使用相关系数法排除与目标变量相关性低的变量。主要有以下三种方法：皮尔逊相关系数法（此方法对于异常值和非线性的情况敏感）、采用Spearman相关系数法（此方法对于异常值和非单调的情况敏感）和Hoeffiding统计量（对有着多种关系的观测变量敏感），鉴于本文研究的问题并非线性回归方程，因此采用后两种方法计算相关性，并删除两种相关系数的P值皆大于 0.45的变量（如：B18吃饭有无规律等条目），得到第一步相关性较高的变量集；

(2)使用变量聚类对变量再次降维：变量聚类[3]的目的在于排除冗余变量，依据的原则是聚类后同一类别中的变量都是相似的变量，可以只取一个代表变量，变量选取的原则是尽可能是组内相关性强而组间相关性弱的变量，即最能代表本类别中的变量而与其他类别的变量最不相关的变量，这一原则本质上也是考虑多变量共线性的问题，即尽可能做到所选的自变量间不相关。经过这个步骤，变量个数从56个降到仅27个。

（二）建立logistic模型及模型解释

建立logistic模型[4]在SAS环境[5]中提供的有4种方法：向后删除、选择最优子集、向前选择、逐步选择，本文使用前两种方法对变量进行最终的挑选和建模。

(1)使用向后删除变量法进行logistic回归建模：结果是删除了10个变量，最终进入解释模型的自变量有17个，其相关统计指标见表1。

(2)使用选择最优子集的方法进行logistic回归建模：具体过程是对变量个数从1到27各建立一个最好的模型（卡方统计量最高得分的指标），如何比较这27个模型呢？对参数个数不同的模型比较， Akaike信息准则(AIC)和许瓦兹贝，叶斯模型选择准则(SBC)是常用的统计指标。具有AIC指标或 SBC指标最小的模型认为是最好的模型，但根据理论推导和多种模拟研究表明，SBC效果要好些，因为AIC在样本量大时倾向于选择包含过多参数的模型。许瓦兹贝叶斯模型选择准则(SBC)从模型是否含有尽可能少的参数方面对模型进行评价，通过计算可得27个模型的SBC指标，从而选择具有最小SBC指标的模型，该模型自变量有13个，比第一个模型自变量个数要少，其相关统计指标见表2。

表1 向后删除变量法logistic模型相关统计指标

附图

表2 最优子集的方法进行logistic回归相关统计指标

附图

综合以上两种模型可见，亚健康的主要表现在躯体方面的疲劳、睡眠不实、大便酸腐气或稀溏、记忆力下降、工作效率下降、食欲不好、气短、咽干、腹胀、眼睛酸胀、疼痛等，在心理方面表现为空虚感，易怒等。

（三）模型评价

数据挖掘中，评价模型的好坏标准很多，但对分类模型，在不强调误分类代价的情况下，大多采用准确率和误分类率以及正确-错误矩阵的方法或ROC曲线等，本文仅用前者对结果进行说明。

(1)使用向后删除变量法进行logistic回归建模评价：此模型有17个解释变量，具体见表1，根据OR的排序可以看出，首先有C48大便酸腐的人群为亚健康的概率是没有此症状的亚健康概率的3倍多，依次就可以将亚健康的危险因素进行排序观察研究，并进一步得到logistic回归方程[7]，如下式(1)所示：

附图

为对测试集合进行分类，按照(1)式计算亚健康概率，当P≥0.5时认为该样本为亚健康，在783个测试样本数据中，分类结果见表3。

(2)使用选择最优子集的方法进行logistic回归建模评价：此模型有13个解释变量，具体见表2， OR分析同上，logistic回归方程如下(2)式所示：

附图

表3 使用向后删除变量法的Iogistic回归模型判断

原结论＼模型判断亚健康正常总数

亚健康 519 34 553

正常 37 193 230

总数556 227 783

总正确率为：(519+193)/783=712/783=90.93%；误分率为：(34+37)/783=71/783=9.07%

表4 选择最优子集法的logistic回归模型判断

原结论＼模型判断亚健康正常总数

亚健康 517

36 553

正常 38 192 230

总数555 228 783

总正确率为：(517+192)/783=709/783=90.54%；误分率为：(36+38)/783=74/783=9.45%。可见，两个模型准确率几乎是一致，误分率也相差不大。这说明在测试集上，使用logistic回归建模的两种方法都能够适用。值得注意的是前者解释变量比后者多4个，但准确率只高大约0.4%。

判断准则同上，则在783个样本数据中，分类结果见表4。

（四）模型应用

模型生成后，就可以应用对人群进行判断，得到亚健康的概率，在准确率和误分率相差不大的情况下，要优先考虑变量个数较少的模型，同时兼顾实际应用中对模型的可解释性。上述两个模型结果均较为理想。

三、讨论

目前对于复杂问题的分类和影响因素提炼的方法有很多，但最具解释意义和使用最多的方法主要有四种：logistic回归、决策树、广义线性模型、判别分析。因此，在建立模型阶段，本文主要应用logistic回归方法对亚健康状态进行了分类研究，并得到了亚健康状态主要的临床特征表现。传统意义上的logistic回归是研究当因变量为二分变量或有序变量时，因变量与自变量关系的常用方法。比如，当研究者关心的问题是哪些因素导致了人群中有些人患某种病而有些人不患某种病，哪些因素导致了某种治疗方法出现治愈、好转、无效等时，实质上这些问题是一个回归分析问题。但因为其因变量是分类变量，故一般的线性回归不能解决此类问题。因此，直接分析因变量Y和自变量X间的关系有些难度，所以可以考虑分析Y取某个类别值的概率p与X的关系。下面以二值因变量（不妨设Y的取值为0和1）的Logistic回归模型为例说明这个方法。考虑当Y暴露下时，为1的概率p和不为1的概率(1-p)的比值p/(1-p)，其取值在[0,1]，若考虑其对数变换，则取值可以在（-∞，+∞），因此可以考虑线性回归，即的线性组合：ln[p/(1-p)]=，并由上式可得：

附图

本文应用数据挖掘方法，并使用logistic回归建模，充分发挥了独特的作用，具有一定的启发意义。我们以此对亚健康人群进行判断，与现场调查中专家对每个被调查者健康状态的判断相比，符合率在90%以上，说明有良好的一致性，还提示亚健康的主要临床表现在躯体的疲劳、睡眠不实、记忆力和工作效率下降、饮食二便失调、心理的空虚感、情绪易怒等方面，与文献报道一致。本研究还提示一种思路，医学数据的处理不能陷入到方法主义中，要同时兼顾方法的有效性和医学上的可解释性。

标签：数据挖掘论文; 大数据论文; 回归模型论文; 分类变量论文; 亚健康论文; 特征选择论文; 人群特征论文; 统计学论文;

亚健康人群分类及其临床特征分析&基于数据挖掘过程的Logistic回归方法研究_数据挖掘论文

猜你喜欢