基于神经网络和小波分析技术的基因表达谱数据分析

基于神经网络和小波分析技术的基因表达谱数据分析

王树林[1]2007年在《生物子序列频数分布与肿瘤亚型分类模型研究》文中指出生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域,使得生物信息学很快成为全球关注与研究的焦点。我们主要研究了生物信息学中的两个基本问题:(1)关于k-长DNA子序列在基因组全序列中出现频数的分布问题;(2)关于基于基因表达谱的肿瘤分子诊断问题。对于这两个问题的研究,都取得了非常好的实验结果,具有理论和现实意义,有助于生物信息学的发展。针对问题一,分别从DNA序列的可视化表示、k-长DNA子序列出现频数分布及其计数算法叁个方面展开研究。针对问题二,分别从肿瘤特征抽取和信息基因选择两个方面研究了肿瘤亚型分类模型。DNA序列可视化表示对于研究其结构与功能具有至关重要的意义,它有助于重复子序列的识别、内含子与外显子的区分以及DNA序列进化等方面的研究。我们首先综述性研究了几种DNA序列的可视化表示方法,比较了生成DNA序列分形图像的Hao方法与经典的混沌游戏表示方法的异同点,讨论了禁止子序列中回文子序列情况,阐述了迭代函数系统产生分形吸引子的数学机理,详细介绍了根据Moore自动机与迭代函数系统定义的混沌自动机,并研究了以DNA序列驱动混沌自动机产生分形图像的方法,提出DNA序列叁联密码子的分形图像表示方法,并对其进行了初步分析研究,提出进一步需要解决的问题。我们在生成DNA序列分形图像的Hao方法的基础上进一步提出一种能够直观显示k-长DNA子序列频数分布差异性的叁维频数分布图生成方法,其优点是能够更加直观地观察k-长DNA子序列频数分布。然后把叁维频数分布图转化为我们提出的一维对数频谱图,突出显示了频数分布的局部特征,并以一维对数频谱图为依据提出k-长DNA子序列频数区划分准则,详细研究了甚高频数区的n阶零间隔现象,发现并论证了,n阶零间隔分布就是基因组进化过程所留痕迹的有力证据,并给出一维对数频谱图特征的生物学解释。实验发现许多DNA序列频数概率分布近似服从非中心F分布,这个新发现有一定的普适性;对于分布呈多峰现象的DNA序列,可采用多个非中心F分布的迭加来拟合。在比较了非中心F分布与Gamma分布后,提出一种结合二者在拟合方面具有互补优势的新分布,实验证明这种新分布能够更好地吻合实际DNA序列的频数分布。然后研究了两种最特异出现频数(最高出现频数与出现频数为1的k-长DNA子序列个数)与k值的关系,发现不同物种的这两种关系具有良好的一致性,比如发现k-长DNA子序列最高出现频数与k值的关系与指数概率分布函数只相差一个常数因子。最后探讨了DNA序列的进化模型。因为现实世界中的基因组规模非常大,所以对k-长DNA子序列的出现频数进行计数并不是一件容易的事。我们提出并研究了k-长DNA子序列在DNA全序列中出现频数的计数问题,设计并实现了k-长DNA子序列内部计数算法和外部计数算法。该算法通过一个哈希函数把k-长DNA子序列映射为整数关键字从而把k-长DNA子序列出现频数的计数问题转化为整数关键字的重复计数问题,使得能够利用经典B树算法来解决频数计数问题,并针对待解问题的特点提出叁种改进措施以进一步提高算法的性能。基于基因表达谱的肿瘤亚型分类方法有望成为临床医学上一种快速有效的肿瘤分子诊断方法,但由于目前肿瘤基因表达谱样本集存在维数过高、样本量很小以及噪音很大等特点,使得选择肿瘤信息基因或从基因表达谱中抽取肿瘤分类特征成为一件有挑战性的工作。国内外专家学者对肿瘤分类问题已开展了广泛深入的研究。我们在总结肿瘤分类研究成果的基础上概括出基于基因表达谱的肿瘤分类过程模型,阐述了分类过程模型的关键环节及其常用方法,提出肿瘤分类过程模型的分类方法,并过程模型比较了前人的研究成果,指出目前肿瘤分类研究中存在的问题。针对肿瘤特征抽取问题,设计了六种方法以获得肿瘤分类特征,分别是:1)主成份分析方法PCA,2)因子分析方法FA,3)独立分量分析方法ICA,4)小波包分解方法WPD,5)基于离散余弦变换(DCT)的PCA方法,6)基于离散Fourier变换(DFT)的PCA方法。实验采用两种肿瘤样本集(结肠癌和急性白血病样本集)验证了这六种方法的有效性。实验结果表明,所提出的方法不仅分类性能好而且各有其特点,都能在保持较高的分类准确率前提下大幅地降低基因表达谱数据维数。在分类性能方面,基于DCT变换的PCA方法是一个比较理想的数据降维方法,对于结肠癌组织样本,交叉验证识别准确率高达96.77%,而对于急性白血病组织样本,其准确率高达100%。因子分析方法和独立分量分析方法有助于分析样本集的结构特征,实验发现只需少量的因子或独立分量就可以获得很高的分类性能,由此推测,只需3~4个肿瘤信息基因就可以获得很高的分类性能的假设,为设计优秀的肿瘤信息基因选择算法提供了先验知识。尽管采用肿瘤特征抽取方法获得了好的实验结果,但是肿瘤信息基因选择仍是必不可少的工作。从基因表达谱的成千上万个基因中选择尽可能多的、分类能力尽可能强而基因数量却尽可能少的信息基因子集是一个挑战性工作。在没有先验知识的情况下,在如此大的基因空间中进行穷尽搜索是不可能的事情。为此我们提出了两类近似算法来解决肿瘤信息基因的选择问题。一类是采用经典粗糙集模型和邻域粗糙集模型的属性约简算法进行信息基因选择的方法。由于采用经典粗糙集模型的属性约简算法需要对数据进行离散化处理而导致信息损失,致使选出的肿瘤信息基因分类性能不高。为避免这个问题,我们又以邻域粗糙集模型的属性约简算法FARNeM(forward attribute reduction based on neighborhood model)为基础,设计了十一种信息基因选择算法以解决肿瘤亚型分类问题。实验结果表明,该方法能够快速搜索到分类准确率更高的信息基因子集。为提高NEC(neighborhood classifier)分类器在样本不均衡时的分类性能,对NEC分类器进行改进提出了一种适合于样本不均衡数据集的加权邻域分类器;同时我们还把适合于多分类问题的特征选择算法Simba(iterative search margin based algorithm)引入到肿瘤分类领域中,以丰富肿瘤信息基因选择方法的多样性;为增加分类模型的可信度提出一种基于邻域粗糙集模型的概率神经网络集成方法对肿瘤样本集进行分类;为实用的肿瘤分子诊断软件研制奠定了基础。另一类是根据获得的肿瘤基因表达谱样本集的结构特征提出的以支持向量机分类器为评估准则的肿瘤信息基因启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个肿瘤信息基因子集。实验采用了叁种肿瘤样本集验证了这种分类算法的可行性和有效性。对于急性白血病组织样本集,只需2个信息基因就能获得100%的4-折交叉验证分类准确率(共发现14个这样的两基因子集);而对于难以分类的结肠癌组织样本集,只需4个信息基因就可获得100%的4-折交叉验证分类准确率(共发现7个这样的四基因子集);对于小圆蓝细胞肿瘤(Small Round Blue Cells Tumor,SRBCT)数据集,同样只需4个信息基因就能获得100%的4-折交叉验证分类准确率(共发现504个这样的四基因子集);实验结果与我们的预测假设十分吻合。与国内外其它优秀的肿瘤分类算法相比,我们的实验结果在综合分类性能方面超过目前所有已知的分类算法。为更加客观地评价肿瘤分类模型的分类性能,我们提出一种能够消除肿瘤样本集的不同划分对分类性能造成影响的一种称之为全折交叉验证的方法,实验证明这是一种更加客观反映分类性能的评估方法;同时针对多肿瘤亚型样本集提出一种推断肿瘤亚型相关信息基因的方法。

廖晨[2]2008年在《基于机器学习的DNA微阵列数据分析》文中进行了进一步梳理在医学领域,确定癌症的种类及其不同阶段对于选择相应的临床治疗极为重要,而常规的方法存在很大的局限性。由于恶性肿瘤的发生、发展及实验转归都伴有复杂的基因表达谱变化,因此通过微阵列实验中基因表达数据的获取为癌症诊断和预测提供了新的手段。在基因表达谱数据获取过程中,基因表达谱数据含有较大的实验误差。同时,由于实验成本较高,样本的数目一般为几十或上百例,而检测基因的数目往往高达几千甚至几万,其中含有大量无关的检测基因,是典型的高维、高噪问题。另一方面,由于功能相似的基因的表达高度相关,因此存在大量的冗余基因。如何找出对疾病有鉴别作用的基因或疾病相关基因,对提高肿瘤诊断准确性具有重大的意义。为此,本文主要研究和探索了DNA微阵列芯片数据的特征提取和选择技术以及分类器的选择和改进。全文的主要工作包括以下两个方面:一是提出新的基因选择或特征提取算法,选出疾病相关基因(特征),组成有效的特征子集,实现降维,去除冗余的基因(特征),包括:1.小波变换特征提取算法。先用t检验对训练集做预处理,将高维矩阵初步降维,再进行一维离散小波变换。用最大模值法从细节系数中挑选出一部分,与近似系数相结合,得到降维后的特征子集。2.核方法特征提取算法。先用t检验对训练集做预处理,得到一个基因子集,用核方法处理该子集,得到降维后的特征子集。3.支持向量机基因选择算法。首先采用wilcoxon rank sum检验对训练集做预处理,再用支持向量机对基因子集中的每个基因进行训练和测试,得到相应的正确率,挑选正确率高的基因组成新的子集。二是提出支持向量机组合分类器,提高肿瘤分类性能。首先采用wilcoxon rank sum检验对训练集做预处理,然后根据置信度选出相应样本,级联地训练出几个不同的分类器构成新的支持向量机组合分类器。本文提出的特征选择(特征提取)方法以及改进的分类方法,经过实验证明,其有效性已经达到了当今世界先进水平。

丁立军[3]2006年在《几何学习在病毒分类与肿瘤分型中的应用》文中提出随着分子生物学的迅速进展,对物种分类与进化的研究已经由宏观领域开始转入微观领域。传统的生物分类方法是建立在形态学基础上的,但生物的生长环境对生物个体的表型影响很大,这给传统生物分类带来误导。由于生物大分子的进化是一个缓慢的过程,这给从分子水平上研究生物分类与进化提供了可靠的依据。此外,对肿瘤亚型的分型一直是医学上的难题,由最初基于形态学的分型转向细胞化学检测方法的分型。但是肿瘤亚型在这些方面却十分相似,很难分辨。现代基因表达技术为肿瘤亚型分类与预测提供了新的方法,并得到成功的应用。本文将几何学习算法成功地应用于生物全基因组序列的分类与肿瘤亚型分类与识别。1.应用几何学习算法对病毒全基因组序列的分类,从而实现对生物的分类与进化的研究。首先对全基因组DNA序列进行特征分析,选择部分特征量来描述全基因组序列的特征,再对全基因组序列进行特征提取并将其映射到特征空间的点。选择部分样本点应用几何学习算法将这些点(顶点)构建几何图,再按最近距离原则对待分类序列进行分类。并对NCBI提供的8类病毒全基因组序列分类测试,正确率为94%。将实验结果与常用比对算法BLAST比较,两者的分类结果非常接近;此外,再将实验结果与支撑向量机(SVM)得到的结果比较,结果优于SVM。2.本文又将几何学习方法对Golub等人公布的急性白血病的基因表达数据集进行分类识别,它包括两个亚型(ALL,AML)。首先应用“分类信息指数”指标对急性白血病的基因表达谱数据进行特征基因的选取,再用几何学习算法构造两类亚型的几何凸胞联合体。最后应用分型算法对两个急性白血病的亚型分型实验,实验结果对其两类亚型能完全正确地识别。

易丽君[4]2007年在《基于基因表达谱的数据挖掘方法研究》文中指出基于基因表达谱在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文将数据挖掘技术应用在基因表达谱分类分析领域,对特征提取及肿瘤亚型识别问题进行了研究,取得如下研究成果:提出了基于神经网络和线性回归的肿瘤亚型分类方法。针对急性白血病数据集,设计了叁类信噪比指标,采用小波分析及线性回归方法提取候选特征基因,基于BP神经网络构建分类器,依据独立测试结果确定特征基因。针对该数据集提取出5个特征基因,其独立测试准确率达到91%。本文同时使用决策树方法对该特征子集测试,识别率达86%。提出了基于GSNR指标的特征基因选取及肿瘤亚型识别方法。将数据挖掘方法Gini指数与传统指标“信噪比”(SNR)相结合,构建综合指标GSNR剔除无关基因;采用BP神经网络设计分类器;使用SM算法确定特征基因。针对急性白血病数据集,按叁类肿瘤亚型分类,提取出8个特征基因,独立测试准确度达97%。实验结果表明GSNR指标具有良好的降噪能力和可伸缩性。设计实现了基于GB指标的基因表达谱分类方法。将Gini指数与类加权Bhattacharyya距离相结合,构建GB指标剔除无关基因;基于支持向量机构建分类器;通过“两两冗余”后,依据后向搜索算法选定最优特征子集。针对SRBCT数据集提取出7个特征基因,采用SVM分类器测试准确识别了数据集中所有样本,同时采用ANN、CBA等方法对特征子集进行测试,取得满意的结果。该特征子集分类性能优良,特征数量精简,优于同类实验。

王紫微, 叶奇旺[5]2011年在《基于神经网络MIV值分析的肿瘤基因信息提取》文中提出运用统计学及数据挖掘相关知识,以结肠癌基因表达图谱为研究对象,综合运用GB指数、BP神经网络、小波变换等方法对问题给出求解的过程和结果.首先采用GB综合指数对无关基因进行筛选,选择两组备用基因的交集(114个)作为信息基因,降低基因维度.其次,用基因间的强相关性剔除冗余基因,利用BP神经网络对基因进行错判数计算,选取错判率最低、基因子集中基因数量最少的基因特征组,再利用平均影响值(MIV)方法进行基因筛选,最后进行错判数计算,最终确定含有12个基因的子集为最优基因组合.第叁步,将每组基因表达值看做基因信号,运用小波转换法对基因数据进行去噪,去噪后特征基因减少为8个.

陈尤莺[6]2013年在《分类算法在生物信息学中的应用》文中提出生物信息数据呈现了指数级数的增长,从这些海量数据中挖掘出有用的信息,已经成为生物信息学研究中急需解决的问题之一。本文主要的研究对象是基因表达谱和信号肽,并通过实验研究发现更有效的分类算法,扩展分类算法的应用空间。基于基因表达谱的肿瘤诊断方法有望成为临床医学上一种快速而有效的诊断方法.但由于基因表达谱数据存在高维数、小样本以及噪音大等特点,使得对其分类存在很大困难,所以很有必要寻找更为可行有效的分类方法。本文提出基于贝叶斯分类器改进的肿瘤基因表达谱分类模型,以结肠癌的基因表达谱作为实验数据,利用MATLAB的贝叶斯网络工具箱进行了实验,并用4-折交叉验证法测试识别准确率,实验结果表明上述方法是可行有效的。信号肽是一种短肽链,用于指导蛋白质的运输,并已成为在寻找新药物和用于基因治疗方面的重要工具。但随着新蛋白质序列在后基因组时代雪崩式的产生,使得新信号肽序列识别成为生物医学工程上的重要任务,也是我们面临的一项重大挑战。本文提出一个基于贝叶斯推理网络称为Signal-BNF的预测方法,用于预测N-端信号肽及其剪切位点。Signal-BNF算法先由多个不同的特征数据集作为贝叶斯分类器的输入,产生多个不同的贝叶斯基分类器,然后通过权重投票系统融合贝叶斯基分类器产生的不同结果,从而得到最终的预测结果。同时,利用MATLAB的贝叶斯网络工具箱进行了实验,以六个不同物种的蛋白质序列作为实验数据,并用5-折交叉验证法测试识别准确率,得到了较高的预测精度。

郭志鹏[7]2015年在《肿瘤基因表达谱的数据挖掘与识别分类》文中进行了进一步梳理肿瘤种类繁多,其致病机理复杂,是危及人类身体健康的主要恶性疾病之一,尽早确诊对患者的治疗至关重要。基因芯片技术是功能基因组学的一个突破,它所产生的基因表达谱数据极大的推进了功能基因组学的发展。基于基因表达谱的数据挖掘,可以让我们更好地认识肿瘤,从分子生物学角度去探索其发生机理,对肿瘤诊断、治疗以及新药物的研制都具有积极的意义。由于基因表达谱数据具有维度高、样本小、高冗余以及高噪声等特点,本课题采用时频分析工具从叁个角度研究了肿瘤基因表达谱数据的特征提取。本课题提出了利用小波包变换对基因表达谱进行分解,进而提取相应各频带的样本熵值构成特征向量。然后本课题针对基因表达谱数据的高噪声特性,提出对肿瘤基因表达谱数据进行EMD分解,计算出相应各IMF与原始数据的相关系数,保留相关系数较大的IMF分量并重构数据,进而筛选获得特征向量。此外,利用基因表达谱数据在分数阶傅里叶变换最优阶次上的全局特性,筛选分数阶傅里叶系数幅值的熵权较大的位置的分数阶傅里叶系数作为特征向量。最后针对分别来自美国MIT大学和普林斯顿大学数据库的急性白血病、结肠癌等基因表达谱数据集进行了仿真验证,分类结果正确率都达到了90%以上。

刘云[8]2010年在《基于蚁群聚类的特征基因选择算法研究》文中研究指明随着人类基因组计划的完成,生命科学进入了一个前所未有的新时代。生物学家们通过DNA微阵列技术能够同时检测成千上万个基因,使得他们对肿瘤细胞有了一个宏观的认识。然而由于这一技术高度自动化、规模化以及微型化,基因芯片数据存在维度高、样本少的特点。如何有效分析并处理这一技术所产生的大量数据并找到对疾病研究与治疗有意义的基因子集,已经成为了该领域研究的重点以及难点。蚁群聚类算法依据蚂蚁打扫墓穴原理发展演变而来。首先,将数据对象随机地投影到一个平面,然后每只蚂蚁随机地选择一个数据对象,根据该对象在局部区域的相似度而得到的概率,决定蚂蚁是否“拾起”、“移动”或“放下”该对象。经过有限次迭代,平面上的数据对象按其相似性而聚集,最后得到聚类结果和聚类数目。近些年来相关群智能算法已经广泛应用到基因选择方法中来,并取得了不错的效果。本文提出了一种基于网格的蚁群聚类算法。该方法首先将数据随机分布到一个二维平面上,该平面有m m有个网格组成。然后在该平面上产生一些虚拟蚂蚁对数据对象进行聚类分析。近年来,国内外研究学者纷纷提出各种基因选择方法,但仍存在诸如基因共线性、缺乏组合基因的考量以及整体运算复杂度的问题。为了解决这些问题,本文提出了一种基于蚁群聚类的特征基因选择方法。首先,我们采用过滤法依据基因自身所包含的表达差异信息对基因进行打分,并删除分值低于阈值的基因。随后我们采用蚁群聚类算法来删除冗余基因。我们采用支持向量机作为分类器,并对四个肿瘤数据集进行实验仿真。实验结果证明我们的方法能够有效解决上述问题。

纪兆华, 赵洁茹, 于静红[9]2010年在《基于模式识别技术的基因谱表达数据分析初探》文中研究说明模式识别是科学和工程领域等许多行业用来解决实际问题的行之有效的学科,能分析基因表达谱数据,从中提取规律,以便"读懂"基因组的遗传信息。本文初步探讨模式识别技术分析基因表达谱数据的方法。

谭云, 于彬, 王琦然, 王学敏, 李珊[10]2016年在《基于SVM的肿瘤特征基因提取与基因表达数据分析》文中研究指明提出一种基于支持向量机的肿瘤基因表达谱数据挖掘方法。首先采用信噪比方法对白血病、结肠癌、肺癌数据提取特征基因,生成特征基因子集。然后通过支持向量机分类模型对特征基因子集进行机器学习训练分类。实验结果表明:急性白血病、结肠癌只需4个特征基因,均获得100%的10折交叉验证分类准确率。最后为了有效地排除噪声基因进而挑选出精确度更高的分类特征基因,采用多尺度小波阈值法对肺癌数据进行降噪处理,降噪后仅需5个特征基因获得96.61%的分类准确率。

参考文献:

[1]. 生物子序列频数分布与肿瘤亚型分类模型研究[D]. 王树林. 国防科学技术大学. 2007

[2]. 基于机器学习的DNA微阵列数据分析[D]. 廖晨. 湖南大学. 2008

[3]. 几何学习在病毒分类与肿瘤分型中的应用[D]. 丁立军. 浙江工业大学. 2006

[4]. 基于基因表达谱的数据挖掘方法研究[D]. 易丽君. 中南大学. 2007

[5]. 基于神经网络MIV值分析的肿瘤基因信息提取[J]. 王紫微, 叶奇旺. 数学的实践与认识. 2011

[6]. 分类算法在生物信息学中的应用[D]. 陈尤莺. 福建师范大学. 2013

[7]. 肿瘤基因表达谱的数据挖掘与识别分类[D]. 郭志鹏. 北京理工大学. 2015

[8]. 基于蚁群聚类的特征基因选择算法研究[D]. 刘云. 湖南大学. 2010

[9]. 基于模式识别技术的基因谱表达数据分析初探[J]. 纪兆华, 赵洁茹, 于静红. 科技资讯. 2010

[10]. 基于SVM的肿瘤特征基因提取与基因表达数据分析[J]. 谭云, 于彬, 王琦然, 王学敏, 李珊. 重庆理工大学学报(自然科学). 2016

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于神经网络和小波分析技术的基因表达谱数据分析
下载Doc文档

猜你喜欢