基因芯片表达数据的标准化策略研究

基因芯片表达数据的标准化策略研究

伍亚舟[1]2004年在《基因芯片表达数据的标准化策略研究》文中提出研究背景:随着近代分子生物学实验技术和计算机技术的迅猛发展,以及人类基因计划(HGP)的实施使得人类基因组草图(HGD)绘制的顺利完成,标志着现代生命科学研究已经进入了后基因组时代,研究者把关心的焦点由结构基因组学转向了功能基因组学。基因芯片(gene chip, microarray)作为一种新型的高通量的检测技术方法,可以同时测量成千上万个基因的表达水平,已成为“后基因组时代”研究基因与基因间相互作用的一个强有力的工具。如何对该技术产生的海量实验数据进行准确而合理地分析,已成为有效应用该项技术的主要瓶颈问题,并已成为当前生物信息学的重要研究内容和主要研究方向。目前针对基因表达型芯片的图像处理和数据分析的研究尚处于起步发展阶段,特别是作为微阵列芯片数据分析早期阶段进行的标准化(或称为归一化)问题,还需要有更多的完善和创新。标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响,它对基因芯片的后续分析起着重要的作用。目前虽已有了一些标准化方法,但如何根据芯片的质量选择一个最好最优的方法还存在着某些困难。本研究的目的是提出几种标准化方法模型,重点对其中四种模型的标准化策略特性进行分析与比较,在此特性基础上针对不同密度类型的基因表达芯片,就如何选择最佳标准化方法进行研究,最终建立起基因芯片表达数据的标准化策略。方法:标准化是基因表达芯片数据分析中的一个重要方面,对后续的聚类等统计分析有着重要的影响。这里我们重点针对四种标准化方法模型:参照点标准化(CSN)、总强度标准化(TIN)、局部加权线性回归标准化(LWLRN)和局部均值化标准化(LMN),详细分析了这四种标准化方法模型各自具有的特性;利用我们常用的图像处理和数据分析软件(GenePix Pro4.0、Excel、Spss等)进行分析得到标准化因子;最后将其应用到不同密度的基因表达型芯片的实验数据中,从而对各自方法及其结果进行分析与比较,寻找到最佳标准化方法。结果:应用于不同密度芯片表达数据的四种标准化方法都能有效地减少系统变异产生的影响,使处理后数据更加具有可比性和可靠性,通过分析我们发现:参照点标准化方法对于密度小且表达稳定的芯片有很好的效果;总强度标准化方法应用于信号强度分布相对较均匀的低密度芯片较好;局部加权线性回归标准化方法在依赖于强度的高密度芯片中可以很好地减少背景噪声强度带来的影响;局部均值化标准化方法可以有效地解决总强度分布极为不均的高密度芯片。结论:本研究提供的标准化分析方法针对不同密度类型的表达芯片是可行的,在减少系统变异基础上能得到可靠的基因表达水平或表达比,更为准确地找出芯片上有显着性差异表达的基因,为后续的分析研究提供更为准确的更为重要的线索。不过标准化方法还处于起步和发展的阶段,目前还没有统一的标准,需进一步完善;但随着非线性技术的不断完善,计算机软硬件的快速发展,芯片海量数据分析处理方面的研究必将得到新的突破。

伍亚舟, 张彦琦, 黄明辉, 杨梦苏, 曾志雄[2]2004年在《基因芯片表达数据的标准化策略研究》文中研究表明目的 从统计学、数学和生物信息学相结合的角度 ,探讨针对不同密度基因芯片 (microarray ,genechip)如何进行数据标准化处理与分析 ,寻找表达上有显着性差别的基因。方法 在Excel和Spss软件中 ,采用总强度标准化法 (totalintensitynormalization ,TIN )和局部加权线性回归标准化法 (locallyweightedlinearregressionnormalization ,LWLRN)对高低密度芯片数据进行分析处理。结果 这些方法能有效地减少系统误差产生的影响 ,使处理后的数据更加具有可比性和可靠性。结论 本研究提供的分析方法在减少系统误差基础上能较好地找出芯片上有显着性差异表达的基因 ,不过标准化方法还处于起步和发展的阶段 ,需进一步完善 ;但随着非线性技术的不断完善 ,计算机软硬件的快速发展 ,芯片海量数据分析处理方面的研究将得到新的突破

顾以韧[3]2010年在《猪不同部位皮下脂肪的基因组表达谱差异》文中指出脂肪的沉积不仅影响猪肉品质,决定猪肉的经济价值,而且与疾病的发生密切相关。为了研究影响脂肪沉积的分子机制,本研究采用包含44,000个探针的Agilent的猪基因组表达谱芯片检测了瘦肉型的长白猪和脂肪型的荣昌猪在7月龄时背部皮下脂肪外层,背部皮下脂肪内层以及腹部皮下脂肪中基因组层次上的基因表达谱变化。猪基因组芯片分析的主要结果如下:(1)用T检验和方差分析(ANOVA)方法分别检测了品种间,性别间和组织间不同因素间的差异表达:得到了不同因素比较间的差异表达基因。这些基因的差异表达可能是不同比较因素条件下猪脂肪沉积能力差异的分子机制。(2)对基因进行自组织图映射(SOM)和对样本进行层级聚类(HCL)的PCA映射结果显示:差异表达基因被聚类为9类,涉及到脂质运输,胆固醇代谢和脂肪酸的合成等过程。样本内基因的表达模式在品种内更趋向一致,品种效应对脂肪组织中基因表达模式的影响要大于性别和组织效应,但母猪腹部皮下脂肪组织中表达模式有别于此规律而独聚一类。(3)主成分分析(PCA)结果显示:差异基因在长白猪样本中的表达水平高于荣昌猪样本中的表达水平,提示这可能是两猪种脂肪沉积能力表型巨大差异的基础。(4)基于GO功能分类的基因分组检验(GCT)结果显示:在品种内,组织内,性别间共找到基因变异程度达显着和极显着(PErminel<0.05和0.01)的与脂肪代谢,能量代谢,细胞增殖和分化以及生长相关的GO分类10个;性别内,组织内,品种间有23个;品种内,性别内,组织间有34个,综合性别效应的品种间和综合品种效应的性别间分别有27个和3个。这些基因分组的差异可能在脂肪沉积能力差异的形成过程中发挥重要调控作用。(5)基因集合富集分析结果显示:基因在包括Insulin signaling pathway, Glycolysis/ Gluconeogenesis和Citrate cycle (TCA cycle)在内的多个与脂肪和能量代谢有关的pathway中发生显着富集,并得到了这些pathway在各检验项中发挥调控作用的方向性(上调或下调)。通过Leading edge analysis发现多个在不同pathway中高频出现的对调控脂肪沉积可能有重要作用的潜在的基因。也许这些基因的表达差异以及pathway层次上表达变化正是长白猪和荣昌猪这两种截然不同的生产类型的猪种在脂肪沉积能力的表型指标上巨大差异的分子基础。(6)染色体富集分析显示:与脂肪沉积能力相关的差异基因主要富集在第1,2,3,4,6,7,9,13,14号染色体,说明调控脂肪代谢的基因主要活跃在这些染色体中,寻找影响脂肪沉积相关的分子标记应重点放在这些染色体上。(7)可靠性评估结果显示:本次实验基因芯片内的最大变异系数为8.66%,最小变异系数仅为3.13%;芯片检测的实验样本生物学重复变异系数均在10%以内,长白猪和荣昌猪的生物学重复平均变异系数分别为5.75%和4.83%。荧光定量PCR验证结果显示,两种不同的实验技术结果在不同品种脂肪组织表达谱中均为正相关,其相关系数在长白猪和荣昌猪中分别平均为0.773和0.760,最高分别为0.950和0.974。表明本研究结果准确可靠,所得结果能够真实准确的反映出试验样本中基因的表达变化规律。总之,本课题筛选出了对猪脂肪沉积可能有重大影响和重要调控作用的基因以及有较大研究价值的pathway,初步揭示了不同猪种脂肪沉积能力差异的分子基础。

王广云[4]2009年在《肿瘤基因芯片表达数据分析相关问题研究》文中研究表明随着“肿瘤基因组计划”的进行,基因芯片技术在肿瘤研究中得到了广泛的应用。肿瘤基因芯片能够为肿瘤基因组研究提供大量的转录水平上的基因表达数据。这些数据反映了基因在不同组织细胞的不同生长发育阶段或不同生理状态中表达水平的变化。相应的数据分析技术使得从基因组水平上揭示肿瘤的本质成为可能,为肿瘤相关基因的研究提供了一种全新的、系统的研究方法,并在肿瘤临床诊断与治疗等领域备受关注。目前,人们已经确认了一些与肿瘤发生发展相关的基因,并对其功能和调控机制有了一定的了解,积累了一些相关知识。但是,这些研究成果对于绘制肿瘤基因组图谱,攻克肿瘤还是远远不够的。因此,如何对肿瘤基因芯片表达数据进行有效地分析,以及如何利用已有知识作为辅助对这些数据进行有效地分析,从而找出与肿瘤相关的基因并确定其功能及调控机制,已经成为肿瘤基因组学研究中亟待解决的问题。在这一背景下,本文以肿瘤基因芯片表达数据分析为主题,围绕肿瘤基因表达数据的预处理、聚类分析以及基因表达调控网络的构建叁方面问题进行了深入分析和研究,其主要内容和创新之处包括:(1)缺失值估计方法和标准化方法研究。在对缺失值估计方法的研究中发现,基因表达数据间的相似性对缺失值估计的精度有很大影响,而且用来估计缺失值的完全基因的表达数据在空间中的分布规律是估计缺失值一个很好的依据。因此,本文提出了一种基于KNN-SVR (K-nearest Neighbor and Support Vector Regression, KNN-SVR)的缺失值估计方法。该方法以与目标基因具有较高相似性的完全基因子集为训练集使用SVR算法建立回归模型对缺失值进行估计,提高了估计的精确性和稳定性。在对肿瘤基因表达谱分类诊断和分型识别的研究中发现,用当前的标准化方法处理后的数据进行分析会引起类型偏倚,导致样本的错误分类。因此,本文对标准化方法进行了扩展,利用类别信息进行标准化处理,使表达数据更适用于肿瘤基因表达谱分类诊断和分型识别的分析。(2)肿瘤基因芯片时序表达数据的聚类方法研究。针对基因间普遍存在的异步调控和局部调控关系,本文以细胞周期的基因表达数据为研究对象,提出了局部最大相关系数的概念,定义了基因间的相关关系;然后给出了在对异步调控和局部调控的识别中设定最大时延范围和局部相关的最短样本长度应遵循的规律;最后在局部最大相关系数的基础上对K均值算法进行了改进,提出了一种基于局部最大相关系数的聚类方法。该方法的核心是局部最大相关系数,它能够在不破坏基因表达数据间整体相关性的基础上很好地识别出表达数据间的局部和异步相关性,为功能相似的基因和共调控基因的聚类提供了一种更为有效的相似性测度。(3)肿瘤基因芯片非时序表达数据的聚类方法研究。为了消除非时序表达数据中的噪声并识别弱差异表达基因,本文提出了降噪CICA(Constrained Inde-pendent Component Analysis, CICA)模型并对肿瘤基因的非时序表达数据进行聚类。基于降噪CICA模型的聚类方法主要包括两部分:首先使用Ljung-Box Q统计量作为对“白”特性的约束,以高斯性最强为目标,抽取出一个高斯白噪声对表达数据降噪;然后用CICA对降噪后的基因表达数据聚类,其中,以待研究的基因的表达水平为约束,以非高斯性最强为目标,分离出相关的生物过程或功能类。该方法能够在降噪的同时较好地保持基因表达数据的细节信息,实现了对基因表达数据的降噪,提高了对弱差异表达基因的识别能力。(4)基因表达调控网络构建方法研究。本文首先针对基因表达调控的多时延特性,建立了N阶动态贝叶斯网络模型;然后针对仅从基因表达数据中不能得到理想的调控网络的问题,在N阶动态贝叶斯网络的基础上,提出了一种结合多源先验信息的多时延基因表达调控网络构建方法。该方法根据多源先验信息的特点将其转换为不同分布的网络结构先验概率,并与基因芯片时序表达数据相结合,通过马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC)学习N阶动态贝叶斯网络的结构。该方法还在表达数据与先验信息相互独立的基础上,在MCMC学习过程中将网络结构接受概率分解计算,灵活地实现了基因表达数据和多源先验信息的融合,从而达到共同学习调控网络的目的。结合多源先验信息的多时延基因表达调控网络构建方法不但对基因间的多时延调控关系具有很好的识别能力,而且降低了数据噪声的影响。

邱浪波[5]2007年在《基因芯片表达数据分析相关问题研究》文中指出论文以基因芯片表达数据分析技术为研究课题,围绕基因芯片表达数据预处理技术,基因芯片在肿瘤研究中的相关问题以及基因表达调控网络建模技术叁方面问题进行了深入分析和研究,其主要内容和创新之处包括:1)寡核苷酸芯片系统偏移的校正方法研究基因芯片实验涉及多个芯片,因此有必要排除非生物因素引起的芯片间的变异,使得来自不同芯片的数据具有可比性。在对比分析中,通过系统校正能够减少芯片间的系统偏差,使得芯片检测的结果能真实反映生物功能的差别。论文对寡核苷酸芯片系统偏移的校正进行了研究。提出了一种迭代的鲁棒基准芯片校正方法。通过对各芯片上的探针进行排序,选择一个秩差异最小的探针子集,然后利用Tukey biweight算法计算一个伪基准芯片,最后基于伪基准芯片对目标芯片采用M-A非线性校正。对上述过程进行迭代,当达到最大迭代数或者探针杂交强度校正前后的差值低于某个阈值时停止。以Affymetrix公司提供的标准检验数据集HG U133A Spike-in Dataset作为测试数据,与多种现有的方法进行了对比分析,显示新方法具有更好的性能。2)基因芯片表达数据缺失估计算法研究在基因芯片实验中,经常存在数据缺失现象,这会影响芯片数据后续分析结果的准确性。缺失值估计是在不增加实验次数的情况下降低缺失数据对后续分析影响的有效方法。通过利用相似性信息的核加权函数实现缺失值回归估计的局部化,给出了基于加权回归估计的基因表达缺失值估计方法。在两种不同类型的基因芯片表达数据上,将新算法与几种已知的算法进行了比较分析。实验结果表明,新的估计算法具有较传统缺失值估计算法更好的稳定性和估计准确度。3)肿瘤基因芯片表达数据的分类诊断算法研究肿瘤基因芯片表达数据分类是一个典型的高维小样本分类问题。当前已经提出了很多有效的分类算法。提出了基于两步策略的肿瘤基因芯片表达数据分类算法。在测试的基因中存在大量的非差异表达冗余基因,为了有效减少其对分类效果的影响,首先利用ReliefF方法对基因进行预选择,得到一个较小的分类基因子集;然后分别建立了基于相关向量机和基于免疫优化支持向量机的分类预测模型。在四个真实的肿瘤基因芯片表达数据上,与几种不同的算法进行了比较,结果显示新算法可以得到更好的分类精度,同时表现出很好的稳定性。4)肿瘤基因芯片表达数据的分型识别算法研究肿瘤是高度异质性的疾病,不同的发病原因会导致相同的表型。基于临床病理检测很难对肿瘤进行准确的分型诊断。基因芯片技术提供了一种高通量的在分子水平观察肿瘤发生和演变的手段,利用基因表达数据可以对肿瘤组织样本进行准确的分型识别。支持向量聚类是一种基于边缘检测的聚类方法,对非规则的类分布有很好的聚类性能,能够发现样本真实的类分布。给出了基于支持向量聚类的肿瘤分型识别算法。对两个肿瘤基因芯片表达数据进行了分型识别分析,利用自动生成的参数序列,对样本进行不同程度的精细划分,结果显示,基于支持向量聚类的方法能够更准确地对样本进行分型识别,而且能够自动发现肿瘤样本真实的类分布。5)基于反向技术的基因表达调控网络建模技术研究基因表达调控网络的机制不仅仅是基因间的相互作用,还包含各种调控因子的相互作用,诸如,相关的调控蛋白质,siRNA等等。而这些调控因子不易直接测量。状态空间模型能够很好地描述基因表达调控网络复杂的调控机制。基因表达调控网络具有典型的稀疏特性,即基因的表达只被极少数的基因和调控因子所调控,同时,具有相互调控作用的基因间,在其连续表达水平上表现出较强的相关性。针对基因调控的稀疏子模块特点,先利用相关性聚类对基因进行分解,得到多个基因簇,然后利用状态空间方程对每个簇的基因间相互调控关系进行建模分析。通过在不同聚类数量水平上的建模结果进行综合分析,可以得到具有保守特性的基因间相互作用关系,从而得到一个稀疏的调控网络。对人类T细胞周期基因表达数据进行了分析,结果显示,随着聚类数量的增加,通过分解建模,可以更好地对网络进行重构。同时,建立了不同保守程度的稀疏调控网络模型。

曹忠波[6]2009年在《改进的双聚类算法在癌症基因芯片数据中的应用》文中研究说明随着生物技术与生物信息学的发展,DNA芯片实验已经成为当今最重要的一种分析基因表达的非常有效的工具,基因芯片技术的应用已日渐趋向成熟。在高通量分子生物学技术不断发展和日趋完善的同时,越来越多的研究者致力于癌症基因芯片的相关研究。近年来,癌症的发病率不断增长,严重威胁着人类的健康与生命。长期以来,各国的科学家们为了治愈癌症进行了长期不懈的努力。处理基因芯片表达数据常用的方法是聚类分析,随着生物科学和技术的迅速发展,生物数据的积累速度也不断加快,呈现指数级增长趋势,传统的聚类方法的不足也日益显现出来。本文在学习和总结传统聚类算法和双聚类算法的基础上,针对癌症基因芯片数据的相关分析这一研究热点,应用改进的双聚类算法对其进行分析和讨论。具体过程如下:首先在经典的Cheng-Church算法基础上,提出了一种改进算法,通过增加了组合和扩展过程,减少了随机化对双聚类结果的影响,得到了很好的双聚类效果;其次对癌症基因芯片数据进行缺失值的填充和标准化预处理,并利用特征选择算法,如t-test和SVM-RFE两种统计学方法进行特征基因的选取;最后将改进的Cheng-Church算法应用在人工模拟数据上验证了算法的有效性,并利用该算法对GEO数据库中的前列腺癌基因表达数据进行了聚类分析,通过与KEGG数据库中现有的前列腺癌pathway中的基因比较,验证了改进算法的有效性,同时对可能与前列腺癌有关的基因进行了分析。

陈星[7]2007年在《基于基因表达数据的癌症分型方法》文中研究说明癌症作为一种重病轻症的疾病,治愈的关键在于如何有效而又准确地及早发现和充分治疗。其中最大的挑战是肿瘤的诊断和精确分型,以区分形态上相似的肿瘤分子亚型,寻找针对病理发生学上一致的肿瘤特异性靶向疗法。基因芯片技术能够快速并行处理大量基因表达,实现多通道、高通量、自动化的数据处理,已被广泛应用于疾病诊断、临床检验等方面。应用基因芯片技术对肿瘤进行诊断和分类,可以在基因表达水平上精确区分肿瘤的分子类型,以更好地预测肿瘤疗效,亦对肿瘤的发生发展机理探讨、肿瘤的早期诊断和分子分型等方面均有重要意义。常规的基因表达数据分类方法将全部样本或者基因作为特征空间。但考虑到在部分样本中发生的某个生物学过程仅涉及到芯片上部分基因,本文采用双向聚类思想,利用与该生物学过程相关的基因簇对样本进行分割,具体内容包括:介绍癌症亚型区分的意义和研究现状,着重介绍急性白血病和弥漫性大B细胞淋巴癌两类癌症的亚型。分析基因芯片的相关知识及其在癌症分型方向上的应用。研究基因表达数据的图像处理和数据分析方法,重点研究聚类分析的常规方法。深入探讨双向聚类方法并对其种类,算法和存在的问题进行分析,在此基础上改进并设计一种基于系统树图的耦合双向聚类算法。在MATLAB6.5的平台上,实现此基因表达数据的双向聚类算法。利用急性白血病和弥漫性大B细胞淋巴癌的基因表达谱数据实验和检验这种聚类算法。实验结果表明,基于系统树图的双向聚类算法能有效地找到特征基因簇。利用这些基因簇分割样本,可以得到与同类算法相比较高的癌症亚型识别率,并有助于发现关键基因和表达模式。

胡强, 张正国[8]2007年在《基于网络的基因芯片数据存储分析系统》文中指出基因芯片技术是当前功能基因组研究中十分重要的工具。基于网络的基因芯片数据存储分析系统为基因芯片相关实验提供了实验室信息管理,数据存储和发布,数据分析等功能。文中介绍了该系统的基本组成,并比较了常见的基因芯片数据库和实验室信息管理系统,列举了部分基因芯片数据在线分析系统,并对系统的改进和发展进行了展望。

王栋[9]2011年在《癌相关高通量组学数据的标准化》文中研究指明目前,随着检测全基因组的表达、甲基化、拷贝数等分子改变的高通量技术的发展,发现了大量的在癌组织中发生了表达、甲基化、拷贝数改变的基因,使得我们能够更系统地分析癌症的发病机理。在分析各种高通量组学数据时,一个基本的任务是要预先进行数据标准化处理,而各种标准化算法都假设疾病中差异基因的比例很小及差异上、下调的基因数目大致相等。由于基因可能在复杂疾病中发生了广泛而相关的分子改变,这种广泛采用的不可靠的标准化假设很可能会对筛选差异表达基因等下游分析有重大的影响。因此,本论文全面分析了在主要数据库中收集的关于各种癌型的基因表达、甲基化和拷贝数等高通量组学数据,通过比较在癌症与正常样本中这些分子改变的分布差异,评价几种主要的标准化方法,分析其影响生物学信号的偏倚程度。首先,我们论证了基因在癌组织中广泛差异表达的特性,而目前在基因表达谱实验中发现差异基因的低重复性现象实际上反映了癌相关基因广泛差异表达的特征。我们以基因表达改变的方向作为测度来分析基因在癌症样本相对正常样本中的特定的上下调表达模式。结果显示:对于在研究同种癌型的不同表达谱数据中识别的差异表达基因的改变方向是高度一致的,即基因在疾病样本相对正常样本的表达改变方向比较稳定,具有特定的改变方向。然后,我们分析了癌相关高通量数据标准化方法的合理性。结果显示:至少在癌症研究中,将疾病组与正常组样本一起标准化使得所有芯片的探针信号强度具有同样的分布会使得筛选差异表达基因等后续分析产生严重的偏倚。在癌表达谱数据中包含大量上调表达的基因,采用这些传统假设的标准化方法会失查很多癌相关的上调差异表达基因并且产生很多假的下调差异表达基因。同时,我们发现在关于同一癌型的不同的原始数据中筛选出的差异表达基因的改变方向高度一致,提示在原始数据中自然存在着有效的生物学信号。因此,发展新的统计方法提高统计效能去挖掘在原始数据中有效生物学信号是可能的。对癌甲基化谱和拷贝数谱也进行了类似的研究,结果显示:癌症与正常样本中的甲基化谱原始信号值的中值没有显着差异,采用标准化数据额外找到的差异甲基化基因的改变方向可以在关于同种癌型的独立数据集中显着一致地呈现,反映它们是有效的生物学信号。所以,可以采用标准化方法处理甲基化谱数据,但需要去除在标准化数据及非标准化数据中甲基化改变方向不一致的基因。在癌拷贝数谱数据中,我们发现了与癌表达谱类似的现象,即在癌拷贝数谱中存在大量的拷贝数扩增基因,提示在原始数据中提取癌相关生物学信号可能更为合理。最后,我们还分析了cDNA芯片数据的一个重要的预处理问题,即对应同一条Unigene的多个探针的检测值之间的相关性问题。结果显示:探针注释数据更新后,重复检测探针值之间的高相关比例显着提高,而大部分负相关的重复探针检测值没有通过差异表达筛选,说明尽管存在探针检测技术变异等因素,通过筛选差异表达基因还是能够相当可靠地捕捉与癌相关的生物学信号。因此,基于差异表达基因的后续分析(尤其是筛选富集差异基因的功能模块)可以得到可靠的生物学结论。本文系统地分析了在癌组织中基因表达、甲基化和拷贝数改变的系统性特征,并据此论证了目前通常采用的数据标准化方法存在的严重偏倚问题。本文的研究结果明确显示:在各种高通量原始数据中存在着有效的生物学信号,这为发展新的高效能的统计方法在原始数据挖掘生物信息提供了重要的依据。本论文的研究结果为合理分析癌相关高通量组学数据提供了依据,具有基础性的重要意义。

许文龙[10]2008年在《基于基因表达数据的肿瘤亚型多类别分类与分析》文中进行了进一步梳理肿瘤是人类面临的一大灾难,任何有关肿瘤的检测、诊断和治疗的研究,毫无疑问都具有重要的意义。不同肿瘤亚型具有不同的特征,从基因水平上观测,它们分别由单种或多种基因表达及其相互作用所控制,具有不同的基因表达特征,但它们往往难于用临床特征进行区分。基因芯片技术的出现,为科学家在分子水平上研究肿瘤现象提供了一个强有力的工具,比如可以用来研究正常组织与肿瘤组织的区别。基于基因表达数据的肿瘤亚型多类别分类与分析,正是试图从基因水平上对不同的肿瘤或亚型进行分类和分型。由于基因芯片表达数据具有高维、高噪音、高相关性等特点,使得基于基因芯片表达数据的模式分类问题仍然面临许多困难。例如,检测基因的数目相对于样本的数目非常大,其中大量与疾病组织样本无关的基因的表达不仅降低分类器的性能,还会增加机器学习的时间和空间复杂度。本文围绕着这些问题,充分利用已有的基因表达数据,从基因水平上研究对肿瘤多类别进行分类的方法,主要开展了以下两方面有新意的研究工作:1.特征基因选择方法的研究用特征选择的方法对基因进行筛选来剔除无关基因,减少基因指标的个数,不仅可以提高分类器的性能,而且还为寻找对疾病有鉴别力的特征基因排除了大量无关基因的干扰,因此选择出来的特征基因可以更有效地用来对疾病进行诊断。一个较优的算法选择出的特征基因子集,不仅应该对疾病类别有较强的鉴别力,还应该对不同的分类器算法具有较强的鲁棒性。从这个原则出发,本文提出了一种基于标准差分布差异(Standard Deviation Error Distribution,SDED)的特征基因选择算法。该算法基于一个直观的假设:即特征基因表达水平在不同类间和相同类内具有不同的概率分布,类间标准差相对较大,而类内标准差则尽可能小。结合基因在类内和类间表达标准差分布差异情况,即可对基因进行打分,从而选择出具有生物学意义及有利于分类判别的特征基因。通过对比GS2和CHO算法对4个不同白血病基因表达数据集进行的实验分类结果,表明SDED算法能选择出有利于分类预测结果的特征基因,预测精度分别比GS2和CHO算法高出0.8-4.2%和1.6-8.4%。同时通过统计所选特征基因在OMIM和KEGG两大数据库中的注释情况,说明SDED算法可以选择出的具有重要生物学意义的肿瘤相关特征基因的数量,要比这两种算法高出4.0%和6.1%左右。2.肿瘤亚型多类别分类方法研究利用支持向量机、人工神经网络和决策树等模式分类方法对基因表达数据进行疾病及疾病亚型的识别已取得了一定的成果。对于双类别的研究已取得很好的进展,但在多类别分类问题上,存在预测精度不高,实验效率不够理想,所选特征基因生物学意义不明显等问题。针对多类别分类问题,主要有两种策略:一种是将多类别问题分解为双类别,该类型算法的主要弊端是随着类别数的增加,分类器的数目指数增长,计算量也因此大大增加。第二种类型的分类器则可以自然的扩展到多类别分类问题,如判别式方法。判别式是基于数据标准正态分布的假设,其数学计算并不复杂,但主要针对线性关系的问题。针对判别式方法的局限性以及基因表达数据噪声强,波动大,在大量数据的背后还有很多相关变量不能被直接观测到等特点,本文提出了一种基于简单高斯混合模型(Simple Gaussian Mixture Model,SGMM)的多类别判别方法,该方法结合了判别式算法以及高斯混合模型的优点,从而保留了更多有利多类别分类的信息。通过用4个不同的白血病基因表达数据集进行测试,并用留一法交叉验证得到的分类结果表明.利用简单高斯混合模型的分类器,能够取得比最近邻算法高2%左右的预测精度,同时与支持向量机的分类效果相当,但其计算复杂度和运算量却远低于支持向量机。

参考文献:

[1]. 基因芯片表达数据的标准化策略研究[D]. 伍亚舟. 第叁军医大学. 2004

[2]. 基因芯片表达数据的标准化策略研究[J]. 伍亚舟, 张彦琦, 黄明辉, 杨梦苏, 曾志雄. 第叁军医大学学报. 2004

[3]. 猪不同部位皮下脂肪的基因组表达谱差异[D]. 顾以韧. 四川农业大学. 2010

[4]. 肿瘤基因芯片表达数据分析相关问题研究[D]. 王广云. 国防科学技术大学. 2009

[5]. 基因芯片表达数据分析相关问题研究[D]. 邱浪波. 国防科学技术大学. 2007

[6]. 改进的双聚类算法在癌症基因芯片数据中的应用[D]. 曹忠波. 吉林大学. 2009

[7]. 基于基因表达数据的癌症分型方法[D]. 陈星. 浙江大学. 2007

[8]. 基于网络的基因芯片数据存储分析系统[J]. 胡强, 张正国. 中国生物医学工程学报. 2007

[9]. 癌相关高通量组学数据的标准化[D]. 王栋. 电子科技大学. 2011

[10]. 基于基因表达数据的肿瘤亚型多类别分类与分析[D]. 许文龙. 中国科学技术大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基因芯片表达数据的标准化策略研究
下载Doc文档

猜你喜欢