高维数据分析中的降维方法研究

高维数据分析中的降维方法研究

孙喜利[1]2016年在《高维数据的降维及聚类方法研究》文中进行了进一步梳理数据降维和聚类分析都是模式识别和数据挖掘等领域的基本学科。近年来随着互联网的发展和普及,图像、视频、文件等数据的数量和种类都在呈指数增长。由于数据量增大,数据需要提取的特征越来越多,这就导致数据的维度越来越大。由于高维数据中包含大量的冗余信息以及高维空间中隐藏了数据间的相关性,所以传统的数据分析和处理方法很难处理高维数据,而且高维数据的可视化也是一个难题。数据降维是将数据从高维空间映射到低维空间,从而获得一个更加紧凑的低维表示,这不仅能降低数据处理的时间复杂度以及更便于发现数据结构信息,而且低维的数据表示更易于可视化。因此,当前迫切需要研究出高效的数据降维方法。聚类分析既可以作为独立的数据分析工具又可以作为数据挖掘的一个预处理步骤,它在许多领域都发挥着重要的作用,比如图像处理、统计分析、心理学等。由于维数灾难,传统的聚类方法对高维数据进行聚类很难得到有意义的聚类结果,因此,对高维数据的聚类方法进行研究具有重要的意义。目前已经有许多的数据降维方法,PCA、LDA、LLE、Isomap以及SNE等都是应用广泛的数据降维方法。本文对这些经典的数据降维方法进行了简要的介绍,并对LLE算法进行了比较深入的研究。LLE是一个非线性的数据降维方法,它通过保存高维空间的局部的近邻点信息来达到保存全局拓扑结构的目的。为了保存更好的局部信息,本文用Rank-order距离来替代传统的欧氏距离来寻找近邻点。Rank-order距离利用近邻点的排序信息来计算点间的距离,它被证明可以提高聚类质量。将Rank-order距离与LLE结合的方法称为基于Rankorder距离的LLE(RLLE)。为了评价RLLE方法,本文将RLLE方法和原始的LLE、ISO-LLE和IED-LLE都运行在两个手写体数据集上,实验证明LLE方法的有效性和寻找近邻点的距离密切相关,RLLE方法可以提高数据降维的有效性,而且C-index是一个可以用来评价降维质量的很好的指标。子空间聚类是目前主要的高维数据聚类方法,而超图划分是另一个有望解决高维数据聚类难题的方法。本文提出了一种新的利用超图划分对高维数据进行聚类的方法。该方法首先构建一个图G,通过利用共享反转k近邻(SRNN)来定义顶点间的连接关系。然后通过寻找图G的所有最大团作为超边来构建一个超图。构建完超图后,将一个强大的超图划分方法稠密子图划分(DSP)方法结合聚类方法k-medoids对超图进行处理以得到最终的聚类结果。提出的新方法被称为DSP+k-medoids,本文使用几个实用数据集对DSP+k-medoids方法进行评估,实验结果显示DSP+k-medoids方法能取得比原始的k-medoids方法更好的聚类效果。

何博睿[2]2016年在《Isomap与LLE在降维方面的优劣分析》文中研究说明随着社会的日益发展,在生物、图像、金融等领域中,人们日常可以接触到的高维数据越来越多,在处理这些高维数据时主要面临着叁方面的问题[1][2]。首先是“维数灾难”的问题[3]。过高的数据维度会让整个数据分析所要求的样本量达到计算时远远不能承受的水平,为分析处理高维数据带来了巨大的挑战。其次是“空空间现象”的问题[4]。有些高维数据其本质是稀疏的,这导致许多数据在低维空间中原有的性质在高维空间中不再成立[5]。这种现象会导致相关降维算法效率的下降。最后是数据计算复杂度增加的问题。随着数据维度的增加[6],数据计算的复杂度也会随之提升,这会导致许多处理实时任务的算法性能的下降,从而无法满足“在线支付”等实时问题的要求。在此条件下,降维逐渐受到了全世界各国学者的关注,而流形学习则成为了一个热点问题。其中,流形学习的原理是保持高维数据与低维数据之间的某个拓扑关系的不变性。2000年science上发表的Isomap与LLE是流形学习的两种代表性算法[7][8][9][10]。本文将根据Isomap和LLE两种重要的非线性流形学习算法进行探讨与分析[11],具体内容包括以下叁点。第一、对降维的背景和流形学习算法进行研究和概述。本文简要概述降维这一领域目前的发展趋势、前景以及遇到的一些问题(如“维数灾难”),介绍降维方面的一些基本概念[12],同时对线性降维与流形学习降维中一些简单的算法进行介绍[13],从而了解流形学习降维算法的优势[14]。第二、Isomap与LLE算法优劣分析。通过人工数据和现实图像识别问题中所遇到高维数据,进行对等距特征映射和局部线性嵌入两种流形学习降维算法降维,利用所得结果分析二者之间的优劣[15],分析数据结构对于方法选择上的影响[16][17],并进一步分析数据结构对Isomap和LLE方法的影响,加深对以Isomap和LLE为代表的流形学习算法的了解和认识。第叁、结合实际应用问题,给出Isomap和LLE的使用策略。通过实际问题的解决来考虑流形学习算法的使用策略。

尹峻松[3]2007年在《流形学习理论与方法研究及在人脸识别中的应用》文中进行了进一步梳理机器学习与数据分析的主要任务是获取高维数据中的内在规律。传统的分析方法一般假设数据集存在全局线性结构,即构成数据集的各变量之间是独立无关的。但是,面对现有数据的高数据量、高维数、高增长率以及非结构化等特点,传统方法很难发现数据集的真实结构。为此,研究人员将目光投向了流形学习。流形学习算法的研究是涉及拓扑学、图论、机器学习、模式识别、信号处理、计算机视觉等多学科多领域交叉的结果,可以有效地发现高维数据分布的内在几何结构,挖掘隐藏在高维数据中的本征信息与内在规律,甚至找出产生数据集的隐藏变量。作为一种新兴的机器学习与高维数据分析方法,流形学习已逐渐成为国内外诸多领域的研究热点,并日益广泛应用于生物特征识别、信号处理、高维数据分析等。论文以黎曼几何与拓扑理论为基础,对流形的学习理论、流形的几何与拓扑结构、流形的噪声学习、流形的重构与增量学习以及流形的半监督学习等关键问题进行了深入的研究,弥补了现有流形学习理论中存在的缺陷和不足,并将流形学习理论成功引入人脸识别与高维图像数据的处理中。主要工作及创新点如下:1.提出了生长型局部线性嵌入算法流形学习方法存在一个严重的不足就是需要事先估计低维目标空间的维数,并且由于稠密性假设,算法具有很高的计算量,严重降低了算法的适用性。论文在局部线性嵌入(LLE)算法的基础上引入了生长型神经气(GNG)模型,结合竞争Hebb规则构建覆盖整个流形的稀疏图,提出了新的生长型局部线性嵌入(GLLE)算法,解决了原始LLE算法的叁个缺陷,可以自动估计出流形的本征维数,实现节点邻域的动态选择,并显着降低算法复杂度,提高算法的自适应性,实现了流形的非参数学习。仿真结果验证了GLLE算法在流形展开、高维数据可视化与生物特征识别中的有效应用。2.解决流形学习的噪声干扰问题流形学习算法大都基于局部几何结构(包括Isomap算法,其在计算测地距离时仍然使用的是局部最近邻),这一特点使得流形学习方法很容易受噪声影响。论文针对现有流形学习算法对噪声敏感的特点,结合局部主曲面算法,提出了一种新的噪声流形学习算法——邻域平滑嵌入算法(NSE),有效的解决了噪声流形学习问题,也给出鲁棒流形学习的一个新思路。3.提出新的流形学习统一框架在样本泛化与图嵌理论的基础上,提出了更一般的流形学习统一框架,这一框架包含了图的建立、张量学习、增量学习和有监督学习。同时,在对流形学习深入研究的基础上,论文综述了现有流形学习算法的特点,为流形学习的进一步研究指出了方向。4.有监督流形学习目前流形学习方法大都是无监督学习,可以很好地实现数据的降维和可视化。如何有效地利用已知的类别信息进行特征提取并分类,是流形学习切入应用的重要突破口。论文在提出的统一框架下,依据训练集中已知的类别信息建立Graph,对空间进行有监督划分,再对测试集进行分类与可视化。对人脸表情识别的仿真试验证明了有监督流形学习的有效性。5.增量流形学习流形学习基于光滑连续性假设和稠密性假设,这就要求流形学习初始化时具有很多的样本,此外,满足局部保距假设令流形学习对新的样本点无能为力,必须重新计算几何或拓扑结构矩阵,这就严重降低了算法的适应性。论文从重构出发,利用求导法和子流形分析法给出基于Laplacian Eigenmaps的类内增量学习算法,算法具有一阶最优解。6.流形结构下的度量现有流形学习中寻找邻域都是基于欧氏距离,因为在无穷小范围内黎曼空间等价于欧氏空间。但是流形的采样密度很难达到这一要求,所以论文根据黎曼流形以及流形学习保持局部几何结构的特点,结合前期提出的一氧化氮(Nitric Oxide,NO)时空动态扩散模型,提出了新的适用于统一框架下流形学习算法的距离度量——扩散距离。扩散距离的引入,为流形学习中图的建立提供了一个新的思路,提高了流形学习的鲁棒性,同时可以解决多连通、环状等流形的映射问题。7.建立具有东方特征的人脸数据库算法的有效应用是一种算法得以生存发展的重要依据,流形学习算法经过这几年的发展,逐渐在高维数据处理与模式识别等领域找到了成功的应用,也推动了流形学习研究更进一步的发展和深入。但是国内绝大部分研究仍然是基于网上所获取的已知数据,特别是人脸识别研究中,基本上没有适合东方人脸特征的数据集,使得研究有些偏离应用。论文基于已有条件不断设计改良采集环境,建立了多姿态表情光照单Camera的人脸采集系统,并初步建立了一个小型的东方人脸数据库。

郝中华[4]2015年在《基于微分流形的非线性降维方法研究》文中进行了进一步梳理现今信息时代中,文字、声音、图像等几乎所有的信息载体均以高维非结构化数据的形式进行存储、处理和传输。但是,高维数据难以直接被现有的机器学习、数据挖掘和数据分析算法有效的处理。如何在海量繁杂的高维数据中找出影响其变化或分布的潜在关键因素是信息科学领域中的基本问题。数据降维是解决这类问题的主要技术手段,包括线性降维和非线性降维两类方法。由于现实数据的分布往往具有非线性的特点,线性降维方法在实际应用中受到了很大的限制。因此,非线性降维方法成为解决这类问题的主要方法,在机器学习、计算机视觉、数据挖掘和图像分析等众多领域得到了广泛的研究,是该领域的研究热点之一。目前,数据的非线性降维方法主要包括基于神经网络的方法、基于核函数的方法和流形学习方法。其中,流形学习方法因其具有清晰的几何解释和生物学依据吸引了广泛的关注。但是,现阶段流形学习方法仍处于理论研究阶段,存在着许多问题阻碍着其实际应用。本文重点针对流形学习方法中的邻域选择、嵌入方法和高维数据预处理等关键问题,开展理论方法和仿真实验研究。首先通过算法解析现有流形学习方法如Isomap、LLE、LTSA等的优缺点,以及在人脸识别与头部姿态估计和人体叁维步态捕获问题中的应用。根据计算机视觉中人脸识别与头部姿态估计两者相互作用的现象,通过使用近邻图构建覆盖,定义点到流形的距离等方法和手段,提出一种对于人脸识别与头部姿势估计问题的整体解决方案,并通过对FacePix数据集的仿真实验验证了方法的有效性。基于流形反映运动变化规律这一特性,利用Isomap方法找出像素空间和人体骨架点空间中的低维步态流形,采用广义回归神经网络建立图像、步态流形、人体骨架点之间的映射关系,达到从图像中获取人体叁维步态信息的目的,并采用Weizamann人体行为数据库和卡内基梅隆大学运动捕捉数据库,通过实验验证了方法的有效性。其次,分析降维效果的评价指标和现有邻域选取方法的缺陷。针对目前邻域选取方法存在的短路现象和曲率差异过大等问题,使用奇异值分解、余弦定理等数学工具,通过分析合理邻域的特性,提出两种基于流形曲率变化的自适应最大线性邻域选择方法,即基于法空间夹角的邻域选择方法和基于数据点分布的邻域选择方法。进一步地,针对经典流形学习方法对于邻域参数选取敏感的问题,以Isomap和LLE两种方法为例,提出了改进算法,通过使用最大线性邻域替代固定邻域,并在目标函数中引入权重,以提升降维效果和降维鲁棒性。另外,基于微分几何中流形的定义,提出了一种基于图集相容性转换的流形学习方法。通过分析‘图集’和‘相容性条件’,及其在散乱点云数据中的物理意义,使用PCA和仿射变换等数学方法,构建最小化邻域交集点嵌入坐标误差的目标函数,将其转化为带约束的极值问题。采用拉格朗日乘子法研究该问题的广义特征向量求解方法,并给出增量学习和重构问题的解决方案。通过在散乱点云数据集、Isomap人脸图像数据集和LLE人脸图像数据集上的降维和重构实验,验证了该方法的有效性。最后,针对高维数据集中的噪声和数据点分布不均匀情况下,会导致流形降维误差增大的问题,对含有不同强度噪声和不同稀疏度的数据集的降维结果进行了分析。提出了去除噪声和数据插值的预处理方法,使用线性投影、坐标系变换、快速凸包算法等手段,去除噪声并使数据点的分布相对均匀。通过对散乱点云数据集进行数据预处理,并进行降维实验验证了方法的有效性。

阎庆[5]2014年在《基于局部线性嵌入的降维算法研究及其在精准农业中的应用》文中指出传统的粗放型农业生产模式效率低下且对生态环境的污染严重,已经不适应新世纪农业发展的需求。现代农业逐渐摆脱原始农业、传统农业和工业化农业的束缚,进入以知识高度密集为主要特点的知识农业发展新阶段。将现代信息技术、生物技术和工程装备技术应用于农业生产的“精准农业(Precision Agriculture)"已经成为现代农业的重要生产形式。将图像处理和机器视觉等技术的应用是精准农业实施中的主要特色之一。通过对光学图像或者高光谱图像的智能分析,有效提高作业效率。但是光学图像数据提供的信息有限,在很多应用中存在局限性。而高光谱遥感图像因为波段众多,光谱分辨率和空间分辨率都很高,因此对地物的分辨更加准确,在精准农业的应用中具有其他数据无法比拟的优势,已经成为未来精准农业应用中的主要数据形式。这些新的数据分析手段虽然给农业生产带来了革命性的变化,但是另一方面也因为其数据量巨大,不仅给存储和传输带来了困难,同时也给数据的分析和处理带来了巨大的挑战。因此如何有效降低数据的维数,减少数据量是精准农业图像分析中的一个重要课题。本文主要研究局部线性嵌入算法在精准农业数据降维问题中的应用。结合精准农业实施中如杂草识别等问题的需要,主要围绕局部线性嵌入算法监督性的实现、近邻参数自适应选择、适当的分类算法的设计等问题进行了深入研究。主要的研究工作与创新成果如下:(1)信息技术、模式识别技术在精准农业中的主要应用之一就是依据图像和光谱数据完成对作物属性的自动识别。而常规的局部线性嵌入算法是一种非监督算法,直接应用于分类识别中往往效果不佳。针对这个缺陷,提出一种基于Fisher准则的监督局部线性嵌入算法。算法首先对训练样本进行Fisher投影变换,寻找最佳投影方向。在此方向上各类样本具有最大可分性。利用训练样本在该投影轴上的投影距离来构造邻域结构,则可以最大程度得利用训练样本的监督信息指导降维,从而有效提高识别率。实验结果表明,基于Fisher准则的监督局部线性嵌入算法比常规局部线性嵌入算法具有更优异的降维效果,用简单的分类算法就可以实现较高的识别率。(2)局部线性嵌入算法应用于分类识别问题时,其精度还受到另外一个因素的影响,即局部线性嵌入算法主要参数之一的近邻参数κ。该参数选择的恰当与否将严重影响识别结果。但是目前还没有特别成熟的选择算法出现,多数情况下是根据实验结果进行多次反复人工尝试。这也成为局部线性嵌入算法发展中的瓶颈。针对精准农业中所处理数据的特点以及局部线性嵌入算法邻域构造对识别效果的影响,设计一种基于监督局部线性嵌入方法的近邻参数自适应调整的算法。实验结果表明,该方法可以根据所采集数据的分布特点自动确定近邻参数,在保证高识别率的前提下又增强了算法的稳定性和实用性。(3)降维算法只是数据处理的第一步,确保高识别率的另外一个重要环节是分类算法的选择。而局部线性嵌入算法对于新增测试样本必须和训练样本重新训练完成降维后才能进行分类,计算量大,效率低下。根据局部线性嵌入算法利用重构误差构造邻域结构的特点,将测试样本与正负类流形重构误差的大小作为判断训练样本类别属性的根据。这种分类方法是直接基于数据流形本身的特点构造的,又不需要引入新的未知参数,具有应用方便的特点。实验结果证实监督局部线性嵌入和这种分类算法的结合可以保证较高的识别精度。(4)杂草识别是精准农业应用中的主要问题之一。因为自然界生物的多样性,即使同种植物形态颜色上也具有一定的差异,而异类植物却又可能具有相似性。利用传统的机器视觉方法,通过颜色,形态等特征识别精度不高,而且容易受到自然环境的影响。本文主要面向玉米田间实地采集的图像数据完成杂草识别任务。该组图像中环境很复杂,玉米和多种杂草共生。设计了根据形态学方法自动分割杂草和玉米的方法,然后利用监督局部线性嵌入对分割后的图像进行降维,并用支持向量机完成分类识别,最终取得了理想的实验结果。证明了基于Fisher准则的局部线性嵌入算法在非实验室环境下也具有很好的适应性。(5)高光谱数据结合了光谱分析和图像处理的优势,在精准农业中的病虫害监测,品质检测等多个问题中都取得了成功的应用。针对实验室采集的患有条锈病的小麦叶片成像高光谱数据,根据“图谱合一”的思想,将一种图像纹理特征分析手段——灰度共生矩阵和光谱信息进行联合分析,充分利用了成像光谱数据的优势。实验结果表明,这种将传统图像分析手段和光谱数据结合的方法能够更好地发现作物受病害影响的程度,尤其是作物受病害影响初期或者称为隐性病时期,识别效果更优于传统的光谱分析方法。

谢明霞[6]2011年在《高维数据聚类若干关键问题研究》文中研究表明聚类的发展是分类学、社会科学、心理学、生物学、统计学、数学、计算机科学等多学科交叉融合的结果,不同聚类方法的区别主要在于对象之间相互关系定义的不同。经典的聚类方法大多是针对低维数据设计的,当数据的维度很高时,原有的聚类方法将面临严峻的挑战,且其在高维空间中的聚类结果是难以预料的。论文围绕高维数据聚类算法展开,指明了为使传统聚类方法适用于高维空间的改进方向,并从高维数据相似性度量和降维两个方面进行研究,提出了合理的解决方法,具有一定的理论和现实指导意义。论文主要研究内容和创新点如下:现有的高维聚类算法中对象间的距离大多采用欧氏距离进行度量,但由于“维度效应”,传统的Lk—范数在高维空间已不适用。为了合理度量高维空间各对象间的距离或相似性,解决基于Lk—范数的距离失效问题,可以对距离或相似性度量函数进行重新设计,即重构距离或相似性度量。重构的距离或相似性度量函数,不仅要在高维空间中具有意义,同时也要方便计算。2.对利用区间划分进行高维数据相似性度量的方法进行了扩展,使各维数据在根据其分布直方图进行初始等分后,将满足相应阈值范围的邻近区间进行合并,获得最终符合数据本身分布特征的不等距区间划分,提出了基于不等距维区间划分的高维数据相似性度量函数。该函数不仅整合了不同类型数据的相似性度量,而且考虑了各数据对象间的相对距离。符合数据分布特征的不等距划分方法,改善了数据分布均匀或者十分倾斜时,以及噪声数据给高维数据相似性度量带来的影响。3.将高维空间中数据对象的二维映射过程(高维数据转化为二维数据,使二维空间中各对象间欧氏距离趋近于高维空间对象间最短路径距离)转化为优化问题,设计了利用遗传算法和RBF神经网络进行相似性保持的高维数据降维方法,并确定了高维数据到低维数据的映射关系。当有新对象输入时,利用映射关系可以快速有效地获取其低维坐标。在实际降维过程中,当数据量非常大时,为了提高遗传算法降维的效率,在原始高维空间中随机抽取若干高维数据对象进行交叉变异,获得其相应的降维后坐标,根据所抽取对象的(原高维坐标值,降维后坐标值)值对进行神经网络映射,获得降维转换器,并利用转换器计算原高维空间中未被抽取的数据对象的低维映射坐标值。4.设计并实现了基于改进相似性度量和特征变换的高维数据聚类算法。在聚类的初始阶段,利用降维后数据的可视化结果指导初始聚类中心和聚类个数的选取,有效提高了高维数据的聚类精度和速度。文中提出的改进高维数据聚类算法只要能够获取对象间的距离或相似度矩阵,便能方便的进行降维聚类,而不需重新设计和调整原有的聚类算法流程。

徐微微[7]2016年在《高维数据降维可视化研究及其在生物医学中的应用》文中进行了进一步梳理计算机技术、信息技术以及存储技术的快速发展,为我们采集、处理与存储所获取的海量、高维、非结构化的数据提供了极大的便利。而随着信息大爆炸时代的到来,我们接触到的数据已经不再以数值型数据为主,更多的是文本数据、图像数据、以及多媒体数据等非数值型数据。数据可视化所面向的数据对象由传统的数值型数据扩展为多来源、多维度和多尺度的复杂数据集合,这些新的数据特点对高维数据可视化方法的研究和应用带来了更高的要求和更大的挑战。降维技术与可视化技术相结合,不但是处理高维数据,克服“维数灾难”,实现数据可视化的重要途径,并且作为数据预处理的一种方式,为进一步深入研究数据的模式与关系提供直观的分析基础。具体地来说,降维可视化技术利用线性或非线性降维方法将高维数据投影到低维空间,以人们可以理解的可视化方式,直观地呈现数据中的模式与信息,从而有效的帮助人们从海量数据中挖掘出有用信息和知识。通过对目前降维可视化方法进行对比和分析发现,由于数据的复杂性与多样性,以及现有降维可视化算法各自的优缺点,没有一种降维可视化算法适用于所有的数据集。从可视化角度来看,目前已有的降维可视化算法主要存在以下叁个局限性: (1)将高维数据投影至二维空间后,二维空间样本点的分布或保持了高维数据的全局特性,或保持了高维数据的局部特性; (2)由于度量空间的限制,将降维可视化结果呈现在单一的二维映射图中,则不能准确地呈现大部分真实数据的结构和关系,如生物医学中的疾病表型数据。因为不同的疾病可能呈现出相同的表型,而相同的表型则有可能对应着不同的疾病,经降维可视化处理之后,二维空间中样本点的分布关系并不能全面且完整地呈现出疾病与表型之间的关系;(3)大部分降维可视化算法对于数据间相似性的度量,主要基于数据间的距离。当处理海量高维数据时,计算样本点之间距离的效率会非常低。围绕上述叁个局限性,本文从非线性降维方法中的流形学习方法为出发点,即假设样本点是均匀分布高维空间的低维流形曲面上。利用图结构对数据中的几何结构进行建模,将基于几何技术的可视化方法有机的结合在一起,针对不同数据集的特性,提出叁种降维可视化方法,并以不同特性的生物医学数据为例,将生物医学高维数据直接投影到二维可视化空间,使用户没有与数据相关专业背景的前提下,也能参与到降维可视化的过程中,发掘数据清晰的结构与模式,为进一步深入研究数据提供可视化依据。本文研究内容与研究成果如下:(1)提出一种基于拉普拉斯正则化的随机近邻嵌入算法(LA2SNE).该算法利用拉普拉斯分布的胖尾特征,分别计算高维空间与低维空间样本点之间的概率分布,取代传统计算样本点之间欧氏距离的方法,从而避免样本点在二维投影空间过度重迭。利用对称Kullback-Leibler散度最小化高维数据分布与低维数据分布之间的差异,从而使低维可视化空间中的样本点的分布能够更好地保持高维数据的全局结构。通过构建高维空间拉普拉斯矩阵作为正则化项,通过调节惩罚系数,使可视化空间数据分布的内部结构更加分明,相同的点聚类效果更加明显。将该方法分别应用在模拟数据瑞士卷(Swissroll)和人类微生物组数据上,并对可视化结果进行量化分析,其结果证明所提出的LA2SNE方法对于模拟数据和真实数据都能够有很好的可视化结果。(2)提出一种基于流形正则化的多映射图的可视化方法(L-mm t-SNE),将传统的单一映射图可视化结果投影到多个映射图中。该方法解决了传统度量空间所不能解决的“共现”问题,对于“疾病——表型”数据集,不同的疾病所呈现出的症状可能非常相似,因此L-mm t-SNE引入流形正则化项,使得数据集中局部相似的点更加紧凑,不相似的点则分布到不同的映射图中。并且样本点权重大的更倾向于聚类在一个映射图,从而减少了映射图的数量。实验结果表明,L-mm t-SNE可以利用较少的二维映射图可视化具有“共现"特征的数据集,其可视化结果具有很好的解释。(3)提出一种快速降维可视化方法。该方法首先利用双流形正则化的非负矩阵分解对数据进行预降维,降维后的子空间保持了原始空间中数据的主要特征,接着利用VP树方法,通过查找“最优点”,对数据集进行近邻点的搜索;然后根据概率距离计算近邻点之间的相似度;最后利用KL散度将子空间数据投影到可视化空间。与传统可视化方法相比,本文所提出的方法对海量微生物组高维数据的可视化结果能够很好地表达原始数据的结构,在降低可视化时间复杂度上具有显着的效果。

陈祺琳[8]2018年在《面向大数据可视化界面的认知降维研究》文中认为大数据时代的到来致使用户每天将会接触到很多的高维数据信息。随着我们所生活的互联网时代科学技术的快速发展,导致数据数量和维度不断增加,高维数据已经成为了大数据的重要组成部分。高复杂度的高维数据中隐藏着大量有价值的信息,挖掘高维数据,并将其进行可视化呈现,可以帮助人们获取更多信息和其更深层次的含义,但由于大数据本身的复杂度和多维属性,其表征呈现承载的信息量过大,数据信息的层次结构复杂,造成了人在认知过程中的高疲劳和低效率。目前的数据降维方法有很多,其虽然降低了高维数据的维度,但缺乏对人的认知的考虑。又由于人的认知具有局限性,现有方法的降维结果对用户的操作效率会产生一定的限制。因此,本课题主要结合人的认知行为,通过研究大数据特点,大数据可视化特征和现有降维方法的欠缺之处,分析研究大数据可视化过程中,用户的认知维度到可视化界面信息维度的映射关系,并提出各维度认知降维的理论方法及其相对应的设计策略。首先,通过高维数据的属性及可视化特征,分析其可视化难点及降维的重要性。其次,结合人与大数据可视化界面交互时的认知过程,提出认知维度的概念并进行定义以及分类,再对应各维度,分别提出界面相关的信息维度及信息属性编码,建立认知维度到界面信息维度(C-I)的映射关系模型,凸显各维度的高维特性。然后,基于高维数据的信息特性与用户的认知需求提出维度同源聚类,信息过滤等理论方法,再从可视化界面的表层信息,内在结构和深层含义出发,进行认知降维策略设计研究。最后,将理论方法应用到实际的大数据可视化界面的设计实践当中,最终旨于理论方法的应用能够达到提高用户操作效率和准确率的目的。

刘建环[9]2016年在《面向高维数据降维与分类的深度模型构建方法研究》文中研究表明不同行业结合的综合性的信息物理系统具有数据量大且数据维度高等特征,尤其是维度较高的数据不仅难以被人们直观理解,而且也难以被现有的机器学习和数据挖掘算法进行有效地处理,因此数据降维是处理高维数据的一个重要手段,也是特征提取的重要工具。在数据降维处理方面,国内外众多学者已经有了大量的研究工作,但是在线性和非线性降维领域仍然存在着许多挑战性的问题。在大量阅读文献的基础上,本文分析了在线性降维和非线性降维中所存在的问题:线性降维算法一般都是在假设数据服从高斯分布的基础上进行处理,流形学习等非线性降维算法则因为不能给出数据降维的显式映射关系而使得应用受限。但是,在深度学习中,受限玻尔兹曼机由于具有类神经网络的记忆联想功能和独有的理论上可以拟合任意分布的能力使得基于其构建的深度结构模型可以很好的解决上述问题。本文围绕数据降维问题展开研究,重点对线性降维算法和流形学习非线性降维算法进行研究,针对存在的问题构建了基于受限玻尔兹曼机的深度高维数据降维模型同时对其进行了结构上的优化。本文的主要工作包括以下几个方面:(1)对传统的线性降维算法和基于流形学习的非线性降维算法进行了分析与研究,并比较了它们之间的优缺点。(2)对深度学习的基础构造模块受限玻尔茨曼机进行介绍与分析,其在理论上可以对任意分布的数据进行拟合,而且可以将映射关系保存在可见层与隐含层之间的连接权值中,因此可以很好解决上述存在的问题。(3)基于受限玻尔兹曼机构建深度高维数据降维模型并对其从结构上进行优化,同时从理论上和实验中都对有效性进行了验证,使得深度模型在不失精度的前提下尽可能的紧凑与简单,提高了计算速度和运行效率。(4)将深度高维数据降维模型及其优化后的模型应用于手写数字识别中,实验结果显示模型都具有非常高的识别精确度,尤其是基于隐含层节点单元可自适应调整的RBM构建的深度模型在高识别精度的同时还能尽可能的使用较少的隐含层节点单元,大大的提高了运算速度和节省了存储空间。

李惠君[10]2013年在《复杂仿真数据的降维与可视化聚类方法研究》文中认为随着科学技术的发展,仿真系统的复杂程度越来越高,随之仿真数据也出现高维、数据量激增、包含随机性和人为性等不确定因素等特点,经典统计理论在分析这些数据时暴露出了一系列问题。随着计算机硬件技术的发展和数据挖掘理论的兴起,基于数据挖掘技术的复杂仿真数据分析逐渐进入了研究人员的视野,论文基于可视化数据挖掘技术,对大规模、高维数、相互关系复杂的仿真数据的可视化聚类及相关问题进行了研究,具有一定的理论和工程意义。针对专家估计法对复杂仿真数据可视化前的特征选择,可能造成忽视专家个人差异及数据自身特点的问题,提出了基于模糊综合评价模型的主客观估计法。首先构造专家模糊评判矩阵,并根据专家在行业的影响力确定权重,进行主观模糊综合评价;然后根据数据自身特点计算属性的信息熵,获得客观评价;最后将主观评价和客观评价按照不同比例进行综合,从而确定属性的重要程度。针对复杂仿真数据可视化前的数据降维问题,分析了常用的流形学习降维方法;证明了局部切空间排列算法(LTSA)与核主分分析方法(KPCA)本质上的一致性;提出了基于核的LTSA算法对增量仿真数据降维的改进。经实验验证,该改进算法与LTSA算法相比能达到同样的降维效果,并且具有更高的运行效率。针对复杂仿真数据降维中需事先提供维数的问题,采用改进的极大似然估计法进行本征维数估计。首先分析了极大似然法存在的缺点,提出利用测地线距离代替欧式距离的方法,来解决错误近邻点选择问题;提出对各局部估计的本征维数以密度修正代替平均值的方法,来解决估计结果受奇异值影响过大的问题。针对复杂仿真数据可视化聚类问题进行了研究,提出两种可视化聚类方法。在基于改进雷达图的可视化聚类方法研究中,首先对传统雷达图进行了改进,为突出数据特征,以属性权重确定极角,以属性值确定极径;又对k-means算法中存在的随机确定初始中心点而无法得到最优解问题,提出了优化初始中心点算法;针对算法必须事先给出聚类个数,而实际难以做到的问题,提出采用循环和专家监督干预的改进方法。在基于自组织映射的可视化聚类方法研究中,将传统的矩形或六角形方格中的神经元映射改变为雷达图映射,解决了传统SOM映射中无法反映数据点差距的问题;通过增加横向收缩力,重构权向量,加速了映射点的收敛时间;提出利用随获胜神经元到邻域神经元间距单调递减的函数作为修正值的自适应学习速度改进,来增加算法的稳定性和收敛时间。经实验验证,该算法具有更高的效率和鲁棒性。论文丰富了高维数据降维、可视化数据挖掘的方法,为复杂仿真数据分析方法提供了新的技术支持。

参考文献:

[1]. 高维数据的降维及聚类方法研究[D]. 孙喜利. 兰州大学. 2016

[2]. Isomap与LLE在降维方面的优劣分析[D]. 何博睿. 首都经济贸易大学. 2016

[3]. 流形学习理论与方法研究及在人脸识别中的应用[D]. 尹峻松. 国防科学技术大学. 2007

[4]. 基于微分流形的非线性降维方法研究[D]. 郝中华. 上海大学. 2015

[5]. 基于局部线性嵌入的降维算法研究及其在精准农业中的应用[D]. 阎庆. 安徽大学. 2014

[6]. 高维数据聚类若干关键问题研究[D]. 谢明霞. 解放军信息工程大学. 2011

[7]. 高维数据降维可视化研究及其在生物医学中的应用[D]. 徐微微. 武汉大学. 2016

[8]. 面向大数据可视化界面的认知降维研究[D]. 陈祺琳. 东南大学. 2018

[9]. 面向高维数据降维与分类的深度模型构建方法研究[D]. 刘建环. 重庆大学. 2016

[10]. 复杂仿真数据的降维与可视化聚类方法研究[D]. 李惠君. 燕山大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

高维数据分析中的降维方法研究
下载Doc文档

猜你喜欢