层次存储系统与矩阵特征值高性能计算的研究

甘奇韬^[1]1997年在《层次存储系统与矩阵特征值高性能计算的研究》文中进行了进一步梳理由于高速的处理器与低速的存储器之间一直存在着速度差距，因此，存储器速度一直是计算机系统严重的一大瓶颈问题。层次存储结构被广泛用于计算机系统中来解决上述瓶颈问题。高速缓冲存储器(Cache)的出现平衡了处理器与存储器之间的速度差距，因此，Cache成了提高问题计算速度的关键。矩阵特征值问题是矩阵计算及数值计算的基本问题之一。求解矩阵特征值问题的算法有很多，其中典型算法有Jacobi方法、QR方法、子空间迭代法等。在实际的计算当中，研究者们又运用各种方法和技巧对这些算法作了许多改进，这些方法都有效地提高了矩阵特征值问题的计算性能。另外，寻求求解矩阵特征值问题的新方法，会给我们实现矩阵特征值高性能计算带来全新的思路。矩阵特征值问题是一个在实际计算中应用广泛的问题，因此，矩阵特征值问题在实际计算机系统中的高性能计算也是一个具有重要实际意义的研究课题。实际问题在层次存储系统中的计算性能主要在于Cache-主存层次的性能，而Cache-主存层次存储系统性能的提高则主要在于Cache对程序局部性的有效利用，即Cache利用率的提高。影响Cache利用率的因素有三个，即程序对数据的访问方式、数据在主存中的分配方式和Cache本身的组织方式。因此，提高Cache利用率的方法相应地也有三种，即改变数据访问方式、变动数据分配方式和改进Cache组织方式。这三种方法都可用来提高Cache利用率。上述三种方法中的很多通用方法在实际运用中往往会受到许多限制，本文由此研究了一种能有效提高Cache利用率的方法，我们称之为软Cache技术。程序中可能会有很多的局部性，即程序中数据的复用率可能很高，但是由于数据的组织不当，也会在Cache中引起大量的访问冲突，而使数据得不到其应有的复用。如果将这部分引起Cache失效的数据重新进行组织，使其高数据复用率得到应有的利用，则必定会大大提高Cache利用率。这就是软Cache技术的基本思想。

李恩有^[2]1997年在《高性能计算机的存储方法研究》文中指出半导体技术的发展，使得主存储器件的存取速度不能满足处理器存取数据的要求，人们在各种计算机系统中广泛采用了并行存储系统和层次存储系统，以提高整个存储系统的平均存取速度。然而，在实际应用中却发现，传统的并行存储系统和层次存储系统并不是总能达到人们的预期目的。这是由于处理器的存取访问在并行存储系统中和高速缓存系统中存在存储体冲突和高速缓存行冲突。进一步的研究发现，并行存储系统和层次存储系统中的存储映射方法对它们的存储性能有很大的影响。 XOR斜排存储方法是一类非常有效的非线性斜排存储方法，作者在研究了许多具有实际使用价值的XOR存储方法的基础上，提出了LR-XOR斜排存储方法．在采用LR-XOR斜排存储方法的并行存储系统中，不仅可以并行存取在传统的交叉并行存储系统中可以并行存取的连续存储数据存取模式，而且可以并行存取N×N矩阵的矩阵行、矩阵列、矩阵主P×Q块、矩阵散列P×Q块以及间隔为2~i的等间隔主向量、间隔为2~i的移位等间隔主向量等许多在科学和工程应用程序中常用的数据存取模式，可以大幅度地提高并行存储系统的平均存取速度。本文在对高速缓存系统结构进行深入分析的基础上，把XOR斜排存储映射方法应用于数据高速缓存的存储映射中。理论分析表明，在高速缓存映射系统中采用EE-XOR和LR-XOR存储映射方法，可以使科学和工程应用程序中大量常用存取模式的所有数据元素同时驻留在高速缓存系统中，把应用程序中的数据复用率更多地转化为高速缓存系统中暂存数据的复用率，从而大幅度地提高层次存储系统的平均存取速度，充分发挥处理器的运算能力。作者创造性地在高速缓存系统的映射机构中实现了EE-XOR斜排存储方法，以使高速缓存系统可以充分地利用程序执行过程中存储访问的局部性。在作者设计的Pentium和平实验系统中，其二级高速缓存映射中使用

汤媛媛^[3]2015年在《面向桌面系统的高光谱遥感影像线性降维异构并行算法研究与实现》文中进行了进一步梳理高光谱遥感影像降维处理是高光谱遥感处理中至关重要的前提步骤。降维处理涉及大量的矩阵(向量)运算、多次迭代和大规模循环,属于典型的计算密集型和访存密集型任务。对遥感处理的实时性要求和高光谱数据的高维特征使降维处理的并行化成为遥感领域的研究热点。随着计算机硬件的发展,近年来崛起的异构高性能计算系统以其强劲性能等特点成为主流计算机体系结构,为众多领域大规模计算的发展提供了良好的加速平台。而CPU/GPU和CPU/MIC异构系统更是以高性价比和低能耗比引领了当今绿色高性能计算时代的潮流。本文结合高光谱遥感影像的处理热点——高光谱遥感影像线性降维,以及异构高性能计算系统的两种主流架构模式——CPU/GPU和CPU/MIC异构模式,研究如何充分发挥异构系统的计算能力从而达到有效的并行降维。本文面向当前高性能领域较普及的共享存储型小型桌面超级计算机,在实现传统的共享存储OpenMP并行程序的基础上,通过实验结果的对比,重点研究、验证和分析了两种异构系统应用与高光谱降维的优势和适用范围,以期为高光谱遥感工程实际应用提供借鉴。本文针对高光谱遥感影像线性降维中经典的MNF和LDA降维算法,在Windows和Linux环境下分别分析了研究两种算法的加速热点及相应的并行优化策略,并实现基于OpenMP、CPU/GPU和CPU/MIC的并行算法。论文的主要工作和创新点如下:(1)全面综述了高光谱遥感影像降维、CPU/GPU和CPU/MIC异构模式及OpenMP的相关内容,包括:相关概念、背景和研究现状等。深入研究了两种异构模式,包括各自的体系结构、工作方式和各种相关模型。研究了本文实验使用的并行编程模型(OpenMP、CUDA)。针对本文实验平台的并行优化策略和技术进行了详细分析。(2)分别在Windows和Linux环境下,基于OpenMP、CPU/GPU和CPU/MIC异构模式研究并提出了一系列高光谱遥感影像MNF并行降维算法。在深入分析高光谱遥感影像线性降维MNF算法的原理和加速热点的基础上,设计了基于滤波、协方差矩阵计算、MNF变换这3个并行热点的并行及优化策略;提出并实现两种环境下的OpenMP、Windows下的CPU/GPU和Linux下的CPU/MIC四组并行降维算法,最后分析对比两种异构系统在MNF算法应用上的特点,总结各自的适用范围。实验结果验证了四组并行降维算法均取得了良好的加速效果,异构模式的性能尤其突出。其中基于CPU/MIC异构模式的并行MNF降维算法获得了最高121倍的计算加速比(不含I/O)和最高48.86倍的总加速比(不含I/O)。(3)分别在Windows和Linux环境下,基于OpenMP、CPU/GPU和CPU/MIC异构模式研究并提出了一系列高光谱遥感影像LDA并行降维算法。在详细研究LDA线性降维算法原理和并行热点的基础上,针对LDA变换这一加速热点,设计了基于OpenMP、CPU/GPU和CPU/MIC的并行及优化策略,提出并实现两种环境下的OpenMP、Windows下的CPU/GPU和Linux下的CPU/MIC四组并行降维算法。通过分析实验结果,对比两类异构模式在LDA算法应用上的特点。实验结果表明,四组并行算法均取得了较好的性能提升,也验证了异构模式具有强大的计算性能。其中Windows环境下的基于CPU/GPU的并行算法获得了最高63.96倍的计算加速比和最高49.77倍的总加速比;Linux环境下的OpenMP并行算法获得了最高62.01倍的计算加速比和最高43.45倍的总加速比;Linux环境下基于CPU/MIC的并行算法获得了最高59.49倍的计算加速比和最高26.56倍的总加速比。最后针对MIC总加速比最低的现象进行了分析,研究问题规模和转置开销对该并行方案的影响,并探讨了两种协处理器的适用范围。

李平^[4]2013年在《基于FPGA的矩阵特征值并行计算研究》文中进行了进一步梳理随着数字技术的不断发展，对数据的处理能力也不断提出更高的要求，工程应用中常见的阵列信号也需要更快的处理速度。矩阵特征值表征矩阵的很多特性，在矩阵分析中占有重要的地位。同时，传统的单处理器系统性能提升有限，多处理器并行计算从另一个角度提高了系统的处理速度。因此，本文设计一种基于Xilinx FPGA的嵌入式双核系统，在双核系统上进行矩阵特征值的并行求解，并与单核系统上的串行计算进行了比较。本文的主要工作及成果有：①并行计算：了解并行计算的基本概念，并行性能评价的基本方法，实施并行算法的基本条件。介绍了共享存储对称系统、分布存储系统、分布共享存储系统、机群系统等典型的并行计算机模型，分析了PRAM、BSP、LogP、层次存储等常用的并行计算模型。在并行计算模型的基础上，结合常用的并行算法设计技术，介绍并行算法的一般设计过程。②嵌入式多核系统：了解嵌入式实时系统设计时的主要因素以及评判实时性能的主要指标。介绍了Microblaze软核和PowerPC硬核。对ISE10.1开发套件支持的OPB、PLB、XCL、FSL、LMB等总线机制的性能和使用特点做了详细的说明。对Mailbox、Mutex、Shared Memory、Interrupt、PLB Bridge等基于Xilinx FPGA嵌入式多核系统设计中常见的通信机制做出了详细的介绍。③矩阵特征值计算：简述了矩阵特征值的数学和物理意义，列举了矩阵特征值的一些基本性质。分析了对称矩阵特征值计算的雅可比算法、单侧旋转算法的数学模型，串行和并行实现方法。分析一般矩阵特征值计算的QR算法的数学模型和串、并行实现方法。使用visual c++及MPI库函数编写程序，验证和比较各种算法。④基于双核系统的算法实现：介绍Xilinx Spartan-3E开发板的主要技术特征，使用ISE10.1开发套件设计单核系统和基于Mailbox、Mutex通信机制的双核系统。设计基于FPGA的矩阵特征值计算算法，在单核系统上完成串行计算，在双核系统上完成并行计算。使用多个矩阵验证算法的可行性，通过比较总结出并行计算的优越性。

黄先楼^[5]2014年在《基于Normalized Cut的图像分割及其CUDA并行实现》文中研究表明图像分割是图像处理和分析中的重要过程,它的输出结果直接影响着后续的处理效果.基于图论的图像分割算法由于有比较完备的数学理论基础,最近获得了广泛研究.Normalized Cut是一种平衡的基于图论的图像分割方法,不仅拥有其它图论图像分割算法的优点,并且解决了Min-Cut算法倾向于分割孤立结点的问题.然而,Normalized Cut存在计算复杂度高,分割速度慢等问题.针对该问题,本论文研究利用CUDA并行计算平台对Normalized Cut图像分割算法进行加速,提高算法在实际应用的执行速度.主要研究内容有：(1)介绍传统的Normalized Cut图像分割算法,目的是挖掘可以进行并行化的过程,研究并行化算法替代耗时的串行执行过程.(2)在将图像映射为相似度矩阵时,论文利用任意两像素点之间的权值与其它像素点无关的特点,启动多个平行线程,每一个线程负责计算两像素点间的权值,这种方法加速相似矩阵计算.(3)利用并行规约算法替代传统的数组求和,设计一种高速并行矩阵乘法替代串行的矩阵乘法,由于数组求和和矩阵乘法在Normalized Cut算法中出现频率高,提高这两种算法的执行性能会显著地提高整体算法的效率.(4)在求解矩阵特征值阶段,论文改进了传统的二分法(Bisection),使其平行地计算同层区间结点的子区间结点.求解矩阵特征值是整个算法较耗时的过程之一,并行化求解矩阵特征值会对提高整体算法的性能有重要意义.(5)实验结果证实了Normalized Cut并行算法不仅能正确分割图像,而且在性能方面获得了2.34倍的加速.

薛羽^[6]2013年在《仿生智能优化算法及其应用研究》文中指出科学研究和工程应用领域经常遇到优化问题，如何设计有效的模型和算法求解这些优化问题一直是一个研究的热点。如，在电子对抗研究领域，国内外协同作战研究方面存在的武器-目标分配问题，这是一个典型的组合优化问题，本文针对电子对抗中的协同干扰问题建立了适合仿生智能优化算法求解的数学模型，并重点研究了如何改进现有仿生智能优化算法求解该模型。关于仿生智能优化算法，在理论和应用上需要进一步的研究，目前已有的IIGA等算法在背景项目的应用中仍然存在许多问题有待研究解决。其中，下面三个方面的不足最为研究人员关注：(1)算法的普适性、鲁棒性仍然有待提高。(2)算法的延展性不够，算法性能随着优化问题规模的增大而迅速降低。(3)已有算法如何应用于工程优化问题还需要进一步的研究。论文工作在分析前人已有成果的基础上，重点对(1)和(3)两个问题开展了仿生智能优化算法及其应用的研究工作。本文主要研究成果概括如下：(1)增强型自适应进化算法提出了增强型自适应进化算法(ESEA)。设计了贪婪繁殖算子、策略选择算子、X进化算子、种群多样性维持算子和进化策略学习算子来组成算法的进化结构；设计了多种有效的进化策略，即候选解产生策略；设计了概率选择策略并用于进化种群中的个体，采用改进的概率模型计算策略被选择的概率；引进了一种学习机制，可根据策略在进化过程中的表现自适应地学习每种策略的选择概率。通过对比实验发现提出的增强型自适应进化算法相比同类算法提高了普适性和鲁棒性，并且新的操作算子、多进化策略和自适应学习机制对算法性能的提升起重要的作用。(2)基于自适应学习群体搜索技术的集成进化算法针对第一算法难以适应战场态势多变、战场投入的武器和目标规模与日俱增的问题，提出了基于自适应学习群体搜索技术的集成进化算法(EEA-SLPS)。算法采用了多种群随机搜索技术和并行工作机制。与增强型自适应进化算法相比，本算法的主要特点在于集成了多种随机搜索技术，并使它们以有效的方式进化子种群。在该算法中，将整个进化群体分成三个子群体，并采用三个子算法分别对子群体进行进化。论文设计了多种不同性质的信息交流方式(IEMs)。做了大量的IEMs性能测试实验。通过对实验数据结果的分析，发现信息交流方向应由包含整个种群最优解的子群指向不包含整个种群最优解的子群，交流方向不应该是预定义的，应是动态自适应的。对比实验结果表明所设计的算法比同类算法在鲁棒性和普适性上均有所提高。(3)求解协同干扰决策问题的启发式自适应离散差分进化算法针对现代作战环境中多UCAV (Unmanned Combat Air Vehicle)协同对抗多部威胁雷达任务规划这一军事运筹决策问题，提出了基于多指标干扰效能综合评估方法的多UCAV协同干扰决策问题优化模型。为了有效求解多UCAV协同干扰决策问题模型，提出了启发式自适应离散差分进化算法。为了提高算法求解特定领域问题的效率，设计了基于威胁度的扩展型整数编码方案、基于威胁度的启发式个体调整操作和基于约束满足的个体修复等操作。实验结果表明提出的启发式自适应离散差分进化算法相比同类算法具有更高的鲁棒性和更好的求解效率。(4)自适应离散差分进化算法策略选择提出了求解协同干扰武器目标分配问题(CJWTA)的自适应离散差分进化(SaDDE)算法。好的策略池决定SaDDE算法的主要性能。论文中引入了基于相对排列顺序的标度法（RPOSM)，通过RPOSM改进了层次分析法，提出了基于RPOSM的层次分析法(RPOSM-AHP)以解决策略选择问题，通过理论和实验数据结合的方法给出了解决策略选择问题的可行方案。

吴东阳^[7]2017年在《三维涡流场单元级别并行算法研究及应用》文中指出在工程电磁场应用领域,随着科学技术的发展,输变电设备的单台容量不断增大,结构也更加复杂,由涡流产生的局部过热问题愈加严重,精确计算热点损耗及分布显得极为重要。然而,由于实际设备物理模型的不对称性,必须对整体模型进行数值模拟,而且求解区域往往包含小透入深度的铁磁物质,有时还要考虑铁磁材料的非线性、各向异性特性以及铁芯叠片材料的不连续性,造成计算规模庞大。工程电磁场数值计算中,目前应用最为广泛的有限元数值分析技术,具有适用性强、易于编程等优点,但是由于该方法需要形成总体系数矩阵,而且通常为了获得更高的精度要求以满足工程要求,需要更精细的剖分,造成计算时间冗长,计算精度与计算规模矛盾凸显。因此,采用现有的串行有限元方法和基于CPU的计算机软硬件很难满足其快速、高效的计算要求。因此,研究高效的数值分析技术与采用高性能计算设备越来越具有重要性。为解决这一问题,本文主要完成了以下研究工作:(1)提出一种新型基于单元级别的涡流场并行有限元(EBE-PFEM)算法。EBE方法不需要形成整体系数矩阵,求解过程在单元级别上实现,只是特定的时间需要单元间的通信,因此具有高度并行性质,适合并行计算。为实施所提出的算法,建立了基于EBE策略的二维、三维涡流场数学模型,推导了离散化过程。(2)建立CPU-GPU异构并行计算平台。本文将EBE方法及GPU(图形处理单元)并行计算平台应用于工程涡流场数值计算中。在该平台中,CPU负责数据输入与逻辑控制,GPU负责计算密集的大规模数据操作,利用GPU的数据吞吐能力强、并行计算单元多两大优势,实现CPU-CPU异构计算。分别基于CUDA(统一计算设备架构)和AMP(大规模并行加速)并行架构,开发了适用于涡流问题以及GPU并行加速的基于EBE策略的共轭梯度法(EBE-CG),以及基于EBE策略的预处理共轭梯度法(EBE-PCG),实现工程涡流场的数值求解。亦即从算法创新与实施及新的软硬件平台两个方面解决三维涡流场大型工程问题的计算规模、计算速度与计算精度的矛盾,为输变电设备制造提供可靠的数值模拟数据作为设计依据。(3)提出一种基于分块方法的预处理技术—广义雅可比预处理技术。EBE方法已在力学领域应用多年,并已初步应用于静态电磁场问题的求解,但是至今未能用来进行涡流场计算,这是由涡流问题的特殊性引起的。共轭梯度法是求解线性方程组最主要的方法之一,当系数矩阵为对称正定时,该方法能够快速收敛。然而在三维涡流场的数值计算中,经有限元方法离散化后得出的系数矩阵为对称非正定,因此需要采用预处理技术来改善收敛性。同时,对于不需要建立总体系数矩阵的EBE法,在传统有限元方法中高效的预处理技术如ICCG法(不完全乔列斯基-共轭梯度法)将不再有效。本文在雅可比(Jacobi)预处理技术上,提出一种基于分块技术的预处理方法,并将该方法应用到含有铁磁材料的三维涡流场的数值计算中,以加速收敛。(4)算例验证,采用Microsoft Visual C++编程语言进行程序编制,实现工程涡流场的并行求解。为了验证程序的正确性,本文从二维涡流场出发,以具有解析解的算例—电机开口槽的趋肤效应为例,采用了基于雅可比预处理技术的共轭梯度(EBE-JPCG)法,在CUDA并行架构上求解了二维涡流场,通过数值解与解析解的对比,验证了EBE并行求解过程的正确性。然后将基于单元级别的并行有限元算法及GPU并行运算平台应用到三维涡流场的数值计算。分别使用CUDA和AMP两种并行架构,以国际标准算例TEAM Workshop Problem 7为例,并行求解了模型的涡流场,将计算值与试验值进行对比,结果证明了本文提出方法的正确性及有效性,并最大取得了4倍左右的加速比。在Problem 7中,涡流区的导电媒质为铝板,与空气具有相同的磁导率,系数矩阵的性状较好,因此采用雅可比预处理即可收敛。为了增加求解方程组的条件数,提高计算收敛的难度,本文将Problem 7算例中的铝板改为铁磁材料,采用改进型的基于分块预处理技术进行求解,验证方法的正确性及有效性,最后将该方法应用到产品级模型—单相变压器的三维涡流场并行计算中,给出了涡流分布,数值实验结果验证了单元级别并行有限元方法在求解大规模三维涡流场中的有效性。

杨劼^[8]2012年在《面向多核系统的科学计算核心算法并行化研究》文中提出加速未来大规模科学计算的一种趋势是使用异构多核／众核系统。然而,相对于硬件系统的飞速发展,软件并行编程模型,特别是针对异构多核平台的并行模型发展相对滞后。如何在异构多核环境下充分利用硬件提供的并行计算能力,提高并行计算执行效率,成为当前并行编程工作的首要任务。为解决这一问题,本文提出了一种适用于异构多核系统的并行计算模型MS-BSP,与传统的通用BSP并行计算模型相比,可以更好地反映不同类型的任务分配到不同类型的处理器核并行处理的特征,指导在此类异构多核系统上的并行科学计算算法的设计和分析。在此种模型下,本文提出科学计算并行化编程框架。与IBM的Cell和Nvidia的CUDA架构下复杂的编程方式相比,MS-BSP模型下的编程方式将多线程的核函数映射工作交由系统自行完成,减少了开发人员对存储单元和同步机制的繁琐的显式操作,方便了编程。最后,本文在RED平台上按照MPI规范实现了并行编程与操作系统的接口,完成了对MPI函数的兼容,提高了所提出并行编程模型的可移植性。在此套并行化框架指引下,将科学计算应用领域中的六种核心算法进行并行化设计和优化,并在“浙大数芯”实验室设计开发的RED片上多核平台和IBM的成熟商业处理器Cell平台上进行实现和对比评估,验证了我们提出的并行计算模型的实用性以及高效性,最终六个算法在两个平台上都达到了较高性能。由于MS-BSP模型在RED平台上针对其主从式异构多核架构进行优化,使得任务调度开销显著减小,其实现效率(效率定义为并行加速比与实际加速核数目的比值)不低于75.67%,而在已有的Cell平台上,其实现效率不低于63.91%。

曲海成^[9]2016年在《面向光谱解混的高光谱图像快速处理技术研究》文中认为高光谱传感器空间分辨率、光谱分辨率的不断提高以及对同一地物场景的连续观测,产生了大量宝贵的高精度数据,为高光谱数据的处理及应用带来更多机会。然而其巨大的数据量及算法复杂性的增加,也给其应用带来不少挑战。当前大部分高光谱图像处理算法要求计算系统具有快速的数据分析与处理能力,以及模块化的业务处理模式。光谱解混是高光谱图像处理研究的重要分支,也同样需要高效的并行处理算法和高性能的硬件加速技术来支持系统运行。基于CPU/GPU协同的细粒度线程级并行计算技术为加速光谱解混处理带来新的途径。本文围绕高光谱解混相关的快速处理技术开展了一系列研究工作,为进一步挖掘高光谱数据的应用潜能,拓展其应用研究领域奠定了基础;高光谱特有的快速图像处理理论的研究,具有一定的理论意义和研究价值。论文首先进行了高光谱解混算法可并行分析及细粒度并行化设计。研究从高光谱图像数据自身存储结构特点、典型解混算法处理过程中任务依赖和数据依赖关系入手,从算法并行化设计和硬件加速实现两个层面进行分析研究,研究了不同粒度下,硬件自身属性、算法特性和数据规模及存取方式等因素对高光谱图像解混处理算法并行化实现性能影响规律。为解决特定算法性能优化空间不明确问题,引入PCAM(划分-通信-组合-映射)设计思想,将高光谱数据存储结构、数据传输方式(同步/异步)、细粒度线程分配、算法计算复杂度等因素联合考虑,提出了CPU/GPU协同计算模式下基于小波神经网络的高光谱数据、算法和硬件“三位一体”算法加速性能分析评估模型,为取得全局最佳加速比提供了科学依据。接着重点研究了高光谱解混预处理及相似度量算法快速处理。前者用于高光谱数据快速降维处理,后者在解混精度分析中采用。高光谱数据降维处理中,重点研究了基于主成分分析的高光谱数据快速降维处理技术,采用基于CPU和GPU混合并行技术进行算法并行化设计和实现。针对主成分分析算法中最耗时部分,分别采用QR迭代和NIPALS法进行特征值和特征向量的求取,当提取主成分数目较少时,NIPALS法效率较高。为保证提取的主成分间的正交性,提出了一种基于Gram-Schmidt正交变换的NIPALS-PCA改进算法,在不明显增加计算量的前提下,使得提取主成分间保持正交性。光谱相似度量算法快速处理方面,分别对欧式距离、光谱角匹配、光谱信息散度以及它们之间的组合度量尺度算法进行并行化设计与实现。为提高光谱匹配的精度和速度,提出了基于核变换的KSAM-SID组合光谱度量算法,在保证匹配效果的前提下,采用GPU进行加速实现,提高了算法执行效率。上述工作为高效光谱解混链路快速实现奠定了基础。在上述研究基础上,围绕面向GPU加速的高光谱解混算法及其并行化设计及验证开展研究工作。高光谱解混算法并行化设计中,以伯克利并行设计模式为基础,结合高光谱图像数据三维立方体存储格式、算法处理过程中按像素排列依次处理以及GPU单指令多线程体系结构特点,设计了面向光谱解混处理的GPU加速算法实现框架。重点研究了线性光谱混合模型下基于空间几何结构的端元提取算法以及全约束最小二乘丰度估计算法的并行化设计。将不需要降维的凸面单形体体积计算理论引入N-FINDR和SGA算法中,结合VD和HySime的初始端元数目确定方法,构建了一种新的基于线性光谱混合模型的自动近实时光谱解混算法;同时为加快实际应用中处理速度,提出了满足一定计算精度条件下,基于GPU的细粒度并行优化策略;为降低端元提取算法计算复杂度,从行列式分解计算入手,引入分块行列式计算来降低算法复杂度,实现了快速自动高精度光谱解混。最后,在完成高光谱解混链路快速实现基础上,结合应用评价CPU/GPU协同模式下高光谱图像解混处理算法并行实现的效果。从计算精度、加速效果及硬件性能发挥等方面验证了方法的合理性、有效性,并进一步进行了算法改进和程序优化。

胡文科^[10]2008年在《石英晶体板高频振动的并行有限元分析》文中指出由于较小的体积和较好的温度稳定性,AT切石英晶体谐振器被广泛地应用于频率控制领域。近些年来,高新技术的发展对石英晶体谐振器的性能提出了更高的要求,比如更小的体积和更高的频率等。随着石英谐振器向小型化和高频化发展,产品开发技术给石英晶体板振动的精确分析带来了极大的挑战。通常可以借助基于三维压电弹性理论和Mindlin高阶板理论的有限元法对石英谐振器进行分析。但此类分析对计算机性能及计算方法提出了较高的要求,也就需要寻求先进的计算方法及高效的并行计算技术。本文首先详细的介绍了Mindlin高阶板理论及其有限元实现,利用稀疏矩阵存储技术重写了数据的存储部分。接着,应用隐式重启动Arnoldi方法,并在ARPACK特征值求解包的基础上,采用Fortran语言,编写了新的有限元特征值计算程序。随后,通过消息传递MPI并行编程环境,编写了针对机群的特征值并行计算程序,并将其与有限元程序相结合,形成了并行有限元程序。作为算例,对矩形石英晶片和圆形石英晶片进行了高频振动分析,计算结果与著名的Koga实验结果符合的较好,从而验证了本文方法的有效性和程序的正确性。与此同时,对并行程序的求解时间做了比较,验证了并行有限元程序的并行计算效率。本文的结果表明,将稀疏矩阵处理技术和最新的特征值求解方法与并行计算技术相结合,可以有效的提高有限元程序的运行效率。本文完成的并行有限元分析程序为满足实际石英晶体谐振器的精确设计打下了良好基础。

参考文献：

[1]. 层次存储系统与矩阵特征值高性能计算的研究[D]. 甘奇韬. 中国科学院研究生院（计算技术研究所）. 1997

[2]. 高性能计算机的存储方法研究[D]. 李恩有. 中国科学院研究生院（计算技术研究所）. 1997

[3]. 面向桌面系统的高光谱遥感影像线性降维异构并行算法研究与实现[D]. 汤媛媛. 国防科学技术大学. 2015

[4]. 基于FPGA的矩阵特征值并行计算研究[D]. 李平. 重庆大学. 2013

[5]. 基于Normalized Cut的图像分割及其CUDA并行实现[D]. 黄先楼. 北京交通大学. 2014

[6]. 仿生智能优化算法及其应用研究[D]. 薛羽. 南京航空航天大学. 2013

[7]. 三维涡流场单元级别并行算法研究及应用[D]. 吴东阳. 沈阳工业大学. 2017

[8]. 面向多核系统的科学计算核心算法并行化研究[D]. 杨劼. 浙江大学. 2012

[9]. 面向光谱解混的高光谱图像快速处理技术研究[D]. 曲海成. 哈尔滨工业大学. 2016

[10]. 石英晶体板高频振动的并行有限元分析[D]. 胡文科. 宁波大学. 2008

标签：计算机硬件技术论文; 并行计算论文; 矩阵特征值论文; 高性能计算论文; 矩阵乘法论文; 矩阵变换论文; 光谱分辨率论文; 矩阵转置论文; 并行处理论文; 异构计算论文; 矩阵分解论文; 层次模型论文; 优化策略论文; 涡流损耗论文; 策略模式论文; 光谱论文; 算法论文;

层次存储系统与矩阵特征值高性能计算的研究

猜你喜欢