并行数据库系统PBASE/2查询处理技术

并行数据库系统PBASE/2查询处理技术

文继荣[1]1999年在《并行数据库系统PBASE/2查询处理技术》文中研究表明本文论述我国自行研究开发的一个并行数据库系统PBASE/2的核心技术——并行查询处理技术的理论研究和系统实现。 本文共分三个部分。 第一部分是对PBASE/2并行数据库系统的综述。首先提出了一个基于Shared-nothing结构的抽象并行计算模型APCM。然后从整体上描述了PBASE/2系统的体系结构。最后提出了PBASE/2的并行查询执行计划模型,并行查询执行计划模型是并行查询处理的基础和出发点。 并行查询处理由并行查询执行和并行查询优化这两个既独立又相关的部分构成,本文的第二部分介绍PBASE/2的并行查询执行引擎——虚拟数据库机。虚拟数据库机是建立在通用硬件平台上的一个软件抽象层,由虚拟处理机、虚拟数据总线、虚拟主存三部分组成。虚拟处理机管理系统的CPU资源,执行各种数据操作;虚拟数据总线负责操作间数据和消息的传输和控制,构成了整个系统的联系枢纽;虚拟主存提供基于数据存取行为特性的存储和缓冲机制。虚拟数据库机结构简单清晰,具有高伸缩性、高扩展性、高效性等优良特性,为PBASE/2提供了一个优良的并行查询执行引擎。 第三部分介绍并行查询处理的另一个部分——并行查询优化。为了缩减并行查询优化庞大的搜索空间,PBASE/2采用了一种能够适用于Shared-nothing结构的非常独特的两阶段优化策略。PBASE/2将并行查询优化划分为顺序优化和并行化两个阶段。在顺序优化阶段,PBASE/2对并行化后的通信代价进行预先估算,将通信开销加入顺序优化的代价模型,同时对动态规划搜索算法进行了修正和扩展,保证了顺序优化阶段得到的最小代价计划在并行化后代价仍然最小。PBASE/2并行化阶段的优化目标是实现查询工作量在系统内多种资源上的负载平衡,提出了资源负载平衡因子的概念,并且通过启发式规则、基于动态规划并行化算法和任务调度等机制保证了最终得到的并行查询执行计划的优化性。

陈红[2]2000年在《并行多查询处理关键技术研究》文中提出本文讨论了并行数据库中的多查询处理技术,提出了具有自适应性的多阶段并行多查询处理方法MP~2,它比较有效地克服了传统多查询处理方法的缺点。 本文提出并证明了判定公共操作符性质的方法;形式化地描述了强共享和弱共享两类提取方法,证明了其提取公共操作符的正确性,以及重写后查询与原查询的等价性:提出并证明了强弱公共操作符为胖、瘦、普通、全等公共操作符的充要条件;深入分析和比较了不同情况下利用不同性质的强弱公共操作符的代价;提出了一套完整的选择公共操作符提取方法的规则,为提取公共操作符提供了理论依据。 本文提出了一种基于启发式规则的分层搜索加后序遍历搜索的为两个查询并行提取公共子计划的着色算法。该算法通过结点着色和公共操作符聚集来缩减搜索空间和加快搜索过程,它能够对各种操作符进行更细粒度的共享,解决了多连接操作符连接顺序对共享的影响,在一定程度上解决了多个相同集合操作符顺序对共享的影响,并且能够比较有效地消除不同提取方法的干扰。基于此算法又提出了一种为多个查询提取公共子计划的局部合并加全局合并的并行多路分组追加合并方法。 为使多查询代价优化能够并行进行,本文提出了三种在多处理机上分布待优化操作符树的方法;提出了利用单查询优化中间信息的多查询操作符树集合的代价优化;提出了三种不同的计算多查询计划总执行代价的方法。 多查询任务依赖关系的复杂化导致了多查询调度的复杂化。本文提出了一种介于静态和动态之间的启发式任务划分方法,可以较低开销达到类似于动态划分方法的效果。提出了以二维任务依赖图来刻画多查询任务间的复杂依赖关系。提出了以充分利用资源为目标的基于任务依赖图的类深度优先多查询任务调度算法。采用了合并实体化方法来减少公共中间结果集的重复分布。改进了中间结果的封锁机制以及存储和缓冲机制,使之能适应公共中间结果的需要。 除与并行有关的结论外,本文其他结论同样适用于传统关系数据库,可用于改进传统关系数据库中的多查询处理。

周胜[3]2000年在《并行数据库系统PBASE/3数据缓冲技术研究》文中研究指明早期并行数据库系统的研究重点主要集中在并行数据库的物理组织、操作算法、优化和调度策略上,而对于具体的执行机制则很少涉及,实际上系统资源管理的效率特别是缓冲区管理的效率是影响数据库系统性能的一个重要因素,本文将结合我们自己的PBASE/3系统对并行数据库系统的数据缓存技术展开研究。 本文首先根据数据缓冲的粒度、以及数据的共享级别将数据缓冲技术分为四类:基表页面缓冲、临时表页面缓冲、复杂操作中间结果集缓冲,以及多查询公共结果集缓冲,然后分别就这四种缓冲技术展开分析。 在本文的第一部分,首先详细分析了PBASE/3系统中不同数据库操作的行为模式,并根据不同的数据操作模式提出了操作内的数据缓冲管理策略,然后进一步综合考虑操作竞争和系统优化信息,提出了一种抢占式的基表页面缓冲区管理策略。 本文第二部分的研究重点是查询内的数据缓冲问题,具体可以分为两类:临时表页面缓冲和复杂操作中间结果集缓冲。在第二部分中,首先分析了临时表的基本访问模式,比较了基表缓冲和临时表缓冲的异同,提出了一个统一的管理策略。 复杂操作结果集的缓冲技术(我们称为CACHE技术)是针对循环执行的复杂操作而提出的,在本文的第二部分用四章的篇幅对这个问题展开研究。首先分析了应用这种缓冲模式的环境及其基本特点,然后提出了集中式环境下,CACHE技术的两种基本结构,并针对CACHE的基本特点提出了独特的管理策略LRV。由于我们的研究目标是并行数据库,所以我们进一步分析了并行环境下CACHE技术的基本问题,提出了两种基于并行环境的CACHE结构,以及相应的管理策略。在第二部分的最后,本文从代价优化和负载平衡的角度分析了不同CACHE结构的优劣,并提出了一种主动调度策略适应并行CACHE结构的需求。 本文第三部分的研究重点是多查询公共操作CO的结果集共享。CO结果集缓冲技术的独特性在于它兼具磁盘页面缓冲和操作结果集缓冲的特点,所以在处理多查询处理时,以磁盘页面缓冲技术为基础,同时考虑到多查询应用环境的特殊性,充分利用多查询优化调度器提供的启发式信息指导缓冲区管理,以提高多查询缓冲的效率。

陈红, 王珊, 文继荣[4]2000年在《并行数据库系统PBASE/2的查询优化机制》文中进行了进一步梳理并行查询执行计划的搜索空间里指数级增长,如何高效地裁剪搜索空间是并行查询优化的关键所在。PBASE/2以流机制为基础,采用基于代价估算和启发式规则的改良的两阶段优化技术,有效地解决了这一问题。

文继荣, 陈红, 王珊[5]2000年在《Shared-nothing并行数据库系统查询优化技术》文中进行了进一步梳理查询优化是并行数据库系统的核心技术 .该文介绍作者自行研制的一个 Shared- nothing并行数据库系统PBA SE/ 2中独特的两阶段优化策略 .为了缩减并行查询优化庞大的搜索空间 ,PBASE/ 2将并行查询优化划分为顺序优化和并行化两个阶段 .在顺序优化阶段对并行化后的通信代价进行预先估算 ,将通信开销加入顺序优化的代价模型 ,同时对动态规划搜索算法进行了修正和扩展 ,保证了顺序优化阶段得到的最小代价计划在并行化后代价仍然最小 .并行化阶段的优化目标是实现查询工作量在系统内多种资源上的负载平衡 ,提出了资源负载平衡因子的概念 ,并且通过启发式规则、任务调度等机制保证了并行查询执行计划的优化性 .

李纪华, 王珊[6]1997年在《基于Shared-Nothing结构的并行数据库系统PBASE/2的查询调度策略》文中认为本文提出了一个切实可行的基于SN结构的并行操作调度算法,从调度控制结构、调度通信结构、调度算法等几个方面进行了详细讨论,通过利用AIX操作系统提供的多线索机制,在用户级、查询级、操作级以及操作内实现了灵活调度。

于翌艟, 王珊[7]1997年在《并行数据库PBASE/2的查询优化技术》文中研究表明基于SN结构的并行数据库系统是数据库的发展趋势,查询优化是提高数据库系统性能的关键环节。PBASE/2系统是基于SN结构的并行数据库管理系统,本文详细阐述了PBASE/2系统采用的查询优化技术。PBASE/2系统采用两阶段的查询优化方法,优化过程分为编译时独立于系统资源的静态优化和执行时依赖于系统资源的动态优化,并引入了CHOOSE-PLAN结点和交换子技术。

陈红, 文继荣, 王珊[8]2000年在《基于流机制的并行查询执行技术》文中研究指明1 引言在并行数据库的研究中,查询执行计划的调度与执行因其复杂性而受到人们的关注。查询优化时,优化器必须采用有效策略大幅度裁剪搜索空间,以降低优化开销,但这很可能会丧失掉更优的执行计划。另一方面,当系统吞吐量很高时,一个查询从优化到执行可能有一个较大的时间差,在查询计划执行时一些重要系统参数可能已经发生了较大变化,从而使该执行计划变得不优甚至难于执行。目前解决这一问题的一种方法是将查询优化与查询执行分开,在查询执行阶段通过有效的调度策略来弥补查询执行计划的缺陷,并进一步平衡系统的负载。

张滨, 陈吉荣, 乐嘉锦[9]2014年在《大数据管理技术研究综述》文中研究表明大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化、软件系统开源化等特点。传统关系型数据库在对大数据进行操作时,系统性能严重下降。因此,大数据管理技术研究成为当前研究热点。分别从并行数据库,面向大数据处理的MapReduce模型,NoSQL与数据库技术的对比以及MapReduce与数据库技术相结合四个方面,对国内外的研究发展状况进行分析和评述,最后展望了未来大数据研究发展方向。

陈红, 文继荣, 王珊[10]1999年在《PQE:一个并行查询执行器》文中研究指明以流机制为基础,依据流的静态特征,调用流的管理机制调度和执行任务,并通过有效的调度和协调策略,静态和动态地修正执行计划,平衡系统的负载.

参考文献:

[1]. 并行数据库系统PBASE/2查询处理技术[D]. 文继荣. 中国科学院研究生院(计算技术研究所). 1999

[2]. 并行多查询处理关键技术研究[D]. 陈红. 中国科学院研究生院(计算技术研究所). 2000

[3]. 并行数据库系统PBASE/3数据缓冲技术研究[D]. 周胜. 中国科学院研究生院(计算技术研究所). 2000

[4]. 并行数据库系统PBASE/2的查询优化机制[J]. 陈红, 王珊, 文继荣. 计算机工程. 2000

[5]. Shared-nothing并行数据库系统查询优化技术[J]. 文继荣, 陈红, 王珊. 计算机学报. 2000

[6]. 基于Shared-Nothing结构的并行数据库系统PBASE/2的查询调度策略[C]. 李纪华, 王珊. 数据库研究进展97——第十四届全国数据库学术会议论文集(上). 1997

[7]. 并行数据库PBASE/2的查询优化技术[C]. 于翌艟, 王珊. 数据库研究进展97——第十四届全国数据库学术会议论文集(上). 1997

[8]. 基于流机制的并行查询执行技术[J]. 陈红, 文继荣, 王珊. 计算机科学. 2000

[9]. 大数据管理技术研究综述[J]. 张滨, 陈吉荣, 乐嘉锦. 计算机应用与软件. 2014

[10]. PQE:一个并行查询执行器[C]. 陈红, 文继荣, 王珊. 第十六届全国数据库学术会议论文集. 1999

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

并行数据库系统PBASE/2查询处理技术
下载Doc文档

猜你喜欢