基于多维压缩数组存储结构的并行联机分析处理操作算法研究

基于多维压缩数组存储结构的并行联机分析处理操作算法研究

张德辉[1]2001年在《基于多维压缩数组存储结构的并行联机分析处理操作算法研究》文中提出数据仓库是一个新的研究领域,国内刚刚起步,研究成果很少,研究工作比较零散粗略。 本文在吸取前人经验的基础上提出了基于多维压缩数组存储结构的并行和顺序数据仓库操作算法。 这些算法充分利用了多维数组存储结构的特点,以计算机机群并行环境为基础支持一大类数据压缩方法。这些算法直接在压缩的数据上进行操作运算,不需对数据进行解压缩,因而获得了很高的效率,赢得了宝贵的时间,有效的支持了数据仓库的用户要求,满足了数据仓库对大数据量的性能要求。这些算法适用于多种常用的数据压缩方法。其性能是操作对象的参数和主存储区容量的函数。 此外,本文在并行环境下设计了一种新的数据通信方式,缩短了数据通信的时间,解决了并行算法中的瓶颈问题。

王大威[2]2001年在《基于属性划分存储结构的并行联机分析处理操作算法研究》文中研究表明数据仓库是存储供查询和决策分析使用的集成化和历史化数据的仓库,通过提供联机分析处理应用,为复杂数据分析和高层决策提供有效支持。联机分析处理(OLAP)是数据仓库系统的最主要应用之一,OLAP的性能直接影响数据仓库系统的性能。本文以计算机机群计算并行系统为并行计算环境,充分利用了一种新的高效存储结构——属性划分存储结构的特点,提出了一组基于属性划分存储结构的并行OLAP操作算法。所有并行操作算法已经用于我们自行研制的并行数据仓库管理系统。理论分析和实验证明,并行算法具有很高的效率和加速比。

冯玉[3]2002年在《数据仓库环境中近似查询处理技术研究》文中进行了进一步梳理在数据仓库上的许多决策支持应用需要在大数据量上进行复杂的查询,由于大数据量以及查询的复杂性使得一个查询的执行通常需要很长时间,显然不能满足用户的需求,有时为了提高系统的响应时间,用户可以容忍一些查询结果的精度,因此近似查询处理技术成为有效解决这一问题的方法。数据仓库环境中的许多应用模式都对近似查询技术提出需求。例如,我们在做OLAP分析时,在一个钻取(drill-down)查询序列中,最初查询的目的就是为了决定我们真正感兴趣的数据,给这些查询提供快速、近似的查询结果可以使用户尽快找到有用的数据。在数据仓库上的许多决策支持应用中的查询目的着重于分析数据间的关联关系或发展趋势,有时在做聚集集查询时,对查询结果的要求并不需要精确到小数点。本文主要研究在数据仓库环境中的近似查询处理技术,根据数据仓库中数据和OLAP查询的特点,提出了基于聚类技术的近似查询处理方法(Cluster-based Approximate Query Processing method,简记为CAQP),其主要思想是对数据仓库中数据方体的数据进行分块,每块数据相当于多维空间中的一个点,采用聚类技术对数据方体中的这些数据块聚类,对于每个cluster,使用其中心点的值代表其中所有的数据块,对数据方体进行压缩,以后的查询操作则直接在压缩的数据结构上进行,减少查询处理时的I/O开销,从而提高查询性能。本文首先对聚类技术进行了深入的研究,提出了基于方格和密度的新聚类算法SCARG,它的基本思想是把整个数据空间划分成矩形区域,如果一个区域的密度大于一个阀值,则该区域是一个密集区域,把所有相关联的密集区域连接起来,构成一个Cluster。本文采用移动中心点的技术,对聚类结果进一步细化,提高聚类的精度。SCARG算法兼具了基于方格算法的处理速度和基于密度方法处理任意形状cluster的能力。本文还通过人工合成数据和Benchmark数据进行实验,与其它着名的聚类算法(DBSCAN,CLARANS)对比,验证了SCARG算法的有效性和性能。同时,本文还给出了SCARG算法的并行版本PSCARG,该算法充分利用硬件资源,进一步提高了对海量数据的处理能力。本文在深入研究了聚类技术的基础上,又对基于聚类的近似查询处理的关键技术进行研究,即对于数据仓库中的数据,如何采用聚类技术进行近似查询处理,主要包括数据的预处理、聚类的分层计算以及数据的增量维护算法等。针对数据仓库上的常用操作,本文设计了数据的存储结构,给出了在数据方体压缩结构上进行查询处理的算法,并给出了对查询结果集置信区间的估算方法,并通过实验与抽样技术对比,说明了CAQP方法的有效性和可扩展性。本文对近似扩展数据方体技术进行了研究。近似扩展数据方体是由2n-1个子方体组

梁经纬[4]2013年在《基于多核CPU的数据立方体并行计算方法研究》文中进行了进一步梳理随着大数据时代的到来,联机分析处理领域也面临大数据的严峻挑战。联机分析处理以多维分析为基础,根据用户需求构造数据立方体,对数据立方体进行处理加工后将结果展示给用户。数据立方体的计算在联机分析处理领域一直是研究的热点,在数据量不断增多,维度不断增加的情况下,传统的数据立方体的计算遇到严重瓶颈——难以在有限的时间内完成高维度、大数据量的数据立方体的计算。随着近年来多核CPU的普及和应用以及内存容量的不断增长,如何建立基于内存的数据结构并高效利用多核CPU的并发处理能力来处理海量高维度的数据立方体成为研究的热点。本文提出了基于内存的立方体树数据结构模型,提出了基于多核CPU的多线程高维立方体生成低维立方体的算法,加快了立方体的生成速度。针对数据立方体的生成问题,本文的主要研究内容如下:(1)对数据立方体的基础知识和数据立方体聚集运算中聚集函数的分类以及基于数据立方体的基本操作进行了总结,对一些经典的数据立方体进行了描述;(2)深入讨论了统计树以及基于统计树的算法,针对其占用存储空间较大的缺点提出了立方体树存储结构,以及利用多核CPU并行创建立方体树的算法;(3)提出了基于立方体树存储模型的高维立方体生成低维立方体的断层重排算法,并基于多核CPU对该算法进行了并行化实现,并通过实验证明了该算法的高效性。

顾颀[5]2007年在《OLAP系统中Cube并行与分布式处理技术的研究》文中认为数据立方体(Data Cube,Cube)是一项可对数据仓库中的数据进行快速访问的技术,它是联机分析处理(On-Line Analytical Processing,OLAP)的主要对象。决策分析者可以在Cube中享受高效率的数据访问,快速获取有用的决策信息。在本文中,我们提出了在并行环境下建立基于高维数据的Cube数据存储和OLAP查询分析系统,以及在网络环境下建立基于海量痕迹数据的Cube数据存储和OLAP查询分析系统,并给出了该方面工作的进一步研究思路。随着数据仓库中数据规模的不断增大,Cube的维度和维度的层次结构日益复杂,在单处理机上物化整个Cube,无论在计算时间还是存储空间上的代价都十分昂贵。尽管采用了许多改进的算法及Iceberg Cube,Condensed cube,Dwarf等Cube压缩技术,也不能从根本上解决高维数据的Cube存储问题,并行技术为我们解决这一问题提供了新思路。本文针对高维数据所引起的“维灾”,提出了一种并行环境下的高效存储结构——HDCube(High Dimensional Cube),HDCube通过分段划分策略将高维层次数据根据节点的个数划分成若干个低维层次数据,利用并行处理技术创建各个节点上的LDCube(Low Dimensional Cube),同时充分利用维属性具有层次性的特点,采用基于维层次编码(Dimenison Hierarchical Encoding,DHE)的索引技术,生成各个维的维层次编码表来代替维表中原关键字,在实现维关键字压缩的同时加快了Cube中的数据检索速度。然后结合并行处理技术,建立了并行环境下的HDCube数据存储与OLAP查询分析系统,对HDCube进行并行创建与增量更新维护,并给出了HDCube的并行查询处理及优化算法。理论分析和实验证明,相对于以往的完整物化和部分物化等传统方法,我们提出的并行环境下的HDCube性能有显着的提高,具有很高的效率和加速比。OLAP除了在传统领域,如金融、保险、电信等行业中的特定应用之外,在物流行业的发展也很广阔。我们结合危险品运输过程中产生的海量痕迹数据,提出了海量痕迹数据的Cube存储结构——MTCube(Massive Trace Cube),MTCube适用于实际应用中普遍存在的海量痕迹数据,它在根据痕迹数据特性大幅度压缩数据的同时,通过层次前缀痕迹(Hierarchy Prefix Trace)和层次前缀标识(Hierarchy Prefix ID)在存储结构中记录数据的痕迹,帮助用户在跟踪危险品的同时,能从庞杂的数据中进行信息提炼,分析现在的、有用的关系和模式,为复杂数据的分析和高层决策提供更有效的支持。由于痕迹数据往往是海量的、地理分布的,同时查询复杂化和显示多样化的需求不断地增加,原有的集中式管理已经越来越表现出其局限性。为此我们提出了建立网络环境下的MTCube数据存储与OLAP查询分析系统,它由若干个本地站点的局部Cube/OLAP系统(Local Cube/OLAP System,LCOS)组成。理论分析和实验证明,我们提出的MTCube在对数据进行高度压缩的同时,可以支持对危险品的有效监控和风险预测。

孔德松[6]2006年在《对多维数据存储技术的研究》文中研究说明在目前激烈的市场竞争中,企业要想在竞争中立于不败之地,决策者必须要做出快速、及时、准确的决策。这些决策的选择不再仅依据决策者的主观感觉和经验,更主要来源于对企业过去业务数据的分析,他们需要对这些数据进行不同角度的分析。根据对这些数据的分析结果,预测未来的商业趋势。若要有效、高效的分析历史数据,就必须对其进行合理的组织与存储。 本文讨论了数据在磁盘中的存储以及组织结构,同时,为了提高查询分析的效率,还要为数据文件建立多种索引;要对多维数据仓库中的多维数据进行粒度的划分;对数据进行分割;对休眠数据进行处理等。粒度是数据仓库中数据单位的细化或综合程度的级别,越详细的数据粒度越小。粒度越大,查询效率越高,占用的存储空间少,但能完成的查询也就越少。数据分割是对数据仓库中的细节数据进行分割,通常的分割标准有:按时间分割、按地理位置分割等。数据量的大小是决定分割的主要因素。休眠数据管理是指对以后不用的数据从要进行查询分析的数据仓库中剔除。这样可以在查询时减少扫描的次数从而提高效率。 这里介绍了两种方法可以存储多维数据,一种是以二维关系表的形式存储,一种是以多维数组的形式存储,分别对应ROLAP与MOLAP。关系表存储法也就是用维表和事实表存储多维数据。用维表记录多维数据中的维度,用事实表记录多维数据立方体各个维度的交点的度量值。由于在查询时要进行多个表之间的连接,因而响应时间比较长,但对于有大量空白数据的数据库来说,可以节约很多存储空间。多维数组存储法是直接处理存放在多维数组中的数据,这种数据已经反映了各种数据的组合,并且每个单元都可以直接访问,一般而言,查询速度比较快而且稳定。但在矩阵稀疏的情况下,会存在大量的数据空白点,从而造成大量的空间浪费。针对MOLAP中出现的空间浪费问题,我们要对其进行压缩存储。可以通过增加一个冗余的标志位的方法记录某种组合是否有实际可用的数据,在存储时只存储有数据的点,剔除空白点,达到压缩存储多维稀疏矩阵的目的。

刘文龙[7]2014年在《具有复杂约束条件的海量数据聚集及其并行化实现》文中提出海量数据聚集算法是在线联机分析处理(Online Analytical Processing,简称OLAP)的核心问题。OLAP旨在处理涉及到商业智能的数据,这是一类非常重要而又异常复杂的问题。OLAP利用聚集算法产生的N维数据模型(数据立方体)可以在极短的时间内响应查询;同时带有复杂条件约束的范围聚集查询(多维范围查询)随着商业智能的发展显得越发重要。随着计算机技术发展,查询变得更加复杂、立方体维度不断上升、数据规模持续扩大,这些新情况给OLAP带来了严峻的挑战,海量数据聚集所需的计算时间成为了严重制约OLAP系统性能的瓶颈。CUDA是由NVIDIA所推出的一种集成技术,将图形处理器(Graphic Processing Unit,简称GPU)引入高性能计算领域。同传统CPU相比,GPU拥有更高的计算能力和内部带宽,于是如何利用GPU设计新的聚集算法成为OLAP计算领域中一个新的热点。针对利用GPU解决OLAP聚集问题,本文主要研究内容如下:(1)分析了经典的CPU算法和新近提出的GPU算法之间的区别及各自优缺点,总结了影响聚集效率的主要因素;(2)提出了一种面向并行聚集的多维前序树(Multi-dimensional Prefix Tree)存储模型,可以依据前序编码(Prefix Encoding)分割数据空间,对原始数据进行压缩和存储;提出了多维前序树并行构造算法,并通过实验证明了其相对数据库有6倍的加速比;(3)基于多维前序树模型,面向GPU构架,提出了一种并行的面向海量数据的选择及聚集算法,可以快速应答带有复杂条件约束的聚集查询,最后通过对比实验证明了其相对数据库有6倍的加速比,对比同类GPU算法也有1.3倍的加速比。

杨绪岩[8]2001年在《并行数据仓库系统中元数据管理、并发控制与恢复策略的研究》文中认为数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合。用来支持管理人员进行决策分析,能够使企业以合理的代价取得有效的决策支持。数据仓库的研究是一项具有重要学术价值和广泛应用前景并且十分迫切的任务。数据仓库研究是当今信息技术研究的新焦点。 本文主要对数据仓库的元数据组织与管理、并发控制、数据仓库系统恢复叁方面进行了研究,提出了一种有效的字典组织方式,很好的描述了多维数据模型,针对数据仓库的操作的特点提出了两种并发控制策略和一种恢复策略。并给出了相应的组织结构与算法描述。

刘勇[9]2001年在《并行数据仓库的建模、OLAP界面的设计、数据提取和数据维护》文中提出数据仓库是信息技术的新焦点,它用来存储供查询和决策分析用的集成化和历史化数据。国内外已经对数据仓库开展了许多研究工作,企业界也纷纷推出自己的数据仓库产品。如INFORMIX公司的MetaCube和ORACLE公司的Discover及Express系列产品。但是,这些产品仍是采用关系数据库管理技术来实现的,大多数只是对原有的系统稍加改进。这些产品都具有很大的局限性。鉴于上述原因,我们研制了一个基于机群并行计算环境的并行数据仓库管理系统(PDWMS)。它采用了多维数据模型,支持数据仓库上的各种复杂操作和决策分析。 本文的工作重点放在了对PDWMS的建模、OLAP界面的设计与实现、数据提取和数据维护方面,提出了并行数据仓库的建模算法,一种新的OLAP界面设计方法,并行数据仓库的数据提取算法,并行数据仓库的通用数据维护算法。这些算法已经在PDWMS中实现,取得了良好效果。

周水力[10]2014年在《基于分布式内存的OLAP查询技术研究》文中进行了进一步梳理目前云计算环境下海量数据的查询分析以批处理、线下计算为主,很难达到联机性、即席性和交互性。数据立方体是数据仓库、商业智能中重要的数据模型,其数据单元之间根据上卷、下钻关系构成了格结构数据。为了提高查询分析性能,本文基于数据立方体格模型及分布式内存架构研究在线、高效的联机分析处理技术。本文主要在以下两个方面进行研究:(1)视格结构数据为图结构数据,以格结构数据的统计特性和规律为切入点,利用实验统计方法、复杂网络等经典解析模型、格的概念层次结构,研究格结构数据的模型;在此基础上,结合当前的图划分技术研究格结构数据在多个节点的划分及存储,从而消耗较小的通讯代价并使得集群负载均衡。(2)分层封闭立方体是封闭立方体模型的扩展,是对数据立方体的一种语义压缩,能够有效地减少数据立方体的存储空间。对封闭数据立方体使用数组和格两种结构存储,利用封闭单元的层次信息以及封闭单元之间元组覆盖关系,研究两种结构下分层封闭立方体的分布式存储、查询方法。最终构建基于内存的分布式计算框架Spark实现了OLAP查询原型系统,并进行了实验验证和分析。

参考文献:

[1]. 基于多维压缩数组存储结构的并行联机分析处理操作算法研究[D]. 张德辉. 黑龙江大学. 2001

[2]. 基于属性划分存储结构的并行联机分析处理操作算法研究[D]. 王大威. 黑龙江大学. 2001

[3]. 数据仓库环境中近似查询处理技术研究[D]. 冯玉. 中国科学院研究生院(计算技术研究所). 2002

[4]. 基于多核CPU的数据立方体并行计算方法研究[D]. 梁经纬. 哈尔滨工业大学. 2013

[5]. OLAP系统中Cube并行与分布式处理技术的研究[D]. 顾颀. 扬州大学. 2007

[6]. 对多维数据存储技术的研究[D]. 孔德松. 武汉理工大学. 2006

[7]. 具有复杂约束条件的海量数据聚集及其并行化实现[D]. 刘文龙. 哈尔滨工业大学. 2014

[8]. 并行数据仓库系统中元数据管理、并发控制与恢复策略的研究[D]. 杨绪岩. 黑龙江大学. 2001

[9]. 并行数据仓库的建模、OLAP界面的设计、数据提取和数据维护[D]. 刘勇. 黑龙江大学. 2001

[10]. 基于分布式内存的OLAP查询技术研究[D]. 周水力. 昆明理工大学. 2014

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于多维压缩数组存储结构的并行联机分析处理操作算法研究
下载Doc文档

猜你喜欢