分布式存储系统节能技术研究综述论文_于辉

于辉

(广东电网有限责任公司东莞供电局信息中心)

摘 要:随着大数据时代的到来,企业所需要存储的数据越来越多,不得不对现有的数据存储中心进行扩容,以实现更大级别数据量的存储。分布式存储系统为构建数据中心的重要方式之一,存储系统的能耗情况是衡量一个存储系统性能的重要指标,因此,研究分布式存储系统的节能技术具有一定的必要性。本文的主要工作是对分布式存储技术的节能技术进行综述,以使读者了解现有的分布式存储系统节能研究现状。

关键字:大数据、分布式、节能、能耗

一、前言

大数据时间,数据存储中心的能耗越来越受到人们的重视,它也逐渐变成继性能和可靠性之后,衡量数据存储中心的第三个指标。在信息系统应用初期,企业引进信息系统来改善管理,提高企业的经营和管理效率。这个时期,企业的信息系统产生小规模的数据,小的数据存储中心即可对数据进行存储,这个时期企业所观注的是数据中心的性能和可靠性。

而随这互联网、大数据时代的到来,企业生产运营所积累的数据成几何级的增加,小的数据中心已不能支持新的数据存储需求,企业不得不对原有的数据中心进行扩容,大量的新增设备新加入到数据中心中,此时,数据中心的能耗已经成为企业所考虑的一个企业经营成本问题,如何降低数据中心的能耗已经成为企业管理者所思考的一个问题。图1给出了数据中心管理者眼中的最大挑战,可见能耗问题排在第一位[8]。

 

图1 数据中心管理者眼中的最大挑战

对于大规模的数据存储中心。为了保证低成本和高扩展性,通常会选择分布式存储技术。数据存储是分布式存储服务的基础,分布式存储系统中能耗最高的部分主要在设备耗能方面。因此,在分布式环境下,如果能有效降低存储系统的能耗,对降低数据中心的整体能耗有显著效果。

二、分布式存储系统

传统分布式存储系统重点考虑在分布式环境中如何解决诸如数据复制、负载均衡、集群关系管理、可靠性保证、高性能等技术问题。目前,基于OpenPower、X86等架构的国产服务器逐步采用低功耗多核处理器、高带宽内存以及异构存储等硬件资源,传统分布式存储系统在系统设计、技术优化等方面没有充分发挥上述硬件的特点。具体来说,包括以下三方面:

1 分布式存储在面向低功耗多核处理器时的不足

传统的分布式存储没有充分利用存储节点的处理能力,而存储节点的处理能力完全有能力承担除存储服务之外的任务,例如将部分计算任务迁移到存储节点上,从而提高整个集群的计算能力。另一方面,国产服务器采用的低功耗处理器提供不同功耗模式以适应不同的工作负载,可以动态变化。现有的分布式存储没有针对上述处理器特点进行设计和技术优化考虑。

2 分布式存储在面向高带宽内存时的不足

随着国产服务器逐步采用高带宽内存技术,处理器与内存间的数据移动效率越来越高,以适应大数据应用场景。如何将更有价值的数据保留在处理器缓存中,如何利用每个服务器节点上的高带宽内存形成高效的分布式缓存层,以减少对存储层的访问压力,这些问题都是现有分布式存储没有给予充分考虑,并作相应设计优化的。

3、分布式存储在面向机械硬盘与SSD组成的异构存储时的不足

大数据环境下,对存储的容量和性能等提出了更高的要求。从性能、成本的角度考虑,不允许将所有数据都统一存储于集中式的存储设备上,因此异构存储越来越受到重视。现有分布式存储系统虽然有考虑异构存储架构,但是仅以数据冷热、I/O特征作为异构存储资源分配因素。此外,现有分布式存储系统仅考虑存储层,没有将异构存储对存储以及计算与存储结合等应用场景产生的影响进行考虑分析。

三 节能技术综述

由磁盘的能耗工式可知,磁盘的主要能耗取决于磁盘的转速,磁盘处于Standby状大下时,其能耗远小于在Idle和Active状态下的能耗。S.Gurumurthi 等人在TPM(Traditional Power Management)的基础上,提出了 DRPM(Dynamical RPM)技术[2]。该技术通过细分转速级别和不同转速间切换来缩短空转时间,有效的降低了spin up/down操作。DRPM技术在理想的情况下可以达到利人满意的结果,但是空转时间预测成为了该技主的瓶颈,使其实现起来较为困难。MIS(Multiple Idle State)是基于多转速磁盘的节能技术,采用相邻 I/O请求间隔时长表示磁盘负载的高低,间隔越短表示磁盘负载越高[3]。

eRAID(energy-efficient RAID)基于的原理为“磁盘阵列的数据是有冗余的”这一实际情况,该技术引进动态节能管理技术,实现了使磁盘阵列中的部分或者全部镜像盘进入待机状态,以此来达到节能的目的。当镜像盘处于待机状态时,对镜像盘的写请求会重定向到写控制器缓存中或者主盘中,等镜像盘处于活跃状态时再写入;对镜像盘的读请求会重定向到镜像盘对应的主盘中,从主盘读取数据[3]。

针对备份系统,提出了MAID(Massive Array of Idle Disks)技术。磁带是传统的备份系统所采用的主要的存储介质之一,是因为其具有廉价、大容量、顺序读取速度快的优点。与其优点形成鲜明对比,磁带同时也具有随机读写速度慢、数据迁移不便等弊端。而磁盘与磁带之间的价格差距随前着磁盘的规模化生产变得越来越小。磁盘阵列能解决磁带库随机读写速度慢、数据迁移不便等问题,因此磁盘阵列替代磁带库成为可能,但是磁盘阵列相对磁带库会产生巨大的能耗。而 MAID 希望能在保证一定性能的前提下,实现能耗接近磁带库的节能磁盘阵列[3]。

四 结语

随着大数据时代的到来,企业所需要存储的数据越来越多,不得不对现在的数据存储中心进行扩容,以实现更大级别数据量的存储。分布式存储系统为构建数据中心的重要方式之一,存储系统的能耗情况是衡量一个存储系统性能的重要指标,因此,研究分布式存储系统的节能技术具有一定的必要性。本文的主要工作是对分布式存储技术的节能技术进行综述,以使读者了解现有的分布式存储系统节能研究现状。

参考文献

[1]M. Poess, R. O. Nambiar, Rnergy cost. The key challenge of today's data centers: a power consumpaion analysis of TPC-C results. Publisher, City, 2008.

[2]S. Gurumurthi, A. Sivasubramaniam, M. Kandemir, et al. DRPM: dynamic speed control for management in server class disks. in: Computer Architecture, 2003. Proceedings. 30th Annual International Symposium on, IEEE, 2003: 169-179.

[3]刘磊.分布式块存储系统节能技术研究[D]. 华中科技大学(武汉)2013.

论文作者:于辉

论文发表刊物:《电力设备》2016年1期供稿

论文发表时间:2016/4/18

标签:;  ;  ;  ;  ;  ;  ;  ;  

分布式存储系统节能技术研究综述论文_于辉
下载Doc文档

猜你喜欢