海量数字信息资源存储技术研究_数据存储论文

海量数字信息资源存储技术研究_数据存储论文

海量数字信息资源存储技术研究,本文主要内容关键词为:信息资源论文,海量论文,技术研究论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔中图分类号〕G250.76〔文献标识码〕A〔文章编号〕1003-6938(2003)05-0056-04

1 信息存储技术发展现状与趋势

根据3M公司对800名网络微机用户的调查发现,每次硬盘的失效将造成5天以上的无效工作日;而在一个典型的商业应用中,重建1000MB数据平均耗时间3.5个月,费用为95000美元〔1〕。研究表明,数字资源存储技术不仅是目前网络技术研究的重要课题,而且也越来越成为网络信息服务提供者投资最大、最关心的部分。据IDC在1999年的一份统计报告显示,用户在服务器和存储产品上的花费已经接近1∶1,高的甚至达到1∶3,硬件支出的75%主要用于存储设备〔2〕。

数据信息存储和存储管理技术最早起源于70年代的终端/主机的计算模式,80年代以后,由于个人电脑的发展,尤其是客户机/服务器模式的出现,特别是近几年,Internet正在使存储技术发生着革命性的变化:首先,存储量急剧膨胀,据IDC的预测,近几年世界范围内磁盘存储系统的容量仍将以每年近80%的速度递增〔2〕。其次是数据信息就绪时间的延展,网络数据信息必须时刻保持就绪状态,以便提供7×24小时的实时数据信息服务。另外,不同的数据结构和系统平台,不再受地域空间的约束,可以面向全球提供数据信息服务。这些需求都大大推动了存储技术,尤其是网络化信息存储技术的发展。

实际上,人们对于信息存储及其技术的研究大体上经历了两个阶段,第一个阶段的特征是通过技术的改进,设法提高单位存储介质的存储容量,例如磁盘的容量从最初的十几兆、几十兆到数百兆,最后发展到几十个、上百个GB,目前146GB的服务器硬盘已经逐步普及。但是单位存储介质的容量毕竟是有限的,发展到一定阶段,再要寻求较大的突破是很困难的,而信息存储量的增加却是无限的,于是人们对于信息存储及其技术的研究进入第二个阶段,即在进一步谋求提高单位存储介质容量的同时,开始研究和发展结构更复杂的存储系统,如设法将有相当容量的单个存储介质(磁盘或光盘)通过一定的技术手段组织起来,构成一个大的存储空间,使其能够存储更多的信息。如光盘塔、光盘库、光盘网络镜像服务器、磁盘阵列等。

随着网络技术的发展和普及应用,数据信息的存储管理也得到世界上许多IT厂商的重视,现在除了EMC、TorageTek、NetApp、Maxtor等专业存储厂商外,IBM、Hp、SUN、DELL等也跻身于大容量数据存储技术与产品的研究与开发,并不断提出新的研发计划。

对数据信息存储的重视,还导致了计算机服务器体系结构的变化,即目前的内部总线架构将逐渐走向消亡,形成交换式(fabrics)网络化的发展趋势。即在最初,数据存储、计算处理和I/O是合为一体的,而目前数据存储部分已经独立出来,未来将是I/O和计算处理的进一步分离,形成数据存储、计算处理、I/O吞吐三足鼎立的局面,这正应了SUN公司提出的“网络就是计算机”的论断。

这里需要强调的是,随着数字信息资源的海量增长和网络信息服务的发展,人们在追求存储系统容量扩增的同时,也越来越关注信息管理的有效性、安全性和数据存取的效率。于是一些新的技术路线与思想逐步引入存储领域。最有代表性的就是网络存储技术的出现及快速发展。近年来,直接连接存储(DAS)、网络连接存储(NAS)、存储局域网络(SAN)等存储技术在竞争中不断发展,被广泛应用于教育科研、ISP/ASP、Web/E-mail服务集群、金融/保险、电信、CAD、医疗、印刷、网络音视频VOD点播等诸多领域〔3〕。而9.11事件的发生,又迫使人们更周全地考虑数据信息存储的安全性与有效性问题,即寻求实现数据信息存储在空间上的可扩展性。如美国加州大学伯克利分校试图创建一个遍布全球的数据存储网络,并发起了一个名叫“海量存储”(OceanStore)的研究项目,旨在利用软件方法把数据文件分割成许多微小的加密片断,然后存储在全球ISP拥有的众多Web服务器中〔4〕。这样,即使一个或几个存放地遭到攻击和破坏,也不会使整个数据库彻底消失。据开发人员说,像Ocean-Store这样庞大的冗余存储网络可以使人们在任何地方方便地访问数据,而且能使灾难恢复达到前所未有的水平。如果多台计算机或服务器崩溃,OceanStore能利用以多群集方式重建存储在其他服务器上的数据信息。OceanStore在把每个文档分割成片断并通过Internet随机存储在整个网络之前给它分配一个全球唯一标识(GUID),从而可以跟踪文档。另外对于存储技术的标准化、可互操作性、兼容性、经济性等等也都提出了更高的要求。

2 目前主要的存储技术及其特点

2.1 直接连接存储(Direct Attached Storage,简称 DAS)

传统的数据共享存储方案是以文件服务器为中心,通过加大网络文件服务器存储容量,解决整个网络的存储问题。这时的服务器在进行网络通信管理的同时,更主要的是一个大容量的文件服务器。DAS同样是以文件服务器为中心,通过SCSI接口、磁盘阵列等在文件服务器周围连接一些可共享的设备,网络用户通过文件服务器间接地迂回访问数据及网络资源。

DAS没有独立的存储操作系统,不能提供跨平台的文件共享功能,数据存储模式是分散的,各系统下的文件需要分别存储;没有自身的管理软件,数据管理需要第三方软件支持;数据只能异地备份,且安全性较弱。这种模式的好处是前期投入低,但后续成本大,总拥有成本(TCO)高。

另外,这种以服务器为中心的存储模式,工作站通过局域网接口和网络连接,然后取得一个或多个普通文件服务器上的共享文件。这种存储模式不仅给网络服务器带来额外负担,同时也导致网络性能的降低和用户等待延迟时间的明显增加。〔5〕

2.2 网络连接存储(Network Attached Storage,简称NAS)

NAS是一种独立地直接存储的联网方案,它转变“以服务器为中心”的存储方案为“以数据为中心”的智能网络服务器方案〔6〕。它是基于LAN的,按照TCP/IP协议进行通信,面向消息传递,以文件的I/O方式进行数据信息传输。也就是说,NAS使用的是平时大家一直在用的基于TCP/IP的局域网,并在上面进行数据传输的。由于数据的传输可以在原有的局域网上进行,所以NAS的建设相对简单,对数据的管理也十分的方便。

与DAB相比,NAS已经完全可以实现异构平台之间的数据级共享,支持Windows NT、UNIX、LINUX等操作系统,特别适合于Ftp等文件共享服务的应用;集中式的数据存储模式,方便网络存储管理,降低了数据信息的管理成本;集成本地备份软件,实现服务器备份,全面保护数据,并且恢复及时、准确;前期投入较高,但后续投入较少,总拥有成本(TCO)较低〔7〕。但是由于使用了与平时网络通信相同的网络,所以在网络带宽条件有限的情况下,它占用了宝贵的网络带宽资源,影响了网络的利用率,同时也使得NAS无法发挥其应有的性能。

2.3 存储局域网(Storage Area Network,简称SAN)

SAN是在原来的局域网外,另外构建一个专门用于存储的网络结构,这个存储网络可以看成是一个高速的子网,这个子网中的设备可以从主网卸载流量。通常SAN由RAID阵列连接光纤通道(Fibre Channel)组成,SAN和服务器与客户机的数据通信通过SCSI命令而非TCP/IP协议,数据处理是“块级”(block level)。SAN结构以数据存储为中心,采用灵活的网络拓扑结构,通过具有高传输速率的光纤通道连接,以传统SCSI协议传输数据。〔8〕

与前面两种存储方式相比,SAN有许多优点。首先,SAN可以自由扩展,用户可以灵活地在SAN结构上添加各种存储设备,整个系统扩展起来十分方便灵活;其次,SAN结构采用光纤通道传输数据,传输速率较高;第三,SAN上数据传输是以“块”方式进行的,有利于数据的大规模传输;第四,存储设备都集中在一个网络上,节省了管理成本;最后,SAN结构中,数据的备份、恢复、迁移都通过存储局域网本身来完成,不需要借助于服务器和现有的LAN/WAN,大大减少了现有服务器和网络的工作负载。

但是,由于SAN存储方式要构建一个专门用于数据存储的网络结构,使得建设费用大为增加,同时在SAN结构中存储的数据以“块”的形式存在,也就是每一个应用在存储介质中都有一个专属于自己的区域,其他应用是难于访问这个区域的,这使得SAN互操作性较差,难于应用于大量存在的文件共享服务。另外,SAN的建设难度大,需要具有较好专业知识的人员管理。

2.4 ISCSI技术

由于网络存储SAN结构投资十分巨大,一般信息用户很难承受。与此同时,NAS技术虽然成本低廉,但是在使用的时候需要消耗有限的网络带宽资源,无法完成大容量存储的应用,于是,人们又开发出了ISCSI技术。这种技术是将现有SCSI接口与以太网络(Ethernet)技术结合,使服务器可与使用IP网络的储存装置互相交换资料〔9〕。此技术不但价格较目前使用的业界技术标准Fibre Channel低廉,而且系统管理人员也可以用相同的设备来管理所有的网络,并不需要以另外的设备来进行网络的管理。iSCSI作为IP Storage中最先得到应用的技术之一,它特别适合需要利用现有IP网络资源及IT技能拥有集中存储,但又不具备建设SAN结构的用户使用。

ISCSI技术具有如下优势〔10〕:(1)iSCSI的基础是传统的以太网和Internet,近20年来,网络技术的迅猛发展使传统网络无处不在,iSCSI有很好的基础,同时能大大减少总体拥有成本;(2)随着技术的进步,IP网络的带宽发展相当迅速,1Gbps以太网早已大量占据市场,10Gbps以太网也已研究出来,而且,该协议由包括IBM、Cisco、Intel、Brocade、Adaptec等业界巨头的支持,一批新型厂商也竞相参与,如Nishan System、SAN Valley、CNT、Pirus、3Ware等;(3)在技术实施方面,iSCSI以稳健、有效的IP及以太网架构为骨干,使忍受性大大增加;(4)iSCSI是基于IP协议的技术标准,它实现了SCSI和TCP/IP协议的连接,对于以局域网为网络环境的用户,只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输及管理;(5)完全解决数据远程复制(Data Replication)及灾难恢复(Disaster Recover)的难题。

2.5 内容寻址存储(Content Addressed Storage,简称CAS)

内容寻址存储(CAS)的提出是基于这样一种统计,即存储的数字化信息中,除了需要不断更新的数据外,有更大的一部分内容是以固定的形式存在的最终信息,也就是说这些信息的内容是长期不变的,如电台、电视台已经播放的广播、影视,医学诊断中使用的MRI、K光、检查图像等,已经完成的文档、CAD/CAM设计文档等等。而如前所述,现有的网络存储技术,不管是NAS还是SAN都没有对这种以固定形式存在的内容进行优化。应用CAS技术存储的数据都含有一个全球唯一的标识符。用户访问该信息的时候,只需要在网络上发出带有这一标识符的信息,而不必去追踪该资源的物理位置,系统会自动根据这一标识符在网络上搜寻到所寻找的资源所存的位置,然后再将结果反馈给用户。〔11〕

由于CAS存储对数据会分配一个标识符,存储的信息不能任意改动,所以CAS只适用于存储内容固定不变的应用中。

3 几种主要存储技术的适用领域

从纯技术的角度来看,DAS是一种较简单的网络存储方案,技术实现简单,初期投资成本也较低,适用于较小规模的数据分布存储。NAS和SAN技术实现要求较复杂,追求存储管理的性能和数据传输速度,初期投资成本较大,适用于大规模数据存储和文件共享。NAS与SAN都是在DAS的基础上发展起来的新型数据存储模式,比常规的存储技术具有更大的可伸缩性和灵活性。NAS系统是建立在现有LAN和文件系统协议之上的,技术相对成熟,因此,在跨平台应用中的应用性和可靠性上“领先”SAN技术,应用更注重于实现异构环境下的文件共享。SAN是一个独立的数据存储网,可以向一个存储网络的任意空间上分配数据,应用更注重于实现数据资源的存储、合并、转移和服务器中的数据共享。DAS、NAS、SAN作为目前三种主要的网络存储技术方案,在技术上各有特点,因此在实际应用中要综合考虑选择。一般地,NAS适合于投资有限,但需要大量文件共享的环境中,如办公自动化系统、Ftp等文件服务器系统等等。SAN适合于投资比较充裕,同时存在大量数据库信息的对数据吞吐、传输要求较高的应用,如企业的ERP系统、联机处理系统、数据仓库等等的大型系统中。iSCSI则十分适合于投资有限,又想得到类似SAN功能的环境中。CAS则在有大量固定内容的影视资料库、医学影像系统、档案系统中可以发挥较好的作用。不过CAS系统目前还处在推广阶段,真正的应用还不多。DAS适用于那些数据信息量较小,投资十分有限的个人、工作组、小企业的应用。

4 关于图书馆数字资源存储方案的思考与建议

随着现代信息技术的发展,图书馆技术条件与手段的改善,数字化信息资源越来越多,服务形式也逐步地由基于物理馆舍的服务转向基于网络的服务。因此,数字化信息资源作为图书馆网络信息服务的主要基础,对它的有效存储与管理就变得越来越重要。

首先,数字化资源的增加速度越来越快,如中科院资源环境科学信息中心2000年时还只是需要有1~2个具有大磁盘的服务器就可满足对数字化信息资源存储与管理的要求,但到目前,所拥有的数字化信息资源已超过4000GB,而且基于数字资源与网络开展服务已经成为主要形式,因此如何有效地存储和管理这越来越多、越来越重要的数字化资源就成为急需解决的问题。目前该中心还主要是采用DAS存储模式,但这种模式的局限性和不适应性已越来越凸显了出来。同国内众多的图书馆一样,由于经费主要是用于购买书刊、光盘等资源的,明确是用于购买设备的经费很有限。即使象中国科学院这样的单位,对于其图书馆事业的发展,尽管也一直在提要加强现代化建设,但至今也仍然没有从政策上明确对图书馆自身信息化建设与改造的投入力度。各个单位只能是各尽所能,自己想办法强化自身的信息基础设施建设,以便保证能适应现代信息服务工作的需要。

加强数字化资源建设,大力开展数字化信息服务已经是文献情报工作的发展趋势。在越来越多的海量数字信息资源的存储问题上,我们不反对主张各图书馆应该量力而行,根据自己的财力选择相应的存储技术与方案,从而构建自己的数字资源存储体系与服务基础。但是,从事业发展的角度来看,我们还是主张在适当的时候,在业务工作发展已经达到一定层次和阶段的时候,应该及时考虑争取相应的资金投入,经科学规划,适时地构建起合理的、适应自身业务发展需要的数字资源存储结构与体系。尽管这一次性投入是较大的,但它是必要的。否则,我们的许多工作就无法开展,就不能很好地去满足社会的需求,不能有效地发挥促进科学文化事业与社会生产力发展、推动社会全面进步的重要作用。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

海量数字信息资源存储技术研究_数据存储论文
下载Doc文档

猜你喜欢