试论分布式WEB信息存储技术的应用论文_张虹

试论分布式WEB信息存储技术的应用论文_张虹

嫩江县教育发展服务中心

一、分布式存储技术的要求

1、透明性

分布式WEB信息存储技术在应用时可以分为多种管理模式,但无论选择何种管理模式,都要确保系统的透明性,即需要为用户呈现相对完整的操作界面和系统、例如采取目录分布式管理模式的储存系统中,应同时保证位置透明、访问透明和故障透明。其中的位置透明指的是,用户在系统界面中可以全局性的查看文件,通过检索文件名字就可实现对文件的有效获取。此外,进行文件创建时其会根据分布式的特点自动选择物理存放位置;访问透明指的是,当多个用户同时操作一个文件时,利用一个用户对该文件进行修改操作,另一个用户在进行提取或者保存操作时,该文件可以分别应对用户的操作请求,不会出现冲突问题;故障透明则是指,在系统运行的过程中,一旦某个节点存在故障现象,系统内部会自动转换服务节点,继续为用户提供服务,不会为用户的正常使用造成影响。在节点故障修复之后,便可重新提供服务。

2、可扩展性

分布式Web信息存储系统的可扩展性,主要关心的是扩大规模时对客户机性能的影响。当然,如果扩大规模对服务器的性能有影响,用户从附加的延时上能够发现。实际上这两种考虑都要兼顾到。一个规模合适的分布式Web信息存储系统必须充分发掘用户资源。由于客户机的数量比服务器多得多,大多数的计算资源都在客户机上,由于这个原因,一个规模合适的分布式Web信息存储系统要使服务器尽可能简单,而把一部分系统功能分配给客户机去完成。增加存储节点后,服务器在保持文件系统状态的连贯性就必须增加工作量。同样,客户机在更新文件时也要做更多的工作。要掌握一个理想可扩展系统的特性是比较困难的,但有一些事情则是清楚的。一个规模合适的系统在达到饱和时应该适度降低其性能,同时保持对请求的必要服务。

3、容错性

分布式Web信息存储系统的容错性,是指系统中一个或几个节点的失效,不会影响系统的正常服务。当系统中某节点出现故障后,整个系统应该能够屏蔽掉该节点,以保证系统整体运行正常。当这台机器重新被修复后,口志系统将恢复其故障期间未完成的操作,以保证系统的一致性。容错性是设计分布式Web信息存储系统时应重点考虑的问题,系统中某个或几个节点出现故障、或是网络出现故障时都会影响系统的容错性,分布式存储系统的每个组件的设计都必须考虑容错性,总的指导原则是避免集中式的部件、表和算法。

二、分布式WEB信息存储系统的设计与应用

1、模块设计

进行企业情报系统构建时,考虑到其自身的应用性能,我们将WEB信息存储系统细分成四个功能模块,主要包括获取网上信息的爬虫模块;提供信息储存服务的储存模块;为用户提供信息支持的索引模块;提供信息提取服务的检索模块。这些功能模块的构建可以为用户的提供较为高效的数据信息服务,对于企业的情报系统管理水平具有积极的促进作用。

期刊文章分类查询,尽在期刊图书馆爬虫模块在应用时,会操作自身的系统从WEB信息文档中获取各种格式的文件或者文档,之后将经过处理之后的数据储存在存储模块内部,在借助分布式系统的功能,将其合理分配到各个节点中,且将其形成格式为PAK压缩文件,这样即可节省存储空间,还可以实现对文件库的有效构建。将获取到的文件信息进行记录和归类,将其形成不同类型的索引目录,为用户提供更加周到的信息提取服务。

2、系统应用异常的处理方法

(1)自检中出现的异常(无法启动)。如果是服务器出现自检异常,系统根本就无法启动的时候,应该给出无法自检成功的信息,以满足管理人员检查的需要,并在日志中记录异常信息。如果是存储节点无法启动时,存储节点将不能向服务器发送注册信号,服务器也应当拒绝存储节点的注册信息,并将其视为注册未成功,异常信息记录到日志中。此时,存储节点的启动异常不会影响到整个系统的运行。

(2)注册异常。新加入存储节点的IP与原有存储节点的地址冲突时,系统将拒绝新节点的注册。提示管理员进行处理,正确处理后,可以进行注册。因此,服务器对每一个存储节点的注册信息应该有一个检测机制,以确保存储节点注册信息的完备。

(3)网络异常当出现网络异常的时候,存储节点就会注册不上。当存储节点注册的时候,如果捕获了网络异常,则给出网络异常的信息,以备管理员检查,并在日志中记录异常信息。此时,存储节点的网络异常并不会影响到整个系统的运行。如果是服务器启动过程中的网络异常,则做相同的处理,只不过由于整个系统是由服务器先启动的,因此整个系统也就启动不成功,节点就会注册不上。如果此时节点也启动了,则按照网络异常处理。

(4)退出异常系统中,存储节点的异常退出过程同样与节点在接收退出命令时所处的状态有关。主要分为:正在与爬虫进程连接的存储节点、正在接收爬虫文件的存储节点、正在发送PAK文件信息的存储节点。正在与爬虫连接的节点再接到退出命令后,正常情况下将继续与爬虫连接,然后与爬虫进行文件的传输。但是节点一旦接收退出命令就马上退出,直接断开了与爬虫的连接或者连接成功后在接收文件的过程就退出。这时系统直接将节点最后一次建立的连接已经之后的活动全部删除。接收爬虫文件的节点在接到退出命令后,正常情况下应该等待爬虫的文件传送完毕,然后处理文件信息,但是节点一旦接收退出命令就马上退出,系统将放弃本次传输的内容。正在发送大文件信息的节点在接收退出命令后,正常情况下应该继续将本次要发送的大文件信息发送至服务器,但是节点一旦接收退出命令就马上退出,系统将放弃大文件信息的传输,将大文件信息保留在本地,待下次开机后直接发送给服务器。

参考文献:

[1]郝杰,逯彦博,刘鑫吉,夏树涛.分布式存储中的再生码综述[J].重庆邮电大学学报(自然科学版),2013(01).

[2]郭栋,王伟,曾国荪.基于一致性树分布的数据分布式存储方法[J].计算机应用,2013(12).

论文作者:张虹

论文发表刊物:《中国西部科技》2019年第7期

论文发表时间:2019/6/17

标签:;  ;  ;  ;  ;  ;  ;  ;  

试论分布式WEB信息存储技术的应用论文_张虹
下载Doc文档

猜你喜欢