多节点机群系统的高可用管理软件的设计与实现

张文生^[1]2000年在《多节点机群系统的高可用管理软件的设计与实现》文中提出高可用计算机系统的研究一直是计算机科学与工程界的一个重要课题。随着通过Internet提供商业服务的趋势的发展，这一研究显得越发重要。这是因为服务系统的可用性程度对服务提供者的商业利益具有重大的影响。同时，由于通过计算机服务系统提供的服务内容和服务范围都在不断扩大，计算机服务系统的规模也需不断扩大，现有的小规模的高可用系统已经难以满足这样大规模计算机系统对高可用支持的需求。因此研究可扩展的高可用机群系统是十分重要的。本文的主要内容之一，是探讨设计和实现多节点高可用机群系统的高可用管理软件过程中面临的关键问题及其解决方案。我们首先研究高可用管理软件的体系结构设计与系统可扩展性的关系，并对两种典型的体系结构——“平等式”和“结构式”进行分析和比较。之后，我们研究高可用管理软件与应用程序的接口设计，比较了3种策略——“黑箱”策略、“cluster-aware应用程序”策略和“虚拟cluster-aware应用程序”策略。服务器聚集的概念近年来正日益受到重视，具有单一登录点的机群系统是适合用来实现服务器聚集的体系结构。本文的另一个目的是介绍和评价建立在“曙光2000”机群系统上的“曙光服务器聚集系统”(DSC Dawning Server Consolidation)的高可用管理软件的设计与实现。它实现了多节点机群系统高可用管理软件的基本功能。

王磊^[2]2005年在《机群操作系统高可用服务研究》文中研究说明随着机群系统规模的增大,节点数目的增多,机群系统整体的可靠性会相应降低,故障的发生不可避免。同时,随着机群应用日益普及尤其是机群上商业应用服务的迅速发展,人们对机群系统的可用性提出了更高要求。机群操作系统作为建立在节点操作系统基础之上的最基本的机群系统软件集,是机群实现对外提供服务的途径。因此,机群操作系统必须具有对外提供高可用服务的功能。同时为了适应机群系统规模的日益增大,高可用服务应该具有很好的可扩展性。曙光4000A机群操作系统是一个采用构件技术构造的基于服务的一体化系统,以高可用性和可扩展性作为设计的核心目标。系统中各功能子系统或模块被封装成不同的构件,构件间以服务的形式实现彼此位置透明的交互,系统实现的功能也以服务的形式提供给机群系统的应用。本文以实现机群操作系统的高可用服务为目的,以曙光4000A机群操作系统为工程背景,在分析机群系统的特征和高可用系统理论及关键技术的基础上,提出了分布与集中相结合的高可用服务架构,在此基础上设计并实现机群操作系统提供高可用服务的关键构件-组服务构件,在解决机群操作系统可用性问题的同时,解决了高可用服务的可扩展性问题,曙光4000A机群操作系统实际部署规模为640个节点。论文首先论述了选题的背景和目的,然后介绍了进行论文研究的高可用基本理论、实现系统高可用的途径、技术和关键问题。论文围绕构件化机群操作系统实现高可用服务需要解决的关键问题,详细描述了构件化机群操作系统实现高可用服务的方法以及作为机群操作系统实现高可用服务的重要模块-组服务构件的功能和地位并详细描述了组服务构件的设计和实现。最后通过建立数学模型对机群操作系统实现的高可用服务进行量化分析。

汪筱红^[3]2006年在《高可用多节点集群技术的研究与实现》文中指出计算机技术引发的第三次工业革命的浪潮中,计算机系统已广泛应用各行各业,极大地促进了社会经济的发展,与此同时对整个计算机系统的可靠性和稳定性也提出了更高的要求。譬如在金融、电信和政府等领域,作为关键设备的服务器担负着大量重要信息的处理、存储和传递的任务,一旦服务器发生故障,将会带来无可估量的损失。因此,保证关键服务器连续、稳定的运行已成为计算机系统应用中的迫切需要。高可用集群系统就是以为终端用户提供持续稳定的服务为目的,成为当前热门的研究课题。但是纵观目前国内市场,大多是双机容错的集群系统,即两台服务器加一台或两台磁盘阵列实现的双机热备的工作环境。目前许多行业需要实现高可用的关键业务比较多,如果每一业务都建立双机系统的话,不仅代价是惊人的,而且增加了管理的复杂性。应运而生的多节点集群技术则可以满足这类系统的高可用需求。正因为如此,多节点集群技术有着广阔的市场前景。但目前由于技术壁垒以及研发投入等诸多问题,以多节点集群为代表的高端市场基本上被国外厂商所垄断。笔者经过大量的分析论证,提出了一个基于存储网络的多节点高可用系统架构方案,详细分析并解决该模型在实现中的几个核心问题和技术难点,最后实现一个具有基本功能的、基于网络的、支持多节点的高可用系统。本文通过对高可用系统市场需求的把握,全面分析集群技术的应用现状,提出多点集群的概念及市场前景,并就多节点集群的设计方案展开研究,创建高可用多节点集群系统的一种实现模型,同时指出该方案中的技术难点及需要解决的关键问题。文中重点围绕多节点集群软件中的核心——多机协同技术,通过对基于投票的心跳模型存在的问题的深入剖析,推出解决冗余链路选择的心跳模型设计方案,建立基于多链路数据交换的心跳模型。该模型可以选择合适的通讯链路、快速地采集系统中各节点的状态信息、准确地监测到系统的故障、及时对失效节点作出判断。该模型的实现有效降低了多机环境下节点间协同工作的复杂性,保障了节点间信息交互的及时性和可靠性,解决了多机集群软件设计中的技术难点。文中同时对集群系统的故障迁移技术进行了深入研究,设计了几种故障接管模式,运用马尔可夫模型从理论上分析了集群系统在“多备一”模式下的可用性。最后一章是全文的总结。本文实现的多点集群方案超越了现在流行的双机系统,具有技术领先和适应市场需求的优势。本设计方案主要用于具有关键业务环境的各行业用户,可以保证系统不间断地运行,可实现系统多个业务环境的整合。该方案已经被大量行业用户认可,并成功的在用户环境中实施,取得了非常好的效果。

李晖^[4]2005年在《基于日志的机群文件系统高可用关键技术研究》文中指出近年来机群系统以其低成本、高性能而逐渐成为高性能计算的主流平台。作为解决机群系统外存储瓶颈上的有效手段的机群文件系统因此得到了很大的发展。一个机群文件系统必须要满足机群计算环境的需要,为应用提供高性能、可扩展、高可用的文件服务。由于机群文件系统本身结构复杂,实现复杂而且整个系统规模很大,这些因素就决定了对高可用技术的依赖。本文将研究基于日志的机群文件系统高可用的关键问题以及解决策略,同时给出了一些评价方法以及具体的评测结果。具体内容以及研究成果如下:(1)研究了基于日志的机群文件系统高可用技术的关键问题。本文分析了不同类型的机群文件系统的高可用需求以及高可用技术,对机群文件系统高可用相关的概念进行了介绍,描述了机群文件系统高可用领域的研究内容,并在分析的基础上提出了基于日志的机群文件系统高可用技术,分析了其中的关键问题,给出了相应的解决策略,并对其正确性和完备性给予了证明。(2)实现了DCFS2机群文件系统高可用模块。作为文中策略的一个实际应用,本文给出了DCFS2机群文件系统高可用的设计与实现技术,给出了系统中利用日志来保证机群文件系统一致性的方法。主要内容包括:以DCFS2机群文件系统为原型系统,研究了单一以及多个元数据服务器下如何使用日志来保证文件系统的一致性;研究了机群文件系统日志对元数据操作的性能影响;研究了客户端的高可用问题。(3)提出了机群文件系统高可用性的分级的定义。机群文件系统的高可用性的高低一直缺乏有效的定性或定量的分析方法,由于软件系统不能象硬件系统那样进行定量分析,我们根据机群文件系统的应用模式,将影响机群文件系统高可用性的因素进行分析,以机群文件系统的故障因素和恢复目标因素为线索,采用分级的方法对机群文件系统高可用性进行了定义,提出了机群文件系统高可用性的分级的定义。(4)对基于日志的高可用技术进行了评价。目前在高可用技术的评价上尚没有完善的评价体系,本文从功能性,正确性,性能,恢复时间等多个方面对基于日志的高可用技术进行了评价,并给出了各种情况下的具体的测试结果。文中还讨论了下一步的研究方向,包括多节点故障恢复等方面。

史小冬^[5]2002年在《分布式文件系统高可用问题研究》文中提出分布式文件系统高可用问题是分布式文件系统的重要研究课题。目前在分布式文件系统高可用问题的研究上缺乏一种可以进行定量或定性分析的方法,许多系统只是针对某一类的应用需求(如高可用的磁盘访问)来实现,而关于某一类应用的高可用分布式文件系统应实现到什么程度以及如何使用相应的关键技术去实现高可用的分布式文件系统等问题,则缺乏相应的定性分析理论来指导。由于软件系统不能象硬件系统那样对可用度进行定量分析,因此本文试图从定性的角度研究分析分布式文件系统的高可用问题。本文根据分布式文件系统的应用模式,将影响分布式文件系统高可用性的因素进行聚类分析,以分布式文件系统的故障因素和恢复目标因素为线索,对分布式文件系统高可用性进行了定义,并依此建立了一个分布式文件系统高可用问题定性分析模型—DFS_HAL ( Distributed File System High Availability Level )模型。在建立了DFS_HAL模型后,本文将此模型和分布式文件系统的实现技术结合,通过矩阵分析的方法,研究了在不同应用需求下,高可用分布式文件系统的关键实现技术。重点研究了DFS_HAL模型中的DSR_T ( Distributed State Recovery Technology )和CFS_T( Continuous File Service )技术,提出了DSR_T技术中的中转控制策略、满足服务连续性的充分条件和CFS_T技术中的元数据操作探寻请求算法。作为DFS_HAL模型的一个实际应用,本文给出了曙光机群文件系统DCFS高可用系统的设计与实现技术,给出了DCFS HA系统中利用可冗余的内存记录机制来保证分布式文件系统结构一致性的方法。本文的主要贡献如下:㈠根据分布式文件系统的应用模式和分布式文件系统的故障因素和恢复目标因素的聚类分析,首次提出了对分布式文件系统高可用问题进行定性分析的模型DFS_HAL模型。㈡根据DFS_HAL模型,结合分布式文件系统的实现技术,通过矩阵分析的方法,探讨了实现分布式文件系统高可用的关键技术,从而为实现高可用的分布式文件系统起到了指导性的作用。㈢提出了DSR_T技术中的中转控制策略。㈣提出了满足服务连续性的充分条件和CFS_T技术中的元数据操作探寻请求算法。㈤提出了通过可冗余的内存记录机制来保证分布式文件系统结构一致性的方法。

晏伟^[6]2011年在《多机热备高可用集群的设计和研究》文中指出随着信息技术不断深入到人类生活和商业活动,企业和个人对于信息服务的依赖程度越来越高。人类无时无刻需要获取信息,然而关键行业敏感信息的丢失将带来极为严重的后果。如何保证信息基础设施全天候、高可靠、不间断地提供服务是摆在全球电信运营商、互联网信息提供商的一个现实课题。为了降低系统短时间内的停机故障而导致业务中断的风险,高可用集群技术作为一种廉价、高效的手段具有广阔的应用前景。本文的主要工作是讨论如何在多服务器集群系统中实现高可靠、不间断服务的要求,主要内容和成果如下:1.首先介绍了集群系统,特别是高可用性集群的基本概况。介绍了基于马尔可夫过程的n节点集群系统可用性模型。2.结合ATCA平台多服务器节点集群的特点,分析了一种N+1型高可用集群软件架构的设计和原理,讨论了该软件架构中各部分进程模块的作用、职责;重点完成了该软件架构的部分关键进程模块心跳检测、同步协作和调度修复机制的设计;论证了这种设计方案是如何通过进程间的相关保护以达到集群的高可用性要求。3.完成了这种N+1型的高可用集群软件中HAAgent、HAApp、ProcessMonitor等关键进程的开发和实现。最后,在ATCA平台上测试集群软件的性能数据,验证了这种N+1型高可用集群软件架构设计已经达到符合高可用集群的要求。

苗艳超^[7]2004年在《数字视频服务关键技术研究》文中研究表明随着计算机性能的提高和网络带宽的增加，以及视频压缩编码技术的进步，使得数字视频服务成为可能。本文主要讨论提供数字视频服务需要解决的几个关键技术，并实现一个原型系统。具体研究内容如下： 1 给出了一个基于通用PC服务器和非实时操作系统构建实时视频服务器的方法。通过对通用服务器进行软硬件扩展，使其能够输出符合DVB-C协议的视频流，针对有线电视传输网络，实现了一种MPEG-2传输流实时软复用算法和一种实时视频数据输出的流量控制策略。 2 给出了视频服务器服务质量保证的若干基本策略，包括：基于推拉结合的流量控制策略、基于丢包重传的差错控制策略、以及用于限制视频服务器负载量的接入控制策略。 3 基于机群结构的大规模视频服务器，提出了一种带宽控制策略，解决了机群内部数据调度通道与数据实时输出通道在存储系统上的带宽争用问题，从而满足输出数据的时限要求。另外，比较了多种内部负载调度和数据调度策略，提出了一种被动的第二级存储器命中优先法作为视频服务器的调度策略。 4 提出了一个视频服务器的高可用机制，即基于资源的多对多备份机制。一个主份资源由r个后备资源备份，同时一个后备资源也为多个主份资源提供备份，在任意不超过r个节点失效的情况下，失效节点的负载全部可由既定后备资源接管，并且接管后系统中没有节点过载。将资源的备份关系以r备份图(二部图)、资源图和失效图的形式表达出来，通过构造任意失效图都存在完全匹配的r备份图的方法，给出并证明了后备资源在任意分布和规则分布时，资源分配需要满足的充分条件，同时给出了一种在机群视频服务器中实现该机制的负载分配调度算法。

黄伟^[8]2005年在《机群系统容错中间件技术研究》文中提出在高性能计算机的研究当中，如何保证系统的可用性和应用的可靠性一直就是需要首要考虑的问题之一。机群以其高性价比和高可扩展性已经成为构造高性能计算机一种主要的方法，而节点间松散耦合的结构也使得机群系统更易于保证系统的可用性。随着机群系统规模的逐渐增大，也带来许多了新的问题，如更加频繁的组件失效，软件体系结构的扩展性等问题。这些新的问题对如何保证系统的可用性带来了更多的挑战。机群容错中间件技术将机群、容错和中间件技术结合在一起，是一种在机群系统软件层实现的能够同时保证系统可用性和应用可靠性的方法。本文结合曙光4000A系统的机群操作系统Phoenix高可用核心的设计与实现，对机群容错中间件的关键技术进行了探索，重点研究了：1)在大规模情况下，适用于机群系统的容错中间件的框架与体系结构；2)在容错中间件技术中，适合于大规模机群的容错实现机制；3)在采用容错中间件情况下，对机群系统可用性和应用可靠性的评价。本文取得的研究成果如下： 1．在提出和分析机群系统规模变大给系统可用性所带米的新的挑战后，提出了一个用于大规模机群系统的容错中间件框架DCFT-Kernel。这个框架采用了分区管理的思想及“平等式”与“结构式”结合的体系结构，较当前的机群高可用软件有效地解决了大规模系统所带来的系统扩展性、软件体系结构扩展性、和容错机制扩展性等问题。DCFT-Kernel框架由组服务、故障管理服务、配置服务、事件服务和用户接口组成，能够提供完备的错误侦测、错误修复、错误通知功能。 2．在分析了将容错技术应用到机群系统在理论上需要解决的问题后，提出了一种用于实现机群容错中间件核心容错机制的关键技术——组服务技术。机群容错中间件的工作基础是自身的高可靠，组服务技术通过采用组结构和成员关系协议，能够保证机群容错中间什自身在运行时严格的一致性和高可靠性。在组服务基础上，提出的机群容错机制充分考虑了机群系统和并行应用的特点，提供了层次化的故障侦测和处理方法，能够对大部分的系统故障和应用故障进行有效的处理。 3．在曙光4000A系统上实现了一个实际运行的机群容错中间件系统DCFTM。DCFTM位于机群操作系统的核心，为机群操作系统的各种服务部件提供高可用支持，同时也可以直接向上层应用程序提供编程接口，保障应用程序的容错运行。通过对DCFTM实际运行的性能分析表明：1)DCFTM能够保证机群操作系统中各类服务的高可用运行，在故障处理时可以提供很高的响应时间，能够及时的发现和修复各种故障，并通知这些事件。2)DCFTM只占据很少的系统开销，只要将心跳间隔时

王红熳^[9]2009年在《智能网容灾系统设计的关键技术研究》文中研究指明当今IT系统已成为大多数业务流程的重要组成部分和关键环节,IT系统的可用性和灾难恢复能力直接影响到业务流程的连续性。为保障组织的业务连续运作和灾难生存能力,企业或政府必需建立具有高可用性和灾难恢复能力的IT系统。同样,电信网一些核心设备承担了非常关键的服务,这些设备的业务连续运作和灾难生存能力直接影响到国计民生,用于集中提供增值业务的智能网IN(Intelligent Network)就是其中的关键设备之一,智能网的可靠性是运营商必须考虑的问题。智能网发展初期,容错计算机系统是智能网的首选平台。随着呼叫量的激增,容错计算机系统的处理能力已成为智能网系统能力的瓶颈。为此,具有较高处理能力的高可用HA(High Availability)计算机系统已逐渐成为智能网系统的首选平台。HA系统确保本地应用系统在多机环境下具有抗御任何单点故障的能力,一旦系统发生局部的意外(如掉电、网络故障等),HA系统可以迅速确保系统的应用继续运行。但是HA系统无法完全承担应用系统发生重大灾难时业务系统的安全运行,例如,当应用系统的一个完整环境因灾难性事件(如火灾、地震等)遭到破坏时,仍然需要提供系统的可用性,并要迅速恢复应用系统的数据、环境,立即恢复应用系统的运行,这需要容灾(Disaster Tolerance)系统提供远程的实时备份系统。本论文针对电信领域智能网系统的容灾方案展开研究工作,分析智能网及其增值业务的容灾需求,研究高可靠、高性能、低成本的大规模智能网系统的体系结构和具体实现方法,并对其可用性、系统性能、配置容量等进行数学建模和理论分析论证。论文中对研究过程中取得的主要成果进行了详细阐述,相关成果可归纳如下:1)智能网系统的风险分析模型和业务评估指标从智能网的功能、组网、运作模式入手,总结智能网自身特点,建立了智能网的风险分析模型,提出了分别从业务平面和物理平面两个层面进行智能网业务影响分析,并给出了业务重要性的评估指标和评估算法,总结出智能网多层次容灾设计指标以满足不同增值业务的容灾需求。2)业务中断损失与中断时长函数关系的建模针对智能网业务中断造成的损失进行分析,对智能网业务中断损失与中断时长的函数关系进行建模,在确定可容忍损失条件下可以计算出可以容灾的最大中断时长。3)具有二级安全防护体系的智能网容灾体系提出了智能网容灾的四层技术体系架构和通用的三层容灾系统结构,对多种智能网容灾系统的拓扑结构进行了对比分析;设计了实现数据容灾和应用容灾的具有二级安全防护体系的智能网容灾系统方案,提出了基于7号信令的、无结构瓶颈、无前端调度节点方式的广域负载均衡和切换机制;对所提出的智能网容灾方案进行可用性的数学建模和分析,理论上证明了该方案可以满足容灾需求。4)智能网容灾系统的性能分析和最小代价配置计算方法针对容灾系统结构,建立了多任务、FCFS的闭合排队网络模型,使用MVA算法对SCP容灾系统进行了性能分析,找出SCP系统的性能瓶颈。分别从应用层面、逻辑层面和物理层面的视角,提炼出智能网SCP系统的性能指标要求,提出了同时满足高可用性和多业务性能指标多个约束条件的最小代价配置计算方法。通过对比演算证明,该方法可以有效地计算出满足容灾需求的、成本代价最低的智能网SCP容灾系统的配置容量。

李肖^[10]2008年在《机群容错系统的设计与实现》文中提出在高可用计算机的研究当中,如何保证系统的可用性和应用可靠性一直是需要首先考虑的问题。机群以其高性价比和高扩展性成为构造高性能计算机的一种主要方法,而节点间松散耦合的结构也使得机群系统更易于保证系统的性能。但是随着机群系统规模的增大,节点数目的增多,也带来了许多的问题。因此本系统以提高机群系统的可用性为目的,设计并实现了基于Linux的机群容错系统。系统由4个模块组成:用户模块、中心模块、进程模块和心跳模块。各个模块之间相互协作实现系统功能。本文对各个模块以及模块之间的关系进行了介绍。系统采用分布式的松散耦合体系结构来组织节点,使系统具有良好的可扩展性和更好的容错性。尽可能地避免因故障导致的停机和服务的中断。服务节点可以随时的加入或离开监控关系并且不会对服务造成影响。本文设计为具有二级容错功能,利用机群系统普遍应用的心跳协议来实现节点间的检测。为了避免任务调度因素对检测的影响和完成对节点失效快速准确的检测,设计和实现了专用心跳检测协议。使其作为网络协议实体运行在操作系统核心态,使得检测器运行更加稳定,从而大大提高了检测速度。对于服务级别的检测采用进程事件连接器来主动的检测服务的行为变化。对于受监控的服务只有系统撤销对其的监控才可以看作正常退出,否则就会对其进行容错处理。对于容错,本文选择由分布式选举算法选出的代理节点保证失效节点上的服务得到有效处理,采用简单的服务迁移来保证服务的不间断性,从而提高系统的可用性。

参考文献：

[1]. 多节点机群系统的高可用管理软件的设计与实现[D]. 张文生. 中国科学院研究生院（计算技术研究所）. 2000

[2]. 机群操作系统高可用服务研究[D]. 王磊. 中国科学院研究生院（计算技术研究所）. 2005

[3]. 高可用多节点集群技术的研究与实现[D]. 汪筱红. 上海交通大学. 2006

[4]. 基于日志的机群文件系统高可用关键技术研究[D]. 李晖. 中国科学院研究生院（计算技术研究所）. 2005

[5]. 分布式文件系统高可用问题研究[D]. 史小冬. 中国科学院研究生院（计算技术研究所）. 2002

[6]. 多机热备高可用集群的设计和研究[D]. 晏伟. 华南理工大学. 2011

[7]. 数字视频服务关键技术研究[D]. 苗艳超. 中国科学院研究生院（计算技术研究所）. 2004

[8]. 机群系统容错中间件技术研究[D]. 黄伟. 中国科学院研究生院（计算技术研究所）. 2005

[9]. 智能网容灾系统设计的关键技术研究[D]. 王红熳. 北京邮电大学. 2009

[10]. 机群容错系统的设计与实现[D]. 李肖. 大连理工大学. 2008

标签：计算机软件及计算机应用论文; 可用性论文; 分布式文件系统论文; 容灾系统论文; 集群技术论文; 集群服务器论文; 分布式技术论文; 服务器类型论文; 分布式处理论文; 容错机制论文; 分布式架构论文; 节点服务器论文; 分布式部署论文; 系统日志论文; 容灾论文; 智能网论文;

多节点机群系统的高可用管理软件的设计与实现

猜你喜欢