基于云计算的企业风险管理&以美国Netflix公司为例_云计算论文

基于云计算的企业风险管理&以美国Netflix公司为例_云计算论文

基于云计算的企业风险管理——以美国Netflix公司为例,本文主要内容关键词为:为例论文,美国论文,风险管理论文,企业论文,公司论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       近年来,在政府的引导以及产业界的积极参与下,云技术和相关产品在我国日益得到了广泛的推广与应用,越来越多的企业正在使用或者考虑使用云计算服务。新信息技术的应用在给企业带来效率促进的同时,也对传统的企业经营管理方式带来了新的挑战,如何理性的识别云计算的风险,并对风险进行系统、有效的管理成为云计算环境下我国企业亟待解决的现实问题。针对云计算风险,一些专业的云组织制定了许多云安全的指南或标准,与此同时大部分学者基于云服务提供商或整个行业的角度研究云计算安全控制。然而基于我们的文献检索,目前学术界和实务界对云企业用户如何系统管理风险的研究较少,特别是从云企业用户角度出发的将云计算与企业风险管理体系匹配的研究鲜见,限制了从理论高度了解云计算环境下企业降低风险的方法,不利于企业有效控制云危机,从风险管理的角度降低云计算可能造成的不确定性。COSO于2004年颁布的企业风险管理整合框架(简称COSO-ERM),通过建立通用的语言,旨在帮助管理层更有效的处理不确定性以及相关的风险和机会,其从组织总体的视角为评估和管理风险提供了指南,并被全球许多组织广泛应用。基于此,本文分析了亚马逊公司发生的几次宕机事故给企业所造成的影响,以及Netflix公司如何在这些宕机事故中存活下来并迅速恢复壮大的案例,运用COSO-ERM框架,试图帮助企业定义、监督和减少云计算带来的风险,为企业全面识别云计算的风险,减少云计算带来的不确定性提供有益的视角。

       一、云计算与企业风险管理:理论分析与风险识别

       云计算的应用会导致云企业用户工作流程、制度甚至企业文化发生不同程度的变化,并带来经营、控制、系统和安全方面的风险。因此,在应用云计算服务时需要对这些风险进行有效的控制。云计算的出现极大程度的改变了企业主体层次、分部、业务单元及子公司的运作模式,也给企业风险管理的要素产生了巨大的影响,不仅面临着企业内部的风险,同时也面临着CSP及其他用户的风险,如果企业不采用与之适应的风险管理框架,最终将会影响企业目标的实现。云计算给管理层是否采用云解决方案提出了新的难题,管理层在战略决策是否要采用云解决方案时,要在服务、数据和基础设施层面进行风险管理。一旦选择了云解决方案,身份管理、进入控制、互联网应用开发和管理、日志(log)管理,备份控制都是管理层需要首先考虑的问题。在非云计算环境下,已有的身份验证及授权框架不能直接拓展到云计算环境下,在云计算环境下,该框架应该能被简单及有效率的管理。在事前和事后,管理层都需要对CSP提供服务的安全性进行测试和评估。因此,首先应该了解在云计算环境下存在哪些风险。

       (一)与云计算服务提供商有关的风险

       云企业用户在采用云计算服务后,会依赖于云计算服务提供商(他们之间出现法律责任、总体风险、事故升级、事故反应和其他领域的关系),与CSP及其他云用户相关的风险同样被植入到云计算服务中。整体来看与CSP云计算相关的典型风险有:

       一是系统可靠性。系统故障是一个在任何计算环境下都可能发生的风险事件,CSP为很多的用户提供云计算服务,一旦发生系统故障,将会给其用户带来巨大的损失,因此,系统可靠性是云计算最大的风险问题。

       二是安全和合规要求。CSP提供的服务必须要遵循当地法律和法规的要求,比如不同国家的数据隐私保护政策的要求。在云端,数据保存在企业所不能控制的外部硬件中,企业不能获取和浏览网络运行或者安全日志,无法实时了解其安全性。

       三是缺少透明度。CSP不太可能完全告诉用户他们具体的流程、操作、控制和方法,比如,云用户几乎不知道数据的存储地点、CSP提供或分配计算资源的算法、CSP保证云架构安全的控制措施,或者用户的数据在云里怎么被保护等。

       四是数据泄漏风险。在多用户的云环境中,用户之间共享计算资源会加大数据泄漏风险。因此,组织不得不考虑数据泄漏风险所带来的数据安全性和保密性的问题。

       五是高价值的网络攻击目标。CSP拥有较多的企业用户,具有较高的商业信息价值,其更可能遭受网络攻击。因此,企业在采用云解决方案后,其固有风险也随之提高。

       六是缺乏应用程序的可移植性和难以更换供应商。当CSP为云用户提供专有的应用程序软件开发工具时,其开发出来的程序仅仅能满足CSP的特殊云解决方案架构,并不能与其他云解决方案兼容。另外,如果使用这些专有的开发工具开发越多的程序,并在一个CSP云端存储越多的数据,企业更难以更换新的供应商。

       七是CSP的生存能力。由于云计算在我国兴起的时间较短,目前还处于成长阶段,许多通讯提供商(如中国移动、联通、电信等)、互联网公司(如阿里巴巴、腾讯等)、硬件服务商(如中兴、华为等)以及新兴公司都纷纷开展云服务,但是云服务的持久性和利润是未知的,在未来,CSP有可能会经历一个整合的阶段。因此,企业可能会面临更换供应商或选择替代云解决方案的风险,比如重新转回内部托管的解决方案。

       (二)组织内部风险的变化

       这部分风险主要来自企业内部IT组织变更。如果云解决方案能够满足企业的IT需求,那么企业对内部架构管理、技术部署、应用程序开发和维护等方面的IT人员需求就会减少,IT部门的重要程度在企业中会降低,那么剩下的IT人员是否有足够的积极性尽职尽责,是企业所要考虑的另一个风险问题。了解云计算环境下可能存在的风险,可以更好地帮助企业识别风险,并根据已识别的不同风险找到相应解决方案,本文通过利用COSO-ERM框架,分析企业如何在云计算环境下识别风险。

       二、利用COSO-ERM框架进行云治理

       虽然对于组织来说使用云计算是非常大的变化,但是管理层可以运用正确的ERM框架有效地评估和管理相关的风险。COSO提出的企业风险管理框完全能够帮助组织建立有效的云治理方案。

       假定一个云解决方案已经建立,COSO ERM框架能够用来建立、改善云治理或者对其执行高质量的检查,通过保证所有的程序都执行到位并满足管理层的需求。即使在云解决方案后运用COSO ERM框架,一个有效的云治理仍然能够达到。

       在云计算环境下,企业面临着快速变化的经营环境,管理层需要识别云计算的风险,及其对经营环境可能产生的影响,运用COSO-ERM框架去选定适应管理层风险承受水平的云解决方案。具体来说,通过在COSO-ERM框架的每个要素中评价候选的云解决方案,管理层能够确定相关的风险和期望的风险接受程度,并做出谨慎的风险管理和治理决策,调整自身的风险管理方式,进而能够在云解决方案实施之前,制定出一个适合的云治理方案。尽管不同企业培育某一动态能力的出发点和方式途径不同,但存在一个行业的最佳标准,使不同的企业最终都将趋于类似水准,动态能力是可以模仿的,可以通过多种学习途径发展而成。因此,根据动态能力理论的这些特征,探讨云计算下的企业风险管理方法具有实际意义。

       一是内部环境。内部环境要素是其他要素的基础,其定义了企业的风险偏好和风险控制的基调。例如,风险厌恶的管理层可能会限制将企业的业务外包,这将对云部署和服务提供模式的选择产生影响,为了规避风险,选择私有云就成了企业唯一可以接受的云解决方案。

       二是目标设定。管理层需要评估如何使云计算符合企业的目标,对于一部分企业来说,云计算可能会帮助企业达到现有的目标,而对于另一部分企业来说,云计算可能会给企业带来获取竞争优势的机会,在这种情况下,企业需要重新设定其目标。

       三是事项识别。管理层需要对影响企业目标实现的事项(机会或风险)进行识别。当企业选择了CSP,事项识别和风险评估的复杂性将会增加。管理层在识别和评估风险事项时,需要考虑外部环境因素(如制度、经济、自然、政治、社会和技术),以及企业的内部因素(如文化、人力资源、财务状况)。在采用公用云或者混合云的解决方案时,管理层需要同时考虑受CSP的外部和内部因素影响的事项。由于事件识别对风险评估过程有着显著的影响,管理层应该全面识别会影响企业目标实现的事项。

       四是风险评估。管理层应该评估与云战略有关的风险事项,以确定每一个云解决方案的相关风险对企业的潜在影响。理想的情况下,风险评估过程应该在企业决定采用云解决方案前完成。云计算能够影响风险评估过程当中的以下重要环节:第一,风险状况:企业的风险状况包括企业所必须管理的全部风险。当采用某个云解决方案时,由于受到CSP相关风险的影响,企业风险发生的可能性、风险的潜在影响都发生了变化,风险状况也会随之有所变化。第二,固有和剩余风险:企业必须要评估事项的固有风险,然后建立起风险应对措施并确定剩余风险,没有采用云计算的企业的固有和剩余风险水平可能大大高于或低于那些采用云计算的企业。第三,可能性和影响:当采用云解决方案时,某些事项的可能性和相关的潜在影响将会发生变化。管理层是否能准确判断风险发生的可能性和其影响,取决于企业是否具有一个全面的、准确的和适时的风险事项数据库。在一些情况下,管理层并不拥有了解CSP的内部控制环境信息的能力。因此,管理层需要对此做出一些合理的假设,以完成风险评估过程。

       五是风险应对。当管理层识别并评估了那些会影响企业目标实现的云计算风险,管理层需要决定风险的应对方案。一般来说,有四种应对方案:第一,回避风险:避免带来风险的活动(如,不采用云计算,或者仅仅采用私有云作为解决方案)。第二,降低风险:实行控制活动,来减少风险发生的可能性和其影响。第三,共享风险:通过转移风险或者其他方式来减少风险发生的可能性和风险的影响(如,购买保险)。第四,接受风险:对风险发生的可能性和其影响不采取任何措施。例如,当企业没有能力直接控制CSP时,其只能接受增加的固有风险。当云解决方案是混合云或者公用云的情况下,管理层依赖于CSP的风险控制能力,进而降低了管理层直接减少风险的能力,企业面临的固有风险将会增加。因此,管理层可能需要提高他们的风险承受程度,选择适合的风险应对方案。

       六是控制活动。传统的控制方法同样适用于云计算环境,但是不同的是,一些控制责任仍然保留在企业当中,而另外一些控制责任则转移到CSP中。如果目前企业的控制活动质量为中等或者较差,采用云解决方案将会加剧企业的内部控制缺陷。例如,当一个密码控制或者数据安全控制质量较差的企业采用混合云或公用云时,通过公共网络来进入企业的信息系统将会显著增加其外部安全漏洞的可能性。

       七是信息和沟通。管理层需要通过不同的渠道对内部和外部的事项进行及时、准确的信息收集和沟通,以保证有效的经营业务并管理风险。在云计算环境下,从CSP获得的信息的及时性和信息质量将低于从内部IT部门获得的信息。因此,管理层需要额外的或不同的信息来源以满足信息和沟通的需求。由于CSP和其他云用户的一些行为会对企业带来一定的影响,管理层可以通过监督与CSP相关的外部信息(如,财务报告、公共信息披露、监管文件、行业期刊和其他云用户的公告等)来收集相关信息。

       八是监督。在云计算环境下,管理层应该继续监督其ERM方法在保证企业充分地识别、控制相关风险,促进企业目标实现方面是否是有效的,有效的ERM方法是演进的和动态的,应该随着云解决方案、竞争对手使用云计算的情况以及法律的变化而进行适当的调整。

       当企业从专有的内部计算环境转向公用云或混合云的云解决方案时,一方面,CSP的风险会对企业产生直接的影响,管理层必须要在风险状况中考虑到CSP的风险,进而采取适合的控制措施;另一方面,其他云用户的行为也可能会影响企业的风险,管理层在云风险评估过程中也需要考虑其他云用户的相关风险信息。因此,管理层应该将企业的ERM要素同CSP的ERM要素相融合,分别识别影响企业本身和影响CSP及其他云用户的风险和事项,并制定适合的风险管理框架进行云治理。

       三、案例介绍

       2011年4月21日,亚马逊在北弗吉尼亚州Virginia的云计算数据中心的EC2,RDS服务器由于误操作宕机,导致大量依赖其云服务的企业利益受损,受害者包括手机服务网站Four Square、新闻网站Reddit:SNS问答网站Quora,以及社交媒体管理平台Hoot Suite等。北弗吉尼亚州的云计算数据中心是支撑亚马逊公司庞大EC2服务器的五大中心之一,这次宕机事故持续了几天,被称为史上最严重云危机事件。

       虽然2011年亚马逊云计算服务发生过巨大的事故,但远远不及2012年发生的频繁,2012年6月份,由于电力系统的故障,亚马逊AWS平台发生宕机事件,7月份又因为遭受雷击再次造成数据中心宕机,又有一批客户的正常使用受到影响,事件发生之后,AWS官方网站都对宕机事件做出了解释,并告诉AWS用户,为了防止可能出现的问题,他们正在积极地做着努力。

       尽管云计算服务存在如此多的优势,其一旦发生宕机或者出现问题,造成的影响也不容小觑,事故让亚马逊及其客户受到惨痛的损失,很多应用亚马逊云技术平台的小公司因为没有云危机防范意识和准备,没能在2011年那次严重的宕机事故中挺过来,但也有不少公司由于采取了有效的风险管理程序,从而迅速恢复。

       Netflix就是其中最成功的案例,Netflix公司是一家大型公司,也是一家大型云用户,他的主要云服务提供商为亚马逊公司,在2011年4月亚马逊那次严重宕机事件中存活了下来,在分析了Netflix成功存活的案例后,我们发现Netflix公司在应对云危机的问题上早已做了准备,并设计了行之有效的解决方案。Netflix公司充分利用了亚马逊的冗余云架构,使得任何发生在单点的技术问题都不会影响Netflix的业务,才能在这次事故中免受其害。Netflix的冗余原则主要为,首先,公司没有将数据保存在一台机器上;其次,公司技术工作人员,被要求在三个可用区域(简称“AZ”)上运行,且每个区域都可以自由扩展,这样一来,一旦哪个区域产生问题,就可以及时将数据传输到其他的区域上去,避免了因宕机可能造成的运行中断或者数据丢失。

       具体来说,根据客户需求,分布在亚马逊AWS服务可用区中,Netflix使用Memcached高性能的,分布式内容对象缓存系统来支撑数以百计的其他亚马逊简单存储服务(S3)和Cassandra的NoSQL数据库服务器。简单的前端服务基于500到1000的Linux操作系统中免费开放源代码的Tomcat应用服务器所提供的JavaServer和Nginx Web服务器上运行。因此,无论顾客是在个人设备上或是Web浏览器访问Netflix,其需求都可以在最短的时间里被实现。如果出现故障,Netflix公司在其三分之二的区域内继续运行服务,这样一来,即使EC2发生区域故障,也不会停止Netflix的视频流向客户。要做到这一点,并不容易,这是因为,DNS提供商完全不同的应用程序编程接口(API),他们在设计之初是由设计师手工管理,因此不容易实现自动化。但是,从Netflix的云风险应对方案中我们发现,Netflix重视的不是是否会出现云危机,而是无论是云还是特定服务出现故障,Netflix是如何继续保持工作的。正是应用了这样的云风险管理模式,Netflix公司才能够在亚马逊的几次严重的宕机事故中不受影响,继续维持运营。

       Netflix公司从最初的云服务使用商,发展到最后成为云服务提供商,其成功转型并摆脱可能由云服务提供商自身固有风险所带来的风险,无疑为企业关于云计算的风险管理提供了有利的支撑,因此,我们结合Netflix公司成功的案例,与COSO-ERM框架一起,为企业风险管理设计了解决方案。

       四、Netflix公司云风险控制经验借鉴

       根据Netflix公司这一成功案例,我们分析了公司内部部署架构、系统设置,以及发展机制,并结合COSOERM框架给出中小企业面对云危机的应对方案。

       (一)内部环境

       企业需要明确自身内部环境因素,即内部风险因素,低风险偏好的企业很难将企业业务外包,而高风险偏好的企业在扩张业务时,应先确定企业内部可承受风险水平,并可从云计算服务提供商和组织内部风险变化两个角度降低内部环境风险,主要方法有设计分散的业务提供方、建设私有云等。作为扩张中的Netflix公司,其选择了较高的风险偏好模式,并将其面向客户的服务几乎都迁移至公有云上,完全依托CSF提供的云服务实现数据共享,为了降低可能由云计算提供商引起的风险,公司将所有本地后端业务按照相应的标准分类存储于不同的云端,这样一来,即使一家云服务提供商发生宕机事故,公司也能及时恢复,不使用户使用受到影响。此外,根据公司的云部署路线图,Netflix公司已逐渐将自有的云服务加以整合与完善,形成了从云服务使用者到云服务提供者的成功转型,进一步从根本上杜绝了可能存在于提供商方面的风险。

       (二)目标选择

       企业在探索如何更好的使用云计算并有效地控制云风险,而达到利益最大化的过程中,还需要考虑使用云技术到底能给企业带来更多的机遇,还是更大的利益。认清这一点,对于处于不同发展阶段的企业来说都至关重要,如萌芽阶段的企业可能需要更多的机会与资金,而处于成熟阶段的企业则更看重预期将会获得的收益,明确企业目标对于治理云风险也相当重要。Netflix公司从一个小公司成长为美国最大的在线影片租赁商,付出了巨大的努力,正是因为看中了云计算在预期可能给公司带来的收益,公司主要云服务负责人在设计初期就尽可能的为每个应用创建一个极短的摘要,以保证服务商宕机也不会造成数据完全遗失,对于一些大型的云计算使用者来说,这也是一项不小的挑战,而Netflix公司则从这些挑战中,找到了解决风险的方案,并因此抓住了机遇,获得了巨大的利益。

       (三)事项识别

       由于选择采用CSP,情况的复杂度发生了变化,企业需要从外部条件和内部条件两个方面来分析遇到的机遇和挑战。从外部分析来看,包括所处环境中的经济、制度、自然、政治、社会和技术等,内部分析则包括文化、人力资源、和财务状况等,只有识别出企业内外部事项,才能更好的应用COSO框架设置符合企业特点的风险模型。Netfilx公司研发私有云之前,市场上的云计算运营服务业务都被像亚马逊公司、苹果公司等大型公司占有,一旦这些主要运营商发生宕机,对于像Netflix这种对于数据存储能力的需求大于一般互联网公司的在线视频播放企业来说,将是灭顶之灾。因此,分析了企业外部条件,以及在公司为关注测试和监控工作在内部开发的一套名为Simian Army的开源工具的技术支撑下,Netflix公司决定建设属于公司自己的私有云。

       (四)风险评估

       在确定了采用何种云计算技术路线之后,就需要对其风险作出评估,防止因为风险过大影响企业云技术发展,当然,风险评估的进行应该在企业采用云技术之前进行。亚马逊AWS服务水平协议中建议给每个服务部署至少两个可用区域,在对亚马逊AWS服务器的的固有风险进行了评估之后,Netflix公司坚持为每一个服务都部署了至少三个“可用区域”,并且这些可用区域都是相互孤立的,因此不论哪个区域发生了数据安全问题,公司都不可能丧失所有数据,这样一来,就避免了可能由于云服务提供商在信息上由于缺少透明度造成风险的可能性。

       (五)风险应对

       对云计算的风险评估之后就需要管理层决定如何应对风险,这需要根据企业和管理层的风险偏好决定是回避风险,降低风险、共享风险或者应对风险,不同的风险应对模式也决定了企业风险管理的差别。Netflix公司采用接受风险和控制风险的方式应对云计算中存在的固有风险,并在公司内部开发了一套名为Simian Army的开源工具,并且使用监控和警报系统覆盖整个运营过程,同时,由于Netflix公司充分利用了亚马逊的冗余架构,一旦发现可能的数据泄露风险,负载均衡器就可以将流量及时迁移至工作正常的可用区域内。

       (六)控制活动

       对于云计算的控制可以采用传统的企业控制系统,但如果企业的内部控制本身存在缺陷,云解决方案则会扩大这些缺陷,因此,为了设计完善的云解决方案,加强企业自身内部控制建设也是至关重要的。Netflix公司除了给每个服务至少部署三个可用区域外,还在亚马逊云中的两个地区进行了备份,其中之一是“美国东部弗吉尼亚州Virginia”区域,另一个则在“欧盟西部Europe-West in Dublin”区域,且两个区域的备份为异步进行,这样,如果亚马逊云的某个区域服务整体遭受攻击,其他地区的亚马逊云服务仍然可以确保公司服务的正常运行,并确保对整个播放业务在最短的时间内实现。

       (七)信息与沟通

       信息传递是否及时对于一个依靠云技术的企业来说就显得十分重要,管理层需要通过及时的了解企业的情况来决定选择怎样的发展模式。当然,如果依靠CSP的企业来说,其获取信息的过程就比拥有私有云的企业慢的多,且获得信息的质量也需要再进行测试。因此,信息获取的风险管理也需要根据使用不同的云方案的企业具体分析。对于一个像Netflix公司一样主要依靠网络服务支撑其业务的公司,组织内部风险的变化将直接影响公司的经营,这其中就包括信息的沟通,因为在云环境下,信息的获取远远低于公司内部IT部门,因此,构建一个强大的内部IT系统,是Netflix公司维持有效运营的重中之重。

       (八)监督

       监督包括事前、事中和事后三个部分。事前监督是在风险管理实施以前,对于企业自身内外部环境的分析,以确定适用企业条件的风险管理模型;事中监督需要管理者时刻关注ERM系统实施的有效性,能及时、有效的实施风险控制;事后监督的效果没有事前、事中监督有效,主要是为了以后期间风险管理的实施提供理论支持。有效的ERM系统是动态的,应该随着云解决方案、竞争对手使用云计算的情况以及法律的变化而进行适当的调整。管理中应及时监督ERM系统的运行,及时识别风险,保证企业目标有效实现。

       五、结论及启示

       随着国家大力推进云科技产业,云计算的相关风险也逐步显现,从企业角度迫切需要完善的框架来识别、控制、管理云计算风险。本文基于权变理论和动态能力理论,结合COSO-ERM框架,提出基于云计算的企业风险管理框架:企业应该将ERM框架应用于云治理当中,在ERM框架中考虑到云计算的影响;对于候选的云解决方案,通过利用COSO-ERM框架分析相关风险,选择适合的云解决方案;在采用适合的云解决方案后,要将企业本身的ERM要素与CSP的ERM要素相结合,动态的识别、控制风险,并明确管理层所应承担的责任,形成动态管理云计算风险的能力,进而发挥云计算的效率促进作用,保证企业目标的实现。同时,相关部门还需要尽快制定我国云计算的法律、法规、行业标准等,对云计算相关的服务水平、安全性、可靠性以及服务中断等问题及责任进行界定,降低外部环境风险,促进云计算在更多企业中安全的应用。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于云计算的企业风险管理&以美国Netflix公司为例_云计算论文
下载Doc文档

猜你喜欢