基于终端数据的电信承载网异常节点定位方法论文

基于终端数据的电信承载网异常节点定位方法

单文波1,陈博伶2,钟秋浩1,王建新1

1.中南大学 信息科学与工程学院,长沙 410083

2.中国电信股份有限公司 湖南客户支撑中心,长沙 410000

摘 要: 随着电信IPTV业务的高速发展,承载网规模不断扩大,设备故障运维难度逐渐增大。当设备发生故障时,如何在大规模网络中对故障节点进行快速定位已成为运维方面的重大挑战。目前承载网设备故障告警主要依赖于设备性能日志,误告较多,且无法适应大规模网络故障定位。因此借助Spark等工具,提出一种基于终端数据的异常节点定位方法,结合网络拓扑初步实现阈值告警。并进一步以设备相关性和可靠性为分析基础,将告警过程产生的大量虚假告警进行清洗,提高故障定位精确率。实验结果表明,在承载网故障定位中该方法精确率能达到89%,具有较高实用价值。

关键词: 网络电视(IPTV);终端设备;网络拓扑;故障定位;可靠性计算

1 引言

随着网络的发展,网络中的网元设备逐渐增多,管理难度越来越大。中国电信作为通信和媒体传播的运营商之一,其IPTV(Internet Protocol Television)业务在近几年发展较为迅速。不断发展的网络业务使得发生网络故障的可能性逐渐增大。

目前某省电信的故障告警手段主要倾向于单台设备的阈值告警。由于需要确保较高的真故障节点识别率,故将部分性能指标阈值设定得较为敏感,因此带来较多虚假告警。虚假告警数较多对于异常节点定位分析、决策有着较大干扰。虽然运维人员在网络故障预警分析和异常定位方面已有相当丰富的经验,但仍需耗费大量精力,稍有延迟将会带来不少投诉、赔付等问题。因此在发生网络故障时能快速定位故障节点,对提升服务质量和客户体验,减轻运维人员工作负担都有着重要意义。

在实训教学中,教师设计出的任务要具有一定的灵活性,任务的完成情况没有一个具体的参考标准,教师要引导学生进行客观的自我评价和反思。最后,将学生的自我评价、同学评价和教师评价三者有机整合,在学习过程中,学生的创新能力、知识迁移能力会得到不同程度的体现,这是自主学习能力最重要的一部分。

随着大数据技术的兴起,使得对大规模承载网网络设备进行数据采集、数据存储、预警分析和异常定位等操作都变得比较便捷[1-4]。目前对于网络异常节点的定位分析已有较多研究,但是处理实时环境下的承载网设备数据仍不合适。文献[5]虽然采用了端到端(链路)通信故障定位,但是限制较大,当缺少唯一故障节点限制条件时则不能够较好地进行故障识别。文献[6]采用了目前综合性较好的神经网络方式来计算故障节点,但是本身计算代价较高,不适合实时性系统。文献[7]基于设备日志等通过带规则的回归分析法和最佳拟合直线法对设备故障进行分析并预测,但是较受限于设备本身,没有较好地结合网络拓扑对衍生告警等数据进行过滤。这些方法在进行异常定位时主要依赖于单台设备指标异常变化,很容易忽略该异常特征是否是该设备的真正异常特征,如业务量突增、拓扑衍生告警等问题[8]

2013年,山东省以增强水利对经济社会发展支撑保障能力为主线,推进现代水利示范省建设,加快传统水利向现代水利新跨越,为经济社会发展提供了有力支撑和保障。

综合上述,现有相关承载网故障定位主要通过设备日志性能等,局限性较大,缺乏对拓扑层级间的关系考虑。针对前述问题,本文以终端反馈数据为基础,结合网络拓扑进行相关分析建立故障定位机制。本文主要贡献如下:

图3(b)将所有BRAS上在线指标对应与之相关的质差指标进行散点图刻画,横坐标为某单位时间内每个BRAS设备上的直播在线人数,纵坐标表示其MOS出现质差的状态数,共由272个BRAS相关坐标点构成。从散点图的分布状态来看,总体趋势为,随着直播在线人数压力上升,MOS质差人数也随之上升。其横纵坐标总体表现出一种线性关系,计算后的回归曲线为:y=0.019 2x-3.310 9,从图中可以看出部分坐标点偏差较大,属于直播MOS质差水平较劣的一类,但总体而言,说明BRAS整体分布状态中,直播在线和MOS质差之间的分布关系是有规律可循的。而对于以时段分析来说,对每个BRAS指标进行独立分析要更加精准,较符合其所在地区特征及规律。

(2)提出一种基于终端数据的异常节点定位方法,有效进行数据清洗与故障告警,提高定位精确率。

2 故障定位总体流程

图1为故障定位总体流程,主要有以下3个步骤:

(1)数据采集计算及特征分析。该过程主要从采集的数据中获取异常样本集并进行预处理。一方面对采集数据进行量化、拓扑聚合和特征量计算,分析数据的周期特征与时间序列分布特征,供特征量相关系数、质差阈值等计算使用。另一方面通过实际故障工单数据区分出异常样本,工单内容主要为异常设备故障详细记录,且在产生时具有明确个体异常标识,表示设备为真异常,因此该设备与链路上的父节点和子节点的数据将被列入异常样本中,建立设备可靠性等分析基础。

(2)实施阈值告警。由于现有承载网告警是根据全网设备性能指标等进行阈值告警,而阈值设置时主要参照运维经验或样本分析结果,往往很难把握实际阈值的准确性,且在实际应用中无法适应业务量发展等变化,故而在告警过程中产生较多误告[9-10]。因此需要根据每个设备实际运行状态的历史统计值分析动态计算阈值,满足时效性要求[9]。设定时主要根据终端质差指标聚合的周期性建立分时段时移均值计算模型[10]对超出阈值的聚合值进行告警,以初步获取故障对象列表。

(3)从异常特征相关性和设备可靠性上进行虚假告警过滤和故障定位。主要通过对特征量的相关系数计算,比较统一时间段窗口采集数据拓扑聚合后链路、层级间的相关程度来识别衍生告警等。再独立对每个设备进行通过设备可靠性分析[11]。计算过程中,设备相关性R计算方面采用Spark MLlib提供的斯皮尔曼等级(Spearman Rank)[12],其对分布特征和容量大小等条件要求较为宽松[13]。设备可靠性采用韦布尔分布的两参数计算模型,并通过计算设备故障概率,来反映该告警是否有效[14-16],且该模型在大数据环境下能带来更好的稳定性[14]。最终进行故障阈值和失效率估算,从而进行真故障节点定位。

急性糜烂性胃炎表现为急性胃粘膜损伤的一种急性胃炎,患者的主要临床表现为上腹部隐痛或剧痛,常伴有恶心、呕吐等症状,严重者更是有间歇性呕血或出血等症状[1]。为了能够有效地控制患者的病情,提高治疗效果,治疗方法尤为重要。本研究主要是对急性糜烂出血性胃炎大出血患者采用生长抑素治疗进行研究,现有如下报道。

图1 故障定位总体流程

3 采集计算及特征示例

3.1 采集计算过程

从承载网拓扑节点上的设备以运行数据作为告警基础容易因业务突增等导致误告。而根据网络拓扑聚合,考虑业务突增、设备承载压力等是否对终端造成质差反馈来分析,则可较好地应对这些问题。采集的数据主要有终端反馈和系统监控两部分:

(2)若满足:PWB<PWth;即拓扑网络中W和兄弟节点Bi也不具备特征相似性。因此,判定故障来源于W本身,标记为故障节点。否则,如果PWB≥PWth,说明W和其兄弟节点Bi有着较强相关性,则W和F也有着较强相似性,则认为W为非故障节点,通过W替代F,W的链路子节点替代W,迭代进入步骤(1)。

(2)监控系统中的数据主要包括终端设备向资源平台实时请求的状态数据,如设备对EPG等资源请求记录,和用户请求动态或静态多媒体内容的响应情况;还包括在监控系统中全网在线等实时统计和告警数据,主要为各个终端设备经过服务端认证平台的在线记录和异常监控的指标告警记录。

数据采集及计算过程如图2所示,首先通过FTP、Flume等方式将网络拓扑数据缓存至Redis分布式集群[17]中,将实时采集的终端设备反馈数据和监控系统监听访问数据汇集至Hadoop数据分析平台中[18]。将数据中具有指标状态的数据键值存储至HBASE中,同时将这部分数据与相关历史数据结合,利用Spark分布式内存计算平台[19]进行量化聚合、相关性和阈值等计算。并按不同时段粒度进行时间序列特征计算,将近期数据中的同期数据作为设定动态阈值的参考标准,同时将超出阈值的数据进行异常标记并存储至HBASE中。

图2 数据采集及计算过程示意图

上述设计主要借助于Redis内存缓存模型和Spark内存计算模型提高拓扑数据读取和数据计算的速度,提高计算和索引查询速度,并且能够支持存储较多数据格式类型。该结构适合进行电信较大规模网络拓扑和终端数据关联计算。由于监控数据中已经包含设备告警数据,因此结合终端反馈数据和网络拓扑,通过分析某个告警节点状态是否具有明显质差特征而进行异常告警。

3.2 量化聚合及特征示例

终端在链路节点异常时会有相应质差反馈,因此对终端数据进行二值量化,再根据拓扑链路进行聚合。

量化过程主要针对MOS值和异常反馈标识,以时间T为量化的单位时间段,且异常代码标识类只记录一次,在单位时间段内不重复记录。对人数方面的统计主要以3A认证、EPG直播及点播人数等进行累加。若量化值为1,则表示该节点相应指标为一次质差状态。

聚合计算主要通过拓扑链路的形式,对终端设备值进行向上累积,其过程为:当链路末端节点N为质差状态时,将其链路L上所有节点对应的质差指标值(Error-Count)node.ec和在线指标值(OnlineCount)node.oc都累积加1;否则只对node.oc进行计数。通过该过程,将全网终端量化值聚合,最终拓扑上每个节点都有对应的状态累积值,从而进行特征统计量计算。

特征统计量计算主要以聚合计算的多个单位时段T构成的时序数据为基础,对设备、链路或层级方面进行统计描述。针对单个设备,以时段T为特征计算单位,每个计算时段包括若干个单位时段T,如24个自然小时、忙时、闲时、日、周等。时段数据主要有质差序列Sec、在线序列Soc,以及质差占比序列Spe时序数据;其中质差占比为:nodepe=nodeec/nodeoc×100%。

通过实验对本文告警机制进行对比分析,评估过程中,以承载网7 455个设备(OLT及BRAS层级)的3个月历史监控数据和系统告警数据,作为实验基础数据。其中,测试数据的测试节点数为7 455个,由故障工单核实后的平均真故障节点数为30.73个。

(1)周期特征

承载网设备在线人数等方面具备较强的规律性,这种特征主要源于终端用户作息规律。因此,作为网络拓扑较上层的设备,在聚合计算的时序数据中,都存在一种比较明显的曲线趋势规律。但在一般状态下,直播、点播和3A等在线人数和异常数等周期性比较明显,具有以天为周期单位的特征,且在相同时间段上,数据值与时序趋势方面都保持着相对稳定的状态。

图3(a)为某地市节点直播在线人数一周时序图,从图中曲线趋势可以明显看出,在周期内人数增长趋势、幅值大致上保持一致。计算平均增长率统计量RTavg,周期描述如表1所示,其中T为自然时段,可将曲线趋势描述为:从早上6点至中午12点,在线人数为一个持续增长的过程,且在上午8点,人数增长速度最快;之后在12至13点间达到在线人数小高峰,从13点之后有一个较小的回落,从15点开始至20点持续增长,且在18点增幅最大;在20至21点间达到最高峰;最后在线人数有一个较大回落,持续至第二天5点左右,且在晚上23点左右,人数下降速度最快。

浙江省大中型水库费用开支中运行费用比例最高,达到59.32%,其次为管理费用,占28.69%,最低为维修费用,占11.99%。

实验组中,局部肿胀患者为1例,感染和闭塞患者均为0例,穿刺处渗血为1例,并发症发生率为4.76%,对照组中,局部肿胀患者为4例,感染患者为2例,闭塞患者为1例,穿刺处渗血患者为4例,并发症发生率为26.19%,实验组和对照组并发症发生率对比,差异有统计学意义(P<0.05)。

表1 分时段增长率统计RTavg分布结果

图3 部分特征示例

(2)分布及对比特征

对于整个网络拓扑来说,其分布特征是针对于整个网络层级间进行一个分布状态描述,主要以统计量等方式进行横向层级关系对比。通常以所有设备状态进行分组分布统计,使用散点图、频率直方图等方式描绘。

(1)基于开源日志采集、Spark等技术设计并实现了基于分布式内存的实时故障定位分析方案。

图3(c)为直播MOS质差率BRAS频率直方图,通过将质差率以0.01进行分组,对所有BRAS进行分组,并统计其占比,以频率直方图进行特征分析,同时绘制直方图趋势线进行线性描述。图中所示内容,对BRAS层质差率设备分布已经有了较为直观的描述,近95.22%的设备质差率处于[0.00,0.04]之间,近97.06%的设备质差率处于[0.00,0.05]之间,总体直播MOS质差率期望值为0.017 5,而部分设备偏离程度较大,因此可以对这部分设备进行异常分类。

(3)相关性特征

图6(b)描述了这些设备在24个自然时段的告警次数分布特点,可以看出其走势和在线人数的日均特征较为接近,在3到6点告警次数较少,13到18点较为平稳,在21点告警次数较多。

图4(a)给出了某BRAS设备W在正常时和故障时与其所有兄弟节点Bi之间的相关系数对比情况。在W正常时,R(W,Bi)值都保持较高水平,为明显的正相关特点;而发生故障时,其值接近为不相关水平;这两种状态下特征区别较为明显。

华兹华斯笔下浪漫主义的“文化消费”(或“语言消费”)看似是在文化的交锋中,一种文化击败了另一种文化的结果,但实则被击败的文化以及文化强者均是处于正在被不断重组、被处理的过程中。诗人对盖尔语或凯尔特文化的愧疚之情以及再次压制较好地映现了这一复杂过程,这也反映出诗人对他者文明的悖论情感。

图4(b)给出该设备W在正常时与故障时和其所有子节点Dj进行相关系数对比的情况。图中显示在W故障时,与其绝大部分子节点表现为明显的正相关特性。这是由于设备统计量特征值的聚合计算过程所导致。在W正常时,同样与较多子节点间表现为正相关特性。该图中也存在其他异常节点,子节点{ }D7,D8,D17,D20在该过程中表现为另一种特性,尤其{ }D17,D20表现为一种负相关特性,因此通过相关性流程分析,可判断该设备可能发生故障,需要进一步迭代分析。

图4(c)所示,在W故障时,相应的相关性值在0.9以上62.79%,0.8以上占72.09%,0.7以上占81.40%。正常时该占比的累积分布也较为接近,相关特征较为明显,其中W正常时相关性均值Rˉ≈0.72。

图4 相关系数对比及分布结果

(4)设备可靠性

设备可靠性通过韦布尔两参数模型进行量化。联合利用中位秩与最小二乘法对两参数进行估计,虽然在计算偏差方面较数值解法类较大,但计算效率较高[21]

图5给出了某设备在1个月内发生的故障时间记录,通过最小二乘法估计的累积失效概率曲线与中位秩的比较,其β和α分别对应累积失效率计算过程中的形状参数与比例参数,R2为线性回归相关指数。

图5 累积失效估计概率曲线与中位秩比较

4 故障定位

为解决由阈值告警过程产生大量虚假告警的问题,通过设备统计量在网络拓扑节点上的分布状态、相关性等进行告警数据清洗、可靠性阈值告警和故障定位。

4.1 告警数据示例

以下为所有OLT和BRAS层设备故障时刻进行直播故障数据的一些特征示例。

图6(a)描述了这些设备从故障发生至恢复过程占用时段的关系,图中显示能够在48个单位时段内恢复的设备分布状态。83.78%的设备故障后能够在1至4个时间段T恢复;大于4个时段的设备从整体看来较少。部分设备在发生故障时无法自主恢复或已损坏等,需要进行维护处理,故而所需恢复时间较长。

设备相关性是衡量两个设备间的属性、特征相关的关系程度,可以通过多种方式进行关系表示对部分特征关系的关联程度进行准确度量[9,20]

图6(c)则描述了这些设备在告警时,同一设备连续两次相同性质告警间隔时长的分布特征,描述时长控制在48个单位时段。可看出在发生故障时有近82.79%的设备在6个单位时段内会产生两次相同性质的告警。

4.2 数据过滤

数据过滤主要是针对告警过程中产生的重复及衍生数据,需要进行清洗操作。

图6 告警数据特征示例

重复数据主要来源于设备故障的持续性。设备发生故障后并不会立即恢复,可能会持续一段时间。如果是宕机故障恢复,以在线人数为例,数据变化特征表现为:在时间段单位T内陡降,并迅速恢复;或需要几个单位时间段,陡降并稳定后逐渐恢复。如果是拥塞等现象,则质差方面表现比较强烈,将产生较多低分MOS值或异常代码标识,且会影响一个或多个时间段。因此以告警类型作为分类标准,采用时间窗口TW建立过滤模型,将若干个连续单位时段的相同类型的告警记录进行清除,避免由重复数据带来的计算干扰。且以TW为分析时间段,对其中的故障设备进行统一分析,如果在时段T(T∈TW)发生故障,则认为TW设备为故障状态。

在实现以上技术目标同时,还希望通过该系统提高压风机组的整体工作稳定性,降低故障发生率,缩短故障时间,降低人员和设备运营成本。

衍生数据方面,在依据网络拓扑聚合统计量的阈值告警过程中,由于父节点统计量值由子节点累积而来,因此受故障节点的影响,其承载的终端节点都会产生相应的质差反馈,使得网络拓扑中故障节点相关链路上的设备统计量值都会受到相应影响,具体表现为一种相似的时序趋势,而导致大量衍生告警。故而以设备间的直播MOS质差关系、EPG异常代码反馈关系为主要分析对象,采用相关性对衍生数据进行过滤。

分析流程如图7所示,其中,Rth为相关系数阈值;PWD表示在节点W下各个子节点Dj中,相关系数满足R≥Rth的节点个数占所有子节点个数的比值;PWB表示在节点W的各个兄弟节点Bi中,相关系数满足R≥Rth的节点个数占所有兄弟节点个数的比值。

图7 数据过滤流程

首先对根节点判断,若该时刻满足vi≥Vth且PWD≥PWth,其中,PWth为告警比例阈值,则认为根节点故障,进入流程(4)。否则从根节点开始遍历致故障节点W,从上至下确认故障节点;主要考虑在一段时间T内,如图8所示,通过计算该时间段T内与W的所有兄弟节点Bi间的相关系数R(W ,Bi)和W与其子节点Dj间的相关系数R(W ,Dj),并进行如下判断流程:

(1)若满足:W与父节点F的相关系数R( )W,F≥Rth,即节点W的特征与父节点F的特征保持一致,没有故障,以W替代F,W的链路子节点替代W,迭代进入下一层,进入步骤(1);若R( )W,F<Rth,即特征不一致时,则进入步骤(2)。

如果想要降低运输配送成本,应当减少运输环节,对满足直送条件的,大批量以及小频率的,应尽量采取直送的运输方式,降低由于二次运输带来的成本上升;对于批量小频次又多的商品运输应当通过配送中心来解决。同时,更是要避免相向运输、迂回运输等不合理的情形。百安居目前的配送方式很有问题,必须对原有的线路进行优化,整合现有资源,从而最快最有效地降低配送成本。于是,百安居的供应链部门提出应该先将货物集中到某区域物流中心,再分别由区域物流中心负责各区域门店的配送。

图8 相关性计算示意图

(1)终端反馈数据主要有MOS值和异常代码标识,MOS值主要反映终端设备的一个综合状态评分,与该设备的CPU、内存和网络等运行状态相关,若该值低于其期望值则会造成对客户有感知的视觉或听觉上的质差反映,与用户体验关系密切。异常代码标识是对网络错误、频道错误等检测的一个重要反馈标识,用于识别错误的类别及来源,主要包含来自设备本身和网络等原因造成的异常代码。在进行网络故障定位时,终端反馈数据将会发挥重要作用。

(3)在步骤(2)基础上若满足:PWD<PWth,即认为大部分子节点和告警设备的特征表现不一致,这部分节点可以保持正常工作状态。因此故障源可能来自于那少部分节点,即对R(W ,Dj)>Rth部分子节点分别作为基本告警节点进行迭代,依次进入步骤(1)进行判断。否则W与各个子节点Dj故障特征表现一致,则进一步确认告警来源为W。

(4)在以上过程中,若时间段T内,能有确认为父节点F异常的记录,则将节点W和Dj相关指标的记录均清除掉,当作误告记录处理;且逐层向下递推直至链路上节点比较结束。

通过此方式识别出部分故障设备,减少大部分衍生告警,但是仍有部分故障设备的衍生特征不明显,因此需要再对设备进行可靠性分析,设备的失效率是否超出其阈值,并以此判断一个设备的告警是否有效。

4.3 可靠性阈值告警

采用韦布尔分布计算设备的失效概率函数λ(l),则可以将设备在δ时间点发生故障的概率P(lδ)表达为失效率计算,其中:lδ为设备已经正常工作的时间。相应地对全网所有设备独立进行分布函数计算。由于设备发生故障后,通常会进行维护升级等操作,继而改变原有的分布状态,因此在计算过程中需要考虑从该时刻重新进行观测并计算设备寿命,再进行故障概率计算。

在对每台设备进行可靠性计算后,就能计算其特定时间段中每个单位时段ti上的设备故障概率阈值:PTHti=λ(li)+c;其中阈值PTHti的计算过程主要依据设备在故障过程中,浮动范围c由每次故障概率超出计算值的部分进行均值处理,从而进行阈值告警。如图9所示,如果在相关性清洗过后的设备告警时刻ti上计算所得发生故障的概率Pti≥PTHti,则认为会发生故障。且超出阈值范围越大,则认为故障可能性越大,并标记该设备为故障设备;否则认为是误告。

图9 可靠性阈值告警流程

4.4 实验结果

对于特征计算时段中,由vec、voc或vpe连续数据构建时序数列S,主要通过时段最值、极差、均值、方差、平均变化率和单位变化速率等多种类型的统计数据对设备进行时段状态描述。这些特征数据本身无法描述一个网络节点是否故障,但是与网络拓扑相结合,观察这些数据在网络拓扑中的分布状态,便可以较为直观地发现主要受影响区域和异常节点。

从图2可知,陕南和关中的增长速度趋于稳定,大部分年份保持在两位数的正增长速度,增长变化趋势大体一致,波动浮动不大;陕北地区GDP的增长速度变化幅度较大,2006年增长速度最快达到34.66%,之后呈现下降趋势,到2009年的5.01%之后又上升,从2012年开始又下降,波动较大。

图10给出了平均每日产生的告警数据中,被清洗的重复及衍生的告警数据量情况,其中,告警数是包含衍生类、重复类和其他类的总数。通过设备告警数据清洗过程,有近97.37%的衍生类数据量被清洗,有近87.24%的重复类告警数据被清洗,减少告警数据量,其中数据清洗的TW=8T(且T=5 min)、Rth=0.70和PWth=0.80。但仍有部分告警数据无法被清洗掉,主要由于设备的统计量、相关性等特征不明显,或者部分告警在值上过于接近阈值水平,但是并没有达到阈值,而这部分数据在进行设备可靠性计算过程中,同样存在可靠性计算无法适应的情况。而在数据清洗完毕后,需要继续进行可靠性分析和阈值判断。

图10 告警数据清洗结果

评价过程中的混淆矩阵如表2所示。采用:

在传统媒体和新兴媒体相互融合的过程当中,传统的电视媒体出现变化也是大势所趋。因此,节目主持人要与时俱进,将自己从封闭的信息传播者开始向着开放、互动、即兴表现的融媒体人才方向过渡。融媒体主持人必须掌握媒体的交互融合、即时互动和公共平等为核心的新媒体内容并突破原本的主持风格,将自我价值在真、快、广等方面全面展示出来,以满足当前融媒体环境下的电视节目传播需求。

精确率:Precision=TP/(TP+FP)

召回率:Recall=TP/(TP+FN)

《义务教育语文课程标准(2011版)》在写字教学实施建议中新增了一条关键性建议:“第一、二、三学段,要在每天的语文课中安排10分钟,在教师指导下随堂练习,做到天天练。要在日常书写中增强练字意识,讲究练字效果。”因此课堂中教师留出时间指导学生写字,要求“卷面整洁,结构合理,主笔突出”,同时采用自评与互评相结合的方式增强写字的评价反馈功能。

③东北四省区节水增粮行动项目建成后,项目区水资源管理应以“三条红线”为标准,建立相应制度,约束和规范项目区的取用水行为。加强对取水水源水量和地下水水位的动态监测,以及各重要监测断面和取水口计量设施的安装,提高项目区水资源监控能力,实施项目水资源考核管理。

F1值:F1=2⋅Precision⋅Recall/(Precision+Recall)

表2 实验混淆矩阵

作为评价指标,对现有承载网使用设备异常日志进行普通阈值告警机制M1、使用时移平均的动态阈值[10]告警机制M2、本文设计的告警机制M3、使用文献[4]且以承载网终端与服务端数据访问路径构建监测点的端到端识别方法M4。实验结果对比如表3所示,可以看出:M1虽拥有较高召回率,但误告现象较为严重;M2虽然在阈值设置方面采用了动态的方式,精确率有所提高,但可用性仍不足;而M3在通过数据过滤将大部分非故障节点数据进行清洗,有效地减小了FP值,从而提高了精确率。相比M2来说,M3不仅保持了较高的召回率,同时也将真故障设备尽可能识别出来,进一步提高精确率。M4则在部分区域故障时,对多个层级节点发生故障状态判断是否源于父节点的情况产生了较多误告,导致FP值较高,从而降低了精确率。

我用叉子拨弄着豌豆,思绪飘回到个性测试。当托莉警告我分歧者处境危险时,我总觉得“分歧者”三个大字好像刻在我的脑门上,如果我犯了错,就会有人发现这一点。虽然到现在都没出什么大问题,但这不能保证我就是安全的。假使我放松警惕,厄运会不会随时降临呢?

表3 测试结果(平均值(±均方差))对比

图11描述了在M3的数据清洗过程中,不同的相关系数阈值Rth和比例阈值PWth对定位效果的平均召回率和精确率的影响,当Rth=0.70和PWth=0.80时召回率和精确率较高,定位效果较好;而当阈值设置较高时清洗不足,使得定位效果有所下降。

就整体而言,通过将网络拓扑终端数据进行网络节点映射,通过对节点的数据统计量分布特征,从相关性与可靠性方面对承载网设备进行告警定位分析,能够有效减少由一般阈值告警的重复和冗余数据,从而减少设备误告率,提高故障定位的准确性。

图11 相关系数阈值对定位结果影响

5 结束语

随着网络的发展,网络节点故障概率逐渐增大。本文就网络异常节点定位进行研究,利用终端反馈数据,依照网络拓扑进行逐层聚合,进行特征量分析,并结合网络拓扑,对相关设备及拓扑节点进行相关性、可靠性等分析,基于此过程提出一种故障节点定位方法,对告警数据进行分析、清洗,最终实现精准告警与定位。最后与一般阈值告警、动态阈值告警和使用基于设备相关性、可靠性等分析的告警方法进行测试比较。最后验证了基于设备相关性、可靠性等分析的故障告警方式具有较好性能。

目前,本文研究内容已在某省电信分公司客户支撑中心上线运行且效果良好,对提升运维服务能力具有一定意义。

参考文献:

[1]Huang J,Shang W,Lin W,et al.The reply and development strategy of cable TV industry in the era of big data[C]//2017 IEEE/ACIS 16th International Conference on Computer and Information Science(ICIS),2017:563-567.

[2]Wang H,Chen X,Wang W,et al.Exploring the accuracy of capturing snapshots in large-scale P2P IPTV systems[J].International Journal of Communication Systems,2017,30(1):e2952.

[3]Bai J.Feasibility analysis of big log data real time search based on Hbase and ElasticSearch[C]//Ninth International Conference on Natural Computation,2014:1166-1170.

[4]Garg A,Bindal M.Enhancing QOS and QOE using big data in IPTV domain[C]//International Conference on Soft Computing Techniques and Implementations,2016:163-165.

[5]Ma L,He T,Swami A,et al.Network capability in localizing node failures via end-to-end path measurements[J].IEEE/ACM Transactions on Networking,2017,25(1):434-450.

[6]Deljac Ž,Randić M,Krčelić G.A multivariate approach to predicting quantity of failures in broadband networks based on a recurrent neural network[J].Journal of Network and Systems Management,2016,24(1):189-221.

[7]Shuan L H,Fei T Y,King S W,et al.Network equipment failure prediction with big data analytics[J].International Journal of Advances in Soft Computing&Its Applications,2016,8(3):59-69.

[8]侯振宇.基于属性相似度的TD-SCDMA网络告警系统研究[D].长春:吉林大学,2012.

[9]王越.基于动态阈值的网络性能管理系统研究与实现[D].济南:山东大学,2012.

[10]Yoo W,Sim A.Time-series forecast modeling on highbandwidth network measurements[J].Journal of Grid Computing,2016,14(3):463-476.

[11]Zhong J,Guo W,Wang Z.Study on network failure prediction based on alarm logs[C]//2016 3rd MEC International Conference on Big Data and Smart City(ICBDSC),2016:1-7.

[12]Nabi Z.Machine learning at scale[M]//Pro spark streaming.Berkeley,CA:Apress,2016:177-198.

[13]Hauke J,Kossowski T.Comparison of values of pearson’s and spearman’s correlation coefficients on the same sets of data[J].Quaestiones Geographicae,2011,30(2):87-93.

[14]Liu J,Wu Z,Wu J,et al.A Weibull distribution accrual failure detector for cloud computing[J].PloS one,2017,12(3):e0173666.

[15]Almalki S J,Nadarajah S.Modifications of the Weibull distribution:a review[J].Reliability Engineering&System Safety,2014,124:32-55.

[16]Kumar Y,Farooq H,Imran A.Fault prediction and reliability analysis in a real cellular network[C]//2017 13th International Wireless Communications and Mobile Computing Conference(IWCMC),2017:1090-1095.

[17]Gao X,Fang X.High-performance distributed cache architecture based on redis[C]//Proceedings of the 9th International Symposium on Linear Drives for Industry Applications.Berlin,Heidelberg:Springer,2014:105-111.

[18]Shvachko K,Kuang H,Radia S,et al.The hadoop distributed file system[C]//2010 IEEE 26th Symposium on Mass Storage Systems and Technologies(MSST),2010:1-10.

[19]Meng X,Bradley J,Yavuz B,et al.Mllib:machine learning in apache spark[J].The Journal of Machine Learning Research,2016,17(1):1235-1241.

[20]许劭庆,马彪,安海英.基于数据挖掘的网管告警处理方法研究[J].软件工程,2016,19(12):17-19.

[21]Pobocikova I,Sedliackova Z.Comparison of four methods for estimating the Weibull distribution parameters[J].Applied Mathematical Sciences,2014,8(83):4137-4149.

Abnormal Nodes Location Method for Telecommunication Carrying Network Based on Terminal Data

SHAN Wenbo1,CHEN Boling2,ZHONG Qiuhao1,WANG Jianxin1
1.School of Information Science&Engineering,Central South University,Changsha 410083,China
2.Hunan Customer Support Center,China Telecom Co,Changsha 410000,China

Abstract: With the rapid development of telecom IPTV business,the scale of carrying network has constantly expanded,and the difficulty in operation and maintenance of network equipment has gradually increased.When some equipments become faulty,how to quickly locate the faulty nodes in a large-scale network has become a major challenge in operation and maintenance.At present,the equipment fault alarm of carrying network depends mainly on the equipment performance logs,which generates many false alarms,and can not adapt to the fault location in a large-scale network.Therefore,by using the tools such as Spark,the abnormal nodes location method based on terminal data is proposed,combining network topology to realize threshold alarm preliminarily.And further based on the analysis of equipment correlation and reliability,a large number of false alarms generated during the process of threshold alarm are cleaned to improve the precision rate of fault location.The experimental results show that this method has high practical value and its precision rate can reach 89%in the fault location of carrying network.

Key words: Internet Protocol Television(IPTV);terminal equipment;network topology;fault location;reliability calculation

文献标志码: A

中图分类号: TP391

doi: 10.3778/j.issn.1002-8331.1804-0061

单文波,陈博伶,钟秋浩,等.基于终端数据的电信承载网异常节点定位方法.计算机工程与应用,2019,55(11):85-92.

SHAN Wenbo,CHEN Boling,ZHONG Qiuhao,et al.Abnormal nodes location method for telecommunication carrying network based on terminal data.Computer Engineering andApplications,2019,55(11):85-92.

基金项目: 国家自然科学基金(No.61672536,No.61572530)。

作者简介: 单文波(1993—),男,硕士研究生,主要研究方向为数据采集与分析;陈博伶(1990—),女,工程师,主要研究方向为IPTV视频质量优化提升;钟秋浩(1992—),男,硕士研究生,主要研究方向为数据采集与分析;王建新(1969—),男,教授,博士生导师,主要研究方向为计算机优化算法、网络优化理论、生物信息学等。

收稿日期: 2018-04-08

修回日期: 2018-06-08

文章编号: 1002-8331(2019)11-0085-08

CNKI网络出版: 2018-11-01,http://kns.cnki.net/kcms/detail/11.2127.TP.20181030.0921.012.html

标签:;  ;  ;  ;  ;  ;  ;  

基于终端数据的电信承载网异常节点定位方法论文
下载Doc文档

猜你喜欢