摘要:对用电客户的欠费风险进行分群管理是提升电费管理水平和服务质量的有效方式,但由于供电企业需要管理数十万至数百万计的用户,采用划分聚类算法(如kmeans)面临聚类数k值难以选择的问题,本文提出了一种层次聚类和划分聚类相结合的分类方法,实现了对大量用户样本进行分类,同时引入了其它的欠费相关的特征数据参与聚类分析,对用户进行更细化的分类分析。
关键词:小粒度;电力负荷预测;时间序列模型;优化拟合;机器学习
我国电力体制的深化改革为电力行业引入了市场机制,在有效实现电力资源优化配置,提高电力资源生产和传输效率的同时,也带给电力企业更大的市场风险,风险的切实防范和规避对电力企业的重要性不言而喻。由于客户欠费而产生的电费回收风险一直是电力营销中存在的重大风险之一。对用电客户的欠费风险进行分群管理是提升电费管理水平和服务质量的有效方式,但由于供电企业需要管理数十万至数百万计的用户,采用划分聚类算法(如kmeans)面临聚类数k值难以选择的问题,本文提出了一种层次聚类和划分聚类相结合的分类方法,实现了对大量用户样本进行分类,同时引入了其它的欠费相关的特征数据参与聚类分析,对用户进行更细化的分类分析。
一、用电客户欠费风险分群管理
电力客户的欠费原因十分复杂,涉及用户经济情况、信用情况、社会经济环境、国家政策等诸多方面原因。本文重点根据供电企业掌握的电力客户缴费和用电行为数据,并结合行业景气情况和政策风险,建立电力客户欠费风险评价体系,准确预测电力客户欠费风险,并针对高欠费风险客户开展电费催缴、欠费停电等措施进行预防。
随着营销业务系统的成熟应用,系统中积累了大量的用户缴费行为数据,以这些数据为蓝本,建立电力客户欠费风险评价体系,开展基于缴费行为的电力客户欠费风险评价,利用评价结果有针对性的开展电费催缴、欠费停电和预付费等预防措施。同时为深入落实公司战略,加强客户分群管理,提升掌握客户需求、满足客户需求、引导客户需求的能力,提升客户服务差异性和有效性,按照公司客户分群管理指导意见要求,开展用户欠费风险分群管理研究。
二、欠费风险分群方法
(一)基本原理
电力客户的欠费原因十分复杂,涉及用户经济情况、信用情况、社会经济环境、国家政策等诸多方面原因。从营销管理的实际经验看,用户欠费风险是与用户过去的欠费情况是有关系的,主要数据包括欠费次数、欠费时长、欠费金额等,一般来说,历史上欠费次数越多、金额越大、欠费时间越长的用户的欠费风险就越高。因此,采用欠费次数、欠费时长、欠费金额作为主要的特征,采用无监督学习的聚类方法来对用户的欠费风险进行分类。
由于无监督学习的聚类方法需要认为选择聚类数目的k值,但对于大中型的供电企业来说,需要管理数十万至数百万的用户,如需要对数目如此巨大的用户进行分类,选择一个固定的聚类数k值是不现实的,如传统的k值选择(一般在10以内)则有的类别下用户数量太大(占总体数目的90%以上、高达数十万或数百万),达不到分群的效果,如果选择较大的k值,计算量太大,而且分类数目太大,没有实用价值。
因此,在本文的研究过程中,创新性的提出了一种凝聚聚类法和层次聚类法相结合的方式,对总体用户先用凝聚聚类方法进行分类,然后再对分类数量较大的群体利用层次聚类的方法再进行细部的分类。大体的方法如下所示:
(二)无监督学习和聚类方法介绍
聚类方法是一种无监督的机器学习方法,即在没有对象标签的前提下,根据个体样本数据之间的特征(如距离)将一个数据集中的数据项目分为不同的种类。具体就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
目前,有大量的聚类算法。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。
主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means聚类算法、层次方法中的凝聚型层次聚类算法、基于模型方法中的神经网络聚类算法等。
目前,聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如著名的FCM算法等。下面主要对本文中应用的k-means聚类算法和层次聚类算法进行简要的介绍。
2.1 k-means聚类算法
k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。
k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:
这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值[9]。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下:
输入:包含n个对象的数据库和簇的数目k;
输出:k个簇,使平方误差准则最小。
步骤:
(1)任意选择k个对象作为初始的簇中心;
(2)repeat;
(3)根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;
(4)更新簇的平均值,即计算每个簇中对象的平均值;
(5)until不再发生变化。
2.2 层次聚类算法
根据层次分解的顺序是自底向上的还是自上向下的,层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。四种广泛采用的簇间距离度量方法如下:
最小距离:
最大距离:
平均值距离:
平均距离:
这里给出采用最小距离的凝聚层次聚类算法流程:
(1)将每个对象看作一类,计算两两之间的最小距离;
(2)将距离最小的两个类合并成一个新类;
(3)重新计算新类与所有类之间的距离;
(4)重复(2)、(3),直到所有类最后合并成一类。
(三)参数选择
本文涉及的分类方法涉及三个重要参数,分别是分类数k值、和层次聚类阈值M。k值是我们的目标分类数量,一般根据供电企业营销管理的业务需求确定,一般选择5-10之间。层次聚类阈值M则是用于确定分类方法的关键参数,关系到分类效果的好坏。本文根据KMeans聚类和凝聚层次聚类方法的特征,结合实际测算结果,M值一般选定为数据样本的1%-5%左右,按数据样本数量的增加而递减。例如待分类用户数为20万户,则可选择M值为5%。
(四)细部分群
在实际的电力消费中,电力用户的欠费群体特征还与其它因素相关,如抄表区段、欠费季节、缴费时间、缴费方式等,例如在一年中欠费月份集中在年底的用户数目较多、或使用互联网缴费方式(支付宝、微信)的人群在欠费时间上具有一定的相关性,相同行业的欠费用户等等。因此,考虑在层次聚类当中加入相关数据特征进行分类,实现多维度的用电客户欠费特征的分群管理,使营销管理人员更加深入的挖掘欠费群体的用户的共性特征,从而能够更有针对性的制定相对的客户服务方法和策略,提高电费管理水平。
根据上述思路,研究人员从系统中选择了与用户欠费相关的数据项目,如抄表区段等20多项,并对这些数据项目进行统计计算计算其与用户欠费数值之间的相关性,其中对连续型数据采用spearman相关系数进行检验,对离散型数据采用卡方检验。经过校验,最后选择了5个与用户欠费相关的数据信息,加入层次聚类中进行分类,数据项目如下:
●欠费季节
●常用缴费方式(分为营业厅、银行代扣、银行柜台、互联网缴费、缴费终端、其它)
●抄表区段
●缴费时间段(工作时间、非工作时间)
●用户行业
三、实践应用
在本文所述的研究过程中,选取公司所属的某供电分局的全部用户欠费信息作为输入数据集合,供24万用户的欠费数据,数据主要包括欠费次数、平均欠费时间、平均欠费金额、欠费季节、常用缴费方式、抄表区段、用户行业等数据内容,选择聚类数目k为6类、层次聚类阈值M为10000,采用本文所述方法对此数据集进行分类,最终实现了对全体24万用户的分类,分类结果为宽度为6的层次树(见下图),每一个树节点就是一个用户分群,分群的用户粒度可根据业务管理的需要事先设定。
四、结论
本文所述的研究中采用了划分聚类和层次分类结合的方法,解决了对于大量用户数目的分类数量粒度难以选择的问题,分类数目和分类的粒度均可根据管理需求设定,分类效果较好,同时还加入了用户欠费季节、缴费方式等相关信息项目进行分类,使营销管理人员能够更加深入的挖掘隐藏的欠费用户群体的共性特征,从而更有针对性的制定相应的措施和策略,提升了营销电费管理水平,具有一定的实用价值。
参考文献:
[1] 张林,刘先珊,阴和俊.高额欠费风险用户预测模型的建立与应用[J].《电网技术》,2004,28(19):38-41
[2] 张林,罗晓初,徐瑞林.基于支持向量机的电信欠费用户分析模型[R].电力系统自动化学术交流研讨会,2006
[3] 王奔,冷北雪,张喜海.基于Logistic回归模型的电力客户欠费违约概率的预测[J].《电力系统及其自动化学报》,2011,23(4):115-121
[4] 杜欣慧,张艳.神经网络和支持向量机在短期负荷预测中的应用[J].《电气技术》,2009(9)
[5] 张宁,许承权,薛小铃,郑宗华.基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测[J].《现代电子技术》,2010,33(18):131-133
[6] 赵亚萍,李海龙,贺桂琴.基于主成分分析和最小二乘支持向量机的短期负荷预测[R].中国电机工程学会年会,2012
[7] J Dean,S Ghemawat.MapReduce:Simplified Data Processing on Large Clusters [J].Conference on Symposium on Opearting Systems De...,2004,51(1):107-113
[8] CT Chu,KK Sang,YA Lin,YY Yu,GR Bradski.Map-Reduce for Machine Learning on Multicore[J].《Advances in Neural Information Processing Systems》2006,19:281-288
论文作者:张雪蕊1,张思路1,杜楠1,吴迟林2
论文发表刊物:《电力设备》2017年第34期
论文发表时间:2018/5/10
标签:欠费论文; 算法论文; 用户论文; 数据论文; 层次论文; 方法论文; 风险论文; 《电力设备》2017年第34期论文;