大数据时代商业银行电子商务零售客户风险评分模型设计框架与实证分析_大数据论文

大数据时代商业银行电子商务零售客户风险评分模型设计框架及实证分析,本文主要内容关键词为:商业银行论文,实证论文,框架论文,模型论文,评分论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       一、引言

       随着互联网、移动通信技术的逐步应用,其对人们的生活、生产方式带来了强烈的冲击。电子商务、移动互联网、物联网等信息技术和商业模式的兴起,使社会数据量呈现爆炸式增长,因此,采用大数据技术,可以有效解决信息不对称等问题,合理提高交易效率,降低交易成本,并从金融交易形式和金融体系结构两个层面改造金融业,并对风险管控、精细化管理、服务创新等方面具有重要意义。与21世纪初互联网刚刚起步时仅将网上银行作为渠道经营不同,当前的互联网金融具有尊重客户体验、强调交互式营销、主张平台开放等新特点,且在运作模式上更强调互联网技术与金融核心业务的深度整合,风险管理技术与客户价值挖掘技术等进一步融合。而且,随着大数据分析思维的渐入以及技术的逐步推广,通过个人客户网络行为产生的各种活动数据,可以较好地把握客户的行为习惯以及风险偏好等特征。

       因此,如何在大数据浪潮中把握趋势,可采用相关技术深入挖掘相关数据,通过对客户消费行为模式(以及事件关联性)的分析,更加精确地掌握客户群体的行为模式。并据此进行零售电子商务风险评分模型设计,使其与客户之间的关系实现开放、交互和无缝接触,满足商业银行风险管理工作的精细化要求和标准,并为打造核心竞争力提供决策依据。

       二、文献综述

       大数据的概念:目前,关于大数据并没有一个明确的基本概念,比较有代表性的观点如Weiberger(2011)、Thurm(2007)等认为:大数据并不纯粹指数据量大,还应涵盖从交易信息到交互信息,从结构化到非结构化的各种新类型数据、分析方法、新思维认知等内容,其数据量的容量,增长频率,变量生成速度,数据种类和复杂度等都是传统的数据库表格无法完全实现的。

       大数据的本质特征。Duncan(2007)等通过数据分析的结果发现,大数据基础上的简单算法较小数据基础上的复杂算法更有针对性和时效性,预测能力更强。不同作者(Vlahos,James,Black,Risenthal,Jonathan(2012)等)利用大数据技术分析的最终结论都可以看出,大数据的本质在于,其目的是预测未来,判断趋势,而传统的数据分析更关注于分析过去及现在的状况。其主要特征:一是要分析与对象有关的所有数据而不是部分数据;二是承认数据的复杂性,不再强调精确;三是不再探求事物的因果关系,强调相关关系。

       大数据和传统数据的区别。Black,Edwin通过在IBM公司开展的大数据技术探索,将大数据与传统数据的区别形象地比喻为高像素单反相机和人工画像的差异。从量上看,人工画像只能表现人物形象中最主要的元素;相机可以将画面中任何一个细微的细节都抓取下来,存储信息更多,画面的精细度、质感等方面远胜于人工画像。相机中几个坏点(如噪声数据)对整体相片影响不大,但画像只要有一个地方处理不好,整个就会大受影响。从丰富性上看,画像只能从某一个角度对描写,而相机可以从多个角度连续拍摄。画像即使再传神,也只能表现被画者某一个角度,某一个神态,对被画着表达的信息很少;相机的多角度、连续拍摄可以展现被拍者的立体形象、多种神情,任务形象更丰满,传递的信息更多,更能真实反映实际。从速度上看,画像需要数小时完成,而照相机可以在瞬间捕捉十数张照片,处理和形成的速度更快,对于运动物体或需实时画像时照相机的优势更加明显。

       大数据与传统数据相比的优势。Cynthin(2011),Selezer,William,and Margo Anderson等作者利用大数据技术,在不同行业领域进行了探索应用,并形成了一系列有效的算法。通过对各领域应用的相关结论进行分析,可以发现,大数据与传统数据相比,其优势主要体现在:一是数据的存储容量大,涵盖范围广,信息内容多;二是对数据质量不追求过于精准;三是计算速度快,智能分析能力强,可以动态获取分析结果,具有较强的时效性。

       三、电子商务风险评分模型设计

       (一)电子商务风险评分模型构建的必要性

       随着金融脱媒、信息技术应用范围的不断扩展,电子商务渠道已成为商业银行未来业务经营的重要渠道,国内主要商业银行纷纷加大对电子商务领域的投入。而从国外商业银行发展电子商务客户的经验看,其业务需求和风险特征与传统的线下客户具有一定差异,尤其是其信息不对称现象更加明显。因此,基于电子商务客户的消费和信贷行为特征,构建相关的风险评分卡工具,不仅可以有效解决信息不对称等问题,更可以合理提高交易效率,并从金融业务发展的形态和体系结构两个层面推动银行业发展,并在风险管控、精细化管理、服务创新等方面具有重要意义。

       (二)评分模型开发的基本步骤

       电子商务风险评分模型的开发过程大致可以分为数据分析评估、业务定义、数据清洗、模型设计、变量构造及细分、模型方案确定、模型验证等步骤。

       1.进行相关业务数据分析和评估

       此阶段是对内部电子商务企业数据和环境进行深入研究和分析,并对业务数据进行汇总检查,了解数据是否符合项目要求,并评估数据质量。

       2.基于相关建模方法进行模型设计

       此阶段主要定义电子商务客户申请评分卡的目标和开发参数,例如电子商务客户定义标准、排除标准,好/坏/不确定客户的定义,建模的观察窗口、表现窗口、抽样计划等。

       3.建模数据准备

       此阶段根据详细的数据分析结果以及开发所需的数据域,为模型开发进行数据提取和准备。主要进行业务数据及关键变量的推导、合并,生成建模样本中的每个账户的预测变量、汇总变量以及好/坏/不确定/排除标志。

       4.进行指标的细分分析

       此阶段主要用来识别最优的群体细分,确定相关的建模备选变量,并在此基础上开发一系列的评分模型,使得整体评分模型体系的预测能力达到最大化。

       5.模型的确定和文档撰写

       模型的确定和文档撰写包括最终模型的开发和最终标准的模型文档。在确定了建模的基础方案及各指标参数后,将采用统计学汇总及业务讨论等方法,对进入模型的每个变量产生一份特征变量分析报告,以评价各变量的表现情况。在此基础上,总结归并变量的表现,并采用一定的方法,将账户的风险与评分结果建立起函数关系,构建体系性的评分卡模型。

       6.进行模型的验证

       此部分分为建模样本内验证和样本外验证,同时,样本外验证又分为建模时点验证和最新时点验证两部分。验证的工作主要是进行评分卡工具在模型的区分能力、排序能力和稳定性方面的建议工作。

       (三)构建特征变量库并进行模型框架设计

       第一,创建申请及企业信息数据集市(备选变量库)。根据相关业务特征及风险管理的实践,大致可以从个人特征类变量、网络行为类变量、交易行为类变量、合同类变量、征信类变量等五部分进行相关备选变量的构建和组合。

       第二,利用决策树模型,进行客户群组细分。通过上述备选特征变量,利用决策树模型,最终将客户划分为投资进取型,个人消费交易型和微小企业资金需求型客户。其中,投资进取型主要为理财类、贵金属外汇等产品交易类客户,其更多的是利用电子商务平台和网络银行渠道进行投资活动,而对信贷资金的需求较小;消费交易型主要为信用卡消费、网上商城消费的个人消费者和汽车贷款、消费分期等个人消费类贷款网上申请客户;第三类资金需求型客户,主要为B2B和B2C类的小微企业客户。

      

      

       图1 电子商务平台客户具体分组

       第三,进行各客户群组特征变量的分析和筛选。通过对各客户群组特征变量的分析可以看出,不同的客户群体,其高度相关的特征变量具有较大的差异性,例如,对于投资进取型客户,其登录网银账号后的点击栏目与个人消费型客户具有明显的差异,且信用卡利用频率和额度使用率也存在较大差异。因此,可以通过此类方法,寻找出最具有客户特征的变量组。具体客户特征见表2。

      

       第四,进行模型框架设计。通过对上述客户群体特征的归纳和总结,同时考虑相关数据的充分性和完整性,目前可针对个人消费交易型以及B2B和B2C类的小微企业客户等三个风险评分模型分别构建。

       四、实证研究结果——以B2C类个人消费交易型客户风险评分卡模型为例

       (一)样本选择

       本文以某商业银行电子商务业务发展规模较大分行2009-2012年12月末的业务数据构建电子商务零售客户评分卡模型,同时,为合理扩大相关业务数据分析范围,涵盖了与电子商务相关的信用卡业务、小微企业业务、个人消费贷款等线下产品的相关数据。

       (二)数据分析及关键技术设计

       1.“坏客户”的定义

       根据相关数据分析过程可以看出,截至2012年年末,该分行电子商务客户业务中,当前未违约客户在下个月有98.76%的保持原状态,而逾期30天以内的贷款有67.89%的比例进一步变为逾期31-60天以内贷款。因此,可以将“坏客户”的定义为逾期31天及以上的客户,未逾期客户为“好客户”,逾期1-30天以内的客户定义为“中间客户”。

       2.观察窗口和表现窗口确定

       根据业务数据分析以及好坏客户占比等情况,确定建模的观察窗口为2012年1月-2012年12月,累计为12个月;表现窗口为2013年1月-2013年12月,即每个观察窗口内的好客户样本,观察其在未来12个月的表现情况,如果其在12个月内未出现逾期的情况,则将其定义为“好客户”,若其在12个月内出现逾期61天及以上的情况,则将其定义为“坏客户”。

      

       (三)确定建模样本及验证样本

       根据上述相关定义,首先进行相关数据的清洗及截取。然后根据模型验证的要求,按照“七三”原则,随机进行建模样本和验证样本的划分,即建模样本占总样本的70%,验证样本占30%。

       (四)进行备选变量的序别化分箱构建

       在模型开发过程中,需要对各备选变量进行分组(分箱),其分组规则应遵循以下原则:一是每个变量的各个分箱的好/坏账户数量大于30;二是每个变量的各个分箱的账户个数百分比至少大于2%(通常情况尽量保证5%);三是每个变量的各个分箱好坏比率的排序需要和业务常识保持一致。

       其中,第3条通常都应当满足,但第1条和第2条对账户数量以及账户百分比要求仅是通常情况下的“门槛”,在特殊情况,该要求将会适当地加严或者放松。如开发样本的坏账户数较少,则对各分箱坏账户数量至少大于30这个要求会有所放松。

       此次电子商务客户申请评分模型开发采用了分箱型构建模型的方式,因此需要对变量转换为WOE变量,即对每个变量,按照其各个分组的WOE值,将变量转换为连续变量,其变量值根据不同的分组取各个分组的WOE值,此转换为WOE转换。

       WOE转换的计算公式如下所示:

      

       其中WOE的值为正数表示细分组坏账率好于平均,为负数表示细分组坏账率高于平均。

       (五)进行变量的细分组(Finebin)

       与传统的评分卡建模过程中直接采用相关变量进行回归的方法不同,本次建模过程,首先对变量进行了细分组及粗分组。这种方法是美国征信评分机构FICO以及汇丰银行、渣打银行等全球知名商业银行进行评分卡构建的通用方法。此方法与传统的评分卡建模相比,其优势在于,一是后续可以根据细分组情况,审慎将各变量尤其是数值型变量进行档次划分,便于后续构建评分卡工作,并有利于前台业务部门方便运用评分卡工具;二是可以合理构建相关模型表现报表,监控模型各变量的表现情况,适时发现影响模型稳定性和准确性的变量因素。

       对于变量取值为连续型的变量,其细分组基本方法为:将变量按照其取值排序,细分为不超过20组,每组取值约占5%的样本数,分析每个分组的好、坏、不确定账户数以及占比,从而可以了解每个分组的坏账率。对于离散型的变量,例如性别、区域等,其细分原则基本为直接按照离散取值进行分组。

       (六)进行变量的粗分组(Coarsebin)

       在获得备选变量的细分组后,可观察变量坏账率在细分组情况下的变化趋势是否单调,这意味着该变量随着分组结果的单调变化,其好坏比率趋势也将有单调趋势变化,从而表明该变量具有良好的区分能力。为更好的获得这种结果,可通过将细分组进一步粗分合并来实现,基本方法为:可将坏账率接近的相邻多个细分组进行合并,以消除波动趋势,转化为单调趋势的粗分组结果,同时坏账率非常接近也意味着其好坏区分能力相同,保留细分没有实质意义,利于最终变量被选入模型后的评分卡使用。在粗分组时,可进一步手动调整切分节点,获得更有利于业务解释的分界点。粗分组除了尽量使得趋势获得单调趋势之外,需注意尽可能保证每个粗分组中样本总数不少于5%。

       (七)进行模型构建

       本次建模过程中,按照评分卡建模的基本步骤,对模型的表现定义分配相应的数值,好账户赋值为1,坏账户赋值为0。这样的定义是保证在Logistic回归中,对有利情况分配正数,对不利的情况分配负数。

       在最终模型变量选择中,运用逻辑回归来确定一个账户是坏的可能性的评分权重。目前,在评分卡构建过程中,变量的选取使用较为普遍的有三种逐步判别方式:(1)正向逐步选择法(forward step wise):即在截距模型的基础上,将符合所设置水平的自变量一次一个地加入模型;(2)反向逐步选择法(backward stepwise):在模型包括所有候选变量的基础上,将不符合保留要求显著水平的自变量一次一个地删除掉;(3)混合逐步选择法(combined step wise):其将正向选择和反向选择结合起来,根据所设的显著性标准分别将变量加入到模型中去或剔除掉。这种方法既可以由正向选择法开始,也可以由反向选择法开始。以上三种方法主要在设计程序上的算法不同,处理结果一般是一致的。

       本研究采用的是正向逐步选择法(forward step wise),即变量选择过程中逐一引入变量,每增加一个变量后都要检查去除无助于模型预测能力的变量。

       回归结果中的每个变量的估计值,即逻辑回归的系数,是变量转换后所对应的评分权重,变量的评分权重乘以WOE,即为该变量分箱对应的评分权重,所有分箱的评分权重与常数项之和为账户的评分权重。

       最终的P值,回归系数和方差膨胀系数结果如表4所示。

       (八)回归结果检查

       目前回归结果检查采用较多的是K-S值和基尼(Gini)系数。Kolmogorov-Smirnov(K-S)值和基尼系数(Gini)均可以用来衡量模型区分好坏的预测能力。一般而言,KS值在0.2以上表示可以接受,0.4以上表示模型区分能力良好,0.5以上表明模型区分能力很强。Gini系数在0.7左右表示模型区分能力可以接受。

       以下显示了模型应用于开发样本、预留验证样本和总体样本的KS,Gini统计值。

      

       从上表可以看出,不论是利用开发样本,还是验证样本,申请评分模型的K-S值达到0.3以上,Gini系数在0.6左右,表明该模型具有良好的区分能力。与采用人民银行征信系统相关记录相比,由于目前人民银行征信系统数据只能采用人工方式进行单户查询,相关信息也仅限于金融同业相关产品的逾期和违约状态,且具有一定的滞后性,因此采用大数据挖掘构建的零售电子商务风险评分卡模型,不仅提高了业务办理的效率,更可以全面衡量电子商务客户的相关风险。经单笔债项测试,采用电子商务风险评分卡可以在几秒钟内进行风险识别和评判,大大领先于人行征信查询的时间。

       五、结论及建议

       目前,商业银行已开始逐步利用数据挖掘等相关技术进行客户价值挖掘、风险评估等方面的尝试应用。尤其是在零售电子商务业务方面,由于存在着海量数据以及客户网络行为表现信息,因此可以利用相关技术进行深度分析。

       (一)进行客户群体的精细化分组,有利于客户价值挖掘等工作的开展

       在本文中,通过分析所有电子商务客户的网银应用记录及交易平台的具体表现,可以将客户分为消费交易型、资金需求型以及投资进取型客户。并能够根据不同分组客户的具体表现特征,能够为以后的精准化产品研发、定向营销,以及动态风险监控关键指标等工作提供依据。

       (二)以个人消费交易型客户为例,开发相关的风险评分卡模型,以供客户贷款申请评估等工作的开展

       通过验证可用发现,基于客户在网络中的行为表现以及线下的相关客户特征变量构建的评分卡模型,能够较好的进行客户风险的识别和预测,并为后续的风险预警、客户行为分析等工作奠定基础。

       (三)进一步提高商业银行数据的存储及整合能力

       通过本文分析,可以发现,虽然商业银行在零售业务领域存储了大量数据,但由于以往存储介质多样化、存储特征不规范等原因,数据缺失较为严重,整合存在较大难度,造成部分具有较高价值的变量无法利用。同时,大数据时代的数据包含了方方面面的属性信息,可以理解为“信息即数据”。因此,商业银行除了要积累各种传统意义上的经营交易数据外,还要重视其它类型的非结构化数据积累,例如网点交易记录、电子渠道交易记录、网页浏览记录、外部数据等,都应得到有效的采集、积累和应用。

       (四)稳妥推动大数据在商业银行零售电子商业业务中的应用

       目前,由于数据以及技术等方面限制,商业银行可以利用自身相对优势,从小的具体业务和关键点入手,以不对商业银行现有管理架构产生较大冲击的方式进行尝试性应用,待技术及时机成熟后再逐步将大数据纳入银行经营管理体系。例如,将客户情绪分析等逐步纳入分析应用的范围。最终打造商业银行大数据技术应用的核心竞争力,实现大数据技术在零售业务的广泛应用。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

大数据时代商业银行电子商务零售客户风险评分模型设计框架与实证分析_大数据论文
下载Doc文档

猜你喜欢