基于大数据的电商领域征信模型及风险控制系统设计与实现论文_曾振1, 王建红 2

1.创发科技有限公司 湖南 长沙 410005;2.掌钱电子商务有限公司 湖南 长沙 410005

摘要:由于银行业在风险控制中存在一些先天的不足,2014年第三季度末中国的商业银行不良贷款总额上升36%,达到7670亿元人民币,是四年来的高点,2015年不良贷款也呈现了上升的趋势。而电商企业做为一类特殊的中小企业,其特点就是轻资产,这对银行来说是属于被规避的客户群体。但近年来,电子商务发展迅猛,国家也大力发展电子商务,2015年电子商务交易规模达到18.2万亿,而电商贷款规模却不到200亿,电商企业普遍面临着资金短缺的情况,电商领域存在着巨大的金融市场。因此,银行在传统贷款业务市场趋于饱和的情况下,也试图开拓电商领域的金融市场,但针对电商的征信与风险控制的不足,使银行又顾虑重重。本论文以大数据平台为技术平台,整合电商、银行、电信三方数据,用互联网的数据,银行的风控模式,打造属性的电商的专有征信模型与风险控制体系。

关键词:大数据;Hadoop;电子商务;征信模型;

1、国、内外征信系统现状

1.1国外征信系统模型发展

征信系统信用评估业最早启始于20世纪四五十年代初。最初的征信评估由银行各自根据自己的业务发展情况,各自构建信用评估方法进行试验,希望通过可量化的数学模型,处理快速发展的贷款业务,减少人工参与,提升信用评估的准确性和客观性。随着经验的积累,工程师Bill Fair和数学家Earl Isaac于1956年成立了Fair Isaac公司,发明了随后广泛流行的FICO评分方法,并在1958年推出了全球首套通用的信用评估评级系统。Fair Isaac公司是首家通过数据模型构建信用评估体系的公司,标准着征信行业进入一个新的时代。

在60年代,参考FICO评估方法,在全球范围内出现了大量专门的信用评估公司和信用管理局,为银行和客户提供专门的信用评估报告和信用评分。目前各信用管理局和信用评分公司都采用了不同的数据来源,构建了具有各自特色的信用评分系统。从总体来说各信用管理局和信用评分公司的信用评分体系基本参考FICO个人评分模型构建。

影响模型分数的因素主要包括:信用历史长短;信用账户是否过多;信用额度饱和使用度;毁誉信用记录;拖欠税款、法院诉讼判决、拖欠水电煤生活记录、个人破产的公共记录;最近是否有透支使用信用卡行为;是否过于频繁的贷款咨询;是否持有过少或过多的周转账户。

1.2国内征信系统现状

1932年“中华征信所”是我国成立的第一家征信机构,距今已有80年的历史。但在上世纪80年代,中国改革后,中国的征信行业才真正的开始发展。目前一共经历了探索阶段、起步阶段、发展阶段、互联网金融时代四个阶段:

图表:征信业在国内发展阶段

在系统建设方面,中国人民银行自2002年开始,构建了“中国银行信贷登记咨询系统”,系统采用三级数据库,实现对中央、地方的全面覆盖。在此基础上人民银行于2004 年开始组织进行商业银行、外资银行、小额贷款公司、保险等金融机构信用数据的全面接入,启动全国范围内的金融信用基础数据库全面建设工作,并于2006 年1 月实现在全国范围内的联网运行,为各级金融机构提供查询服务。目前金融信息基础数据库涵盖所有的金融授信机构类型,并分为企业信用信息基础库和个人信用信息库。目前接入企业信息信息服务机构超过622家,个人信息信息分服务机构超过629家。

随着互联网理念和技术,进入金融行业,对于传统金融企业来说,意味着在平静的水面中,放进了几条左右冲突的鲶鱼。在传统的百货行业、图书行业、音乐行业,面对互联网的独特优势和新的商务模式的颠覆,都出现了增长乏力、停滞、后退甚至消亡的情况。金融行业面对互联网金融的“鲶鱼效益”除了被倒逼,进行积极拥抱,快速响应,互相促进、共同发展,改变固有的商业模式外,别无他途。所以在互联网金融时代,互联网企业借助数据、电子商务、开放合作的优势切入支付结算及信贷两项核心业务。传统银行业也在进行积极转型,纷纷与互联网公司进行合作,借机进行壮大,在把握风险管理的基础上抓住历史的机遇进行快速发展。

2、Hadoop平台

Hadoop是目前最受欢迎的Internet对搜索关键字进行内容分类及管理的工具,Hadoop工具具有平稳扩展的特点,能通过并发机制,大大提高系统的处理能力和效率,同时采用并发机制,能够快速方便的对系统进行扩充,可以解决许多要求极大伸缩性系统的问题。

图表:Hadoop技术架构

Hadoop架构由许多元素和组件构成,通过多个组件的协同处理,解决系统问题,具有丰富的功能和灵活的扩展和方便的部署特点。其最核心组件的包括:HDFS2(Hadoop Distributed File System2),系统存储组件,通过分布式的方式将系统文件分别保存在平台的多台系统中,保障系统分布式处理及冗余存储,提高系统文件的安全性和并发能力。MapReduce 引擎,分布式任务处理组件,由JobTrackers 和 TaskTrackers 组成,负责将任务分解到不同的机器上进行并发处理,并将处理的结果汇总返回。

Hadoop平台在互联网及大数据领域的快速发展、广泛应用,得益于Hadoop平台在分布式计算,大数据量处理的天然优势。Hadoop平台通过分布式架构,将数据处理引擎向数据存储端靠近,提升存储性能和处理能力。同时通过MapReduce功能将单个大任务分解成多个小任务,分配(MAP)到多个节点执行,之后再汇总成单个数据集进行处理(Reduce),能够进一步提升原有数据处理过程(ETL)的效率,提升包括数据仓库、ETL等系统的效率。

3、系统设计

3.1系统架构设计

图表:系统架构设计

系统采用多层三域架构,实现管理、应用、数据的解耦,提高系统的灵活性。系统包括数据域、应用域、管理域三大部分。

● 数据域:

在数据服务层面上,系统通过统一的ETL工具,为系统提供统一的数据获取和对外服务接口,并在系统中建立统一的数据存储模型,为应用及后续扩展统一的服务,提供基础数据。

系统的数据来源包括互联网数据、电商经营数据、社会征信数据,人行征信系统数据、及人工录入数据。其中互联网数据、电商经营数据、社会征信数据通过合作接口、互联网爬虫进行汇总,并在平台中进行分析加工和保存处理。人行征信系统数据及其他需要人工录入的数据录入到平台中进行处理。

基础数据层:通过构建通用的业务模型,将结构数据按照业务的特点,分模型进行保存,保证数据的高效存储、方便访问、便于扩展。

业务模型层,主要对系统中整理的数据层的基础数据和指标,通过设置相应的阈值,对商家的风险、贷款额度、贷后情况进行监控。

●应用域:

应用域负责将数据域的数据进行加工处理,为前台业务人员提供服务。它主要包含业务应用和前台展现二层。

业务应用层,主要为银行后台管理人员提供客户管理、贷前、贷中、贷后、运营管理、业务分析、模型优化分析和模型参数调整服务。

前台展现层,根据人员角色提供个性化的工作台,提供访问适配和主动服务能力,应用信息推送机制。前台应用根据不同角色的工作环境的情况,提供包括APP、WEB访问方式,将业务应用渗透到银行的各个业务环节。主要通过门户整合、前台适配和门户管理建设实现。

●管理域:

应用管理域包括权限管理、数据管理、运维管理,为系统的正常运营、安全管理、数据质量提供保障,为系统的正常运行提供服务。

3.2系统功能设计

功能架构如下图:

图表:功能架构设计

● 前端APP应用根据电商金融在线贷款流程需求,提供:客户推广、客户申请、尽职调研服务。客户经理APP,满足客户经理的业务推广和尽职调研需求,包括客户查询、产品介绍、业务推广、尽职派单接收、调研结果记录及信息提交功能。客户申请APP,满足客户注册、贷款申请、资料上传、额度预估及申请状态查询功能。

● 后台管理满足银行后台人员的业务管理流程及系统的运营管理需求。包括客户管理、贷前信息查询及数据收集整理、贷中派单及审核管理、贷后监控及风险处置管理、客户整体分析、成交客户分析、模型优化分析等功能。

● 业务分析模型,包括额度预估模型、风险评估模型、风险预警模型以及基础的电商刷单模型、去库存能力模型等基础模型。平台根据银行的业务要求及运营情况,在系统中通过参数配置,对评分结果、监控风险管理级别进行分层、分级处理,保障系统的灵活性,满足业务运营的需要。

● 基础数据:系统对接口方录入的数据,根据业务需求构建相应的数据存储模型,包括电商主要销售产品的行业统计数据,商家基础信息数据、商家运营情况数据、商家主要经营人数据,为后续分析和运营提供数据基础。

● 应用管理包括系统管理、数据管理、运维管理、信息管理,为系统的正常运营、安全管理、数据质量提供保障,为系统的正常运行提供服务。

3.3数据需求分析

1)企业数据

主要包括企业基本信息,经营信息,信用信息,从不同角度反映企业的销售能力,信用能力,运营能力,存在风险和抗风险能力,该数据主要通过企业提供录入,网站爬取,接口调用的方式接入。

2)店铺数据

主要包括店铺基本,经营信息,反映店铺的健康指数,行业所处位置,产品开发和运营能力,以及店铺持续的营运能力和存在的风险情况,该数据主要通过企业提供录入,网站爬取,接口调用的方式接入。

3)个人数据

主要包括个人基本信息,信用信息,作为企业的法人,主要负责人和风险承担者,从企业主的个人基本情况,个人贷款情况和社会角色的诚信度等方面反映主贷人的还款意愿和还款能力,该数据主要通过企业提供录入,网站爬取,接口调用的方式接入。

4)行业数据

主要包括行业基本信息,该行业主要以企业经营的电子商务平台所在行业情况分析,反映店铺经营情况在行业中所处于的排名和竞争力,该数据主要通过网站爬取方式接入;

5)征信核查

主要包括企业,个人,工商注册类,银联交易账单查询,其他查询共计5块内容,从不同角度对企业,个人录入信息数据进行合法性校验和稽核,以确保信息的真实性和合法性,该数据主要通过接口调用的方式接入。

6)通信行为数据

主要包括身份信息核验,身份属性,手机号码,常驻地匹配,紧密联系人等不同角度反映消费能力和诚信度,该数据主要通过接口调用的方式接入。

3.4系统应用

依据客户申请单中提交的个人、企业及店铺信息,收集、整理并分析相关信息,综合评估客户的贷款风险,为银行最终确定授信额度提供参考。

数据建模采用熵值法,分别根据指标大类分类体系,共分为基本信息、销售能力、信用历史、风险保障以及运营能力五大类,并分级对各级指标的权重进行进行计算,并进行取整调整,得出具体的模型如下:

图表:风险评估得分示例

4、结束语

本文以电商数据、电信数据、银行数据的共享以及银行风险评估模式为基础,通过大数据技术、数据挖掘技术、数据可视化技术,完成的一套电商领域的征信系统。完成了业务模型开发、基于大数据平台的数据分析和加工、数据挖掘分析、产品展示等功能。实现了电商、电信、银行数据的跨领域应用,通过分析挖掘、服务共享的方式为银行在电商领域开展贷款业务提供服务的能力。有效的提升银行贷前风险识别能力,及贷后对风险的控制能力,提升银行资产的利用效率。

作者简介:

曾振(1981-)、男,湖南长沙人,工程师,主要从事互联网行业的产品研发和运营、云计算解决方案、大数据分析与处理等研究工作。

王建红(联系电话:15308408345;联系地址:长沙晚报大道297号)

论文作者:曾振1, 王建红 2

论文发表刊物:《电力技术》2016年第3期

论文发表时间:2016/7/14

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据的电商领域征信模型及风险控制系统设计与实现论文_曾振1, 王建红 2
下载Doc文档

猜你喜欢