基于大数据的信用系统的研究与设计论文_尤沛泉

2020-01-20阅读(561)

身份证号码：44068119851016XXXX

摘要：根据互联网的发展情况来看，个人信用的数据越来越庞大，单一维度的信用系统已经不能满足银行或者企业的需求。多元化的信用数据，应用场景的不断增加，信用载体的变化，信用数据需要更加高效和多维度的采集与使用。如何高效地数据采集，而且可以做到跨领域，跨行业，并且从各种数据源上挖掘相关的信用数据，根据各种信用数据信用系统转化为对应的信用评分，一直都是信用系统面临的课题。

关键词：信用体系；大数据；Hapdoop；Spark

引言：大数据是信用系统的基础，数据是非常重要的。良好的信用系统，可以帮助提升社会效率。举个例子，你想在某网上在线购物平台上购物，搜索关键字，看了几个小时，最后还是不能决定下单。市面上有许多开源的大数据处理引擎，其中最著名的是Hapdoop和Spark。使用大数据处理引擎，可以对系统外部数据和系统内部数据进行采集，并且对其大数据进行计算、挖掘和管理，并通过深度学习技术和数据建模技术，使数据具有“智能”。

一、信用体系构建

信用体系主要包括：信用载体，信用维度，信用等级，信用评分等。

信用载体的信用信息需要通过大数据引擎进行收集，最终收集到的信用信息保存到信用载体上。

信用维度指的是根据不同角度，不同方面去定义其信用评分。可以根据领域，行业或者某些特性区分，一个良好的信用体系，必须考虑信用维度的扩展性。

信用等级是信用评估机构对信用载体的信用信息进行评估，根据结果对信用载体的信用度划分的等级类别，它反映了信用载体的在其信用维度的信用度的高低。

信用评分是可以通过信用载体信息，信用维度，信用等级等数据系统自动生成的分数。信用评分可以是单维度或者多维度的，多维度情况要根据系统定于的信用权重来进行计算。

二、Hapdoop

Hadoop主要有两个核心模块，即：加工/计算层（MapReduce），以及存储层（Hadoop分布式文件系统）。

MapReduce是由谷歌设计的，是一种并行编程模型。谷歌对大数据的高效处理，甚至多TB数据集的分析，以MapReduce分布式应用批处理的方式，运行在大型集群（数千个节点），并且提供可靠的容错方式。

Hadoop分布式文件系统（HDFS）是基于谷歌文件系统（GFS）发展而来，并且提供了一个设计在普通计算机上运行的分布式文件系统。它与现有的其他分布式文件系统有着许多相同之处，但是也与其他分布式文件系统有着显著的差别。

除了上面提及的核心组件，Hadoop大数据引擎还包含以下两个模块：通用模块，这是Java类库和其他Hadoop组件所需的实用工具；YARN模块，这是作业调度和集群资源管理的组件。

构建Hadoop大数据系统需要重复配置，处理大规模服务器的配置工作是相当昂贵的，但是作为替代，可以采取多普通电脑用单CPU在一起工作，使其成为一个单CPU一个功能的分布式系统。实际上，集群服务器可以平行读取大量数据集，使集群服务器达到一个高吞吐量的标准。可以用较低廉的价格获取到比较高的性能。因此，使用Hadoop跨域集群和低成本的机器上运行是一个不错的选择。

Hadoop运行整个计算机集群代码的过程包括以下核心任务：数据划分，文件划分为128M和64M（128M最好）统一大小块；然后文件会被分布在不同的群集节点上，以便进一步处理；通过HDFS监管处理这些文件；使用块复制处理硬件故障；检查以上步骤是否已成功执行，如果出现故障，则重新执行该文件；执行后映射数据，减少阶段的排序；发送排序的数据到某一服务器上；为每个作业编写的调试日志。

Hadoop大数据引擎允许用户快速地编写和测试的分布式系统。利用CPU内核的平衡细分作业，高效的让数据在整个集群服务器种分配数据和工作。

期刊文章分类查询,尽在期刊图书馆改设计不仅不依赖于硬件，而且还提供容错和高可用性（FTHA），而且它本身可以在应用层检测和处理故障。在集群服务器的应用种，可以添加或从集群中动态删除其中一个或者多个节点，Hadoop仍可继续不中断地运行。

三、Spark

Spark可以很好弥补Hadoop的不足，同时又可以继承Hadoop组件，性能上更是比Hadoop好。具统计，Spark同Hadoop服务器资源的情况下，排序性能可达Hadoop的30倍。

Spark主要有五个核心模块，即：Spark Core，Spark SQL，Spark 数据流，MLBase，GraphX。

Spark Core是底层一般执行引擎，所有其他的功能都是建立在Spark的平台之上。这些功能包含：任务调度，内存管理，故障恢复以及存储系统的交互等。它还提供了内存计算和引用数据集在外部存储系统。

Spark SQL是Spark更新到1.0.0版本后新推出的基于Catalyst引擎的大数据SQL交互式技术，使用 SchemaRDD一个新的数据抽象来操作SQL，它提供了结构化和半结构化数据的支持。这个功能和Shark相同，但是它比Shark支持更多数据库的查询表达式。

Spark数据流是一个对实时数据流进行高通量、容错处理的流式处理系统，并且对多种数据源进行各种复杂的操作，最终将结果保存到外部文件系统，数据库，或应用到实时图表仪表盘UI上。利用Spark核心快速调度进行流分析的能力，摄取的数据并划分小型数据进行RDD（弹性分布式数据集），对这些数据进行转换分析管理。

MLBase是机器学习和统计学技术，其重心是把大数据转化为知识的关键点。对于大多数开发者来说，需要掌握机器学习的相关知识不是一个难题，但更重要的是，企业大数据不断积累，行化算法实现的需求也越来越多，对应各邻域、算法的参数设置和调优需要很强的领域经验，从而导致机器学习成为一个难以精通的学科。

GraphX是Spark中用于图和图并行计算的API。跟其他分布式图计算框架相比，它更加方便，更加高效。它是一种点和边都带属性的有向多边图。

四、信用系统设计

信用系统主要包含3个模块：信用采集，信用报告和系统管理。

信用采集有2种手段：利用第三方信用系统接口，将第三方信用信息抓取到本地信用系统种；利用网络爬虫，抓取各个信用网站的信用信息。这里需要用到hadoop的批处理功能来实现对信用信息的批量抓取与保存。在数据抓取过程中，使用Spark来对信用信息进行分析，对信用数据进行分领域，行业，模块划分录入。

在系统中可以根据不同维度、不同模块生成信用报告。信用报告展示的方式是图表UI，可以向用户展示某个信用载体的信用数据，以及趋向性分析，同时也支持多载体展示。

系统管理是后台管理员配置信用载体，信用公式，信用维度，信用权重，信用等级以及记录日志，处理异常的平台。系统根据管理员的配置弹性扩充信用信息种类，信用采集方式以及最终信用载体生成信用评分的标准。

结束语

信用系统的核心作用在于，降低社会成本，提高社会效益。旧有信用体系环境薄弱，而且“违约”和“欺诈”成本并不高，对失信的惩罚也不高，这会让整个社会信用体系的建立极其不利。可想而知，当“信用”成为未来的个人资产，整个市场经济和社会运转速度和效率将会有很大的提高。在这个进程中，会产生信用信息巨大，在大数据平台的帮助下完善信用体系，使信用体系越来越健壮。

参考文献：

[1]孙磊.信用体系演化的经济学分析.西南财经大学.2008.

[2]Hadoop权威指南（第3版）-（美）Tom White著；华东师范大学数据科学与工程学院译.2015.

[3]大数据Spark企业级实战／王家林编著.2015.

论文作者:尤沛泉

论文发表刊物:《基层建设》2018年第25期

论文发表时间:2018/9/17

标签：信用论文; 数据论文; 系统论文; 维度论文; 分布式论文; 载体论文; 集群论文; 《基层建设》2018年第25期论文;

基于大数据的信用系统的研究与设计论文_尤沛泉

下载Doc文档

猜你喜欢