大数据环境下基于云计算的图书馆用户信息挖掘技术研究论文

大数据环境下基于云计算的图书馆用户信息挖掘技术研究

张凤霞

（郑州大学体育学院，河南郑州 450000）

摘要：为了应对大数据环境下图书馆个性化信息服务的发展趋势，提供更加精准的用户服务，构建基于Hadoop云计算平台的图书馆数据挖掘系统，并设计一种新型混合决策树算法。首先，设计包含4 个层次的数据挖掘系统架构。然后，在算法层提出一种采用混合策略的决策树算法，该算法结合分布式改进的SPRINT 算法和并行化的朴素贝叶斯算法，以便满足HDFS 和MapReduce 的运作方式，从而能够在Hadoop 平台上进行实现。Hadoop 集群环境的用户信息测试结果表明，相比单一的SPRINT 算法和朴素贝叶斯算法，提出的新型混合决策树算法具有最佳的数据挖掘分类性能。

关键词：大数据；云计算；Hadoop；SPRINT；朴素贝叶斯；决策树

0 引言

随着全球互联网和现代移动网络等技术的发展，数据呈现爆炸式增长的态势，传统数据库系统己经很难满足大数据时代的需求。云计算的出现很好地解决了此类海量数据的存储问题，并为相关数据挖掘处理应用提供了技术支撑。然而，云计算信息数据时代的来临，导致普通用户在面对众多图书的选择问题时无法快速找到自己需要的对象，这就是典型的图书馆个性化用户信息服务需求。如何在海量的图书馆用户信息中通过大数据挖掘技术寻找出符合用户需求的结果，从而提供高精准度的个性化需求服务，是现阶段图书管理领域的研究重点和难点^[1-2]。

利用地质学理论及各种新技术、新方法，对地层、构造等进行研究，根据不同的工作方法和精度要求，采用分层、区域开发、重点突出技术等方法，并充分收集和利用已有的研究资料和成果。

因此，本文设计一种基于Hadoop云计算平台的图书馆数据挖掘系统。首先，利用Hadoop 平台的海量数据存储和分布式计算能力，设计包含4 个层次（计算存储层、Hadoop 平台层、算法层和用户交互层）的数据挖掘系统架构。其次，为了提高数据的处理性能，本文在算法层中提出一种采用混合策略的决策树算法，通过将SPRINT 算法和朴素贝叶斯算法有效结合，并分别进行并行化处理从而能够在Hadoop 平台上运作。测试结果验证了所提混合算法的可行性。

1 研究问题与主要思想描述

目前，由Google 提出的分布式计算模型Hadoop 是主流的云计算平台框架，具有经济、可靠、扩容能力强、并行性好、效率高等诸多优点^[3]。Hadoop 大数据平台帮助政企、金融、教育等多个行业及领域实现了海量数据的计算存储管理、数据深度挖掘以及品牌舆情等多样化。为了支持对应用数据高吞吐量访问，Hadoop 采用了分布式文件系统（Hadoop Distributed File System，HDFS）^[3]。此外，为了将数据分散到集群的各台机器上，以便提高计算效率，Hadoop 具有MapReduce 并行运行模型。然而，传统的串行大数据挖掘算法不能有效地在Hadoop 平台上执行，即无法应对海量数据挖掘问题。

因此，研究人员为了解决上述问题提出了许多方法。文献[4]提出一种面向大数据挖掘的Hadoop 框架K均值聚类算法，将大数据划分成许多数据块，在Reduce和Map 阶段进行加权融合。文献[5]设计一种Hadoop 下基于朴素贝叶斯分类的大数据挖掘方法，分析了MapReduce 计算模型。文献[6]通过Hadoop 系统中的MapReduce 模型对改进支持向量机SVM 过程进行处理，提高了海量文本数据分类的效率。

但是上述单一的经典数据挖掘分类算法（如决策树算法、支持向量机SVM 等）在处理海量图书馆用户信息数据时总显得力不从心，无法在准确率方面获得较好的结果。因此，本文在图书馆用户信息Hadoop 挖掘系统中提出一种采用混合策略的决策树算法，该算法结合了分布式改进的SPRINT 算法和并行化的朴素贝叶斯算法，从而符合HDFS 和MapReduce 的工作模式。

2 基于Hadoop云计算平台的信息挖掘系统设计

2.1 关键技术

Hadoop云计算平台包含分布式文件系统HDFS 和MapReduce 计算模型^[7]两个关键技术。分布式文件系统HDFS 具有一次写入多次读取的能力，实现了高度容错，较大的访问带宽特点避免了网络阻塞，降低了对硬件的要求，实现了一定意义上的数据批量处理。而MapReduce 计算模型是Hadoop 平台实现超大规模数据并行运算的关键，其本质为一种软件编程架构（模式），能够通过Hadoop 集群上的多个节点访问HDFS 上存储的分散数据且进行并行计算，避免大量数据的复制传输操作，有效节约了网络带宽，其标准的运作方式如图1所示^[8]。

2.2 系统框架

基于Hadoop云计算平台的信息挖掘系统必须充分发挥HDFS 和MapReduce 的作用，将数据存储和数据挖掘任务工作分配到Hadoop 集群中的各个节点上。因此，本文设计的信息挖掘系统框架如图2 所示，主要包括计算存储层、Hadoop 平台层、算法层和用户交互层，其中算法层是研究的重点，负责快速有效地处完成数据的相应挖掘任务。

图1 MapReduce 的运作方式
Fig.1 Operation mode of MapReduce

图2 基于Hadoop 平台的图书馆用户信息挖掘系统
Fig.2 Library user information mining system based on Hadoop platform

3 提出的新型图书馆大数据挖掘算法

经过研究分析，传统的经典数据挖掘分类算法有许多在数据挖掘系统的算法层可以实现并行化，但是单一的分类算法在处理海量图书馆用户信息数据时仍旧存在准确率不够理想的问题。因此本文提出一种新的混合型图书馆大数据挖掘算法，将SPRINT 算法和朴素贝叶斯算法有效结合。

3.1 SPRINT 算法的分布式改进

首先，要对典型的SPRINT 算法^[9]进行分布式改进。SPRINT 算法属于决策树算法，但是不同于ID3、C4.5 和CART 等算法，在对数据样本集判断最佳分裂属性的度量时使用的是Gini指标。Gini值的计算公式如下：

研究组患者予以消化内镜联合四联疗法,37例患者的结果为阴性,比例为97.4%,参照组患者予以四联疗法单独治疗,29例患者的结果为阴性,比例为76.3%,组间数据结果证实后差异呈P<0.05,产生了统计学意义,X2=7.3697。

根据短时记忆的头尾效应在复习时针对容易遗忘的中间部分。因长期记忆是语义相关的，可将知识点按语义进行编排，有关联的知识点贯穿在一起可减少其他语义对其长期记忆的干扰，提高了学习的效果。在任务设计的时，可以将任务的特征与学生记忆中有趣的点关联在一起，比如制作网页完成指定的布局任务，页面中各个部分填充的信息可以用学生的记忆信息或者是个人兴趣所在来填充，包含文字和图片，布局任务的完成过程和学生已有的长期记忆的信息连在一起形成新的长期记忆。

如果将集合S 分裂为两个子集S ₁和S ₂，则两者之间的Gini值为：

首先要将图书馆用户信息数据划分为训练集和测试集两个部分。训练集中的所有书籍通过人工标记分为E（计算机类）、H（英语类）、W（自动类）、A（艺术类）、C（社会类）、J（文学类）六大类，对这六类图书进行数据泛化得到表2。

为了有效利用图1 中MapReduce 框架的映射功能（Map），需要进行分布式改进，因此，将SPRINT 决策树算法中位于相同层的所有Node 树节点的工作，映射到不同的Reducer 进行分布式操作。然后，仅需不断迭代调用过程就能够实现所有节点的分裂，从而建立所需的决策树。Map 函数的伪代码如下：

本次研究选取2016年1月—2017年1月咋我院接受颈动脉超声检查的82例患者为例，其中男性53例，女性29例，最小年龄35岁，最大年龄77岁，平均年龄（61.2±2.5）岁；其中高血压患者35例，冠心病患者30例，糖尿病患者10例，下肢动脉疾病患者7例。分为≤60岁组30例，＞60岁组52例。所有参与研究的病例均排除既往脑卒中病史和无症状颈动脉狭窄。

输入：训练样本集

输出：根据Key 排序后＜Key，value＞键值对

for（每一个样本）

{

格式化处理；

处理后的键值对输出到文件中；

初始化＜Key，value＞值，进行combine 操作；

利用几何画板、Excel等计算机软件为学生创设数学实验室，我们可以设计微课引导自主学习，支持和鼓励学生运用信息技术学习数学、开展课题研究，使学生学习数学的过程变得更加活泼、有趣，更富有吸引力，使十分繁琐抽象的推理变得更加生动、直观、看得见、摸得着，更易于操作[2].

}

3.2 朴素贝叶斯算法的并行化

因此可得类别变量C 的条件分布^[11]：

2007—2017年世界胶合板进口额排名前5位的国家包括美国、日本、德国、英国和韩国，2007年和2017年进口额排名前5位的国家均依次为美国、日本、德国、英国和韩国。除2013—2015年外，美国均占据进口额第1位;日本除2013—2015年占据进口额第1位外，均位居第2;美日两国多数年份世界占比差距不大，但2017年差距明显加大，美国为21%，日本为13%;德国始终位居第3，但与美日两国差距明显;期间绝多数年份排名第4的英国和排名第5的韩国之间及两者与德国之间差距均很小。

假设每个特征x_i 对于其他特征x_j 是条件独立的，则：

Column-Bot使用非特定人声语音识别技术(Automatic Speech Recognition，ASR)最重要的现实意义就在于能够在脱离编程器和常规输入硬件的状态下，对机器人进行编程和操作，能够加大机器人与人的人机交互能力，目前机器人可以获取50条关键字，并且配合MCU对机器人主控制器发送命令，完成人声控制机器人的行走及任务执行过程.

贝叶斯分类的基础是概率推理^[10]，可表示为其中C 表示类别变量，X ={x ₁,x ₂,… ,x_n }表示属性变量集合，x_i 为特征。根据贝叶斯定理，朴素贝叶斯概率模型的定义如下：

利用SPRINT 算法和朴素贝叶斯算法相结合的方法实现数据挖掘分类的流程如图3 所示。可以看出，混合决策树算法的Map 阶段如3.1 节伪代码所示，Reduce 阶段利用SPRINT 算法构造决策树，然后分别对其每个叶子节点上的数据集执行3.2 节中朴素贝叶斯算法的式（6）和式（7）得到有关概率文件，最后利用计算概率乘积并按照从小到大排序，选取最小值对应的结果作为样本类别。

为了在Hadoop 平台上实现朴素贝叶斯算法，需要对其进行并行化改进。在Map 阶段的操作同SPRINT 算法一致，而将Reduce 阶段分为两个步骤。第一步需要获取概率信息文件，即获取每个属性在不同类别变量中的平均值E (X )和标准差D (X )。假设连续属性服从高斯分布，两者的计算方式如下：

根据第一轮得到的有关概率文件，利用式（5）完成第二步的分类，得到不同类别的概率乘积并按照从小到大排序选取最小值对应的结果作为样本类别。

泥巴起身要摘左小龙的头盔，说道：“不要紧的不要紧的，我是你的女人么，你的手脏成这样我都准你搂着我，我来帮你摘……”

3.3 混合决策树算法的实现

式中：P (C )表示已知类别先验概率；C 表示一个由属性变量决定的常数；P (x_i |C )表示属性变量的独立概率分布。

式中：S 表示一个集合；P_i 表示种类i 出现的频率；n 为种类的总数。

图3 混合决策树算法的分类流程
Fig.3 Classification process of hybrid decision tree algorithm

4 实验结果与分析

4.1 实验环境

为了对本文提出的新型混合决策树数据挖掘算法进行分析和验证，进行Hadoop 集群测试。虚拟机中搭建一个包含3 个节点的Hadoop 集群环境（1 个master，2 个slaves）。每个集群节点的硬件环境为：Intel Core i5 2.8 GHz 处理器，4 GB 内存，500 GB 硬盘。软件环境为：CentOS 6.0 操作系统，Hadoop 1.0.4 版本，Java JDK。

4.2 数据预处理

实验采用某高校中图书管理系统的数据库数据集。该数据集包含图书馆2018 年的用户信息1 020 513 条，如表1 所示。

式中：m 表示集合S 中数据记录的总行数；m ₁和m ₂分别表示集合S ₁和S ₂中数据记录的总行数。

通过EDX、XRD技术联用表明，贵铅中银主要是以银锑合金、银铋碲合金以及单质银的形式存在，还含有少量的银砷合金。考虑到这些银的合金能完全溶解于硝酸体系，故试验初步选择用硝酸体系溶解样品。收集不同企业生产的20个贵铅样品，采用硝酸(1+1)加热溶解样品，结果表明所有样品都未能完全溶解，样品溶液中有灰白色沉淀。分析认为灰白色沉淀可能为锑的水解产物，考虑到酒石酸可以和锑发生络合反应，有效防止锑的化合物水解[15]，故试验尝试采用硝酸-酒石酸体系溶解样品。

表1 图书馆用户信息数据（部分）
Table 1 Partial data of library user information

表2 六类图书的数据泛化
Table 2 Data generalization of 6 types of books

4.3 评估指标

为了对数据挖掘分类算法的性能进行有效量化评估，本文采用三个评估指标^[12]：准确率（Accuracy）、召回率（Recall）、F 值（F -Measure）。准确率计算公式为：

式中：TN，TP，FP 和FN 的定义如表3 所示。通常来说，准确率越高，分类性能越好。

表3 混淆矩阵定义
Table 3 Definition of confusion matrix

召回率的计算公式如下：

一是信息技术。对于电气自动化而言，信息技术对其发展发挥了较大的支配作用，其影响是深刻的。信息技术，作为人类开发和利用信息的全部手段，深入到社会经济生活的各个领域。信息技术的进步，为电气自动化的技术创新提供了支持和基础性支撑，而与此同时，电气自动化也为信息技术创新提供了方向。

F 值的计算公式如下：

F 值的数值越大，分类算法的效果越好。

4.4 分类性能分析

在测试数据集上进行分类实验，基于朴素贝叶斯算法^[5]、SPRINT 算法^[9]和本文混合决策树数据挖掘算法的分类器结果对比如图4～图6 所示。

图4 三种不同算法的准确率比较
Fig.4 Accuracy comparison of three different algorithms

图5 三种不同算法的召回率比较
Fig.5 Comparison of recall rates of three different algorithms

图6 三种不同算法的F 值比较
Fig.6F -Measure comparison of three different algorithms

从图4～图6 可以看出，朴素贝叶斯分类算法的性能最差，SPRINT 算法有所提升，本文混合决策树数据挖掘算法的准确率最高，且综合评估指标F 值也最高，有效提供了更加精准的用户服务。

5 结语

本文提出一种适用于Hadoop云计算平台的混合决策树数据挖掘分类算法，这种算法结合了分布式改进的SPRINT 算法和并行化的朴素贝叶斯算法，从而符合HDFS 和MapReduce 的工作模式。Hadoop 集群环境的用户信息测试结果验证了该算法的可行性和准确性。但是在召回率指标上，相比单一分类算法，混合算法的优势不突出。此外，算法运行时间有所增加，后续将对如何在不降低精确度的条件下，提高运行效率开展进一步研究。

参考文献

[1]HASHEM I A T，YAQOOB I，ANUAR N B，et al.The rise of“big data”on cloud computing：review and open research issues [J].Information systems，2015，47（C）：98-115.

[2]GANDOMI A，HAIDER M.Beyond the hype：big data concepts，methods，and analytics [J].International journal of information management，2015，35（2）：137-144.

[3]LYU Yisheng，DUAN Yanjie，KANG Wenwen，et al.Traffic flow prediction with big data：a deep learning approach [J].IEEE transactions on intelligent transportation systems，2015，16（2）：865-873.

[4]李爽，陈瑞瑞，林楠.面向大数据挖掘的Hadoop 框架K 均值聚类算法[J].计算机工程与设计，2018，39（12）：142-146.LI Shuang，CHEN Ruirui，LIN Nan.K-means clustering algorithm of Hadoop framework for large data mining [J].Computer engineering and design，2018，39（12）：142-146.

[5]WU J，PAN S，ZHU X，et al.Self-adaptive attribute weighting for naive Bayes classification [J].Expert systems with applications，2015，42（3）：1487-1502.

[6]赵颖.基于改进SVM 的文本混沌性分类优化技术实现[J].现代电子技术，2016，39（20）：39-43.ZHAO Ying.Realization of text chaotic classification optimization technology based on improved SVM [J].Modern electronics technique，2016，39（20）：39-43.

[7]GUO Y，JIA R，JIANG C，et al.Moving Hadoop into the cloud with flexible slot management and speculative execution[J].IEEE transactions on parallel & distributed systems，2017，28（3）：798-812.

[8]HUANG W，WANG H，ZHANG Y，et al.A novel cluster computing technique based on signal clustering and analytic hierarchy model using Hadoop [J].Cluster computing，2017（4）：1-8.

[9]杨洁，黄刚.基于云计算的SPRINT 算法研究[J].计算机技术与发展，2017，27（3）：108-112.YANG Jie，HUANG Gang.Research on SPRINT algorithm based on cloud computing [J].Computer technology and development，2017，27（3）：108-112.

[10]张晨阳，马志强，刘利民，等.Hadoop 下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件，2015（4）：72-76.ZHANG Chenyang，MA Zhiqiang，LIU Limin，et al.Research on meteorological data mining based on rough set and Bayesian under Hadoop [J].Computer application and software，2015（4）：72-76.

[11]WOLFSON J，BANDYOPADHYAY S，ELIDRISI M，et al.A naive Bayes machine learning approach to risk prediction using censored，time-to-event data [J].Statistics in medicine，2015，34（21）：2941-2957.

[12]BO Y，LEI Y，BEI Y.Distributed multi-human location algorithm using naive Bayes classifier for a binary pyroelectric infrared sensor tracking system [J].IEEE sensors journal，2015，16（1）：216-223.

Research on library user information mining technology based on cloud computing in big data environment

ZHANG Fengxia
（School of Physical Education，Zhengzhou University，Zhengzhou 450000，China）

Abstract： In order to deal with the development trend of library personalized information service in big data environment，a library user information mining system based on Hadoop cloud computing platform is constructed，and a new hybrid decision tree algorithm is designed.The data mining system architecture consisting of four levels（computing storage layer，Hadoop platform layer，algorithm layer and user interaction layer）is designed，and then，a decision tree algorithm based on hybrid strategy is proposed in the algorithm layer.The algorithm combines the improved distributed SPRINT algorithm and the parallelized naive Bayesian algorithm to meet the operation mode of HDFS and MapReduce，so that it can be used in Hadoop，and implemented on the Hadoop platform.The results of user information testing in Hadoop cluster environment show that the new hybrid decision tree algorithm has the best data mining classification performance in comparison with the single SPRINT algorithm and naive Bayes algorithm.

Keywords： big data；cloud computing；Hadoop；SPRINT；naive Bayes；decision tree

中图分类号： TN911.2-34；TP393

文献标识码： A

文章编号： 1004-373X（2019）21-0036-05

DOI： 10.16652/j.issn.1004-373x.2019.21.008

收稿日期： 2019-05-09

修回日期： 2019-06-12

作者简介：张凤霞（1980—），女，河南鹿邑人，硕士，馆员，主要研究方向为图书馆数字化、信息化研究。

标签：大数据论文; 云计算论文; hadoop论文; SPRINT论文; 朴素贝叶斯论文; 决策树论文; 郑州大学体育学院论文;