基于运营商数据的骚扰电话识别框架研究论文

基于运营商数据的骚扰电话识别框架研究

卢晓妮褚启伍赵玺

摘要：如今骚扰电话日益猖獗，严重影响了人民群众的正常生活，也影响了社会的和谐进步。随着《综合整治骚扰电话专项行动方案》的出台，全国范围内开展了打击骚扰电话乱象的行动。本文提出基于运营商数据的骚扰电话识别框架，从运营商数据中提取出骚扰电话的典型特征以及被叫用户画像，利用离群点检测算法从一定程度上解决恶意标记带来的严重后果，并且利用多源特征训练骚扰电话识别模型，提升识别效率。

关键词：运营商数据；骚扰电话识别；多源特征

1 引言

移动通信业务的发展在为人们的生活提供便利的同时，也为不法分子提供了在一定时间内触达大量用户的技术手段。不法分子利用先进且多样化的技术手段，达到扰乱用户正常生活（如“呼死你”）、骗取用户隐私信息（如姓名、银行卡号等）及骗取用户财物等目的。当前，骚扰电话造成的扰民、个人隐私信息泄露和个人财产损失等问题日益突出，严重影响了人民群众的正常生活和社会的和谐进步。

2018年7月30日，工信部等13个部门联合发布《综合整治骚扰电话专项行动方案》的通知，通知里提出，即将在全国范围内严厉整治骚扰电话乱象。其中，骚扰电话的整治主要从渠道监管、技术防范、行业规范3个方面入手，健全相关法律法规，对违法犯罪行为依法进行严厉惩处。

高等数学是高职院校不可或缺的一门基础课，为学生学习专业课奠定了基础，对培养学生严密的思维能力和创新能力起着不可替代的作用。它的基础性地位，决定了它在自然科学、社会科学以及其他科学中发挥着越来越重要的作用。目前在高职院校有这样的倾向：“技术和实用操作性至上”，越来越多的高职院校对高等数学的课程定位也越来越片面，很多学校都过多地强调高数为专业课服务，强调了高等数学的工具性，导致高职院校学生产生“数学无用论”的观点，学校过多地压缩高等数学课时，删减教学内容，所有这些都不利于现代公民综合素质的提高。

本文从技术防范方面入手，回顾国内外骚扰电话识别的现有研究，在此基础上提出基于运营商数据的骚扰电话识别框架，利用骚扰电话的典型特征及被叫用户画像来训练识别模型，有效提升骚扰电话识别效率，进而提升用户端骚扰电话的提醒和预警能力，切实落实骚扰电话整治工作。此外，本文提出利用典型特征对黑名单进行过滤，从一定程度上解决恶意标记带来的严重后果。

2 骚扰电话识别现状

2.1 国内骚扰电话识别现状

目前，国内对于骚扰电话的识别方案主要包括人工回拨验证和基于典型特征的骚扰电话识别。

人工回拨验证方案是电信运营商客服人员在接收到用户投诉之后，对被投诉的可疑号码进行回拨确认。这种方法往往只能在用户已经被骚扰并且投诉之后才对可疑号码进行追踪验证，不能在用户端收到骚扰电话时进行主动识别并提醒，此外在处理投诉的过程中，需要耗费大量的人力物力。

关于典型特征的选择，所提出框架在现有文献所涉及的呼叫行为特征和被叫号码特征的基础上，添加手机APP使用情况特征及位置特征。由于骚扰电话与普通电话的使用目的不同，所以APP的使用情况以及手机使用的位置分布也会有差异，框架添加APP使用情况（即平均每日APP使用时长和平均每日流量使用量）以及手机使用的位置分布为典型特征。

基于典型特征的骚扰电话识别包括基于规则的骚扰电话识别和基于算法的骚扰电话识别。骚扰电话往往具有一些普遍的特点，比如骚扰电话需要在短时间内骚扰大量的用户，所以骚扰电话在一定时间内的主叫次数往往会很高；用户具备一定自主识别骚扰电话的能力，并对来电进行及时挂断，所以骚扰电话的振铃时长往往较短且通话时长多为零；骚扰电话随机选取被叫用户，所以被叫号码往往具有外省同号段、连号特征等。所以在分析这些典型特征的基础上主动进行骚扰电话识别是可行且有效的方法。

基于规则的骚扰电话识别是较为简单的主动识别方法，其主要思想是在黑、白名单的基础上，基于骚扰电话所具备的典型特征，对来电号码按照特定的简单规则进行过滤。现有文献中所采用的骚扰电话典型特征主要包括呼叫行为特征和被叫号码特征两方面。其中，呼叫行为特征主要包括该号码主叫呼出的频次及频率、被叫呼入的频次及频率、主叫接通的频次及频率、平均振铃时长、平均通话时长等，而被叫号码特征主要包括被叫号码的来源地分布、被叫号码的号段分布、被叫号码离散度等。但是，简单规则设置存在许多问题：一是规则中的阈值确定缺乏科学的指导，使得识别策略受主观影响较大；二是简单规则设置无法应对灵活多变的不法分子的骚扰方式，使得这种识别策略的效率大大降低。

陈化是消除钢渣膨胀组分的有效方法。传统的钢渣堆存方式，在数年的长时间下可以实现钢渣体积稳定，但时间太长。利用蒸汽陈化、蒸汽加压陈化来实现钢渣稳定化已经得到实际应用，采用蒸汽加压处理的陈化时间可以显著降低[37]。陈化过程中也可以加入CO2气体，改善钢渣体积稳定性，如日本钢管公司利用钢渣制成大块砖，然后装入密闭模具后通入饱和蒸气和CO2，五年后测定结果表明稳定性仍较好，而采用空气冷却则很难满足要求[38]。

文学创作犹如绘画，不过是通过文字描绘诸多故事场景和风俗风貌，从而传递给读者信息，在头脑中成像，达到作家充分叙述故事、表达情感、引起读者共鸣的目的。所以，图像叙事是作家在文字叙述中的另类表达，“可以说，在文字产生之前，图像是唯一重要的远古人类留下的遗迹。没有相关图像或器物的佐证，人类对史前史的撰述和理解都是不可想象的。”[2]可见，图像在我们生活中至关重要。而随着人类文明的进步，文字在文学创作中与图像具有某种非常默契的联系。文学作品以文字为依托，在作品中勾勒生活图景并成像于读者头脑中，以求达到真实化、生活化的目的。

其中，N_k（q）是q的第k距离以内的所有点（包含第k距离的点）。q的第k距离d_k（q），是指离点q第k远的点的距离。reachdistance_k（q，o）为点o到点q的可达距离，计算公式为max（d_k（o），d（q，o）），即点o的第k距离与q与o实际距离的最大值。定义点q的局部离群因子为：

2.2 国外骚扰电话识别现状

国外对于骚扰电话的处理思路与国内大致相同，在用户端进行提醒仍然是主要的解决方案。如何利用先进的算法技术有效地识别骚扰电话也是许多国外研究学者关注的重点，主要方法有基于规则的骚扰电话识别和基于用户画像的骚扰电话识别。基于规则的骚扰电话识别较为简单，在真实场景中往往具有较低的识别效率。

3 基于多源特征的骚扰电话识别

骚扰电话识别的初衷是为了减少对用户的骚扰，若是由于恶意标记或误判导致用户错过所需的电话，会引起用户极大的不满，而且会对被恶意标记的用户的正常生活造成严重影响。考虑到存在恶意标记的情况，本文吸取国内外关于骚扰电话识别的经验，构建出基于多源特征的骚扰电话识别算法框架（见图1）。具体思路如下：

3.1 训练阶段

训练阶段主要包括以下两大部分：

（1）基于典型特征的电话标记

浏览书籍时，对于名家解析有很强的吸引力，例如看《红楼梦》及《三国演义》等名著，以及近现代诗集，对文学作品以读者眼光看到并学习名家的鉴赏。作为高中生，文学作品阅读过程中，对作者语言进行自我理解与分析，分析作者表达的意境，以此提升自身文学鉴赏与作品审美能力。

图1 基于多源特征的骚扰电话识别框架

4月26日，十余位浙江画院的艺术家在院长孙永的带领下，再赴绍兴东浦，进行为期3天的全方位采风写生创作活动，零距离领略水乡美景和浓郁的风土人情。

陈诚这时微微一笑，说：“你还怕没有任务？七十五军负责宜昌至晓峰防线的守卫，决不能让日军向西北方向前进一步。另外，派出预备第四师攻击塔镇守敌，做出佯攻宜昌的样子，拖住宜昌守军，不给鬼子分兵出击的机会。”

框架从通话记录中提取出黑、白名单的典型特征后，将其作为LOF离群点检测算法的输入，来检测各名单中的异常电话。LOF离群点检测算法的思路是通过比较某个点与其邻域点的密度来确定某点是否为离群点。某点q的局部可达密度为：

为了解决这些问题，基于算法的骚扰电话识别应运而生。这类方法基于典型特征来建立算法模型，实现更加灵活且准确率更高的骚扰电话检测。在目前基于算法的骚扰电话识别技术研究中，王彦青等人分析、挖掘来电号码的呼叫行为特征，利用随机森林算法实现骚扰电话识别。刘剑引入风险损失因子对贝叶斯算法进行改进，使得可以人为控制骚扰电话识别的误判率。王丹阳引入判别率粘连系数对贝叶斯算法进行改进，使得可以人为控制骚扰电话识别的覆盖率和准确率。

从（2）式中，可以看出局部离群因子代表了点q与其邻域点的局部可达密度之间的差异。若局部离群因子越接近1，则说明点q与其邻域点的局部可达密度相差不大，则q很可能不是离群点；若局部离群因子越小于1，则点q越接近簇中心；若局部离群因子越大于1，则q越可能是离群点。

酒店裙房热水补水来自地下室裙房变频给水设备，整个裙房热水系统为闭式系统。根据水规的要求，日用热水量大于30m3的热水系统应设置压力膨胀罐。压力膨胀罐的选型可按式（1）计算：

工资费的规定在审计实践中演变为：有财政性拨款的事业单位在职在编人员，不得再以任何形式在科研经费中列支工资性费用，而且此规定成为了严肃财经纪律中不能逾越的“红线”和带电的“高压线”。

（2）基于多源特征的骚扰电话识别模型训练

本文对黑、白名单分别进行LOF检测，过滤掉局部离群因子大于阈值ɑ（ɑ＞1）的电话集合，从而产生较为准确的黑、白名单。最终，根据过滤后的黑、白名单，将黑名单的通话活动均标记为骚扰通话活动实例，将白名单的通话活动均标记为正常通话活动实例，作为训练骚扰电话识别模型的输入。

用户的通话行为往往有一定的规律，若某次通话活动与近期用户通话行为相异，则很有可能是骚扰活动。对于某个通话活动来说，不仅主叫电话的典型特征能够有助于判断该活动是否为骚扰活动，而且被叫用户的画像，包括该用户通话习惯，即近一周内平均通话时长、平均通话次数、通话类型分布以及本次通话活动的通话时点、通话时长、通话类型，也都有助于对该通话活动的类型进行判断，其中通话类型包括省内、省外和国外。

本框架利用多源特征构建骚扰电话识别模型，以主叫电话的典型特征以及被叫用户的画像为自变量x，以实例标记结果为因变量y，一同作为训练集模型输入。框架采用支持向量机（SVM）模型来对疑似通话进行识别和最终分类。考虑具有线性核的SVM，是因为其在训练和分类中所具有的简单性和较高的计算效率。

其中，L为样本总数。该最大化问题可转化为：

其主要思路是基于骚扰电话的典型特征对黑、白名单进行过滤，产生较为准确的骚扰电话及正常电话的集合。以黑、白名单以及通话记录为输入，首先计算出黑、白名单的典型特征，利用LOF离群点检测方法分别对黑、白名单进行过滤，从而产生较为准确的标记实例。

其中，ω和b为超平面的参数。SVM让所有点到超平面的最小距离最大化以找到超平面P：

SVM的基本思想是在高维空间中找到一个超平面P能够间隔最大化地将两类样本分开，该超平面可表示为：

胰腺癌是消化道常见的恶性肿瘤，其早期缺乏特异性临床表现，并且病情发展迅速，因此该疾病预后较差[1-2]。常规影像学技术可以对较大的胰腺癌病灶的诊断提供帮助，然而对于小胰腺癌(直径≤2 cm)的诊断则相对困难。由于影像学的灌注技术可无创性地反映胰腺病灶内微循环的情况，因此，这种检查手段在小胰腺癌的早期诊断方面得到了较多的研究和应用。近几年，以CT、MRI、超声以及PET-CT为基础的灌注技术已逐渐成为小胰腺癌的早期诊断和预后评价的重要检查方式。

即：

其中，K（x_i，x_j）=＜（x_i），φ（x_j)＞。考虑到该模型允许一些误分类，我们引入软间隔最大化来构建SVM模型，优化目标为：

其中，c是惩罚参数。框架采用10倍交叉检验的方法对模型进行训练，即将训练集任意划分为10个子样本，其中9个子样本为训练集，剩余1个子样本为验证集。此过程持续10次，以产生10种不同的支持向量机模型，然后在这些模型上使用验证集来计算出各自的错误识别率，最终将最低误分类率的模型作为最佳支持向量机模型，以作为最终的骚扰电话识别模型。

3.2 识别阶段

在骚扰电话的识别阶段，对于一个通话记录，框架采用两个阶段对骚扰电话进行识别。

第一阶段：基于典型特征的骚扰电话识别。提取该通话记录主叫的典型特征，利用公式（2）分别计算该点在已建立的黑、白名单LOF离群点检测模型中的局部离群因子LOF_k__b及LOF_k__w。若LOF_k__b大于阈值a_b_h且LOF_k__w小于阈值a_w__l，则该通话为正常活动；若LOF_k__b小于阈值a_b__l且LOF_k__w大于阈值a_w__h，则该通话为骚扰活动；若不满足以上两种条件，则为疑似通话进入第二阶段。

第二阶段：基于多源特征的骚扰电话识别。提取该通话的多源特征x，即主叫电话的典型特征以及被叫的用户画像，基于已训练好的最佳支持向量机模型，利用公式（8）对该通话活动进行最终的分类预测。

4 结束语

骚扰电话识别是骚扰电话整治行动中重要的一环，融合多源数据来提升骚扰电话识别准确率是有效且可行的方式。本文提出的基于运营商数据的骚扰电话检测框架，一方面基于典型特征的电话标记为最终骚扰电话识别模型提供较准确的训练集，从一定程度上过滤被恶意标记的电话；另一方面通过融合主叫电话的典型特征和被叫的用户画像来提升骚扰电话识别准确率。未来的研究可以基于本文提出的框架进行落地并且对框架细节进一步改进。

参考文献

[1]王彦青,王瀚辰.一种识别骚扰电话的组合算法研究[J].电信科学,2017,33(7)112-119.

[2]刘剑.基于数据挖掘技术实现骚扰电话识别[D].中国地质大学,2011.

[3]王丹阳.数据挖掘技术在骚扰电话监控系统的应用研究[D].湖南大学,2010.

Research on harassing call detection framework using mobile operator data

LU Xiaoni，CHU Qiwu，ZHAO Xi

Abstract： The increasing prevalence of harassing calls has seriously affected the normal life of people and social harmony.With the promulgation of the Special Action Plan for Comprehensive Rectification of Harassing Call,a nationwide action against harassing calls has been launched.This paper proposed a harassing call detection framework using mobile operator data.Typical features of harassing calls and profiles of called users are extracted.Outlier detection algorithm is used to mitigate the serious consequences of malicious call marking to a certain extent.And multi-source features are used to train the harassing call detection model, so as to effectively improve the detection efficiency.

Key words： mobile operator data；harassing call detection；multi-source feature

作者简介：

卢晓妮大数据算法与分析技术国家工程实验室，西安交通大学管理学院，博士

褚启伍大数据算法与分析技术国家工程实验室，西安交通大学软件学院，硕士

赵玺大数据算法与分析技术国家工程实验室，西安交通大学管理学院，教授

（收稿日期： 2018-12-15）

标签：运营商数据论文; 骚扰电话识别论文; 多源特征论文; 大数据算法与分析技术国家工程实验室西安交通大学管理学院论文; 大数据算法与分析技术国家工程实验室西安交通大学软件学院论文;