基于机器学习和脆弱国家指数的全球恐怖袭击预测研究论文

基于机器学习和脆弱国家指数的全球恐怖袭击预测研究

邱凌峰1,2,胡啸峰1,2,顾海硕1,2,唐 正1,2,郑超慧1,2,沈 兵1,2

(1. 中国人民公安大学 信息技术与网络安全学院,北京 102623;2. 安全防范技术与风险评估公安部重点实验室,北京 102623)

摘 要 :恐怖袭击在全球范围内频发,针对恐怖袭击的预警及防控研究十分必要。利用2006-2016年脆弱国家指数及全球恐怖主义数据库(GTD),基于多种机器学习模型,对全球各国家遭受恐怖袭击的风险进行回归预测。结果表明,随机森林、K近邻及决策树模型表现最优,其拟合优度的确定系数R 2达到了0.75、0.74和0.67。随机森林预测结果总体符合实际情况,尤其在恐怖袭击高发的中东和中亚地区预测较为准确。根据特征重要性排序结果,安全机构、公共服务、人权法治和集团之间的矛盾对预测结果的刻画能力最强。

关键词 :恐怖袭击;脆弱国家指数;机器学习;回归预测

当前,全球范围内恐怖袭击事件频发,严重影响了相关国家和地区的稳定。根据全球恐怖主义数据库统计,全球范围内发生的恐怖袭击次数从2006年的2 836次大幅增长至2016年的16 425次,2016年有所下降,但仍达到了13 170次。近几年的重大恐怖袭击事件有 “1.14”印尼雅加达恐怖袭击事件、“3.1”中国昆明火车站暴恐事件、“4.3”俄罗斯圣彼得堡地铁自杀式爆炸事件和“4.7”瑞典斯德哥尔摩市中心卡车冲撞事件等。因此,面对日益严峻的国际反恐形势,针对全球范围内的恐怖袭击风险分析和防控工作极为必要。

针对各个国家未来一段时间内可能面临的恐怖袭击次数进行预测,可以提前发现全球范围内恐怖袭击的热点地区,为国际反恐组织和相关国家研究恐怖主义行为规律和重点防控工作提供决策支持。关于恐怖袭击的预测,国内外学者进行了大量的研究,Petroff V B等[1]提出了关于具体恐怖袭击事件预警的隐马尔可夫模型。战兵等[2]基于隐马尔可夫模型,利用恐怖袭击的主体、客体、手段及资源等,预测将来可能发生的恐怖事件;傅子洋等[3]基于贝叶斯网络,利用恐怖袭击的攻击方式、政治经济目的和恐怖分子人数等预测袭击发生后的人员伤亡和财产损失;薛荣安等[4]基于贝叶斯和变化表的方法,利用恐怖组织的意识形态、宗教信仰、政治主张和经济情况等预测恐怖组织的行为;项寅[5]基于改进的神经网络,预测21类恐怖袭击目标面临的风险;胡成等[6]利用社会网络分析法挖掘暴力恐怖活动的社会网络特征,提出暴力恐怖分子及恐怖袭击地点的预警思路。已有的预测研究大多为微观层面的事后分析,即利用袭击发生后获得的信息维度,分析具体的恐怖主义行为或事件等。而利用恐怖袭击发生前的信息,对宏观层面的恐怖袭击热点地区进行预测的研究仍十分匮乏。

根据已有研究,经济因素[7](如人口老龄化、城镇化等)、安全因素[8](如移民危机、民族分裂等)和政治因素[9](如教义信仰、文明冲突等)与恐怖袭击的发生密切相关。脆弱国家指数考虑了一个国家经济、政治、社会和凝聚力四方面的因素,因此,本文利用2006-2016年的脆弱国家指数数据和全球恐怖主义数据库数据,基于多种机器学习模型,对全球范围内各个国家遭受的恐怖袭击次数进行回归预测。

文献[7]分析了大佛寺煤矿热逆流换向反应器系统的运行特性,包括27 h的预热过程(将床层中心温度加热至1 000 ℃)及9 h的床层温度分布调整过程(调整床层温度至稳定运行态相似的分布规律)。该反应器系统在稳定态运行时可回收用于发电的热能占甲烷反应热比例为31.61%~46.82%,自维持平衡的最低甲烷体积分数低于0.25%,并推荐系统运行于1%的体积分数。

1 数据集介绍

1.1 脆弱国家指数

脆弱国家指数(Fragile States Index)[10],由美国和平基金会和美国《外交政策》共同编制。该数据库共从社会、经济、政治和安全四个维度对全球得到认可的主权国家进行评分。评分来源于内容分析、专家调查和公开的统计数据[11],最后将不同尺度的数据标准化为12项0~10的数字(保留1位小数)(表1)。

表 1脆弱国家指数介绍

1.2 全球恐怖主义数据库

基于平均不纯度减少(mean decrease impurity)[23]和平均准确率减少(Mean decrease accuracy)[24]算法,利用随机森林模型对12个特征进行了重要性排序。由表3可知,两种算法得出的特征重要性排序中,“安全机构、公共服务、人权法治和集团之间的矛盾”4个特征均排在前五名,其中,“安全机构和集团之间的矛盾”为安全性指标,“公共服务和人权法治”为政治性指标,说明一个国家的政治状况及凝聚力与恐怖袭击风险相关性较强。

图1展示了本文模型的构建流程,包括数据库关联,数据预处理,数据集划分,模型训练及预测,结果分析,具体流程如下。

2 全球恐怖袭击预测模型构建

2.提出进一步完善我国的根本政治制度和基本政治制度。报告提出,要“提高基层人大代表特别是一线工人、农民、知识分子代表比例,降低党政领导干部代表比例。在人大设立代表联络机构,完善代表联系群众制度。健全国家权力机关组织制度,优化常委会、专委会组成人员知识和年龄结构,提高专职委员比例”[1]。报告还提出,“要完善协商民主制度和工作机制,推进协商民主广泛、多层、制度化发展”[1];“健全基层党组织领导的充满活力的基层群众自治机制,以扩大有序参与、推进信息公开、加强议事协商、强化权力监督为重点,拓宽范围和途径,丰富内容和形式,保障人民享有更多更切实的民主权利”[1]。

图1 恐怖袭击预测模型框架

本文选取线性回归(Linear Regression)[15]、随机梯度下降(Stochastic gradient descent)[16]、支持向量机(Support Vector Regression)[17]、K近邻(K-neighbors)[18-19]、决策树(Decision Tree)[19]、随机森林(Random Forest)[20]共6种机器学习回归模型,对2016年全球各国的恐怖袭击次数进行预测。根据文献[21],R 2达到0.5以上时,模型拟合程度较好。表2是不同机器学习模型的回归性能比较,结果显示,随机森林、K近邻和决策树表现最优,R 2分别达到了0.75、0.74和0.67。

(3)数据集划分:对数据集的划分主要考虑两点,一是本文模型属于时序预测模型,即利用历史数据进行模型训练,然后对未来一年内的各个国家遭受的恐怖袭击次数进行预测;二是训练集和测试集都必须包含每个国家的恐怖袭击数据。因此,本文将2006-2015年的数据划分为训练集(1 744条),2016年的数据划分为测试集(178条)。

(2)数据预处理:对数据进行初步分析,发现各个国家每年遭受的恐怖袭击次数差别较大,最大值为3 925次,最小值为0次,平均47次,因此,本文利用python3.6中sklearn模型库的StandarScaler模块对特征及目标值进行了标准化处理[14]

(二)调查14个乡镇村防疫员的基本情况 从调查的情况看:共调查12个镇、2个乡,178个村,现有村级动物防疫员199人,其中初中及以下文化的169人,占84.9%;高中或中专文化的27人,占13.6%;大专文化的 3人,占1.5%。其中40岁以下的20人,占10%;40~60岁的129人,占65%;60岁以上的50人,占25%。最大年龄的68岁。防疫员文化程度太低,高中及以上文化的只占15.1%;年龄太大,40岁以下只占10%,60岁以上的占25%;待遇太低,合并村的最高的每月才290元,大安区一直执行的100元/月。

(4)模型评价及结果分析:本文模型属于回归模型,其拟合优度采用确定系数R 2评价,R 2越接近1,模型拟合程度越好。对特征进行重要性排序,挖掘对恐怖袭击风险影响最大的因素。选取最优模型的预测结果,通过Arcgis10.2软件进行可视化处理,挖掘全球恐怖袭击热点地区。

3 结果分析

3.1 不同机器学习模型比较

(1)数据库关联:利用透视表计算2006-2016年间,GTD中各个国家每年遭受的恐怖袭击次数,然后通过国家名称将Fragile States Index数据库与GTD关联,剔除缺失数据,最终保留了共1 920条数据,每条数据包含国家名称、年份、脆弱国家指数的12项特征及相应的恐怖袭击次数。

3.2 随机森林预测结果分析

“安全机构”在两种算法中的得分,分别是第二名特征的1.7倍和9.5倍,对恐怖袭击次数的刻画能力最强。对“安全机构”的打分,主要考虑了一个国家面临的安全威胁(如爆炸、叛乱运动政变或恐怖主义)和严重的犯罪因素(如有组织犯罪和谋杀,以及公民对国内安全的信任),以及管理当局对武装抵抗,特别是暴力起义和叛乱的表现等。

表 2多种机器学习算法回归性能比较

从整体上看,随机森林模型预测的总体情况符合2016年全球恐怖袭击的实际情况,其中,中东和中亚等恐怖袭击重灾区预测准确。而在恐怖袭击次数偏少的北非、南亚的部分地区、东欧和加勒比海地区出现了预测次数偏多的情况,其中,东欧预测偏高的情况较为突出。2011年以来,整个欧洲,尤其是东欧的乌克兰,面临着民族分裂势力发起的以军事斗争为主的各类恐怖主义威胁。此后,欧洲采取了多方面的反恐措施,遭受的恐怖袭击次数也从2015年的1 008次急剧下降为2016年的391次,但东欧的社会、政治和经济等仍处于不稳定的状态[8],这可能是导致东欧地区预测偏高的原因。

5.药敏纸片试验结果见表2。药敏纸片试验结果表明敏感的药物依次是:头孢菌素、环丙沙星;中度敏感的依次是:青霉素和卡那霉素;而对土霉素、链霉素、庆大霉素具有抗药性。

从国家层面上看,恐怖袭击次数达366次以上(一年内平均每天都发生恐怖袭击)的有伊拉克、阿富汗、印度、巴基斯塔、菲律宾、索马里、土耳其、尼日利亚、也门、叙利亚和利比亚共12个国家,除了土耳其和尼日利亚预测明显偏低外,其他10个国家都能准确预测。说明遭受恐怖袭击越严重的地区,社会、政治、经济和安全四个方面的因素对恐怖袭击次数的刻画能力越强。

3.3 重要性排序

全球恐怖主义数据库(以下简称GTD)是由美国反恐研究联合会(Study of Terrorism and Responses to Terrorism, START)与马里兰大学(University of Maryland)联合建立的一个开源数据库,记录了1970-2016年超过140 000个恐怖袭击事件信息,每条数据包含了国家、年份、死伤人数和使用武器等共135个信息。这些数据来源于媒体文章、电子新闻档案、现有的数据集、书籍和期刊以及法律文件,被认为是记录全球恐主义活动最全面的数据库[12-13]

为进一步分析全球恐怖袭击趋势及热点地区,本文利用Arcgis软件,基于自然间断点分级法[22]对比了2016年全球恐怖袭击次数的真实值与随机森林模型的预测值(图2)。

“集团之间的矛盾”考虑了不同集团之间的分歧和分裂(如种族矛盾,某些集团的自治权、自决权或政治独立性被剥夺)。“公共服务”考虑了国家提供的基本服务(如健康,教育,水和卫生)和国家通过有效的警务来保护其公民的能力(如打击恐怖主义和暴力)。“人权法治”考虑了国家中基本人权的保护程度、是否广泛滥用法律、是否存在专制,独裁或军事统治等。

同转速发电是指反向发电时机组的转速与抽水时转速相同。这种方法直接利用水泵机组倒转发电,基本不需要增加设备和投资,方便经济。

采用SPSS 19.0统计学软件对数据进行分析,计量资料用均数±标准差(x±s)表示,评分结果采用组间配对t检验进行统计学分析,以P<0.05为差异有统计学意义。

图2 2016年全球恐怖袭击真实值与预测值对比图

表 3两种算法的特征重要性排序对比

综上可以发现,较为重要的4个特征中,除了“人权法治”,评分时均考虑了与恐怖主义相关的因素。

4 结 论

本文利用脆弱国家指数数据库和全球恐怖主义数据库,基于多种机器学习模型,对全球各个国家遭受的恐怖袭击次数进行回归预测。结果显示,预测随机森林、K近邻和决策树模型表现表现优异,R2分别达到了0.75、0.74和0.67。利用Arcgis软件对随机森林预测结果进行可视化,发现随机森林模型的预测结果整体符合实际情况,尤其在恐怖袭击高发的中东和中亚地区预测较为准确。基于平均不纯度减少和平均准确性减少算法,对12个特征进行了重要性排序,发现安全机构、公共服务、人权法治和集团之间的矛盾对预测结果的刻画能力最强。本文的预测模型能够从宏观上预测全球恐怖袭击的热点地区,挖掘恐怖袭击的相关因素,为反恐组织和相关国家的防控工作提供决策支持。

参考文献:

[1] Petroff V B, Bond J H, Bond D H, et al. Using Hidden Markov Models to Predict Terror Before it Hits (Again)[M]: Springer New York, 2013: 163-180.

[2] 战兵, 韩锐. 基于隐马尔可夫的恐怖事件预测模型[J]. 解放军理工大学学报(自然科学版), 2015(4): 386-393.

[3] 傅子洋, 徐荣贞, 刘文强. 基于贝叶斯网络的恐怖袭击预警模型研究[J]. 灾害学, 2016,31(3): 184-189.

[4] 薛安荣, 毛文渊, 王孟頔, 等. 基于贝叶斯方法和变化表的恐怖行为预测算法[J]. 计算机科学, 2016(12): 130-134.

[5] 项寅. 基于改进神经网络的恐怖袭击风险预警系统[J]. 灾害学, 2018,33(1): 183-189.

[6] 胡成, 李明星, 古丽燕, 等. 情报视角下暴力恐怖活动多元社会网络测度研究[J]. 情报杂志, 2018(3): 33-39.

[7] 李益斌. 印度恐怖主义与社会经济因素的关系探究[J]. 南亚研究, 2018(2): 139-154.

[8] 李益斌. 欧洲恐怖主义的新态势及原因分析——基于聚类分析法[J]. 情报杂志, 2018(3): 55-63.

[9] 李友龙. 恐怖活动的象征性标识——以巴黎恐袭案为例[J]. 情报杂志, 2016(8): 25-30.

[10]Kharas H , Salehi-Isfahani D , Hove C. The failed states index[J]. Foreign Policy, 2009(173):80-93.

[11]朱剑, 郝巧英. “失败国家”与文明使命:国家脆弱程度指数再评估[J]. 探索, 2017(5): 157-164.

[12]位珍珍. 后911时代恐怖主义的GTD数据分析[J]. 情报杂志, 2017(7): 10-15.

[13]叶琼元, 兰月新, 夏一雪, 等. 反恐数据库构建的国际比较及对我国的启示[J]. 情报杂志, 2018(5): 43-51.

[14]范淼. 机器学习及实践——从零开始通往Kaggle竞赛之路[M]. 北京: 清华大学出版社, 2016: 183.

[15]Jameslambrinos. Applied linear regression models[J]. Technometrics, 2004, 26(4): 415-416.

[16]Ketkar, Nikhil. Stochastic Gradient Descent[M]. Deep Learning with Python. Apress, 2017.

[17]Awad M, Khanna R. Support vector regression[J]. Neural Information Processing Letters & Reviews, 2007, 11(10): 203-224.

[18]Buza K, Nanopoulos A, Nagy G. Nearest neighbor regression in the presence of bad hubs[J]. Knowledge-Based Systems, 2015, 86(C): 250-260.

[19]Friedl M A, Brodley C E. Decision tree classification of land cover from remotely sensed data[J]. Remote Sensing of Environment, 1997, 61(3): 399-409.

[20]Pal M. Random forest classifier for remote sensing classification[J]. International Journal of Remote Sensing, 2005, 26(1):217-222.

[21]ZHANG N, HUANG H. Resilience analysis of countries under disasters based on multisource data[J]. Risk Analysis, 2018, 38(1): 31-42.

[22]武增海, 李涛. 高新技术开发区综合绩效空间分布研究——基于自然断点法的分析[J]. 统计与信息论坛, 2013, 28(3): 82-88.

[23]Louppe G, Wehenkel L, Sutera A, et al. Understanding variable importances in Forests of randomized trees[J]. Advances in Neural Information Processing Systems, 2013, 26: 431-439.

[24]HAN H, GUO X, YU H. Variable selection using Mean Decrease Accuracy and Mean Decrease Gini based on Random Forest[C], IEEE International Conference on Software Engineering and Service Science,2017.

Study on Prediction of global terrorist attacks based onMachine Learning and Fragile States Index

QIU Lingfeng1,2, HU Xiaofeng1,2, GU Haishuo1,2, TANG Zheng1,2, ZHENG Chaohui1,2 and SHEN Bing1,2

(1.School of Information Technology and Cyber Security ,People ’s Public University of China ,Beijing 102623,China ; 2. Key Laboratory of Security Technology &Risk Assessment ,Ministry of public security ,Beijing 102623,China )

Abstract :Terrorist attacks occur frequently all over the world. Study on early warning, prevention and control of terrorist attacks is necessary. Methods of prediction of global terrorist attacks were studied using the data from Fragile States Index and Global Terrorism Database from 2006 to 2016, based on six kinds of Machine Learning Models. The results show that Random Forest, K-neighbors and Decision tree perform well, which has the highest R-squared as 0.75, 0.74 and 0.67. The prediction results of Random Forests are generally in line with the actual situation, especially in the Middle East and Central Asia, where terrorist attacks occur frequently. According to the results of importance ranking of characteristics, Security Apparatus, Public Services, Human Rights and Rule of Law and Group Grievance have the strongest ability to portray prediction results.

Key words :terrorist attacks; fragile states index; machine learning; regression and prediction

中图分类号 :TP181; X45;X9;X915.5

文献标志码: A

文章编号: 1000-811X(2019)02-0211-04

邱凌峰,胡啸峰, 顾海硕,等. 基于机器学习和脆弱国家指数的全球恐怖袭击预测研究[J]. 灾害学,2019,34(2):211-214.[QIU Lingfeng, HU Xiaofeng, GU Haishuo,et al. Study on Prediction of Global Terrorist Attacks Based on Machine Learning and Fragile States Index[J]. Journal of Catastrophology,2019,34(2):211-214. doi: 10.3969/j.issn.1000-811X.2019.02.038.]

doi: 10.3969/j.issn.1000-811X.2019.02.038

收稿日期: 2018-10-08 修回日期:2019-01-07

基金项目: 国家自然科学基金项目(71704183);国家重点研发计划课题(2018YFC0809702);公安部科技强警基础工作专项项目(2018GABJC01)

第一作者简介:

邱凌峰(1994-),男,广西北海人,硕士研究生,主要研究方向为机器学习与社会安全风险分析.

E-mail: 291404611@qq.com

标签:;  ;  ;  ;  ;  ;  

基于机器学习和脆弱国家指数的全球恐怖袭击预测研究论文
下载Doc文档

猜你喜欢