基于MADL的外国军事开源情报数据库的分析与实现论文

基于 MADL的外国军事开源情报数据库的分析与实现

王思佳,夏绍模

(陆军勤务学院,重庆 401331)

摘 要: 为了解决当前各种公开来源中纷繁复杂的军事情报信息较为零散、无法统一规整和系统性的对开源信息进行全面获取查询这一问题,从外国军事开源情报信息源的搜集整理出发,运用爬虫软件实现资源的获取,基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析,为全军机关决策、部队训练提供前沿的情报支撑服务。

关键词: 外国军事;开源情报;数据库;MADL

目前,据有关部门的统计,西方发达国家的情报中已经有高达95%的情报都是获取自公共开放的来源,开源情报研究作为一项现代基础性的研究工作,世界各国对其的重视程度明显得到了日益提升[1]。自中国人民解放军诞生之日起,就对军事情报工作十分重视,为满足国家安全以及国防和军队现代化建设需要,在我军内部逐步形成了一系列较为完善的军事情报体制,以此开展军事情报研究工作。军事情报的作用不容忽视,它在为各种军事任务提供情报支持的同时还对军事行动中的军队提供了保护。在传统的信息环境下,由于缺乏及时而广泛的信息和整理加工信息的技术手段,我军情报研究工作只能依靠图书馆和其他文献机构,这样的情报研究成果必然受到一定的限制。中央情报局也指出“不一定只有保密信息才有价值”,随着大数据时代的到来以及信息化社会的发展,来自互联网、电视、广播等公开媒体的开放式信息越来越多,从这些海量信息中获取到实用性强的情报对我军军事情报研究有着巨大的贡献,因此如何从大量纷繁复杂的公开信息中提取出有价值的军事信息并且实现信息共享是当前军事情报研究工作急需解决的难点与重点[2]

开源情报研究在国外发展起步较早,尤其是美国这一发达国家在这方面的研究更是一直处于世界领先地位[3],而国内开源情报研究工作开展相对而言是比较晚的,同时可能由于将情报过于神秘化、缺乏对情报本质的认知等原因的存在,开源情报研究活动一直处于被动且零散的状态。近年来,才逐步开始出现了极少数面向军事领域开源情报采集的挖掘技术的相关研究[4],但仍然有研究层次不够深入、研究内容不够丰富和研究角度不够全面等问题的存在。

环境因素认知中温度与湿度对血糖准确度的影响可作为血液标本管理与员工培训的参考。此外,血糖试纸相关因素对快速血糖值的影响更需进一步的探讨,尤其针对使用快速血糖监测患者血糖值的科室,如快速血糖仪的差异、校正、保养及试纸的每日测试、保存、环境影响等因素也需列入在日常照护常规所需注意的事项。

在这样的背景下,文章从外国军事开源情报信息源的搜集整理出发,运用爬虫软件实现资源的获取,基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析。

1 军事领域开源情报采集框架

基于军事领域的专业化特点和特殊需要,本文设计了基于军事领域的开源情报数据采集模型框架如图1所示:

图1 军事领域开源情报收集模型

为了能够设计开发一个完善的外国军事后勤开源情报数据仓库,首先就要获取到全面完整的信息源。通过收集,整理到来自北约、美国、英国、法国、俄罗斯、印度等国家与组织的政府部门、军事机构、军工企业、核心智库、重要媒体与商业数据库作为外国军事开源情报数字信息源,这些军事特色资源数据库收录的资源分为资讯类、文件类、出版类、参考类与视听类五大类,部分外国军事开源情报信息源如表1所列。

1) 选择与军事领域相关的军事频道、新闻、视频、文档等公开信息的数字资源作为URL种子添加到URL库中;

“影子说”是中国古典小说的一种批评理论,它最开始可见于甲戌本第八回脂评:“晴有林风,袭乃钗副。”这一思想经过发展,形成了蔚为壮观的影射关系。王富鹏先生曾针对《红楼梦》的人物影射现象,概括出了红楼梦的两大影子人物体系,阐释这种影子人物体系与小说叙事结构之间的关系①。《红楼梦》是沿着金瓶梅开创的方向发展而来,可说“深得《金瓶》壶奥”。因此,影身关系在《金瓶梅》中也或多或少地存在着。

2) URL管理器通过某种方式将URL提供给爬虫采集器并进行网页的解析和去重;

3) 对页面进行抽取,得到URL再次添加到URL库中,以便能够提供持续不断的新页面;

4) 过滤筛选并去除掉重复等杂乱无用的信息,得到实际的正文内容,然后利用SVM分类模型对正文内容进行分类,判断其是否为军事领域相关的信息,如果是则将其添加到军事开源情报数据库中;

5)基于MADL资源开发平台设计开发外国军事开源情报数据库,实现军事开源情报信息的共享。

2 军事开源情报信息采集与加工处理

2.1 信息源的搜集

军事领域开源情报数据采集模型主要流程如下所示:

1) 内容管理流程:系统管理员可以通过内容管理器对数据库、模板、MADL用户、系统信息进行管理。内部管理流程设计图如图2。在这部分,还应该重点关注对数据库分类的相关内容,首先应按照一定的使用意图和目的对军事开源情报产品进行分类,部分类别之间必定会存在重叠交叉的部分,也就是说一些外国军事开源信息可以同时用在不同种类的产品上。为了满足不同类别部队用户的需要,选择从两个维度对外国军事后勤开源情报信息资源进行分类,一是从学科种类维度,以《中国军事大辞海》为主,《中国分类主题词表》、《军队信息化词典》为辅助,将外国军事后勤开源情报信息分为军需勤务、军队财务、油料、卫生、军交运输、营房建设、物流仓储等;二是从情报产品种类维度,根据《陆军野战条令“FM2-0”》将外国军事开源情报产品分类为征候和预警情报、现实情报、常规军事情报、目标情报、科技情报、反情报、预测性情报等[6]

表1 外国军事领域开源情报部分信息源列表

2.2 信息的获取和处理

1) 文本预处理:将从搜集整理到的信息源中收集到的包括军事领域开源情报和其他非军事领域的信息进行类别的标注、分类、转换和清洗过滤等。

分类算法种类较多,但其中基于SVM分类器的算法因为效果好、易于实现等优点得到了广泛的采用。因此可以采取基于SVM算法的文本分类来构建军事领域爬虫主题分类模型。主要步骤是[5]:

学者钱钟书也是个善于“偷”时间的人。他从来不参加应酬,不论再高规格、再有面子的饭局,也照拒不误,因为在他眼里,在饭桌上浪费时间,挥霍生命,是世上最愚蠢的事情。他把这些时间都偷来著书立说,钻研学问,成了大学者。

能否精确的判断某开源信息是否与军事密切相关是军事领域开源情报主题爬虫的主要问题之一。基于这样的研究目的,为了解决这一问题可以采用有关分类器的主题相关度评估策略,将网页内容中纷繁复杂的多类型主题统一分为两类:第一类是军事领域开源情报;第二类是它类情报信息。

范文正公的《家训百字铭》是南通范氏家风形成的纲领性文件,也是范氏家风逐渐形成的牢固基石。在范氏家风的传承中,一直强调践行孝悌之道、忠勇有为、慈悲为怀、尊师勤读;崇尚礼义逊让、敬长怀幼、怜孤恤寡、谦恭廉洁,戒骄绝傲。范氏家风不仅涵盖了独善其身的修心进德之处,也囊括了“万家忧乐尽关心”的兼济情怀。

2) 文本表示与特征选择:将具有非结构化特征的文本信息处理转化为能够被SVM识别的形式,可以先采用向量空间模型对文本信息进行表示成SVM所能识别的形式。

蒋曹清 男,1973年出生于湖南省永州市,博士,现为广西财经学院教授,主要研究方向为形式化方法,程序分析,数据挖掘.

3) 分类模型训练与优化:SVM最大的优势就是能够寻找出相对最优的超平面,可以使得以尽可能大的分类间隔将两类样本正确无误的分开。

为尽可能满足军事院校在全军人才培养和科技创新以及全军机关决策、部队训练的情报信息需求,基于MADL资源开发平台开发的外国军事开源情报数据库信息服务要更加人性化,更具有针对性,在此背景下制定了如图5所示的外国军事开源情报数据库服务模式。由于部分军事开源情报信息资源的保密要求和方便对用户访问权限的管理,外国军事后勤开源情报数据库将用户种类设置为系统管理员、检查人员、校内教职工、校内学生和校外访问者5个代表不同角色的用户,分别设置不同的查询权限。而用户行为管理的主要功能是统计用户检索、浏览、下载各类军事开源情报信息的情况,可以分析出不同类别用户对不同类别开源信息的需求情况,本系统采用WebTrends Log Analyze统计资源系统的访问量,以及各种开源信息被访问、下载的频率。基于MADL软件开发平台可以很方便简洁地实现快速检索、高级检索、统一检索三个功能,其余功能将从以下四点进行详细论述。

3 外国军事开源情报数据库的设计与实现

3.1 开发平台与工序流程

依照军队文献信息资源数据库的一体化要求,采用数字图书馆应用软件系统MADL作为外国军事开源情报数据库设计与开发的软件平台。

3.1.1 硬件平台搭建

MADL开发平台对资源系统的硬件有一定的要求,外国军事开源情报数据库的实现是基于如表2所示的具体硬件设备配置。

表2 硬件配置

3.1.2 软件平台与工序流程设计

MADL资源系统开发平台软件平台的组成成分总共分为3个,分别是:MADL工具箱、资源加工平台和网站发布平台。MADL工具箱的主要作用是在客户端/服务器等模式的支持下提供系统初始化、系统升级以及数据导入导出等功能给系统管理员提供便利;MADL资源加工平台一共有5个子程序,分别是:内容管理、元数据编目、电子书制造、数据迁移和数据复制工具,它的作用是为系统管理员提供数字资源加工、标注与管理等功能;MADL网站发布平台的主要功能是通过Web页面提供资源发布服务和对数字资源进行检索与访问。在前文通过爬虫软件从收集整理的信息源中进行内容爬取,并经过SVM分类模型筛选出的关于外国军事领域开源情报信息数据的支撑下,通过MADL资源系统开发平台开发设计外国军事开源情报数据库,主要流程有以下几个方面:

很多人都说过,如芸的笑容很有杀伤力,能让四周都跟着明亮起来。可很显然,许元生不但瞎,而且聋。他不但没看到她,更没听到她跟他打招呼,就那么面无表情地端着菜盘从她面前走了过去。

图2 内容管理流程

2) 开源情报编目:外国军事开源情报信息作为网络信息资源的整理、整序和整合工作,被称为文献编目,网络信息资源按照存取方式划分为WWW信息资源、Telnet信息资源、FTP信息资源、Listserv/Mailing信息资源、Usenet/Newsgroup信息资源[7]。而对信息资源的编目必须使用数据的结构化数据即元数据。元数据编目工具的主要功能是能够让编目和检查人员对MADL数据库中元数据进行编目和检查。元数据编目流程如图3所示。

图3 元数据编目流程

3) 网站发布流程:基于Web平台建立一个外国军事开源情报数据库,为全军勤务机关决策和部队训练提供前沿的情报支撑服务,该数据仓库的主要功能有两大类:一是针对部队用户的服务功能,二是针对系统管理人员的管理功能。网站发布流程图如图4。

图4 网站发布流程

3.2 外国军事开源情报数据库服务模式与功能实现

4) 主题预测:抽取网页中的正文,并按照与训练集相同的方式进行相关处理之后映射到特征向量空间模型中,然后通过前文所述的经过训练后的SVM分类器进行分类,最终得出判定结果。

图5 外国军事开源情报数据库服务框架

1) 军事动态:军事动态模块的主要功能是定期更新推送外国军事情报信息,这些情报信息就是来自上文所收集整理到的信息源中,比如获取自联合国安全理事会网站的外国军事信息,联合国安全理事会作为唯一一个有权采取军事行动的联合国机构,为了维护国际的和平与安全,会经常召开各种会议包括对紧急特别事项的探讨、通过某种决议或者批准某个军事行动等,这些会议的召开及其探讨的内容与结果都会及时准确的在联合国安全理事会官网上进行发布,供个人到国家各个层面进行数据浏览访问。基于此,系统管理员从各信息源中第一时间获取到外国军事信息动态,并将其发布在军事动态模块中及时推送给用户。

2) 学科动态:学科动态模块主要体现的是不同军事专业相关的外国军事情报信息,将根据前文所述信息源及时准确获取到的外国军事情报信息按照油料、仓储、营房、采购、军队会计、军需勤务等不同军事学科汇总分类,比如致力于从采办、后勤等领域培养部队专业人才的美国国防军需大学,从它的官网收集到的外国军事情报信息就可以归类到采购或勤务等学科专业分类下。这样的分类可以帮助用户有针对性的按照不同学科专业查询搜索相关信息。

入口导叶开度用来调节压缩机进出口压力和循环气流量,满足工艺生产的需要,同时保证压缩机工作在稳定的工作区内。为防止过载,该控制采用出口压力与主电机电流超弛控制,低选后控制入口导叶。

3) 军事译文:将在外国期刊杂志发表的有关军事类期刊论文从作者、关键词、摘要到正文的全部内容进行翻译入库到军事译文模块中,该模块中的军事译文可供用户查询浏览,当涉及下载环节时需要使用外国军事开源情报数据库专用币,这种币并不是通过充值的形式获取,而是需要用户通过共享信息作为交换,用户每共享上传一个军事译文或军事情报信息就会获得相应数量专用币用于下载自己所需的资料。

4) 提问反馈:军事情报需求不是一成不变的,用户对不同种类的军事情报需求是不一样的,只有形成一个灵活的军事情报反馈机制才能准确地把握用户的不同需求,更好地为全军机关决策、部队训练和各项军事行动战略任务服务。提问反馈模块就是用户进行提问交流的分区,有权限的管理员或老师可以对问题进行回答,通过这些问题反馈以及用户行为管理中对用户检索、浏览、下载各类军事开源情报信息情况的统计,可以有效地获取到用户的军事情报需求,不断改进数据库的情报服务工作。

科学技术在不断发展,互联网+技术逐步成为企业工作的辅助技术,但是我国部分地勘单位却不能很好地应用信息化技术,例如我国某地质勘查院,这所地质勘查单位的工作人员综合素质能力参差不齐,有关审计工作人员的专业素养也不高。因此很多时候工作人员不能很好地借助信息平台的优势来提高审计工作的效率,如在工作中NC系统和审计相关软件都不能及时更新,系统与单位发展规模不相适应,工作人员操作手法不规范等原因导致审计工作的滞后性。此外,该地区经济发展较为迟缓,信息系统构建速度较为迟缓,决策人员不愿耗费大量的资金构建信息系统,这也导致审计工作的效率大幅度降低。

4 结束语

纵观已有的研究,开源情报研究在国内一直处于被冷落的状态,但它的研究意义与价值是不容忽视的,尤其是在军事领域,本文从外国军事开源情报信息源的搜集整理为切入点,运用爬虫软件进行资源的获取,并且基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据仓库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析,不仅有利于巩固院校重点学科在全军人才培养与科技创新的情报优势,还能够为全军机关决策、部队训练提供前沿的情报支撑服务。

参考文献:

[1] A.M.Gray.Global Intelligence Challenges in the 1990’s[J]. American Intelligence Journal, 1989,15(11):3-7.

[2] 傅畅.面向专题应用的开源情报挖掘系统研究与应用[D].电子科技大学,2016.

[3] 刘文礼.面向网络媒体的开源情报解析方法与诱导策略研究[D].国防科学技术大学,2014.

[4] 黄胜,郭继光,陆泽健,等. 面向军事领域的Web开源情报主题挖掘研究[J]. 中国电子科学研究院学报,2017,12(4):400-405.

[5] 郭颂,边伟,刘洋,等. 基于SVM主题爬虫的航天情报采集应用研究[J]. 电子设计工程,2016,24(17):28-30+34.

[6] 马增军,耿卫,等.[M].北京:航空工业出版社,2016:217-218.

[7] 王松林.信息资源编目[M].北京:北京图书馆出版社,2003:2-5.

Analysis and Implementation of Foreign Military Open Source Information Database Based on MADL

WANG Si-jia, XIA Shao-mo

(Logistic Engineering University of PLA,Chongqing 401311,China)

Abstract : In order to solve the problem that the complicated military intelligence information in various open sources is relatively fragmented, unable to be unified and systematic, and to obtain comprehensive access to open source information, the article uses the reptiles from the collection and collection of foreign military open source information sources. The software realizes the acquisition of resources, selects the military resources based on the SVM classification model, and finally forms a foreign military open source intelligence database based on the development and design of the MADL resource system development platform, realizing the open source intelligence information in the military field from collection, processing to sharing. Process analysis provides cutting-edge intelligence support services for decision-making and military training of military units.

Key words : foreign military; open source intelligence; database; MADL

中图分类号: TP311.1

文献标志码: A

DOI: 10.3969/j.issn.1673-3819.2019.03.029

文章编号: 1673-3819(2019)03-0137-04

收稿日期: 2018-10-22

修回日期: 2018-11-08

作者简介:

王思佳(1995-),女,陕西宝鸡人,硕士研究生,研究方向为项目管理。

资源库元数据管理是数据交互管控系统的重要组成部分。资源库元数据管理系统采用元数据技术实现服务不同部门、不同系统中数据信息资源的元数据采集抽取、存储、管理等功能。通过资源库元数据管理系统建设,可以实现民族综合信息大数据平台建设项目中不同部门、不同系统、各类数据库数据、文件数据等数据资源元数据的统一管理。资源库元数据可提供平台各系统的全局数据字典和关系描述,提供对整个平台体系中全部数据的规格描述,数据间的映射关系,关联查询,以最大程度发挥系统海量数据的价值。

夏绍模(1964-),男,博士,副教授。

(责任编辑:许韦韦)

标签:;  ;  ;  ;  ;  

基于MADL的外国军事开源情报数据库的分析与实现论文
下载Doc文档

猜你喜欢