计算机生成兵力行为建模发展现状论文

计算机生成兵力行为建模发展现状

高昂¹，段莉²，张国辉¹，董志明¹，曹洁¹，郭齐胜¹

1.陆军装甲兵学院演训中心，北京100072

2.中国人民解放军61516部队

摘要：体系仿真是解决目前信息化条件下诸多军事问题的有效手段，仿真系统中计算机生成兵力（Computer Generated Force，CGF）行为表示准确与否是直接影响军事问题研究结论的重要因素。针对目前CGF自治性难以满足军事问题研究需求，系统总结了10年来CGF行为建模方法，并对比分析了不同方法的优缺点，梳理了近5年国内外CGF行为建模技术发展现状，针对军事问题研究需求，对当前该领域存在的问题和发展前景进行总结，并提出四种CGF行为建模思想方法。

关键词：计算机生成兵力；行为建模；贝叶斯网络；深度学习；强化学习；知识图谱

1 引言

计算机生成兵力（Computer Generated Force，CGF）是由计算机创建并能在基于分布交互仿真技术构建的分布式虚拟战场环境中，对其全部或部分动作和行为实施自主控制或指导的虚拟作战兵力对象，是军事仿真系统中必不可少的元素。CGF 在仿真领域的应用有三个方面：装备技能操作、参谋作业、指挥员决策等训练仿真；新概念武器运用、作战理论研究、作战能力评估、作战方案优化等分析仿真；武器装备发展评估、战技指标论证、新概念武器先期技术演示验证等测试仿真。CGF的运用可以扩展作战仿真规模，减少所需人员和模拟器数量，使整个仿真过程易于管理和控制，其行为表示的准确与否是作战仿真中人类行为模型是否真实、仿真运行结果是否可信的关键所在。CGF 研究成果可为装备体系需求论证、作战试验、作战运用等研究提供一种有效的途径，为陆军部队装备体系实战化对抗训练提供有效的技术支撑，为装备作战运用理论研究助力，为战斗力快速生成提供新视角，为提高指挥信息系统“智能辅助”提供借鉴。开发CGF 的重点和难点之一在于CGF实体行为的生成，这实际上主要是人工智能技术在CGF中的应用^[1]。本文从基于知识、推理、规划思想，问题求解思想，不确定知识推理思想，学习思想四个方面，总结归纳CGF 行为建模方法，对比分析了不同方法的优缺点。按照指挥实体任务规划、战术决策行为、作战实体火力、机动战场主要行为分类，总结梳理国内外CGF行为建模方法发展现状。从CGF 行为建模需求出发，提出强化学习+知识引导、神经网络+遗传算法、知识图谱+深度学习、规则+强化学习四种计算机生成兵力行为建模思想方法。

2 CGF行为建模方法综述

CGF行为建模相关方法大致可归纳为基于知识、推理、规划的思想，基于问题求解的思想，基于不确定知识与推理的思想，基于学习的思想四类。

2.1 基于知识、推理、规划思想

基于知识、推理、规划是指CGF依靠对知识的内部表示以及对其进行操作实现推理，典型的建模技术有：基于规则的推理技术、基于有限状态机的推理技术、基于语境的推理技术、基于案例的推理技术、基于本体理论的推理技术。这类方法具有经验知识表示直接，在有限领域内性能较好等优点，但是只能参照框架和流程按图索骥，缺乏探索及发现框架之外新知识、新战法能力。

2.2 基于问题求解思想

基于问题求解思想是指世界的状态被视为一个整体，对问题求解算法而言，没有可见的内部结构，主要有启发式算法和博弈算法两类。在CGF 行为建模中，主要涉及的启发式方法有进化算法（Evolutionary Algorithms，EA）、群体智能优化算法（Swarm Intelligence Algorithm，SIA）等生物启发式算法，以及模拟金属物质热力学退火过程的模拟退火算法（Simulated Algorithm，SA）等。这类方法可以在在解空间内搜索全局最优解，并且可以对多个目标函数同时进行优化，输出一组非支配的Pareto 解集，有效地求解多目标问题。但是，由于求解的整个群体参与运算，即使是简单的问题，都需要占用大量的内存和计算资源。对于复杂问题，即使用足够高速度的计算机进行交互式优化，达到实时性也是不现实的。

博弈论是研究交互式条件下“最优理性决策”的学问，即博弈的每个参与者都希望能以其偏好获得最大的满足，博弈论的不同分类如图1所示。

图1 博弈论分类

（2）转移学习能力有限。

2.3 基于不确定知识推理思想

CGF所处战场环境是部分可观察或不确定的，CGF的理性决策既依赖于各种目标的相对重要性，也依赖于这些目标将被实现的可能性和程度；CGF在各种规划的不同结果之间有所偏好等，所以，CGF 需要对不确定性处理，而概率理论提供了概括这些不确定性的方法，并通过对CGF信念度处理，实现CGF行为决策，常用方法有：贝叶斯网络、马尔科夫模型、效用理论。

2.3.1 贝叶斯网

BN（Bayesian Networks）方法于1986 年由Pearl 提出，用图论和统计学理论处理不确定性知识，网络中的每个节点表示一个随机变量，具有因果关系的节点用箭头相连，并用条件概率表示节点间关系，由给定节点的条件概率与先验概率计算各节点状态概率，以实现概率的传播，从而完成推理。BN 可用于描述CGF 决策过程，使得CGF 具备对不确定知识的表示和推理的能力。数学理论基础稳固，具有较强的概率表达能力、多源信息融合能力，同时，在CGF决策过程中，BN结构决定着态势特征的提取、领域知识获取依赖于专家领域知识，这使得模型无法完全准确地描述战争系统复杂的演进过程，从而CGF决策效果会有影响，这一不足同样存在于以上所有传统建模方法中。

2.3.2 马尔科夫决策模型

国内，2017年，陆军工程大学陈希亮、张永亮^[10]针对陆军分队战术决策问题，在分析深度强化学习技术优势及其解决分队战术智能决策适用性基础上，建立了基于马尔可夫决策过程的陆军分队战术智能决策模型，提出了深度学习与逆向强化学习相结合的技术解决方案，并给出了基于DQN的陆军分队战术决策技术框架。2018年，陆军工程大学康凯等^[23]提出了一种基于动态贝叶斯网络的指挥实体动态决策建模方法。通过对动态决策规则的结构化描述，构建陆战场态势的动态贝叶斯网络模型，基于贝叶斯网络推理模型进行态势相关估计，实现对陆战场的实时变化态势动态分析、理解与判断。国防科学技术大学Xu等^[24-25]为提高CGF对复杂动态环境的适应性，将蒙特卡罗树搜索应用于CGF 指挥员的行为建模，通过状态和动作抽象来构建行为树模型处理同步和持续的动作，并采用层次任务网络规划来指导搜索，提高搜索效率。

2.3.3 期望效用理论

EU（Expected Utility theory）描述了个体在不确定条件下的决策规律，基于EU的决策以以下假设为基础，决策者可以构建备选方案的完备集，每个备选方案的结果及其概率是已知的，决策目的是使一个给定的效用函数的期望值达到最大，如何合理量化各种决策指标是关键。

2.4 基于学习思想

机器学习是通过计算模型和算法从数据中学习规律，并对数据进行预测与决策的一门学问。机器学习在各种需要从复杂数据中挖掘规律的领域中有广泛应用^[4]，利用数据预测进行CGF最优行为决策的方法具有重要的研究价值并成为当今的主流^[5]，是当今人工智能领域最核心的技术之一，算法分类如图2所示。

2.4.1 深度学习

我问警察：“你能借给我多少钱？”他回答：“一般来说，是1000日元（约60元人民币）。但如果是在外地，所需路费较多的话，只要情况属实，也会借。”

深度学习（Deep Learning，DL）是一种对特征多次变换的机器学习模型，由人工神经网络（Artificial Neural Network，ANN）发展而来，现泛指各种基于多层网络结构的机器学习模型，通过多层模型的逐级特征提取变换，实现复杂函数映射关系^[6]，本质上是一种基于样本数据对模式进行分类的统计技术。深度神经网络通常由一组输入单元（诸如像素或单词等）、多个隐藏层（包含隐藏单元，层级越多，网络越深）和一组输出单元组成，单元之间通过运行连接，学习输入输出映射之间的映射。深度神经网络是否可以学习这种映射取决于许多因素，目前为止深度学习的局限性体现在以下方面^[7]：

幼儿园在对幼儿进行教育和培养的过程中，主要是为了对幼儿的语言和思维进行培养。为此，教师在进行游戏化教学的过程中，要学会给幼儿更多的思维和表达的空间。教师不要过于尊重僵硬的游戏程序，教师应该结合幼儿在教育过程中的实际需要和其行为表现，对相关的游戏程序进行调整，这样才能够实现对教育的优化。与此同时，教师要学会在教育中凸显幼儿的主体地位，能够以幼儿的思想和需要为出发点，进而对教学给予优化和完善。

新语境、新议题呼唤新思路、新研究。在世界政治多极化、经济全球化、文化多样化、社会信息化的新时代，“一带一路”倡议的提出和推进为我国对外传播事业的创新提供了难得的历史机遇，而中国的对外传播工作期待着传播学界能做出及时的回应和深入的研究。在新一轮的全球格局重构中，中国将担负起世界和平的建设者、全球发展的贡献者、国际秩序的维护者的历史使命，在这期间向世界说明中国、解释中国的传播工作显得比以往任何时候都更为重要，相应地传播研究工作也是任重道远。

（1）缺乏学习的数据。

CGF战术决策属于不完全信息动态博弈问题，即对抗双方行动有先后顺序，后行动者可以通过观察先行动者的行动，获得先行动者的信息（偏好、策略空间等），获得信息后，修正自己的判断（概率分布修正），先行动者知道自己的行动会有信息传递给对方，为了不让对方知道自己的情况，会隐瞒自己的真实行动。基于博弈论的作战决策行为建模方法是作战决策行为研究的一大热点，涌现出了大量新颖的建模方法^[2-3]。机器博弈也称计算机博弈（Computer Games），即“让计算机像人一样思考和决策”^[4]，博弈论像数学分析一样是用解析方法求解问题，而机器博弈却像数值分析一样是以计算机为手段、用数值方法求解问题。这类方法的优势在于能够充分考虑对抗双方之间的相互关系，使得CGF 决策更加贴近现实，但博弈决策并不是总能奏效的，当存在多个均衡解时，博弈决策并不能区分哪一种策略更优，并且当决策空间巨大时，策略搜索的实时性难以达到要求。

（3）没有自然处理层次结构的方法。

（4）开放式推理不够成熟。

（5）不够透明。

（6）需要与先验知识更好结合。

2.4.2 强化学习

（8）深度学习假设条件是世界基本稳定，其方式可能会有问题。

（9）深度学习适合作为近似，但答案往往不能完全信任。

运用公式对文物的时空分布数据进行标准化处理，即用各类型文物数量Xij减去平均值的差值除以标准差Sj,Rj为j类型文物的分布指数[24].

（10）很难通过深度学习来进行强大的工程设计。

利用CGF 使用DL 做决策需要评估以下问题：DL是否有可能训练在不同的情况下均表现良好CGF，DL如何影响CGF性能和训练时间，是否可以通过DL来实现规则或编程很难做到的CGF复杂行为，并且更有效^[8]。

（7）无法从本质上区分因果关系的相关性。

图2 机器学习算法分类图

强化学习（Reinforcement Learning，RL）是解决序贯决策问题的方法，通过持续的“交互-试错”机制与环境不断交互学得有效策略^[9]。强化学习根据是否依赖模型，分为基于模型RL 和无模型RL；根据策略更新方法不同，分为基于值函数RL、基于直接策略搜索的RL等；根据回报函数是否已知，分为正向RL 和逆向RL，算法框架^[9]，如图3所示。RL方法用于CGF战术决策问题，主要是因为RL 来源于心理学中的行为主义，学习过程反映了人脑如何做出决策的反馈系统运行机理，符合指挥员面向实际问题时的经验性思维与直觉推理的一般决策过程，CGF战术行为可用MDP描述，看成在连续状态空间、离散动作空间上的多步强化学习过程，CGF 与战场环境交互，在每个时间步长，CGF通过观察环境，得到状态S_t，而后执行动作a_t，环境根据a_t生成下一步长的S_t+1和r_t，强化学习的任务目标就是在给定的基于MDP的CGF 战术决策行为过程中寻求最优策略π^*(a|s)=P(a_t=a|S_t=s)，这里的最优指的是CGF 在一个战术决策轨迹上的累积回报值最大^[10]。目前强化学习面临以下方面挑战^[11]：

（1）许多系统不能直接训练，需要从系统行为的固定日志中离线学习策略。

（2）在训练过程中不能有单独的探索策略，从有限的样本中学习真实系统。

（4）调控微生物群落的原理。高比例的产酸菌极大地促进了废弃矿业地的酸化，并且容易导致返酸现象的发生。通过添加石灰急剧改变废弃矿业地的pH，由于调节后的pH超出这些产酸菌的生长pH范围，因而产酸菌比例可以得到大幅降低。通过添加的微生物菌剂，引入与培育有益微生物，进一步降低产酸菌比例，发挥有益微生物的作用持续改良土壤。

（3）现实世界中的许多实际问题都具有高维而连续的状态、动作空间，对传统RL 算法可能会带来严重的问题。

人工智能特别是深度学习方向研究的进展，彻底改变了传统人工智能应用程序的性能，该领域学者们开始利用基于学习思想的建模技术挖掘CGF在军事训练和决策支持应用方面的真正潜力，主要原因在于传统的CGF 行为建模方法一般需要人为的对环境和规则进行建模，在建模的诸多环节中引入了主观因素，这些因素的准确性和合理性在很大程度上影响着决策的质量。当前，陆军合成营成为体系对抗下联合作战的陆战基本作战单元，如何运用陆军合成营顺利完成战斗任务是目前亟待解决的现实问题。相关文献对智能行为的研究取得了一些进展，然而结合军事问题研究需求，还存在以下需要重点关注的问题：

（4）系统运行过程中，安全性非常重要，在探索性学习阶段也不能破坏安全限制。

（5）绝大部分要部署强化学习的实际系统都是部分可见的。例如，与用户交互的推荐系统，无法观察用户的心理状态。通常，这些部分可观测性表现为非平稳性或随机性。

（6）强化学习通过优化全局奖励函数来构建策略学习框架，但大多数系统都有多维度的成本需要最小化，许多情况下，优化目标是模糊的。

（7）人们需要对所拥有和操作的真实系统“意图”放心，并通过有关系统故障情况的可解释性，对故障有深入了解。

（8）为了将RL部署到生产系统中，必须在系统的控制频率下进行实时策略推理。

（9）大多数实际系统在状态感知、执行器或奖励反馈方面都存在大量未知延迟。

小结：限饲对于后备牛生长，或是第一泌乳期产奶量不会有明显影响，完全可以实现。另外，限饲可以喂得更少，消化更好，提高整体消化率，减少排泻。同时，限饲对瘤胃pH值没有影响，可以在一定程度上增加瘤胃微生物数量，更好地产生微生物蛋白，对后备牛瘤胃发育是非常理想的。

2.4.3 深度强化学习

深度学习与强化学习的结合最早可追溯于文献[12]将Auto Encoder应用于强化学习中，解决了路径规划寻优的问题。而深度强化学习（Deep Reinforcement Learning，DRL）真正的开端是在2013 年NIPS 会议上发表的DQN 算法^[13]，其直接从像素图像中学习策略来进行Atari 游戏。近年来，深度强化学习的研究成为机器学习的一个重要方向。深度学习的基础是人工神经网络，是一种深层的机器学习模型，其深度体现在对特征的多次变换上^[14]。基于深度神经网络强大的非线性逼近能力，深度学习与强化学习的结合解决了强化学习面临的状态动作空间维度灾难问题^[13]，而且深度学习实现了端到端的学习，能够直接从原始数据的输入映射到分类或回归结果，而不再需要特征工程引入过多的人为因素，这使CGF直接能够从高维空间感知信息，并根据得到的信息训练模型做出决策^[15]。

目前，探索与利用的矛盾、奖赏信号稀疏的问题成为了目前制约强化学习性能进一步提高的关键因素，必须通过其他技术来补充达到人工智能。综上所述，四类CGF行为建模方法分析比较如表1所示。

图3 强化学习算法框架图

表1 CGF行为建模方法比较

基于知识、推理、规划思想的方法，在CGF 行为建模方面缺乏灵活性，但是经验知识表示直接，有限领域内性能较好，可用于战场约束条件构建；基于问题求解思想，实时性较差，不适合指挥实体实时决策，但这类方法或能够充分考虑对抗双方之间的相互关系，使得CGF决策更加贴近现实，或能同时对多个目标优化，得到全局最优解，故可用于CGF 战斗实体火力、机动行为建模；基于不确定知识推理思想、基于学习思想的方法，对知识的推理能力强，可用于指挥实体智能决策。基于不确定知识推理思想的方法具有可解释性，数学基础稳固，但是BN结构有时依赖专家经验，无法完全准确地描述战争系统复杂的演进过程。基于学习思想的方法，能够直接从复杂数据中挖掘规律，但是推理结果不可解释，面临态动作空间维度灾难、探索与利用的矛盾、环境奖赏稀疏、时间信度分配等问题。

（2）任务规划行为模型研究较少，目前使用的CGF绝大多数都没有任务规划能力。按照合成营作战流程，将任务规划决策理解为营一级接受任务后，进行态势评估、进一步战斗部署，是指挥员对作战力量的任务区分、兵力编组和配置做出的安排，合理、巧妙的作战部署对于任务的完成起着决定性作用。在体系仿真环境中，CGF主要扮演敌军、友军、我军三种角色，并且通过元素间的相互配合，共同达到试验、训练、论证等军事问题研究的目的。CGF角色的不同，其作战思想、作战原则、作战条令就会不同，进而任务规划决策也会差别很大。良好的任务规划决策模型是对军事问题研究开展体系仿真、研究敌方作战行动的第一步，遗憾的是，目前使用的CGF绝大多数都没有任务规划能力。

3 CGF相关技术发展现状

近几年，大部分学者致力于将人工智能的新技术应用于CGF战术决策行为、物理行为。国外，将机器学习算法^[16]、部分启发式算法、马尔科夫决策模型等人工智能技术应用于CGF行为建模，取得了一些成果。国内，近5 年学者主要致力于将动态贝叶斯网、启发式算法、马尔科夫模型方法^[17]应用于CGF 行为建模，近2 年，有国内学者开始对深度学习、机器学习等机器学习技术在CGF中的应用进行有益探索。

3.1 指挥实体行为

国外，北约工作组等^[18-21]使用机器学习中监督学习方法来识别数据中的决策行为规则和模式，构建了侦察分队掩护前进搜索的场景，侦察分队学会了相互掩护射击前进的策略，验证了数据驱动决策行为模型具有快捷、真实、客观的特点。2017 年瑞典国防研究局^[22]根据它们在模拟地面作战场景中控制计算机生成兵力的能力，比较了DQL、A3C-FF、A3C-LSTM 三种深度学习算法，结果表明，至少有一种算法在不需要超参数搜索的情况下解决了所有的任务，深度强化学习技术具有改进当前CGF 行为建模的潜力。瑞典乌普萨拉大学^[8]研究了利用深度学习对CGF 决策行为建模的方法，构建了分队执行突击任务的场景，最终分队突击队员学会掩护跃进，安全的通过危险区域，接受深度学习技术训练的CGF 可以通过学习难以通过传统人工编程的行为来学习如何执行复杂的任务。研究结果显示，深度学习技术作为CGF 行为开发的替代方法具有良好的潜力，并有可能在未来取代现有方法。

马尔科夫决策（Markov）过程描述为一个四元组(S,A,R,P)，S 为离散状态集合，即状态空间；A 为离散的备选决策方案集；R(s,a)表示状态s 下采取动作a获得的累积回报，是状态和方案到实数集的映射，即：S×A →R；P 为状态转移函数，即P:S×A →PD(S)，PD是S 上的一个概率分布函数。P 满足Markov特性，即对于a₁,a₂,…,a_t∈A，有P{S_t+1|S₁,a₁,…,S_t,a_t}=P{S_t+1|S_t,a_t}，r(s,a)表示状态s 下采取动作a 获得的即时回报。将CGF 决策行为看成一个马尔科夫决策过程，对状态空间的描述是关键。

3.2 战斗实体行为

国外，2015年，佛罗里达大学Aihe、Stein等^[26-27]使用增强学习技术改进基于案例推理的战术CGF 知识，使得CGF行为不再完全依赖于领域专家来提供正确和完整的领域知识。通过车辆机动的实例，与传统人工编程构建的CGF 比较，发现改进后的CGF 确实纠正了程序中的错误，并获得了遗漏的知识，使其比原来的CGF表现更好。由美国赖特帕特森空军基地空军研究实验室、法国泰雷兹集团、加拿大国防研究与发展局、瑞典国防研究局、挪威国防研究机构、荷兰国防部和荷兰航空航天中心、斯洛伐克武装部队研究机构、瑞典国防研究局等机构组成的北约工作组，2015—2016年致力于用机器学习技术改进空战CGF 工作。工作组在文献[5，28]中回顾了CGF 中人工智能技术的最新进展，指出机器学习技术有益于行为建模，但这些技术并没有得到充分重视和利用。文献[29-30]应用动态脚本，输入空战行为规则，使用强化学习技术寻找最优组合生成战斗机CGF行为，结果表明该方法能够较好地实现CGF 目标学习。文献[29]将强化学习技术应用于空战CGF 行为建模，并根据应用场景，提出了一种新的基于行为预期结果的奖励函数。测试表明，该函数的使用显著提高了CGF在各种空战场景中的机动、火力技能。文献[30]将迁移学习技术应用于空战CGF 行为建模，显著缩短CGF 在相似的场景之间的学习时间。文献[31]研究了深度学习方法在空战行为训练中的应用，训练了一架飞机CGF 在空战中对抗另一架手动操作的对手，结果表明CGF 成功地按照目标进行学习，并认为强化学习和深度强化学习在军事仿真中的应用值得进一步研究。2017年，澳大利亚防务部队学院^[32]建立的可约束的战场生命行为仿真系统，在使系统中的CGF 依据个性化特征进行行为决策的同时，还引入了机器学习技术，将系统的整体目标与CGF 行为规则相结合，进行更科学合理的训练评估。

国内，2015年，国防科学技术大学Yao等^[33-34]提出自适应HBM（Human Behavior Models）生成框架，将领域知识透明、可读的编码到模块中，并通过GA 算法进化空战行为模型及领域知识。2016年，国防科学技术大学Zhang 等^[35]提出集成式学习框架以便提升CGF 行为建模的便捷性、真实性、自适应能力，近两年，又在此框架基础上做了有益探索，如基于扩展学习行为树CGF 行为建模^[36]、基于改进进化算法的行为树Agent 行为建模^[37]，以及结合行为树和MAXQ 学习改进CGFs行为建模^[38]。空军工程大学左家亮等^[39]提出基于启发式强化学习的空战机动方法，在与外界环境动态交互过程中，采用“试错”的方式计算相对较优的空战机动序列，并采用神经网络方法对强化学习的过程进行学习，积累知识，启发后续的搜索过程，很大程度上提高了搜索效率，实现空战过程中决策序列的实时动态迭代计算。

4 研究现状总结

选取2010年1月～2014年12月在10家医院收治的1080例用地诺前列酮栓晚孕引产孕妇和同期使用缩宫素晚孕引产的963例孕妇［27］。

（1）缺少粒度到指挥员的动态任务组织模型研究。研究人员注重了个体、群体等行为的建模，忽略了作战过程中的组织约束，因而使得决策行为不真实。合成营与传统营级作战单元的不同在于从在营一级实现了单一兵种到多兵种的高度合成，实现了“小配置、大支援”的力量编成模式，力量广域分布动态调整的配置方式成为常态，依托信息系统临机协同和自主协同时机逐渐增多。合成营各业务连指挥员配属到各任务队，特别是一些火力队、保障队于预定空间疏散隐蔽、相对均衡、不规划配置，动态调整，多维部署，灵活赋予战斗任务，需要重新考虑粒度到指挥员的陆军合成营动态任务组织模型。组织模型的建立是CGF决策行为是否真实的关键所在，必须系统地、全面地对贯穿于整个作战过程的组织行为进行建模，用于描述整个作战组织的结构及人员的组织约束。

新洋分公司2018年三秋工作已经完成，水稻收割近6万亩，小麦种植4.5万亩，目前小麦一播全苗，苗齐苗匀苗壮，长势喜人。全年取得夏粮（小麦）亩产550公斤，秋粮（水稻）亩产600公斤的好成绩，预计实现利润近5000万元。

（3）战术决策行为模型对决策过程和问题复杂性作了许多不切实际的假设，使得动作空间、状态空间有限，作战场景、规则及其简单。在陆军分队战场环境中，场景更加真实，影响作战的因素繁多，因素之间的影响交织，例如，合成营摩步连任务是协同坦克作战，快速机动步兵分队，消灭敌方轻型装甲车辆、步兵反坦克火力点、有生力量和低空飞行目标。装有车载导弹的摩步连，还具有与敌坦克作战的能力。所以，利用摩步连的高机动性能，提升步兵敌近距离交战的能力，将兵力输送到前方，为后方兵力提供侦察视野，或携带火箭筒的士兵可以在前方下车，对敌方车辆隐蔽打击，但是，由于装甲输送车的防护能力弱，近距离火力打击能力弱，所以，前方的摩步连容易遭到敌方火力摧毁，造成车毁人亡的损失。携带车载导弹的摩步连，具有较强的远程打击能力，可将车辆布置在坦克后方有利地形上发扬远程打击能力，这同时与输送兵力的任务构成了矛盾体。加上合成营融合了战斗、支援、保障分队，被赋予多种战斗行动，考虑的因素非常之多，动作空间、状态空间、战场规则的维度爆炸使得战术决策算法在科学性、合理性、实时性面前黯然失色。

（4）机动、火力行为大部分集中在空战CGF 研究，陆战CGF 研究较少。地面是陆军战术分队的主战场，地形因素扮演着重要角色，需要重点考虑。例如，地形起伏所造成的坡度、比高、遮蔽程度对作战单元的机动、侦察、射击都可能造成影响。例如，密林、疏林、无植被地形对在其中行动的部队的隐蔽程度以及双方侦察效果会产生影响，密林还会对机动、射击行为产生影响；冲沟、弹坑等变形地对作战单元机动、射击、侦察造成影响。另外，天候气象是对战斗行动和武器装备使用效果产生重大影响的自然因素，需考虑昼夜、阴晴雨雪、风力、风向等。战争的复杂性、不确定性、涌现性在机动、火力决策层面体现的淋漓尽致。CGF 一个重要的作用就是突破规则、专家系统的束缚，建立具有高度自治性的决策行为，分队在仿真系统模拟的真实地形中上百次的推演，将战争的复杂性尽可能的分析清楚，不确定性降到最低，并通过积累经验，有效的协同，涌现出更强的体系作战能力。

帕帕国的成功证明了“不依规矩、不成方圆”“不打不骂不成才”“万般皆下品，唯有读书高”之类的古训全是胡说八道。

（5）LVC仿真环境中需要模拟人类真实行为水平的CGF，目前使用的CGF 与人类真实水平差别很大。“L”指实兵操作实装，“V”指实兵操作模拟器装备，“C”指计算机生成兵力，文献均是在构造仿真中研究CGF。在LVC 环境中，CGF 与操作模拟器、实装的人员同享虚拟战场环境，共用墙上时钟，CGF决策行为水平不真实，会使战场环境缺乏真实感，训练分队缺少沉浸感。目前，作战分队在与虚拟兵力进行对抗训练过程中，CGF决策行为远远高于或低于人类真实水平，导致训练、试验效果不理想，严重影响战斗力生成。模拟人类真实训练水平的CGF 有以下几层含义：一是从指挥人员到作战单元，会有训练等级的不同，训练等级较高的人员往往可以准确的捕捉战场态势，抓住战机，科学决策，而训练等级低的人员往往对战场态势不敏感，与战机失之交臂或决策失误。二是真实作战过程中，作战行为会有延迟，训练等级高的人员会迅速捕捉战机，反应速度、操作速度较快，先敌开火，首发命中，而训练等级低的人员则相对迟缓，被动挨打。以上两点是文献中没有做过研究的，另外，目前的CGF 决策模型还存在以下不足：一是决策过程过于刻板，缺乏灵活性和适应性；二是现有的决策模型过于规范，难以包括决策者个人因素对决策结果的影响，这些因素包括面临的压力、身体疲劳程度、经验和对待风险的态度；三是没有考虑决策者的知识局限性、判断问题时出现的偏见和失误。

5 结束语

人工智能主要有三大学派：符号主义（Symbolicism）学派、连接主义（Connectionism）学派、行为主义（Actionism）学派，三大学派的相互融合是人工智能技术在CGF 决策建模领域发展的重要方向。为提高CGF 行为自治性，本文在最后，针对目前陆军合成营军事问题研究需求，提出四种CGF行为建模方法。

（1）强化学习+知识引导思想

强化学习中，状态和动作维度过高，使得CGF状态-动作空间巨大，无法遍历所有情况以及学到合理策略；在学习过程中，CGF一方面需要利用已有的经验选择获益最大的动作，另一方面扩大搜索范围，探索未知空间，寻找更优动作。环境的反馈信号具有延迟性、稀疏性，即CGF 在执行多步动作之后才会获得奖赏，中间动作都没有收到反馈信号。深度学习与强化学习的结合解决了强化学习面临的状态动作空间维度灾难问题，探索与利用的矛盾、奖赏信号稀疏的问题是目前制约强化学习性能进一步提高的关键因素。知识是人类认识世界的成果与总结，在强化学习中引入知识，不仅可以提高深度强化学习的收敛速度以及CGF 的探索能力，还能解决奖赏稀疏性问题。因此，将人类的知识引入至深度强化学习是解决问题的一个重要方向。将知识引入强化学习的方法有很多，例如专家在线指导、回报函数设计、启发式探索策略、模仿学习、逆向强化学习等^[9]。

（2）基于神经网络+遗传算法思想

试验以常用于起泡葡萄酒酿造的EC1118酵母为材料，研究了适应活化过程中不同碳源、氮源含量和通氧条件对模拟葡萄酒发酵过程中酵母生物量、产气能力、自溶性、絮凝性和耐受性的影响，以期为瓶内二次发酵过程中酵母菌的适应性活化及起泡葡萄酒的生产提供理论依据和技术支持。

1.运用问题情境教学，落实了学生的主体地位。问题情境教学为学生搭建了一个自主学习的平台，让学生在各种教学情境中去探究并获取知识，获得情感体验和能力提升，规避了传统教学模式上的教师唱主角传授知识的课堂教学模式。

神经网络以其自身的大规模并行处理、分布式存储和自适应学习等特点，已被广泛地应用于各领域，但面对较复杂的非线性系统问题时，由于神经网络设置的初始权值依赖设计者的经验和样本空间的反复试验，容易产生收敛速度慢、网络不稳定以及陷入局部最优等一系列问题。遗传算法搜索具有全局性质，并且不要求目标函数具有连续性，因此，容易得到最优解或性能更好的次优解，用遗传算法优化神经网络理论上可以对任意非线性系统进行映射，并且得到全局最优的效果，从而形成一种更加有效的非线性反演方法。

（3）基于知识图谱+深度学习思想

在编制财务预算过程中，要确保其口径、范畴等要素和财务决算报表间的统一性，需依照“从上至下、分级式制定、上级审核”的流程进行工作，相关人员要理性的结合企业上一年度的预算执行状况，以完善预算编制相关指标的合理性与可执行性。并确保财务预算的各种报表与数据间建设良好的联动关系，相互牵制与促进，最后构建一个相对完善的预算管理体系。

知识图谱成是当前人工智能时代最为主要的知识表示形式，最大的优点是可以使得CGF 的决策行为具有可解释性，能否利用知识图谱中的知识指导深度神经网络的学习从而提升模型的性能，成为当前研究的重要问题之一。基于知识图谱推理可分为基于描述逻辑的推理、基于图结构和统计规则挖掘的推理、基于知识图谱表示学习的推理、基于概率逻辑推理。将知识图谱向量化表示作为神经网络的输入，即将知识型智能体与学习型智能体融合的思路发挥知识型可信、可控、能快速吸收人类经验，又发挥学习型智能体探索空间大、发现新知识、新战法的优势；或者将知识图谱中的知识表达为深度学习的约束，对知识型智能体从知识表示与推理上进行完善，结合知识图谱、向量化表示等新技术，使知识的表示更精准，通用性更强。

（4）基于规则+强化学习思想

（3）排除故障后，闭合开关，电压表示数为1V，小灯泡实际亮度偏____（选填“亮”或“暗”）；为了使小灯泡正常发光，则滑动变阻器滑片应向________移动（选填“C”或“D”）。

知识是人类认识世界的成果与总结，但在构建智能系统过程中，领域专家有时会提供不正确和/或不完整的知识；有时专家阐述正确的知识，却被知识工程师遗漏；其他情况下，领域的发展可能导致系统中知识过时。使用强化学习的方法，在作战仿真中，通过CGF迭代训练改进有缺陷的战术知识来纠正这些错误，并填补基于规则的CGF 知识的空白，从而对人类的知识进行增加、修改。

前两种方法能够直接从复杂数据中挖掘规律，但是推理结果不可解释，基于强化学习+知识引导行为建模，可以在强化学习方法的基础上，加速CGF 从与环境交互中学得策略的过程，可用于模拟战争的不确定性，涌现性等特征，从而训练指挥人员指挥决策，探索作战概念下战法创新；基于神经网络+遗传算法行为建模，能够弥补神经网络的不足，同时发挥遗传算法的优点，通过优化网络权值、网络结构、学习规则得到复杂非线性系统满意解，可用于CGF 战斗实体火力、机动行为建模，求解机动最优路径、目标火力分配等问题。可解释性在某些军事领域是必不可少的，后两种CGF 行为建模方法具有可解释性，但知识表达能力需要增强，应用于知识图谱的深度学习方法可分为三类：图神经网络和图卷积网络在内的半监督方法、图自编码器在内的非监督方法、图递归神经网络和图增强学习在内的最新方法，基于知识图谱+深度学习的行为建模，在可解释知识图谱的基础上，加入深度学习方法，增强CGF 推理能力，可用于作战理论研究、作战能力评估、作战方案优化等分析仿真；基于规则+强化学习的行为建模，以CGF 行为规则为输入，使用强化学习技术寻找最优组合生成CGF行为，可用于CGF战斗实体战术动作性能改进，较好地实现CGF目标学习。任何一种单独应用在CGF中的方法均存在缺点，以上方法均有优缺点，以及各自适用的最佳应用场景，将两种或两种以上的方法结合起来，针对CGF决策问题，在决策过程中继承各方法的优点，扬长避短，是CGF决策建模的发展趋势。

参考文献：

[1] 郭齐胜，杨立功，杨瑞平.计算机生成兵力导论[M].北京：国防工业出版社，2006.

[2] 李世豪，丁勇，高振龙.基于直觉模糊博弈的无人机空战机动决策[J].系统工程与电子技术，2019（5）：1063-1070.

[3] 杨观赐，王阳，李少波，等.基于行为博弈论的博弈进化算法[J].华中科技大学学报（自然科学版），2016，44（7）：74-79.

[4] 王亚杰，邱虹坤，吴燕燕，等.计算机博弈的研究与发展[J].智能系统学报，2016，11（6）：82-92.

[5] Toubman A，Roessingh J J，van Oijen J，et al.Modeling behavior of computer generated forces with machine learning techniques，the NATO task group approach[C]//Proceedings of IEEE International Conference on Systems，Man，and Cybernetics，2016：1906-1911.

[6] 胡越，罗东阳，花奎，等.关于深度学习的综述与讨论[J].智能系统学报，2019，14（1）：1-18.

[7] Marcus G.Deep learning：A critical appraisal[J].arXiv：1801.00631，2018.

[8] ToghianiRizi B.Evaluation of deep learning methods for creating synthetic actors[Z].2017.

[9] 李晨溪，曹雷，张永亮，等.基于知识的深度强化学习研究综述[J].系统工程与电子技术，2017，39（11）：217-227.

[10] 陈希亮，张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程，2017，31（3）：21-28.

[11] Dulac-Arnold G，Mankowitz D，Hester T.Challenges of real-world reinforcement learning[J].arXiv：1904.12901，2019.

[12] Lange S，Riedmiller M.Deep auto-encoder neural networks in reinforcement learning[C]//Proceedings of 2010 International Joint Conference on Neural Networks，2010：1-8.

[13] Mnih V，Kavukcuoglu K，Silver D，et al.Playing Atari with deep reinforcement learning[J].arXiv：1312.5602，2013.

[14] Lecun Y，Bengio Y，Hinton G.Deep learning[J].Nature，2015，521：436.

[15] 赵星宇，丁世飞.深度强化学习研究综述[J].计算机科学，2018，45（7）：7-12.

[16] Alstad A，Løvlid R，Bruvoll S，et al.Autonomous battalion simulation for training and planning integrated with a command and control information system：Tech Rep Ffi-Rapport 2013/01547[R].2013.

[17] 岳师光.面向计算机生成兵力的意图识别建模与推理方法研究[D].长沙：国防科学技术大学，2016.

[18] Stein G，Gonzalez A J，Barham C.Combining NEAT and PSO for learning tactical human behavior[J].Neural Computing and Applications，2015，26（4）：747-764.

[19] Luotsinen L J，Løvlid R A.Data-driven behavior modeling for computer generated forces[C]//Proceedings of NATO Modeling and Simulation Group Symposium，2015：1-13.

[20] Kamrani F，Luotsinen L J，Løvlid R A.Learning objective agent behavior using a>[21] Luotsinen L J，Kamrani F，Hammar P，et al.Evolved creative intelligence for computer generated forces[C]//Proceedings of 2016 IEEE International Conference on Systems，Man，and Cybernetics，2016：3063-3070.

[22] Roessingh J J，Toubman A，van Oijen J，et al.Machine learning techniques for autonomous agents in military simulations—Multum in Parvo[C]//Proceedings of 2017 IEEE International Conference on Systems，Man，and Cybernetics，2017：3445-3450.

[23] 康凯，张永亮，李晨溪，等.陆军作战指挥实体动态决策建模问题研究[J].系统仿真学报，2018，30（2）：55-61.

[24] Xu X，Yang M，Li G.Adaptive CGF commander behavior modeling through HTN guided Monte Carlo tree search[J].Journal of Systems Science and Systems Engineering，2018，27（2/3）：231-249.

[25] Xu X，Yang M，Li G，et al.HTN guided game tree search for adaptive CGF commander behavior modeling[C]//Proceedings of 2017 IEEE International Conference on Agents，2017：78-83.

[26] Aihe D O，Gonzalez A J.Correcting flawed expert knowledge through reinforcement learning[J].Expert Systems with Applications，2015，42（17/18）：6457-6471.

[27] Stein G，Gonzalez A J.Building and improving tactical agents in real time through a haptic-based interface[J].Journal of Intelligent Systems，2015，24（4）：383-403.

[28] Toubman A，Poppinga G，Roessingh J J，et al.Modeling CGF behavior with machine learning techniques：requirements and future directions[C]//Proceedings of 2015 Interservice/Industry Training，Simulation，and Education Conference，2015：2637-2647.

[29] Toubman A，Roessingh J J，Spronck P，et al.Rewarding air combat behavior in training simulations[C]//Proceedings of 2015 IEEE International Conference on Systems，Man，and Cybernetics，2015：1397-1402.

[30] Toubman A，Roessingh J J，Spronck P，et al.Transfer learning of air combat behavior[C]//Proceedings of 2015 IEEE 14th International Conference on Machine Learning and Applications，2015：226-231.

[31] Rijken R，Toubman A.The future of autonomous air combat behavior[C]///Proceedings of 2016 IEEE International Conference on Systems，Man，and Cybernetics，2016：3089-3094.

[32] Toghiani-Rizi B，Kamrani F，Luotsinen L J，et al.Evaluating deep reinforcement learning for computer generated forces in ground combat simulation[C]//Proceedings of 2017 IEEE International Conference on Systems，Man and Cybernetics，2017.

[33] Yao J，Huang Q，Wang W.Adaptive human behavior modeling for air combat simulation[C]//Proceedings of 2015 IEEE/ACM 19th International Symposium on Distributed Simulation and Real Time Applications，2015：100-103.

[34] Yao Jian，Huang Qiwang，Wang Weiping，et al.Adaptive CGFs based on grammatical evolution[J].Mathematical Problems in Engineering，2015（11）：1-11.

[35] Zhang Qi，Yin Quanjun，Xu Kai.Towards an integrated learning framework for behavior modeling of adaptive CGFs[C]//Proceedings of 2016 9th International Symposium on Computational Intelligence and Design，2016：7-12.

[36] Zhang Qi，Yin Quanjun，Hu Yue.Modeling CGFs behavior by an extended option based learning behavior trees[C]//Proceedings of 2017 IEEE International Conference on Cybernetics and Intelligent Systems and IEEE Conference on Robotics，Automation and Mechatronics，2017：260-265.

[37] Zhang Q，Xu K，Jiao P，et al.Behavior modeling for autonomous agents based on modified evolving behavior trees[C]//Proceedings of 2018 IEEE 7th Data Driven Control and Learning Systems Conference，2018：1140-1145.

[38] Zhang Q，Sun L，Jiao P，et al.Combining behavior trees with MAXQ learning to facilitate CGFS behavior modeling[C]//Proceedings of 2017 4th International Conference on Systems and Informatics，2017：525-531.

[39] 左家亮，杨任农，张滢，等.基于启发式强化学习的空战机动智能决策[J].航空学报，2017（10）：217-230.

Development Status of Computer Generated Force Behavior Modeling

GAO Ang¹,DUAN Li²,ZHANG Guohui¹,DONG Zhiming¹,CAO Jie¹,GUO Qisheng¹
1.Department of Drill and Training,Army Academy of Armored Forces,Beijing 100072,China
2.Unit 61516 of PLA,China

Abstract： System simulation is an effective means to solve many military problems under the condition of informationization.In the simulation system,the accuracy of computer generated force behavior is an important factor that affects the conclusion of military research.Considering that the autonomy of CGF is difficult to meet the needs of military research,CGF behavior modeling methods in the past 10 years are systematically summarized,the advantages and disadvantages of different methods are compared and analyzed, the development status of CGF behavior modeling methods at home and abroad in recent five years is summarized.Aiming at the research demand of military issues, the existing problems and development prospects in this field are summarized and prospected,and six CGF behavior modeling thinking methods are proposed.

Key words： computer generated force； behavior modeling； Bayesian networks； deep learning； reinforcement learning；knowledge graph

文献标志码： A

中图分类号： E919；TP39

doi： 10.3778/j.issn.1002-8331.1907-0176

作者简介：高昂（1988—），男，博士研究生，助理讲师，主要研究领域为装备作战与保障仿真，E-mail：15689783388@163.com；段莉（1976—），女，高级工程师，主要研究领域为信息系统；张国辉（1980—），男，博士，副教授，主要研究领域为系统仿真；董志明（1977—），男，博士，教授，主要研究领域为体系仿真；曹洁（1981—），女，讲师，主要研究领域为军事通信；郭齐胜（1962—），男，博士，教授，主要研究领域为装备作战与保障仿真。

收稿日期： 2019-07-01

修回日期： 2019-08-25

文章编号： 1002-8331（2019）19-0043-09

CNKI网络出版： 2019-08-27,http://kns.cnki.net/kcms/detail/11.2127.TP.20190827.0842.002.html

高昂，段莉，张国辉，等.计算机生成兵力行为建模方法发展现状.计算机工程与应用，2019，55（19）：43-51.

GAO Ang, DUAN Li, ZHANG Guohui, et al. Development status of computer generated force behavior modeling.Computer Engineering and Applications,2019,55（19）：43-51.

标签：计算机生成兵力论文; 行为建模论文; 贝叶斯网络论文; 深度学习论文; 强化学习论文; 知识图谱论文; 陆军装甲兵学院演训中心论文; 中国人民解放军61516部队论文;