基于LSTM的航空公司能耗序列预测论文

基于LSTM的航空公司能耗序列预测

刘家学 沈贵宾

(中国民航大学电子信息与自动化学院 天津 300300)

摘 要 为提高航空公司能耗的预测精度,针对能耗数据的复杂非线性时序特性,提出一种基于长短时记忆网络(LSTM)的时间窗滑动航空公司能耗预估模型。该方法对能耗时序数据进行预处理,消除能耗时序数据的季节性趋势;依据滑动时间窗将数据转换成监督型数据,构建基于LSTM的模型来实现航空公司能耗预测,并利用网格搜索算法进行参数优选。实验结果表明,该模型预测精度优于传统ARMA模型、SVR模型,验证了其可行性。

关键词 航空公司能耗 LSTM 网格搜索 时间窗 时间序列预测

0 引 言

运输航空公司的能源消费量约占到民航业总能源消费量的94%,所产生的二氧化碳排放量约占到整个民航业的90%[1],能源的高效利用已成为航空公司面临的一个关键性挑战[2]。为进一步开展民航业节能减排工作,掌握运输航空公司能耗的变化方向和发展特性,有必要对航空公司能耗预测进行研究。

目前,在能耗预测的相关研究中,主要的预测方法有情景分析法[3]、ARMA时间序列法[4]、灰色预测法[5]、支持向量回归预测法[6-7]和人工神经网络预测法[8]等。情景分析法不可避免地掺杂有预测者的主观影响因素,预测结果受人为影响大,合理性较差。灰色预测模型简单且计算方便,但不适用于波动数据,ARMA时间序列法对于高度复杂非线性系统的预测能力不足。而支持向量回归预测法和传统神经网络预测方法,在针对小样本、非线性等情况下,易于出现“过拟合”,预测精度和模型稳定性不高。随着航空运输业的发展,能耗呈上升趋势,易受季节、国家政策、机型、机队规模等多种因素的影响,且航空公司的能耗结构复杂,能耗数据同时呈现出趋势性和波动性。常规传统预测模型表达能力有限,无法清晰展现航空运输公司能耗数据的发展特性,预测模型需要进一步改进。

首先利用探索性因子分析来考察样本1中村民文化适应变量结构多维度的可能性,在此基础上利用验证性因子分析对样本2中村民文化适应结构变量的维度是否真实存在作出评判。

为了进一步提高预测精度,在充分考虑航空公司能耗的数据特征的基础上,本文采用LSTM[9]循环神经网络建立能耗时间窗滑动预测模型。航空公司能耗受到外界诸多因素的影响,是一个非线性、强耦合的复杂系统,无法用精确的数学模型来描述,具有不确定性。本文将航空公司的历史能耗数据作为时间序列模型进行能耗预测。

1 长短时记忆网络

传统的神经网络模型各个层之间的节点是完全连通的,但每层之间的节点却没有任何连接,这种网络结构无法对序列问题进行建模。

RNN的隐藏层增加了一个隐藏层状态,节点在各层不再是无连接的,其网络会对历史信息进行记忆并传递到后面的节点中,即一个节点当前时刻的输出与前面时刻的输入也有关,如图1所示。

通过比较研究,我们发现在模拟英国议会制辩论中,国际知名辩手倾向于在“首相”开场白中涵盖以下几个论辩要素:

图1 RNN网络结构

RNN单元输出有两个,隐藏层输出h t 以及状态输出y t ,其数学表达式为:

温度控制方案如图2所示。在该方案中,温度传感器测到的室内温度值与给定的温度值的差值输入到控制器,控制器通过特定的算法用脉冲控制步进电机,步进电机与电动阀连接,通过转动控制电动阀阀门的开度,进而控制管道内液体的流量,最终改变室内的温度。温度传感器将检测到的实时温度与给定温度进行比较,差值再次送入控制器,控制器通过步进电机改变管道液体流量,使温度降低的速度加快或减慢,最终使室内温度与给定温度匹配。

h t =f a (W xh x t +W hh h t-1 +b h )

(1)

y t =W hy h t +b y

(2)

式中:W xh 为输入层到隐藏层的权重系数;W hh 为隐藏层到隐藏输出的权重系数;b h 为隐藏层的偏置项系数;f a 为激活函数;W hy 为隐藏层到状态输出层的权重系数;b y 为状态输出层的偏置项系数;t 表示时刻。

混合动力动车组牵引传动系统是一种交—直—交牵引传动系统,交流侧连接电网与柴油发电机组,直流侧并联电池系统。电池在工作时依靠双向DC/DC变换器完成与直流环节的电能变换,本文选择Buck/Boost电路作为双向DC/DC变换器的基本拓扑[2]。

由于传统RNN需要记录历史信息,相当于一个多层的前馈神经网络,历史信息过多会导致网络训练时出现梯度消失、梯度爆炸等问题,损失历史信息[10]。针对这些问题,进一步出现了长短时记忆循环网络。

与传统RNN相比,LSTM除了拥有“隐藏状态”外,还增加了一个“细胞状态”,同时在与时间点对应的每层中的神经元中添加了输入门、输出门以及忘记门,用来控制增加或删除信息的程度。该模型可以学习长期的依赖信息,同时避免梯度消失问题[9],误差更小,模型预测准确率更高。当前使用最广泛的 LSTM网络就是使用图2中的LSTM单元替代原先RNN隐含层中的神经节点[11]

图2 LSTM单元示意图

LSTM单元更新可以分为以下几个步骤:

(3)

i t =σ (W xi x t +W hi h t-1 +W ci c t-1 +b i )

(4)

f t =σ (W xf x t +W hf h t-1 +W cf c t-1 +b f )

(5)

(6)

o t =σ (W xo x t +W ho h t-1 +W co c t-1 +b o )

(7)

h t =o t ⊙tanh(c t )

(8)

式中:分别代表输入门、遗忘门、细胞状态、输出门和当前时刻候选记忆单元值;W 和b 分别为对应的权重系数矩阵和偏置项;⊙表示逐点乘积;σ 一般取logistic sigmoid函数; tanh是双曲正切激活函数。

LSTM模型同样具有前向传播和反向传播两部分,前向传播部分通过式(3)-式(8)计算神经元的输出值。反向传播采取BPTT算法,其原理与经典反向传播算法类似,只是其反向计算每个神经元的误差项时,同时包括时间和网络两个方向,根据所计算的误差,应用相应的优化算法更新神经元权重。

梯度下降法是最常用的优化算法之一,在每一个深度学习框架中都实现了各种优化的梯度下降法,常见的有SGD、AdaGrad、RMSProp、Adam等。本文使用的是自适应矩估计(Adaptive Moment Estimation,Adam)优化算法,Adam会对每一个参数都计算自适应的学习率。Adam不但保存一个指数衰减的历史平方梯度平均值,还保存一个历史梯度的指数衰减均值,在实际应用中,Adam有着更好的表现。

2 基于LSTM 的航空能耗模型

2.1 数据预处理

首先判断序列的平稳性,由于航空公司的能耗数据具有季节性,所以需要消除时序的季节性趋势,以得到平稳的序列。使用一阶差分法处理原始数据,消除原始序列的非平稳性。

另外,LSTM框架包括输入层、隐藏层和输出层。航空公司的能耗数据是一个时间序列,显然不符合网络输入输出要求。为了适用于训练模型,需要将时间序列数据转换为监督学习型数据。

3.2.1 基于ARMA 的航空能耗预测模型

输入:(n -m )×m 维的矩阵X ;

输出:(n -m )维的矩阵Y ;

在构建深度学习模型时,超参数的选取至关重要。网格搜索算法(Grid-Search)是通过指定参数值,对其进行穷举搜索选取最优参数组合的模型优化方法,简单实用、可以并行进行运算而且运行时间可控[14]。在训练模型时,待选取的超参数主要包括学习率、网络步长、隐藏层个数、批尺寸等。通过给定相关超参数的范围,Grid-Search通过循环遍历每一种参数组合,从中选出性能最好的一组参数。

(9)

2.2 模型构建

为实现对序列数据的多步预测,采取逐点迭代的预测方式。使用滑动时间窗定义模型观测数据的宽度,对于下一个预测点,使具有固定宽度(固定个数的观测数据)的时间窗向后推移一个步长。

图3 时间序列预测模型

2.3 模型预测

由于样本数据有限,模型复杂度较低,本文所构建的LSTM网络只有三层,第一层为输入层,输入序列维度是m ,输出序列维度为隐藏层单元个数S ;第二层为LSTM层,输入和输出维度均为S ;第三层为Dense层,输入序列维度是S ,输出序列维度为1,最终将输入与输出对应起来。模型架构如图3所示。

原文:You’re never really done for as long as you’ve got a good story and someone to tell it to.

例如时刻t -1是最新预测到的月份,时刻t 是下一预测的月份,那么序列y t-1 、y t-2 、y t-3 、…、y t-m 是此时滑动时间窗口包含的所有观测数据。

2.4 基于Grid -Search 的参数优化

即经过变换之后,得到用于学习训练的样本为:

例如,要确定隐藏层单元个数,首先根据经验设置参数为200,在保持其他参数不变的情况下,以此参数为中心,模型分别遍历100、150、200、250、300。根据测试结果,选取最优的隐藏层单元个数。

模型的根本原理是分析原始序列的趋势和季节性,从原始序列中删除这些不稳定因素,得到一个稳定的序列,然后将稳定的序列应用到基于Grid-Search参数优化后的LSTM预测模型中,得到预测序列,并将预测值转换成原来的区间。模型主要流程图4所示。

图4 航空公司能耗的预测流程图

3 实例仿真

3.1 实验数据和评价指标

数据来自于某航空公司的2009年1月至2016年12月总计7年的月度能耗数据,采样周期为1个月,将数据分成训练集和验证集,训练集包括2009年至2015年的数据,验证集包括2016年的数据。依次采用LSTM模型、RNN、SVR和ARMA对能耗数据进行仿真,并对各个预测结果进行分析。

采用相对误差(RE)、平均相对误差(RME)和均方根误差(RMSE)作为检验预测模型的预测效果的指标:

(10)

式中:x n-m +1={x n-m +1,x n-m +2,…,x n },得到一个样本x n-m +2={x n-m +2,x n-m +3,…,x n+1 },则二步预测为:

实验同一台计算机上进行仿真,LSTM和RNN模型使用深度学习框架Keras及其后端框架tensorflow[13]构建,SVR使用MATLAB软件,并结合Libsvm工具箱进行建模和仿真。ARMA模型由统计软件SPSS进行仿真。

3.2 模型对比

为了验证LSTM模型的有效性,下文将LSTM模型分别与RNN、ARMA和SVR进行对比。为此,再分别建立基于ARMA和SVR的航空能耗预测模型。

园林石,指天然形成的,具有一定观赏价值和有重要园林、街景造型效果的、可移动的观赏石。如古代江南园林、皇家园林、现代公园、街头造景、别墅花园景观设计用石。

对于时间序列{x 1,x 2,…,x n },{x n }是预测的目标值,本文用前m 天的能耗值预测下一天的能耗值,那么可以将时间序列数据按照滑动时间窗口长度m 转换为:

自强不息在中国传统文化中体现了民族人格的尊严和气节。自强不息的民族精神使中华民族在历经五千年文明的磨砺、特别是经历了近代的落后和屈辱仍得以延续传承,并在现代奋起直追,努力实现中华民族伟大复兴的中国梦。《易经》中的“天行健,君子以自强不息”是中华民族精神的刻画。“三军可以夺帅,匹夫不可夺志”,“贫贱不能移,富贵不能淫,威武不能屈”,“士不可以不弘毅,任重而道远”,这些都是对气节毅力的崇尚。自强弘毅是对理想和人格的坚持。大学生在人格修养中要志存高远又持之以恒,不断发挥自身的主观能动性,努力进取,昂扬向上。

e t+l 1e t+l -12e t+l -2-…-θ q e t+l -q

x t1x t-1 +φ 2x t-2 +…+φ p x t-p +

e t1e t-1 -θ 2e t-2 -…-θ q e t-q

(11)

通过判别原始序列的平稳性,依次对模型进行识别、定阶,估计相关参数及检验模型效果后,就可使用该模型预测航空公司能耗数据序列的未来发展趋势。根据ARMA模型得到未来任意l 时刻的预测值可表示为:

对于航空公司能耗数据的时间序列{x 1,x 2,…,x n },自回归移动平均模型[4]ARMA(p ,q ),可以表示为:

我们的内分泌功能受到复杂调控系统的控制,同时也受人体发育不同时期和生活环境的影响,如果这些影响过大,就会导致内分泌功能紊乱。《黄帝内经》提倡“饮食有节,起居有常,不妄作劳”,要求我们遵循自然规律,合理饮食,按时作息,这是一切养生方法的基础;同时要有乐观的生活态度,保持心情舒畅,这样才能使肝气条达顺畅。

(12)

本文根据文献[15]提出的基于新陈代谢灰色马尔可夫-ARMA方法构建航空能耗预测的ARMA模型,并进行仿真试验。

3.2.2 基于SVR 的航空能耗预测模型

对于航空公司能耗数据的时间序列{x 1,x 2,…,x n },为了满足输入输出要求,也需要依据式(9)进行变换,使用变换之后的样本对SVR进行训练[12]

使用的回归函数为:

(13)

由此得到一步预测为:

(14)

s.t.t =m +1,…,n

式中:x i 为航空公司能耗的实际值,为对应的预测值。

(15)

以此类推可以得到第l 步预测为:

现在的整容手术已经很成熟了,基本上只要保障在正规医院做手术,术后的效果都能达到预期的效果,那么术后美不美、自不自然,基本取决于医生的审美,因为在整容者不能清晰描述自己的需求的时候,是需要医生来做设计和判定的,比如鼻子做多高,多少度的角度最合适,根据整容者的实际情况制定出一个最优的方案。那么,在高密度的手术方案面前,医生如何做到人人都美呢?医生的审美标准就是我们最熟悉的“三庭五眼”“黄金分割”等审美标准,在每一位整容者的脸上根据标准设计最优方案。

某矿井田东西走向长约8 km,南北宽约5 km,井田面积36.61 km2,可采煤层4层,煤层倾角5°~12°,煤层平均间距20~80 m,煤层埋深较深,平均480~550 m。根据煤层赋存、储量和地质条件,以两个水平开采井田内煤层,设计生产能力3 Mt/a。矿井设计的原则须要投资少,生产费用少,压煤少,不迁村庄。经过分析后,通过可行性较大的方案,斟酌选择方案,经技术经济综合比较分析后确定。

(16)

式中:x n-m +l ={x n-m +l ,…,x n+1 ,…,x n+l -1}。

本文SVR模型中的惩罚因子C 取20,高斯核函数参数γ =0.01,窗口大小为6。

吃什么?怎么吃?吃多少?怎样吃,才算科学,这些都是人们在生活中每天遇到的问题。随着社会的发展,人民生活水平的提高,在解决了基本的温饱问题之后,人们更加关心饮食与健康的关系,关心饮食对生活质量的影响。现代医学研究证明,五种天然颜色的食物,对维护人体健康有益。

3.3 参数寻优

训练模型过程中,需要确定的超参数主要包括:窗口长度、隐藏层个数、学习率,分别采用Grid-Search策略逐个循环遍历进行参数寻优。由于数据量相对较少,历史依赖信息少,所以设定窗口长度的取值范围从最小值开始,设定为m ∈{1,2,3,…,12},隐藏层神经元个数的取值范围为n ∈{50, 100, 150, 200, 250, 300}。在设置学习率的取值范围时,由于在训练过程中,LSTM 模型的精度和损失受学习率的取值影响较大,学习率过高或过低都可能会出现过拟合或欠拟合,陷入死循环或者输出变“糊”的情况会经常发生,影响模型的预测性能。所以设置学习率的取值范围为3个等级{0.001,0.01,0.1},在每个等级上扩充为3个数值,即设定学习率η ∈{0.001,0.003,0.005,0.01,0.03,0.05,0.1,0.3,0.5}进行搜索。

取验证集的RMSE作为评判标准,实验记录了在不同参数条件下的仿真结果,基于篇幅有限,以下列出学习率η 为0.001、0.01、0.1的仿真结果图(如图5、图6、图7所示),图中颜色越深,代表着RMSE值越小,预测精度越高。

那么,嘉兴项氏一支究竟从何发源而来呢?项笃寿在为其兄诗集所作的序中,提到过嘉兴项氏的由来。按,项笃寿,“字子长,别号少溪,生正德辛巳五月癸亥,卒万历丙戌九月癸丑,享年六十有六”[3]4894。他是项元汴的胞兄。项元汴辈一共兄弟三人,项元淇排行第一,项笃寿排行第二。项元淇有《少岳诗集》行世。项笃寿为其兄诗集所作序言中提到:“嘉兴之有项,自评事始也。”[4]

图5η =0.001参数寻优

图6η =0.01参数寻优

图7η =0.1参数寻优

根据图7的实验结果,当学习率为0.1级别时,颜色普遍较浅,代表其RMSE越大,说明在建立此LSTM模型时,学习率不易过大。同时根据图5和图6的结果可以判断,在学习率固定下,隐藏层神经元个数相对偏大,窗口长度相对偏小时,其RMSE值较好,模型精度更高。

以下列出LSTM模型参数寻优结果中,前5组最优的参数组合以及对应的RMSE如表1所示。

表1 LSTM模型的最优参数组合

3.4 预测结果分析

根据网格搜索算法选出的最优参数组合,即参数组合为(m ,n ,η )=(4,200,0.001),训练出LSTM的参数预测模型,并与其他预测模型的预测结果进行对比。

ARMA、SVR、RNN和LSTM模型预测值的RME和RMSE如表2所示,各个模型2016年预测值的RE如表3所示。其中LSTM模型的RME为0.019 4,预测精度最高。 ARMA、SVR和LSTM预测下一年每个月能耗的预测结果如图8所示。其中LSTM预测值与实际数据相差最小。以上结果说明本文提出的LSTM模型对预测精度有一定的提高,预测效果更好。

图8 ARMA,SVR和LSTM模型预测

表2 各模型的RME和RMSE对比

表3 各模型的RE对比 %

4 结 语

本文根据航空公司能耗统计数据具有的非线性和非平稳性的数据特征,提出了基于Grid-Search 优化的LSTM预测模型,进一步提升了航空公司能耗预测的精度。以某航空公司月度综合能耗数据进行仿真试验,对ARMA、SVR、RNN和LSTM预测模型进行了验证和对比,证实了LSTM预测模型的有效性。本文提出的预测模型,更适用于具有趋势性且内部影响因素复杂的随机时间序列的短期预测,可为航空公司制定能源规划、能耗管理和节能减排的优化开展提供一定的参考。

虎杖苷对肾纤维化模型大鼠肾组织中MMP-9和TIMP-1蛋白表达的影响 ………………………………… 王 松等(7):936

参考文献

[1] 中国民用航空局. 民航节能减排“十三五”规划[EB/OL]. (2017). http: //www.caac.gov.cn/XXGK/XX-GK/ZCFB/201702/P020170228618181713499.pdf.

[2] 于敬磊. 中国民航节能减排对策研究[J]. 资源节约与环保, 2014(10): 83,86.

[3] 朱宇恩,李丽芬,贺思思,等.基于IPAT模型和情景分析法的山西省碳排放峰值年预测[J].资源科学,2016,38(12): 2316-2325.

[4] 惠小健,王震,张善文,等. 基于ARMA的风电功率预测[J]. 现代电子技术, 2016, 39(7): 145-148,153.

[5] 李小刚,张廷会. GM(1,1)灰色预测模型在道路软基沉降预测中的应用[J]. 铁道科学与工程学报, 2016, 13(1): 63-68.

[6] 段青玲,张磊,魏芳芳, 等. 基于时间序列GA-SVR的水产品价格预测模型及验证[J]. 农业工程学报, 2017, 33(1): 308-314.

[7] 冯帆,倪中新. 基于支持向量机的高频金融时间序列预测[J]. 应用数学与计算数学学报, 2017, 31(3): 265-274.

[8] 汪君, 吴利瑞. 基于BP神经网络模型的上海高校能耗预测研究[J]. 建筑节能, 2015(1): 92-97.

[9] Hochreiter S, Schmidhuber J. Long short-time memory[J]. Neural computation, 1997, 9(8): 1735-1780.

[10] Pascanu R, Mikolov T, Bengio Y. On the difficulty of training recurrent neural networks[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta: ICML, 2013: 1310-1318.

[11] Graves A. Supervised sequence labelling with recurrent neural networks[M]. Berlin: Springer, 2012: 37-45.

[12] Dong B, Cao C, Lee S E. Applying support vector machines to predict building energy consumption in tropical region[J]. Energy & Buildings, 2005, 37(5): 545-553.

[13] Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale machine learning on heterogeneous distributed systems[EB]. eprint arXiv: 1603.04467, 2016.

[14] 王鑫,吴际,刘超,等.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报, 2018,44(4): 772-784.

[15] 刘家学,周鑫,陈静杰.基于新陈代谢灰色马尔科夫-ARMA模型的航空公司能耗预测(英文)[J].机床与液压,2017,45(18): 55-62.

AIRLINE ENERGY CONSUMPTION SEQUENCE PREDICTION BASED ON LSTM

Liu Jiaxue Shen Guibin

(College of Electronic Information and Automation ,Civil Aviation University of China ,Tianjin 300300 ,China )

Abstract In order to improve the prediction accuracy of airline energy consumption, aiming at the complex nonlinear timing characteristics of energy consumption data, we proposed a time window sliding airline energy consumption estimation model based on LSTM. Energy consumption time series data were preprocessed to eliminate the seasonal trend of energy consumption time series data. Then, data were converted into supervised data according to sliding time window. We constructed an LSTM-based model to realize airline energy consumption prediction, and parameters were optimized by grid search algorithm. The experimental results show that the prediction accuracy of this model is better than that of traditional ARMA model and SVR model, which verifies the feasibility of the model.

Keywords Airline energy consumption LSTM Grid-Search Time window Time series prediction

中图分类号 TP391.9

文献标识码 A

DOI: 10.3969/j.issn.1000-386x.2019.10.011

收稿日期: 2018-12-27。

民航局科技基金项目(MHRD201121);民航局节能减排专项计划项目(DPDSR0010)。刘家学 ,教授,主研领域:飞行数据分析,飞机维修仿真。沈贵宾 ,硕士生。

标签:;  ;  ;  ;  ;  ;  

基于LSTM的航空公司能耗序列预测论文
下载Doc文档

猜你喜欢