基于二次规划优化组合的上证指数预测模型-神经网络方法_二次规划论文

上证指数预测模型——基于二次规划最优组合的神经网络方法,本文主要内容关键词为:组合论文,神经网络论文,最优论文,上证指数论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F832.0 文献标识码:A

引言

股票市场是高风险与高收益并存,对股票价格的精确预测将意味着产生高额的市场回报。为此,股市综合指数、股票价格预测一直成为学术界一个重要焦点,人们一直致力于研究股票市场行为的预测,希望能从中找到一些规律,从而使得损失最小化,收益最大化[1,2]。在传统的股票市场预测建模研究中,多元回归分析、时间序列分析、指数平滑等是最常见的方法[3,4]。而股票市场是一个复杂的非线性动力学系统,它的预测是一个非线性函数值的估计和外推问题,同时,市场行为受多种因素交互影响,具有显著的非线性、时变性特征,利用传统的统计预测技术,很难揭示其内在的规律[5,6]。

迅速发展起来的人工神经网络(Artificial Neural Network,简称ANN)大大优于传统统计方法,由于人工神经网络方法具有很强的处理非线性问题的能力,它比一般的线性统计预测方法具有更好的预测能力。为此,本文利用奇异谱分析、均生函数和主成分分析法确定神经网络的输入因子,再利用Bagging技术[7]和不同神经网络算法生成一组神经网络个体,最后用二次规划最优组合方法计算各集成个体的最优非负权系数进行组合集成,生成输出结论,以此建立股市上证指数预测模型。

一、神经网络输入矩阵的构造

神经网络泛化能力的提高需要提高样本质量,但是神经网络本身并不提供如何构造神经网络学习矩阵的方法。而如何建立合理的神经网络输入矩阵是神经网络建模的另一项关键技术问题,是保障预测模型具有良好泛化能力和进行实际应用的重要条件。而且上证指数在收集过程中不可避免地包含噪声,由此所建立的预测模型会失真,预测结果会出现偏差。为了提高预测的准确率,需要减少数据序列中的噪声影响。

目前利用神经网络建立股市预测模型中,构造输入矩阵的方法主要可以分成两大类:一是利用混沌时间序列的相空间重构生成输入矩阵;二是利用上证指数的技术指标,如最高价、最低价、移动平均线(MA5)、随机指标K、相对强弱指标(RSI)等。本文采用奇异谱分析(Singular Spectrum Analysis,SSA)方法[8]对原始上证指数时间序列重构减低噪声干扰,并用均生函数(Mean Generating Function,MGF)方法[9]对重构序列构造均生函数延拓矩阵,以其作为自变量,原始上证指数时间序列作为因变量,再利用主成分分析方法进行处理,提取对因变量解释最强的综合变量作为神经网络的输入因子,原始时间序列作为输出因子。

二、集成个体的生成

在神经网络集成实现方法的研究中,研究者们试图设计出更有效的神经网络集成个体,目前最主要的是Boosting和Bagging技术,都是通过扰动训练数据来获得较大差异的个体网络。本文以一个包含输入层、隐层、输出层的三层前向神经网络作为基本模型,网络的隐层节点和输入节点个数一样多,训练算法分别采用Matlab神经网络工具箱[10]中的BFGS准牛顿反向传播算法(trainbfg)、Powell-Beale共轭梯度反向传播算法(traincgb)、Fletcher-Powell共轭梯度反向传播算法(traincgf)、Polak-Ribiere共轭梯度反向传播算法(traincgp)、尺度化共轭梯度反向传播算法(trainscg)、采用梯度下降反向传播算法(traingd)、自适应学习速率梯度下降反向传播算法(traingda)、动量梯度下降反向传播算法(traingdm)、自适应学习速率动量梯度下降反向传播算法(traingdx)、Levenberg-Marquardt反向传播算法(trainlm)、一步正割反向传播算法(trainoss)、弹性反向传播算法(trainrp)共12种训练方法,并结合Bagging技术,每个算法产生5个集成个体,共产生60个集成个体。

三、集成结论的生成

由文献[11]可知式(2)存在唯一非负最优组合权重向量,而且非负权重最优组合预测方法的预测误差平方和不大于参加组合的各个单项预测方法的预测误差平方和中最小者。根据非线性规划理论[12],求得(2)式的最优解,以其作为各集成神经网络个体的权重。

四、应用实例分析

本文选取2004年2月24日到2006,年10月10日共635个交易日上海证券交易所的开盘价数据资料建立模型,其中用605个交易日实际数据来训练神经网络建立模型,对后30个交易日的数据预测,用于检验模型的效果。

(一)数据重构和延拓过程

由原始605个数值,利用SSA方法,选取积累贡献率到80%的值,对数据重构,有效提取了原序列中的主要趋势成分和震荡周期,降低噪声干扰。再利用均生函数和主成分分析方法,提取对因变量影响强的成分,在交叉检验有效时,共提取到10个综合变量,以其作为神经网络的输入矩阵,因变量作为神经网络的输出,利用Bagging技术,生成5组样本,再利用12种不同的神经网络训练方法,独立训练12个神经网络模型,为此共生成60个神经网络集成个体,为考察模型的效果,我们分别对60个输出的结果分别建立简单加权平均集成模型和二次规划最优组合的神经网络集成模型,分别对605个样本拟合和对30个后续样本预测,比较结果用来检验预测模型的效果。为了定量比较模型的效果,引入以下4种误差:

图1 简单加权平均集成模型和二次规划最优组合集成模型的拟合效果

(二)结果分析

表1是两种模型对605个训练样本的拟合各种统计指标,图1是简单加权平均集成模型和二次规划最优组合的神经网络集成模型对605个训练样本的拟合效果。从表1的统计指标和图1的拟合效果可以看出,二次规划最优组合的神经网络集成模型明显优于简单加权平均集成模型,由于简单加权平均集成时把每个神经网络的输出看作是平等,在集成中权系数一样,而实际上每个集成个体对集成结论输出的贡献不一样,需要依据实际情况动态调整集成个体的权重,从而可以取得较好拟合效果。评价一个模型的优劣看其拟合效果是一个方面,但更重要的是看其预测效果的优劣,即集成神经网络模型的泛化能力。

表1 两种模型拟合统计指标

模型MAPE RMSEMAE PR

简单平均集成模型8.63 90.20177.99 0.8631

二次规划最优集成组合模型1.59 74.4645.68 0.9566

图2 简单加权平均集成模型和最优组合集成模型的预测效果

这两种模型都是用SSA-MGF对上证指数开盘价的原始数据序列预处理得到的建模因子,再经过主成分分析方法对建模因子的数据进行分解和筛选,提取对原始序列解释性最强的综合变量建立的非线性模型,从表2的两个模型的预测数据可以看出二次规划最优组合的神经网络集成模型在预测精度方面明显优于简单加权平均集成模型。同时我们也对上证指数的收盘价利用上述方法建模,结果同样表明,二次规划最优组合的神经网络集成模型在拟合和预测中均优于简单加权平均集成模型。

表2 两种模型对30个样本预测结果

模型MAPE RMSEMAE

PR

简单平均集成模型21.76153.48 201.47 0.7532

二次规划最优组合集成模型11.0782.39 65.98 0.8457

五、结语

股票市场系统是经济系统中最为活跃、相互作用最为复杂的经济系统之一,并且由于股票市场受众多变化因素的影响,预测十分困难。由于神经网络具有很强的非线性关系概括能力,它不需要建立复杂非线性系统的显式关系或者数学模型,它需要建立其中一些变量之间的广义影射关系,而众多的神经网络训练算法有各自优缺点,都能从一定程度上提供一些有用预测信息,本文利用奇异谱分析、均生函数和主成分分析法确定神经网络的输入因子,再利用Bagging技术和不同神经网络算法生成一组神经网络个体,最后用二次规划最优组合方法计算各集成个体的最优非负权系数进行组合集成,生成输出结论,以此建立股市上证指数预测模型。在建模样本、预报因子相同的条件下,它的预报精度明显提高,而且预报结果稳定,这为我们利用神经网络方法进行建模预报中,提供了新的思路和方法。

标签:;  ;  ;  ;  ;  

基于二次规划优化组合的上证指数预测模型-神经网络方法_二次规划论文
下载Doc文档

猜你喜欢