基于高频数据的统计套利实证研究论文

基于高频数据的统计套利实证研究

方 军,李星野

(上海理工大学 管理学院,上海 200093)

摘 要: 统计套利的实证研究大多是利用高频数据来实现的,研究的主要内容是统计套利策略的有效性及套利模型的稳定性,很少研究数据频率对于统计套利结果的影响。利用沪铜期货合约的分钟级数据来进行统计套利,其实证结果表明,在相同的统计套利策略下,当数据频率低于30分钟时,高频数据的数据频率对于套利结果无影响;当数据频率高于30分钟时,频率越高,套利结果越好。

关键词: 统计套利;高频数据;GARCH模型

引言

统计套利策略作为高频交易中最为常见的投资方式之一,近年来伴随着数学模型和计算机技术的快速发展,在理论发展与模型实现等方面都有了极大的进步。统计套利策略的实现需要做空机制的支撑,随着中国金融市场融资融券及股指期货的诞生与发展,统计套利在国内也逐渐受到投资者的重视与青睐。

目前,国内外存在大量关于统计套利的文献研究。例如,国外学者根据协整理论针对不同频率的高频数据进行实证研究。研究结果表明,高频数据不仅增加了可进行套利的资产组合范围,还保障了套利收益的稳定性,从而对统计套利交易策略有着直接的影响[1]。而国内关于统计套利的研究起步较晚,由于政策的限制及交易机制的不完善,基于高频数据的统计套利策略研究更是缺乏。近年来,国内学者不仅验证了统计套利策略在我国金融市场的有效性[2],在高频数据方面也存在着实证研究。例如,雷井生等在常用统计套利策略的基础上进行改进,并运用6个频率数据在新的策略上进行统计套利。实证结果表明,在高频数据下统计套利策略在我国股票市场是有效的[3]

本文在前人研究的基础上加入了GARCH模型,通过设定最优的套利阈值组合减小了交易成本对统计套利结果的影响,在相同的交易策略和交易规则下运用7种不同频率的高频数据进行实证分析,以年化收益率的大小来衡量套利结果的优劣。

一、研究方法

(一)协整理论

协整理论描述的是两个或多个非平稳时间序列之间的均衡关系,它使得非平稳时间序列之间的线性组合可以成为平稳的。其数学定义为:如果 k 维时间序列{x1t,x2t,…,xkt}都是d 阶单整序列,存在向量 α=(α1,α2,…αk),使得其中则认为序列是(d,b)阶协整,记为xt~CI(d,b),其中α称为协整向量。

2.1.2 叶片。“鸿福金钻蔓绿绒”叶片绿色,叶缘、叶鞘、叶柄浅橙色,中脉明显,正面叶脉黄绿色,背面叶脉浅橙色,亲本光泽度强,叶片绿色,叶缘、叶鞘、叶柄黄绿色,叶鞘边缘红紫色,中脉明显,正面叶脉绿色,背面叶脉黄绿色(表2)。“鸿福金钻蔓绿绒”种植12个月时叶片8.0 枚,叶绿色,叶片无斑点,长圆形,平均叶长58.8 cm,叶宽17.1 cm,叶厚0.041 cm,叶姿半直立,叶片肉质,有弹性,中脉明显,光泽度强,与亲本差异不显著(表3)。

(二)GARCH模型

下面根据协整理论得到两合约的价差序列,并建立GARCH模型:

其中,Cu0与Cu1均为一阶单整序列,价差序列μt为平稳序列。

(三)统计套利策略流程

为简化交易流程,我们要求开仓后未平仓不得再开仓。具体交易策略是:当rt>δ1时,牛市建仓采用买入策略,即买入主力合约,卖空次主力合约,平仓条件有两种:若rt≤δ2则止盈平仓,若rt≥δ3则止损平仓;当rt<-δ1时,熊市建仓采用卖出策略,即卖空主力合约,买入次主力合约,平仓条件类似。其中0≤δ2<δ1<δ3

女性在月经前反复出现一系列精神、行为及体质等方面的症状,月经来潮后症状消失的一类病症,称为“经前综合征”,本病在精神、情绪障碍方面更为突出,平素容易紧张,这一部分女性在分娩后发生抑郁的可能性也较大。

接着对价差序列μt进行ARCH检验,发现其存在ARCH 效应并建立 GARCH(1,1)模型:

现以1分钟的高频数据为例,来说明具体的建模过程。取2017年12月12—13日共930个1分钟价格数据为样本内数据建立套利模型,以2017年12月14日的前310个1分钟价格数据为样本外数据验证模型的实际盈利效果。记选取的沪铜期货Cu1801和Cu1802合约的价格序列分别为Cu0与Cu1

二、实证研究

(一)数据选取与处理

最终,可以得到标准化残差序列rt

2004年6月26日—7月6日,黄河内蒙古三湖河口以下河段发生严重水污染事件,地方政府对乌梁素海的生态环境和周边污染源采取多项措施进行综合治理,在一定程度上促进了乌梁素海水质改善。据有关部门监测,2005—2008年,乌梁素海进水口水体总氮由6.03 mg/L下降至 1.31 mg/L,COD由54.4mg/L下降至26.9mg/L,总磷基本持平,说明水质已逐步好转。

作为天津市市场和质量监督管理委员会的直属单位,天津市医疗器械质量监督检验中心是中国合格评定国家认可委、国家食品药品监督管理总局、国家质量监督检验检疫总局等部门认可授权的一所综合性医疗器械及制药装备检验检测机构,是全国十个国家级医疗器械检测中心之一。

(二)模型建立

标准的 GARCH(1,1)模型为:

首先由OLS估计法得其协整关系为:

由式(1)和式(2)可知其标准化残差序列为:

对于不同大小的套利阈值(即不同的 δ=(δ1,δ2,δ3)的值),统计套利模型的损益也有所差异。为了减小套利阈值对模型结果的影响,本文以样本内的累计收益率为标准,令δ2=0,采用穷举法以一定的步长将区间(0,5)内的值一一赋予给开仓阈值δ1和止损阈值δ3,最大累计收益率对应的开仓阈值和止损阈值即为样本数据对应的最优阈值组合。

为了研究数据频率对套利结果的影响,本文选取上海期货交易所阴极铜期货Cu1801和Cu1802的1分钟、5分钟、10分钟、15分钟、30分钟、45分钟及60分钟高频数据进行统计套利,所有频率下样本内、外的数据个数比例均为3∶1,期货交易手续费率为0.05‰。本文所有数据源于万德数据库。

根据既定的统计套利策略对1分钟数据合约进行套利,样本内、外的年化收益率分别为131.32%与111.87%。同理,对其他频率数据采用相同的流程进行建模,得到各频率的年化收益率如下:在样本内,5分钟、10分钟、15分钟、30分钟、45分钟和60分钟的年化收益率分别为30.86%、15.73%、10.61%、8.99%、8.28%和8.41%;在样本外,各频率的年化收益率分别为15.67%、10.72%、6.47%、3.11%、1.30%和1.17%。

(三)实证结果分析

由上图可以看出,当数据频率高于30分钟时,频率越高样本内、外的年化收益率也越高;当数据频率低于30分钟时,样本内、外的年化收益率基本保持不变。

这是由于在相同的套利模型和策略下,当数据频率高于30分钟时,数据频率越高,单位时间内套利的机会越多,年化收益率也会增加。当数据频率低于30分钟时,高频率套利的收益率相差不大:一方面是因为沪铜期货数据易受其他因素影响,频率低于30分钟的数据已不具有统计学意义;另一方面是因为市场上其他套利者的存在,套利机会持续时间短。

再说李陆峰。就在他忖度对手有没有走远,能不能起身救助手下时,几个手下已哼哼唧唧挣扎着爬起来。与此同时,蹄声得得,那个在一里之外负责看马的手下,看出形势不妙,也赶着马群过来。

结论

实证研究结果表明,高频数据的频率对统计套利结果有直接影响。在相同的交易策略和流程下,数据频率越高,套利的年化收益率也越高。这并不意味着实际交易中数据的选取频率越高越好,因为数据频率越高对交易系统的要求也越高,可实现性越低。但数据频率也不能太低,研究结果表明数据频率低于30分钟时,一方面可能错过大量套利机会,另一方面数据可能受其他因素影响而偏离协整关系。

参考文献:

[1] Thomas A.H.,Joshua R.H.Statistical Arbitrage Trading Strategies and High Frequency Trading[J] .2013,(12).

[2] 仇中群,程希骏.基于协整的股指期货跨期套利策略模型[J] .系统工程,2008,(12).

[3] 雷井生,林莎.基于高频数据的统计套利策略及实证研究[J] .科研管理,2013,(6).

中图分类号: F224.0

文献标志码: A

文章编号: 1673-291X(2019)07-0096-02

收稿日期: 2018-07-08

作者简介: 方军(1994-),男,安徽安庆人,硕士研究生,从事经济模型与经济预测研究;李星野(1958-),男,辽宁葫芦岛人,教授,从事时间序列分析、信号处理研究。

[责任编辑 陈丽敏]

标签:;  ;  ;  ;  

基于高频数据的统计套利实证研究论文
下载Doc文档

猜你喜欢