年金产品寿命风险的动态死亡率建模与度量--基于有限数据的贝叶斯方法_贝叶斯论文

动态死亡率建模与年金产品长寿风险的度量——基于有限数据条件下的贝叶斯方法,本文主要内容关键词为:长寿论文,年金论文,死亡率论文,条件下论文,度量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

长寿风险是指由于未来死亡率的实际值与预期值不一致而给保险公司和养老金机构带来的可能损失(Antolin,2007)。随着我国人口死亡率的不断下降(特别是高年龄段)和预期寿命的不断增加,长寿风险已成为保险公司和养老金机构面临的主要风险之一,也成为理论和实务研究的重点。

度量长寿风险的关键是对死亡率进行建模并预测,传统的确定型死亡率模型,如Gompertz(1825)、Makeham(1860)、Thiele(1872)没有考虑到死亡率变化的时间特征,因此,不能很好地预测死亡率的变化情况。Lee和Carter(1992)最早提出了一个简洁的动态死亡率模型,他们创造性地将死亡率分解为年龄效应、时间效应和年龄改进效应。Renshaw和Haberman(2006)在Lee-Carter模型的基础上提出队列效应模型(RH模型),该模型很好地解决了Lee-Carter模型误差项与出生年的相关性问题。然而,RH模型存在参数估计值缺乏稳健性的问题,Cairns等(2006)认为,缺乏稳健性的主要原因在于RH模型只得到了模型似然函数的局部最优解,而非全局最优解。Currie(2006)提出简洁的RH模型以消除原RH模型解的不稳定性问题。Delwarde等(2007)提出泊松对数双线模型用于解决Lee-Carter模型年龄改进效应的光滑性问题。CMI(2007)、Haberman等(2008)、Plat(2009)的研究都是对Lee-Carter系列模型存在的各种不足的改进。近期的研究主要表现在使用各种检验准则对不同死亡率模型的有效性进行检验,从而选择出最优模型。Cairns等(2009)使用贝叶斯准则、残差的正态性检验、稳健性检验比较了八种不同模型的拟合效果。Dowd等(2010)使用更多的检验方法比较了各种模型的拟合效果。Wang等(2012)使用贝叶斯信息准则比较了八种不同死亡率模型的拟合效果,结果发现,扩展的Dowd模型能够较好地拟合英国和美国的历史死亡数据,同时保持拟合结果的稳健性。

国内方面,祝伟等(2009)利用Lee-Carter模型对中国人口死亡率建模并对未来死亡率进行预测。韩猛和王晓军(2010)对Lee-Carter模型进行改进,通过一个双随机过程对Lee-Carter模型中的时间项进行建模,此外还研究了预期寿命变化对我国养老金个人账户的影响。李志生和刘恒甲(2010)分析了Lee-Carter模型各种拟合方法的拟合优度,利用最优拟合模型,对未来中国人口平均预期寿命进行了区间估计。王晓军和黄顺林(2011)根据贝叶斯准则与似然比检验,在几个广泛使用的随机死亡率模型中,比较和选择了最适合中国男性人口死亡率经验数据的模型,并在此模型基础上对未来死亡率进行预测,对年金支付受死亡率改善的影响做了测算。

上述文献的共同缺陷在于未考虑到我国人口统计数据的具体特征。与国外大样本长期限的统计数据相比,我国人口统计数据相对匮乏,主要表现在以下两点:首先,我国有人口死亡统计数据的年限只有短短17年(1995—2011年),而国外的人口统计数据短则几十年,长则数百年。较短的数据年限不仅制约了模型参数估计结果的准确性,而且影响了模型预测的精度;其次,除2000年外,我国人口死亡状况的统计数据均来源于抽样数据,存在风险暴露不足的问题。例如在2002年的人口死亡统计数据中,男性样本风险暴露总数为619164①,而40岁及以上各年龄段的风险暴露数均不足10000(长寿风险主要来源于高年龄人群死亡率的下降),风险暴露不足导致相同年龄段的人口死亡率在不同年度出现较大的波动,而死亡率的不规则波动降低了模型参数估计及预测结果的可信度。相比之下,国外(特别是发达国家)人口统计数据的风险暴露充分,以美国为例,2002年男性人口风险暴露总数为141436513②,是我国的228倍,各年龄段的风险暴露以百万计。较高的风险暴露数降低了相同年龄段人口的死亡率在不同年度的非规则波动,提高了模型估计结果的可信度。图1给出了1995-2010年中美两国男性不同年龄段人口一年期死亡率的比较,从图1中可以看出,与美国相比,我国人口死亡率在不同年龄的波动性较大,而这种不规则波动主要是由于风险暴露不足造成的。

本文使用贝叶斯马尔科夫过程蒙特卡罗模拟方法(简称贝叶斯MCMC)通过构建先验假设来弥补样本数据不足的缺陷。使用贝叶斯MCMC方法的优点在于:首先,贝叶斯方法利用先验假设来弥补样本数据不足的问题;其次,该方法不需要模型似然函数的可导性,它通过模拟参数的形成,使参数收敛,进而对模拟参数的均值进行估计,无须求导就能得到很好的估计结果,也不存在收敛到局部极值的情况;最后,有别于传统的二阶段参数估计方法③,贝叶斯方法通过MCMC抽样一次性估计出所有参数的值,从而很好地避免了二阶段方法参数估计的不连贯性问题(Czado等,2005)。

本文的创新在于:首先,使用贝叶斯方法通过MCMC抽样对Currie(2006)模型的参数进行估计,贝叶斯方法避免了由于数据不足而导致的参数估计结果可信性不高的问题;其次,使用The HumanMortality Database数据库中27个国家的人口死亡数据对先验分布的参数值进行估计,避免了先验分布参数值设定的随意性问题,进一步增强了模型估计结果的可信性;最后,通过一个简单的年金产品度量未来死亡率变化对该年金现值的影响,从而度量长寿风险。

一、模型的构建

1.动态死亡率模型的确定

Lee和Carter(1992)最早提出了一个简洁的动态死亡率模型,该模型的表达式为:

从图2可以看出,在Lee-Carter模型中,误差项εx,t会随出生年的变化出现一定的波动性。Renshaw和Haberman(2006)认为,死亡率不仅取决于年龄和时间,而且与出生年相关,这种相关性被称为队列效应(Cohort Effect)。由此,他们提出了队列效应模型(R-H模型),该模型的数学表达式为:

Currie(2006)提出了简洁的队列效应模型以消除R-H模型解的不稳定性问题。Currie模型的数学表达式为:(3)

Currie模型考虑到了队列效应,同时具有较好的稳健性,而且结构相对简单,因此,本文以Currie死亡率模型为基础,使用贝叶斯方法通过MCMC抽样对我国人口死亡状况进行建模,并对相关参数进行估计。

2.参数先验概率分布的确定

Lee和Carter(1992)使用Box-Jenkins方法对时间效应进行建模并估计参数,他们发现,服从带有漂移的随机游走过程,他们的结论得到之后的学者(Renshaw和Haberman ,2006;Cairns等,2006)的进一步证实,本文借鉴Lee和Carter的结论,认为kt服从带有漂移的随机游走过程:

在死亡人数及风险暴露数给定的情况下,参数α、κ、γ的后验分布为:

p(α,κ,γ|D)∝f(D|α,κ,γ)p(α,κ,γ)(10)

3.MCMC的抽样过程

MCMC估计法最重要的步骤是对参数的取样并得到参数模拟值,之后的蒙特卡罗估计只是对参数模拟值求均值的过程。目前,MCMC估计法包括两种重要的参数抽样方法,分别是Metropolis-Hast-ing抽样(简称MH抽样)和Gibbs抽样。MH抽样较复杂,它首先设定参照密度函数,并从该密度函数取样得到候选参数值,结合目标密度函数计算候选参数值的接受概率,并按照这一概率接受该候选值作为参数的取样值,不断重复这一过程得到一系列参数取样值。

为了得到时间效应的MH抽样,我们首先需要得到的条件概率密度分布。否则为:

否则为:

获得马尔科夫链后验抽样的另一种方法是Gibbs抽样,Gibbs抽样首先赋予各参数以随机值,然后在其他参数值给定的条件下逐次访问每一个参数值,并通过不断的迭代过程,最终形成多次抽样。Gibbs取样法实际上是M-H取样法的一个特例,该方法利用后验概率密度函数中每个参数的条件概率密度函数,进行随机取样。由于参数的条件概率密度函数往往是我们所熟知的统计分布形式,故而这些参数的随机取样容易获得,而完成参数估计过程,只需将这些从条件概率密度函数得到的取样值取平均值。

Gibbs取样法的关键是得到各参数的条件概率密度函数,为了得到年龄效应对数值的条件概率密度函数,我们首先将对数似然函数表示为的函数:

二、数据的选择与计算结果

1.数据的选择和处理

本文选择1995-2011年连续17年的全国男性人口40~ 90岁死亡率的历史数据,所有原始数据都来源于《中国人口统计年鉴》(1995-2011年),对于原始数据做如下处理:

第一,进行年龄分组。祝伟等(2009)、韩猛等(2010)分别采用每5岁的年龄分组方法,然而,这种方法会使死亡率预测结果出现一定的偏差,特别是在高年龄段。显而易见,60岁和65岁个体的死亡率是不同的,有鉴于此,我们使用每1岁的年龄分组方法。

第二,确定年龄末组。由于大多数统计年份的末组都是90岁以上,因此,本文的末组选为90岁以上。1997年数据的末组为85岁以上,对于该年份85岁以上个体的死亡率,我们采用Human Mortality Data中的数据处理方法进行拆分。2002年数据的末组为100岁以上,我们对90岁以上的数据进行合并。

第三,对缺失数据的处理。由于1996年人口统计年鉴没有分年龄性别死亡率数据,本文使用相邻年份的死亡人数及风险暴露数作插值处理。

2.先验分布参数值的确定和循环初始值的选择

MCMC估计法的第一步是确定先验分布的参数值,在样本容量很大的情况下,先验分布的参数值对最终结果的影响几乎为零,可以忽略不计。然而,当样本容量有限时,参数值对最终结果就会产生一定的影响,为了避免参数设定的随意性,本文使用The Human Mortality Database数据库中的27个国家的人口死亡数据对模型先验分布的参数值进行估计。具体的过程为:首先,使用极大似然方法直接估计出Currie模型的年龄效应,时间效应和队列效应值;然后,根据上述估计结果计算模型先验分布的参数值。

在得到先验分布的参数值之后,我们就可以使用MCMC方法通过后验分布重复抽取后验分布的观察值,在MCMC技术下,首先需要对变量的初始值进行设定,初始值的设置其实并不重要,当模拟次数足够大时,初始值对最终结果的影响几乎为零。只是,如果初始值设置适当,参数能够较快的收敛。考虑到Currie模型的约束条件,本文将年龄效应初始值设定为各年龄中央死亡率对数的平均值,时间效应和队列效应的初始值全部设定为零。

3.参数的估计结果

本文使用R软件编程,共进行了50000次模拟,废弃前面10000次的模拟值,对后面40000次的模拟结果求均值从而得到各个参数的估计值。由于涉及到133个参数,鉴于篇幅所限,这里并不给出每一个参数的模拟状况。为了检验参数模拟值的收敛性,本文使用Smith和Robert(1992)提出的检验方法对模拟值的收敛性进行检验,结果发现,所有的参数都满足收敛性要求④。同时,为了便于比较不同模型及方法的参数估计结果,我们还使用极大似然方法直接估计了Lee-Carter模型、R-H模型以及C urrie模型的参数值,图3显示了四种不同模型及方法得到的参数估计结果⑤。

从图3可以得到以下三点结论:首先观察年龄效应,非贝叶斯方法得到的年龄效应几乎完全重合,而贝叶斯方法得到的年龄效应小于非贝叶斯方法。这表明,与贝叶斯方法相比,非贝叶斯方法会高估死亡率变化的年龄效应;其次,考虑时间效应,非贝叶斯方法得到的时间效应非常相似,呈现出总体的下降趋势,只是下降呈一定的波动性和不规则特征。国外的大量研究表明,除非发生特殊的自然灾害(例如地震、洪水等)和人为灾害(例如战争),相同年龄段人口死亡率随时间的变化具有一定的稳健性,而代表死亡率改进的时间效应应该具有较为平滑的特征,造成上述波动不规则特性的主要原因在于风险暴露不足。由图3可知,贝叶斯方法得到的时间效应具有较好的光滑性,满足人口死亡率变化的稳健性要求;最后,考虑队列效应,除Lee-Carter模型没有考虑到队列效应外,其他三种方法得到的队列效应值都呈不规则的波动特征,只是贝叶斯方法得到的队列效应波动幅度较小,这表明,贝叶斯方法降低了队列效应的波动性。

4.模型的检验

对模型进行检验的主要目的在于通过各种方法检验和比较不同模型的拟合效果,从而选择出最优的模型或方法。本文使用的检验方法有以下三种:

(1)贝叶斯信息准则。参照Cairns等(2009),本文首先使用贝叶斯信息准则(BIC)对模型的有效性进行检验。BIC能够同时兼顾模型的拟合度与简洁度,一般情况下,BIC值越大,模型的整体效果越好。BIC的定义为:

BIC=e(φ)-0.5Klog(N)(22)

其中,φ为参数估计的似然值,N为观察的样本数,K为需要估计的参数个数。

(2)残差的正态性检验。在死亡人数服从泊松分布的假设下,模型的标准残差项为:(23)

ε(t,x)应该服从参数为(0,1)的正态分布,如果残差项的标准差明显大于1,则表明该模型具有过离散现象。

(3)模型的稳健性检验。为了检验模型解的稳健性,本文同时使用1995-2010年全国男性人口60~ 90岁死亡率的历史数据对各种模型进行了求解,结果发现,除RH模型外,其他三种模型得到的结果均具有较好的稳健性特征,这与Cairns等(2009)的结论相同。表1给出了各种模型检验准则得到的检验结果。

由表1可知,贝叶斯方法得到的参数值满足时间效应的光滑性以及残差项的正态性要求,在样本区间发生变化的情况下具有较好的稳健型,且BIC值最大,因此,贝叶斯方法优于其他所有非贝叶斯方法。

三、年金产品长寿风险的度量

年金产品会因为未来死亡率变化的不确定性存在一定的长寿风险,为了度量长寿风险,本文选择的年金为2010年60岁即期给付型年金,考察未来死亡率的变化对该年金现值的影响。这里先不考虑投资风险,将贴现利率统一设定为4%。度量长寿风险由以下三步组成:

首先,根据各种不同的动态死亡率模型对死亡率进行预测,生成未来死亡率情景⑥。

其次,计算各种不同情境下的年金现值,该年金的现值可表述为:(24)

其中,(2010+t,60)代表情景1下,60岁个体活过日历年2010+t的概率。

最后,计算该现值的均值、方差、VaR⑦CVaR⑧。

为了便于比较,本文同时使用中国人口生命表(养老金业务表)计算该年金的现值。下页图4给出了由四种动态死亡率模型计算的年金现值经验概率密度分布,表2则给出了该现值的均值、方差、VaR以及CVaR值。

从表2可以得到以下三点结论:首先,在相同贴现率的假设下,四种动态死亡率模型计算的年金现值的均值比用生命表计算的年金现值分别为4.2%、3.6%、3.9%和3.1%。这表明,如果不考虑人口死亡率的趋势变化,而只使用现有的生命表为年金产品定价,保险公司将会面临较大的承保风险,虽然寿险产品为年金产品的长寿风险提供了一个天然的对冲机制(Milevsky和Promislow,2001),然而由于产品规模及类型、信息不对称以及逆选择的存在,长寿风险仍然不可能被完全对冲。另外,由于长寿风险需要较长时间才能完全体现出来,短期内对公司的财务及偿付能力不会产生显著影响,容易受到忽视。然而,从长期来看,长寿风险的影响是巨大的,若保险公司没在产品定价中考虑长寿风险因素,其在未来将会陷入较为严重的财务危机;其次,如果考虑到未来死亡率变化的不确定性,要想以较大的概率(95%)保证该年金产品偿付能力,按照Solvency II以风险为基础的偿付能力额度资本要求(SCR)计算方法,在四种模型下,保险公司为该年金持有的长寿风险SCR分别为其均值的4.6%、3.2%、3.9%和2.3%⑨。最后,比较四种动态方法,贝叶斯方法得到的年金均值及风险度量水平(即VaR和CVaR)均最低,这表明,非贝叶斯方法会高估长寿风险。主要的原因在于非贝叶斯方法使用极大似然方法直接估计参数,没有考虑到由于风险暴露不足导致的死亡率过度波动问题,而死亡率的不规则波动,最终导致年金产品的风险度量水平提高。

四、总结

本文使用贝叶斯方法通过MCMC抽样对Currie死亡率模型的参数进行了估计。为此,我们首先对模型参数的先验分布进行假设,并使用MCMC技术下的M-H抽样和Gibbs抽样对参数的后验分布进行循环抽样。在此基础上,使用我国男性人口死亡数据对上述模型进行求解,并将求解得到的结果与非贝叶斯方法得到的结果进行了比较和检验。本文最后通过生成未来死亡率的情景对年金产品的长寿风险进行了度量。本文的结论主要有以下几点:

首先,在人口死亡统计数据不足的情况下,贝叶斯方法能够更好地拟合我国人口死亡率状况。通过比较后发现,贝叶斯方法得到的参数值满足时间效应的光滑性以及残差项的正态性要求,在样本区间发生变化的情况下具有较好的稳健型,且BIC值最大。因此,使用贝叶斯方法对我国人口死亡率进行建模有很大的优越性。

其次,如果保险公司只用现有生命表计算年金产品的现值而不考虑死亡率在未来的变化,其将会面临较为严重的长寿风险。长寿风险主要来自于未来死亡率的趋势变化(未来死亡率情景的均值)和趋势变化的不确定性两方面因素,通过计算发现,使用贝叶斯方法得到的年金现值的均值比生命表计算得到的年金现值高3.1%。另外,由于死亡率趋势变化的不确定性,保险公司为长寿风险持有的偿付能力额度资本要求约为年金均值的2.3%。

最后,非贝叶斯方法得到的年金均值和风险度量水平(VaR和CVaR)均高于贝叶斯方法得到的结果,可见,非贝叶斯方法可能会高估长寿风险。

注释:

①数据来源:2002年《中国人口统计年鉴》。

②数据来源:The Human Mortality Database。

③所谓二阶段参数估计方法是指首先使用极大似然方法对各种动态死亡率模型的年龄效应、时间效应和队列效应进行估计,然后使用Box-Jenkins方法估计出时间效应kt的参数值。

④由于参数较多,这里并不给出检验结果,有兴趣的读者可向作者索要。

⑤其中,Lee-Carter模型没有考虑队列效应,本文将Lee-Carter模型队列效应值全部设定为零。

⑥本文使用模型生成10000种未来死亡率情景。

⑦VaR(在险价值)是指在给定的置信水平下,衡量某资产或负债在给定的时间内可能发生的最大损失。用数学表示VaR为:

Prob(L> Va)=1-a%

其中,L代表损失,a%代表置信水平。

⑧CVaR(条件风险价值)是指在一定的置信水平上,度量出在给定的时间段内损失超过VaR的条件期望值。用数学表示CVaR为:

CVa(L)=E(L |L≥Va

⑨本文使用VaR方法计算偿付能力资本要求,即偿付能力资本要求等于VaR-年金现值的均值。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

年金产品寿命风险的动态死亡率建模与度量--基于有限数据的贝叶斯方法_贝叶斯论文
下载Doc文档

猜你喜欢