基于操作时间和广义线性混合模型的储备评估技术研究_线性模型论文

基于操作时间和广义线性混合模型的准备金评估技术研究，本文主要内容关键词为：准备金论文,广义论文,线性论文,技术研究论文,模型论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

未决赔款准备金（Incurred But Not Reported Claims Reserving，简称IBNR）是非寿险公司最大的负债项目，对保险公司的财务安全具有举足轻重的作用，因此也是监管的重要内容。

（一）研究背景

各种精算师体系中的经典准备金评估方法在精算实务分析和保险监管中会面临以下几个问题：

（1）进展年往往最多两年，导致无法建模。北美精算师的标准教材中准备金主要是基于流量三角形，在这些案例中，有五年以上完整的损失进展数据，无论是建立确定性模型还是随机模型都没有问题。但是根据我们对行业协会真实数据统计的结果，几乎没有进展到五六年后才转化为最终赔款的先例。事实上，精算师教材中的情况主要是在一些责任险中出现，商业保险实务中绝大部分赔案的理赔时效在一个月内，而且有大部分赔案的理赔时效在两天内。或者说，真实的流量三角形只有两个进展年共三个数据，不太可能估计复杂的模型。

（2）保险监管需要对任意时点的准备金状况进行评估，而不仅仅是财务年或者日历年。传统准备金计提方法往往是根据损失年和进展年来评估，但是保险监管要求动态监管所有公司，如果需要，我们应该能评估任何时点上任何公司的准备金状况，损失进展法的分析粒度往往是年，最多是月，不能满足监管的需要。

（3）监管角度评估准备金与公司计提准备金在数据结构上有很大不同。准备金评估是承保风险控制的重要内容。从保险公司的角度来讲，可以从核心业务系统获得赔付的细节数据（只有个体经验数据，缺乏横向对比信息），但是从保险公司监管的角度来看，主要是基于保监会、保监局或者行业协会的平台数据进行分析。公司的核心业务数据包含的信息比较多，而行业协会搜集数据的信息平台很难覆盖赔付的细节数据；另外一方面，公司的核心业务数据只包含本公司的数据，没有其他公司的参考信息，而行业协会的信息平台数据同时包含有同一市场上几乎所有保险人的赔付信息。

（4）公司的业务结构不同使得各个公司的损失进展模式不同。各个公司的业务结构不同，损失进展模式自然不同，如果使用传统损失进展法来分析，没有体现损失进展模式的差异性，因此误差范围很大。

（5）准备金评估必须考虑公司这个多水平因子，但是引入多水平因子就必须考虑异质性问题。从保险监管的角度来分析，评估某个公司的准备金状况，同时需要考虑其他信息，根据信度的思想，其他公司的准备金状况同时也提供了重要支持信息。因此，建模时我们有必要引入公司这个多水平因子，公司业务结构、技术效率、业务规模有非常大的差异，因此同时会引入异质性问题，如果不考虑这些因素，准备金评估是有偏的。

简言之，保险监管需要基于信息平台所有保险公司的数据进行建模分析，传统准备金评估方法会面临种种问题：①流量三角形矩阵中部分单元格可能为零，导致随机准备金评估模型失效；②鉴于重疾险业务的特殊性，损失进展期很短，流量三角形数据相对于参数而言过少，导致事故年/进展年的分析范式估计失败；③信息平台各个公司的业务结构不同，损失进展的模式不一样，数据出现分层机构，我们进行准备金评估时必须考虑这种异质性问题。

本文的基本思想是改变事故年/进展年的分析范式，以操作时间为突破口，替换流量三角形矩阵的结构，按照信度思想要求综合个体经验数据和行业信息（所有保险人）进行分析。精算师必须根据数据特征选择恰当的准备金评估方法，而这种选择对准备金的评估结果有可能产生重要影响。在准备金评估过程中，本文尝试综合两种信息对准备金监管提供决策支持。

（二）文献综述

未决赔款准备金可以划分为确定性模型和随机性模型。

（1）确定性模型

《保险公司非寿险业务准备金管理办法（试行）》规定使用的链梯法、案均赔款法、准备金进展法和B-F法，模型之间的比较见孟生旺（2007）[1]。这些都是确定性模型，主要有以下几个缺点：一是很难进行假设检验等统计推断；二是无法估计准备金预测值的均方误差（Mean Square Error of Prediction，简称MSEP）。

（2）随机模型

随机模型将未决赔款看成是一个随机变量，通过分布假设或者无分布假设来估算未决赔款准备金，更能反映未决赔款准备金随机性的特点。

（a）回归分析。W.H.Panning（2006）[2]利用线性回归算法估计未决赔款准备金以及准备金估计的不确定性。该模型要求加权标准误差符合正态分布，然而随着进展年的延伸，误差项的扰动是递减的，即误差项通常不符合正态分布，这就降低了准备金估计特别是准备金不确定性估计的精度。对实务数据应用线性回归模型时，只有残差分布满足假设条件时，模型才有意义。

（b）广义线性模型。假设随机变量服从不同的分布，将得到不同的随机性模型。譬如，如果假设赔款服从指数分布族，就得到广义线性模型。Nelder and Wedderburn（1972）[3]构建了指数分布簇响应变量的完整模型框架。McCullagh和Nelder（1983，1989）[4]出版了广义线性模型专著。Liang和Zeger（1986）[5]边际模型与条件模型设定。Williams（1987）[6]基于deviance讨论模型诊断问题，随着广义估计方程的提出和完善（Lipsitz，Laird and Harrington，1991）[7]，广义线性模型的理论框架已经成熟。Haberman和Renshaw（1996）[8]和Duncan（2004）[9]综述了广义线性模型的主要精算应用。

用广义线性模型对未决赔款准备金进行估算，主要是对流量三角形下三角部分进行估计。在流量三角形的基础上，假设增量赔付额服从对数正态分布，可以通过估计分布参数得到未决赔款准备金的估计值及其精度。Renshaw（1989）[10]假定链梯模型中误差满足对数正态分布，Christofides（1997）[11]，England和Verrall（2002）[12]拓展了该模型。但是该模型都有一个缺陷，也即当加权标准残差呈现趋势性变化时，不适用于预测未决赔款准备金。

Mack（1991）[13]引入Gamma模型。Kaas等（2001）[14]和Anderson等（2004）[15]开始将广义线性模型应用于未决赔款准备金。毛泽春等（2005）[16]对未决赔款准备金进行分析时使用了双广义线性模型。刘乐平等（2006）[17]究了未决赔款准备金的稳健估计，分析的思路是分层贝叶斯下用广义线性模型和BMOM方法来分析。卢志义和刘乐平（2007）[18]于广义线性模型讨论费率厘定和准备金估计。卢志义和刘乐平（2008）[19]使用两阶段广义线性模型来估计未决赔款准备金。张连增和段白鸽（2012）[20]将Bootstrap法应用于广义线性模型来估计准备金和标准误。认为，在过度离散泊松模型中，参数与非参数Bootstrap方法得到的参数误差、过程标准差、预测均方误差等非常接近解析估计。

（c）Tweedie分布簇广义线性模型。仅仅使用指数分布簇来构建广义线性模型还不够。学者长期探索如何扩展指数分布簇，其中一个重要成果是Tweedie分布簇。Jewell（1974）[21]出了Jewell定理，建立了指数分布簇模型，为Tweedie分布簇奠定基础。

（1997）[22]证明了：Tweedie模型（Tweedie，1984）[23]是对尺度变换运算封闭的再生指数模型。

和De Souza（1994）[24]，Smyth和

（2002）[25]用Tweedie模型拟合了保险索赔数据。Wüthrich（2003）[26]将Tweedie类复合Poisson模型应用于IBNR准备金评估。

（d）广义线性混合模型。广义线性模型无法解决因子之间的依赖关系问题，更无法解决数据分层和多水平因子的建模问题。作为广义线性模型的推广，广义线性混合模型（Breslow和Clayton，1993）[27]允许数据间设定分层效应，还可把随机效应和重复观测效应包含进来研究，能很好地解决多水平因子问题。Breslow和Clayton（1993）[27]对罚拟似然和边际拟似然两种估计方法进行系统比较，Wolfinger和O'Connell（1993）[28]提出利用伪似然法来估计广义线性混合模型。Antonio和Beirlant（2007）[29]给出了精算应用例子。谢远涛和杨娟（2010）[30]针对广义Gamma分布簇讨论广义线性混合模型。谢远涛等（2012）[31]建立了信度模型和广义线性混合模型的联合建模框架。

（3）其他

Renshaw（1998）[32]、England和Verrall（2002）[12]对各种常见的随机模型进行了比较；Schmidt（2006）[33]讨论了各种确定性模型与B-F模型之间的关系。Verrall（2004）[34]探讨了B-F模型与广义线性模型的关系。张忠俊等（2012）[35]对未决赔款准备金计算方法给出了综述。

准备金计提中，我们不能忽略的一个现象是过度离散性和零膨胀性。例如，尺度参数与费率因子之间可能存在一定关系，徐昕、袁卫和孟生旺（2009）[36]认为零膨胀广义Poisson回归模型可以解决过离散问题。

总体上看，模型从确定性模型向随机性模型发展，从静态向动态发展，从单纯使用正态分布向指数分布簇再到Tweedie分布簇发展，从经典分布向考虑零膨胀和过离散的分布发展，参数模型与非参数模型互相结合。

二、理论模型

考虑到不同公司之间的差异性，需要对多水平因子进行建模。因此需要在广义线性混合模型框架下分析。

（一）操作时间

考虑到各个公司承保业务的差异。比方说，A公司承保某种重疾险，其业务偏年轻人，而年轻人爆发某种重疾的时间多为春天，而B公司承保业务偏年长者，爆发重疾的时间多为秋天。这样单纯建立广义线性混合模型很难捕捉这种细小的差异。为了将赔款次数和赔款额数据统一到同一模型中，Brockmann和Wright（1992）[37]引入操作时间（operational time），反映的是在某一时刻，已经完成的赔付次数占事故年赔付总次数的比例。第m次赔款的操作时间定义为

，其中，N表示事故年的总赔款次数。第i个事故年的第j个进展年的平均操作时间为：

表示第i个事故年的总赔款次数；

表示第i个事故年的第j个进展年的赔款次数。把操作时间引入流量三角形，进展年不再是年，而是任何时间，而且数据是根据赔付记录来计算的，因此，不可能出现某个单元格数据为零的现象，可以完美解决流量三角形数据过少、部分单元格为空所导致的建模失败问题，同时能有效解决不同公司损失进展模式的差异。

（二）模型

基于操作时间，我们有充分的数据建模。我们的重点是对固定效应和随机效应建模，解决异质性问题，解决过离散问题。考虑建立两个模型进行分析：

（1）Tweedie分布簇广义线性混合模型（模型A）

Tweedie模型是再生指数分布簇模型，对尺度变换封闭，该模型假定方差函数具有幂函数的结构：

随机模型的缺点是过度参数化（over-parame-terised），对事故年和进展年的每一个水平值都要拟合一个参数①。可以假定赔付额流量模式满足某一个函数形式，拟合一条参数曲线。Hoerl曲线（也称伽玛曲线）能较好地反映赔付额流量随进展年变化的趋势，即先快速增长至顶点，然后沿指数型曲线衰退。在Tweedie分布下我们可以将Hoerl曲线推广为广义线性混合模型：

（2）双广义线性混合模型（模型B）

（a）将Hoerl曲线进行推广，对已付案均赔款建立Gamma分布广义线性混合模型（模型B1）：

我们根据具体数据情况，选择q=1。

（b）对于已付赔款次数建立零膨胀广义Poisson回归ZIGP（S）广义线性混合模型，可以解决分类费率厘定中的过离散问题。同样对Hoerl曲线进行推广（模型B2）：

考虑到各家公司的保额不等，我们用分单数②作为offset项来建模。选择q=1。

三、实证分析

我们重点对重大疾病保险（短期健康险）进行分析。一般来说，健康险和责任险往往结合在一起销售，重疾险往往不是单独销售的，而是附加险或者以“责任”的形式捆绑于其他险种，这时候利用保单保费或者保单赔付信息来分析是不准确的。考虑到信息平台可以提取责任保费，我们实际上是对责任层进行分析，包含重大疾病保险责任（也即信息平台的责任代码为“H0111”）的数据进行分析。总共包括35家财险公司和50家人寿保险公司，实际纳入信息平台的有33家财险公司和41家人寿保险公司。有重疾险产品赔付记录的有15家公司。大部分保男性30种，女性32种重大疾病。

所需用的赔付记录数据从2009年1月1日~2012年7月31日。为了判断效果的好坏，我们把样本集拆分为两个集合，训练集和测试集，其中训练集包含2009年1月1日~2011年12月30日观测数据，测试集包含2012年1月1日~2012年7月31日数据。

（一）过离散检验

我们使用Boning提出的O检验来对过离散进行检验：

（二）模型回归的结果

由Boning检验，构造O统计量为641.2119，伴随概率为p＜0.0001，显著拒绝了原假设，认为存在过度离散性，因此传统意义上的Poisson回归模型不适合。我们分别建立以下三种广义线性模型。

（1）Tweedie分布簇广义线性混合模型（模型A）

在构造Tweedie模型之前，先要估计幂系数，为1.6582。我们构造LM统计量的值为731.3254，伴随概率为p＜0.0001，存在过度离散性。

回归结果见表1的第一列。回归的常数项为11.6103，伴随概率为p＜0.001。值得注意的是，第一列Scale值是Tweedie模型的幂系数估计值。

（2）双广义线性混合模型

（a）Gamma分布广义线性混合模型（模型B1）：

我们基于过离散Poisson回归的残差建立Cameron-Trivedi检验，得出过度离散参数值为11.2742。

（b）零膨胀广义Poisson回归ZIGP（s）广义线性混合模型（模型B2）：

用ZIGP（s）广义线性混合模型来替代过离散Poisson分布建模，可以很好地解释过度离散性。我们构建Dean-Lawless的T统计量值为643.2001，伴随概率为p=0.0145。同样认为存在过度离散性。

（三）Bootstrap预测误差

我们分别用Bootstrap法给出预测误差。根据我们计算的结果，由聚合风险模型计算出来的预测误差110321要大于Tweedie模型的预测误差100 824。

（四）模型误判概率

考虑到被解释变量非Bemouli分布，单纯用误判比例进行比较没有太大的意义，我们需要用不同的评价标准来评价模型。

考虑到数据不满足正态分布，我们同时分析真实值和两个模型的拟合值，得到Kendall协同系数统计量为401.03，伴随概率为0.1201。所以认为真实值和两个模型的拟合值之间的差异很小。

下面我们判断两个模型拟合值之间的差异。根据Hajek（1969，p.83）相关研究结果，Savage得分统计量

在比较指数分布簇的尺度参数的差异方面有非常突出的功效，经检验，统计量的值为0.273，伴随概率是0.1352；Siegel-Tukey得分统计量的检验值为1276，单边检验伴随概率为0.0906，在5%的置信水平下认为没有显著性差异；Ansari-Bradley得分统计量的检验值为756，伴随概率为0.1107。我们认为没有显著性差异。

如果比较分布，我们没有检验出原始数据、Tweedie模型预测值、双广义线性混合模型的预测结果之间有显著差异。

本文把操作时间引入流量三角形，建立Tweedie分布簇广义线性混合模型和双广义线性混合模型，改善了传统损失进展分析的不足。其优点和特点体现在：

（1）本文引入操作时间，即使损失进展期再短，流量三角形中仍然有足够多的数据供建模和统计推断；即使引入多水平因子，流量三角形矩阵中也不会出现某单元格数据记录为空的现象，便于随机准备金评估模型的统计推断。

（2）操作时间是（0，1）之间的值，而不再是传统的1年或者1个月，因此，我们可以在任意时点上评估准备金。其政策含义是：我们可以在任意时点对准备金进行评估，这突破了传统准备金评估的局限性，有利于动态监管和预警分析。

（3）该模型可以对公司的异质性进行分析，对多水平因子随机效应进行统计推断。

（4）当数据存在严重的过度离散性时，或者存在零膨胀现象时，传统意义上的Poisson回归模型不适合，低估了参数估计值的标准误，导致统计量值偏高，增大Ⅰ类错误，夸大解释变量效应。但在本文的模型框架下分析，可以对过度离散性和零膨胀性进行建模。

（5）本文构造的模型，既可以按照个体风险模型的分析法建模，也可以按照集体风险模型的分析法建立双广义线性混合模型；评估准备金时可以利用信度分析的思想综合单个公司的赔付数据和所有同行保险公司的信息，建模更充分。

本文实证分析部分，详细探讨了两种模型的结果，并与真值进行比较分析，结论如下：

（1）从实证分析的结果可以看出，当出现严重的过度离散性时，Tweedie分布簇广义线性混合模型和双广义线性混合模型都有不错的效果，两者的结果看不出显著性的差异。如果不考虑零膨胀过离散效应，仅仅使用Poisson回归、Gamma回归双广义线性模型，计算的结果有较大差异。

（2）根据既有研究可知，保险公司之间因为业务结构的不同出现异质性，建议把这个多水平因子以随机效应的形式引入混合模型。实证分析中，对于公司这个多水平因子，引入或者不引入，结果有非常大的差异。但是，当如果我们引入操作时间来构建模型，无论是否把保险公司变量作为混合效应，对拟合结果的影响不大。对于这一现象，我们的解释为，操作时间所揭示的损失进展模式能很好地反映各个保险公司的业务结构状况，因此与双广义线性混合模型有相同的效果。

当然本文也有很多不足：本文基于信息平台综合数据来研究准备金评估，其实是对已付赔款建模（PPCI），无法对已报案赔款准备金（PPCF）进行分析。PPCI和PPCF之间有一定的依赖性，计算出来的准备金也会有一定的差异性。本文建模的过程中没有利用到这种依赖关系，这对结果会产生一定程度的影响，也是我们进一步研究的方向。

①实际上等于水平值减去1。

②团险业务在录入平台后系统会自动拆单为分单。

标签：线性模型论文; 业务建模论文; 数据建模论文; 参数估计论文; 因子分析论文; 参数检验论文; 差异分析论文; 线性回归模型论文; 模型公司论文;

基于操作时间和广义线性混合模型的储备评估技术研究_线性模型论文

猜你喜欢