非寿险损失分布建模的一般性方法,本文主要内容关键词为:寿险论文,建模论文,损失论文,方法论文,一般性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在非寿险业务中,对损失数据所服从的分布的精确估计是一个十分重要的问题。由于非寿险损失的复杂性,必须根据近期损失数据,研究不断发展变化的损失分布,进而达到研究保费计价的问题。近年来,由于非寿险在社会经济中的作用越来越重要,有关的非寿险模型的教科书也很多,但是,在教科书中所列举的例子一般都是设计出来的特殊情况,并且数据量很小,并不涉及利用计算机系统进行计算的问题,所以很难看到有结合实际损失数据系统分析研究并加以解决的可行性完整方法过程。为弥补方法的系统性和可行性不足,本文拟通过实例系统的介绍有大量数据下的损失分布建模问题。
一、工具函数
设X是所考虑的损失分布的随机变量,密度函数为f(x),分布函数为F(x)。
定义1 如果有来自某总体的数据:。n充分地大,则该总体的分布函数F(x)可以由下面的函数近似。
在一定条件下,还可以给出这种收敛的收敛速度。
这种经验分布的优点就是简单,易于理解。但也有明显的缺点:第一,它所给出的分布函数缺乏光滑性;第二,若有截断或者删失造成数据不完全,这种方法只能给出某种条件分布函数,而不是原来要寻找的分布函数。
定义2 对于任意的实地损失额X,可以定义它的平均超出函数(mean excess loss)如下:
e(x)=E(X-d|X>d)
它表示免赔额d所导致的平均超出赔付额。对于一个特定的实地损失额X,其MEL都是免赔额d的函数。在非寿险中损失分布通常具有厚尾分布的特性,而平均超出函数反映的正是随机变量尾部的情况,平均超出函数的图形对于不同的实地损失额有着不同的形状。可对损失数据计算平均超出函数,再与理论平均超出函数的图形进行比较,就可以初步选定分布类。在实际的计算机实现过程中,通常将上述定义转换为如下的经验平均超出函数形式,以便利用计算机编程进行计算:
通过上面的思想,可以在MATLAB中编程写计算上面各式的第一项,然后再同第二项作差,得到经验平均超出函数。
经验平均超出函数十分重要,它是选择损失数据服从哪个分布类的重要工具,对于给定的损失数据,必须首先计算出经验平均超出函数。
二、建模过程
对于给定的损失数据,所谓参数化方法就是对某一个总体选定一个参数化了的分布族,并且认为这一总体的真分布应为这一分布族中之一员。
采用参数化方法的全过程分为一下几个步骤:(1)对数据进行初步分析,选定可参数化的分布族;(2)参数估计;(3)检验;(4)修正。
(一)初步分析
初步分析的目的是根据损失数据所表现出来的一些统计特性,选定可参数化的分布族。
1.直方图法
由经验数据做出直方图,再与已知分布族的密度曲线相比较,从中选定一个较接近者。
2.q-q图
经验数据相对于一个理论分布函数F的q-q图是平面上由n个点,若样本真的服从这个理论分布,那么相应的q-q图里的散点基本上应当位于平面上从(0,0)到点(1,1)的连线上。多尝试几种理论分布,通过观测相应的q-q图,可以从中选出比较接近经验数据的一种。
3.经验平均超出函数
将给定的一组损失数据带入定义2中的式(3),如果是一组从小到大的顺序统计量可以代如式(4)。由此,便可以计算出经验平均超出函数值。然后,对应于这组损失数据作出经验平均超出函数的散点图。将该图与几种重要的分布类的平均超出函数散点图作比较,就可以初步判断出该组数据近似服从哪种分布类。
(二)参数估计
当选定了备用的参数分布类之后,可以采用匹配方法和优化方法来给出其中参数的估计。所谓匹配方法就是把样本值和理论值进行匹配,由此列出关于参数的方程,方程的解就被当作参数的估计。这类方法中最常见的有矩方法和分位数方法等。所谓的优化方法是指事先给定一个准则,然后在这个准则之下求关于参数的最优解。这类方法中最常见的有最小距离法和最大似然法。
下面,简单介绍一下几种方法。
对于最小距离法,一般的可以理解为下面的情形:
由此解得的最大似然估计。
(三)检验
在得到参数估计之后,还要对结果进行假设检验。这是因为不管采用那一种方法,参数估计所得到的结果仅仅是告诉我们在我们事先选定的分布族中哪一个分布(在某种意义上)离我们的总体最近,而我们事先选定的分布族有可能本来就是不很恰当的分布族,也即有更适当的分布族没能被我们选中。所以采用对参数估计的结果进行检验。
(四)修正
当上述估计没有能够通过假设检验时,就要重新挑选分布族。挑选新的分布族,一方面要依靠数据,另一方面也靠精算师的经验。选定新的分布族之后,再进行上述三个步骤。就这样一直做下去。随着数据的增加,得到的结果将会越来越精确。
三、实证分析
现有医疗保险中的损失数据9200个,本文利用这组数据建立数据文件,并利用这组数据在MATLAB中进行损失数据分布拟和。
(一)初步分析
在把数据导入到MATALAB中后,首先给出数据基本统计信息如下:
Min 118
Max 331359
Mean 9701.4
Median 6969
Kur 162
Skewness 8.89
从上面的统计结果可以看出:损失数据的最小值为118,最大值为331359。显然,所有的损失数据都是正值,而且最大值和最小值相差很大,最大值是最小值的2808倍,平均值为9701,中位数为6969,由于中位数不易被极端值影响,所以,中位数比均值稳健。可以看出均值大于中位数,显然,均值收到了右端的一些较大值的影响。峰度为162,偏度为8.89,峰度用于度量样本数据偏离某分布的情况,正态分布的峰度为3,当样本数据的曲线峰值比正态分布高时,峰度大于3;反之,比正态分布低时,峰度小于3。偏度用于衡量样本均值的对称性,若偏度为负,则数据均值左侧的离散性比右侧的强;若偏度为正,则数据均值右侧的离散性比左侧的强。正态分布的偏度是零。从上面的统计描述结果可以看出,损失数据是一个高峰、拖尾的在正半轴的分布,具有典型的非寿险损失分布的特点。
下面,利用公式(4)在MATLAB中编程,计算经验平均超出函数,在这里需要注意的一点是在对损失数据进行排序后会发现一些数据值重复的情况,对于这些数据在本文中采用了只保留一个数据的做法,这会造成一定的信息损失,但是,由于多数重复损失数据在分布在数据值很小的部分,利用平均超出函数主要关注的是损失数据的“尾部”特性,此外,这样作也可以减少编程的复杂性,因此,在这里采用这种作法是可行的。在计算得到经验平均超出函数之后,作出相应的散点图如图1。
从经验平均超出函数的散点图的变化趋势来看,大约当x的取值大于60000后,的变化趋势趋于明显上升但并不是很稳定。通过对图1和图2的对比,可以初步断定损失数据可能服从对数正态分布或者帕雷托分布。损失数据关于对数正态分布和帕雷托分布的q-q图,如图3、图4。
图1 经验平均超出函数散点图
图2 平均超出函数图
注意到图3、图4的纵坐标轴长度并不相同,帕类托分布q-q图的纵轴的长度是对数正态分布其q-q图长度的2倍,对比两个图形可以看出,经验损失数据与对数正态分布的更为接近。因此,通过以上分析,可以决定损失数据服从对数正态分布族。
图3 对数正态分布q-q图
图4 帕雷托分布q-q图
(二)参数估计
精确的参数估计方法有三种,一种是极大似然估计法,第二种最小距离法,第三种是矩方法。矩方法涉及求解方程组的数值解,由于本问题的数据量比较大,考虑到计算机效率和计算精度问题,我们这里并不采用矩方法。最小距离法很容易理解,但是其统计特性并没有极大似然估计好,所以,本文考虑使用极大似然估计来进行参数估计,利用MATLAB得到以下结果:
Distribution: Lognormal
Log likelihood: -91773.9
Domain:
0<y<Inf
Mean:
9352.26
Variance:
5.9694e+007
Parameter Estimate Std.Err.
mu8.883230.00752009
sigma0.721302 0.00531794
Estimated covariance of parameter estimates:
musigma
mu 5.65518e-0052.39595e-018
sigma 2.39595e-0182.82805e-005
图5 对数正态分布拟和图
从上面的MATLAB极大似然估计结果看出,参数估计mu=8.88,sigma=0.72;参数估计的标准误分别为0.00752009和0.00531794,这样小的标准误表明参数估计的很好。在此参数估计结果下的拟和图见图5。
从图5可以看出,除了实际损失数据的尖峰高于拟和的对数正态分布外,在上面估计参数的结果下,对数正态分布很好的拟和了损失数据,特别是损失数据的尾部。
(三)检验
在上文中已经通过极大似然估计得到了对数正态分布族的参数估计,但参数估计所得到的结果仅仅是在事先选定的分布族中,哪一个具体分布距离损失数据的总体最近,正如在数据的初步分析的q-q图和经验平均超出函数散点图中看到的,损失数据服从哪种分布类并不明显,因此并没有十足的把握认为损失数据的总体就一定属于对数正态分布族。实际上,从区分损失数据的剩余经验图来看,损失数据总体也有可能属于帕雷托分布族,因此,我们必须对我们认为损失数据总体来自对数正态分布族的判断进行检验。
利用MATLAB编写程序得到以下结果(部分结果):
fendian=5000700090001400023000
chisum=1.415874762348426e+002
x_a=9.367194586900791e+003
我们在检验中将整个损失数据划分为六个区间,划分区间依次为:(0,5000),(5000,7000),(7000,9000),(9000,14000),(1400,23000),(23000,inf)。之所以这样划分区间是为了保证在卡方检验中使得每个,以保证卡方检验的效果。求得卡方统计量为:chisum=1.415874762348426e+002。
在90%的置信系数下,MATLAB给出的临界值为:
由于,所以,在10%的显著性水平下不能拒绝原假设,即,我们认为损失数据总体是服从参数为mu=8.88,sigma=0.72的对数正态分布的。
四、结语
本文从对给定的损失数据的描述统计分析开始,到损失分布类选择、参数估计、模型检验等过程,结合实际的医疗损失数据进行了系统、全面的理论方法论述,对于非寿险这种通常要具体问题具体分析的损失数据分布拟和给出了一套完整、清晰、科学的基于计算机实现的思路。与此同时,文章强调了MATLAB在分布类选择。参数估计等方面的强大功能,并给出了适当的编程思路。对于文章中出现的损失数据重复的问题,还有待于进一步研究更加科学的方法。
标签:正态分布论文; 参数估计论文; matlab函数论文; 损失函数论文; 对数曲线论文; 散点图论文; 分布函数论文; matlab论文; q-q图论文;