零膨胀损失回归模型及其应用_泊松分布论文

零膨胀损失次数回归模型及其应用,本文主要内容关键词为:及其应用论文,模型论文,损失论文,次数论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

传统的损失次数回归模型通常假设损失次数服从泊松分布、负二项分布或泊松—逆高斯分布等。但在某些情况下,损失次数具有零膨胀的特点,譬如,对于具有免赔额的保单来说,只有当一次事故的损失金额超过免赔额时才会导致索赔,因此损失次数在0点会出现概率堆积,在这种情况下,应用零膨胀模型可以更加准确地对损失次数进行预测。

零膨胀泊松分布(ZIP)是对Poisson分布在零点的概率进行调高而得到的。在此基础上,考虑到过离散数据的影响,还可以把零膨胀泊松分布中的泊松部分用负二项分布(NB)、广义泊松分布(GP)或泊松—逆高斯分布(PIG)来代替,相应地就形成了零膨胀负二项分布(ZINB)、零膨胀广义泊松分布(ZIGP)和零膨胀泊松—逆高斯分布(ZIPIG)。在回归模型中,如果假设因变量服从上述的各种零膨胀分布,就得到了相应的零膨胀回归模型。

近些年来,零膨胀回归模型受到越来越多的关注。Lambert(1992)在研究焊接瑕疵时首先使用了ZIP回归模型,并对瑕疵次数数据进行了拟合,运用EM算法和Newton-Raphson迭代方法对模型参数进行了估计。作为对ZIP回归模型的最早推广,考虑到数据的过离散特征,Heilbron(1994)讨论了零膨胀负二项(ZINB)回归模型。Gupta et al.(1996)应用零膨胀广义泊松(ZAGP)回归模型对胎儿运动与死亡次数数据进行了拟合。Czado,Erhardt,Min与Wagner(2007)又在此基础上对ZIGP回归模型做了进一步的研究与分析。另外,为了进行模型间的比较,Yip和Yau(2004)同时运用ZIP、ZINB、ZIGP以及ZIDP(ZI Double Poisson)回归模型拟合了车险索赔次数数据。作为泊松分布的又一推广,泊松—逆高斯(PIG)分布也适用于拟合过离散数据。Shoukri(2004)利用PIG回归模型拟合了奶牛乳腺炎发病率的数据,并与NB回归模型进行了比较,但没有考虑相应的零膨胀模型。本文将讨论零膨胀泊松—逆高斯回归模型的应用问题。

二、模型构造和参数估计

(一)零膨胀泊松回归(ZIP)

假设共有n个风险类别,第i个风险类别的损失次数用随机变量表示,且服从下述分布:

上式中,随机变量服从泊松分布、负二项分布或广义泊松分布等。如果假设服从均值为的泊松分布,即:

基于上述假设,由(1)式可得零膨胀泊松回归模型的对数似然函数如下(Yip、Yau,2004):

可以应用极大似然法对上述模型的参数进行估计,此时,要求对数似然函数的一阶偏导数为零,即需要求解下述方程组:

上述方程组是非线性的,需要采用数值方法求解。应用Newton-Raphson迭代法可以得到参数β的第m次迭代方程为:

对数似然函数关于β的一阶导数和二阶导数可以如下计算:

在上面两式中,n是观察值(风险类别)的个数。将上面两式带入方程(2)即可求出参数向量β的迭代公式。

仍然利用Newton-Raphson迭代法可得到下面的迭代方程:

将上面两式带入方程(3)即可得到求解参数a的迭代方程。

(二)零膨胀负二项回归(ZINB)

在泊松回归中,假设风险类别是同质的,即均值在每一风险类别中固定不变。如果风险类别是非同质的,即在每一风险类别中,不同的个体风险具有不同的,假设服从均值为的伽玛分布,则风险类别的损失次数将服从下述的负二项分布:

把上述负二项分布的概率函数带入(1)式,即可得到零膨胀负二项分布(ZINB),其均值和方差分别为(Yip、Yau,2004):

求解参数a时,仍然可以应用公式(3)的迭代方程。对于ZINB回归模型而言,G与G′,的表达式分别为:

在ZINB回归模型中,还需估计离散参数k。相对于极大似然法而言,矩估计比较简单,因此可以使用Breslow(1984)的方法,即令统计量与其自由度相等而得到对参数k的估计值:

(三)零膨胀广义泊松回归(ZIGP)

在研究损失次数的分布时,广义泊松分布(Generalized Poisson)也是常用的模型之一,它的优点是既可以拟合过离散数据,也可以拟合过紧缩数据,其概率函数为:

广义泊松分布是泊松分布的推广,当参数k=0时即转化为泊松分布;当k>0时,模型适用于过离散数据,而当k<0时,模型适用于过紧缩数据。

把上述分布函数带入(1)式即可得到零膨胀广义泊松分布(ZIGP),其均值与方差分别为(Yip、Yau,2004):

求解参数a时,仍然可以应用公式(3)的迭代方程。在ZIGP回归模型中G与G′,的值分别为:

对于离散参数k,仍然可以用(5)式和(6)式所表示的矩估计法进行估计,其中M与M'的值可分别表示为:

(四)零膨胀泊松逆高斯回归(ZIPIG)

在前述其他的零膨胀回归模型中,都写出了参数估计的Newton-Raphson迭代方程。而在零膨胀泊松—逆高斯回归模型中,由于似然函数的形式复杂,难以给出迭代方程的显示表达,但可以采用有关软件(如MATLAB)进行数值求解。在此过程中需要设定参数的初始值,考虑到PIG分布是由泊松分布推广而来,因此可以用泊松回归的参数估计结果作为PIG分布参数估计的初始值,并设离散参数的初始值k=0。

三、实际应用

(一)数据描述

本文使用一组耳病发生次数数据(来源:http://www.statsci.org/data/oz/eafinf.html),其中包括以下几个变量:游泳的频率、游泳地点、目标人群的年龄、性别和发生耳病的次数,共有287组观测数据。每一组数据包括耳病发生次数以及解释变量的取值,i=1,2,…,287,其中解释变量的取值如表1所示。

表1 解释变量的取值

图1 观察数据的条形图

图1是耳病发生次数分布的条形图,其中耳病发生次数的取值区间从0至17。其中发生次数为0的人数约占总体人数的52.6%,发生次数为1的人数约占总体的13.9%,发生次数为2的人数与发生次数为1的人数相当,约占总体的13.6%,随着发生次数的增加,其人数所占比例也越来越小,直到发生次数为17的人数仅占总体人数的0.3%。从图1可以看出,耳病发生人数在零点具有较大的概率堆积,因此可以推测,如果用零膨胀模型对其进行预测,效果可能会更好。

(二)参数估计

表2是用泊松回归、负二项回归、广义泊松回归和泊松—逆高斯回归对上述数据进行拟合时的参数估计值。在该表中,Df表示自由度,l是对数似然函数的值。AIC和BIC是评价模型拟合效果的两个统计量,它们的计算公式如下(参见:Ismail、Jemain,2007):

AIC=-2l+2p

BIC=-2l+pin(n)

其中p是模型的参数个数,n是观察数据(风险类别)的个数,在本例中n=287。

AIC和BIC的值越小,表示模型的拟合效果越好。

从表2可以看出,四个模型的回归系数比较相近,泊松回归模型的标准差较小,而后两个模型则相对大一些。从模型的估计效果看,泊松回归的拟合效果不理想,其中AIC与BIC统计量较大,这可能是由于耳病发生次数存在过离散特征所致(参见图1)。后三个模型都具有过离散特征,因此拟合效果都有所改进。

表2 不考虑零膨胀效应模型的参数估计值

表3 零膨胀模型的参数估计值

表3是用零膨胀泊松回归、零膨胀负二项回归、零膨胀广义泊松回归和零膨胀泊松—逆高斯回归对上述数据进行拟合时的参数估计值。可以看出,在所有这些零膨胀模型中,零膨胀泊松回归在零点的概率增加最多(φ的估计值最大),说明零膨胀泊松回归比泊松回归有较大改善。对于零膨胀负二项回归而言,其零点的概率增加最小,从调整前后两模型的AIC和BIC统计量也可看出,零膨胀模型对负二项回归的改善效果有限。零膨胀广义泊松回归在零点的概率有较大增加,因此与广义泊松回归相比,零膨胀广义泊松回归模型也有一定改善。与泊松—逆高斯回归模型相比,零膨胀泊松—逆高斯回归模型的改善效果较为明显。总之,当原始数据存在零膨胀特点时,零膨胀回归模型可以改善对数据的拟合效果。

用AIC和BIC统计量综合比较这8个模型对上述数据的拟合效果,可以看出,零膨胀泊松—逆高斯回归模型的拟合效果相对较好。这是因为上述数据一方面在零点有较大的概率,另一方面尾部较长,存在过离散特征,而零膨胀泊松—逆高斯回归模型正好可以满足这一特点,所以对上述数据的拟合效果相对较好。不过,在本例的零膨胀泊松—逆高斯模型中,某些参数不太显著(P值较大),因此还存在进一步优化的可能,但限于本文的目的,故将其略去。

标签:;  ;  ;  ;  ;  ;  

零膨胀损失回归模型及其应用_泊松分布论文
下载Doc文档

猜你喜欢