有序多分类Logistic模型在违约概率计算中的应用_违约概率论文

有序多分类logistic模型在违约概率测算中的应用，本文主要内容关键词为：概率论文,模型论文,logistic论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

引言

美国金融市场因次级抵押贷款危机遭受重创。次级抵押贷款危机起因于对信用风险没有引起足够的重视。在商业银行信用风险管理中，违约概率的测算居于重要地位。违约概率是指借款人在未来一定时期内，不能按合同要求偿还银行贷款本息或履行相关义务的可能性（概率）。测算借款人的违约概率，已被列为巴塞尔新资本协议内部评级法的关键内容，是商业银行实施经济资本管理的基础工作[1]。

现代商业银行一般在对财务指标进行量化分析的基础上，测算出客户的初始违约概率，并根据其划分一个初始信用等级，然后按照信用等级（相同客户特征），将客户归于某一类债务人，并根据一组具有相同风险特征的债务人的历史违约记录，确定客户的最终违约概率。这样得到的最终违约概率，既考虑了客户的财务数据，又考虑了客户的历史违约情况，提高了银行测算公司类客户贷款违约概率的准确度[2]。

由上述违约概率测算流程可以知道，初始违约概率的测算是对客户划分信用等级的依据，是违约概率测算流程的必备环节。目前，我国商业银行测算初始违约概率是通过内部评级系统得到风险分值，然后将风险分值转换成初始违约概率。采用这一方法确定各个指标之间权重时主观性强，且需将风险分值转换成违约概率，不能直接测算出违约概率。本文通过对银行的公司类客户的财务指标作时间加权化处理、因子分析、ROC检验，以及建立有序多分类logistic模型，能科学地确定权重并直接得出初始违约概率，对初始违约概率的测算作了有价值的探索。

一、有序多分类logistic模型在违约概率测算中的应用分析

（一）一般的二分类Logistic模型

20世纪80年代以来，logistic回归分析法逐步取代了传统的判别分析法，成为了量化公司类客户信用风险的一种主流方法。logistic回归方法不仅灵活简便，而且它的许多前提假设比较符合经济现实和金融数据的分布规律。譬如它不要求模型变量间具有线性相关关系，不要求变量服从协方差矩阵相等和残差服从正态分布等，这使得模型的分析结果比较客观。

最先利用Logistic模型进行违约概率测算研究的有Ohlson(1980)[3]、Zavgren(1985)[4]等。Logistic回归分析是一种非线性分类的统计方法，也适用于因变量中存在定性指标的问题，而且，Logistic模型的建立方法——极大似然估计法有很好的统计特性。大量实证研究表明，Logistic模型估计结果与实际数据的拟合度较高，适用性较强[5]。于立勇(2008)等在结合我国国有商业银行实际数据的基础上，通过Logistic回归模型构建了违约概率的测算模型，其实证结果表明，该模型可以作为较为理想的违约概率预测工具[6]。

最近对logistic回归方法改进的研究者主要有Laitinen(2000)，他探索了泰勒级数展开在logistic回归方法预测公司类客户违约分析中的应用[7]。石晓军(2007)则针对一般logistic回归方法存在的难以通过Hosmer-Lememshow拟合优度检验的Cramer问题，提出了边界logistic方法[8]。

Logistic模型假设因变量发生的概率与其各影响因素间呈现如下的非线性关系：

为了求解能够使l（β）达到最大化的β，需要对l（β）分别求β与的微分，得到n+1个似然方程式，并令其等于0。

（二）解释变量的预处理

由于公司类客户的各种指标会随着时间变化而变化，如果仅仅考虑最近一年的指标，可能由于公司类客户的经济周期或者偶然原因造成指标失真，最终使得违约概率测算不准确。为了解决这一问题，本文提出了对指标进行时间加权。

为了综合考虑N年财务指标，用表示该周期的综合指标，表示指标i第t年的数值，令

为了尽可能精确地测算违约概率，人们一般会尽量收集贷款的信息。如一般对公贷款除了收集公司类客户自身3年的财务报表外，还需要收集公司类客户管理层、行业、地区等大量的信息，转化为指标的一般有上百个之多。而这些指标很多是高度相关的，如果直接使用这些指标，不仅增大了建模的难度，也可能受一些无关指标的干扰。另外，各个指标之间的数量级差别很大，容易造成数量级较小的重要变量被低估甚至忽略。

由于用来解释违约概率的信用变量具有高相关性和高维性等特点，使得在运用logistic回归分析进行公司类客户违约风险预测研究时会影响logistic分析的过程和结果，导致大部分原始数据信息的丢失以及估计方程中出现共线性的函数关系。具体来说，logistic回归分析要求模型解释变量之间不能具有线性的函数关系，否则共线性的问题就会导致方程中变量系数标准差的增大，从而使得模型估计系数可靠性大幅度下降，最终利用模型测算违约概率的准确性不理想。把由因子分析得到的向量作为logistic模型的新的解释变量代替，即可以得到新的测算违约概率的模型。这个模型与一般的logistic模型相比，在保留logistic模型原有优势的同时，主要有以下几个优点：(1)因子的指标之间由于互不相关，这样在logistic回归分析中，避免出现常见的多重共线性，大大增加了logistic回归分析中系数的可靠性；(2)在保留尽可能多的信息的前提下，使得logistic回归分析中的变量大大减少，从而在不影响违约概率测算精度的情况下显得“节约”。

（三）有序多分类logistic模型的基本原理

当被解释变量只有违约和不违约两种状态时，二分类logistic模型可以作为一种适当的估计模型。但是，将其仅仅分为违约和不违约两种状态比较简单。如我国商业银行在贷款发生后依据借款人的实际还款能力进行贷款质量的五级分类，把贷款的状态分为正常、关注、次级、可疑、损失五类。这样，被解释变量就是多分类变量，需要把二分类logistic模型扩展到多分类logistic模型，同时，被解释变量的各个分类（正常、关注、次级、可疑、损失）之间具有明确的排列，所以，本文引入了有序多分类logistic模型。其定义如下：

（四）在违约概率测算中的应用分析

当商业银行需要估计一家新的公司客户贷款的违约概率、确定信用评级时，可以通过其已发生公司贷款的数据集，以贷款五级分类为被解释变量，每个公司贷款能影响信用状况的指标为解释变量，通过时间加权、因子分析对数据进行预处理，然后利用有序多分类logistic模型的估计，得出各个参数的估计值。再把这些参数估计值代入到估计方程，结合新公司贷款的指标值，就可以得到该贷款违约概率值了。

二、算例分析

（一）数据说明

样本由某行业83家公司组成，包括了近三年的偿债能力、营运能力、盈利能力、资本市场数据、发展能力五大类35个能反应公司类客户经营状况的指标。根据公司经营情况，把样本公司由好到差分为五类。

用式(3)的时间加权数据处理方法，对2005～2007年的公司样本数据作时间加权平均，处理为2007年的综合指标数据。

首先对这些变量做两两间的皮尔逊相关性分析，发现这些变量之间存在显著的高度相关或强相关，这说明对原始数据进行因子分析是很有必要的。

对数据的描述分析可以发现，各个变量的最小值、最大值、均值与方差有很大的差异，这种差异主要是由于各个变量在数量级或量纲的不同，这会对后续分析产生不利的影响。为了消除这种影响，通过把所有变量都变为均值为0、方差为1的方法先对原始数据进行标准化处理。

（二）因子分析结果

从KMO检验值大于0.5和Bartlett球形检验的显著程度为0来看，做因子分析是比较合适的。

对变量进行共同度分析可知，大部分变量的共同度对前几个因子（特征值大于1）均在0.8以上，这表明大部分变量都很好被前几个因子所解释。对数据进行特征值分析发现，变量相关阵前8个因子的特征根均大于1，它们一起解释了总方差的87.42%（累积贡献率），这说明这8个因子提供了原始数据的足够信息。前8个主成分的特征值大于1，且明显大于后面主成分的特征值，这说明因子分析结果是比较理想的。

由初始因子负荷矩阵得到的旋转以后的因子矩阵，可以很清晰地得出各个主成分与原始变量的关系。

表1 旋转因子矩阵

如果简单把指标分成几类，就无法避免各个类别之间存在相关性，而且指标分类的人为性较大，而因子分析就可以在不失去经济学意义的前提下，更加科学地处理指标。

根据因子负荷矩阵和各个因子的特征值，可以得到每个公司的各个因子值。我们以第一主因子为例，说明求解过程。对因子负荷矩阵第一列的负荷值分别除特征值的平方根得到新的负荷值，以这个值为权重对某个公司的各个指标加权求和，即可以得到该公司第一主成分的值。

（三）有序多分类logistic回归结果

计算出因子值，再把这些数值作为有序多分类logistic回归模型的解释变量，可以通过SPSS13.0软件计算出最终结果。

1.模型的统计检验

模型统计，定义为零假设模型与所设模型之最大对数似然值之差，似然比统计量近似地服从。实际上，模型检验与多元线性回归中的F检验十分类似，这里零假设为除常数项外的所有系数都等于0。检验统计量均为37.954（显著水平小于0.1%）可以看到，模型的估计是显著的。

模型的拟合优度的检验统计量Cox & Snell R Square，Nagelkerke R Square，McFadden检验值分别达到0.367，0.521，0.375，可见模型的拟合优度还是比较理想的。

2.模型系数估计

依次保留系数显著的解释变量，去除不显著的解释变量，最终把前3个主成分作为解释变量，可以发现门槛值估计和系数估计都是显著的，其置信水平都小于10%，且均处于95%的置信区间内，这说明模型拟合效果是比较理想的。

最后可以按照各个分类的历史违约率（在本文假设违约率依次为1%，5%，20%，60%，100%），利用式(9)求出样本各个公司所对应的违约概率。

（四）与一般Logistic模型的ROC比较分析

现有的多元判别分析、支持向量机分类(SVM)、logistic分类等方法均采用先给定置信水平，再通过比较最终结果犯这两类错误的多少来验证其有效性。这类检验方法是一种静态的方法，它假设贷款的违约概率超过一定临界值即视为违约，其结果依赖于临界值选择。而实际上贷款的违约概率超过一定临界值并不意味着违约，也就是说这样的临界值在实际业务中是不存在的，那么这类方法的有效性就很值得怀疑。针对这一问题，本文引入的ROC分析方法能有效地解决这一问题。ROC分析本质上是一种动态的反映α型错误和β型错误的检验方法。

表2 系数估计

受验者工作特征(Receiver Operating characteristic)最初起源于更好地理解无线电接受器的信号噪音率。自Lusted[9]等首先将ROC分析应用于医学诊断中后，其价值日益受到广泛重视。在经过大量的研究及临床实践，现已成为临床科研文献中应用较为广泛的统计方法[10]。ROC分析的本质就是动态分析，比较不同试验在多个诊断阈值条件下，其相对应的敏感性及特异性曲线的差异，并以AUC(Area Under Curve)值（正确率）作为评价ROC曲线特性的参数，AUC值在0.5～1.0之间有价值，A值越接近1.0，其价值越高。

受Tseng-Chung Tang(2005)[11]的研究的启发，本文在贷款违约概率测算中进行ROC分析。作出以下定义：

用集合D，N分别表示样本中违约和不违约的公司的集合；d，n分别表示集合中贷款的数量；表示集合N中贷款i的违约概率；表示集合D中贷款j的违约概率；α表示置信水平(0＜α＜1)。则可定义下列函数：

从特异度和敏感度的定义可知，特异度表示的是在一定置信水平上，违约概率测算模型预测贷款违约实际上也违约与总的贷款违约数目的比例，因此，特异度越大表示越多的贷款违约事件被模型准确的识别，也就是说犯β型错误越少。敏感度表示的是违约概率测度模型预测贷款不违约而实际上不违约的数目，敏感度越大表示越多贷款不违约的事件被预测为不违约，犯α型错误的可能性越小。那么，最好的违约概率测度模型就是在特异度一定的情况下（即犯β型错误一定的情况下），所犯的α型错误尽可能的小，即敏感度越大；在敏感度一定的情况下（即犯α型错误一定的情况下），特异度越大，即犯β型错误越少。当α由0到1连续变化的时候，以（1－特异度）为横坐标、敏感度为纵坐标，就可以求得一条ROC曲线。可以利用SPSS13.0直接绘出ROC曲线，并最终求得曲线下面积(AUC)。

下面对基于因子分析的有序多分类的logistic违约概率测算模型和一般logistic模型作ROC比较分析。计算有序多分类的logistic违约概率测算模型（以下简称方法1）和基于因子分析的logistic模型（以下简称方法2），对这两种方法测得的违约概率分别做ROC分析可以得到表3（logistic模型中变量的选择方法均为全部选择法）。

从不同的正确率可以看出，有序多分类的logistic回归模型正确率值都比较高，方法2的错误率比方法1的错误率高70%以上，因此可以得出结论：有序多分类的logistic模型在违约概率测算的精度比一般的logistic模型相对较高。

三、结论

本文系统地讨论了有序多分类logistic模型在违约概率测算中的应用，通过对数据指标进行时间加权和因子分析的预处理，引入ROC检验对其事后检验的方法，建立有序多分类logistic模型，使得初始违约概率测算更合理，更符合实际情况。

在数据处理上，加入了对时间加权的方法，考虑了时间周期的影响，避免了公司类客户的经济周期或者偶然原因造成财务指标失真。在数据复杂繁多的情况下，因子分析的方法也可以在不丢失变量的同时使得模型显得节约，扩大了logistic模型测算违约概率的应用范围。

一般的二分类logistic模型仅仅分为违约和不违约两种状态，相对比较简单。本文结合我国商业银行实际情况，根据其在贷款发生后依据借款人的实际还款能力进行贷款质量的五级分类，把二分类logistic模型扩展到多分类logistic模型，能充分利用已有的信息，从而更精确地测算违约概率。

商业银行可以应用本文提出的违约概率测算方法得到初始违约概率，并根据其划分一个初始信用等级，最后利用本课题组提出的贷款违约表法测算出最终违约概率[12]。这样得到的违约概率既考虑了客户的财务数据又考虑了客户的历史违约情况，大大提高了银行测算公司类客户贷款违约概率的准确度，从而为本课题组提出的经济资本计量模型[2]提供了数据基础。

标签：违约概率论文; 因子分析论文; 回归模型论文; 多变量分析论文; 分类变量论文; 客户分析论文; 解释变量论文; 概率计算论文; 客户分类论文; 模型公司论文; roc曲线论文; roc指标论文;

有序多分类Logistic模型在违约概率计算中的应用_违约概率论文

猜你喜欢