会计信息数据挖掘方法与银行信用风险预测_t检验论文

会计信息的数据挖掘方法与银行信贷风险预测，本文主要内容关键词为：会计信息论文,数据挖掘论文,银行论文,信贷风险论文,方法论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

基金项目：教育部人文社会科学规划课题(06JA790105)

一、引言

信用风险是指因借款人没有完全履约，致使银行资产遭受损失的风险。世界银行对全球银行业危机的研究表明，信用风险管理不善进而引发流动性危机，是银行破产的最主要原因。在银行的风险管理实践中，信贷风险评估是个重要环节，尽管要求贷款企业提供必要的财务数据早已成为银行工作的一种常态，但银行的信贷风险评估却被一个问题所困惑：究竟哪些财务指标中含有预测企业贷款风险的信息、怎样利用这些信息?可以说，这个问题能否解决，在很大程度上影响到银行的信贷风险评估质量和信用风险管理水平。

数据挖掘是20世纪80年代末开始出现的，从大量的、有噪声的实际数据中，挖掘有用信息的一种技术。经过20世纪90年代的迅猛发展，该技术已广泛应用于各个领域，并且新的应用领域还在不断开发出来[1]。本文从信息熵理论出发，以银行信贷风险评估为视角，提出一种会计信息的数据挖掘方法，这种方法可以计量各个财务指标中所含有的预测企业贷款风险的信息量。借助于这种方法，本文还提出了信贷风险预测的两种新的模型，实证结果显示，两种模型都有良好的预测准确性。

二、财务指标预测信息含量的计量方法

基于会计数据的信贷风险评估模型是近年来得到广泛应用的一种银行信用风险管理工具，对这种工具的探索始于Beaver(1966)和Altman(1968)的企业破产预测研究。尽管几十年来许多学者在此领域不懈努力、也取得了很多成果，有个问题却始终困扰着该领域的研究者：究竟哪些指标可以作为企业信贷风险评估的预测变量?由于已有的经济理论无法回答这个问题，现有研究只能通过各种方法(如经验判断、T检验、逐步回归、因子分析等)进行探索，于是出现在不同文献中的指标就有几十个之多，这充分反映了信贷风险评估中预测变量选择的无序。

预测变量选择问题的关键是：怎样判断一个指标含有的预测某类事件发生的信息价值?实际上，不仅在银行信贷风险评估、货币危机预警等预测问题中需要解决这个问题，就是在金融机构偿付能力监管指标的设计和有效性分析中，也会遇到同类问题。基于信息熵理论和数据挖掘技术，本文提出一种度量一个指标所含有的预测某类事件发生的信息价值的计量方法，具体分析如下。

信息增益的取值在[0，I(y)]上，当指标的信息增益值为I(y)时，，这个指标对信贷风险预测有最大价值：因为按照该指标的值是否大于阈值将企业分为两组后，各组中的y都不再具有不确定性，一个组全部为违约企业，另一个组全部为非违约企业，于是只要使用该指标，就可建立起完美的预测规则。确定各个指标的阈值后，如果参照Beaver方式建立单一财务指标的信贷风险预测模型，使用指标为预测变量时，预测规则应该是：当≤阈值(为正指标)或≥阈值(为负指标)时，判断企业会违约。更进一步，本文提出一种计量财务指标的预测信息含量的方法，具体分析如下：

从单一财务指标的预测规则知，若≤阈值(为正指标)或≥阈值(为负指标)，应判断企业将会违约，在信贷风险预测中，这可以看成是财务指标发出了警报。如果某一企业的指标发出警报后该企业违约了，这个警报就是一个信号(正确的警报)；如果企业后来没有违约，这个警报就是一个噪音(错误的警报)①。在信贷风险预测中，财务指标的信号比、噪音比可定义为：

指标的信号比=发出警报的违约企业数/违约企业总数，

指标的噪音比=发出警报的未违约企业数/未违约企业总数。如果一个财务指标的信号比很大(接近于1)、噪音比很小(接近于0)，银行对该指标发出的警报就应该更加关注，因为这个指标在信贷风险预测中可以提供更多的信息。按照这种思路，本文提出的财务指标的预测信息含量的计量方法为：

财务指标的预测信息含量=指标的信号比-指标的噪音比，这种方法可以称为指标信息量测量的信号噪音差方法。

一个财务指标的信号噪音差越大，其预测信贷风险的作用就越大。如果一个财务指标的信号噪音差为1，则该指标发出的每个警报就都是信号、没有噪音，且该指标对所有的违约公司都能发出警报，这个指标就是最好的信贷风险预测变量。若一个财务指标对预测信贷风险不能提供任何信息，该指标的信号比、噪音比就会很接近于0.5，信号噪音差接近于0。

在研究货币危机预测模型时，Kaminsky(1999)曾提出[2]，采用。

“信号噪音比=指标的信号比/指标的噪音比”

来计量各个宏观经济指标对货币危机的预测信息含量，我们认为这种方法存在缺陷：第一，信号噪音比取值在(0，+∞)内，决策者很难判断一个信号噪音比取值(例如为500)的指标所含有的信息量究竟是大还是小；第二，用信号噪音比计量指标的预测信息含量容易造成判断失误：假设在全部贷款企业中，违约企业100家，非违约企业500家，一个财务指标对这600家企业只发出了3次警报(三次警报都是信号)，则该指标的信号噪音比为∞，信号噪音差为0.03。按照信号噪音比标准，这个指标有很大的价值，可以作为构建预测模型的重要预测变量，而按照信号噪音差标准，这个指标不能用作预测变量，因为它对绝大多数的违约企业都没有发出警报；第三，Kaminsky没有继续研究如何合理确定各个指标的阈值，本文则利用信息熵的观点和数据挖掘技术较好地解决了这个问题。

三、信贷风险预测模型的构建方法

从国内外学者的研究现状看，信贷风险预测模型的构建方法主要有两类：基于Morton期权定价理论的信贷风险预测模型(如KMV模型)和基于企业会计数据的信贷风险预测模型。由于前一类模型的基本假设是公司的股票价格可以反映公司的内在价值，而我国许多上市公司的股票还不能全部流通，股票市场的投机风气也较国外更甚，公司的股票价格还不能很好地反映公司的内在价值，因此基于Morton期权定价理论的预测模型(KMV模型)的基本假设在我国并不满足。

构建基于会计数据的信贷风险评估模型有多种方法，包括传统的线性判别分析、Logistic回归、Probit模型，以及基于数据挖掘的决策树、朴素贝叶斯分类、人工神经网络等[3][4]。为进一步说明信号噪音差方法在银行信贷风险预测中的作用，本文提出构建信贷风险预测模型的两种新的方法。

(一)信贷风险预测的线性模型

线性预测模型是银行信贷风险评估中使用很广的一类模型，如Altman的Z记分模型就属于这类模型。预测变量确定后，建立线性模型的关键是确定各个指标的权重，Z记分模型采用判别分析法来确定指标权重，然而由于这种方法的前提假设(等协方差矩阵、服从多元正态分布)通常不能得到满足，Z记分模型构建方法的合理性受到一些研究者的质疑。

延续上节的分析思路，本文提出一种线性模型的构建方法。很显然，一个指标的预测信息含量越大，信贷风险评估时对这个指标所提供的信息就应该越重视，预测模型中它的权重应该越大。由于信号噪音差计量了一个指标所含有的预测信息量，因此可以构造信贷风险的线性预测函数：

(二)信贷风险预测的非线性模型

朴素贝叶斯分类法通过比较P(y=0|X)、P(y=1|X)来判断企业是否将违约，由于这种比较等同于比较P(y=0)P(X|y=0)、P(y=1)P(X|y=1)，朴素贝叶斯分类法的预测规则为：

若P(y=0)P(X|y=0)-P(y=1)P(X|y=1)＞临界值，判断企业将不会违约；

若P(y=0)P(X|y=0)-P(y=1)P(X|y=1)≤临界值，判断企业将会违约。

在许多决策问题中，朴素贝叶斯分类法都是构建非线性预测模型的有效方法，但在信贷风险预测中这种方法却遇到了困难：许多财务指标是连续型变量，但并不服从正态分布(如许多财务指标只能取正值)，此时若用朴素贝叶斯分类法构建模型，就会造成构建模型的前提假设不成立以及模型的预测准确率下降。

朴素贝叶斯分类法中，假设连续性变量服从正态分布，是为了简化的计算，利用上一节的分析方法，本文提出一种简化计算的新方法，使朴素贝叶斯分类法能够运用于信贷风险预测模型的构建。这种方法介绍如下。

再比较相应的条件概率，就可以建立信贷风险预测的非线性模型。

下面本文通过信贷风险预测模型构建的实证，来证实模型构建方法的可行性，并对模型的预测准确率进行检验。

四、银行信贷风险预测模型构建的实证分析

(一)数据来源与说明

本文所用的企业财务数据以及对这些企业贷款的事后评级结果，均来自于某股份制银行浙江省分行，所涉及的贷款企业是资产总额在亿元以上的大型企业，共596个样本点(跨几个年度)。其中，财务数据是企业在申请贷款时向银行所提交的当期数据，贷款的事后评级结果是贷款发放一定时间后(如一年后)银行按照有关标准对企业贷款给出的评级。按照我国的贷款质量分类制度，贷款质量的事后评级分为正常、关注、次级、可疑、损失五类，其中后面三类贷款属不良贷款。参照巴塞尔新资本协议给出的公司贷款违约的参考定义，本文将前二类贷款界定为非违约贷款，后三类贷款界定为违约贷款，这样在596个样本点中，违约样本点96个，非违约样本点500个。

(二)备选预测指标与定义

贷款申请企业向银行提交的财务数据包括：资产总额、负债总额、流动资产、流动负债、现金、销售收入、销售利润、净利润、应收账款、主营业务成本、存货、贷款额、利息费用、赊销额、资金周转天数、存货周转天数、销售收入增长率等。由于很难事先判断哪些财务指标对企业信贷风险预测有较大信息含量，本文从贷款申请企业的资产流动性、财务杠杆、赢利与回报能力、企业规模等特征考虑，初步选择了20个财务指标作为备选预测指标，具体的指标与指标定义见表1。

(三)各指标的统计分析与预测信息含量分析

表2给出对各指标的描述性统计以及对各指标的T检验结果，其中均值(0)、标准差(0)和均值(1)、标准差(1)分别表示非违约企业和违约企业的指标均值、指标标准差；“*”和“**”分别表示在取α=0.01和α=0.05时，贷款违约企业和非违约企业的对应的指标均值间存在显著差异；而“&”则表示在取α=0.05时，两类企业的指标均值间不存在显著差异。从表2可以看到，有些指标的标准差很大，说明在这些指标中存在较多的极端值。

　利用数据挖掘软件Intelligent Miner，我们计算了各指标在信贷风险预测中的信息含量，结果由表3给出，其中各指标阈值后面括号内的符号，表示数据挖掘结果显示该指标为正指标还是负指标。从计算结果看到，在信贷风险预测中，各备选财务指标的信息含量相差很大，其中具有最大信息量的指标为：负债比率(x1)、企业规模(x13)、销售利润率(x6)、销售成本与收入比率(x5)等。很显然，银行在构建信贷风险预测模型时，应该选择信息量大的指标作为预测变量。

值得指出的是，利用信号噪音差方法选择变量，与使用统计方法(如T检验)选择变量有很大的不同，其区别在于：统计方法是通过间接方式来判断指标是否可以作为预测变量，如T检验是通过比较违约与非违约企业的的均值是否存在显著差异来判断。由于T检验不能直接测量各指标的信息量，当许多指标都通过T检验时，就无法判断哪些指标有更多信息，就无法解决预测变量的选择问题，而信号噪音差方法则可解决这个问题。如对表2中的20个变量，T检验结果显示，除X2、X3、X8、X18这四个指标外，其余指标都能在0.01的显著性水平下通过T检验，但T检验却无法判断十六个指标中哪些具有较大的信息量，如指标X1与X7都可以T检验，但是它们的预测信息含量却相差好几倍。另外，T检验结果很容易受到极端值的影响，而信号噪音差的比较结果则不会受此影响。

(四)信贷风险预测模型与预测准确率检验

为客观评价所建立模型的预测准确率，本文通过计算机随机抽取方式，将596个样本点分为两组，一组为训练样本、一组为检验样本，每个组均包括了250家非违约公司和48个违约公司，利用训练样本构建预测模型后，我们将分别检验模型对训练样本和检验样本的预测准确率。

依据表3结果，我们选择信息量最大的9个指标作为预测变量，它们是x1、x4、x5、x6、x12、x13、x15、x16、x20。考虑到各指标间可能存在相关性，而将相关性很强的指标同时作为预测变量，不仅会增加预测模型的使用成本，而且会影响到模型的预测精度，因此对9个指标作进一步筛选，具体方法为：计算各指标间的相关系数，当两个指标的相关系数较大时(取绝对值大于0.8为标准)，剔除信息量较小的指标。通过这样的筛选，最后确定的7个预测变量为x1、x4、x5、x6、x12、x13、x20。

根据上节介绍的方法，建立的线性预测函数为：

根据这个预测规则，对训练样本组中的250家非违约企业，预测准确227家，准确率90.8%；对48家违约企业，预测准确42家，准确率87.5%。对检验样本组中的250家非违约企业，预测准确231家，准确率92.4%；对48家违约企业，预测准确41家，准确率85.4%。这样可以看到，以各指标的信号噪音差为权重建立的信贷风险预测模型，具有较高的预测准确率，模型对两个样本组的预测准确率十分接近，说明模型有对训练样本组外的企业的实际应用价值。

再将7个指标x1、x4、x5、x6、x12、x13、x20转化为信号指标后，利用朴素贝叶斯分类法构建信贷风险的非线性预测模型，得到预测规则为：

其中，P(y=0)、P(y=1)表示在全体贷款企业中，未违约企业所占比率和违约企业所占比率，我们分别取500/596、96/596。

非线性预测规则对训练样本组的250家非违约企业，预测准确232家，准确率92.8%；对48家违约企业，预测准确46家，准确率95.8%。对检验样本组的250家非违约企业，预测准确235家，准确率94%，对48家违约企业，预测准确46家，准确95.8%。可以看到，非线性预测模型比线性预测模型有更高的预测准确率，而且非线性模型同样具有对训练样本外的企业的实际应用价值。

注释：

①国际货币基金组织的Kaminsky等，在研究货币危机预测方法时，于1997年首先采用信号、噪音的概念来描述某个宏观经济指标发出的，有关货币危机将要发生的，真实的警报与虚假的警报。

标签：t检验论文; 财务指标论文; 数据挖掘技术论文; 预测模型论文; 信贷风险论文; 企业贷款论文; 会计论文; 银行论文;

会计信息数据挖掘方法与银行信用风险预测_t检验论文

猜你喜欢