数据挖掘技术在集体医疗保险中的应用_数据挖掘技术论文

数据挖掘技术在团体医疗保险中的应用,本文主要内容关键词为:医疗保险论文,数据挖掘论文,团体论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 保险企业团体医疗保险客户理赔风险分析数据挖掘流程

数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤,数据准备工作包括:数据的选择、探索(了解数据分布情况和异常数据等)、修正和变换等;建立模型是选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型;评估和解释模型是对模型进行比较和评估,生成一个相对“最优”模型,并对此模型用业务语言加以解释;运用和巩固模型是对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化,现以团体医疗保险为例说明各个步骤的功能。

1.1 目标定义 对金融业来说,风险源自客户申请索赔。保险的基本理念是低风险。保险公司有几十年的管理风险的经验。人寿、汽车、健康、意外、伤亡和债务保险都是通过风险模型来管理价格和储备的。由于保险产品价格已经开放,保险定价和管理风险是保险公司保持利润的关键任务。对于医疗保险客户理赔的风险管理,主要是通过团体理赔客户数据和承保客户信息,找出影响参保单位住院率、门诊率或者平均每人理赔金额的原因,为以后开发险种和制定费率提供科学的依据。

1.2 创建目标数据集 通常情况下,此过程包括数据收集、数据描述、选择(源数据的子集)、数据质量评估和数据整理、合并与整合,构建元数据集、加载数据挖掘库和维护数据挖掘库。创建目标数据集不需要一定按照步骤执行,而应该按需进行。

根据上述的目标定义,确定要挖掘的数据源是团体医疗保险理赔数据库和相应的客户信息库。理赔数据库主要包括22个字段,客户信息库包括14个字段,主要选取下面的属性进行分析:

bd_no integer,

—团单流水号 sjlp_amt decimal(16,6),—实际理赔金额

jz_date

date, —就诊日期(住院日期) cy_date

date, —出院日期

zjfu_amt decimal(16,6),—自负金额kb_no integer,

—客户流水号

sex

char(2),

—性别born_date date, —出生日期

grbe_amt decimal(16,6),—个人保额qb_date

date, —起保日期

zrqm_date date, —责任满期日期gr_amtdecimal(16,6),—个人保费

本文主要选取 2000.6.1—2002.3.1时间段的10万条理赔客户数据以及相应的客户信息数据,其中理赔客户数据和客户信息数据以文本形式导出,在以文本形式导入access数据库,数据的合并与整合以及后面数据的处理都是通过access或者其所支持的SQL查询语言实现。

1.3 数据预处理

对噪声数据及缺失数据通过access查询模块处理。例如,本文获取客户信息的数据存在大量的重复的记录,同一个客户信息存在多条记录,通过SELECT DISTINCT语句进行处理,其他的重复项以及错误属性值的查询通过access查询模块处理等。

1.4 数据转换

1.4.1 数据规范化 本文使用Z-Score规范化方法分别将团体单位理赔总额规范化为GRR,即为团体单位理赔风险度量值。此方法是将该值减去属性平均值(μ)再除以属性的标准差(σ),公式如下:newValue=(originalValue-μ)/σ,具体风险定级如下:

客户风险分析分为四级风险度R[,2]分析和五级风险度R[,2]分析[4]。在保险理陪客户风险分析中,主要依据客户在某一分析期内理赔数额或理赔频率或衍生的其他变量作为衡量指标。

根据上述理论依据,将医疗保险理赔风险分类定义:

极低—(理赔额度或理赔频率-理赔额度或理赔频率的平均值)/理赔额度或理赔频率的标准偏差<—2;

偏低—(理赔额度或理赔频率-理赔额度或理赔频率的平均值)/理赔额度或理赔频率的标准偏∈[-2,-1);

平均—(理赔额度或理赔频率-理赔额度或理赔频率的平均值)/理赔额度或理赔频率的标准偏∈[-1,1);

偏高—(理赔额度或理赔频率-理赔额度或理赔频率的平均值)/理赔额度或理赔频率的标准偏差∈[1,2);

极高—(理赔额度或理赔频率-理赔额度或理赔频率的平均值)/理赔额度或理赔频率的标准偏差≥2.

根据上述风险定级理论,基于获取数据数量有限,本文实证研究中,只分为两个级别的理赔风险级别。

1.4.2 数据类型变换。在对团体客户进行理赔特征分析时,将团单的承保人数规模离散为:1-50人、51-100人、101-200人、201-300人、300人以上;平均承保年龄离散为:20-29、30-39、40-49、50以上;风险度量值离散为:高风险和低风险;在对个人客户理赔特征分析时,将承保人的年龄离散为:1-9、10-19、20-29、30-39、40-49、50以上;风险度量值离散为高风险和低风险。

1.4.3 属性和实例选择

(1)淘汰属性 由于本文获取的理赔客户数据以及客户信息的属性不多,根据业务理解和建模需要,需要淘汰的属性:个人流水号、当前组号、证件类型、证件号码、赔案编号、本年账户金额、历年账户金额、医保附加、医保统筹、医保自费、医生调整、调整原因、医生拒付金额、拒付原因、他方补偿和他方补偿原因等。

(2)创建属性 通过团单客户理赔数据具有的属性创建新的属性有:lp avg--平均每人理赔费用总额(团单理赔总额/承保人数);zy_ratio—住院率(总计住院人次数/承保人数);mz_ratio—门诊率(总计门诊人次数/承保人数);age_avg—平均年龄;nn_ratio——承保男女比例:claim_ratio—赔付率(理赔费用总额/保费总额);GRR—团体客户风险度量值(每个团体平均理赔数额-平均额度)/标准偏差。

(3)属性和实例选择 本文中,对团单客户理赔风险特征分析时,采用决策树算法,随机选取现有数据的50%作为训练集建立模型,剩下的50%作为验证数据集。将团体客户风险度量值GRR作为输出属性,承保人的平均年龄、男女比例和承保人数作为输入属性。

1.5 模型的建立与评估

1.5.1 建立团体保险客户理赔风险模型。利用Clementine工具中C&R Tree算法对团体客户进行理赔特征分析,本模型在Clementine中的挖掘流程如图1所示:

该挖掘结果的决策树输出见图2。

1.5.2 模型的评估。本研究中,使用简单验证法,把获取的数据一分为二,各自随机选择50%分别作为训练集和验证集,即上述建模中随机选取50%团体理赔数据,以下是选取剩下的50%作为验证模型的评价结果,详见图3~图5,将建立的模型运用于验证集,其预测正确性如图3所示:其中★——表示已建模;━——表示随机。

本模型的训练集与验证集的收益表如图4~图5所示。从以上图示可见,在训练集和验证集上的错误率分别是25.42%和27.45%,即正确率分别是74.58%和72.55%,这说明本研究中客户理赔特征模型的正确率较高。

1.6 模型解释与应用

从图2团体客户理赔特征决策树分析结果可知,共产生七个规则,其中包括4个低风险规则集和3个高风险规则集,其中有效的规则集是低风险中的Rule 4和高风险中的Rulel和Rule3。在低风险规则集中,Rulel虽然置信度高(为1),但是覆盖率很低,Rule2和Rule3覆盖率很高,但是置信度不高(分别是0.538和0.579),而Rule4的置信度是0.944,覆盖率是35.29,所以Rule4是有效的规则集;在高风险规则集中,Rule2置信度高(为1),但是覆盖率很低,而Rulel和Rule3置信度都是1,覆盖率分别是50%和37.5%,所以Rulel和Rule3是有效的规则集。有效规则集如下:

从以上规则集中可以看出:承保客户的男女比例是客户理赔风险的一个关键因素,同时承保人数和承保客户的平均年龄也是客户理赔风险的主要因素,这个结论为保险公司控制理赔风险和制定医疗保险费率提供了重要的参考价值。

2 结束语

本文提出基于数据挖掘技术的医疗保险风险管理的解决方案,充分发挥了数据挖掘技术面对海量数据的强大优势,科学地帮助保险企业解决客户理赔风险和费率厘定的商业问题。随着数据挖掘技术在保险业务中应用的深入,将来还可应用到保险客户价值管理、使保险企业更好地识别不同的客户群体、市场群体及产品群体等,区别对待不同的客户、保险市场及保险产品等,采取不同的客户战略、拓展保险市场战略及开发新险种战略,以提升保险企业的核心竞争力。

标签:;  ;  ;  ;  

数据挖掘技术在集体医疗保险中的应用_数据挖掘技术论文
下载Doc文档

猜你喜欢