·92· 《数量经济技术经济研究》2005年第10期 一种基于MCMC稳态模拟的 贝叶斯索赔校正模型 林静韩玉启1 朱慧明2 (1.南京理工大学经济管理学院;2.湖南大学) 【摘要】Buhlmann模型是贝叶斯方法在经验费率厘定中最为著名的应用,然 而该模型在结构参数先验信息不足的情况下,并不能得出参数的无偏后验估计。本 文针对传统方法的不足,运用基于MCMC模拟的贝叶斯方法对历史数据进行校 正,通过Gibbs抽样构造出一种多层Poisson模型稳态分布的马尔可夫链,动态模 拟出索赔频率的后验分布以及缺失参数值的后验估计,改进了传统的索赔校正模 型,提高了计算的精度。利用WinBUGS软件包进行建模分析,证明了该模型的直 观性与有效性。 关键词贝叶新分析经验费率索赔频率MCMC模拟Gibbs抽样 中图分类号F840文献标识码A A Bayesian Emendation Model for Claim Frequency Based on MCMC Method Abstract:Buhlmann model is the most famous application of the Bayesian method for the experience rate making.However,by this model one cannot get the unbiased posterior estimation of the parameters when there is not sufficient pri- or information for the structural parameters.Aimed at the fault of the traditional methods,this paper discusses how to conduct a Markov Chain for a hierarchical Poisson model with Gibbs sampling by applying Bayesian approach to revise the his- tory data and get the posterior distribrtions of the claim frequency as well as the posterior estimation of the censoring parameters dynamically,as well as improve the precision of the numeration.Also this paper utilizes the WinBUGS package, which is based on the MCMC method,to prove the objebtivity and validity of the model. Key words:Bayesian Analysis;Experience Rating;Claim Frequency;MC- MC Simulation;Gibbs Sampling ①基金项目:中国博士后科学基金项目(20040350216)、国家杜科基金项目(04CT]J003)。 万方数据
·92· 《数量经济技术经济研究》2005年第10期 一种基于MCMC稳态模拟的 贝叶斯索赔校正模型 林静1 韩玉启1 朱慧明1、2 ① (1.南京理工大学经济管理学院;2.湖南大学) 【摘要】Bnhlmann模型是贝叶斯方法在经验费率厘定中最为著名的应用,然 而该模型在结构参数先验信息不足的情况下,并不能得出参数的无偏后验估计。本 文针对传统方法的不足,运用基于MCMC模拟的贝叶斯方法对历史数据进行校 正,通过Gibbs抽样构造出一种多层Poisson模型稳态分布的马尔可夫链,动态模 拟出索赔频率的后验分布以及缺失参数值的后验估计,改进了传统的索赔校正模 型,提高了计算的精度。利用WinBUGS软件包进行建模分析,证明了该模型的直 观性与有效性。 词受叶斯分析 中图分类号F840 经验赘率 索赔频率M鼢丘C模拟&协s抽样 文献标识码A A Bayesian Emendation Model for Claim Frequency Based on MCMC Method Abstract: Bnhlmann model is the most famous application of the Bayesian method for the experience rate making. However, by this model one cannot get the unbiased poste“or estimation of the parameters when there is not sufficient pri— or information for the structural Darameters. Aimed at the fault of the traditional methods, this paper discusses how to conduct a Markov C|hain for a hierarchical Poisson model with Gibbs sampling by applying Bayesian approach to revise the his— tory data and get the posterior distribrtions of the claim frequency as well as the posterior estimation of the censoring parameters dynamically, as well as improve the precision of the numeration. A1so this paper utilizes the WinBUGS package, which is based on the MCMC method, to prove the obj ebtivity and validity of the model. Key words: Bayesian Analysis; Experience Rating; Claim Frequency; MC— MC Simulation;Gibbs Sampling ①基金项目:中国博士后科学基金项目(20040350216)、国家社科基金项目(04CTJ003)。 万方数据
一种基于MCMC稳态模拟的贝叶斯索陪校正摸型 ·93· 引 言 保险费分为净保险费和附加保险费,其中,净保险费指承保风险赔款的支出,是保险公 司厘定保险费额的关键,厘定的费额过低,会造成保险公司亏损;费额过高,会造成市场竞 争力的削弱。设索赔频率为6,平均赔款额为P,则净保险费为P9。实践中,保险公司为了 处理承保过程中风险因素所不能消除的风险不均性状态,通常对具有不同风险级别的投保对 象厘定不同的保险费额,即:厘定某种形式的经验费率P9(i=1,…,n,代表不同的风险 组别),使同种或同类风险的保费依赖于相关的经验赔付水平。 贝叶斯方法被应用于经验费率的厘定始于Buhlmann与Stranb所提出的经典Buhlmann 模型,并自此为经验贝叶斯信用方法(empirical Bayes credibility approach)奠定了基础。 如今,该方法仍然被广泛地应用于精算学的各个领域。传统Buhlmann模型中假设:索赔频 率日的估计值由索赔次数X:(G=1,…,k,代表不同的年份)决定,且X:服从参数为P 0,的Poisson分布。将0视为随机变量并利用公式0:=ZY:十(1一Z)4进行估计。其中Y, 为第i组的平均索赔额,4为0:先验分布U(·)的均值,Z∈[0,1)被称为可信性因子, 其确定采用完全信用的最佳(MSE意义下)线性经验贝叶斯估计。然而,该模型保持了简 单的线性公式和经验贝叶斯的特点,结构参数的估计依赖于现有的历史数据,在数据资料不 足特别是索赔额P,与索赔次数X,缺失的情况下很难得出结构参数的无偏后验估计。此外, 由于高维数值计算的困难,也使得贝叶斯方法的应用受到了极大的限制。随着计算机技术的 发展和贝叶斯方法的改进,特别是马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MC MC)模拟方法以及WinBUGS(Bayesian Inference Using Gibbs Sampling)软件的应用,原 先异常复杂的数值计算问题迎刃而解,参数后验分布的模拟也更为方便,现代贝叶斯理论及 其应用日趋成熟,许多学者开始尝试利用MCMC方法解决精算学中的有关问题。比如, Carlin将其运用到构建非标准精算时间序列的贝叶斯状态空间;Scollnik将其运用到保险厘 定联立方程模型的贝叶斯分析以及多层可信性模型的建模中;Makoⅴ等将其运用到损失理 赔准备金等模型;Pi将其用来分析保险索赔的复合模型等。 本文探讨了基于Gibbs抽样的MCMC理论,针对传统Buhlmann模型中对结构参数无 偏估计的不足,构建了一种索赔校正的贝叶斯多层Poisson模型,借助基于Gibbs抽样的 WinBUGS软件包进行仿真分析,得出了模型中索赔频率的后验分布以及相关缺失参数值的 后验估计,并证明了该模型的直观有效。 一、MCMC模拟方法 设k维随机向量U=(U,…,U)具有联合分布π(U1,,U),其中,U:为模型 参数或缺失的观测值,π(·)为其后验分布。则对于我们感兴趣的函数h(U)的数学期望为: E[h(U)]=∫Jh(u)π(u)du/(jπ(u)du) 由于该积分往往形式复杂难于计算,此时我们采用蒙特卡罗积分进行近似,即: E[h(U)]≈1h(U) n:1 当U1,…,U。相互独立时,由大数定律可知,样本容量n越大,其近似程度越高。但 在很多复杂模型中,并不能简单地对U1,…,U。做出相互独立的假设,这就需要使用MC 万方数据
一种基于MCMC稳态模拟的贝叶斯索赔校正模型 ·93· 保险费分为净保险费和附加保险费,其中,净保险费指承保风险赔款的支出,是保险公 司厘定保险费额的关键,厘定的费额过低,会造成保险公司亏损;费额过高,会造成市场竞 争力的削弱。设索赔频率为曰,平均赔款额为P,则净保险费为P口。实践中,保险公司为了 处理承保过程中风险因素所不能消除的风险不均性状态,通常对具有不同风险级别的投保对 象厘定不同的保险费额,即:厘定某种形式的经验费率P良(i一1,…,,z,代表不同的风险 组别),使同种或同类风险的保费依赖于相关的经验赔付水平。 贝叶斯方法被应用于经验费率的厘定始于Bnhlmann与Stranb所提出的经典Bnhlmann 模型,并自此为经验贝叶斯信用方法(empirical Bayes credibmty approach)奠定了基础。 如今,该方法仍然被广泛地应用于精算学的各个领域。传统Bnhlmann模型中假设:索赔频 率目的估计值由索赔次数x;f(J一1,…,尼,代表不同的年份)决定,且Xi朋艮从参数为P。i 曰,的Poisson分布。将臼视为随机变量并利用公式臼。一Z×+(1一z)口进行估计。其中K 为第i组的平均索赔额,口为曰i先验分布u(·)的均值,z∈[o,1)被称为可信性因子, 其确定采用完全信用的最佳(MsE意义下)线性经验贝叶斯估计。然而,该模型保持了简 单的线性公式和经验贝叶斯的特点,结构参数的估计依赖于现有的历史数据,在数据资料不 足特别是索赔额Pii与索赔次数X拍起失的情况下很难得出结构参数的无偏后验估计。此外, 由于高维数值计算的困难,也使得贝叶斯方法的应用受到了极大的限制。随着计算机技术的 发展和贝叶斯方法的改进,特别是马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MC— Mc)模拟方法以及winBUGS(Bayesian Inference Using Gibbs Sampling)软件的应用,原 先异常复杂的数值计算问题迎刃而解,参数后验分布的模拟也更为方便,现代贝叶斯理论及 其应用日趋成熟,许多学者开始尝试利用McMC方法解决精算学中的有关问题。比如, Carlin将其运用到构建非标准精算时间序列的贝叶斯状态空间;Scollnik将其运用到保险厘 定联立方程模型的贝叶斯分析以及多层可信性模型的建模中;Makov等将其运用到损失理 赔准备金等模型;Pai将其用来分析保险索赔的复合模型等。 本文探讨了基于Gibbs抽样的MCMC理论,针对传统Bnhlmann模型中对结构参数无 偏估计的不足,构建了一种索赔校正的贝叶斯多层Poisson模型,借助基于Gibbs抽样的 winBUGS软件包进行仿真分析,得出了模型中索赔频率的后验分布以及相关缺失参数值的 后验估计,并证明了该模型的直观有效。 一、MCMC模拟方法 设忌维随机向量U一(U,,…,队)具有联合分布丌(U。,…,U),其中,U为模型 参数或缺失的观测值,丌(·)为其后验分布。则对于我们感兴趣的函数^(∽的数学期望为: E[矗(【,)]一,矗(乱)7f(“)矗M/(,7f(“)矗矗) 由于该积分往往形式复杂难于计算,此时我们采用蒙特卡罗积分进行近似,即: 1 ” E厂^(U)]≈土∑矗(U‘r’) n£一1 当U,,…,巩相互独立时,由大数定律可知,样本容量靠越大,其近似程度越高。但 在很多复杂模型中,并不能简单地对u,,…,仉做出相互独立的假设,这就需要使用Mc— 万方数据
·94· 《数量经济技术经济研究》2005年第10期 MC稳态模拟方法。MCMC模拟本质上是使用马尔可夫链的蒙特卡罗积分,基本思想是: 建立马尔可夫链对未知变量进行抽样模拟,当链达到稳态分布时即得所求的后验分布。基于 贝叶斯推断原理的MCMC方法主要用于产生后验分布的样本,计算边缘分布以及后验分布 的矩。不同的抽样方法导致了不同的MCMC方法,Gibbs抽样是其中最简单也是应用最广 泛的一种。 Gbbs抽样过程属于马尔可夫更新机制的范畴。在上述假设条件下,令U,代表某种随 机变量或同组的几个随机变量,第j组变量的边缘分布为f(U,)。给定任意初始向量U,= (U,…,U),我们由f(U1/U9,…,U)中抽取样本U9;由f(U2U,U, …,U)中抽取样本U;由f(U/U,…,U,U,…,U)中抽取样本U; 最终由f(U/U,U,…,U)中抽取样本U9;由上即完成了由Uo到U)= (U,…,U)的转移。经过t次迭代,可以得到U@=(亿UP,…,U),并最终得到 U,U2②,U3),…。易证:由不同的Uo出发,当t→o∞,在遍历条件下,可以认为各时 刻U和的边际分布为平稳分布,此时它收敛,并可以被看作是样本的仿真观测点。而在收敛 出现前的m次迭代中,各状态的边际分布还不能认为是x(U),因此在估计E[h(U)]时 应将前m个迭代值去掉,即: E[h(U]≈1hU) 一=+1 二、一种贝叶斯多层Poisson模型的构建 1.模型假设 假设某保险公司根据不同的风险水平将某保单(或保单组合)的投保人分为四组,设公 司已掌握六年内部分索赔额P:与索赔次数X,数据,如表1所示。 表1 四组投保人的索赔频率数据 第一组 第二组 第三组 第四组 年份 平均索赔额 索赔次数 平均紫赔额 索赔次数 平均索赔额 索赔次数 平均索赔额 索赔次数 293 8 261 6 278 8 322 7 275 4 151 8 245 3 265 6 249 2 128 3 320 315 6 289 7 124 311 5 347 13 255 116 4 305 285 115 315 注:¥代表未知待估量。 已知Xg条件独立且服从参数为入=P,9:的Poisson分布,记为P(P,9:)。考虑到Pois son分布的共轭为伽玛分布,设a:服从参数分别为a和B的伽玛分布,记为Ga(a,),令 aGa(5,5),3Ga(25,1);设P,~Ga(a,b),其中,令a,b:服从均匀分布,记 为aU(0,100),bU(0,100)。 从表中可以看出P6,P1,6,x6,x31,x6,x46均为未知待估量,日=(8,2,0, ·为了便于闸述,这里α,B的有关参数值是任意给定的,实际中应根据对大量数据分析得出。 万方数据
万方数据
一种基于MCMC稳态模拟的贝叶斯索赔校正模型 ·95· 04),X=(X1,X2,X3,X4),X1=(x11,x12,x13,x14,15)T,X2=(x21,x2,x3, x24,x5)T,X3=(x32,x3,x34,x35)T,X4=(x41,x42,x48,x4,xs)T;容易看出, 即便运用传统的Buhlmann模型求出,2,A,a,的估计值,由于Pis的缺失也不能得到 第一组的总频率P16,而其他参数值的缺失更使得依赖于历史数据的结构参数日的 Buhlmann估计有偏。 2.模型构建 为了基于已知数据求得有关参数的后验分布f(0,a,B/X),根据贝叶斯有关理论得: f (0,a,B/X)ccf (0,a,B,X) -(X/P0)店f(X/P)女(XP)× i(X/P0)ǜfg,/a,》fa)f® 实际中,得出该复杂计算式后验分布的精确形式相当困难,基于Gibbs抽样的MCMC 模拟方法将所有未知参数视为随机变量,通过边缘分布的迭代进行马尔可夫链的蒙特卡罗模 拟,当链达到稳态时得出所求参数的后验估计值。基于上述思想的边缘分布推导如下: f(a/a,B,X,02,0,0) -If (X/P)f(0/a. 法号·【g+2,)Aee+B】 oc0+2-x-1exp{-[9+∑=1P,]a} ~Ga(a十-1Xg,B+∑-1Py) 该分布与,A,a,无关,将其记为f(0,/a,3,X),同理可以得到: f(02/a,B,X)~Ga(a+∑-1X2,月+=1P) f(A/a,B,X)~Ga(a十∑-2X,B+=2P) f(a,/a,B,X)~Ga(a+∑-1X,B+∑-1P) 同上可得: f(al0,B.x (/aB (a) =直arexp(-]'r5aexp(-5a) 55 c{a('exp(-5o) f(B/0.a.x)If (/a,B)f(B) -直n。rep(-】‘ng”ep(-m 万方数据
万方数据
·96· 《数量经济技术经济研究》2005年第10期 ocg4+24exp{-[∑=1a,+1]g} 给定任意初始值(0o,a,go),经过Gibbs抽样迭代后得到(g,a),g),…, (0,am,3m),且认为运行足够长的时间后,该分部达到稳态,根据前面所介绍的MC MC模拟的基本原理得: f(0/X)=f(0/X,a,B)f(a,B/X)dpda (/d) f(X/X)=If(Xx/P0:)f(0:/X)d0: ≈1fX/P0) n一m,=计1 三、基于WinBUGS的数值仿真分析 WinBUGS是英国剑桥公共卫生研究所推出的利用MCMC方法进行贝叶斯推断的专用 软件包,使用WinBUGS可以很方便地对许多常用的模型和分布进行Gibbs抽样,编程者只 要设置好变量的先验分布并对所研究的模型进行一般性描述,就能很容易实现对模型的贝叶 斯分析。在WinBUGS中可以使用有向图模型方式(Directed Acyclic Graphical model, DAG)对模型进行直观的描述(见图1),也可以直接编写模型程序。Gibbs抽样收敛后, 可以得到参数的后验分布的均值、标准差、95%置信区间和中位数等信息(见表2),并给 出后验分布的核密度估计图(见图2)、参数的Gibs抽样动态图(见图3)等,使抽样结果 更直观、可靠。这里基于表1所示数据,建立如上贝叶斯多层Poisson模型,截取前5000 次迭代结果,从第5001次开始进行5000次迭代分析。 a A,刀 pi, ,引 fori(IN1:6) fori(IN:4) 图1 WinBUGS中的贝叶斯有向无环图 万方数据
万方数据