1178第六篇保险实务定量分析 对第n期的预测值立11之间的差额。 Y.1=3767.2+0.2(3794-3767.2)=3772.6 参数a的取值在0与1之间,它应该使得∑达到最小, 因此,1998年平均索赔额的预测值为3772.6元。其他 从式(2)不难看出,如果α接近于0,那么最近期的实际值将 各年的预测值如表6-1-37所示。 得到一个较小的权数,模型对长期趋势的反映就会很迟钝: 表6-1-37 各年平均赔付额的预测值 单位:元 反之,如果α接近于1,那么预测值对随机波动的反映就会过 年份 1990 1991 1992 1993 1994 1995 1996 1997 于敏感。 例:为了制定商业计划,要求预测某保险人1998年的平 实际值 37843758 38003750 3752 3769 37523794 均赔付额。该保险人前7年的平均赔付额数据如表6-1- 预测值 37843778.83783B776.4B771.537713767.2 35所示。假设预测环境在这7年间没有发生变化,预计这一 指数平滑法的预测值与算术平均法的预测值基本相等, 环境在来年还会继续保持。 由此可知,上述时间序列确实不存在长期趋势。 表6-1-35 各年的平均赔付额数据 单位:元 年 份1990 19911992199319941995 19961997 已知长期趋势的预测模型(Known Long-term 平均赔 Trend Forecast Model) 37843758 3800375037523769 37523794 付颜 假定时间序列除存在固定的长期趋势外,其他预测环境 首先绘制折线图,结果如图6-1-4所示。 在过去和未来都保持不变。当长期趋势已知时,这种时间序 列可以通过适当的变换转化成稳定环境下的时间序列,譬 3820H 如,对于固定的通货膨胀率∫,可以令 3800 Z:=(1+f-y (1) 上式将时间序列的各期观察值都用第n期的价格水平 3780 进行了统一表示,因此时间序列Z,中不再包含长期趋势,从 3760 而可以应用“稳定环境预测”式(1)或(2)对时间序列Z的第 n+k期值Z。,进行预测。如果把未来的通货膨胀因素考虑 3740 在内,此预测值可进一步转化为对Y。,的预测值: 立4=(1+f.2 (2) 3720 上述过程可推广到长期趋势本身是一已知的时间序列 3 45 7 的情形,此时,仍然可以通过对原时间序列除以一个适当的 图6-1-4各年平均赔付额的折线图 指数,求得平稳的时间序列。不过,对平稳时间序列的预测 上图表明,时间序列数据中包含有显著的变异性,但并 值进行逆变换,求原时间序列的预测值时,首先需要对作为 没有明显的长期趋势。应用简单平均法,1990年至1997年 长期趋势的指数进行预测,因为原时间序列的预测值将是平 的平均赔付额为3770元,标准差为19元。因此1998年平均 稳时间序列的预测值与指数预测值的乘积: 赔付额的预测值为3770元,相应的标准差为19元。 Yk=fk·2 (3) 如果对于预测环境是否改变没有实足的把握,则可以应 预测值的方差为 用指数平滑法。给近期的观察值赋予较高的权数。α的几个 am[Y.a]=a·ar[Zs]+Ea·ar[Una]+ar[Zn] 取值所对应的∑如表6-1-36所示: Var[f] 表6-1-36 参数α的几个取值所对应的∑值 式中一第n+k期的通货膨胀率; 方一预测值。 0.15 0.2 0.25 0.3 0.35 0.4 ∑ 3901 3900 3945 4023 4126 4249 未知长期趋势的预测模型(Unknown Long-term Trend Forecast Model) 当a=0.2时,∑e的值较小,因此可以取a=0.2。 保险实践中,有时对长期趋势可能没有十分明确的解 应用(2)式可得 释:或者对长期趋势的解释只能基于那些无法计量的变量, 14=3784 或者已知的自变量雄以完全解释长期趋势。此时,可以根据 Y2.1=3784+0.2(3785-3784)=3778.8 历史数据拟合一条曲线并进行外推预测,常用的曲线形式有 1.1=3778.8+0.2(3800-3778.8)=3783 如下两种: 立.1=3783+0.2(3750-3783)=3776.4 直线Y,=a+b·i (1) Y.1=3776.4+0.2(3752-3776.4)=3771.5 指数曲线:Z,=ln(Y)=a+b·i (2) 1.1=3771.5+0.2(3769-3771.5)=3771 对上述曲线的拟合通常采用最小二乘法(指数曲线可以 Y1=3771+0.2(3752-3771)=3767.2 在对数据变换之后应用最小二乘法)。如果拟合结果的残差
第1章财产保险业务1179 是相互独立的,且服从均值为0,方差为常数的正态分布,则 表6-1-38 各月承保的保单数 意味着最小二乘法给出了最优无偏估计。然而,应该注意的 月份 1992 1993 1994 1995 1996 是,在大多数情况下,非寿险分布是明显偏离正态的。因此, 1349 1713 1622 1733 1613 往往需要对赔付额数据进行适当变换使其接近正态分布。 2 887 1075 1184 1176 1098 从这个角度看,指数曲线中的对数变换具有双重作用。 3 1336 1835 1943 1982 1944 从理论上讲式(1)和(2)中的线性函数a+b·i可以用 4 781 1204 1179 1182 1105 高阶多项式代替,而且最小二乘估计方法仍然适用,但实际 5 454 773 738 762 778 6 4862 6517 6476 6608 上非寿险业务中极其有限的数据难以满足估计更多参数的 6544 7 2343 2368 2312 2210 2412 要求。用高阶多项式代替线性函数的后果只能是增加预测 8 1525 1622 1435 1532 1567 结果的不稳定性。 9 1935 1918 1894 2047 1869 10 1147 1232 1166 1166 1201 11 771 779 721 746 856 包含季节波动变量的预测模型(Seasonal Fluctua- 12 2848 3005 2979 2872 2878 tion Variance Included Forecast Model) 合计20239 24041 23648 24013 23866 时间序列中的季节波动通常可以在折线图上显现出来。 根据表6-1-38中的数据所绘制的折线图如图6-1- 处理季节波动的两种主要方法是:移动平均法和季节调 5所示。该图表现出来的一个最为明显的特征是有很强的季 整法。 节波动,但没有异常值的出现。另外从此图可以看出,1992 1.移动平均法。移动平均法是通过对相邻若干个时期 年的一般水平较之其他各年都明显偏低,这有可能意味着时 (要求包含一个完整的季节波动)的数据求其平均以消除季 间序列中存在着间断点,因此在表6-1-38中,计算季节调 节波动的一种方法。12个月移动平均数的计算公式为: 整系数时仅仅使用了后4年的数据(即m=4)。 (1) 12 上式中,1表示原时间序列的时间。譬如当t=6时,由上 式可得第6期对应的12个月移动平均数为 Z.y+…+g 12 12 注意,移动平均法会改变原时间序列的时间对应点,譬 如,如果原时间序列是月份数据,且每个数据与各月的中点 对应,那么经12个月移动平均后,新时间序列的每个数据将 图6-1-5各月实际承保的保单数 与各月的月末相对应。如【=6时计算的第6期的12个月移 动平均数所对应的时间点为6月30日,而不是6月15日。 表6-1-39中的$)为4年内同月承保保单数的合计数, 12 这一点在预测中必须考虑到。当然,如果是奇数项移动平 季节调整系数P(U)为SU)与其总和∑SG)之比再乘以12。 均,新时间序列的时间对应点将仍然是各期的中点。 表6-1-39 2.季节调整法。季节调整法是通过度量季节波动的平 季节调整系数的计算 均状态而将其从时间序列中直接剔除掉的一种方法。对于 月份 j s(j) P() 12月为一个周期的季节波动,则有: 1 1 6682 0.838967 2 4533 0.569205 Z=P() (2) 3 7703 0.967192 4 4670 0.586433 武中P)。发价一第月份的季节调整系数 5 5 3052 0.383170 6 6 26145 3.282839 :了y.4一所有年份第个月份的总 > 7 9302 1.167944 6 6155 0.772870 1,2,…,12) 9 9 7728 0.970331 m一所要调整的时期总数。 10 10 4764 0.598211 一旦完成季节调整过程,应用上述某个模型即可对2。以 11 3102 0.389474 12 进行估计,然后对(1)式进行逆变换可得Y。· 12 11734 1.473340 合计 95569 12.00000 例:根据1992年至1996年各月承保的保单数(见表6- 1-38),预测1997年各月承保的保单数。 用各月的季节调整系数去除表6-1-38中相应各月的
1180 第六篇保险实务定量分析 原始数据得表6-1-40。 续表 表6-1-40 经季节调整后各月承保的保单数 保单预测数 月份 P(j) 月份 1992 1993 1994 1995 1996 1991×P(i) 1608 2042 1934 2066 1923 11 11 0.389474 775 2 1558 1888 2081 2066 1929 12 12 1.473340 2933 1381 1897 2009 2049 2010 合计 12.00000 23892 4 1332 2054 2011 2015 1885 5 1185 2018 1927 1988 2031 1481 1985 1973 2013 1994 多元回归预测模型(Multiple Return Forecast Model) 2006 2028 1979 1892 2065 在多元回归预测模型中,问题变得更加复杂化。每一个 1974 2098 1857 1982 2027 自变量都具有自己的结构形式,而且需进行预测,此外,还要 1995 1977 1951 2110 1926 考虑自变量的自相关问题。 10 1917 2059 1949 1948 2007 最常用的线性回归模型具有如下形式: 11 1981 2000 1851 1916 2198 y=BX4+B2X4+… (1) 12 1933 2040 2022 1949 1954 式中,X,一第j个自变量在时间i的取值; 合计 20350 24085 23543 23993 23948 B—一模型参数,通常用最小二乘法进行估计。 连乘形式的模型也可以通过对数变换转化为下述的线 性回归模型处理: In(Y)=B In(X)+B2 In(X2.)+.. (2) 用线性回归模型进行预测,首先需要用历史数据估计模 型参数,然后对每个自变量进行预测,在此基础上即可对因 变量作出预测。与式(1)和(2)相对应,预测公式分别为 Yl=B,Ye+l+B2X2ek+…, (3) 和 In(Y)=B In()+B2In()+. (4) 式中,立。.4一用前n期的数据对因变量在第n+k期的值所 图6-1-6经季节调整后各月保单数 做的预测: 经过季节调整后,将各月承保的保单数绘制成折线图则 .。一用前n期的数据对第j个自变量在第n+k期 如图6-1-6所示。从图中可以看出,承保保单数从1992年 的值所做的预测。 到1993年存在一个明显的增长趋势,但除此之外,调整后的 例:表6-1-42给出了一家保险公司汽车碰撞险的索赔 后4年数据是相对稳定的。根据后4年的数据可以计算出平 频率数据,经分析认为,影响汽车碰撞险索赔频率的因素可 均每月的保单数为1991份。鉴于经调整后的数据比较稳定, 能包括各月的白昼时数、阴雨天数、失业率和工作日数。有 因此可以使用这一简单平均数进行预测,即在不考虑季节波 关数据如表6-1-42所示。根据表6-1-42的数据,应用 动的情况下,1997年各月承保的保单数为1991份。用1991 标准统计软件可得下述的多元回归模型: 乘以各月的季节调整系数即得1997年各月的最终预测值如 y=5.3890-0.3810x1+0.170x2-0.22533+05527x4 表6-1-41所示。 该回归方程的复相关系数为0.9404,决定系数为0.883 表6-1-41 1997年各月的保单预测数 4。从决定系数看,回归方程是高度显著的。回归方程的F 值如表6-1-43所示,各回归系数的t统计量值如表6-1- 保单预测数 月份 P(j) 44所示。在5%的显著性水平下,当自由度为4和19时,F 1991×P() 统计量的查表值为2.90:当自由度为19时,t统计量的查表 0.838967 1670 值为1.729,与表6-1-43和表6-1-44的计算值进行对比 0.569205 1133 可知,回归方程和回归系数都是高度显著的。 3 0.967192 1926 1168 如果可以预测出1997年各月份的白昼时数、阴雨天数 4 4 0.586433 5 0.383170 763 失业率和工作日数,则应用上述的回归方程可以预测出1997 6 3.282839 6536 年各月份汽车碰撞险的索赔频率。如经预测知1997年1月 > > 1.167944 2325 份的白昼时数为10.4、阴雨天数8.3、失业率4.5和工作日数 0.772870 1539 21,则该月汽车碰撞险的索赔频率预测值为 9 9 0.970331 1932 y=5.3890-0.3810×10.4+0.170×8.3-0.2253×4.5 10 10 0.598211 1191 +0.5527×21=13.43
第1章财产保险业务1181 表6-1-42 索赔频率的实际值与预测值 时间 白昼时数x 阴雨天数 失业率 工作日数x4 索赔频率的实际值(%)索赔频率的拟合值(%) 残差 1995.1 10.39 8.23 4.76 23 13.54 14.03 -0.49 1995.2 10.97 7.6 4.82 场 11.99 12.07 -0.08 1995.3 11.62 5.63 4.91 22 12.63 12.67 -0.04 1995.4 12.46 8.62 4.92 21 12.92 12.15 0.77 1995.5 13.16 11.76 5.15 21 12.23 12.20 0.03 1995.6 14.01 10.92 5.52 21 11.33 11.69 -0.36 1995.7 14.02 9.05 5.89 20 10.69 10.83 -0.14 1995.8 13.48 6.82 6.35 9.43 10.12 -0.69 1995.9 12.71 10.44 6.39 23 13.64 13.04 0.60 1995.10 11.92 8.81 6.19 19 10.86 10.99 -0.13 1995.11 11.19 4.93 6.18 之 12.78 11.92 0.86 1995.12 10.39 7.03 6.32 12.83 12.44 0.39 1996.1 10.38 8.68 6.44 13.48 13.16 0.32 1996.2 10.93 5.36 6.49 21 11.61 12.00 -0.39 1996.3 11.66 7.32 6.99 22 11.59 12.39 0.80 1996.4 12.41 8.19 7.81 20 11.03 10.91 0.12 1996.5 13.14 4.88 8.41 3 11.20 11.22 -0.02 1996.6 14.01 6.54 9.56 10.28 10.27 0.01 1996.7 14.01 6.64 10.28 19 8.96 9.01 -0.05 1996.8 13.42 8.58 10.88 20 10.23 9.88 0.35 1996.9 12.62 8.77 11.24 23 11.78 11.79 -0.01 1996.10 11.87 9.88 10.91 乐 9.92 9.51 0.41 1996.11 11.15 12 10.86 Y 12.32 12.26 0.06 1996.12 10.36 10.36 10.77 21 11.12 11.83 -0.71 表6-1-43 回归方程的显著性检验 式中,C,。一对第I年发生的保险事故在第h个延迟年份的 方差来源 自由度 平方和 均方 F值 赔付额。 回 归 4 34.0936 8.5234 36.3206 表6-1-45 流量三角形:累积赔付额 残 差 19 4.4587 1.2347 事故发生年 延迟年数(t) 总 计 23 38.5523 (1) 0 2 3 表6-1-44 回归系数的显著性检验 Cio C1C12C13 t值 C2o C21 Cn C23 常数项 2.4520 3 Cx C B -4.6009 B 2.3170 k Cuo Cu B -4.9758 从左下角到右上角的每条对角线都代表着一个日历年 B 7.0047 度,所有在同一条对角线上的赔款支出都发生在同一年,在 主对角线右下方的支出是未知的,它们代表着未来的赔款 流量三角形(Flow Triangle) 支出。 在流量三角形技术中,索赔数据必须排列成流量三角形 表6-1-46是以流量三角形的格式排列的赔付额数据。 的格式。这种格式将索赔数据(如赔付额、索赔次数、逐案估 从左下角到右上角的对角线上的元素代表在每一个日历年 计值等)按照保险事故发生的年度和赔付额支出的年度进行 度的赔付额。譬如,1990年支出的赔付额是第一条对角线上 交叉排列。保险事故发生的年度与赔付额支出的年度之间 的元素(1020,1234,742,582,302,218,172)。其中1020是 的时间延迟被称作延迟年数。 1990年发生的保险事故在当年支出的赔付额:1234是1989 流量三角形的一般格式如表6-1-45所示,其中C.,是 年发生的保险事故延迟1年后在1990年支出的赔付额:742 第1年发生的保险事故,截至第:个延迟年末的累积赔付额。 是1988年发生的保险事故延迟2年后在1990年支出的赔付 CI= C 额,等等
1182 第六篇保险实务定量分析 表6-1-46 赔付额及1997年末关于 在流量三角形中,除了可以列示赔付额数据外,还可以 未决赔款的逐案估计值 单位:千元 列示其他数据,如已报告的索赔次数、未决赔款次数、已决赔 事故 延迟年数 款次数和已发生的赔付额等数据。 发生年 0 1 2 3 4 5 67+ 1984 172266 链梯模型(Chain Ladder Model) 1985 218 204358 基本链梯模型(Basic Chain Ladder Model)链梯模型 1986 302268192304 是最早提出的一种流量三角形技术,也是最简单的一种流 1987 582358236312462 量三角形技术。它是基于下述假设的,即保险公司的赔付 1988 742726384344180396 支出具有稳定的延迟模式。链梯模型采用的是累积赔付 1989 1234858778472240362552 额数据。 1990 10201330914858 448360340 416 由于保险公司的赔付支出具有稳定的延迟模式,所以可 1991 146817241328662 494466416680 以定义链梯系数M:是延迟至k年后的累积赔付额与延迟至 1992 1422153813181440976624 1993 12481520134216681338 k-1后的累积赔付额的比率。 1994 1540161021342218 于是,每个事故发生年已发生的总赔付额的期望值可表 1995 240429103340 示为 1996 35865048 (1) 1997 4680 G=CM 1 在表6-1-46中,假设当延迟年数在0-6年时,可以取 式中,C,一第1年发生的保险事故所导致的总赔付额的估 得每个年份的赔付额数据,而延迟至第7年以后,只能获得以 计值: 后所有年份的累积赔付额数据。这个累积赔付额数据被称 C,一第1年发生的保险事故,截至第t个延迟年末的 作数据的尾部。 累积赔付额。 应该注意的是,每个事故发生年和延迟年数所对应的赔付 累积赔付额C可通过下式进行估计: 额数据既可以每年独立列示(如表6-1-46),也可以累积反映。 Ci=CinΠM (2) 根据表6-1-46计算的累积赔付额数据如表6-1-47。 而未决赔款可表示为 表6-1-47 累积赔付额 单位:千元 R=c(ΠM-) (3) 事故 延迟年数 发生年 0 1 2 3 4 5 67+ 式中,R一第1个事故发生年所发生的保险事故,截 1990 10202350326441224516493052705686 至第t个延迟年末的未决赔款的估计值。 1991 14683190452051825676614265587238 由此可见,在链梯模型中,比率M,和截至计算日的累积 1992 142229604278571866947318 赔付额是决定性因素。比率M可通过表6-1-47的累积 1993 12482768411057787116 赔付额数据进行估计,估计结果如表6-1-48所示。 1994 1540315052847502 1995 240453148654 1996 35868628 1997 4680 表6-1-48 链梯系数:累积赔付额比率M 延迟年数 事故发生年 1:0 2:1 3:2 4:3 5:4 6:5 7+:6 1990 2.3039 1.3889 1.2629 1.1087 1.0788 1.0690 1.0789 1991 2.1744 1.4160 1.1465 1.0953 1.0821 1.0677 1.1037 1992 2.0816 1.4453 1.3366 1.1707 1.0932 1993 2.2179 1.4848 1.4058 1.2316 1994 2.0455 1.6775 1.4198 1995 2.2105 1.6258 1996 2.4077 平均值 2.2358 1.5258 1.3191 1.1565 1.0856 1.0683 1.0927 选定值 2.2400 1.6300 1.4000 1.2000 1.0900 1.0700 1.1000