前面已选取了特征参数,把特征参数张成的多维空间称为特征空间。分类决策就是在特 征空间中用统计的方法把被识别对象归为某一类别基本作法是在学习样本集的基础上确定 某个判决规则,使按这种判决规则对被甄别对象进行分类所造成的错误识别率最小或引起的 损失最少。 这里,我们的分类决策选取 Fisher线性判别法。即选取线性判别函数U(x),使得 U(x=EllU(x)l-E2lU(x)B/|U(x)1+DzU(x)l=max (1) 其中Ei与Di分别表示母体i的期望和方差运算,j=1, (1)式的含义是:构造一个线性判别函数U(x对样本进行分类,使得平均出错概率最 小。即应在不同母体下,使U(x)的取值尽量分开。具体地说,要使母体间的差异 (E1(U(x)-E2(U(x))2相对于母体内的差异DU(x)+D2U(x)为最大。取 U(x)=(X1-X2)′(∑+∑2)X 就可满足(1)。其中X;为第i类母体的均值矩阵的估计,∑为第i类母体的方差矩阵的估 计。取分类门槛值为 1-a)*X2) 其中0<a<1,本问题中两类样本的个数相等,可取a=1/2。若U(X)>Ua,U(X2)<U,则 当U(X>Uo.就认为X取自母体1;当U(X)<U,就认为X取自母体2。 用上面得出的4个主成分构成的特征组和此分类决策,对20个学习样本进行分类,能 得出正确的结果。但是,若取W=(r;r,r3),求Y=XW,以Y的3个分量作为特征参数向 量,再用Fher线性判别法对20个学习样本进行分类,则第四个样本不能正确分类 因此,得出分类的数学模型为: (1)特征选取:取W=(r,r2,n3,r4),求Y=XW,得出特征参数向量就是Y的4 个列向量。其中X是反映20个学习样本的41个特征的随机向量 (2)分类决策: Fisher线性判别法。 三.分类模型的有效性考查 前面建立的分类数学模型对20个学习样本进行了正确分类。为了进一步考查分类 模型的有效性和可靠性,我们采用的方法是:预先留一部分学习样本不参加训练,然后 用分类决策模型对其作预报,将预报成功率作为预报能力的指标。 每次取出一个学习样本,以其余学习样本作训练集,用分类决策模型对取出的一个 样本作预报,同时对给出的后20种样本作预报。结果见表4
前面已选取了特征参数,把特征参数张成的多维空间称为特征空间。分类决策就是在特 征空间中用统计的方法把被识别对象归为某一类别。基本作法是在学习样本集的基础上确定 某个判决规则,使按这种判决规则对被甄别对象进行分类所造成的错误识别率最小或引起的 损失最少。 这里,我们的分类决策选取 Fisher 线性判别法。即选取线性判别函数 U(x),使得: U(x)={E1[U(x)]-E2[U(x)]}2 /{D1 [U(x)]+D2[U(x)]}=max (1) 其中 Ei 与 Di 分别表示母体 i 的期望和方差运算,i=1,2。 (1)式的含义是:构造一个线性判别函数 U(x)对样本进行分类,使得平均出错概率最 小。即应在不同母体下,使 U(x)的取值尽量分开。具体地说,要使母体间的差异 (E1(U(x))-E2(U(x)))2 相对于母体内的差异 D1[U(x)]+D2[U(x)] 为最大。取 U(x)=( X 1- X 2)'(∑1+∑2) -1X 就可满足(1)。其中 X i 为第 i 类母体的均值矩阵的估计,∑i为第 i 类母体的方差矩阵的估 计。取分类门槛值为: U0=U(α* X 1+(1-α)* X 2) 其中 0<α<1,本问题中两类样本的个数相等,可取 α=1/2。若 U( X 1)>U0,U( X 2)<U0 , 则 当 U(X)>U0., 就认为 X 取自母体 1;当 U(X)<U0, 就认为 X 取自母体 2。 用上面得出的 4 个主成分构成的特征组和此分类决策,对 20 个学习样本进行分类,能 得出正确的结果。但是,若取 W=(r1,r2,r3),求 Y=XW,以 Y 的 3 个分量作为特征参数向 量,再用 Fisher 线性判别法对 20 个学习样本进行分类,则第四个样本不能正确分类。 因此,得出分类的数学模型为: (1) 特征选取:取 W=(r1,r2,r3,r4),求 Y=XW,得出特征参数向量就是 Y 的 4 个列向量。其中 X 是反映 20 个学习样本的 41 个特征的随机向量。 (2) 分类决策:Fisher 线性判别法。 三. 分类模型的有效性考查 前面建立的分类数学模型对 20 个学习样本进行了正确分类。为了进一步考查分类 模型的有效性和可靠性,我们采用的方法是:预先留一部分学习样本不参加训练,然后 用分类决策模型对其作预报,将预报成功率作为预报能力的指标。 每次取出一个学习样本,以其余学习样本作训练集,用分类决策模型对取出的一个 样本作预报,同时对给出的后 20 种样本作预报。结果见表 4。 表 4
取出样品取出样本类别预「后20组样本中A类序号预报 序号 22,23,25,27,29,3435,36,37 AAAAAAA 2,23,25,27,29,34,35,36,37 23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 10 22,23,25,27,29,34,35,36,37 11 12 13 15 16 18 AABBBBBBBBBB 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 2,23,25,27,29,34,35 22,23,25,27,29,34,35,36,37,39 2 25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37,30,39 2,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35,36,37 22,23,25,27,29,34,35
取出样品 序号 取 出样本 类别预 报 后 20 组样本中 A 类序号预报 1 A 22,23,25,27,29,34,35,36,37 2 A 22,23,25,27,29,34,35,36,37 3 A 22,23,25,27,29,34,35,36,37 4 A 23,25,27,29,34,35,36,37 5 A 22,23,25,27,29,34,35,36,37 6 A 22,23,25,27,29,34,35,36,37 7 A 22,23,25,27,29,34,35,36,37 8 A 22,23,25,27,29,34,35,36,37 9 A 22,23,25,27,29,34,35,36,37 10 A 22,23,25,27,29,34,35,36,37 11 B 22,23,25,27,29,34,35,36,37 12 B 22,23,25,27,29,34,35,36,37 13 B 22,23,25,27,29,34,35,36,37 14 B 22,23,25,27,29,34,35,36,37 15 B 22,23,25,27,29,34,35,36,37,39 16 B 22,23,25,27,29,34,35,36,37 17 B 22,23,25,27,29,34,35,36,37,30,39 18 B 22,23,25,27,29,34,35,36,37 19 B 22,23,25,27,29,34,35,36,37 20 B 22,23,25,27,29,34,35, 37
从表4可以看出: 1、每次取出一个学习样本,以其余学习样本作训练集,用分类模型对该学习样本的预 报的成功率是100% 2、每次取出一个学习样本,以其余学习样本作训练集,用分类模型对未知类别的第 21-40个样本进行预报,其结果有以下特点: (1)除分别取出4、15、17,20的预报结果不同外,分别取出其余16中一个 预报结果均为:22,23,25,27, 37,占80 (2)分别取出4、15、20的预报结果,与(1)的结果相比,只有一个样本的差 异,占 3)取出17的预报结果,与(1)的结果相比,有两个样本的差异,占5%。 第一种结果和第二种结果非常接近,合计占总数的95%只有第三组的这一个结果有 较大差异,占总数的5% 由以上检验得出结论:所建立的分类数学模型分类效果很好 四未知样本的预报 现在用前面建立的数学模型对题目所给的未知类型的20个人工序列和182个自然序列 进行预报。(程序见附录三) 结果为 1)20个人工序列的类别 A类:22,23,25,27,29,34,35,36,37 B类:21、24、26、28、30、31、32、33、38、3940 2)182个自然序列的类别 A类:(共142个)2,3,5,6,7,911,12,13,14,15,16,17,18,19, 20,21,22,23,24,25,26,28,30,31,33,34,35, 64,65,66,67,68,69,71,73,74,77,78,7980,82,83,84,85,87 88,89,91,93,9,95,96;97,98,99,100,101,103,104,105,106,107 108,109,1ll112,113,114,115,117,118,120,12l,122,123,124,125, 127,128,129,130,132,13,134,135,136, 138,139,140,141,142, 143,145,146,147,148,149,151,152,153 55,156,158,167,168, 171,172,173,174,175,176,177,178,179,180,181 B类:(共40个)1,48,10,27,29,32,41,43,48,54,63,70,72,75 76,81,86,90,92,102,110,116,119,126,131,144,150,157,159 16l,162,163,164,165,166,169,170,182 四.模型的优缺点分析
从表 4 可以看出: 1、 每次取出一个学习样本,以其余学习样本作训练集,用分类模型对该学习样本的预 报的成功率是 100%。 2、 每次取出一个学习样本,以其余学习样本作训练集,用分类模型对未知类别的第 21~40 个样本进行预报,其结果有以下特点: (1) 除分别取出 4、15、17,20 的预报结果不同外,分别取出其余 16 中一个, 预报结果均为:22,23,25,27,29,34,35,36,37,占 80%。 (2) 分别取出 4、15、20 的预报结果,与(1)的结果相比,只有一个样本的差 异,占 15%。 (3) 取出 17 的预报结果,与(1)的结果相比,有两个样本的差异,占 5%。 第一种结果和第二种结果非常接近,合计占总数的 95%。只有第三组的这一个结果有 较大差异,占总数的 5%。 由以上检验得出结论:所建立的分类数学模型分类效果很好。 四.未知样本的预报 现在用前面建立的数学模型对题目所给的未知类型的 20 个人工序列和 182 个自然序列 进行预报。(程序见附录三) 结果为: 1) 20 个人工序列的类别 A 类:22,23,25,27,29,34,35,36,37 B 类:21、24、26、28、30、31、32、33、38、39、40 2) 182 个自然序列的类别 A 类:(共 142 个)2,3,5,6,7,9,11,12,13,14,15,16,17,18,19, 20,21,22,23,24,25,26,28,30,31,33,34,35,36,37,38,39,40, 42,44,45,46,47,49,50,51,52,53,55,56,57,58,59,60,61,62, 64,65,66,67,68,69,71,73,74,77,78,79,80,82,83,84,85,87, 88,89,91,93,94,95,96,97,98,99,100,101,103,104,105,106,107, 108,109,111,112,113,114,115,117,118,120,121,122,123,124,125, 127,128,129,130,132,133,134,135,136,137,138,139,140,141,142, 143,145,146,147,148,149,151,152,153,154,155,156,158,167,168, 171,172,173,174,175,176,177,178,179,180,181 B 类:(共 40 个)1,4,8,10,27,29,32,41,43,48,54,63,70,72,75, 76,81,86,90,92,102,110,116,119,126,131,144,150,157,159,160, 161,162,163,164,165,166,169,170,182 四. 模型的优缺点分析