508 全国大学生数学建模竞赛优秀论文汇编 样本集的规模,选隐层节点数N=5,这样可使网络有能力记忆全体样本,不至于在学习过 程中丢失前面的学习过的样本的信息, 4.4网络的训练及检验 在已知类别序列1~20中,取A类前7个序列(1-7)和B类前7个序列(11~17)作为 训练样本集 Strain,序列8-10、18~20作为检验样本集Stet对网络1:25-5-1及网络19 5-1进行训练,给定样本总体误差标准为10-5.当网络学习收敛于给定的标准后,用检 验样本集进行分类检验,考察其分类识别的准确性网络1、2的初始权值均为-0.2~+ 0.2之间的随机数.学习算法采用了两种改进措施相结合的BP算法,即变周期和变步长相 结合的方法,用以提高网络的收敛速度,在网络1开始训练时,学习率q取0.9(网络2取 1.0),惯性系数a取0.6(网络2取a为0.7),修正周期T取10.随着误差E的减少,网络 不断逼近对象的输出特性,此时,逐渐减少n及a,增大T,直至网络收敛于给定的标准.训 练达到稳定时,两个网络对训练样本集的学习速率曲线如图1(a)和图2(a)(略),此时对检 验样本的检验结果如图1(b)和图2(b)(略) 图1(a)和图2(a),网络1进行了303步,网络2进行了241步的学习后,就达到了精度 要求,均学习速率较快,效率较高 图1(b)和图2(b),如果允许误差为10%,那么此时网络1对检验样本分类的准确性为 983%,网络2为94.7%,命中率均为100%,我们将检验集加入到训练集中,得组合集 Strain+test.网络用此集进行学习.收敛后,网络1、2可对未知序列进行分类识别了 5结果及分析 5.1对人工序列21~40的分类 我们应用 MATLAB软件包中的神经网络工具箱(BP网络)对未知序列进行分类.我们 发现:若以高于0.9和低于-0.9作为分类标准,两个BP网络的命中率相同,但输出函数值 不等,网络1的输出值与期望值更接近.这种情况出现的原因是 ①网络2中输入变量较网络1少,在样本集个数相同的情况下,建模不够充分 ②双字符串的组合形式较三字符串少,因此,采用特征三字符串能能更好的体现序列中 片段的相关性 过反复训练、检验、分类,我们发现:网络1较网络2学习速度快,对未知序列区分的 精度更高,因此,认为网络1更优 在这里,采用网络1的分类结果,即:A类:22,23,25,27,29,34,35,37,39;B类:21 24,26,28,30,31,32,33,36,38,40 52对182个自然序列的分类 我们把21~40中已明确分类的序列加入到样本中,重新对网络1进行训练,直至达到 误差10-5.分别以高于0,0.2,0.5和低于0,0.2,0.5作为分类标准,对182个自然序列的 分类结果为:(略) 随着分类标准的变化,分类率随之变化.采用0作为分类标准可把182个自然序列分 开
关于DNA序列分类问题的模型 509 6模型的优缺点及改进方向 优点 ①基因特征这种非线性系统很难用数学方程表达出来,而且可利用的样本有限,以至 于传统的分类识别方法显得无效,神经网络从其良好的学习功能和很强的非线性计算能力 为分类提供了一种新方法; ②传统的分类方法是一种模型驱动方法,大郭分统计模型基于线性回归,而神经网络 用数据驱动方式来解决分类问题,它通过样本学习逼近实际系统模型的能力很强; ③由于BP网络的信息分布性,各输入变量对输出变量的影响在对样本学习时已自动 记下,并由整个网络的内部表达而表现出来,从而省略了通常建模前所需的对各变量的相关 分析; ④BP网络有更多的可调变量(各权值、阀值),故网络可以以更复杂的方式逼近系统的 外部特征,BP模型的不足之处在于存储于各权上的知识人们无法理解,所建立的模型难以 用解析方式表达出来 改进方向: ①样本集如何处理,更能改善网络的学习效果,提高识别精度; ②研究网络的结构及诸参数与分类效果的关系; ③如何根据样本集的选择网络学习参数,以提高网络的收敛速度 ④研究适用于分类识别问题的神经网络的闭环结构,利用反馈信息,提高网络预测的 精度 参考文献百 】王水骥徐建,神经网络控制机械工业出版社,199位 [2] Funahashi K J. the Appronimate Realization of Continuous Mapping by Neural Networks, Neutral Networks, 1989, (2) [3] Rumelhart D E, Moclell J L. Parallel Distributed Processing: Exploration in the Microstructure of cognition. MIT Press, London. 1996 4]袁曾任.人工神经网络及其应用,清华大学出版社,199 5]陈明.神经网络模型.大连理工大学出版社,1995. 出中买 6]楼顺天施阳,基于 MATLAB的系统分析与设计一一神经网络西安电子科技大学出版社 1999 7]王士同陈剑天,问题求解的人工智能神经网络方法,气象出版社,1905 [8]胡守仁.神经网络应用技术.国防科技大学出版社,1993 们一1的,本
DNA分类模型 至,京本的杨。健王驰杨勇 出温(北京大学,北京100871) 指导老师王鸣 编者按本文将DNA序列的碱基的组合看作“文章”的关键词,用逐步优选法对关键词进 行优选并用分层分类的方法进行分类从理论上说,这一方法可以提取较好的特征,而且分类也 较精细.这一模型有一定创造性,分析问题比较精细而贴近实际,思路清楚,叙述通顺简练 摘要本模型充分利用了所给数据的特点,运用统计、最优化等数学方法,从已知样本 序列中提炼出能较好代表两类特征的关键字符串,据此提出量化的分类标准,能较好的对任给 DNA序列进行分类,首先,从已知样本序列中用广度优先法选出所有重复出现的字符串,并 计算其标准化频率及分散度.然后,利用样本数据结合最小二乘法确定两类字符串各自的优 先级函数,并且逐步优化其参数使之达到稳定,提高了可信度,最后,根据优先级函数找出关 键词然后确定权数,用层次分析法对未知样本进行分类,并定出显著水平,从而得到了一个比 较通用的分类方法.经过检验,此方法对21-40号待测样本进行了很好的分类,对后面的182 个DNA序列进行同样的操作,也有较好的效果 1问题的重述(略)时,影国路信 2模型假设 (1)假定待分类样本21-40中既不属于A类也不属于B类的样本百分比不超过5% (2)假设 keyword的重要性与t和s有确定的关系,且只与t和s有关(t,s定义见下) (3)假设不代表A、B类特征的字符串在DNA序列中是均匀分布的 3模型的分析 从所给的DNA序列观察发现,很多字符串重复出现的频率很高,而且有些字符串在A 类和B类中出现的次数有很明显的差距,这暗示把某些字符串作为A,B两类的一个分类标 准,所以应对A、B两类已知样本做统计分析,找出其中可能代表该类特征的字符串,因为 每个字符串重要性可能不一样,所以对这些字串的重要性排序,选出最能代表该类特征的 部分字串.然后用这些字串作为标准判断验证A,B两类,看所选的标准的准确性,最后用 于任何一个DNA序列的分类 4定义与符号说明 A类样本:编号为1-10的DNA序列 B类样本:编号为11-20的DNA序列 词(word):由a,c,t,g组成的在样本中重复至少两次的字符串 关键词( keyword):能代表A类或B类的特征由a,c,t,g组成的词 分散度(s):指某一类中包含某个word的DNA序列的个数