期 汤诗杰等:DNA序列的分类模型 表3 未知的序号与A组的内积与B组的内积属于的类别未知的序号与A组的内积与B组的内积属于的类别 0926922 0803952 0866976 0853967 0939727 0656827 0788524 0937135 094819 0772073 0960322 0739089 080120 093012 095301976695 BAABABAB 123456789 0904282 0747578 0944724 0723664 0746071 0954652 0931007613193 0885631 811837 a84408 方法一讨论这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计 算,找出A,B两类DNA链中的频率特性,建立四维向量空间,然后对待求分类的序列统计 频率,与已知分类的向量进行内积运算找出量化的关联性,从而将其分类但这种方法也 有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关 系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分 类所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征 方法二基于字母出现周期性 在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每 个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规 律性等等前一个问题我们留到下面讨论,现在我们想办法处理后一个问题 对于某单个字母,以a为例,假设它在序列中第n,t,……,t+1,个位置出现,我们试图 找出这些数字之间的关联首先,可以认识到考查t的分布及绝对值是意义不大的,因为序 列是一大段DNA中的一个片断,片断的起始段不同会导致t的不同于是为了抵消n的 线性位移,考虑下面一组值 Si= Ii+I-I 即字母a出现的间距 可以看出,序列s1,s2,……,sm的大小包含的信息是a的“稠密度”,也可看成一个与频率 有关的量,前面己经处理过所以我们可以考虑序列s1,s,…,sm的波动幅度,幅度越小, 说明s(=1,2,……,k)的值越趋于统一,即a的出现周期性越大而表征波动幅度的量在 统计中是中心矩现求s的二阶中心矩,即方差 1 同理,可以求出varg、 Vardar 由所得数据知,对ar与var,上述方法对A、B组的区分率很高,就有良好的可分辨 性为了强调这种特征的显著性,我们用F2= vardar作为这种方法的目标函数 由图1可以看出点与原点连线的斜率在A组中和B组中有显著差别,根据这个特征,A 组和B组可以很好地区分开来,并且较好地弥补了方法一中的不全面之处 方法二讨论这种方法是从序列中相邻相同字母之间的距离即字母出现的周期性着手 2 o1995-2004 Tsinghua Tongfang Optical Disc Co, Lid. All rights reserved
表 3 未知的序号 与A 组的内积 与B 组的内积 属于的类别 未知的序号 与A 组的内积 与B 组的内积 属于的类别 1 0. 815781 0. 938814 B 11 0. 852231 0. 920957 B 2 0. 926922 0. 803952 A 12 0. 866976 0. 853967 A 3 0. 939727 0. 656827 A 13 0. 860955 0. 917122 B 4 0. 788524 0. 937135 B 14 0. 961689 0. 67678 A 5 0. 948194 0. 772073 A 15 0. 960322 0. 739089 A 6 0. 801201 0. 930121 B 16 0. 904282 0. 747578 A 7 0. 953019 0. 76695 A 17 0. 944724 0. 723664 A 8 0. 746071 0. 968035 B 18 0. 75862 0. 954652 B 9 0. 931007 0. 613193 A 19 0. 885631 0. 811837 A 10 0. 897774 0. 844082 A 20 0. 75584 0. 941 B 方法一讨论 这种方法是从概率统计的角度分析问题, 通过对每个字母出现频率的计 算, 找出A ,B 两类DNA 链中的频率特性, 建立四维向量空间, 然后对待求分类的序列统计 频率, 与已知分类的向量进行内积运算, 找出量化的关联性, 从而将其分类. 但这种方法也 有其局限性, 在统计字母出现的频率时, 忽略了字母所在位置以及各个字母之间的相互关 系, 造成用这种方法对已知分类的序列进行检验时, 个别频率特性不明显的序列不太容易分 类. 所以, 这种方法虽然有其科学性, 但还不够完善, 不能完全体现序列的所有特征. 方法二 基于字母出现周期性 在以上进行了基于字母出现频率的分类之后, 我们认为, 一个序列所含的信息远不止每 个字母出现的频率, 还有字母出现和它前后若干个字母的相关联性, 字母在序列中出现的规 律性等等. 前一个问题我们留到下面讨论, 现在我们想办法处理后一个问题. 对于某单个字母, 以 a 为例, 假设它在序列中第 t1, t2, ……, tk+ 1, 个位置出现, 我们试图 找出这些数字之间的关联. 首先, 可以认识到考查 ti 的分布及绝对值是意义不大的, 因为序 列是一大段DNA 中的一个片断, 片断的起始段不同会导致 ti 的不同. 于是为了抵消 ti 的 线性位移, 考虑下面一组值 si = ti+ 1 - ti i = 1, 2, …, k 即字母 a 出现的间距. 可以看出, 序列 s1, s2, ……, sn 的大小包含的信息是 a 的“稠密度”, 也可看成一个与频率 有关的量, 前面已经处理过. 所以我们可以考虑序列 s1, s2, ……, sn 的波动幅度, 幅度越小, 说明 si (i= 1, 2, ……, k ) 的值越趋于统一, 即 a 的出现周期性越大. 而表征波动幅度的量在 统计中是中心矩. 现求 si 的二阶中心矩, 即方差. V ara (s1, s2, ……, sn ) = 1 n - l∑ n i= l (si - s) 2 , s = ∑ n i= l si n 同理, 可以求出V arg、V art、V arc. 由所得数据知, 对V arg 与V art, 上述方法对A、B 组的区分率很高, 就有良好的可分辨 性. 为了强调这种特征的显著性, 我们用 F 2= V argöV art 作为这种方法的目标函数. 由图 1 可以看出点与原点连线的斜率在A 组中和B 组中有显著差别, 根据这个特征,A 组和B 组可以很好地区分开来, 并且较好地弥补了方法一中的不全面之处. 方法二讨论 这种方法是从序列中相邻相同字母之间的距离即字母出现的周期性着手 1 期 汤诗杰等: DNA 序列的分类模型 12 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved
数学的实践与认识 10 真 t 16182 间隔方差 分析的它统计了每个字母在序列中两次出现的间隔,并且用方差度量这种间隔的波动大 小,由此找到了一个能较好区分A,B组的目标函数,综合地考虑了序列全局和局部的性质 方法3基于序列熵值 我们可以把一串DNA序列看成一个信息流,这与生物学的基础知识是相应的关于 、B的分类,可以考虑其单位序列所含信息量(即熵)的多少从直观上来看,我们可以认 为,重复得越多,信息量越少这是我们通过观察A、B组的特点而归纳出的方法 设序列为L=(a,a2,a3,…,an);前m个字符所带的信息量为fm(D),记 gm(D)=fm(1)-fm1(1), 即gm(1)为加上第m个字母之后所增加的信息量然后,由gm(1)=fm(1)-fm1(1),得 f,(=∑g:(1,则f,(D为整个序列所带的信息量F1(=1什即为单位长度所带的 信息量现在的问题就归结为如何找出一个合适的g=(D 我们有理由认为g具有以下性质: 性质1:gm(1)>0即任意加上一个字符,它或多或少带有一定信息量, 性质2:第m个字符(或者是以它结尾的较短序列)与前面的序列(信息流)重复得越 多,gm(D)的值必然越小 性质3:第m个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复,gm(1) 的值越小和与它离得越远的重复,gm(1)的值越大 性质4f0(1)=0 对此,我们可以构造如下函数 2 01995-2004 Tsinghua Tongfang Optical Disc Co, LId. All rights reserved
图 1 分析的. 它统计了每个字母在序列中两次出现的间隔, 并且用方差度量这种间隔的波动大 小, 由此找到了一个能较好区分A ,B 组的目标函数, 综合地考虑了序列全局和局部的性质. 方法 3 基于序列熵值 我们可以把一串DNA 序列看成一个信息流, 这与生物学的基础知识是相应的. 关于 A、B 的分类, 可以考虑其单位序列所含信息量(即熵) 的多少. 从直观上来看, 我们可以认 为, 重复得越多, 信息量越少. . 这是我们通过观察A、B 组的特点而归纳出的方法. 设序列为L = (a1, a2, a3, ……, an ); 前m 个字符所带的信息量为 f m (l) , 记 gm (l) = f m (l) - f m - 1 (l) , 即 gm (l) 为加上第m 个字母之后所增加的信息量. 然后, 由 gm (l) = f m (l) - f m - 1 (l) , 得 f n (l) = ∑ n i= 1 g i (1) , 则 f n (l) 为整个序列所带的信息量. F 3 (l) = f n (1) û1û 即为单位长度所带的 信息量. 现在的问题就归结为如何找出一个合适的 gm (l). 我们有理由认为: g 具有以下性质: 性质 1: gm (l) > 0. 即任意加上一个字符, 它或多或少带有一定信息量; 性质 2: 第m 个字符(或者是以它结尾的较短序列) 与前面的序列 (信息流) 重复得越 多, gm (l) 的值必然越小; 性质 3: 第m 个字符(或者是以它结尾的较短序列) 如果和与它靠得越近的重复, gm (l) 的值越小; 和与它离得越远的重复, gm (l) 的值越大; 性质 4: f 0 (l) = 0. 对此, 我们可以构造如下函数: 22 数 学 的 实 践 与 认 识 31 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved
期 汤诗杰等:DNA序列的分类模型 (D) 11 g+ 120+ tp op 其中b为防止分母为零而设的一个小正数 ∑aDn 1以第m-t个字符结尾的i字串且与以第t个字符结尾的i字串完全相同 否则 a为一个小于1的数,其存在体现了g的性质3,即如果越近的位置出现重复,认为字串 信息量越少,反之较多 G的表达式中,t表示两个相同字串之间的距离,i表示字串长度,这个表达式定量的给 出距离和信息量之间的关系 又由于长度不同的字串重复对信息量的影响是不同的,所以必须在G前乘上一个权值 ,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数c>1,使得b c,这个表达式定量的给出长度和信息量之间的关系 可以认为,字串长度太大的重复非常少见,则可将p取为某一固定的正数那么,给出 a、bcp四个参数,就可以把∫。严格确定下来通过反复上机搜索,我们认为,取p=6,即 只检查长度为1到6的字串即可 另外,取a=0.392,b=0.1,c=3可以将A、B组F3(D值分得较开,并可以用来处理未 知数据 方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时 信息量就会比重复少的序列所含有的信息少所以,其侧重点是是序列前后的重复性,也就 是序列元素的相关性从所给的A,B两类中可以很清楚地看到B中序列重复量大,所含的 信息明显少于A组,而这个特征就被我们定义的熵函数凸显出来将DNA序列看成一个 信息流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法,统计学和信息 论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用 综合模型的建立 以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问 题进行分析第一种方法主要考虑的是单个字母出现的频率,第二种方法主要考虑每个字 母的出现是否具有周期性,而第三种方法则考虑的是每条DNA所蕴含的信息量我们将这 三种方法对A、B组自身进行了检验,都得到了较令人满意的结果但因为每个模型都只突 出考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种 方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学 下面就是我们将几种方法综合考虑得到最后结果 以上我们用三种方法得到了三个目标函数F1(D),F2(1),F3(D),这三个目标函数可以作为 分类的判别标准将它们看成定义在序列空间L={是由a,g,tc四个字母组成的序列}上, 作用于实轴上的函数现在,我们必须找到一个函数F,使得F可以体现序列的各个特征 由于F1(1),F2(1),F3(D)的值域范围差别很大,为了有效的比较这三个函数,我们必须 将它们归一化将E=f,()(=1,2,3,以下同)看成一定义在L空间上的随机变量,A,B为 L的子集,则将f归一化得 2 01995-2004 Tsinghua Tong/ang Optical Disc Co, Lid. All rights reserved
gm (l) = b b + t1Ρ1 + t2Ρ2 + …… + tpΡp 其中 b 为防止分母为零而设的一个小正数; Ρi = ∑ m i= 1 a t ∆it; ∆it= 1 0 以第m - t 个字符结尾的 i 字串且与以第 t 个字符结尾的 i 字串完全相同 否则 a 为一个小于 1 的数, 其存在体现了 g 的性质 3, 即如果越近的位置出现重复, 认为字串 信息量越少, 反之较多. Ρi 的表达式中, t 表示两个相同字串之间的距离, i 表示字串长度, 这个表达式定量的给 出距离和信息量之间的关系. 又由于长度不同的字串重复对信息量的影响是不同的, 所以必须在 Ρi 前乘上一个权值 ti, 由概率统计的知识可知, 这种影响是呈指数上升的, 则可选择一适当的常数 c> 1, 使得 ti = c i- 1 , 这个表达式定量的给出长度和信息量之间的关系. 可以认为, 字串长度太大的重复非常少见, 则可将 p 取为某一固定的正数. 那么, 给出 a、b、c、p 四个参数, 就可以把 f n 严格确定下来. 通过反复上机搜索, 我们认为, 取 p = 6, 即 只检查长度为 1 到 6 的字串即可. 另外, 取 a= 01392, b= 011, c= 3 可以将A、B 组 F 3 (l) 值分得较开, 并可以用来处理未 知数据. 方法三讨论 这种方法从序列的信息量(熵) 入手, 认为当序列中有大量的重复元素时, 信息量就会比重复少的序列所含有的信息少. 所以, 其侧重点是是序列前后的重复性, 也就 是序列元素的相关性. 从所给的A ,B 两类中可以很清楚地看到B 中序列重复量大, 所含的 信息明显少于A 组, 而这个特征就被我们定义的熵函数凸显出来. 将DNA 序列看成一个 信息流的方法由于其在实际问题中的广泛背景, 将会是一个很有价值的想法, 统计学和信息 论的一套非常成熟的强大工具也会在DNA 研究中发挥巨大的作用. 综合模型的建立 以上我们分别用三种方法得出了分类方案, 这三种方案分别基于三种不同的方面对问 题进行分析. 第一种方法主要考虑的是单个字母出现的频率; 第二种方法主要考虑每个字 母的出现是否具有周期性; 而第三种方法则考虑的是每条DNA 所蕴含的信息量. 我们将这 三种方法对A、B 组自身进行了检验, 都得到了较令人满意的结果, 但因为每个模型都只突 出考虑序列某一方面的特征, 所以, 总有一些不尽如人意的地方, 于是, 我们认为应该把三种 方法综合起来考虑, 使序列各方面的特征都能得到体现, 以使分类更加科学. 下面就是我们将几种方法综合考虑得到最后结果. 以上我们用三种方法得到了三个目标函数: F 1 (l) , F 2 (l) , F 3 (l) , 这三个目标函数可以作为 分类的判别标准. 将它们看成定义在序列空间L = {lûl 是由 a, g , t, c 四个字母组成的序列}上, 作用于实轴上的函数. 现在, 我们必须找到一个函数 F , 使得 F 可以体现序列的各个特征. 由于 F 1 (l) , F 2 (l) , F 3 (l) 的值域范围差别很大, 为了有效的比较这三个函数, 我们必须 将它们归一化, 将 Νi= f i (l) (i= 1, 2, 3, 以下同) 看成一定义在L 空间上的随机变量,A ,B 为 L 的子集, 则将 f i 归一化得 1 期 汤诗杰等: DNA 序列的分类模型 32 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved
数学的实践与认识 gi 互-EE (1) 而现有样本点f,(11),f,(12),……,f(120)利用距估计方法估计得 f1(l) (f(l)-ES)2 代入(1)即得g 现估计g,投射L的点到实轴上后,g(4)和g(B)的分界点x,其中 g(4)={g(a)p∈A} g,(B)={g(b)b∈B冫 以g为例,A的10个样本点和B的10个样本点不能被一个分界点分开,有极大似然 估计的思想,分界点应该把尽可能多的点分开,即 x;∈(-0276758,0482296) 由于g()的分布未知,故只能假设其满足较均匀的分布,则A,B的分界点的最好估计 g1),E20),而Eg)+Eg(8)的矩估计为∑g()=0(由g的定义)恰好 0∈(-0.276758,0.482296),则x1=0是分界点的最佳估计 同理,x2=0,x=0分界是g2g对应分界点的最佳估计 令F=a1g1+a2g2+ag3,则其分界点为x=a1×0+a2×0+a3×0=0 由F的构造方法知,F作用到A样本上大于零,作用到B样本上小于零我们确定适 当的权值,以此作为A,B的分类法即可根据不同的实际情况,可以相应调节这三个权值, 以体现分类中的不同因素所在的比重在下面的计算中,我们简单的取a1=1,a2=-1,a= 0.5得到的结果如表4,表5所示 表4 6 175355 II L.38528 A B 组 234 25887 141371 131022 组 19011 组14 093612组19 26043 21781 L97282 表5 目标函数值 目标函数值 L96454 106638 0873279 0877053 -148005 BBA 3456789 121328 169535 2 01995-2004 Tsinghua Tongfang Optical Disc Co, Lid. All rights reserved
g i = Νi - E Νi V arΝi (1) 而现有样本点 f i (11) , f i (12) , ……, f i (120) 利用距估计方法估计得: E Νi = 1 n ∑ n j= 1 f i (li) V arΝi = 1 n - 1∑ n j= 1 (f i (li) - ES i) 2 代入(1) 即得 g i 现估计 g i 投射L 的点到实轴上后, g i (A ) 和 g i (B ) 的分界点 x i, 其中 g i (A ) = {g (a)ûa ∈A } g i (B ) = {g (b)ûb ∈B } 以 g 1 为例,A 的 10 个样本点和B 的 10 个样本点不能被一个分界点分开, 有极大似然 估计的思想, 分界点应该把尽可能多的点分开, 即 x i ∈ (- 0. 276758, 0. 482296) 由于 g i (l) 的分布未知, 故只能假设其满足较均匀的分布, 则A ,B 的分界点的最好估计 为 E g i (A ) + E g i (B ) 2 , 而 E g i (A ) + E g i (B ) 的矩估计为 ∑ 20 i= 1 g (li) = 0 (由 g 的定义). 恰好 0∈(- 01276758, 01482296) , 则 x 1= 0 是分界点的最佳估计. 同理, x 2= 0, x 3= 0 分界是 g 2, g 3 对应分界点的最佳估计. 令 F = a1g 1+ a2g 2+ a3g 3, 则其分界点为 x = a1×0+ a2×0+ a3×0= 0 由 F 的构造方法知, F 作用到A 样本上大于零, 作用到B 样本上小于零. 我们确定适 当的权值, 以此作为A ,B 的分类法即可. 根据不同的实际情况, 可以相应调节这三个权值, 以体现分类中的不同因素所在的比重. 在下面的计算中, 我们简单的取 a1= 1, a2= - 1, a3= 015. 得到的结果如表 4, 表 5 所示: 表 4 序号 目标函数值 序号 目标函数值 序号 目标函数值 序号 目标函数值 A 组 1 1. 80288 2 1. 75894 3 2. 5887 4 0. 27582 5 2. 1781 A 组 6 1. 75355 7 1. 25115 8 1. 41371 9 1. 9011 10 1. 97282 B 组 11 - 1. 38528 12 - 1. 22372 13 - 0. 940004 14 - 0. 93612 15 - 2. 27465 B 组 16 - 2. 60295 17 - 0. 0165438 18 - 1. 31022 19 - 2. 6043 20 - 3. 603 表 5 序号 目标函数值 类别 序号 目标函数值 类别 21 - 1. 96454 B 31 - 1. 06638 B 22 0. 873279 A 32 - 0. 668504 B 23 2. 32887 A 33 - 0. 877053 B 24 - 1. 48005 B 34 2. 60904 A 25 1. 21328 A 35 1. 69535 A 26 - 1. 184 B 36 1. 22298 A 27 1. 22569 A 37 1. 83991 A 28 - 3. 71616 B 38 - 3. 01466 B 29 2. 69272 A 39 0. 499763 A 30 0. 550393 A 40 - 2. 77993 B 42 数 学 的 实 践 与 认 识 31 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved
期 汤诗杰等:DNA序列的分类模型 由以上数据可以看出,我们构造的目标函数具有较好的区分度对于A组,目标函数值 都大于零,而对B组,目标函数值都小于零也就是说,用这种方法,对A、B组样本的区分 率已达到了100%.正如前面所说,这种方法综合了序列中的许多信息因此,我们完全可 以采用这个标准来区分C组表5是对C组区分的结果 对20个未标明分类的人工序列的分类结果为 A类2325279303435363739B类212426283132333840 同样的,我们利用这种方法对所给的182个自然序列进行了分类,结果如下所示(略) 5模型的评价及推广 在我们的模型基础上提出的分类方法可以很好的验证已知的20个序列,并且很好的完 成了对未知类型序列的分类我们认为这种模型,同时考虑了序列中元素的局部性质和序 列的全局性质,具有相当的实际背景当我们知道分类标准的更多信息时,我们可以很方便 的调整模型中的参数,使之符合新的情况,具有很好的自学习性但这个模型比较复杂,在 实际计算中参数选择需要花费大量计算时间进行搜索 我们在模型中使用的基于信息流的方法中,如果选取更为合适的熵函数,一定可以使它 更加符合实际情况;在三种方法综合的时候,所取的权值也是可以采用更为有效的方法选 取,如应用层次分析法,还可以选取其他分类方法加入这些都是本模型可以改进的地方 参考文献 []姜启源数学模型(第二版)高等教育出版社,1992 [2]刘郁强等,序列空间方法,广东科技出版社,1996. ]刘祖洞,遗传学(第二版,高等教育出版社,1991 [4]姜丹,钱玉美,信息理论与编码,中国科学技术大学出版社,1992 5]王玲玲等,常用统计方法,华东师范大学出版社,1994 [6]陆璇,应用统计,清华大学出版社,199 The Cla ss if ied M odel for DNA Sequences TANG Shijie, ZHOU L iang, WANGXiao-ling qU niversity of Science and Techno lo gy of Ch ina, Hefei 230026) Abstract C lassify ing the DNA sequences is a practice problem in bobgy In this paper,a m athem atics model is established for the classify ing of DNA sequences Since there are bo th locality and globality in the DNA sequences, we discuss the criteron about w hether the classif ed m ethod is good or not That is w hether the m ethod bases on all p roperties that the DNA seque So a classif ied m ethod w ith a single standard is not enough for the p roblem. Here is a synthesis m ethod on three different classified ways The three ways base on varied p roperty that DNA sequences have The first is the frequency of occurrences of the elem ent in the dNA 2 01995-2004 Tsinghua Tongfang Optical Disc Co, Lid. All rights reserved
由以上数据可以看出, 我们构造的目标函数具有较好的区分度. 对于A 组, 目标函数值 都大于零; 而对B 组, 目标函数值都小于零. 也就是说, 用这种方法, 对A、B 组样本的区分 率已达到了 100%. 正如前面所说, 这种方法综合了序列中的许多信息. 因此, 我们完全可 以采用这个标准来区分C 组. 表 5 是对C 组区分的结果. 对 20 个未标明分类的人工序列的分类结果为: A 类: 22, 23, 25, 27, 29, 30, 34, 35, 36, 37, 39 B 类: 21, 24, 26, 28, 31, 32, 33, 38, 40 同样的, 我们利用这种方法对所给的 182 个自然序列进行了分类, 结果如下所示(略). 5 模型的评价及推广 在我们的模型基础上提出的分类方法可以很好的验证已知的 20 个序列, 并且很好的完 成了对未知类型序列的分类. 我们认为这种模型, 同时考虑了序列中元素的局部性质和序 列的全局性质, 具有相当的实际背景. 当我们知道分类标准的更多信息时, 我们可以很方便 的调整模型中的参数, 使之符合新的情况, 具有很好的自学习性. 但这个模型比较复杂, 在 实际计算中参数选择需要花费大量计算时间进行搜索. 我们在模型中使用的基于信息流的方法中, 如果选取更为合适的熵函数, 一定可以使它 更加符合实际情况; 在三种方法综合的时候, 所取的权值也是可以采用更为有效的方法选 取, 如应用层次分析法; 还可以选取其他分类方法加入. 这些都是本模型可以改进的地方. 参考文献: [ 1 ] 姜启源. 数学模型(第二版). 高等教育出版社, 19921 [ 2 ] 刘郁强等 1 序列空间方法 1 广东科技出版社, 19961 [ 3 ] 刘祖洞 1 遗传学(第二版 1 高等教育出版社, 19911 [ 4 ] 姜 丹, 钱玉美 1 信息理论与编码 1 中国科学技术大学出版社, 19921 [ 5 ] 王玲玲等 1 常用统计方法 1 华东师范大学出版社, 19941 [ 6 ] 陆 璇 1 应用统计 1 清华大学出版社, 19991 The Classif iedM odel for D NA Sequences TAN G Sh i2jie, ZHOU L iang, W AN G X iao2ling (U niversity of Science and T echno logy of Ch ina, H efei 230026) Abstract: C lassifying the DNA sequences is a p ractice p roblem in bio logy. In th is paper, a m athem atics model is established fo r the classifying of DNA sequences. Since there are bo th locality and globality in the DNA sequences, w e discuss the criterion about w hether the classified m ethod is good o r no t. T hat is w hether the m ethod bases on all p roperties that the DNA sequences have. So a classified m ethod w ith a single standard is no t enough fo r the p roblem. H ere is a synthesis m ethod on th ree different classified w ays. T he th ree w ays base on varied p roperty that DNA sequences have. T he first is the frequency of occurrences of the elem ent in the DNA 1 期 汤诗杰等: DNA 序列的分类模型 52 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved