DNA序列分类 摘要本问题是一个“有人管理分类问题”。首先分别列举出20个学习样本序列中1 字符串、2字符串、3字符串出现的频率,构成含41个变量的基本特征集,接着用主成分分 析法从中提取出4个特征。然后用 Fisher线性判别法进行分类,得出了所求20个人工制造 序列及182个自然序列的分类结果如下: 1)20个人工序列:22,23,25,27,29,34,35,36,37为A类,其余为B类 2)182个自然序列:1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76 81,86,90, 102,110,116,119,126,131,144,150,157,159,160,161, 162,163,164,165,166,169,170,182为B类,其余为A类 最后通过检验证明所用的分类数学模型效率较高 问题重述 人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的 一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字 符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如, 在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为 特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片 段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构, 充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是 省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题 1)请从20个已知类别的人工制造的序列(其中序列标号1-10为A类,11-20为B 类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然 后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21-40)进行分类,把 结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入) 2)同样方法对182个自然DNA序列(它们都较长)进行分类,像1)一样地给出分类结果。 模型的合理假设 1.各序列中DNA碱基三联组(即3字符串)的起始位置和基因表达不影响分类的结 果 2.64种3字符串压缩为20组后不影响分类的结果 3.较长的182个自然序列与已知类别的20个样本序列具有共同的特征
DNA 序列分类 摘要 本问题是一个“有人管理分类问题”。 首先分别列举出 20 个学习样本序列中 1 字符串、2 字符串、3 字符串出现的频率,构成含 41 个变量的基本特征集,接着用主成分分 析法从中提取出 4 个特征。然后用 Fisher 线性判别法进行分类,得出了所求 20 个人工制造 序列及 182 个自然序列的分类结果如下: 1) 20 个人工序列:22, 23,25,27,29,34,35,36,37 为 A 类,其余为 B 类。 2) 182 个自然序列:1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76, 81,86,90,92,102,110,116,119,126,131,144,150,157,159,160,161, 162,163,164,165,166,169,170,182 为 B 类,其余为 A 类。 最后通过检验证明所用的分类数学模型效率较高。 一. 问 题 重 述 人类基因组计划中 DNA 全序列草图是由 4 个字符 A,T,C,G 按一定顺序排成的长约 30 亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的 一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这 4 个字 符组成的 64 种不同的 3 字符串,其中大多数用于编码构成蛋白质的 20 种氨基酸。又例如, 在不用于编码蛋白质的序列片段中,A 和 T 的含量特别多些,于是以某些碱基特别丰富作为 特征去研究 DNA 序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片 段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构, 充分发掘序列的结构对理解 DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是 省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。 作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)请从 20 个已知类别的人工制造的序列(其中序列标号 1—10 为 A 类,11-20 为 B 类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然 后用你认为满意的方法,对另外 20 个未标明类别的人工序列(标号 21—40)进行分类,把 结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入) 2) 同样方法对 182 个自然 DNA 序列(它们都较长)进行分类,像 1)一样地给出分类结果。 二.模型的合理假设 1. 各序列中 DNA 碱基三联组(即 3 字符串)的起始位置和基因表达不影响分类的结 果。 2. 64 种 3 字符串压缩为 20 组后不影响分类的结果。 3. 较长的 182 个自然序列与已知类别的 20 个样本序列具有共同的特征
模型建立与求解 研究DNA序列具有什么结构,其A,T,CG4个碱基排成的看似随机的序列中隐藏 着什么规律,是解读人类基因组计划中DNA全序列草图的基础,也是生物信息学 ( Bioinformaties)最重要的课题之 题目给出了20个已知为两个类别的人工制造的DNA序列,要求我们从中提取特征, 构造分类方法,从而对20个未标明类别的人工DNA序列和182个自然DNA序列进行分类。 这是模式识别中的“有人管理分类”问题,即事先规定了分类的标准和种类的数目,通过大 批已知样本的信息处理找出规律,再用计算机预报未知。给出的已知类别的样本称为学习样 本对于此类问题我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策) 考查分类模型的效率、预报未知这几个步骤来进行。 特征的形成和提取 为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征 进行变换,得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列举了尽可能 完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前 提下)减到最小。这是因为:1多余的特征参数不但没有多少好处,而且会带来噪音,干扰 分类和数学模型的建立。2为了保证样本数和特征参数个数的比值足够大,而又不必要用太 多的样本,最好使特征参数的个数降至最少。模式识别计算一般要求样本数至少为变量数的 3倍,否则结果不够可靠。本问题的学习样本数为20个,故特征参数的个数以68个为宜 我们通过研究4个字符ATCG在DNA序列中的排列、组合特性,主要是研究字符和 字符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数。 (一)特征的形成 分别列举一个字符,2个字符,3个字符的排列在序列中出现的频率,构成基本特征集 i.1个字符的出现频率 表1列出了20个样本中A,T,C,G这4个字符出现的频率。由于在不用于编码 蛋白质的序列片段中,A和T的含量特别多些,因此我们将A和T是否特别丰富作为一个 特征。在表一中,列出了A和T出现的频率之和。(程序见附录一) 表1 A+T 29.73 17.12 13.51 39.64 43.24 2.27.03 16.22 15.32 41.44 42.34 3.27.03 21.62 6.31 45.05 33.33 42.34 10.81 28.83 18.02 71.17 5.23.42 23.42 10.81 42.34 34.23
三.模型建立与求解 研究 DNA 序列具有什么结构,其 A,T,C,G4 个碱基排成的看似随机的序列中隐藏 着什么规律,是解读人类基因组计划中 DNA 全序列草图的基础,也是生物信息学 (Bioinformaties)最重要的课题之一。 题目给出了 20 个已知为两个类别的人工制造的 DNA 序列,要求我们从中提取特征, 构造分类方法,从而对 20个未标明类别的人工 DNA 序列和 182个自然 DNA序列进行分类。 这是模式识别中的“有人管理分类”问题,即事先规定了分类的标准和种类的数目,通过大 批已知样本的信息处理找出规律,再用计算机预报未知。给出的已知类别的样本称为学习样 本。对于此类问题,我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策)、 考查分类模型的效率、预报未知这几个步骤来进行。 一. 特征的形成和提取 为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征 进行变换,得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列举了尽可能 完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前 提下)减到最小。这是因为:1.多余的特征参数不但没有多少好处,而且会带来噪音,干扰 分类和数学模型的建立。2.为了保证样本数和特征参数个数的比值足够大,而又不必要用太 多的样本,最好使特征参数的个数降至最少。模式识别计算一般要求样本数至少为变量数的 3 倍,否则结果不够可靠。本问题的学习样本数为 20 个,故特征参数的个数以 6—8 个为宜。 我们通过研究 4 个字符 A,T,C,G 在 DNA 序列中的排列、组合特性,主要是研究字符和 字符串的排列在序列中出现的频率,从中提取 DNA 序列的结构特征参数。 (一)特征的形成 分别列举一个字符,2 个字符,3 个字符的排列在序列中出现的频率,构成基本特征集。 i. 1 个字符的出现频率 表 1 列出了 20 个样本中 A,T,C,G 这 4 个字符出现的频率。由于在不用于编码 蛋白质的序列片段中,A 和 T 的含量特别多些,因此我们将 A 和 T 是否特别丰富作为一个 特征。在表一中,列出了 A 和 T 出现的频率之和。(程序见附录一) 表 1 A C T G A+T 1. 29.73 17.12 13.51 39.64 43.24 2. 27.03 16.22 15.32 41.44 42.34 3. 27.03 21.62 6.31 45.05 33.33 4. 42.34 10.81 28.83 18.02 71.17 5. 23.42 23.42 10.81 42.34 34.23
6.35.14 12.61 12.61 39.64 47.75 7.35.14 9.91 18.92 36.04 54.05 8.27.93 18.92 6.94 0.18.18 27.27 13.64 40.91 35.45 4.55 50.00 85.45 2.73 50.00 14.55 82.73 25.45 10.00 51.82 12.73 77.27 30.00 8.18 50.00 11.82 80.00 64.55 16 35.45 24.55 26.36 29 79.09 21.82 14.55 56.36 7.27 78.18 17.27 56.36 6.36 76.36 2.2字符串的排列出现的频率 A,T,C,G这4个字符组成了16种不同的2字符串。表2列出了20个样本中各2 字符串出现的频率。(用“滚动”算法,如attg有 at, tt, te, cg共4个2字符串)(程序与附录 一类似) 表2 AA AC AT AG TA TC TG TT CA CT CC CG GA GT GC 1.9.019.013.608.114.50904.503.603.603.601808.1111712705.4118.92 2.9.917.213.605412701.805415.414.501.80909.019914.5054121.62 3.54111.713.6054127018090 090144113.519072123.42 4.18.92541117154110811.8054110815411.80.902.706.314.502.704.50 5.6.318.111807.211.802702.703.605414.502.7010.819919090121.62 6.15322706.319.913.601.801805414.5000.008.1110.81908.111982 7.15.321.8010.817214.502.706.31541901.80906.3113.51904.501622 8.8.113.606.319915413.602.707.212.703.601808.1110811.807.2116.22 9.9.01.904.506.31.003.607.214.503.602.702.7011.717.213.6013.5118.02 10.6.363.641.826361.825452.733.645.453.644.5513.644.553.6413.641818 11.154527314.552.7316.36911.8230.009191911.822734.5500273 12.13.649110916.3615.451821.823091919100912.737.27004.55 13.6364.5510.004.5512.7318227334.552732.731.821823.644.551.822.73 14.8.189112.737.2713.646361.8228.182.734.5500915454.559191 1513.640012.731.8213.64.002.7348.18000 00001.823.64.0091 16.16.363.6415459113.644.554.5522.731.82545.00.914.552.73001.82 17172754510911.8210.006.364.555454.557279.092.733.642.733.643.64 188.1872711821.8215451829130.913.643.641822.731823.64912.73 19.2732.7313.641.8214559.099131.821.828.181.822.732732.7391.91
6. 35.14 12.61 12.61 39.64 47.75 7. 35.14 9.91 18.92 36.04 54.05 8. 27.93 16.22 18.92 36.94 46.85 9. 20.72 20.72 15.32 43.24 36.04 10. 18.18 27.27 13.64 40.91 31.82 11. 35.45 4.55 50.00 10.00 85.45 12. 32.73 2.73 50.00 14.55 82.73 13. 25.45 10.00 51.82 12.73 77.27 14. 30.00 8.18 50.00 11.82 80.00 15. 29.09 .00 64.55 6.36 93.64 16. 36.36 8.18 46.36 9.09 82.73 17. 35.45 24.55 26.36 13.64 61.82 18. 29.09 11.82 50.00 9.09 79.09 19. 21.82 14.55 56.36 7.27 78.18 20. 20.00 17.27 56.36 6.36 76.36 2.2 字符串的排列出现的频率 A,T,C,G 这 4 个字符组成了 16 种不同的 2 字符串。表 2 列出了 20 个样本中各 2 字符串出现的频率。(用“滚动”算法,如 attcg 有 at,tt,tc,cg 共 4 个 2 字符串)(程序与附录 一类似) 表 2 AA AC AT AG TA TC TG TT CA CT CC CG GA GT GC GG 1. 9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.7 1 2.70 5.41 18.92 2. 9.91 7.21 3.60 5.41 2.70 1.80 5.41 5.41 4.50 1.80 .90 9.01 9.91 4.50 5.41 21.62 3. 5.41 11.71 3.60 5.41 2.70 1.80 .90 .90 5.41 .90 .90 14.41 13.51 .90 7.21 23.42 4. 18.92 5.41 11.71 5.41 10.81 1.80 5.41 10.81 5.41 1.80 .90 2.70 6.31 4.50 2.70 4.50 5. 6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62 6. 15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11 19.82 7. 15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.51 .90 4.50 16.22 8. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.2116.22 9. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.5118.02 10. 6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18 11. 15.45 2.73 14.55 2.73 16.36 .91 1.82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73 12. 13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55 13. 6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.8 2 3.64 4.55 1.82 2.73 14. 8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .9 1 .91 15.13.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .91 16. 16.36 3.64 15.45 .9113.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82 17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.09 2.73 3.64 2.73 3.64 3.64 18.8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.82 2.73 1.82 3.64 .91 2.73 19.2.73 2.73 13.64 1.82 14.55 9.09 .913 1.82 1.82 8.18 1.82 2.73 2.73 2.73 .91 .91
20.6.366366.36919.0910.003.6432.732.7313.6491.001823.6400.91 3.3字符串的排列出现的频率 A,TC,G这4个字符组成了64种不同的3字符串。这64种3字符串构成生物蛋 白质的20种氨基酸。在参考文献的 Figur2中,给出了这20种氨基酸的编码(见图1) 因此,在计算3字符串的出现频率时,我们根据图1将代表同一种氨基酸的3字符串合成 类,只统计20类3字符串的出现频率。(不考虑字符串在序列片段中的起始位置,也采用“滚 动”算法。如 acotec中就有acg, cot gto,tcc共4个3字符串)见表3。(程序与附录一类似 AAA←→ GA G G c UAu+回uucu+DGu AAc+cAA←AUc+cUA AAG冖BAA←AUG+GUA AAU冖AA←因u←UA Ac←ccA+Aac+cGA AcG←BcA+AGG←GGA A+AGU cAa←Ad←cUa一[aU cAU+Ac←cuu+uc cca←Bcc+Ecaa←Ga Ccu+ucc+cGu+UGc GAU←UA[Guu+圆UG cu山cG+Gau+UGa Figure 2. Symmetries of the diamond code sort the 64 codons into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid. 图1 Brian Hayes在论文“ The Invention of the genetic code”中给出的图形 (注:图中DNA被转录为RNA,“U”代表“T” 表3 bI b2 b3 b4 b5 b6 b7 bs b9 b10 bll b12 b13 b14 b15 b16 b17 b18 b19 b20 11773.542650.880.000007960.884.422.6517.7010623.544424427081773.5413277.08 21891890.940940.0009418909447212267.5511328493.773.776.60 6.607.55283 0.005880988822940.000.0029410.7858813.730.004903921961196882588 40.000.000.000870.0008713041.746.0926111.3013043.485223.488.703.481.741478,783 52860.000003810.953.813810.003.813819.5295212382.869.524.767.622867.62952 60.000.000882.630.0017513.1608843917514049.6570252643911402631.7510.53614 71920.000.002880.964812880.0019248l12.506.7313.461926.7348l10.583859627.69 82563.420.000850.8508512820851.7108520.512.563.429405.981Ll0.854.2711973.42 90.000.000002972979902970000993.966.9319813861.982973.9623.76297891693 01870.933.742800.000002800.007.488419357.483.7414.9512150002804.67748748 110.000.890.000.000.001798.040.0053644615.188048934463578044.466.251339536 122730.000912.730.913.644553643.641.829095.453.645.456367278.185.4510.919.09 13I800900900.900.000.909.010.003.6072 8117216317214.501807211171450 142940.000.005880.006861.960.003.92686 98013.730.9858829410.780.9810.78980
20. 6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91 3.3 字符串的排列出现的频率 A,T,C,G 这 4 个字符组成了 64 种不同的 3 字符串。这 64 种 3 字符串构成生物蛋 白质的 20 种氨基酸。在参考文献[1]的 Figur2 中,给出了这 20 种氨基酸的编码(见图 1)。 因此,在计算 3 字符串的出现频率时,我们根据图 1 将代表同一种氨基酸的 3 字符串合成一 类,只统计 20 类 3 字符串的出现频率。(不考虑字符串在序列片段中的起始位置,也采用“滚 动”算法。如 acgtcc 中就有 acg,cgt,gtc,tcc 共 4 个 3 字符串)见表 3。(程序与附录一类似) Figure 2. Symmetries of the diamond code sort the 64 codons into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid. 图 1 Brian Hayes 在论文“The Invention of the Genetic Code”中给出的图形 (注:图中 DNA 被转录为 RNA,“U”代表“T”) 表 3 b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20 1 1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.42 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08 2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.32 8.49 3.77 3.77 6.60 9.43 6.60 7.55 2 .83 3 0.98 0.00 0.00 5.88 0.98 8.82 2.94 0.00 0.00 2.94 10.78 5.88 13.73 0.00 4.90 3.92 19.61 1.96 8.82 5.88 4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78, 7.83 5 2.86 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9 .52 6 0.00 0.00 0.88 2.63 0.00 1.75 13.16 0.88 4.39 1.75 14.04 9.65 7.02 5.26 4.39 11.40 2.63 1.75 10.53 6.14 7 1.92 0.00 0.00 2.88 0.96 4.81 2.88 0.00 1.92 4.81 12.50 6.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7 .69 8 2.56 3.42 0.00 0.85 0.85 0.85 12.82 0.85 1.71 0.85 20.51 2.56 3.42 9.40 5.98 11.11 0.85 4.27 11.97 3.42 9 0.00 0.00 0.00 2.97 2.97 9.90 2.97 0.00 0.99 3.96 6.93 1.98 13.86 1.98 2.97 3.96 23.76 2.97 8.91 6 .93 10 1.87 0.93 3.74 2.80 0.00 0.00 2.80 0.00 7.48 8.41 9.35 7.48 3.74 14.95 12.15 0.00 2.80 4.67 7.48 7.48 11 0.00 0.89 0.00 0.00 0.00 1.79 8.04 0.00 5.36 4.46 15.18 8.04 8.93 4.46 3.57 8.04 4.46 6.25 13.39 5 .36 12 2.73 0.00 0.91 2.73 0.91 3.64 4.55 3.64 3.64 1.82 9.09 5.45 3.64 5.45 6.36 7.27 8.18 5.45 10.91 9.09 13 1.80 0.90 0.90 0.90 0.00 0.90 9.01 0.00 3.60 7.21 14.41 8.11 7.21 6.31 7.21 4.50 1.80 7.21 11.71 4 .50 14 2.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.94 10.78 0.98 1 0.78 9.80
152911.942911940.005831940.001949715.838.7410.681943883888.742.9111.6510.68 1628609500011431901902860.004763815718578.576679.524.765712867.627.62 171920.961.924811923851920.960.966.7348l86510.582886.732889.26.738.65769 l8170.8517108508525616240851.7108516245.l36.845983.42lII1715.l3l1134 190940.941890.94094094I8909410.387555.669438.498.497.555.666.6011326.600.94 200860.860.001.7208608617240862591.7215.527.765.173.454319485.175179.48517 其中b1=aaa+ata b3=cac+cte b4=ccc+cge b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caatatc+ 10=aag+gaa+ bl=aat+taa+att+tta b12=acc+cca+agc+cga 13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=catttac+ctt+ttc b17=ccg+ bl8=cct+tec b19=gatttag+gtt+ttg b20=gct+tcg+ggt+tgg 综合起来,形成了有41个变量的基本特征集。 (二)特征的提取 上述基本特征集中有41个变量,即样本处于一个高维空间中。特征的提取就是通 过变换的方法用低维空间来表示样本,使得X的大部分特性能由Y来表达,即将p维 随机向量X变换成q维随机向量Y(qp)。我们用主成分分析法进行特征的提取,其 步骤是 1.求X的均方差矩阵的特征根,记为: 2.求M1,M2………Ak对应的标准正交的特征向量r1,r2…rk 得到第i个主成分为y=rX,=1,2…K 3.求第i个主成分的贡献率u=M∑λ,i1,2…K及前m个主成分的累计贡 献率va∑u 4求得q,使得V≥V(V一般在0.85到1之间),则取 Y=XW 第3步所求的贡献率,代表主成分表达X的能力,贡献率越大,对应的主成分表达X 的能力越强。只要前q个主成分的累计贡献率超过给定的百分比V。就可以用低维特征Y (yy2,…y)来反映高维特征(x,x…xp)的变化特性。 现将反映20个已知类别样本的41个特征的随机向量X进行特征提取 计算得前4个主成分的累计贡献率为96%,故提取特征为4个变量,取 W=(r,r2,r3r4),则Y=XW,Y的4个分量就是从基本特征集提取所得的特征参数向 量。(程序及结果见附录二 二.分类决策的制定
15 2.91 1.94 2.91 1.94 0.00 5.83 1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.68 16 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.52 4.76 5.71 2.86 7.62 7.62 17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7.69 18 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3 .42 19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.55 5.66 6.60 11.32 6. 60 0.94 20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3.45 4.31 9.48 5.17 5.17 9.48 5 .17 其中 b1 =aaa+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta b11=aat+taa+att+tta b12=acc+cca+agc+cga b13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc b19=gat+tag+gtt+ttg b20=gct+tcg+ggt+tgg 综合起来,形成了有 41 个变量的基本特征集。 (二)特征的提取 上述基本特征集中有 41 个变量,即样本处于一个高维空间中。特征的提取就是通 过变换的方法用低维空间来表示样本,使得 X 的大部分特性能由 Y 来表达,即将 p 维 随机向量 X 变换成 q 维随机向量 Y(q<p)。我们用主成分分析法进行特征的提取,其 步骤是: 1. 求 X 的均方差矩阵 V 的特征根,记为: λ1≥λ2≥……≥λk>0 λk+1=……=λP=0 2. 求λ1,λ2……λK对应的标准正交的特征向量 r1,r2……rK 得到第 i 个主成分为 yi=riX, i=1,2……K 3. 求第 i 个主成分的贡献率 ui=λi/ = k i 1 λj, i=1,2……K 及前 m 个主成分的累计贡 献率 vm== m i 1 ui. 4. 求得 q,使得 Vq≥V0(V0 一般在 0.85 到 1 之间),则取 W=(r1,r2,……,rq) Y=XW 第 3 步所求的贡献率,代表主成分表达 X 的能力,贡献率越大,对应的主成分表达 X 的能力越强。只要前 q 个主成分的累计贡献率超过给定的百分比 V。就可以用低维特征 Y= (y1,y2, ……yq)来反映高维特征(x1,x2……xp)的变化特性。 现将反映 20 个已知类别样本的 41 个特征的随机向量 X 进行特征提取。 计算得前 4 个主成分的累计贡献率为 96%,故提取特征为 4 个变量,取 W=(r1,r2,r3,r4),则 Y=XW,Y 的 4 个分量就是从基本特征集提取所得的特征参数向 量。(程序及结果见附录二) 二. 分类决策的制定