江苏农业研究9017 丁苏衣业研究 日万方数据hia城 JIANGSU AGRICULTURAL RESEARCH 科技期刊 WANFANG DATA 1999年第1期No.1Vol.201999 数量性状基因定位的回归方法* I.标记回归分析 莫惠栋 REG RESSION M ETH ODSFOR LO CATING QUANTITATIVE TRAIT LOCUS QTL) I.M ARKER REG RESSION AN ALYSIS M oHuidong (Lab of Quantitative Genetics,Agric.Coll.Yangzhou Univ.,Yangzhou 225009) 因并冠标记 有种研究中的应用主 要有: )评价育种亲本 ②)设计遗传试验 )定位数量性状基 )辅助选择。这是本世纪90年代以来迅速发展的一个科学领域。本文重点报道以标记回归定 位QTL的 在分离世代中,每一个体的任一分子标记位点M都最多只可能有3种基因型,即MM1、M2M2和M1M2,分别 表示该位点的两份DNA都来自纯系亲本P1、P2和即1、P各一份。各个位点的基因型以及位点之间的交换率和遗 传距离c,都是可以直接观察或计算的。另一方面,每一个体的某一被研究性状Z,当然也是可以直接观察的 设以园1、园22和2分别表示分离群体中任一M的基因型W1M1、M2山2和W1W2的平均数,则数量性状基因Q 的定位可归结为:1)根据遗传学原理,建立和Q的遗传效应的数量关系模型:②)根据统计学原理,推断Q在 染色体上的最可能位置,并估计其效应。标记回归乃是根据Q的假定位置与一染色体上所有M间的距离函数和□ 的著果的关套面餐限阳森芬奔整染色体上是有存在0及其最可住位置。由于园0的效应的关系随试验群体 1回交BC)群体的标记回归 1.1遗传学原理 设在标记M的一侧有一数量基因Q,且P1基因型是MW1QQ1,P2基因型是M2MQ2Q2Q1、Q2分别为增、 减效等位基因),M和Q间交换率为r,则BC1群体P1P2∥P1的遗传图如右。 72.gif(843bytes) 量作%kmhm抽取2000 bofr/k00s10/inyy fimy9/知y901/990117ha(第1/9页)2009-1231235813
江苏农业研究990117 江苏农业研究 JIANGSU AGRICULTURAL RESEARCH 1999年 第1期 No.1 Vol.20 1999 数量性状基因定位的回归方法* Ⅰ. 标记回归分析 莫惠栋 REGRESSION METHODS FOR LOCATING QUANTITATIVE TRAIT LOCUS (QTL) Ⅰ. MARKER REGRESSION ANALYSIS Mo Huidong (Lab of Quantitative Genetics, Agric. Coll., Yangzhou Univ., Yangzhou 225009) DNA分子标记在遗传育种研究中的应用主要有:(1)评价育种亲本; (2)设计遗传试验; (3)定位数量性状基 因并估计其效应; (4)辅助选择。这是本世纪90年代以来迅速发展的一个科学领域。本文重点报道以标记回归定 位QTL的原理和方法。 在分离世代中,每一个体的任一分子标记位点M都最多只可能有3种基因型,即M1M1、M2M2和M1M2,分别 表示该位点的两份DNA都来自纯系亲本P1、 P2和P1、 P2各一份。各个位点的基因型以及位点之间的交换率r和遗 传距离cM,都是可以直接观察或计算的。另一方面,每一个体的某一被研究性状Z,当然也是可以直接观察的。 设以0m. gif (131 bytes) 11、0m. gif (131 bytes) 22和0m. gif (131 bytes) 12分别表示分离群体中任一M的基因型M1M1、 M2M2和M1M2的平均数,则数量性状基因Q 的定位可归结为:(1)根据遗传学原理,建立0m. gif (131 bytes) 和Q的遗传效应的数量关系模型; (2)根据统计学原理,推断Q在 染色体上的最可能位置,并估计其效应。标记回归乃是根据Q的假定位置与一染色体上所有M间的距离函数和0m. gif (131 bytes) 的差异的关系,应用回归方法搜索该染色体上是否存在Q及其最可能位置。由于0m. gif (131 bytes) 和Q的效应的关系随试验群体 而有不同,下面按不同群体分别讨论。 1 回交(BC)群体的标记回归 1.1 遗传学原理 设在标记M的一侧有一数量基因Q, 且P1基因型是M1M1Q1Q1,P2基因型是M2M2Q2Q2(Q1、 Q2分别为增、 减效等位基因),M和Q间交换率为r,则BC1群体P1/P2∥P1的遗传图如右。 72.gif (843 bytes) file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9901/990117.htm(第 1/9 页)2009-12-31 23:58:13
江苏农业研究990117 由于交换,M1MQQ2产生4种配子,即原配子MQ1、MQ2和新配子M1Q2、MQ1,各具概率12和2 (何简写为11和,即以每一标记的总概率为1,不影响有关结果)。当回交于M1MQQ1时,产生了MMQ1Q1 M1MQQ2、M1MQQ1、MMQ1Q24种基因型。因为Q对表型有遗传效应,M则无效应除非M=Q,即Q正好 在M上),故上述基因型的遗传值依次为血+a、m+d、m+a、m+d,其中m为背景效应,a为加性效应,d为显性 效应。以上全部结果可列于表1,由之得到: 3-l.gif(I837bytes) m,z1-2ad)=1-20a 表1BC,P1P2∥P)群体的遗传组成和基因型的遗传值 F配子 频率 BC1基因型 基因型遗传值 F gam ete FrequencyG enotype in BCG enotypic vale M1Q1 MMQQ1 1+ m十 MMQ92 m+d M MQQ1 m+a MA2 1 MM2Q1Q2 m+d 同理可得BC2P1P2∥P)群体的结果为: Onz=m ra+(1-)d,Onbz=m-(1-)a+rd ) 0□202=1-2ard)=1-2a ④ 以上的a'为混杂有如果d≠0)的加性效应。式②)和式④)就是回交群体的标记平均数与Q效应遗传关系的数 量模型。显然,若设 Y=0,2或0m22,X=1-2x 对BC群体的可能QTL进行回归搜索。如果存在QTL,其最可能位置应在=0(卿X=1)上,这时Y依x的 12统计方法 量E6mh鱼抽取20be面kke0s10/的/知y901/017h。(第2/9页)20-12312383
江苏农业研究990117 由于交换,M1M2Q1Q2产生4种配子,即原配子M1Q1、 M2Q2和新配子M1Q2、 M2Q1,各具概率(1-r)/2和r/2 (可简写为1-r和r,即以每一标记的总概率为1,不影响有关结果)。当回交于M1M1Q1Q1时,产生了M1M1Q1Q1、 M1M1Q1Q2、 M1M2Q1Q1、 M1M2Q1Q2 4种基因型。因为Q对表型有遗传效应,M则无效应(除非M=Q,即Q正好 在M上),故上述基因型的遗传值依次为m+a、 m+d、 m+a、 m+d,其中m为背景效应,a为加性效应,d为显性 效应。以上全部结果可列于表1,由之得到: 73-1.gif (1837 bytes) (1) 0m. gif (131 bytes) 11- 0m. gif (131 bytes) 12=(1-2r)(a-d)=(1-2r)a′ (2) 表1 BC1(P1/P2∥P1)群体的遗传组成和基因型的遗传值 Table 1 Genetic constitution and genotypic value in backcross 1 (BG1=P1/P2∥P1) population F1配子 F1 gamete 频 率 Frequency BC1基因型 Genotype in BC1 基因型遗传值 Genotypic value M1Q1 M1Q2 M2Q1 M2Q2 1-r r r 1-r M1M1Q1Q1 M1M1Q1Q2 M1M2Q1Q1 M1M2Q1Q2 m+a m+d m+a m+d 同理可得BC2(P1/P2∥P2)群体的结果为: 0m. gif (131 bytes) 12=m-ra+(1-r)d, 0m. gif (131 bytes) 22=m-(1-r)a+rd (3) 0m. gif (131 bytes) 12- 0m. gif (131 bytes) 22=(1-2r)(a+d)=(1-2r)a′ (4) 以上的a′为混杂有d(如果d≠0)的加性效应。式(2)和式(4)就是回交群体的标记平均数与Q效应遗传关系的数 量模型。显然,若设 Y=0m. gif (131 bytes) 11- 0m. gif (131 bytes) 12或0m. gif (131 bytes) 12- 0m. gif (131 bytes) 22, X=1-2r (5) 我们就可以对BC群体的可能QTL进行回归搜索。如果存在QTL,其最可能位置应在r=0(即X=1)上,这时Y依X的 回归系数b就是a′的无偏估值。 1.2 统计方法 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9901/990117.htm(第 2/9 页)2009-12-31 23:58:13
江苏农业研究90117 应用式) 式④)于实际资料分析, 需注意以下统计问题: 定遗传距离如1cM、2cM或5cM等)作一次回归分析, 置室另政外,买提索该染色体是香存在被研究的Q卫 安 12.2式②)和式④的回归方程形式是回X,通过原点。所以有关的平方和和乘积和,应基于原点矩而不是中心 矩,即: SSx=∑X2,SSv=∑Y2,SP=∑XY 进而有: SSR=(SP)2/5Sx.SSL=SSy-SSR b=sPs32gr69byw☐ 以上的sSg为回归平方和,具d卡l:SS为失拟(,ack off0平方和,具d非k-1不定通常的k-2):k为一染色体上的M 数目:b为回归系数,估计式)或式④中的a':冯为b的标准误。 1.23推断QTL存在的统计依据是 F=M SRAI SL 为显著,而推断QTL最可能位置的统计依据则是该F显著前提下的SS为最小(㑊即F值最大)。SS最小时的即是估 计Q1Q1对QQ2BC1)或Q1Q2对QQ2BC)的遗传效应a',即a'=b=回1回2或回12园2。该基因的遗传贡献 率,即决定系数为: 7☐ a0) 式10)的分子为BC群体中两种基因型值的平方和, 团瓦回,回以,C的个体数或品系数: 分母为BC的个体间或系间的表型值平方和。 12.4在式⑨)显著而SS为最小的位置上,可由 F=M SM Sp (df=k-1,df=n-k) a1) 量hkmh抽取2006ukk00810/my/my的/知01/0117h(第3/9页)20-12312358:3
江苏农业研究990117 应用式(2)、 式(4)于实际资料分析,需注意以下统计问题: 1.2.1 从染色体的某一端标记或端标记外开始,要每隔一定遗传距离(如1cM、 2cM或5 cM等)作一次回归分析, 直至另一端标记或端标记外,以搜索该染色体是否存在被研究的QTL。 1.2.2 式(2)和式(4)的回归方程形式是0y2. gif (100 bytes) =bX,通过原点。所以有关的平方和和乘积和,应基于原点矩而不是中心 矩,即: SSX=∑X2, SSY=∑Y2, SP=∑XY (6) 进而有: SSR=(SP)2/SSX, SSL=SSY-SSR (7) b=SP/SSX, 73-2.gif (559 bytes) (8) 以上的SSR为回归平方和,具df=1; SSL为失拟(Lack of fit)平方和,具df=k-1(不定通常的k-2); k为一染色体上的M 数目; b为回归系数, 估计式(2)或式(4)中的a′; sb为b的标准误。 1.2.3 推断QTL存在的统计依据是 F=MSR/MSL (9) 为显著,而推断QTL最可能位置的统计依据则是该F显著前提下的SSL为最小(亦即F值最大)。SSL最小时的b即是估 计Q1Q1对Q1Q2 (BC1)或Q1Q2对Q2Q2 (BC2)的遗传效应a′,即a′=b=0q. gif (119 bytes) 11- 0q. gif (119 bytes) 12或0q. gif (119 bytes) 12- 0q. gif (119 bytes) 22。该基因的遗传贡献 率,即决定系数为: 73-3.gif (397 bytes) (10) 式(10)的分子为BC群体中两种基因型值的平方和,即 73- 4. gif (130 bytes) ( 0q. gif (119 bytes) 11- 0q. gif (119 bytes) 12)2或 73- 4. gif (130 bytes) ( 0q. gif (119 bytes) 12- 0q. gif (119 bytes) 22)2,n为BC的个体数或品系数; 分母为BC的个体间或系间的表型值平方和。 1.2.4 在式(9)显著而SSL为最小的位置上,可由 F=MSL/MSD (df1=k-1, df2=n-k) (11) file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9901/990117.htm(第 3/9 页)2009-12-31 23:58:13
江苏农业研究990117 测验单一QTL模型的适合性,此F值显著将暗示该染色体上可能还有其他QTL。式中的S,为剩余均方,其SS,可 由SS25Sv得到。 2回交BC)群体标记回归的一个实例 现以郑康乐等的 并非回交群 一个结果(4)将上节内容具体化 其 金体化。研字材料是水稻的三品种杂交广亲和品种他: 的 色体上k= “0”表 示无,相当 22。表头的 标记间遗传距离是我们根据其实际结果,由 M=-h(1-2)2和1=0e2)2 12 1=0.055,故M=-h1-2×0.055)=0.058-5.8cM):RG138和RG64的 …等。分析步骤如下: 表2水稻“广亲和”灿粳的55个植株在第6染色体上的标记及结实率 Tabe2 M arkerson chrom osome VI and seed-setting percentagesof55 phntsnWCV/Indica//Jpon ica rice popu aton 遗传标记和标记间遗传距离M 遗传标记和标记间遗传距离M 株号 G enetic m atkerand distancebetweer 结实率% 株号 G enetic m atkerand distancebetr een 结实率% m arkers make四 RG 138 RG64 RG456 RG716 RG 138 RG64 RG456 RG716 49. 74.9 49.9 0 0 79.0 32 0 0 0 0 763 0 79.4 33 771 81.8 34 77.3 0 84.0 35 0 0 31.3 84.0 36 0 43.2 0 0 84.0 37 0 0 0 0 0 43.3 1 1 0 1 85.8 28 0 0 0 46.9 8 1 0 87.0 39 0 0 47.0 9 1 0 87.3 40 0 0 1 47.5 101 1 0 0 0 87.5 41 0 0 18.4 111 87.6 42 0 50.2 121 89.1 43 0 0 0 593 13 1 89.2 44 0 53.2 14 0 89.6 45 0 0 0 54.8 151 0 90.1 46 0 0 1 550 161 90.8 47 0 0 0 0 55.9 171 90.3 48 0 0 0 0 59.9 18 1 65.3 49 0 0 0 62.3 19 0 0 0 0 0 65.7 50 0 0 0 0 638 200 0 0 0 66.2 51 0 0 0 0 0 64.3 21 66.9 52 91.6 221 1 0 1 67.0 53 1 0 0 93.1 23 0 0 0 67.2 54 0 93.1 量/F%amhm抽取20006心6心Mk200810)/myy/的/知830180117.h白(第4/9页)200分-12-31358:13
江苏农业研究990117 测验单一QTL模型的适合性,此F值显著将暗示该染色体上可能还有其他QTL。式中的MSD为剩余均方,其SSD可 由SSZ-SSY得到。 2 回交(BC)群体标记回归的一个实例 现以郑康乐等的一个结果〔4〕将上节内容具体化。研究材料是水稻的三品种杂交(“广亲和”品种/籼∥粳), 并非回交群体,但其遗传结构相当于回交。表2列出该群体的n=55个植株的结实率Z及其第6染色体上k=5个遗传 标记。其中“1”表示该标记位点有一份“广亲和”DNA,相当于M1M2;“0”表示无,相当于M2M2。表头的 标记间遗传距离是我们根据其实际结果,由 M=-ln(1-2r)/2和r=(1-e-2M)/2 (12) 得到的(1 M=100 cM)。例如C和RG138的r=0.055, 故M=-ln(1-2×0.055)/2=0.058=5.8 cM); RG138和RG64的 r=0.255, 故M=-ln(1-2×0.255)/2=0.357=35.7 cM; …等。分析步骤如下: 表2 水稻“广亲和”/籼∥粳的55个植株在第6染色体上的标记及结实率 Table 2 Markers on chromosome Ⅵ and seed-setting percentages of 55 plants in WCV/Indica∥Japonica rice population 株号 No. of plants 遗传标记和标记间遗传距离/cM Genetic marker and distance between markers 结实率/% Seedsetting Z 株号 No. of plants 遗传标记和标记间遗传距离/cM Genetic marker and distance between markers 结实率/% Seedsetting Z C 0 RG138 5.8 RG64 41.5 RG456 49.4 RG716 74.9 C 0 RG138 5.8 RG64 41.5 RG456 49.4 RG716 74.9 1 1 1 0 1 0 79.0 32 0 0 0 0 0 76.3 2 0 0 1 1 1 79.4 33 1 1 1 0 1 77.1 3 1 1 1 1 0 81.8 34 1 1 1 1 1 77.3 4 0 0 1 1 1 84.0 35 0 0 1 1 1 31.3 5 0 0 1 0 1 84.0 36 0 0 0 0 1 43.2 6 1 1 0 1 0 84.0 37 0 0 0 0 0 43.3 7 1 1 1 0 1 85.8 38 0 0 0 0 0 46.9 8 1 1 0 1 0 87.0 39 0 0 1 1 1 47.0 9 1 1 1 0 1 87.3 40 0 0 1 1 1 47.5 10 1 1 0 0 0 87.5 41 0 0 0 0 48.4 11 1 0 0 1 1 87.6 42 0 0 0 0 1 50.2 12 1 1 1 1 1 89.1 43 0 0 0 1 1 52.3 13 1 1 1 1 1 89.2 44 0 0 0 0 0 53.2 14 1 1 1 1 0 89.6 45 0 0 0 0 1 54.8 15 1 1 1 1 0 90.1 46 0 0 1 1 1 55.0 16 1 1 1 1 1 90.8 47 0 0 0 0 0 55.9 17 1 1 1 1 1 90.3 48 0 0 0 0 1 59.9 18 1 0 1 0 1 65.3 49 0 0 0 0 0 62.3 19 0 0 0 0 0 65.7 50 0 0 0 0 0 63.8 20 0 0 0 0 0 66.2 51 0 0 0 0 0 64.3 21 0 0 0 1 0 66.9 52 1 1 1 1 1 91.6 22 1 1 1 0 1 67.0 53 1 1 1 0 0 93.1 23 0 0 0 0 0 67.2 54 1 1 1 1 0 93.1 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9901/990117.htm(第 4/9 页)2009-12-31 23:58:13
江苏农业研究9017 24 0 0 0 0 68.8 55 83.9 251 0 0 0 70.2 26 0 0 0 71.3 0m2 83.4 85.2 77.7 76.1 70.9 回 27 0 0 71.9 ②4)* 21) 25) 25) 26) 28 0 0 0 0 72.7 2 61.3 62.5 65.7 67.0 71.4 SS7= 29 0 0 0 0 73.4 34) 30) 30) 29) 13510.49 301 0. 0 0 74.4 22.5 22.712.0 9.1 0.5 310 0 0 0 0 74.5 *括号内数字为个体数。*Figure in paren thesesw as the num berof indiviluak 2.1从表2计算各标记位点编码为“1”和“0”的个体的结实率亿)平均数2和02以及Z的平均数0☑和平方和 s2,并由022得Y 22计第从c一RG7I6即4区间QT在f任可能位置的X值 以2cW为间隔 位点 例如:假定Q在0 404 ,则其离各标记的 依次为2.0、3.8、39.5、47.4和72.9: 为0.020、0.037、0.273、0.306和0.384:故x为0.96、0.93、0.45、0.39和 0.23。表3列出这一计算的部分结果。 表3假定的0TL位置(c)及其相应的X=12) Table3 PutativeQ TL position(cM and its onespond ingX=(1-2r)vale 位置1 Position1 2 3 4 5 1.00 2 0.9 0 80Q.8 74.9 90.2 6926 位置6 Position6 11 16 21 26 cM x cM x cM x cM x cM x 109 002420. 0.3 053 65 0.9785 08412. 056 5883060991 64 0.2754.90.3344.90.4134.90.5024.90.61-0.5 回归分析,结果见表5。失拟的下情不显著(《1),表明该染色体上只有2M上的一个影响育性的QTL。根据式⑧)可 进一步得到该QTL的效应和标准误为: b=51.5450/2.1940=23.49%) 75.gf680bye图 上2.07%) 根据式0)可得该QTL的遗传贡献率为: R2(55×23.492/A13510.49=0.5616 量hkmh抽取2006kk200810/mwmy的/知901/0117h第5/9页)2X09-123123583
江苏农业研究990117 24 0 0 0 0 0 68.8 55 1 1 1 1 1 83.9 25 1 0 0 0 0 70.2 26 0 0 0 1 0 71.3 0m. gif (131 bytes) 12 83.4 85.2 77.7 76.1 70.9 0z. gif (110 bytes) = 27 0 0 1 0 1 71.9 (24)* (21) (25) (25) (26) 28 0 0 0 0 0 72.7 0m. gif (131 bytes) 22 61.3 62.5 65.7 67.0 71.4 SSZ= 29 0 0 0 0 0 73.4 (31)* (34) (30) (30) (29) 13 510.49 30 1 1 0 0 0 74.4 Y 22.5 22.7 12.0 9.1 -0.5 31 0 0 0 0 0 74.5 * 括号内数字为个体数。 * Figure in parentheses was the number of individuals. 2.1 从表2计算各标记位点编码为“1”和“0”的个体的结实率(Z)平均数0m. gif (131 bytes) 12和0m. gif (131 bytes) 22以及Z的平均数0z. gif (110 bytes) 和平方和 SSZ,并由0m. gif (131 bytes) 12- 0m. gif (131 bytes) 22得Y。 2.2 计算从C~RG716,即0~74.9 cM区间上QTL在任一可能位置的X=1-2r值,以2 cM为间隔。例如:假定Q在C 位点上,则其离各标记的遗传距离为0、 5.8、 41.5、 49.4、和74.9 cM;由式(12)得其相应重组率r为0.0、 0.055、 0.282、 0.314和0.388; 故X=1-2r依次为1.00、 0.89、 0.44、 0.37和0.22。假定Q在2 cM位点上,则其离各标记的cM 依次为2.0、 3.8、 39.5、 47.4和72.9; r为0.020、 0.037、 0.273、 0.306和0.384; 故X为0.96、 0.93、 0.45、 0.39和 0.23。表3列出这一计算的部分结果。 表3 假定的QTL位置(cM)及其相应的X=(1-2r)值 Table 3 Putative QTL position (cM) and its corresponding X=(1-2r) value 位置1 Position 1 2 3 4 5 cM X cM X cM X cM X cM X 0 5.8 41.5 49.4 74.9 1.00 0.89 0.44 0.37 0.22 2.0 3.8 39.5 47.4 72.9 0.96 0.93 0.45 0.39 0.23 4.0 1.8 37.5 45.4 70.9 0.92 0.96 0.47 0.40 0.24 6.0 0.2 35.5 43.4 68.9 0.89 1.00 0.49 0.42 0.25 8.0 2.2 33.5 41.4 66.9 0.85 0.96 0.51 0.44 0.26 位置6 Position 6 11 16 21 26 Y cM X cM X cM X cM X cM X 10.0 4.2 31.5 39.4 64.9 0.82 0.92 0.53 0.45 0.27 20.0 14.2 21.5 29.4 54.9 0.67 0.75 0.65 0.56 0.33 30.0 24.2 11.5 19.4 44.9 0.55 0.62 0.79 0.68 0.41 40.0 34.2 1.5 9.4 34.9 0.45 0.50 0.97 0.83 0.50 50.0 44.2 8.5 0.6 24.9 0.37 0.41 0.84 0.99 0.61 22.5 22.7 12.0 9.1 -0.5 2.3 从表3的X和Y,以公式(6)、(7)、(9)计算有关统计数,部分结果列于表4。该表说明:距C位点0~20 cM范围 的F值都>F0.01=21.20; 而2 cM时的SSL最小(37.62)、 F值最大(128.76)。故对2 cM位点再作一次依据于n=55个个体的 回归分析,结果见表5。失拟的F值不显著(<1),表明该染色体上只有2 cM上的一个影响育性的QTL。根据式(8)可 进一步得到该QTL的效应和标准误为: b=51.545 0/2.194 0=23.49 (%) 75.gif (580 bytes) =2.07 (%) 根据式(10)可得该QTL的遗传贡献率为: R2=(55×23.492/4)/13 510.49=0.561 6 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9901/990117.htm(第 5/9 页)2009-12-31 23:58:13