江苏农业研究B30218 江苏农业研究 旧万数据瓷源系统 JANG SU AGRICULTU RAL RESEARCH 字出期型 1999年第20卷第2期Vol.20No.21999 数量性状基因定位的回归方法 Ⅱ.两侧标记回归分析 莫惠栋 REGRESSION METHODS FOR LOCATING QUANTITATIVE TRAIT LOCUS(QTL) II.FLAN K ING M ARKER REG RESSION AN ALYSIS Mo Huidong (Lab of Quantitative Genetics.Agric.Coll..Yangzhou Univ..Yangzhou 225009) 1一般基础 两侧标记回归是应用回归方法,搜索在染色体上的任何两个标记之间是否存在被研究的QTL及其最可 能的位置和效应。它要解决的基本问题是:1)两个标记之间如果存在一个QTL,该QTL的位置和效应与个 体或品系的表型值有什么遗传关系?②)如何发现此种关系对于前一问题,关键是要导出三点重组率。设有 AQB3个位点,AB的重组率为AB,AQ、QB的重组率分别为和电,如下图。则A和B未发生交换的概率1 AB)等于A和Q、Q和B均未发生交换的概率1T)1电)加上A和Q、Q和B均发生交换的概率电),即: 1B=)1)+电 移项得: xAB=a+电2aB 1) 式)是三点重组率数量关系的基本公式,它的假定是区间AQ和QB的交换无干扰,即彼此独立。如果完全 干扰,即AQ区间发生交换,QB区间就不能发生交换,反之亦然,则式)变为: IABh+电 在缺乏完全干扰的确实证据时,一般都使用式①)描述QTL在AB间的任一位置上的重组率。 f正7作%kmhn抽取20be6ekke0810/mymy9/my9902/90218hm(第1/9页)209H231233840
江苏农业研究/990218 江苏农业研究 JIANG SU AGRICULTURAL RESEARCH 1999年 第20卷 第2期 Vol.20 No.2 1999 数量性状基因定位的回归方法 Ⅱ. 两侧标记回归分析 莫惠栋 REGRESSION METHODS FOR LOCATING QUANTITATIVE TRAIT LOCUS (QTL) Ⅱ. FLANKING MARKER REGRESSION ANALYSIS Mo Huidong (Lab of Quantitative Genetics, Agric. Coll., Yangzhou Univ., Yangzhou 225009) 1 一般基础 两侧标记回归是应用回归方法,搜索在染色体上的任何两个标记之间是否存在被研究的QTL及其最可 能的位置和效应。它要解决的基本问题是: (1) 两个标记之间如果存在一个QTL,该QTL的位置和效应与个 体或品系的表型值有什么遗传关系? (2) 如何发现此种关系?对于前一问题,关键是要导出三点重组率。设有 AQB 3个位点,AB的重组率为rAB, AQ、 QB的重组率分别为rA和rB,如下图。则A和B未发生交换的概率(1- rAB)等于A和Q、Q和B均未发生交换的概率(1-rA)(1-rB)加上A和Q、 Q和B均发生交换的概率(rArB),即: 1-rAB=(1-rA)(1-rB)+rArB 移项得: r•AB=rA+rB-2rArB (1) 式(1)是三点重组率数量关系的基本公式,它的假定是区间AQ和QB的交换无干扰,即彼此独立。如果完全 干扰, 即AQ区间发生交换,QB区间就不能发生交换,反之亦然,则式(1)变为: r AB=rA+rB (2) 在缺乏完全干扰的确实证据时,一般都使用式(1)描述QTL在AB间的任一位置上的重组率。 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9902/990218.htm(第 1/9 页)2009-12-31 23:58:40
江苏农业研究218 801.gif(1479 bytes) 对于后一问题,基本统计方法有两种:最小平方法和极大似然法。前者是在两个标记之间寻找回归显 著而失拟平方和又最小的位置,后者是在两个标记之间寻找混合正态分布的似然函数极大且L0D或L为显 著的位置。两种方法在结果上并无实质性差异,但最小平方法在计算机上的实现远比极大似然法简易,故 本文只报道前者。 2DH群体的两侧标记回归 2.1遗传原理 设某段染色体的两个标记为A1A2和BB2脚标1和2分别表示来自P1和P2的DNA,下同),则DH群体共有4 种标记基因型:AABB1、AAB2B2、A2ABB1和A2A2B2B2。每种标记基因型又都可能有两种QTL基因型 QQ1~Q2Q2。故在考虑两侧标记及其中间的一个可能QTL时,DH群体共有8种纯合基因型,其遗传组成 和基因型值见表1。 表1DH群体两侧标记的遗传组成和基因型的遗传值 and its fanking m arkers in doub kd hapbid H)popu ltion DH群体基因型 频率 基因型遗传值 G enotype in DH Frequency A1AQ1Q1B1BI AAQ2Q2BB1 qagif (590 bytes) m+a A1A1Q191B2B2 AA Q2Q2B2B2 qb-gif (508 bytes) A2AQQBB ab-gif (427 bytes) m+a A2A2Q1QB2B. sgif (479 bytes) A2A2R202B2B 表1中各种基因型的频率由常法确定,例如AAQQBB1是AQ和QB均未发生交换,故其频率为() A1QRB1B,是AQ0B均发生交换,故其频率为电…等。设e可二 利2之依次为4种标记基因型的平均数,则由表1可得: /作kh抽取2000 ebre ok00810)/mm99/v9902/g0218,hm(第2/9页)2009-23别235840
江苏农业研究/990218 1801.gif (1479 bytes) 对于后一问题,基本统计方法有两种:最小平方法和极大似然法。前者是在两个标记之间寻找回归显 著而失拟平方和又最小的位置,后者是在两个标记之间寻找混合正态分布的似然函数极大且LOD或LR为显 著的位置。两种方法在结果上并无实质性差异,但最小平方法在计算机上的实现远比极大似然法简易,故 本文只报道前者。 2 DH群体的两侧标记回归 2.1 遗传原理 设某段染色体的两个标记为A1A2和B1B2(脚标1和2分别表示来自P1和P2的DNA, 下同), 则DH群体共有4 种标记基因型: A1A1B1B1、 A1A1B2B2、 A2A2B1B1和A2A2B2B2。每种标记基因型又都可能有两种QTL基因型 Q1Q1、 Q2Q2。故在考虑两侧标记及其中间的一个可能QTL时,DH群体共有8种纯合基因型,其遗传组成 和基因型值见表1。 表1 DH群体两侧标记的遗传组成和基因型的遗传值 Table 1 Genetic constitution and genotypic value of a QTL and its flanking markers in doubled haploid (DH) population DH群体基因型 Genotype in DH 频 率 Frequency 基因型遗传值 Genotypic ralue A1A1Q1Q1B1B1 A1A1Q2Q2B1B1 A1A1Q1Q1B2B2 A1A1Q2Q2B2B2 A2A2Q1Q1B1B1 A2A2Q2Q2B1B1 A2A2Q1Q1B2B2 A2A2Q2Q2B2B2 qa-.gif (590 bytes) qb-.gif (508 bytes) ab-.gif (427 bytes) as-.gif (479 bytes) m+a m-a m+a m-a m+a m-a m+a m-a 表1中各种基因型的频率由常法确定,例如A1A1Q1Q1B1B1是AQ和QB均未发生交换,故其频率为(1-rA) (1-rB); A1A1Q2Q2B1B1是AQ和QB均发生交换,故其频率为rArB; ……等。设wa-.gif (241 bytes) 、 wc-.gif (257 bytes) 、 ab11. gif (256 bytes) 和ab22.gif (253 bytes) 依次为4种标记基因型的平均数,则由表1可得: file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9902/990218.htm(第 2/9 页)2009-12-31 23:58:40
江苏农业研究90218 -.gif(4757 bytes) 式③)说明,对DH群体的任一个体或株系,两相邻标记A、B间的任一位置,若令: gif(4693 bytes) 4 就可以进行个体(株系)表型值依x的常规回归分析。回归d非1,失拟离回归)非n-2,n为供试H的个体或 株系数。如果每 个体或株系有次重复,则还有一项重复间误差,具dFn1)。当失拟平方和最小而回明 又显著时,推断该位置上存在1个QTL,其回归系数b即加性效应的估值:当失拟显著时,推断除该位置外 还存在其他位置的QTL。 2.2 一个实例 表2为一个=25的大麦DH群体在第5染色体上的3个分子标记A、B、c),其遗传距离为: 1802.gif (1179 bytes) 19.28cM51.08cM 观察性状Z为4个重复的平均产量,重复间误差SS-=215.20,具dF25×3=75(自:K earsey M Jand Pooni HS.The geneticalanalysisofquan titative traits C hapm an&HaL1996.l38)。表2中的1和2分别表示该标记的DNA 来自亲本P1和P2,即1代表11,2代表22。设以2M为间距进行回归搜索,结果是:位置1距A2cM)回归的 F=1.21,不显著(他见表3):但随着Q位置的右移,F值逐渐增大,在位置11距B4cdM)~21距B24cM),回归 的F都>F001-7.88:在位置17(距B16cM,距A19.28+16-35.28cM)处,SS为最小。以下举出位置1、9和17的 分析以为说明 803.gif(1006bytes) 位置1为: 根据=1e2W)/2可得对应于19.28cM的AB=0.1600,对应于2cM的r=0.0196cM,对应于17.28cM的 =0.1461。因此由式4④)得: X1=1-0.0196-0.1461)/1-0.16)=0.993 X12=(0.0196+0.1461)/0.16=0.791 /l作kan_hm抽取_200e0ekkC200810/知7知y99/my9302218h(第3/9页)209-2-3123580
江苏农业研究/990218 q-.gif (4757 bytes) (3) 式(3)说明,对DH群体的任一个体或株系,两相邻标记A、 B间的任一位置,若令: l-.gif (4693 bytes) (4) 就可以进行个体(株系)表型值Z依X的常规回归分析。回归df=1,失拟(离回归)df=n-2,n为供试DH的个体或 株系数。如果每一个体或株系有r次重复,则还有一项重复间误差,具df=n(r-1)。当失拟平方和最小而回归 又显著时,推断该位置上存在1个QTL,其回归系数b即加性效应a的估值;当失拟显著时,推断除该位置外 还存在其他位置的QTL。 2.2 一个实例 表2为一个n=25的大麦DH群体在第5染色体上的3个分子标记(A、 B、 C),其遗传距离为: 1802.gif (1179 bytes) 19.28 cM51.08 cM 观察性状Z为4个重复的平均产量,重复间误差SS=215.20,具df=25×3=75(引自:Kearsey M J and Pooni H S. The genetical analysis of quantitative traits. Chapman & Hall, 1996. 138)。表2中的1和2分别表示该标记的DNA 来自亲本P1和P2,即1代表11,2代表22。设以2cM为间距进行回归搜索,结果是:位置1(距A 2 cM)回归的 F=1.21, 不显著(也见表3);但随着Q位置的右移,F值逐渐增大,在位置11 (距B 4 cM)~21 (距B 24 cM), 回归 的F都>F0.01=7.88; 在位置17 (距B 16 cM, 距A 19.28+16=35.28 cM) 处,SSL为最小。以下举出位置1、 9和17的 分析以为说明。 位置1为: 1803.gif (1006 bytes) 根据r=(1-e-2M)/2可得对应于19.28 cM的rAB=0.1600,对应于2 cM的rA=0.0196 cM, 对应于17.28 cM的 rB=0.1461。因此由式(4)得: X11=(1-0.0196-0.1461)/(1-0.16)=0.993 X12=(-0.0196+0.1461)/0.16=0.791 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9902/990218.htm(第 3/9 页)2009-12-31 23:58:40
江苏农业研究990218 表2大麦25个DH系在第5染色体上的标记和小区平均产量亿) Table2 M arkerson chrom osom e5 and average yiel perpbtof5 lines in aD H population ofbarley 遗传标记和距离cM 搜索位置仅) 系号 G enetic m arkerand distance/cM 产量 Position searched (X) N o.of Y iel 9 B 17 lines A 亿) 0 距A2cM 距A18cM 距B16cM 19.28 70.36 2 cM from A 18 cM fiom A 16 cM fiom B 1 1 2 39.87 0.791 -0.866 -0.898 1 2 2 31.95 0.791 0.866 0.898 1 43.90 0.993 0.995 0.898 2221 2 37.96 -0.993 -0.995 0.898 41.14 -0.993 0.995 0.898 39.17 0.791 0.866 0.360 234567890123456789022345 2 41.99 0.993 0.995 0.360 22111222122122211222 1 1 43.59 0.993 0.995 0.898 2 33.46 -0.993 0.995 0.898 2221221 2 39.15 0.993 -0.995 0.898 1 33.34 -0.993 0.995 0.360 1 43.27 0.993 0.995 0.898 1 32.67 -0.993 0.995 0.360 2 32.22 0.993 0.995 0.898 1 42.76 0.993 0.995 0.898 1 1 51.21 -0.791 0.866 0.898 221 2 33.61 -0.993 0.995 0.898 2 42.12 -0.993 0.995 0.898 2 31.28 0.993 0.995 0.360 2 41.90 0.993 0.995 0.360 222 2 41.20 0.993 0.995 0.898 2 44.48 0.993 0.995 0.898 1 41.45 0.993 0.995 0.360 1 1 42.54 0.993 0.995 0.360 2 2 2 31.98 0.993 0.995 0.898 SS 649.48 22.75 21.99 13.16 SPXZ 27.18 57.88 48.43 X21=(0.0196-0.1461)/0.16=0.791 X221+0.0196+0.1461)/1-0.16)=-0.993 1804.gif(1152 bytes) 位置9为: 对应于18cM的r=0.1512,1.28cM的B=0.0126。因此, X1u=1-0.1512-0.0126)/1-0.16)=0.995 X12(0.1512+0.0126)/0.16=0.866 X21=(0.1512-0.0126)/0.16=0.866 X2(1+0.1512+0.0126)/1-0.16)=-0.995 f止/作%kan hmm抽取2000 bepore/kk200810)/nyy /my99/my9902/990218.hm (第4/9页)2009-12-31235840
江苏农业研究/990218 表2 大麦25个DH系在第5染色体上的标记和小区平均产量(Z) Table 2 Markers on chromosome 5 and average yield per plot of 5 lines in a DH population of barley 系号 No. of lines 遗传标记和距离/cM Genetic marker and distance /cM 产量 Yield (Z) 搜索位置(X) Position searched (X) A 0 B 19.28 C 70.36 1 距A 2 cM 2 cM from A 9 距A 18 cM 18 cM from A 17 距B 16 cM 16 cM from B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1 1 1 2 2 1 1 1 2 2 2 1 2 2 1 2 2 2 1 1 2 2 2 1 2 2 2 1 2 2 2 1 1 2 2 2 1 2 2 1 1 2 2 1 1 2 2 2 1 2 2 2 1 2 2 1 2 1 2 2 1 1 1 2 1 1 2 2 2 2 2 2 1 2 2 39.87 31.95 43.90 37.96 41.14 39.17 41.99 43.59 33.46 39.15 33.34 43.27 32.67 32.22 42.76 51.21 33.61 42.12 31.28 41.90 41.20 44.48 41.45 42.54 31.98 0.791 0.791 0.993 -0.993 -0.993 0.791 0.993 0.993 -0.993 -0.993 -0.993 0.993 -0.993 -0.993 0.993 -0.791 -0.993 -0.993 0.993 0.993 -0.993 -0.993 -0.993 0.993 -0.993 -0.866 -0.866 0.995 -0.995 -0.995 -0.866 0.995 0.995 -0.995 -0.995 -0.995 0.995 -0.995 -0.995 0.995 0.866 -0.995 -0.995 0.995 0.995 -0.995 -0.995 -0.995 0.995 -0.995 -0.898 -0.898 0.898 -0.898 -0.898 -0.360 0.360 0.898 -0.898 -0.898 -0.360 0.898 -0.360 -0.898 0.898 0.898 -0.898 -0.898 0.360 0.360 -0.898 -0.898 -0.360 0.360 -0.898 SS SPXZ 649.48 22.75 27.18 21.99 57.88 13.16 48.43 X21=(0.0196-0.1461)/0.16=-0.791 X22=(-1+0.0196+0.1461)/(1-0.16)=-0.993 位置9为: 1804.gif (1152 bytes) 对应于18 cM的rA=0.1512, 1.28 cM的rB=0.0126。因此, X11=(1-0.1512-0.0126)/(1-0.16)=0.995 X12=(-0.1512+0.0126)/0.16=-0.866 X21=(0.1512-0.0126)/0.16=0.866 X22=(-1+0.1512+0.0126)/(1-0.16)=-0.995 file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9902/990218.htm(第 4/9 页)2009-12-31 23:58:40
江苏农业厨究90218 805.gif(1219bytes) 位置17为: 对应于51.08cM的BC=0.3200,16cW的=0.1369,35.08cM的=0.2521,故有 X11=1-0.1369-0.2521)/1-0.32)=0.898 X12(0.1369+0.2521)0.32=0.360 X21=(0.1369-0.2521)/0.32=-0.360 X22(1+0.1369+0.2521)/1-0.32)=-0.898 根据相邻标记的编码,将以上X值记于表2右侧,并算得相应的平方和SS和乘积和SP记于表2底部。对 于位置1的分析,求得S8=27.1822.753248,SS=649.48-32,48=617.0,回归不显著:对于位置9的分析, SSR=57.88221.99=152.35,SS1=649.48-152.35=497.13,回归显著性达P=0.05水平。以上结果详见表3。 表3离A2cM和18cM的两个位点的回归分析 Tabe3 Regression analysis for the2 cM and 18 cM positions fiom m arkerA,respectively 离A2cM位点的分析离A18cM位点的分析 变异来源 Source ofvariation df 2 cM position fiom A 18 cM position fiom A SS MS F SS M S F 回归R egresson132.4832.48 失拟Lack offit23617.0026.83 1.21ns 152.35152.357.05 497.1321.61 总Toal24649.48 649.48 表4离B16cM(离A35.28cM)位点的回归分析 Tabe4 om B (comesponding5.0 16 变异来源 dr ss Ms F 回归Regression1178.23178.238.70* 失拟Lack offit23471.2520.497.14 重复间误差Eor75215.202.87 对于位置19,SSR=48.43213.16=178.23,SS=649.48-178.23=471.25。由于此位置是sS最小(回归F值最大) 点,故加上重复间误差SS一起分析(表4)。结果回归和失拟都极显著。前者表明在第5染色体上有一影响产 量的QTL,其最可能位置为距离标记35.28cM(或距离标记B16cM)、距离标记C35.08cM:后者表明除该 QTL外,还存在其他影响产量的QTL。进一步可得该QTL的回归系数和标准误: gr499by 即该QTL的加性效应估计为3.68±1.25。 3BC群体的两侧标记回归 当考虑1个QTL及其两侧标记A和B时,F1配子也是8种基因型,但纯系亲本P1或P2都只有1种基因型: 正作■抽取2000bc5mkk200810/mymy9/my9902/90218hm(第5/9页)2009-129123840
江苏农业研究/990218 位置17为: 1805.gif (1219 bytes) 对应于51.08 cM的rBC=0.3200, 16 cM的rB=0.1369, 35.08 cM的rC=0.2521, 故有: X11=(1-0.1369-0.2521)/(1-0.32)=0.898 X12=(-0.1369+0.2521)/0.32=0.360 X21=(0.1369-0.2521)/0.32=-0.360 X22=(-1+0.1369+0.2521)/(1-0.32)=-0.898 根据相邻标记的编码,将以上X值记于表2右侧,并算得相应的平方和SS和乘积和SP记于表2底部。对 于位置1的分析,求得SSR=27.182/22.75=32.48, SSL=649.48-32.48=617.00, 回归不显著; 对于位置9的分析, SSR=57.882/21.99=152.35, SSL=649.48-152.35=497.13, 回归显著性达P=0.05水平。以上结果详见表3。 表3 离A 2 cM和18 cM的两个位点的回归分析 Table 3 Regression analysis for the 2 cM and 18 cM positions from marker A, respectively 变异来源 Source of variation df 离A 2 cM位点的分析 2 cM position from A 离A 18 cM位点的分析 18 cM position from A SS MS F SS MS F 回归 Regression 失拟 Lack of fit 1 23 32.48 617.00 32.48 26.83 1.21ns 152.35 497.13 152.35 21.61 7.05* 总 Total 24 649.48 649.48 表4 离B 16 cM(离A 35.28 cM)位点的回归分析 Table 4 Regression analysis for the 16 cM position from B (corresponding to 35.28 cM from A) 变异来源 Source of variation df SS MS F 回归 Regression 失拟 Lack of fit 重复间误差 Error 1 23 75 178.23 471.25 215.20 178.23 20.49 2.87 8.70** 7.14** 对于位置19, SSR=48.432/13.16=178.23, SSL=649.48-178.23=471.25。由于此位置是SSL最小(回归F值最大) 点,故加上重复间误差SS一起分析(表4)。结果回归和失拟都极显著。前者表明在第5染色体上有一影响产 量的QTL,其最可能位置为距离标记A 35.28 cM (或距离标记B 16 cM)、距离标记C 35.08 cM; 后者表明除该 QTL外,还存在其他影响产量的QTL。进一步可得该QTL的回归系数和标准误: w-.gif (1499 bytes) 即该QTL的加性效应估计为3.68±1.25。 3 BC群体的两侧标记回归 当考虑1个QTL及其两侧标记A和B时,F1配子也是8种基因型,但纯系亲本P1或P2都只有1种基因型: file:///F|/qikan_htm抽取_2000before/kjqk(200810)/jsnyyj/jsny99/jsny9902/990218.htm(第 5/9 页)2009-12-31 23:58:40