第26卷第4期 作物学报 Vol 26.No 4 2000年7月 ACTA A GRONOM ICA SN ICA Juy.2000 QTL混合遗传模型扩展至2对主基因+多基因时的多世代联 合分析 盖钧锁 章元明王建康” (南京农业大学大豆研究所,农业部四家大豆改良中心,江苏南京,210095) 提要本文将Gai and Wang(1998)的P、FPB、B:和F:6个世代联合分离分析方法从4、B C、D4类共17种遗传模型扩楼至E(2对主基因+多基因)共5类24种遗传模型。成分分布参数估计 的方法由EM算法改进为迭代条件E算法(ECM).其收敛性和所获结果优于EM算法。水稻株高 例中2对主基因+多基因的遗传模型(E-2)优于原所获得的1对主基因+多基因的遗传模型)。 关键词数量性状,主基因+多基因混合遗传,多世代联合分析,ECM算法 A Jont Analysis of Multiple Generations for OTL Models Ex tended to M kxed Two Major Genes Plus Polygene GA IJun-Yi ZHAN G YuanM ing WANG Jian-Kang A g ricultre,N anjing 210095) Abstract The two major genes plus polygene Model (Model E)of OTL in a joint analysis of Pi,F1,P2,B1,B2 and F2 was extended to based on Gai and W ang (1998).The mapr steps were to establish the genetic models and likelihood functions,to estmate the distribution param eters through iterated expectaton and conditonal maxm raton (/ECM algorithm,to select the best genetic model through 4 IC value and tests for goodness of fit,to estmate the genetic parameters of the best fitted model through least squares method,and to classify the ind ividuals nto mapr gene genotypes in tem sof Bayesian posteror probability.The example of the inheritance of rice plant height which was used by Gai and W ang (1998)was further analyzed to explan the procedures It was shown through the example that the convergence of the parameter in IECM algorithm was better than that in EM algorithm,and the two mapor genes plus polygene model(E-2)was better than the prevous one mapr gene plus polygene model (D). Key words Quantitative trait,Mapr gene plus polygene m ixed nheritance.Joint analysis of m ultple generatons /ECM algorithm 对植物数量性状遗传体系的认识有一个发展过程一。最早认为数量性状由微效多基因 联系作者,Ema educnnausri@publicl ptt jsen 致谢南京农业大学农学系朱立宏教授思允使用南京6号×广丛杂交组合6个基本世代群体株高货料。谨致谢忧 收稿日册1999-07-28,接受日期1999-12-18 China Academie ou Publishing House.All rights reserved http://www.cnki.net
第 26 卷 第 4 期 作 物 学 报 Vol. 26, No. 4 2000 年 7 月 ACTA A GRONOM ICA S IN ICA July, 2000 QTL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联 合分析 Ξ 盖钧镒 ΞΞ 章元明 王建康 ΞΞΞ (南京农业大学大豆研究所, 农业部国家大豆改良中心, 江苏南京, 210095) 提 要 本文将 Gai and W ang (1998) 的 P1、F1、P2、B1、B2 和 F2 6 个世代联合分离分析方法从A 、B、 C、D 4 类共 17 种遗传模型扩展至 E (2 对主基因+ 多基因) 共 5 类 24 种遗传模型。成分分布参数估计 的方法由 EM 算法改进为迭代条件 EM 算法(IECM ) , 其收敛性和所获结果优于 EM 算法。水稻株高 例中 2 对主基因+ 多基因的遗传模型(E 22) 优于原所获得的 1 对主基因+ 多基因的遗传模型(D )。 关键词 数量性状; 主基因+ 多基因混合遗传; 多世代联合分析; IECM 算法 A Joint Analysis of M ultiple Generations for QTL M odels Extended to M ixed TwoMajor Genes Plus Polygene GA IJun2Yi ZHAN G Yuan2M ing WAN G Jian2Kang ( S oy bean R esearch Institute, N anj ing A g ricultural U niversity; N ational Center of S oy bean Im p rovem ent, M inistry of A g riculture, N anj ing 210095) Abstract The two m ajor genes p lus polygene M odel (M odel E ) of Q TL in a joint analysis of P1, F1, P2, B1, B2 and F2 w as extended to based on Gai and W ang (1998). The m ajor step s w ere to establish the genetic models and respective m axim um likelihood functions, to estim ate the distribution param eters th rough iterated expectation and conditional m axim ization ( IECM ) algorithm , to select the best genetic model th rough A IC value and tests for goodness of fit, to estim ate the genetic param eters of the best fitted model th rough least squares m ethod, and to classify the individuals into m ajor gene genotypes in term s of Bayesian posterior p robability. The examp le of the inheritance of rice p lant heigh t w h ich w as used by Gai and W ang (1998) w as further analyzed to exp lain the p rocedures. It w as show n th rough the examp le that the convergence of the param eter estim ation in IECM algorithm w as better than that in EM algorithm , and the two m ajor genes p lus polygene model (E 22) w as better than the p revious one m ajor gene p lus polygene model (D ). Key words Q uantitative trait; M ajor gene p lus polygene m ixed inheritance; Joint analysis of m ultip le generations; IECM algorithm 对植物数量性状遗传体系的认识有一个发展过程[1~ 2 ]。最早认为数量性状由微效多基因 Ξ ΞΞ ΞΞΞ 现在河南农业科学院科学实验中心工作 致谢: 南京农业大学农学系朱立宏教授惠允使用南京 6 号×广丛杂交组合 6 个基本世代群体株高资料, 谨致谢忱! 收稿日期: 1999207228, 接受日期: 1999212218 联系作者, E2m ail: sri@njau. edu. cn 或 nausri@public1. p tt. js. cn 国家 973 项目
386 作物学报 26卷 控制,以后发现水稻矮秆等一些数量性状也受主基因控制Elston and Steward(I973)提出 了1对主基因+多基因混合遗传模型。后米大量研究发现控制数量性状的基因效应大小不 一.大者表现为主基因.小者表现为微效多基因。因而盖钧等(1999)提出将主基因+多 基因混合遗传看作植物数量性状遗传的普遍性模型,将单纯多基因、单纯主基因看作其特 例,并在前人基础上r列发展了一套QTL遗传模型检测的分离分析方法,将孟德尔用于研究 主基因的遗传研究方法延伸到数量性状的通用模型。这种方法通过对分离世代的分析可以检 测1对主基因4)、2对主基因(B)、多基因(C)、1对主基因+多基因D)等4类多种遗传模 型,所用试验材料可以是单个分离世代及其亲本,也可以是多个分离世代及其亲本。这 种分离分析的主要理论基础是混合分布理论,将分离世代的分布看作为多个主基因型在多基 因和环境修饰下形成的多个正态分布的混合分布,其主要方法是通过极大似然法和EM 算法对混合分布中有关成分分布参数作出估计,然后通过A1C值判别及一组适合性测验从 中选出最适遗传模型,并由之估计相应的主基因和多基因的效应值、方差和有关遗传参数」 乃至对参试材料的主基因型作出后验概率判别。Gai and W ang(1998)提出的P、F、P B、B2、F:6世代联合分析方法考虑了上述4类17种遗传模型,并在此基础上进一步拓展分 离世代的类型,包括个体世代的类型及可进行重复试验提高精确度的家系世代的类型,以及 拓展为更为复杂的遗传模型等方面改进提高这套方法。本文目的是将Gai and W ang(1998)例 的6世代联合分析方法进一步拓展至2对主基因+多基因遗传模型的情况,使6世代试验资 料可鉴别5类共24种遗传模型,并估计相应遗传参数。 1理论推演 11基本假定与遗传模型 本文对P1、F、P、B、B:及F:QTL体系及A、B、C、D4类共17种遗传模型所作的基 本假定、符号和参数与Gai and W ang(1998)相同,此处不再重复。现将2对主基因+多基 因简称为£类模型,其相应6世代的分布通式列于后,观察值以个体或植株为单位,此处假 定2对主基因属独立遗传。至于主基因间连锁遗传有待进一步研究。 P::XN (m,F::X2N (H2,Pz:XaN (m,d) B:X(1/4)N(H,c)+(1/A)N(a,G)+(I/4)N(μ,G)+(I/A)N(H4,G) B:Xs(1/4)N(μs,c店)+(1/4)N(μ2,c店)+(1/4)N(μs,G)+(1/4)N(μ4,G店) Fz:X6(1/h6)N(μ61,)+(1/8)N(μa,)+(1/16)N(Ha,)+(1/8)N(u4,) (1/4)N(us,G)+(1/8)N(μ66,G)+(1/h6)N(μ6,)+ (1/8)N(μ,G)+(1/h6)N(μm,d) 以上6个群体的分布分别由单个、4个和9个各不相同的成分分布组成。在两对主基因服从 等加性、完全显性、等显性且名基因服从加性-品性模型下.B1、B,和F,群体的成分分布数分 别为3(1:2:1)、3(1:2:1)和5(1:4:6:4:1):1、4(1:1:1:1)和4(9:3:3:1) 1、3(1:2:1)和3(9:6:1)。将上述结果列于表1,A~D类模型参见文献。表1中E为2 对主基因+多基因时包括主基因与多基因的加性、显性和上位性的全部遗传效应的完全棋 型:E-~E-6的多基因均为加性-显性模型E-1的主基因为完全模型E-2的主基因为加性 -显性模型E-3的主基因为加性模型E-4的主基因为等加性模型,E-5的主基因为加性-完 全显性模型E-6的主基因为等加性。等显性(完全显性)模型。综合起来,本文考虑的遗传 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:./www.cnkine
控制, 以后发现水稻矮秆等一些数量性状也受主基因控制; Elston and Stew ard (1973) [3 ]提出 了 1 对主基因+ 多基因混合遗传模型。后来大量研究发现控制数量性状的基因效应大小不 一, 大者表现为主基因, 小者表现为微效多基因。因而盖钧镒等(1999) [1 ]提出将主基因+ 多 基因混合遗传看作植物数量性状遗传的普遍性模型, 将单纯多基因、单纯主基因看作其特 例, 并在前人基础上[3~ 5 ]发展了一套Q TL 遗传模型检测的分离分析方法, 将孟德尔用于研究 主基因的遗传研究方法延伸到数量性状的通用模型。这种方法通过对分离世代的分析可以检 测 1 对主基因(A )、2 对主基因(B )、多基因(C)、1 对主基因+ 多基因(D ) 等 4 类多种遗传模 型, 所用试验材料可以是单个分离世代及其亲本, 也可以是多个分离世代及其亲本[6~ 9 ]。这 种分离分析的主要理论基础是混合分布理论, 将分离世代的分布看作为多个主基因型在多基 因和环境修饰下形成的多个正态分布的混合分布[10 ] , 其主要方法是通过极大似然法和 EM 算法对混合分布中有关成分分布参数作出估计, 然后通过A IC 值判别及一组适合性测验从 中选出最适遗传模型, 并由之估计相应的主基因和多基因的效应值、方差和有关遗传参数, 乃至对参试材料的主基因型作出后验概率判别。Gai and W ang (1998) [9 ]提出的 P1、F1、P2、 B1、B2、F2 6 世代联合分析方法考虑了上述 4 类 17 种遗传模型, 并在此基础上进一步拓展分 离世代的类型, 包括个体世代的类型及可进行重复试验提高精确度的家系世代的类型, 以及 拓展为更为复杂的遗传模型等方面改进提高这套方法。本文目的是将 Gai and W ang (1998) [9 ] 的 6 世代联合分析方法进一步拓展至 2 对主基因+ 多基因遗传模型的情况, 使 6 世代试验资 料可鉴别 5 类共 24 种遗传模型, 并估计相应遗传参数。 1 理论推演 1. 1 基本假定与遗传模型 本文对 P1、F1、P2、B1、B2 及 F2 Q TL 体系及A 、B、C、D 4 类共 17 种遗传模型所作的基 本假定、符号和参数与 Gai and W ang (1998) [9 ]相同, 此处不再重复。现将 2 对主基因+ 多基 因简称为 E 类模型, 其相应 6 世代的分布通式列于后, 观察值以个体或植株为单位, 此处假 定 2 对主基因属独立遗传。至于主基因间连锁遗传有待进一步研究。 P1: X 1~i N (Λ1, Ρ 2 ) F1: X 2~i N (Λ2, Ρ 2 ) P2: X 3~i N (Λ3, Ρ 2 ) B1: X 4~i (1ö4)N (Λ41, Ρ 2 4) + (1ö4)N (Λ42, Ρ 2 4) + (1ö4)N (Λ43, Ρ 2 4) + (1ö4)N (Λ44, Ρ 2 4) B2: X 5~i (1ö4)N (Λ51, Ρ 2 5) + (1ö4)N (Λ52, Ρ 2 5) + (1ö4)N (Λ53, Ρ 2 5) + (1ö4)N (Λ54, Ρ 2 5) F2: X 6~i (1ö16)N (Λ61, Ρ 2 6) + (1ö8)N (Λ62, Ρ 2 6) + (1ö16)N (Λ63, Ρ 2 6) + (1ö8)N (Λ64, Ρ 2 6) + (1ö4)N (Λ65, Ρ 2 6) + (1ö8)N (Λ66, Ρ 2 6) + (1ö16)N (Λ67, Ρ 2 6) + (1ö8)N (Λ68, Ρ 2 6) + (1ö16)N (Λ69, Ρ 2 6) 以上 6 个群体的分布分别由单个、4 个和 9 个各不相同的成分分布组成。在两对主基因服从 等加性、完全显性、等显性且多基因服从加性2显性模型下, B1、B2 和 F2 群体的成分分布数分 别为: 3 (1∶2∶1)、3 (1∶2∶1) 和 5 (1∶4∶6∶4∶1); 1、4 (1∶1∶1∶1) 和 4 (9∶3∶3∶1); 1、3 (1∶2∶1) 和 3 (9∶6∶1)。将上述结果列于表 1, A~D 类模型参见文献[9 ]。表 1 中 E 为 2 对主基因+ 多基因时包括主基因与多基因的加性、显性和上位性的全部遗传效应的完全模 型; E 21~ E 26 的多基因均为加性2显性模型; E 21 的主基因为完全模型; E 22 的主基因为加性 2显性模型; E 23 的主基因为加性模型; E 24 的主基因为等加性模型; E 25 的主基因为加性2完 全显性模型; E 26 的主基因为等加性- 等显性(完全显性) 模型。综合起来, 本文考虑的遗传 386 作 物 学 报 26 卷
4期 盖钧镒等QTL混合遗传模型扩展至2对主基因+多基因时的多世代联合分析 387 模型共有A、B、C、D、E5类24种。至于3对主基因模型和3对主基因+多基因模型等更复 杂的情况还有待于进一步研究。 表1两对主基因+多基因想型下6个世代所包含的成分分布数及可估的遗传参数 Table 1 The nuber of component distrbutionsand estmatble geneti parameters of P.F,P:,B,B:and F under two ma jor genes plus polygene m ked nheritance models 模型成分分布数 立参数个数 约束条件数 代号 t No mete parameters oonditons E 20 ”aha 店底d 6 E-1 20 15 m,da ds 9 足..屁子 E-2 20 11 m.da.dh.he.hh.Idl.Ihl 匠.床 13 E-3 20 9 m d.d (h=h=0)Idl (hl 品 15 E-4 14 8 m,d(=da=do,ho h0),[d],[h] a d f 10 E-5 12 9 m.da(=ha).ds(=hs),Idl.[h] 民录子 7 E-6 10 m.d(=d=d=h=h).Id).Ih] 品..d 126世代联合似然函数和成分分布参数极大似然估计的1EQM算法 利用P、F、PB、B2和F?世代联合分析的样本似然函数为 f旧=ΠVx4,x4,)Πyxys,Π∑时x4, (1) TE时rs6,因)ΠE飞fru 其中,f(x6μ,G)是正态分布N(4,G)的密度函数,k1、k台和k3分别是B1、B:和F,群体的 成分分布数。采用IECM算法获得(I)式中分布参数的极大似然估计值。IECM算法采用迭 代方法在条件EM算法(ECM山)基础上获得极大似然估计的方法。在多世代联合估计的 1ECM算法中,E步骤的完全数据对数似然函数的期望函数为: Lcyl旧=bgx6h,)+bg,)+bg/6站,d+ 4 公bg+bg,+ 其中,w4个w4域,w5个w5,w6~w6,表示样本的后验概率。迭代CM步骤是分步骤地计算 Lc(y旧的条件极大值和极大值点。分布平均数间无约束条件时可直接分步骤地对Lc(y旧 求偏导数并令其等于0以得到新一轮参数估计值:分布平均数间有约束条件时可利用 Lagrange函数分步骤地确定Cw步骤中Lc(yO的条件极值。其具体过程为: ①根据样本观测值选择一组分布参数初始值。 ②计算混合群体中样本观测值的后验概率w个:”5个w5西,”个”6一,从而得到 完全数据的似然函数值Lc(YΘ(E步骤)。 http://www.cnki.net
模型共有A 、B、C、D、E 5 类 24 种。至于 3 对主基因模型和 3 对主基因+ 多基因模型等更复 杂的情况还有待于进一步研究。 表 1 两对主基因+ 多基因模型下 6 个世代所包含的成分分布数及可估的遗传参数 Table 1 The number of component distr ibutions and estimatable genetic parameters of P1, F1, P2, B1, B2 and F2 under two major genes plus polygene m ixed inher itance models 模型 代号 Code 成分分布数 No. component distribution 独立参数个数 No. independent param eters 一阶遗传参数 1st order genetic param eter 二阶分布参数 2nd param eter 约束条件数 No. restricted conditions E 20 18 m , d a, d b, ha, hb, i, j ab, j ba, l, [d ], [h ], [ i], [ j ], [ l] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 6 E 21 20 15 m , d a, d b, ha, hb, i, j ab, j ba, l, [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 9 E 22 20 11 m , d a, d b, ha, hb, [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 13 E 23 20 9 m , d a, d b, (ha= hb= 0) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 15 E 24 14 8 m , d (= d a= d b, ha= hb= 0) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 10 E 25 12 9 m , d a (= ha) , d b (= hb) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 7 E 26 10 8 m , d (= d a= d b= ha= hb) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 6 1. 2 6 世代联合似然函数和成分分布参数极大似然估计的 IECM 算法 利用 P1、F1、P2、B1、B2 和 F2 世代联合分析的样本似然函数为: f (Y ûΗ) = ∏ n 1 i= 1 f (x 1i; Λ1, Ρ 2 e )∏ n 2 i= 1 f (x 2i; Λ2, Ρ 2 e )∏ n 3 i= 1 f (x 3i; Λ3, Ρ 2 e )∏ n 4 i= 1 ∑ k 1 t= 1 Π4tf (x 4i; Λ4t, Ρ 2 4) ∏ n 5 i= 1 ∑ k 2 t= 1 Π5tf (x 5i; Λ5t, Ρ 2 5)∏ n 6 i= 1 ∑ k 3 t= 1 Π6t f (x 6i; Λ6t, Ρ 2 6) (1) 其中, f (x j i; Λ, Ρ 2 ) 是正态分布N (Λ, Ρ 2 ) 的密度函数, k1、k2 和 k3 分别是B1、B2 和 F2 群体的 成分分布数。采用 IECM 算法获得(1) 式中分布参数的极大似然估计值。IECM 算法采用迭 代方法在条件 EM 算法(ECM [11, 14 ] ) 基础上获得极大似然估计的方法。在多世代联合估计的 IECM 算法中, E 步骤的完全数据对数似然函数的期望函数为: L C (Y ûΗ) = ∑ n 1 i= 1 logf (x 1i; Λ1, Ρ 2 e ) + ∑ n 2 i= 1 logf (x 2i; Λ2, Ρ 2 e ) + ∑ n 3 i= 1 logf (x 3i; Λ3, Ρ 2 e + ∑ n 4 i= 1 ∑ k 1 t= 1 w 4it logf (x 4i; Λ4t, Ρ 2 4) + ∑ n 5 i= 1 ∑ k 2 t= 1 w 5it logf (x 5i; Λ5t, Ρ 2 5) + ∑ n 6 i= 1 ∑ k 3 t= 1 w 6it log f (x 6i; Λ6t, Ρ 2 6) 其中, w 4i1~w 4ik 1 , w 5i1~w 5ik 2 , w 6i1~w 6ik 3表示样本的后验概率。迭代CM 步骤是分步骤地计算 L C (Y ûΗ) 的条件极大值和极大值点。分布平均数间无约束条件时可直接分步骤地对L C (Y ûΗ) 求偏导数并令其等于 0 以得到新一轮参数估计值; 分布平均数间有约束条件时可利用 L agrange 函数分步骤地确定CM 步骤中L C (Y ûΗ) 的条件极值。其具体过程为: ① 根据样本观测值选择一组分布参数初始值。 ② 计算混合群体中样本观测值的后验概率w 4i1~w 4ik 1 , w 5i1~w 5ik 2 , w 6i1~w 6ik 3 , 从而得到 完全数据的似然函数值L C (Y ûΗ) (E 步骤)。 4 期 盖钧镒等: Q TL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联合分析 387
388 作物学报 26卷 ③分23步对Lc(y旧求条件极值,用迭代方法得到分布平均数、多基因方差组分和 环境方差的估计(CM步骤)。以模型D、E为例,迭代CM,步骤是在固定多基因方差组分和 环境方差的条件下用迭代方法求分布平均数的条件极大似然估计,迭代CM:步骤是在固定 环境方差和迭代CM,步骤所获得的分布平均数条件下用迭代方法求多基因方差组分的条件 极大似然估计,迭代CM,步骤是在固定迭代CM,和CM,步骤所获得的两组估计值条件下用 迭代方法求环境方差的条件极大似然估计。模型A、B、C比较简单,只分两步进行。 ④将得到的估计值作为初始值重复进行②和③步骤,直到达到预定的精度为止。 为从A~E5类共24种模型中找出最适合于所得试验数据的模型,要按上述方法分别估 计出这5类共24种模型的成分分布参数。 13遗传模型的判定及其相应遗传参数的估计 从5类24种模型中判定最佳遗传模型的方法按Gai and W ang(1998)的方法分两步进 行。第一步根据最大熵准则,从最小41C值找出最佳的1个或几个模型第二步对初选模型 进行适合性检验,以找出最适模型。A1C值的计算、判定方法以及入选模型的适合性检验包 括Ui、U经、U、Sm irnov的2和Komogorov的D,统计量检验方法均同Gai and W ang (1998)。选定最佳遗传模型后,使用该模型下的各成分分布参数估计值估算相应的遗传参 数。以E-6模型为例说明分布平均数与一阶遗传参数的关系 =m+dt[d=m++[hku=m-d-【dua=m+2d+(1/2)[d]+(1/2)[h μ1=m+2d-(1/2)[d]+(1/2)[h5 u52=m-(1/2)[d]+(1/2)[h] 4=m-2d-(1/2)[d]+(1/2)[h 61=m+2d+(1/2)[h] μ@=m+(1/2)[h: u6=m-2d+(12)[h1 由此,采用最小二乘法可估计出m、d、[d]和[h。其它模型同理可得相应遗传参数估计值。 各世代表型方差由试验数据直接算得:极大似然估计得到的心为环境方差云、店和 店分别为B、B:和F:各成分分布方差,由多基因方差组分和环境方差构成群体的多基因 方差。=.店正,主基因方差店分别按下列公式求得 dn=d.-ha2+d-h2+u-o2+-2+ (1-02+-a)2+m-02+U加-02]+4(d。-h) (2a) (1+j-j加-0+4(d6-h)(i-j+j-0 正,=(d+h)2+(d+h)2++j)2++j加2+ (i-02+0bj)2+0+02+Um+02]+4(d.+h)(2b) (i+ja-j+)+(ds+ho)(i-j+jw+1) Gg=4[d+d6+2+(d。+j)2+(d+ja)2+(h。+)2+ (hs+02+1] (2c) 主基因遗传率h品,=G,/G和多基因遗传率品=,/。D下D-4和E-E-6模型还能把 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/www.cnkine
③ 分 2~ 3 步对L C (Y ûΗ) 求条件极值, 用迭代方法得到分布平均数、多基因方差组分和 环境方差的估计(CM 步骤)。以模型D、E 为例, 迭代 CM 1 步骤是在固定多基因方差组分和 环境方差的条件下用迭代方法求分布平均数的条件极大似然估计; 迭代CM 2 步骤是在固定 环境方差和迭代CM 1 步骤所获得的分布平均数条件下用迭代方法求多基因方差组分的条件 极大似然估计; 迭代CM 3 步骤是在固定迭代CM 1 和CM 2 步骤所获得的两组估计值条件下用 迭代方法求环境方差的条件极大似然估计。模型A 、B、C 比较简单, 只分两步进行。 ④ 将得到的估计值作为初始值重复进行②和③步骤, 直到达到预定的精度为止。 为从A~ E 5 类共 24 种模型中找出最适合于所得试验数据的模型, 要按上述方法分别估 计出这 5 类共 24 种模型的成分分布参数。 1. 3 遗传模型的判定及其相应遗传参数的估计 从 5 类 24 种模型中判定最佳遗传模型的方法按 Gai and W ang (1998) [9 ]的方法分两步进 行。第一步根据最大熵准则, 从最小A IC 值找出最佳的 1 个或几个模型; 第二步对初选模型 进行适合性检验, 以找出最适模型。A IC 值的计算、判定方法以及入选模型的适合性检验包 括 U 2 1、U 2 2、U 2 3、Sm irnov 的 nW 2 和 Kolmogorov 的 D n 统计量检验方法均同 Gai and W ang (1998) [9 ]。选定最佳遗传模型后, 使用该模型下的各成分分布参数估计值估算相应的遗传参 数。以 E 26 模型为例说明分布平均数与一阶遗传参数的关系: Λ1= m + d + [d ]; Λ2= m + h+ [h ]; Λ3= m - d - [d ]; Λ4= m + 2d + (1ö2) [d ]+ (1ö2) [h ] Λ51= m + 2d - (1ö2) [d ]+ (1ö2) [ h ]; Λ52= m - (1ö2) [d ]+ (1ö2) [h ] Λ53= m - 2d - (1ö2) [d ]+ (1ö2) [ h ]; Λ61= m + 2d + (1ö2) [h ] Λ62= m + (1ö2) [h ]; Λ63= m - 2d + (1ö2) [h ] 由此, 采用最小二乘法可估计出m、d、[d ]和[h ]。其它模型同理可得相应遗传参数估计值。 各世代表型方差 Ρ 2 P 由试验数据直接算得; 极大似然估计得到的 Ρ 2 为环境方差; Ρ 2 4、Ρ 2 5 和 Ρ 2 6 分别为B1、B2 和 F2 各成分分布方差, 由多基因方差组分和环境方差构成; 群体的多基因 方差 Ρ 2 p g= Ρ 2 P - Ρ 2 mg- Ρ 2 e , 主基因方差 Ρ 2 mg分别按下列公式求得: Ρ 2 m g (B 1 ) = 1 4 (d a - ha) 2 + 1 4 (d b - hb) 2 + 1 16 [ (i - j ab) 2 + (i - j ba) 2 + (i - l) 2 + (j ab - j ba) 2 + (j ab - l) 2 + (j ba - l) 2 ] + 1 4 (d a - ha) (i + j ab - j ba - l) + 1 4 (d b - hb) (i - j ab + j ba - l) (2a) Ρ 2 m g (B 2 ) = 1 4 (d a + ha) 2 + 1 4 (d b + hb) 2 + 1 16 [ (i + j ab) 2 + (i + j ba) 2 + (i - l) 2 + (j ab - j ba) 2 + (j ab + l) 2 + (j ba + l) 2 ] + 1 4 (d a + ha) (- i + j ab - j ba + l) + 1 4 (d b + hb) (- i - j ab + j ba + l) (2b) Ρ 2 m g (F2 ) = 1 4 [d 2 a + d 2 b + i 2 + (d a + j ab) 2 + (d b + j ba) 2 + (ha + 1 2 l) 2 + (hb + 1 2 l) 2 + 1 4 l 2 ] (2c) 主基因遗传率 h 2 m g= Ρ 2 m göΡ 2 P 和多基因遗传率 h 2 p g= Ρ 2 p göΡ 2 P。D 21~D 24 和 E 21~ E 26 模型还能把 388 作 物 学 报 26 卷
4期 盖钧镒等:QTL混合遗传模型扩展至2对主基因+多基因时的多世代联合分析 389 B1、B:和F2的多基因方差组分、和o剖分为多基因加性效应方差D、显性效应方差H 以及F D=4d2d02dG (3a) H=4(io+o-Co) (3b) F=正-n (3c) 由此,可联合估计B、B2和F,群体的多基因遗传率 h)=D/4+H/4.F/2)/床 (4a higm=(D /4+H/4+F/)/ (4b) hx,=D久+H/A)/床e (4c 14 Bayes后验概率与分离世代个体主基因型的归属 将分布参数估计值代入E步骤便可得到Bayes后验概率wu~w4,Ws~ws纯和w6~ W6,B1、B:和F2群体单株的后验概率可表示为: wu=rfx6hwG)/Tf (i正 m=4,5,6) (5) 在A、D模型时,主基因型数不多,个体主基因型的判别较简单,但在B、E模型时主基 因型数增多,下,代将有9种主基因型,此时个体主基因型的后验概率判别弹性增大,实际意 义比A、D模型时小得多。 以上A~E5类共24个遗传模型的分析计算(1ECM算法)均用Turbo C·语言编写成 程序名为SN.EXE的计算程序软件,欢迎读者来函联系。 2应用实例 GaiandW ang(1998)文中南京6号×广丛杂交组合的6世代的数据在此作进一步分 析。其次数分布数据 表2用I正CM算法估计各种遗传模型的极大对数似然函数值和AIC值 参见该文表3。按本 Table 2 The maxmum log likel hood values and A IC values under varbous genetik 文22节所获得的5 类24种模型的极大 桢型 极大对数似然信 模型 极大对数似然值 AIC AIC 对数似然函数值和 Model Max mum bg-likelhood lodel Maxmum bg-likelhood A 3259 65238 31859 A1C值列于表2。E 639590 3460+ 6926 -3853 63886 2模型具有最小AC 3300 6607 D 318530 638660 值,为最佳可能模 3631 7269 ·326 65459 32 6+6 3422 型。与之相近的还有 68604 2 04078 D-2、D-I、D、E-1 B-3 63 等。这与Gai and 9 63650 Wang(1998)的结 652503 果有所不同也有所相 近,说明可能属2对 C-l 5206 658730 333226 669051 主基因+多基因的混合遗传模型。但因与1对主基因+多基因模型的差异甚小,可能第2对 主基因的作用较小。经一组适合性检验的结果(表3),E-2不仅最佳而且最适。因而确认该组 C 1994-2009 China Academic Journal Electr All rights http:
B1、B2 和 F2 的多基因方差组分 Ρ 2 40、Ρ 2 50和 Ρ 2 60剖分为多基因加性效应方差D、显性效应方差H 以及 F: D = 4Ρ 2 60 - 2Ρ 2 40 - 2Ρ 2 50 (3a) H = 4 (Ρ 2 40 + Ρ 2 50 - Ρ 2 60) (3b) F = Ρ 2 50 - Ρ 2 40 (3c) 由此, 可联合估计B1、B2 和 F2 群体的多基因遗传率: h 2 p g (B1 ) = (D ö4 + H ö4 - Fö2)öΡ 2 P (B1 ) (4a) h 2 p g (B2 ) = (D ö4 + H ö4 + Fö2)öΡ 2 P (B2 ) (4b) h 2 p g (F 2 ) = (D ö2 + H ö4)öΡ 2 P (F 2 ) (4c) 1. 4 Bayes 后验概率与分离世代个体主基因型的归属 将分布参数估计值代入 E 步骤便可得到Bayes 后验概率w 4i1~w 4ik 1 , W 5i1~w 5ik 2和w 6i1~ w 6ik 3 , B1、B2 和 F2 群体单株的后验概率可表示为: w m it = Πm itf (x m i; Λm t, Ρ 2 m )ö∑ km - 3 r= 1 Πm irf (x m i; Λm r, Ρ 2 m (m = 4, 5, 6) (5) 在A 、D 模型时, 主基因型数不多, 个体主基因型的判别较简单, 但在B、E 模型时主基 因型数增多, F2 代将有 9 种主基因型, 此时个体主基因型的后验概率判别弹性增大, 实际意 义比A 、D 模型时小得多。 以上A~ E 5 类共 24 个遗传模型的分析计算( IECM 算法) 均用 Turbo C + + 语言编写成 程序名为 SIN. EXE 的计算程序软件, 欢迎读者来函联系。 2 应用实例 Gai andW ang ( 1998) [9 ]文中南京6号×广丛杂交组合的6世代的数据在此作进一步分 表 2 用 IECM 算法估计各种遗传模型的极大对数似然函数值和A IC 值 Table 2 The max imum log l ikel ihood values and A IC values under var ious genetic models estimated through the iterated ECM (IECM ) algor ithm 模型 M odel 极大对数似然值 M axim um log2likelihood A IC 模型 M odel 极大对数似然值 M axim um log2likelihood A IC A 21 - 3257. 94 6523. 87 D - 3185. 95 6395. 90 A 22 - 3460. 48 6926. 97 D 21 - 3185. 30 6388. 60 A 23 - 3300. 69 6607. 37 D 22 - 3185. 30 6386. 60 A 24 - 3631. 70 7269. 40 D 23 - 3264. 98 6545. 97 B 21 - 3224. 81 6469. 63 D 24 - 3422. 24 6860. 48 B 22 - 3225. 94 6463. 88 E - 3185. 93 6407. 87 B 23 - 3381. 16 6770. 32 E 21 - 3183. 80 6397. 60 B 24 - 3422. 23 6864. 46 E 22 - 3172. 06 6366. 12 B 25 - 3444. 06 6902. 12 E 23 - 3226. 75 6471. 50 B 26 - 3389. 06 6784. 12 E 24 - 3254. 51 6525. 03 C - 3287. 47 6582. 93 E 25 - 3195. 23 6408. 46 C21 - 3290. 65 6587. 30 E 26 - 3337. 26 6690. 51 析。其次数分布数据 参见该文表 3。按本 文 2. 2 节所获得的 5 类 24 种模型的极大 对数似然函数值和 A IC 值列于表 2。E 2 2 模型具有最小A IC 值, 为 最 佳 可 能 模 型, 与之相近的还有 D 22、D 21、D、 E 21 等。 这 与 Gai and W ang ( 1998) [9 ] 的 结 果有所不同也有所相 近, 说明可能属 2 对 主基因+ 多基因的混合遗传模型。但因与 1 对主基因+ 多基因模型的差异甚小, 可能第 2 对 主基因的作用较小。经一组适合性检验的结果(表 3) , E 22 不仅最佳而且最适。因而确认该组 4 期 盖钧镒等: Q TL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联合分析 389