第26卷第6期 作物学报 Vol 26,Na 6 2000年11月 ACTA A GRONOM CA SN CCA Nov,2000 数量性状分离分析中分布参数估计的ECM算法 章元明盖钧镒 (南家农业大学大豆研究所。农业部田家大豆改良中心.江苏南家210093) 提要在主基因+多基因混合遗传分析中,随着模型的扩展,估计成分分布参数的M算法显示其 局限性。本文在ECM算法和剂分成分分布方差为主基因、多基因及环境三种方差组分基础上,推演出 S个QM步骤的一般选代公式,称为选代EM算法(简称正QM算法).文中给出利用个别分离世代鉴 定主基因和多基因存在,以及利用联合多个世代分离分析的ECM算法。用TuoC·语言编写了所 有计算程序。最后给出的实例说明E○M算法比M算法更易收敛 关键词ECM算法混合模型参数估计 The IECM Algorithm for Estmation of Component D istr ibution Parameters in Segregating Analysis of Quan titative Tra its ZHANG YuanM ing GA IJun-Yi (Sey bean Research Instinte.N anjung A griculmral University.N aional Center of Soybean improvenent.M iistry of 4 griculm尾,N anj ing,210095) Based on both the ECM algorithm and the plit of variances of componen mponent,po lygen n ntal the d m ponen edbonenand 21k d fur nher in the t of FM h g alg for abo give iste sfor singles egregaton popu ere w ritten nd the ed that the convergence by r tha BMaieortm is easier and better n that by using Key words Iterated ECM algorithm;M ixture model.Parameter estmation 数量性状分离分析是建立在混合分布理论基础上的,它将分离群体分布看作为多个主基 因型受多基因和环境修饰所形成的多个正态分布的混合分布八。因此,研究混合分布中成 分分布参数的估计方法十分重要。一般采用极大似然法估计其参数。自Dempster等(I977) 提出M算法后,有关算法的研究有较多报道。但是,在数量性状分离分析中常用 1994-2009 China Academic Joual Electronie Publishing House.All rights reserved http://ww.enkine
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 26 卷 第 6 期 作 物 学 报 Vo l. 26, No. 6 2000 年 11 月 A CTA A GRONOM ICA S IN ICA Nov. , 2000 数量性状分离分析中分布参数估计的 IECM 算法 Ξ 章元明 盖钧镒 (南京农业大学大豆研究所, 农业部国家大豆改良中心, 江苏南京 210095) 提 要 在主基因+ 多基因混合遗传分析中, 随着模型的扩展, 估计成分分布参数的 EM 算法显示其 局限性。本文在ECM 算法和剖分成分分布方差为主基因、多基因及环境三种方差组分基础上, 推演出 S 个CM 步骤的一般迭代公式, 称为迭代 ECM 算法(简称 IECM 算法)。文中给出利用个别分离世代鉴 定主基因和多基因存在, 以及利用联合多个世代分离分析的 IECM 算法。用 Turbo C + + 语言编写了所 有计算程序。最后给出的实例说明 IECM 算法比 EM 算法更易收敛。 关键词 IECM 算法; 混合模型; 参数估计 The IECM A lgor ithm for Estimation of Com ponen t D istr ibution Param eters in Segregating Analysis of Quan titative Tra its ZHAN G Yuan2M ing GA I Jun2Yi (S oy bean R esea rch Institu te, N anj ing A g ricu ltu ra l U n iversity ; N a tiona l Cen ter of S oy bean Imp rovem en t, M in istry of A g ricu ltu re, N anj ing , 210095) Abstract Based on bo th the ECM algo rithm and the sp lit of variances of componen t distribu tion s of the m ix tu re model in to their m ajo r gene componen t, po lygene componen t and environm en tal componen t, the iterated ECM ( IECM ) algo rithm w as suggested to estim ate the distribu tion param eters in samp le likelihood function fo r m ajo r gene p lu s po lygene m ixed inheritance analysis in the rep lacem en t of EM algo rithm w h ich w as though t to be no t sufficien t w hen the genetic models getting comp licated. The general iterated fo rm u las in CM i step s of IECM algo rithm fo r estim ating the above distribu tion param eters w ere given to iden tify the ex istence of m ajo r genes and po lygenes fo r single segregation popu lation, and fo r jo in t analysis of m u lti2generation popu lation s. A ll compu ter p rogramm es w ere w ritten in Tu rbo C + + , and then comp iled and linked in to execu tive files. The resu lt from an examp le show ed that the convergence by u sing IECM algo rithm is easier and better than that by u sing EM algo rithm. Key words Iterated ECM algo rithm; M ix tu re model; Param eter estim ation 数量性状分离分析是建立在混合分布理论基础上的, 它将分离群体分布看作为多个主基 因型受多基因和环境修饰所形成的多个正态分布的混合分布[1~ 7 ]。因此, 研究混合分布中成 分分布参数的估计方法十分重要。一般采用极大似然法估计其参数。自D emp ster 等(1977) 提出 EM 算法后[8 ] , 有关算法的研究有较多报道[9~ 15 ]。但是, 在数量性状分离分析中常用 Ξ 国家 863 项目和重庆市科委应用基础研究项目 收稿日期: 1998211208, 接受日期: 1999202223
700 作物学报 26卷 DM算法估计分布参数八。这时,对样本似然函数求偏导常忽略成分分布方差中同时含有 一阶遗传参数和二阶分布参数的项使参数估计相对简化7。。在2对主+多基因混合遗 传模型中,这种项占大多数,将这些项都忽略显然会使参数估计不可靠。若采用EQM算法, 也因分离群体成分分布方差不全等使估计环境方差和多基因方差组分时会出现解高达十几次 方的高次方程的情况,若用Gauss N ew ton法解这些高次方程也因其解不唯一可能造成迭代 发散。本文根据数量遗传学原理,在将成分分布方差剖分为环境、多基因和主基因(由一阶遗 传参数表示)三种方差组分和EQM算法的基础上,推导出了QM,步骤中估计一阶分布参数 多基因方差和环境方差组分的选代公式,有效地避免了采用M和EQM算法的缺陷,避免 了解高次方程的解不唯一性,降低了参数估计的维数,缩短了计算时间,这称为迭代ECM (简称EQM)算法。它有效地解决2对主+多基因混合遗传分析的主基因存在和多基因存在 的鉴定和联合多个世代分离分析的分布参数的极大似然估计。 1主+多基因混合遗传模型 本文涉及的数量性状主+多基因混合遗传的数学模型和有关符号与文献[25]一致。若 T是分离群体家系数量性状平均数,则有一N(O,d),n为家系内观测植株数。 22对主基因时分离群体成分分布的方差组分 假定亲本主基因型分别为AABB(P)和aabb(P:),则F2和F2:3群体分别为AABB、 AAB b.AA bb.A aBB、A aB b.A abb、aaBB、aaBb和aabb9种主基因型及其衍生家系按孟德 尔分离比的混合,B1和B1:2群体分别为AABB、AABb.A aBB和AaBb4种主基因型及其衍 生家系等比例的混合,B:和B2:2群体分别为A aB b.A abb.aaB b和aabb4种主基因型及其衍 生家系等比例的混合。若主基因服从加性-显性-上位性模型,根据文献4,5]的假定,F2和 F2:群体都为9个正态分布的混合,B1、B、B1:2和B2:2群体都为4个正态分布的混合。 若数量性状受主基因控制同时有多基因的修饰,由数量遗传学原理可知B、B,和F,群 体的各自成分分布方差分别相等,可剖分为多基因和环境两种方差组分,分别记为和 B1:B2:2和F2:群体的各自成分分布方差不全等,多数可剖分为主基因(由一阶遗传参数表 示)、多基因和环境三种方差组分。记F2:群体9个成分分布的平均数与方差分别为山,和G (=1,…,k),多基因方差组分为底.误差方差为G。假定家系间附加的非遗传变异E。为 0.则F,:的家系平均数方差分别为: =店=G房==+G/n 防=a+G/h+【l/2(ds+)2+1/4(hs+j)2]/m d=+d/h+[1/2(d.+02+1/4(h。+ja)21/n =0+cd/n+【d后+di+2+(da+j)2+(ds+j)2+(ha+1/202(1) +(hs+1/202+1/4]/(4n) G=偏+G/n+[1/2(d。-)2+1/4(h.-j)2]/m 庆=a+c正/n+[/2(ds-)2+1/4(hs-j)2]/n B1:2和B2:群体成分分布方差的剖分公式参阅上述公式得到。关于1对主基因的情形可参阅 文献25, C 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://ww.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net EM 算法估计分布参数[1~ 7 ]。这时, 对样本似然函数求偏导常忽略成分分布方差中同时含有 一阶遗传参数和二阶分布参数的项使参数估计相对简化[2~ 7, 9, 10 ]。在 2 对主+ 多基因混合遗 传模型中, 这种项占大多数, 将这些项都忽略显然会使参数估计不可靠。若采用 ECM 算法, 也因分离群体成分分布方差不全等使估计环境方差和多基因方差组分时会出现解高达十几次 方的高次方程的情况, 若用 Gau ss2N ew ton 法解这些高次方程也因其解不唯一可能造成迭代 发散。本文根据数量遗传学原理, 在将成分分布方差剖分为环境、多基因和主基因(由一阶遗 传参数表示) 三种方差组分和 ECM 算法的基础上, 推导出了CM i 步骤中估计一阶分布参数、 多基因方差和环境方差组分的迭代公式, 有效地避免了采用 EM 和 ECM 算法的缺陷, 避免 了解高次方程的解不唯一性, 降低了参数估计的维数, 缩短了计算时间, 这称为迭代 ECM (简称 IECM ) 算法。它有效地解决 2 对主+ 多基因混合遗传分析的主基因存在和多基因存在 的鉴定和联合多个世代分离分析的分布参数的极大似然估计。 1 主+ 多基因混合遗传模型 本文涉及的数量性状主+ 多基因混合遗传的数学模型和有关符号与文献[ 2~ 5 ]一致。若 x 是分离群体家系数量性状平均数, 则有 e~N (0, Ρ 2 eön) , n 为家系内观测植株数。 2 2 对主基因时分离群体成分分布的方差组分 假 定亲本主基因型分别为A A B B (P1 ) 和 aabb (P2 ) , 则 F2 和 F2∶3群体分别为A A B B 、 A A B b、A A bb、A aB B 、A aB b、A abb、aaB B 、aaB b 和 aabb 9 种主基因型及其衍生家系按孟德 尔分离比的混合; B1 和B1∶2群体分别为A A B B 、A A B b、A aB B 和A aB b 4 种主基因型及其衍 生家系等比例的混合, B2 和B2∶2群体分别为A aB b、A abb、aaB b 和 aabb 4 种主基因型及其衍 生家系等比例的混合。若主基因服从加性2显性2上位性模型, 根据文献[ 4, 5 ]的假定, F2 和 F2∶3群体都为 9 个正态分布的混合, B1、B2、B1∶2和B2∶2群体都为 4 个正态分布的混合。 若数量性状受主基因控制同时有多基因的修饰, 由数量遗传学原理可知B1、B2 和 F2 群 体的各自成分分布方差分别相等, 可剖分为多基因和环境两种方差组分, 分别记为 Ρ 2 j0和 Ρ 2 e; B1∶2、B2∶2和 F2∶3群体的各自成分分布方差不全等, 多数可剖分为主基因(由一阶遗传参数表 示)、多基因和环境三种方差组分。记 F2∶3群体 9 个成分分布的平均数与方差分别为 Λj 和 Ρ 2 j (j = 1, …, k 3) , 多基因方差组分为 Ρ 2 t0, 误差方差为 Ρ 2 e。假定家系间附加的非遗传变异 E b 为 0, 则 F2∶3的家系平均数方差分别为: Ρ 2 1 = Ρ 2 3 = Ρ 2 7 = Ρ 2 9 = Ρ 2 t0 + Ρ 2 eön Ρ 2 2 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d b + i) 2 + 1ö4 (hb + j ab) 2 ]ön Ρ 2 4 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d a + i) 2 + 1ö4 (ha + j ba ) 2 ]ön Ρ 2 5 = Ρ 2 t0 + Ρ 2 eön + [d 2 a + d 2 b + i 2 + (d a + j ab) 2 + (d b + j ba ) 2 + (ha + 1ö2l) 2 + (hb + 1ö2l) 2 + 1ö4l 2 ]ö(4n) Ρ 2 6 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d a - i) 2 + 1ö4 (ha - j ba ) 2 ]ön Ρ 2 8 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d b - i) 2 + 1ö4 (hb - j ab) 2 ]ön (1) B1∶2和B2∶2群体成分分布方差的剖分公式参阅上述公式得到。关于 1 对主基因的情形可参阅 文献[ 2~ 5 ]。 700 作 物 学 报 26 卷
6期 章元明等:数量性状分离分析中分布参数估计的ECM算法 701 3鉴定数量性状主+多基因混合遗传模型的EQM算法 31ECM算法 ECM算法是BM算法的拓展,分为E步骤和QM步骤两步。E步骤与DM算法的E步 骤是一致的,见文献[7],这里从略。第1次迭代的QM步骤是分S步进行Q(”)的极大 化。G={g,(0;s=1,“,S;是参数估计前选择的S个日的函数,这里g1(0是似然函数中除 分布平均数外的参数,g:(日是除多基因方差组分外的参数,8:(日是除环境方差组分外的参 数。若多基因方差组分不存在则S=2,否则S=3。在第什1次迭代中,首先进行E步骤,然 后进行S个QM步骤。对于=1,S,在g,(Θ=g,(日“)和日参数空间极大化Q(阳1 日)以获得日的条件极大似然估计值日”,或者说,EQM算法第1次迭代的第,个QM步 骤是获得日*6)使 0(θ)I旧)≥Q(8旧6∈⊙ 0 完全资料似然函数的条件期望Q(日旧)的极大值点由下列公式确定 trD=∑w"n (3) L(yl旧-∑xn(ua=-0(s=1,…,s) 其中,wP是第:次迭代后第1个观测值归入第」个成分分布的后验概率,(口)是分布平均数 间的第m个约束条件,k是约束条件个数,:是样本容量。取日”=日5),以此进行下 轮循环 32数量性状主+多基因混合遗传分析的ECM算法 数量性状主+多基因混合遗传分析的EQM算法由E步骤和23个CM步骤组成。其 E步骤与EQM算法的E步骤是一致的。QM:步骤是在固定多基因方差组分(=4,5,6) 和环境方差的条件下用迭代方法求分布平均数的条件极大似然估计:QM:是在固定环境方差 和QM:步骤中获得的分布平均数的条件下用迭代公式求多基因方差组分的条件极大似然估 计,QM3步骤是在固定QM,和CM,中获得的分布平均数和多基因方差组分条件下用迭代公 式求环境方差的条件极大似然估计。若涉及家系世代,QM:步骤中分布平均数条件极大似然 估计可按下列步骤进行:①若分布平均数间有约束条件,由约束条件和平均数公式得到的联 立方程组求Lagrange乘数X②由分布平均数公式求其估计值:③由分布平均数估计值得 到一阶遗传参数估计值及其表示的主基因方差组分,从而改变了家系群体成分分布方差④ 重复①③步骤直到平均数变化满足预定的精度为止。 为节省篇幅,本文的EQM算法均略去E步骤和估计分布平均数的QM,步骤,其符号 和样本似然函数参见文献[25],这里只列出多基因和误差两种方差的迭代公式。 33利用个别分离世代分离分析的ECM算法 331鉴定主基因存在ECM算法的迭代公式 F2或F,:世代鉴定主基因存在的样本以 然函数的形式参见文献[2,3。只是这里的成分分布是按前述的主基因型来确定的。记x、 和k分别是F2或F2:群体的第个观测值或家系平均数、样本容量和成分分布个数。QM:是 在固定成分分布平均数条件下求的条件极大似然估计,其迭代公式为: 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 3 鉴定数量性状主+ 多基因混合遗传模型的 IECM 算法 3. 1 ECM 算法[12 ] ECM 算法是 EM 算法的拓展, 分为 E 步骤和 CM 步骤两步。E 步骤与 EM 算法的 E 步 骤是一致的, 见文献[ 7 ], 这里从略。第 t 次迭代的 CM 步骤是分 S 步进行Q (ΗûΗ (t) ) 的极大 化。G= {g s (Η); s= 1, …, S }是参数估计前选择的S 个 Η的函数, 这里 g 1 (Η) 是似然函数中除 分布平均数外的参数, g 2 (Η) 是除多基因方差组分外的参数, g 3 (Η) 是除环境方差组分外的参 数。若多基因方差组分不存在则S = 2, 否则S = 3。在第 t+ 1 次迭代中, 首先进行 E 步骤, 然 后进行S 个CM 步骤。对于 s= 1, …, S , 在 g s (Η) = g s (Η {t+ (s- 1)öS } ) 和 Η参数空间极大化Q (Ηû Η (t) ) 以获得 Η的条件极大似然估计值 Η (t+ söS ) , 或者说, ECM 算法第 t 次迭代的第 s 个 CM 步 骤是获得 Η (t+ söS )使 Q (Η (t+ söS ) ûΗ (t) ) ≥Q (ΗûΗ (t) ) Η∈ ( (2) 完全资料似然函数的条件期望Q (ΗûΗ (t) ) 的极大值点由下列公式确定: Π (t+ 1) j = ∑ n 1 i= 1 w (t) j i ön1 (3) L (Y ûΗ) - ∑ k m = 1 Κm rm (Λ) öΗs = 0 (s = 1, …, S ) (4) 其中, w (t) j i 是第 t 次迭代后第 i 个观测值归入第 j 个成分分布的后验概率, rm (Λ) 是分布平均数 间的第m 个约束条件, k 是约束条件个数, n1 是样本容量。取 Η (t+ 1) = Η (t+ S öS ) , 以此进行下一 轮循环。 3. 2 数量性状主+ 多基因混合遗传分析的 IECM 算法 数量性状主+ 多基因混合遗传分析的 IECM 算法由 E 步骤和 2~ 3 个CM 步骤组成。其 E 步骤与 ECM 算法的 E 步骤是一致的。CM 1 步骤是在固定多基因方差组分 Ρ 2 j0 (j = 4, 5, 6) 和环境方差的条件下用迭代方法求分布平均数的条件极大似然估计; CM 2 是在固定环境方差 和 CM 1 步骤中获得的分布平均数的条件下用迭代公式求多基因方差组分的条件极大似然估 计; CM 3 步骤是在固定CM 1 和 CM 2 中获得的分布平均数和多基因方差组分条件下用迭代公 式求环境方差的条件极大似然估计。若涉及家系世代, CM 1 步骤中分布平均数条件极大似然 估计可按下列步骤进行: ① 若分布平均数间有约束条件, 由约束条件和平均数公式得到的联 立方程组求L agrange 乘数 Κi; ② 由分布平均数公式求其估计值; ③ 由分布平均数估计值得 到一阶遗传参数估计值及其表示的主基因方差组分, 从而改变了家系群体成分分布方差; ④ 重复①~ ③步骤直到平均数变化满足预定的精度为止。 为节省篇幅, 本文的 IECM 算法均略去 E 步骤和估计分布平均数的CM 1 步骤, 其符号 和样本似然函数参见文献[ 2~ 5 ], 这里只列出多基因和误差两种方差的迭代公式。 3. 3 利用个别分离世代分离分析的 IECM 算法 3. 3. 1 鉴定主基因存在 IECM 算法的迭代公式 F2 或 F2∶3世代鉴定主基因存在的样本似 然函数的形式参见文献[ 2, 3 ]。只是这里的成分分布是按前述的主基因型来确定的。记x i、n1 和 k 分别是 F2 或 F2∶3群体的第 i 个观测值或家系平均数、样本容量和成分分布个数。CM 2 是 在固定成分分布平均数条件下求 Ρ 2 1 的条件极大似然估计, 其迭代公式为: 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 701
702 作物学报 26卷 (5) 其中,F2:3群体有v,=/GF:群体有v,=1。 B,和B,或B1:2和B:,世代鉴定主基因存在的样本似然函数为 242 fYl旧=Em/xk,)fx站a,) (6) 其中,x和xn1和、k1和ka、而,和和店分别是B:和B:或B1:2和B:群体的第 个观测值或家系平均数、样本容量、成分分布个数、第)个成分分布的后验概率与方差。QM: 步骤是在固定成分分布平均数条件下求和,的条件极大似然估计,其迭代公式分别为: (7a) (7b 其中,B1:和B:2群体有vy=/,v2y=,/;B,和B:群体有vy=v2y=10。这里的成 分分布也是按主基因型来确定的。将两回交群体合并分析是为了拓展两对主+多基因混合遗 传模型。 332鉴定多基因存在的EQM算法 从文献[2]可知,在个别分离世代基础上增加P、 F,和P2三个同质群体估计环境方差以鉴定多基因存在。利用亲本、F,和F,或F2:3鉴定多基 因存在的符号和样本似然函数等参见文献[2]。在构造H。时,多基因不存在包括多基因效应 平均数和多基因方差均为0两个方面。由在H。和H.下的最大对数似然函数值L。和L。构造 的似然比统计量仁2(nL。nLo~xr可鉴定多基因是否存在,其自由度d矿为两种假设下 相差的遗传参数个数。QMz步是在固定误差方差d和分布平均数,求H,条件下F?或F2:群 体成分分布方差中的多基因方差组分的条件极大似然估计,其迭代公式为: 偏=∑明∑wnx∑∑wmA (8) 其中,F:群体有A=d和v,=1C,F2:群体有A=dn和v,=/低。在Ho条件下,d不存 在,即无这一步骤。CM,步是在固定F,或F:群体成分分布平均数和方差中的多基因方差 组分,求误差方差d的条件极大似然估计,其迭代公式为: 正=[x产+4x月几n+】(9) 其中,F2:群体有v,=(dn)/园和A=n,F2群体有y=G/,和A=10 若利用亲本、F、B1和B:(或B1:2和B2:2)鉴定多基因存在,xm和n,(=1,2,3)的含义同 上,记x4和x刻,以及4和m5分别为B1和B:或B1:2和B:2群体的观测值或家系平均数和样 本容量,则B1和B:或B1:2和B2:群体分别是k1个N(,)和k:个N(μ,)的混合。由 此,样本似然函数为 fVl旧=ΠV6h,G)Π/xs,)Π/x6,) (10) 1994-2009 China Academie Joural Electronie Publishing House.All rights reserved hup://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net Ρ 2 1 = ∑ k j= 1 v 2 j∑ n 1 i= 1 w j i (x i - Λj) 2 ∑ k j= 1 v j∑ n 1 i= 1 w j i (5) 其中, F2∶3群体有 v j= Ρ 2 1öΡ 2 j , F2 群体有 v j= 1。 B1 和B2 或B1∶2和B2∶2世代鉴定主基因存在的样本似然函数为: f (Y ûΗ) = ∑ n 1 i= 1 ∑ k 1 j= 1 Π1j f (x 1i; Λ1j , Ρ 2 1j)∑ n 2 i= 1 ∑ k 2 j= 1 Π2j f (x 2i; Λ2j , Ρ 2 2j) (6) 其中, x 1i和 x 2i、n1 和 n2、k 1 和 k 2、Π1j和 Π2j、Ρ 2 1j和 Ρ 2 2j分别是B1 和B2 或B1∶2和B2∶2群体的第 i 个观测值或家系平均数、样本容量、成分分布个数、第 j 个成分分布的后验概率与方差。CM 2 步骤是在固定成分分布平均数条件下求 Ρ 2 11和 Ρ 2 2k 2的条件极大似然估计, 其迭代公式分别为: Ρ 2 11 = ∑ k 1 j= 1 v 2 1j∑ n 1 i= 1 w 1j i (x 1i - Λ1j) 2 ∑ k 1 j= 1 v 1j∑ n 1 i= 1 w 1j i (7a) Ρ 2 2k 2 = ∑ k 2 j= 1 v 2 2j∑ n 2 i= 1 w 2j i (x 2i - Λ2j) 2 ∑ k 2 j= 1 v 2j∑ n 2 i= 1 w 2j i (7b) 其中, B1∶2和B2∶2群体有 v 1j= Ρ 2 11öΡ 2 1j , v 2j= Ρ 2 2k 2öΡ 2 2j; B1 和B2 群体有 v 1j= v 2j= 1. 0 。这里的成 分分布也是按主基因型来确定的。将两回交群体合并分析是为了拓展两对主+ 多基因混合遗 传模型。 3. 3. 2 鉴定多基因存在的 IECM 算法 从文献[ 2 ]可知, 在个别分离世代基础上增加 P1、 F1 和 P2 三个同质群体估计环境方差以鉴定多基因存在。利用亲本、F1 和 F2 或 F2∶3鉴定多基 因存在的符号和样本似然函数等参见文献[ 2 ]。在构造H 0 时, 多基因不存在包括多基因效应 平均数和多基因方差均为 0 两个方面。由在H 0 和H a 下的最大对数似然函数值L 0 和L a 构造 的似然比统计量 Κ= 2 (ln L a - ln L 0)~ x 2 df 可鉴定多基因是否存在, 其自由度 df 为两种假设下 相差的遗传参数个数。CM 2 步是在固定误差方差 Ρ 2 e 和分布平均数, 求H a 条件下 F2 或 F2∶3群 体成分分布方差中的多基因方差组分 Ρ 2 40的条件极大似然估计, 其迭代公式为: Ρ 2 40 = ∑ k j= 1 v 2 j∑ n 4 i= 1 w j i (x 4i - Λ4j) 2 ∑ k j= 1 v j∑ n 4 i= 1 w j i - A (8) 其中, F2 群体有A = Ρ 2 e 和 v j= 1. 0; F2∶3群体有A = Ρ 2 eön 和 v j= Ρ 2 41öΡ 2 4j。在H 0 条件下, Ρ 2 40不存 在, 即无这一步骤。CM 3 步是在固定 F2 或 F2∶3群体成分分布平均数和方差中的多基因方差 组分 Ρ 2 40, 求误差方差 Ρ 2 e 的条件极大似然估计, 其迭代公式为: Ρ 2 e = ∑ 3 j= 1∑ n j i= 1 (x j i - Λj) 2 + A ∑ k j= 1 v 2 j∑ n 4 i= 1 w j i (x 4i - Λ4j) 2 ∑ 3 i= 1 ni + ∑ k j= 1 v j∑ n 4 i= 1 w j i (9) 其中, F2∶3群体有 v j= (Ρ 2 eön)öΡ 2 4j和A = n, F2 群体有 v j= Ρ 2 eöΡ 2 4j和A = 1. 0。 若利用亲本、F1、B1 和B2 (或B1∶2和B2∶2) 鉴定多基因存在, x ti和 nt (t= 1, 2, 3) 的含义同 上, 记 x 4i和 x 5i, 以及 n4 和 n5 分别为B1 和B2 或B1∶2和B2∶2群体的观测值或家系平均数和样 本容量, 则B1 和B2 或B1∶2和B2∶2群体分别是 k 1 个N (Λ4j , Ρ 2 4j) 和 k 2 个N (Λ5j , Ρ 2 5j) 的混合。由 此, 样本似然函数为: f (Y ûΗ) = ∏ n 1 i= 1 f (x 1i; Λ1, Ρ 2 e )∏ n 2 i= 1 f (x 2i; Λ2, Ρ 2 e )∏ n 3 i= 1 f (x 3i; Λ3, Ρ 2 e ) ∏ n 4 i= 1∑ k 1 j= 1 Π4j f (x 4i; Λ4j , Ρ 2 4j)∏ n 5 i= 1∑ k 5 j= 1 Π5j f (x 5i; Λ5j , Ρ 2 5j) (10) 702 作 物 学 报 26 卷
6期 章元明等:数量性状分离分析中分布参数估计的正CM算法 703 H、H,和似然比统计量入可仿上述内容来构造。QM,步是在固定环境方差G和分布平均数 求H。条件下B1和B:或B:2和B:2群体成分分布方差中的多基因方差组分和的条件极 大似然估计,其迭代公式为 do=2”(h)wwr4m=4,)(I 其中,B:和B:群体有A=d和y=g=1CB1:和B:群体有A=Gh,vy=/属,= ,/侯。在H。条件下,无这一步骤。QM3步是在固定B1和B2或B1:,和B:2群体成分分布方 差中的多基因方差组分(dG和)和分布平均数的条件下,求误差方差G的条件极大似然估 计,其迭代公式为 G=[xm+A”nxau月 (12) 其中,B:和B:群体有vv=【dh]/低,=[da]/偏,和A=m,B:和B:群体有v=d/ iv2=d/G,和A=10。 34利用联合多个世代群体分离分析的ECM算法 PF、PB、B:和F,6世代分离分析。其符号、基本假定和似然函数参见文献[5]。 QM2步是在固定环境方差G和分布平均数,求B1,B2和F2群体成分分布方差的多基因方差 组分(d、和)的条件极大似然估计,其迭代公式为: w·3 Go=SSm/na 0 SS= 之∑wG-h)2 (m=4,5,6)(13) QM,步是在固定多基因方差组分(d、和)和分布平均数,求误差方差G的条件极大似 然估计,其迭代公式为: (14) 其中,v=G/(d+d),=4,5,6。 P、F、P、F:和F2:35世代分离分析。其符号、基本假定和似然函数参见文献[4]。 QM:步骤是固定环境方差d和分布平均数,求F,和F2:,群体成分分布方差中的多基因方差 组分(和)的条件极大似然估计,其迭代公式分别为 14 a=SSm-正ss=rxw月 (15a) (15b) 其中,=/店,=L,…,k2。QM,步是在固定多基因方差组分(和)和分布平均数的 条件下,求环境方差正的条件极大似然估计,其迭代公式为 d-[c。…2+iss4+ns月 兀∑n:+v+rr别 (16) 1994-2009 China Academic Journal Electronc Publishing House.All rights reserved.http:/ww.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net H 0、H a 和似然比统计量 Κ可仿上述内容来构造。CM 2 步是在固定环境方差 Ρ 2 e 和分布平均数, 求H a 条件下B1 和B2 或B1∶2和B2∶2群体成分分布方差中的多基因方差组分 Ρ 2 40和 Ρ 2 50的条件极 大似然估计, 其迭代公式为: Ρ 2 m 0 = ∑ km - 3 j= 1 v 2 m - 3, j∑ nm i= 1 w m j i (x m i - Λm j) 2 ∑ km - 3 j= 1 vm - 3, j∑ n 4 i= 1 w m j i - A (m = 4, 5) (11) 其中, B1 和B2 群体有A = Ρ 2 e 和 v 1j= v 2j= 1. 0; B1∶2和B2∶2群体有A = Ρ 2 eön, v 1j= Ρ 2 41öΡ 2 4j , v 2j= Ρ 2 5k 2öΡ 2 5j。在H 0 条件下, 无这一步骤。CM 3 步是在固定B1 和B2 或B1∶2和B2∶2群体成分分布方 差中的多基因方差组分(Ρ 2 40和 Ρ 2 50) 和分布平均数的条件下, 求误差方差 Ρ 2 e 的条件极大似然估 计, 其迭代公式为: Ρ 2 e = ∑ 3 j= 1∑ n j i= 1 (x j i - Λj) 2 + A ∑ 5 t= 4 ∑ k t- 3 j= 1 v 2 t- 3, j∑ n t i= 1 w tj i (x ti - Λtj) 2 ∑ 3 i= 1 ni + ∑ 5 t= 4 ∑ k t- 3 j= 1 v t- 3, j∑ n t i= 1 w tj i (12) 其中, B1∶2和B2∶2群体有 v 1j = [ Ρ 2 eön ]öΡ 2 4j , v 2j = [ Ρ 2 eön ]öΡ 2 5j和A = n; B1 和B2 群体有 v 1j = Ρ 2 eö Ρ 2 4j、v 2j= Ρ 2 eöΡ 2 5j和A = 1. 0。 3. 4 利用联合多个世代群体分离分析的 IECM 算法 P1、F1、P2、B1、B2 和 F2 6 世代分离分析。其符号、基本假定和似然函数参见文献[ 5 ]。 CM 2 步是在固定环境方差 Ρ 2 e 和分布平均数, 求B1, B2 和 F2 群体成分分布方差的多基因方差 组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 的条件极大似然估计, 其迭代公式为: Ρ 2 m 0 = S S mönm - Ρ 2 e S S m = ∑ km - 3 j= 1∑ nm i= 1 w m j i (x m i - Λm j) 2 (m = 4, 5, 6) (13) CM 3 步是在固定多基因方差组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 和分布平均数, 求误差方差 Ρ 2 e 的条件极大似 然估计, 其迭代公式为: Ρ 2 e = ∑ 3 t= 1 ∑ n t i= 1 (x ti - Λt) 2 + ∑ 6 t= 4 v 2 tS S t ∑ 3 t= 1 nt + ∑ 6 t= 4 v tnt (14) 其中, v t= Ρ 2 eö(Ρ 2 t0+ Ρ 2 e ) , t= 4, 5, 6。 P1、F1、P2、F2 和 F2∶3 5 世代分离分析。其符号、基本假定和似然函数参见文献[ 4 ]。 CM 2 步骤是固定环境方差 Ρ 2 e 和分布平均数, 求 F2 和 F2∶3群体成分分布方差中的多基因方差 组分(Ρ 2 40和 Ρ 2 50) 的条件极大似然估计, 其迭代公式分别为: Ρ 2 40 = S S 4ön4 - Ρ 2 e S S 4 = ∑ k 1 j= 1∑ n 4 i= 1 w 4j i (x 4i - Λ4j) 2 (15a) Ρ 2 50 = ∑ k 2 j= 1 v 2 j∑ n 5 i= 1 w 5j i (x 5i - Λ5j) 2 ∑ k 2 j= 1 v j∑ n 5 i= 1 w 5j i - Ρ 2 eön (15b) 其中, v j= Ρ 2 51öΡ 2 5j , j= 1, …, k 2。CM 3 步是在固定多基因方差组分(Ρ 2 40和 Ρ 2 50 ) 和分布平均数的 条件下, 求环境方差 Ρ 2 e 的条件极大似然估计, 其迭代公式为: Ρ 2 e = ∑ 3 t= 1 ∑ n t i= 1 (x ti - Λt) 2 + v 2 4S S 4 + n∑ k 2 j= 1 v 2 5j∑ n 5 i= 1 w 5j i (x 5i - Λ5j) 2 ∑ 3 t= 1 nt + v 4n4 + ∑ k 2 j= 1 v 5j∑ n 5 i= 1 w 5j i (16) 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 703