第51卷第19期2006年10月学通 作物OTL定位方法研究进展 章元明 (京衣农业大学作物遗传与种质创新国家重点实室,国家大显支良中心,南家210095.Emai:s yzhang@ju6duem) 箱要论述了数益性城装图(locus T)定位方法的产生与发:尾重点介绍了断n台 的一此OT位方 定位与动态性状的Q定位等展望了QT 定位方法的可能发展方向包括有成品种群体新基因发据的统计方 达数量性状因座 0TL)定位方法 传交型设计的O定位方法以及生话力基因定位方法等目 的在于引导植物造传工作者在进行数量性状造传分析和种质资源新基因挖等研究时选用适宜的统计 方法,以揭示出更多的潜在造传信息 关漆词数量性状益因密参数估计效应景大似然法Bvn方法 早在20世纪20年代,Sax研究认为菜豆种皮色 传背景的协变量 分子标记标记太多会降低 (单恭因质量性状)不同恭因型间种 大小(数量性状) Q检测的功效,太少又达不到控制造传骨景的 的显著差异是由于控制种皮色基因与控制种子大入 该法仍然是单QTL模 为此,Ka 基因间的连锁造成的.这实质上就是单标记分析.由 了多区间 此,出现了基于标记的性状平均数差异检验法、方 差分析法、回归分析法和极大似然法以及基于性 QTL 新视野 状的标记频率差异检验方法.这些方法的缺点是众 所周知的.Thoday例提出利用两连锁标记来定位数量 前 多0T 性状多基因,此方法的研究结果更为准确。但是,筛 ]作图 211 选两连锁标记在当时十分困雄,限制了它的应用.随 者则主 着分子生物学的发展研究人员已获得了许多作物 要有可通 Mar 127.28 的高密度分子标记连锁图谱,使从整个基因组上定 的方法 和压缩估 能 位QTL成为可能,Lander和Botstein的区间作图法 车图法的 就成运而生.其主要贡献是建立了OTL定位的基本 能检测到刘 框架,首次实现了在全基因组水平上搜索QTL 计其效应与位置 与区间作图类似的有回归分析 P2地 和L 并提出 法,1前者是日标性状对后验概率的回归,后者是 计方 方法的原因 进到利用 n压 对先验制率的回归若OT1在标记附近 两种概率 新有标 相近。则两方法结果相当:否则。前者优于后者 ,的全基因 虽然该 这纠正了原认为两方法结果均相似的观点 0数太 间太 上有多个 提出了惩罚 成待估 用区间价 值的 为此,我们 紧密 到 相同 可能 葡估计方法相结合 中变量 因不后 针对 数量性状 QL所用的遗传模型不同,致使其贡献率不能直接 J QT Q 相加.即使强行相加,也经常会出现总贡献奉远大 表达 过程 100%的情形.为此,Jansen和Zcng6.17独立地提出 度定位QT 也是重要的 最过 国际 上的最新热 复合区间作图法.其关键在于怎样选择作为控制遗 是QTL定位,即利用表型观测值、分子标记和表边 www.scichina.com 2223 190 hing House.All rights res nki.ne
评 述 第 51 卷 第 19 期 2006 年 10 月 www.scichina.com 2223 作物 QTL 定位方法研究进展 章元明 (南京农业大学作物遗传与种质创新国家重点实验室, 国家大豆改良中心, 南京 210095. E-mail: soyzhang@njau.edu.cn) 摘要 论述了数量性状基因座(quantitative trait locus, QTL)定位方法的产生与发展; 重点介绍了近几年 提出的一些 QTL 定位方法, 包括多 QTL 定位、QTL 精细定位与动态性状的 QTL 定位等; 展望了 QTL 定位方法的可能发展方向, 包括育成品种群体新基因发掘的统计方法、表达数量性状基因座(expression quantitative trait locus, eQTL)定位方法、遗传交配设计的 QTL 定位方法以及生活力基因定位方法等. 目 的在于引导植物遗传工作者在进行数量性状遗传分析和种质资源新基因挖掘等研究时选用适宜的统计 方法, 以揭示出更多的潜在遗传信息. 关键词 数量性状基因座 参数估计 效应 最大似然法 Bayesian 方法 早在 20 世纪 20 年代, Sax[1]研究认为菜豆种皮色 (单基因质量性状)不同基因型间种子大小(数量性状) 的显著差异是由于控制种皮色基因与控制种子大小 基因间的连锁造成的. 这实质上就是单标记分析. 由 此, 出现了基于标记的性状平均数差异 t 检验法、方 差分析法、回归分析法和极大似然法[2~7]以及基于性 状的标记频率差异检验方法. 这些方法的缺点是众 所周知的. Thoday[8]提出利用两连锁标记来定位数量 性状多基因, 此方法的研究结果更为准确. 但是, 筛 选两连锁标记在当时十分困难, 限制了它的应用. 随 着分子生物学的发展, 研究人员已获得了许多作物 的高密度分子标记连锁图谱, 使从整个基因组上定 位 QTL 成为可能, Lander 和 Botstein[9]的区间作图法 就应运而生. 其主要贡献是建立了 QTL 定位的基本 框架, 首次实现了在全基因组水平上搜索 QTL, 并估 计其效应与位置. 与区间作图类似的有回归分析 法[10,11]. 前者是目标性状对后验概率的回归, 后者是 对先验概率的回归. 若 QTL 在标记附近, 两种概率 相近, 则两方法结果相当; 否则, 前者优于后者[12]. 这纠正了原认为两方法结果均相似的观点. 若同一染色体上有多个连锁的 QTL, 用区间作 图法会造成待估 QTL 位置与效应估计值的偏差. 极 端地, 若紧密连锁两 QTL 的作用方向相反, 往往检 测不到; 若作用方向相同, 在两 QTL 间可能会出现 一个“幻影”QTL[11,13,14]. 当检测多个 QTL 时, 因不同 QTL 所用的遗传模型不同, 致使其贡献率不能直接 相加. 即使强行相加, 也经常会出现总贡献率远大于 100%的情形. 为此, Jansen[15]和 Zeng[16,17]独立地提出 复合区间作图法. 其关键在于怎样选择作为控制遗 传背景的协变量—分子标记. 标记太多会降低 QTL 检测的功效[14], 太少又达不到控制遗传背景的 目的. 实质上, 该法仍然是单 QTL 模型. 为此, Kao 和 Zeng[18~20]提出了多区间作图法, 其模型中同时包 含了多个 QTL 及其两两互作. 这是真正意义上的多 QTL 遗传模型, 为 QTL 定位开辟了新视野, 也体现 了 QTL 定位的艺术. 目前, 多 QTL 定位的方法主要有极大似然法和 Bayesian 方法两大类. 前者包括多区间作图法[18~20] 和惩罚最大似然法[21], 其运算速度较快; 后者则主 要有可逆跳跃 MCMC (Markov chain Monte Carlo)方 法[22~26]、Yi 等 人 [27,28]提出的方法和压缩估计方 法[29~32]. 多区间作图法的不足在于, 只能检测具有主 效 QTL 间的互作, 有时还不能检测到效应较小的 QTL[32]. 可逆跳跃 MCMC 的 Bayesian 法的收敛速度 太慢, 这是 Yi 等人[27,28]抛弃该方法并提出一种新的 Bayesian 方法的原因. Wu 和 Li[33]认为, Bayesian 压缩 估计方法将 QTL 定位策略推进到利用所有标记的上 位性 QTL 的全基因组检测. 虽然该法收敛较快, 但 是它假定的 QTL 数太多致使运算时间太长. 为克服 这一问题, 提出了惩罚最大似然方法[21]. 但是, 若标 记太多, 该法的参数估计也是困难的. 为此, 我们已 将可变区间思想同惩罚最大似然方法与 Bayesian 压 缩估计方法相结合 , 以显著减少模型中变量个 数[31,32]. 上述方法均是针对某一时间点数量性状观 测值(往往为最终结果)的 QTL 定位, 即静态 QTL 定 位. 然而, 性状的表达是一个过程. 因此, 从动态角 度定位 QTL 也是重要的. 最近, 国际上的最新热点 是 eQTL 定位, 即利用表型观测值、分子标记和表达
学通第51卷第19期2006年10月 评述 谱数据定位出控制数量性状的基 复合区间作图法和双标记互作分析来确定初始模玉 :QTL定位 长足的发展,已经 但是,若QTL位于区间较大的标记中间时,其功效 发展了适 一怀 三倍体胚乳 会降低 连续性与间断性(二歧或多歧)变 1.2 Bayesian压缩估计方法2 ,静态与动态性状,单一性状与多个相关性状 联合,单个组合与多个组合联合以及两个亲本与多 个亲本甚至育成品种群体的QTL定位方法.本文主 要对多QTL定位、QTL精细定位和动态性状的QTL 等人hang和 该法延伸到多Q 分析,Wan 定位进行较为详细的介绍 阀述了该方法,Zhang和Xu将它延件 倒QL间上位性检测 1多QTL定位 模型(1)可变为 1.1多区间作图法2 y=4+立b+g (3) 若回交群体中某一数量性状受m个分别位于标 记区间1.1,. 其中,=1,q=mm+1)2,bo=4,b=g和g=x0 Im的p1.D Dm处OTL(O 1.2..,ml.bt=,和4=x(r=1.2, 0. ,Q)控制,则第1个体数量性状表型值男可表 .mi=12。.0-m)在多标记 示为 m-18=41,42, 分析中.假定每标记上存在一个OTLm为标记数目 (1) 在多OTL分析中。假定每标记区间在在一个OTL. 为标记区间个数若假定的OT是假的。测将其效 其中,“为群体平均数:和为QTL基因型编码变量, 若基因型为QQ,(或Q4)时,为12(或-12,4为 应估计值向0压缩:否则.不压缩。为实现该目标 Q主效:W为两QTL间的上位性效应:G4为上位 让每一QTL(或标记)效应有自己的方差参数,同时 该方差有其先验分布致使每一效应的方差都能从 性指示变量,存在上位性时取1,否侧取0:,为服从 现有资料中估计以调节效应估计值其且体作法与 M0,)的随机误差.由此,样本似然函数为 假定每一参数有其先验分布,如pb)x1,pσ)c1 2) a2.b)=N0.a和ox1/a1=1.2. 后,获得每一参数的条件后验分布;例如,b是从平 其中,)是正态分布密度函数,以和P分别是模型 ()中2个不同QTL恭因型值和条件概率.若各QT 均数为+三-4-】 间相互独立.可通过多点方法计算p 多区间作图法包括4个组成部分:(1)分析特定 和方差为号=它+/同a的正态分布中轴 遗传模型似嬷的评价程序·《ⅱ)优化遗传模型的博 索策略;(ⅲ)特定模型下各QTL位置、主效与互作 样,σ从自由度为1的逆x2分布中抽样;最后,从各 参数的估计方法:(v)用于标记辅助选择的个体或 个参数条件后验分布中抽样.当抽样链收敛时,用样 本的特征数来估计各参数差将慧因组作为描坐标 子代基因型值的预测模块中问两过程是关键对王 前者,最初提出用逐步回归例,后改为在基础模型 各OTL效应估计值作为纵坐标绘图.就可明显看出 0TL的数目、位置及其效成 上再进行最优模型的确定,此时互作项为·项,不是 mm-12项47可对平后者Ka0和Zene提出了最 大化lnL(YA以估计参数的EM算法的一般迭代公式 便端者模型()中某OT是假的.从资料中洪的 的条件 平均 与 最近,该方法已拓屉到间斯型性状48 值趋 0.应当指 在应用中发现,当无主效QTL有互作时,其功 :抽样相当要 效偏低·当O下L效应较小时甚功效偏低刘这可能 又不断从资料中 估计 是由于在模型拟合开始时误差方差较大所致.若初 始模型确定较好,可能会避免该问题.建议联合使用 一定的水平这就是 224 www.scichina.com htp/www.cnkin
第 51 卷 第 19 期 2006 年 10 月 评 述 2224 www.scichina.com 谱数据定位出控制数量性状的基因. 迄今为止, QTL 定位方法有了长足的发展, 已经 发展了适合不同倍性(二倍体、三倍体胚乳[34~37]与同 源多倍体[38~42])、连续性与间断性(二歧或多歧)变 量[43~45]、静态与动态性状、单一性状与多个相关性状 联合[46]、单个组合与多个组合联合以及两个亲本与多 个亲本甚至育成品种群体的 QTL 定位方法. 本文主 要对多 QTL 定位、QTL 精细定位和动态性状的 QTL 定位进行较为详细的介绍. 1 多 QTL 定位 1.1 多区间作图法[18~20] 若回交群体中某一数量性状受 m 个分别位于标 记区间 I1, I2, … , Im 的 p1, p2, … , pm 处 QTL (Q1, Q2, … , Qm)控制, 则第 i 个体数量性状表型值 yi 可表 示为 1 ( ) m m i j ij jk jk ij ik i j jk y ax w xx e µ δ = < =+ + + ∑ ∑ (1) 其中, µ 为群体平均数; xij 为 QTL 基因型编码变量, 若基因型为 QjQj(或 Qjqj)时, xij 为 1/2(或−1/2); aj 为 QTL 主效; wjk 为两 QTL 间的上位性效应; δjk 为上位 性指示变量, 存在上位性时取 1, 否则取 0; ei 为服从 N(0, σe 2 )的随机误差. 由此, 样本似然函数为 2 2 1 1 ( | ) ( ; , ). m n ij i ij e i j L py θ φ µσ = = ⎡ ⎤ = ⎢ ⎥ ⎣ ⎦ Y ∏ ∑ (2) 其中, φ (.)是正态分布密度函数; µ ij 和 pij 分别是模型 (1)中 2m 个不同 QTL 基因型值和条件概率. 若各 QTL 间相互独立, 可通过多点方法计算 pij. 多区间作图法包括 4 个组成部分: (ⅰ) 分析特定 遗传模型似然的评价程序; (ⅱ) 优化遗传模型的搜 索策略; (ⅲ) 特定模型下各 QTL 位置、主效与互作 参数的估计方法; (ⅳ) 用于标记辅助选择的个体或 子代基因型值的预测模块. 中间两过程是关键. 对于 前者, 最初提出用逐步回归[19]; 后改为在基础模型 上再进行最优模型的确定, 此时互作项为 t 项, 不是 m(m − 1)/2 项[47]. 对于后者, Kao 和 Zeng[18]提出了最 大化 lnL(Y|θ)以估计参数的 EM 算法的一般迭代公式. 最近, 该方法已拓展到间断型性状[48]. 在应用中发现, 当无主效 QTL 有互作时, 其功 效偏低; 当 QTL 效应较小时, 其功效偏低[32]. 这可能 是由于在模型拟合开始时误差方差较大所致. 若初 始模型确定较好, 可能会避免该问题. 建议联合使用 复合区间作图法和双标记互作分析来确定初始模型. 但是, 若 QTL 位于区间较大的标记中间时, 其功效 会降低. 1.2 Bayesian 压缩估计方法[29~32] Xu[29]在 Meuwissen 等人[49]的工作基础上, 提出 了全基因组所有标记联合分析的 Bayesian 压缩估计 方法, Zhang和Xu[30]将该法延伸到多QTL分析, Wang 等人[32]全面阐述了该方法, Zhang 和 Xu[31]将它延伸 到 QTL 间上位性检测. 模型(1)可变为 0 1 q i ij j i j y b zb e = = + + ∑ . (3) 其中, δjk = 1, q = m(m+1)/2, b0 = µ, bj = aj 和 zij = xij(j = 1, 2, … , m), bj+m = wrs 和 zi(j+m) = xirxis (r = 1, 2, … , m−1; s = r+1, r+2, … , m; j = 1,2, … , q−m). 在多标记 分析中, 假定每标记上存在一个 QTL, m 为标记数目; 在多 QTL 分析中, 假定每标记区间存在一个 QTL, m 为标记区间个数. 若假定的 QTL 是假的, 则将其效 应估计值向 0 压缩; 否则, 不压缩. 为实现该目标, 让每一 QTL (或标记)效应有自己的方差参数, 同时 该方差有其先验分布, 致使每一效应的方差都能从 现有资料中估计, 以调节效应估计值. 其具体作法是 假定每一参数有其先验分布, 如 p(b0)∝1, p(σ e 2 )∝1/ σ e 2 , p(bj) = N(0, σ j 2 )和 p(σ j 2 )∝1/σ j 2 (j = 1, 2, … , q); 然 后, 获得每一参数的条件后验分布; 例如, bj 是从平 均数为 1 2 22 0 1 1 n n q j ij e j ij i ik k i i kj b x x y b xb σ σ − = =≠ ⎛ ⎞ ⎛ ⎞ = + −− ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ∑ ∑∑ 和方差为 2 j s = 1 2 22 2 1 n ij e j e i x σ σ σ − = ⎛ ⎞ + ⎜ ⎟ ⎝ ⎠ ∑ 的正态分布中抽 样, σ j 2 从自由度为 1 的逆χ 2 分布中抽样; 最后, 从各 个参数条件后验分布中抽样. 当抽样链收敛时, 用样 本的特征数来估计各参数. 若将基因组作为横坐标, 各 QTL 效应估计值作为纵坐标绘图, 就可明显看出 QTL 的数目、位置及其效应. 若模型(3)中某 QTL 是假的, 从资料中估计的 2 ˆσ j 极端地趋近于 0, 使 bj的条件后验分布平均数 j b 与方 差 sj 2 均趋于 0, 则 bj 的抽样观测值趋于 0. 应当指出, σ j 2 抽样相当重要. 它既可克服岭回归中岭参数固定 的缺点, 又不断从资料中估计以真实反映资料信息. 这是因为σ j 2 = bj 2 /χ 2 v=1. 当 bj→0 时, 则σ j 2 →0. 但是, 当χ 2 v=1 非常小时, σ j 2 也可回复到一定的水平. 这就是
评述 第51卷第19期2006年10月学通 通过σ2调节b.估计值的一股原理.以达到直OTL的 的互作.其功效偏低.这是由于相邻标记间的多重共 效应不压缩而假OT,的效应值向0压缩的目的 线性关系.使其与合并,特别是标记密度大的情 Braak等人 认为,上述方法的先验分布不当 并进行了改进.但是,通过比较发现两者效果相差不 在实际应用时. 一种方法是先用惩罚似然方法 大· 与此相似的还有考虑不同先验方差或平均数的 对所有标记的主效与互,作进行分析(这时也可嵌合可 情形.对于前者,Yi等人和Oh等人假定每 变区间的思想以减少模型变量个数,然后用 效应b:服从平均数为0.方差较大和较小的两个正态 Bavesian压缩估计方法进行多OTL主效与互作的分 分布的混合分布,这就是他们独立成用George和 所:另一种方法是采取可变区间Bavesian比宿活 McMulloch判的变量选择方法来定位OTL的随机博 方法进行多OTL主效与互作分析 索变量选择方法.其中,先验方差不从数据中估计而 2QTL精细定位 是人为确定.这导致了它比上述压箱估计方法效果 初步定位OTL只说明在某区域可能存在一个控 差.对于后者,Zhang等人假定每一效应b,服从 平均数为正、零和负的3个正态分布的混合分布,提 制数量性状的基因,即我到 一个基因座距基因还有 一段距离 -方面OT.定位的精度还不高其位 出了OTL定位的Bavesian分类方法 的95%置信区间通常为10-30cM5m,另 方面目 1.3惩罚最大似然方法 1 cM的主要农作物DNA序列长度至少包括几】 针对用上述方法估计互作模型参数的运行时间 万碱基因此 之是 长的不足,有必要用极大似然方法实现其思想,以节 6置信区何为1-5cM的Q定位5 省运行时间.这就是惩罚最大似然方法.遗传模型与 有 即发展新的统计片 模型(3)相同,此时,m为全基因组上标记数.若将所 利用次级分离雕体 有参数的联合先验分布作为惩罚因子,与似然函数 一起构成惩罚似然函数.通过最大化延罚似然函翻 网在酹究高梁开花期遗传时用区间行 就可以估计QTL效应及其先验分布参数.应当指出 图只检测到1个QTL 用已检测的QTL效 来调整表型观测值后 发现另外两个Q 这被其 该方法对参数的先验分布比较敏感,研究发现。下述 这说明统计方法的合理利用可 先验是可行的x,风x1/ 实验所证列 掘出更多的清在信息 这只是对连锁信息的 的 利用 起同时从 ,只是将单QTL模型拓展到多QTL模 现有资料中估计例如.QTL效应能 连锁不平衡信息也是可供利用的 估计 是出用连线 6-+j 较 它在人关 疾病 中应用相当 (4) 在作 日益 到重视 我 者在 方面 若o-0,则6→4由于,=6,+,不断选代 精 后,会使弓,一→0.这说明假QTL的效应估计值接近0, 而真实QTL的效应估计值远离0,以检测主效与互作 的复杂分 QTL,以达到在参数估计过程中选择变量的目的,并 结 解决了最大似然方法中待估参数个数远大于样本容 量时参数估计的难题.模型中待估参数个数量多为 型方法 古服 该缺点」 前者已 用于玉米 样本容量的10倍时,该方法是有效的21,s.Y等人6 花时 将该法作为精确定位QTL的方法之 这可可能是中 联合 于在模型拟合初期误差方差估计值偏小,从而增大 就可直 用它进行 的关联分析或互 了检测小效应QTL的功效.然而,对于相邻标记间 日在玉米石 www.scichina.com 2225 190 ing Hous.Ath ki.ne
评 述 第 51 卷 第 19 期 2006 年 10 月 www.scichina.com 2225 通过σ j 2 调节 bj 估计值的一般原理, 以达到真 QTL 的 效应不压缩而假 QTL 的效应值向 0 压缩的目的. Braak 等人[50]认为, 上述方法的σ j 2 先验分布不当 并进行了改进. 但是, 通过比较发现两者效果相差不 大. 与此相似的还有考虑不同先验方差或平均数的 情形. 对于前者, Yi 等人[51]和 Oh 等人[52]假定每一 效应 bj 服从平均数为 0, 方差较大和较小的两个正态 分布的混合分布, 这就是他们独立应用 George 和 McMulloch[53]的变量选择方法来定位 QTL 的随机搜 索变量选择方法. 其中, 先验方差不从数据中估计而 是人为确定. 这导致了它比上述压缩估计方法效果 差[32]. 对于后者, Zhang 等人[54]假定每一效应 bj 服从 平均数为正、零和负的 3 个正态分布的混合分布, 提 出了 QTL 定位的 Bayesian 分类方法. 1.3 惩罚最大似然方法 针对用上述方法估计互作模型参数的运行时间 长的不足, 有必要用极大似然方法实现其思想, 以节 省运行时间. 这就是惩罚最大似然方法. 遗传模型与 模型(3)相同, 此时, m 为全基因组上标记数. 若将所 有参数的联合先验分布作为惩罚因子, 与似然函数 一起构成惩罚似然函数, 通过最大化惩罚似然函数 就可以估计 QTL 效应及其先验分布参数. 应当指出, 该方法对参数的先验分布比较敏感, 研究发现, 下述 先验是可行的: p(b0)∝1, p(σ e 2 )∝1/σ e 2 , p(bj) = N(µj, σ j 2 ), p(µj) = N(0, σ j 2 /η)和 p(σ j 2 )∝1. 该方法的特点在于各 效应的先验平均数与先验方差同各效应一起同时从 现有资料中估计. 例如, QTL 效应的估计值为 1 2 22 1 2 2 0 1 ˆ . n j ij e j i n q ij i ik k j e j i kj b x x y b xb σ σ µσ σ − = = ≠ ⎛ ⎞ = + ⎜ ⎟ ⎝ ⎠ ⎡ ⎤ ⎛ ⎞ × −− + ⎢ ⎥ ⎜ ⎟ ⎣ ⎦ ⎝ ⎠ ∑ ∑ ∑ (4) 若σ j 2 →0, 则 ˆ j b →µj. 由于 ˆ ˆ ( 1) j j µ η = + b , 不断迭代 后, 会使 ˆ j b →0. 这说明假 QTL 的效应估计值接近 0, 而真实 QTL 的效应估计值远离 0, 以检测主效与互作 QTL, 以达到在参数估计过程中选择变量的目的, 并 解决了最大似然方法中待估参数个数远大于样本容 量时参数估计的难题. 模型中待估参数个数最多为 样本容量的 10倍时, 该方法是有效的[21,55]. Yi等人[56] 将该法作为精确定位 QTL 的方法之一, 这可能是由 于在模型拟合初期误差方差估计值偏小, 从而增大 了检测小效应 QTL 的功效. 然而, 对于相邻标记间 的互作, 其功效偏低. 这是由于相邻标记间的多重共 线性关系, 使其与 b0 合并, 特别是标记密度大的情 形. 在实际应用时, 一种方法是先用惩罚似然方法 对所有标记的主效与互作进行分析(这时也可嵌合可 变区间的思想以减少模型变量个数 ), 然后用 Bayesian 压缩估计方法进行多 QTL 主效与互作的分 析; 另一种方法是采取可变区间 Bayesian 压缩估计 方法进行多 QTL 主效与互作分析. 2 QTL 精细定位 初步定位 QTL 只说明在某区域可能存在一个控 制数量性状的基因, 即找到一个基因座, 距基因还有 一段距离. 一方面, QTL 定位的精度还不高, 其位置 的 95%置信区间通常为 10~30 cM[57]; 另一方面, 即 使 1 cM 的主要农作物 DNA 序列长度至少包括几十 万碱基. 因此, 精细定位 QTL 是应当考虑的. 它是指 QTL 位置的 95%置信区间为 1~5 cM 的 QTL 定位[58]. 目前, 精细定位 QTL 有 3 种途径, 即发展新的统计方 法、增加重组的机会和利用次级分离群体. Lin 等人[59]在研究高粱开花期遗传时, 用区间作 图只检测到 1 个 QTL, 但是, 用已检测的 QTL 效应 来调整表型观测值后, 发现另外两个 QTL, 这被其他 独立实验所证实. 这说明统计方法的合理利用可挖 掘出更多的潜在信息. 不过, 这只是对连锁信息的巧 妙利用, 只是将单 QTL 模型拓展到多 QTL 模型. 实 际上, 连锁不平衡信息也是可供利用的. Bodmer[60]最 早提出用连锁不平衡进行 QTL 的精细定位. 由于不 构建分离群体和解析度较高[61,62]等原因, 它在人类 复杂疾病的 QTL 定位研究中应用相当广泛. 但是, 在作物 QTL 定位中应用较少. 不过, 近年来日益受 到重视[63], 我国学者在水稻和小麦方面进行了探索. 它的精度取决于研究群体的连锁不平衡的结构, 群 体中分布不均的等位基因亚群往往会导致较高的假 阳性. 例如, 复杂的育种历史和野生种间有限基因流 动造成了种质资源内的复杂分层, 这使关联分析复 杂化[64,65]. 幸运的是, Pritchard 等人[66]结合群体结构 估计与关联分析而提出的新方法及 Yu 等人[65]提出的 混合模型方法克服了该缺点, 前者已应用于玉米开 花时间基因 Dwarf8 的定位. 当然, 将连锁不平衡与 连锁信息联合, 精度会更高[67]. 若 QTL 区间存在候 选基因, 就可直接利用它进行基因的关联分析或互 补检验. 这种方法已在玉米研究中应用[68,69]
学通第51卷第19期2006年10月 评述 在增加重组机会方面,目前有几种策略,高代互 标记.若目标区段的DNA序列已知,如有大量的 选择表 EST或BAC的DNA序列,设计新的SSR标记是笔 易的。此外,若有大量可供利用的染色体片段缺失豸 selection and backcross RSB 高代回交系 (advanced backeross line.ABL) 育成品种群体 等.AL是通过F-代两两个体间相互杂交使重组率 由于水稻等DNA全序列测定的完成在目标区 增加,以提高QTL定位精度,如血浆胆周醇浓度 间寻找控制日标性状的候选基因应当是不难的.这 QTL精细定位.若只选择分离群体中对QTL定位 为数量性状基因研究进入分子水平奠定了基础, 信息量大的重组个体,显然会使重组频率增加,这就 是选择表型的思想 .Janninkl通过计算机模拟证实 3 动态性状的QTL定位 了两种选择方案的优越性.Weight认为,大效应的 动态性状是生物体在生长发育过程中随时间变 QTL可通过轮回回交与选择来积累紧密连锁座位间 化的数量性状,也称为发育性状9、无限维特征 的重组,即QTL及其附近区域在不同系间仍保持分 函数值性状和纵向性状等.动态性状QTL定位 离其他区墙趋近轮回辛本这就是RB后来 方法一般分3类6,9:(i)将不同时间点表型观测信 H获得了在RSB中对非轮回亲本表型进行定向 (或时间间隔表剂观测值增量)视为相同性状的重复 选择后的OT频率.最近,LUo等人4,构建了RSB 测定值.在重复观测值框架下依次分析该性状:(ⅱ 的QTL精细作图的理论方法,并已精细定位并克隆 将不同时间点观测值视为不同性状,由多变量方法 了酵母乙醇耐受性的主效基因A5G ABL就是没 分析该性状:()拟合时间点与表型现测值的数 右室洗择的RSB 模别.用多变量方法分析模刑参数 QTLL等人将 与选择表型相结合 相应的QTL定位方 在不同 法,众所周知,新品种的培有是有种家有意识地重组 松树苗 优良基因的过程, 说明中。 成品 种构成群体的 老鼠体雨 的若于 频率比较高, 不同的 果所证实 析 两时 点的 其结果也是 利用次级分 离群体也无 定位的主 以的 类方法分析动态性状可能 不是最优的,可采用多性状QTL定位方法 精细定1 类方法. 不过 随着观测时间点数的增加, 变量维麦 采用 E 和参数个数都会增加.增加了计算载荷.因而该方边 有时也是重要的 本后 适合于时间点数较少的情形.但是, 若时间点数少 往往又不能准确地刻划性状动态变化过程 为减 比较高 变量维数,可用主成分方法获得主要的综合变量 关键是 )构建稳定 的近等基因系 段的代换系 但是,多个时间点表型观测值的线性组合(综合变量) 或渗 的牛物学管义有时品不清的我门知首箱着时间占 至90,91 建 的增加表型观俏与时间的曲线可能是一 大小有关。常用的方法是用高代回 ,该曲线可用生长曲线等数学模型来描述因此 也可直接在同一群体相同家 内中选择OTL近等基因系还可节约时间:(ⅱ) 获得近等基因系(或代换系)与野生型杂交的分离群 的关系 托付右生物学音义的刑参进行多性 体:(ⅷ)获得目标区间与目标基因紧密连链的分子 T定位便且有实际生物学管义 在这个意义上说 3类方法品最优的 在实际 最先使用 )林飞万琴、程利同,等蒸于分高亚释体0T定位的模拟研究。遗传待发表 2226 www.scichina.com
第 51 卷 第 19 期 2006 年 10 月 评 述 2226 www.scichina.com 在增加重组机会方面, 目前有几种策略: 高代互 交系(advanced intercross line, AIL)[70,71]、选择表型 (selective phenotyping)、轮回选择与回交系(recurrent selection and backcross, RSB)[72~75] 、高代回交系 (advanced backcross line, ABL)[76]、育成品种群体[77] 等. AIL 是通过 Ft−1 代两两个体间相互杂交使重组率 增加, 以提高 QTL 定位精度, 如血浆胆固醇浓度 QTL 精细定位[78]. 若只选择分离群体中对 QTL 定位 信息量大的重组个体, 显然会使重组频率增加, 这就 是选择表型的思想. Jannink[79]通过计算机模拟证实 了两种选择方案的优越性. Weight[72]认为, 大效应的 QTL 可通过轮回回交与选择来积累紧密连锁座位间 的重组, 即 QTL 及其附近区域在不同系间仍保持分 离, 其他区域趋近轮回亲本. 这就是 RSB. 后 来, Hill[73]获得了在 RSB 中对非轮回亲本表型进行定向 选择后的 QTL 频率. 最近, Luo 等人[74,75]构建了 RSB 的 QTL 精细作图的理论方法, 并已精细定位并克隆 了酵母乙醇耐受性的主效基因 ASG1[80]. ABL 就是没 有实施选择的 RSB, 为作物 QTL 精细定位的常用策 略, 已用于精细定位番茄果重 QTL[81]. Li 等人[82]将 ABL 与选择表型相结合, 提出了相应的 QTL 定位方 法. 众所周知, 新品种的培育是育种家有意识地重组 优良基因的过程, 说明由育成品种构成群体的重组 频率比较高, 因而可用来高解析地定位 QTL. 这为 Zhang 等人[77]的结果所证实. 利用次级分离群体也是 QTL 精细定位的主要手 段之一. 它已应用于水稻抽穗期[83~85]、分蘖角度[86]、 矮秆[87]、油菜芥酸[88]等性状的 QTL 精细定位. 可以 发现, 这些研究都采用了大样本和目标区段高密度 分子标记图谱, 不过, 对重组个体的大样本后裔鉴定 有时也是重要的[65]. 为节约费用, 可用分离亚群 体[87], 其精度也比较高1). 利用次级分离群体的技术 关键是: (ⅰ) 构建稳定的突变体[86,89]或单 QTL[76,83,88] 的近等基因系或染色体单片段的代换系(或渗入 系) [90,91]. 不过, 构建近等基因系的方法与 QTL 效应 大小有关. 常用的方法是用高代回交法[76,92]. 但是, 当 QTL 效应较大时, 也可直接在同一群体相同家系 内中选择 QTL 近等基因系[88,92], 还可节约时间; (ⅱ) 获得近等基因系(或代换系)与野生型杂交的分离群 体; (ⅲ) 获得目标区间与目标基因紧密连锁的分子 标记. 若目标区段的 DNA 序列已知, 如有大量的 EST 或 BAC 的 DNA 序列, 设计新的 SSR 标记是容 易的. 此外, 若有大量可供利用的染色体片段缺失系, 通过互补检验也可精细定位 QTL. 这时, 需要个体数 较少[64]. 由于水稻等 DNA 全序列测定的完成, 在目标区 间寻找控制目标性状的候选基因应当是不难的. 这 为数量性状基因研究进入分子水平奠定了基础. 3 动态性状的 QTL 定位 动态性状是生物体在生长发育过程中随时间变 化的数量性状, 也称为发育性状[93]、无限维特征[94]、 函数值性状[95]和纵向性状[96]等. 动态性状 QTL 定位 方法一般分 3 类[96,97]: (ⅰ) 将不同时间点表型观测值 (或时间间隔表型观测值增量)视为相同性状的重复 测定值, 在重复观测值框架下依次分析该性状; (ⅱ) 将不同时间点观测值视为不同性状, 由多变量方法 分析该性状; (ⅲ) 拟合时间点与表型观测值的数学 模型, 用多变量方法分析模型参数. 第 1 类方法最简单. 用常规的 QTL 定位方法分 别分析不同时间点的资料, 在不同时间点上定位了 控制水稻分蘖数[98], 松树苗直径、株高和体积[99]以及 老鼠体重[100]的若干 QTL, 揭示出不同发育阶段可能 存在不同的基因. 同时, 若用 Zhu[93]提出的条件 QTL 定位方法分析两时间点的净效应时, 其结果也是相 似的[101,102]. 因而, 用第 1 类方法分析动态性状可能 不是最优的, 可采用多性状 QTL 定位方法[46], 即第 2 类方法. 不过. 随着观测时间点数的增加, 变量维数 和参数个数都会增加, 增加了计算载荷. 因而该方法 适合于时间点数较少的情形. 但是, 若时间点数少, 往往又不能准确地刻划性状动态变化过程. 为减少 变量维数, 可用主成分方法[103]获得主要的综合变量. 但是, 多个时间点表型观测值的线性组合(综合变量) 的生物学意义有时是不清的. 我们知道, 随着时间点 的增加, 表型观测值与时间的曲线可能是一平滑曲 线, 该曲线可用生长曲线等数学模型来描述. 因此, 利用生长曲线等数学模型来拟合表型观测值与时间 的关系, 并对有生物学意义的模型参数进行多性状 QTL 定位便具有实际生物学意义. 在这个意义上说, 第 3 类方法是最优的. 在实际应用中, 最先使用的是 1) 林飞, 万素琴, 程利国, 等. 基于分离亚群体 QTL 定位的模拟研究. 遗传(待发表)
坪述 第51卷第19期2006年10月学通 两步法:先拟合数学模型 再以模型参数为依变量进 并且这些信息可用于品种分子设计有种2该方 行多性状QTL定位.利用该方法已定位了水稽叶龄 法的主要思想是利用品种的系谱关系计算品种间的 动态性状的QTL阿 与第2类方法相比.有一些优点 后裔同样(identity by descent,.IBD)值,并将IBD值嵌 表型数据量诚少,减轻了计算载荷;可处现非平衡数 人方差组分模型以定位QL的位置与效应:然后 据;由于模型参数具有生物学意义,从而更能理解性 用最优线性无偏预测best linear unbiased prediction 状发有的遗传学基础可其不足之处是,没有考虑数 BLUP)法预测出各品种的QTL效应值.根据每一品 学模型参数的估计误差.由此,Wu等人G o将两 种各QTL效应预测值,可进行新品种的亲本选配利 步法改为一步法.迄今为止,已考虑的数学模型主要 分子设计育种,也可研究基因在品种中的传递规律 有:生长模型, 正交多项式%和异速生长模 Zhang等人I列应用该方法定位了玉米GDUSHD 型网.Wu和Li队为,基于模型选择的QTL定位方 (growing degree day heat units to pollen shedding)8 法和Bayesian压缩估计方法均可用于动态性状的功 个QTL,误差变异系数仅为1.5%,QTL定位的置信区 能定位 间也较小.这些结果都说明其精度较高 4展望 我国有丰富的品种资源, 只要获得更多的相关 信息就可发掘出大量的有利基因并预测其遗传效 4.1种质资源新基因发掘的QTL定位方法 应。进行分子设计育种,提高育种效率 作物QTL定位群体一般是两纯合近交系的杂交 后代,往往要求两近交系何差异较大.但是,若两者 42 eQTL定位的统计方法 表秋独数据分析通激是通时业物两个量多个外 携带相同等位基因,即使其效应较大,也不能被检测 到因而,增加亲本数目的四向杂交例甚至八向杂 理间表达谱的差异以发掘与处理有关的基因:连 交就被提出不过其亲本数目也十分有限】 传分析是检测分离群体中标记与性状间的述锁 新基因是蕴藏在种质资源中的 显然 分离群体所有 因而利用统计方法 个体的表达谱使得让每 一其因 从大量种质资源中寻找新基因就是统计遗传学 的表达 将表达谱作 大任 这方 的统计 法还不够成 所定位得到的 连锁与该 的 致时,便可确 的混合模型方法 状有关的基因 这就是Jansen和 提出 cQTL定位的基本思想,并在酵母、玉米和老鼠 Grupe等人" 提出 种'in silico“QTL定位方 等中得以应用.与此不同的是,Hoti和Sillanpa 法,在15 近交系组成的群体中定位 将数量性状或分级性状表型观测值表示为分子标记 关性状的多 QTL 它主要是通过数量性状表型 遗传型、基因表达量以及标记遗传型与基因表达量互 离与标记遗传型距离的相 作的线性函数,用Bayesian压缩估计方法29定位 说明该标 OTL并获得相关基因信息.由于获得表达谱数据成 本较高该方法还未得到广泛应用但是,这是近年 衣型观 来国际上新的研究热点 距离 人 4.3遗传交配设计的QTL定位方法 效低和假阳性率高 等人斗认为 件下检测遗传率为 在理想务 从作物QTL定位群体来看,主要是针对简单的 BC (ha DH TL时 需 △ 分离群体,如 40-150个:假阳性率太高.导致检测到的OTL需要 line)和AL等,所涉及的 用常规QTL定位方法予以验证。因而,该方法还需 本较少,但是,从数量遗传学发展历程可知,遗传交 排一步研究 配设计对数量遗传学有很大的贡献,因此,研究基 若利用大量有成纯合品种数量性状表型观测值 遗传交配设计的QTL定位方法也是应当重视的.最 分子标记和品种间系谱关系,也可高解析定位QTL 近,Verhoeven等人通过QTL定位方法检测双列杂 交设计的QTL,并通过双列杂交遗传分析确定研究 www.scichina.com 2227 1904 http://wy enki.ne
评 述 第 51 卷 第 19 期 2006 年 10 月 www.scichina.com 2227 两步法: 先拟合数学模型, 再以模型参数为依变量进 行多性状 QTL 定位. 利用该方法已定位了水稻叶龄 动态性状的 QTL[97]. 与第 2 类方法相比, 有一些优点: 表型数据量减少, 减轻了计算载荷; 可处理非平衡数 据; 由于模型参数具有生物学意义, 从而更能理解性 状发育的遗传学基础[97]. 其不足之处是, 没有考虑数 学模型参数的估计误差. 由此, Wu 等人[33,104~108]将两 步法改为一步法. 迄今为止, 已考虑的数学模型主要 有: 生长模型[33,104~107]、正交多项式[96]和异速生长模 型[108]. Wu 和 Li[33]认为, 基于模型选择的 QTL 定位方 法和 Bayesian 压缩估计方法均可用于动态性状的功 能定位. 4 展望 4.1 种质资源新基因发掘的 QTL 定位方法 作物 QTL 定位群体一般是两纯合近交系的杂交 后代, 往往要求两近交系间差异较大. 但是, 若两者 携带相同等位基因, 即使其效应较大, 也不能被检测 到. 因而, 增加亲本数目的四向杂交[109]甚至八向杂 交就被提出. 不过, 其亲本数目也十分有限. 而且, 新基因是蕴藏在种质资源中的. 因而, 利用统计方法 从大量种质资源中寻找新基因就是统计遗传学家的 一大任务. 目前, 这方面的统计方法还不够成熟, 需 要进一步研究. 它主要包括关联分析、“in silico”方法 和基于 IBD 的混合模型方法. 关联分析已在前面讨 论, 这里只介绍后两种方法. Grupe 等人[110]提出了一种“in silico” QTL 定位方 法, 在 15 个近交系组成的群体中定位了老鼠疾病相 关性状的多个 QTL. 它主要是通过数量性状表型距 离与标记遗传型距离的相关分析预测 QTL 与标记间 的连锁关系. 若相关显著, 说明该标记与 QTL 连锁. 其中, 数量性状表型距离是两纯系(品种)表型观测值 之差; 标记遗传型距离定义为: 若两纯系 SNP的单倍 型(haplotype)相同, 遗传型距离为 0; 否则为 1. 然而, Chesler 等人[111]不能重复 Grupe 等人[110]的结果, 且功 效低和假阳性率高. Darvasi 等人[112]认为, 在理想条 件下检测遗传率为 5%~20%的 QTL 时, 需要纯合系 40~150 个; 假阳性率太高, 导致检测到的 QTL 需要 用常规 QTL 定位方法予以验证. 因而, 该方法还需 要进一步研究. 若利用大量育成纯合品种数量性状表型观测值、 分子标记和品种间系谱关系, 也可高解析定位 QTL, 并且这些信息可用于品种分子设计育种[62,77]. 该方 法的主要思想是利用品种的系谱关系计算品种间的 后裔同样(identity by descent, IBD)值, 并将 IBD 值嵌 入方差组分模型以定位 QTL 的位置与效应; 然后, 用最优线性无偏预测(best linear unbiased prediction, BLUP)法预测出各品种的 QTL 效应值. 根据每一品 种各 QTL 效应预测值, 可进行新品种的亲本选配和 分子设计育种, 也可研究基因在品种中的传递规律. Zhang 等 人 [77]应用该方法定位了玉米 GDUSHD (growing degree day heat units to pollen shedding)的 8 个 QTL, 误差变异系数仅为 1.5%, QTL 定位的置信区 间也较小. 这些结果都说明其精度较高. 我国有丰富的品种资源, 只要获得更多的相关 信息, 就可发掘出大量的有利基因并预测其遗传效 应, 进行分子设计育种, 提高育种效率. 4.2 eQTL 定位的统计方法 表达谱数据分析通常是通过比较两个或多个处 理间表达谱的差异以发掘与处理有关的基因; 连锁 遗传分析是检测分离群体中标记与性状间的连锁. 显然, 分离群体所有个体的表达谱使得让每一基因 的表达谱作为一个性状成为可能, 将表达谱作为数 量性状所定位得到的 QTL 称为 eQTL. 当 eQTL 的遗 传连锁与该基因的位置一致时, 便可确定与数量性 状有关的基因. 这就是 Jansen 和 Nap[113,114]提出的 eQTL 定位的基本思想, 并在酵母[115]、玉米和老鼠 等[116]中得以应用. 与此不同的是, Hoti 和 Sillanpää[55] 将数量性状或分级性状表型观测值表示为分子标记 遗传型、基因表达量以及标记遗传型与基因表达量互 作的线性函数, 用 Bayesian 压缩估计方法[29~32]定位 QTL 并获得相关基因信息. 由于获得表达谱数据成 本较高, 该方法还未得到广泛应用. 但是, 这是近年 来国际上新的研究热点[114]. 4.3 遗传交配设计的 QTL 定位方法 从作物 QTL 定位群体来看, 主要是针对简单的 分离群体, 如 F2, BC (backcross), DH (double haploid), RIL (recombinant inbred line)和 AIL 等, 所涉及的亲 本较少. 但是, 从数量遗传学发展历程可知, 遗传交 配设计对数量遗传学有很大的贡献. 因此, 研究基于 遗传交配设计的 QTL 定位方法也是应当重视的. 最 近, Verhoeven 等人[117]通过 QTL 定位方法检测双列杂 交设计的 QTL, 并通过双列杂交遗传分析确定研究