利用非线性规划进行作物品种区域 试验方案的优化 张群远,孔繁玲,杨付新 (1中国农业大学植物遗传育种系,北京100094::中国农业科学院棉花研究所) 摘要:以试验费用最小为目的构建目标函数,根据区域试验的精度要求构建约束方程,提 出确定作物品种区域试验最佳年份数,试点数和承复数的非线性规划模型,阐述了实际应用中 确定模型中各项参数以及规划求解的具体方法,并以黄河流域棉花品种区域试验为例作了分 析。同时,改进提出反映区域试验精度的综合性指标(DRD),对相关句题作了讨论。 关键词:区域试验:试验方案,非线性规划:精确度 中图分类号:S11+5:5562文献标识码:A文章编号:0578-1752(2000)04-0025-06 做好作物品种区域试验(简称区试)的首要前提是制定合理的试验方案,其中最基本的 就是确定试验的年份数、试点数和重复数。我国生态类型丰富,作物品种繁多,区试开展得十 分广泛,但是,长期以来,区试中对年份数、试点数和重复数的确定基本上都是依凭经验,缺 乏确切的统计学依据。从统计学角度看,区试是对参试品种进行一次大样本容量的抽样和比 较。年份数、试点数和重复数越大,样本容量就越大,品种均值的变异就越小,能鉴别的品种 间差异就越小,整个试验的精度就越高。若年份数、试点数和重复数过少,试验精度低,鉴别 不出一定量的真实差异,就会使优良品种得不到肯定:反之,若年份数、试点数和重复数过 多,试验精度超过实际的需要,在人力物力上造成浪费,则会降低试验效率。因此,如何确定 一个区试的最佳年份数、试点数和重复数,是一个优化决策的问题。 Jones和Matzinger等,Liang和Heyne等,Campbel和Lafever分以及Talbot2等 曾研究了区试中品种平均数的方差随年份数、试点数和重复数的变化趋势以及如何根据这 些变化趋势米粗略地确定区试方案:Lin和Binnsa)、俞世蓉和吴兆苏a、俞世蓉和陆作楣 等以及孔繁玲和张群远等)曾提出各种反映区试精确度的指标并论及这些指标和试验方 案的关系。然而,这些研究都未提出优化年份数、试点数和重复数的确切方法。本文改进提 出反映区试精度的更一般化的统计指标,据此构建在一定精度要求下确定区试中合理年份 数,试点数和重复数的非线性规划模型,并对实际应用中模型参数的确定和模型求解问题进 行探讨,最后对黄河流域棉花品种区试作实例分析」 1非线性规划模型的建立 次区试的试验费用和试验精确度与试验的年份数、试点数和重复(或区组)数均有关。 收将日期:1999-05-17 基金项日:国身整猴基金资助项日(A39770430) 作者简介,张解远心,男,云南宜成人,讲师,博士研究生,主要从事生物统计和数量遗传的教学和研究
收稿日期!"###$%&$"’ 基金项目!国家自然科学基金资助项目()*#’’%+*%, 作者简介!张群远("#’%$,-男-云南宣威人-讲师-博士研究生-主要从事生物统计和数量遗传的教学和研究. 利用非线性规划进行作物品种区域 试验方案的优化 张群远" -孔繁玲" -杨付新/ ("中国农业大学植物遗传育种系-北京 "%%%#+0 /中国农业科学院棉花研究所, 摘要!以试验费用最小为目的构建目标函数-根据区域试验的精度要求构建约束方程-提 出确定作物品种区域试验最佳年份数1试点数和重复数的非线性规划模型-阐述了实际应用中 确定模型中各项参数以及规划求解的具体方法-并以黄河流域棉花品种区域试验为例作了分 析.同时-改进提出反映区域试验精度的综合性指标(232,-对相关问题作了讨论. 关键词!区域试验0试验方案0非线性规划0精确度 中图分类号!4""5 &04&6/ 文献标识码!) 文章编号!%&’7$"’&/(/%%%,%+$%%/&$%6 做好作物品种区域试验(简称区试,的首要前提是制定合理的试验方案-其中最基本的 就是确定试验的年份数1试点数和重复数.我国生态类型丰富-作物品种繁多-区试开展得十 分广泛-但是-长期以来-区试中对年份数1试点数和重复数的确定基本上都是依凭经验-缺 乏确切的统计学依据.从统计学角度看-区试是对参试品种进行一次大样本容量的抽样和比 较.年份数1试点数和重复数越大-样本容量就越大-品种均值的变异就越小-能鉴别的品种 间差异就越小-整个试验的精度就越高.若年份数1试点数和重复数过少-试验精度低-鉴别 不出一定量的真实差异-就会使优良品种得不到肯定0反之-若年份数1试点数和重复数过 多-试验精度超过实际的需要-在人力物力上造成浪费-则会降低试验效率.因此-如何确定 一个区试的最佳年份数1试点数和重复数-是一个优化决策的问题. 89:;<和 =>?@A:B;C等D7E 1FA>:B和 G;H:;等D#E 1I>JKL;MM和 F>N;O;C D6E以及 P>ML9? D"/E等 曾研究了区试中品种平均数的方差随年份数1试点数和重复数的变化趋势以及如何根据这 些变化趋势来粗略地确定区试方案0FA:和 QA::< D"%E 1俞世蓉和吴兆苏D*E 1俞世蓉和陆作楣 等D+E以及孔繁玲和张群远等D&E曾提出各种反映区试精确度的指标并论及这些指标和试验方 案的关系.然而-这些研究都未提出优化年份数1试点数和重复数的确切方法.本文改进提 出反映区试精度的更一般化的统计指标-据此构建在一定精度要求下确定区试中合理年份 数1试点数和重复数的非线性规划模型-并对实际应用中模型参数的确定和模型求解问题进 行探讨-最后对黄河流域棉花品种区试作实例分析. R 非线性规划模型的建立 一次区试的试验费用和试验精确度与试验的年份数1试点数和重复(或区组,数均有关 SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS . 万方数据
26 中国农业科学 33卷 方案优化的目的是找出年份数、试点数和重复数的最优组合方案,使试验达到一定的精确度 要求而所需试验费用又最少。为此,可以把试验费用最小作为目标,试验精确度达到一定要 求作为约束条件来分别构建目标函数和约束方程田。 1.1日标函数 一次区试的试验费用包括试验实施过程中(即田间种植管理与性状的调查、测量或测定 等)所消耗的人力、财力和物力的总和。一般来说,在要观测的性状和小区面积固定的情况 下,这些消耗主要取决于试验中小区总数的多少。因此,可以把区试中的小区总数最少作为 优化的目标,于是,区试方案优化的目标函数可以表示为 f(y.sr)=vsr (1) 其中y为年份数、5为试点数,x为重复数。优化的目的就是在试验精度达到一定要求的前提 下合理搭配年份数、试点数和重复数,使得此函数值最小。一次区试中,各点次试验的参试品 种是一样的,所以ysr最小就相当于小区总数最少。至于对试验精度的具体要求,则体现在 下面的约束方程中。 1.2约束方程 区试的主要目的是鉴别品种间差异,在统计上是通过两个样本平均数差数的假设测验 来完成的。由统计学可知,在一定的显著水平a下,要以一定的概率1一B(也称统计功效) 鉴别出两个平均数间的真实差异8,所需样本容量为: n=(Z。+Za)2品/8 (2) Z。和Za分别为α和B所对应的标准正态分布(u分布)的离差值,品为总体观测值差数的方 差。若品未知,往往由两个或多个样本的合并方差来估计,这时,Z应采用t分布的离差,但 如果样本容量较大,依然可以近似采用u分布。 对于年份数为y、试点数为s、重复数为r的区试来说,(2)式中的n=ysr,ò为试验能鉴 别出的品种间真实差异,品为品种观测值差数的方差。若把区试看作是对参试品种在众多 年份、试点和重复上进行的随机抽样,则根据多年多点联合方差分析(年份、试点随机)中品 种项期望均方的组成可知,品种平均数的方差为: =(o+ro+rso+ry品)/ysr (3) 为误差方差,民、品、分别为品种×年份X地点、品种X年份、品种X地点的互作方 差。另由抽样分布的原理可知:=2n:又因n=ysr,所以有 i=2(+r品十r+ry品) (4) 把上式代入(2)中,便可求出一定α和B水平下,年份数为y、试点数为s、重复数为r的 区试所能鉴别出的品种间真实差异(用符号DRD表示,意为detectable real difference)为: DRD==(Z.+Za)V2(a:++rsoi,+rya)/ysr (5) 据(5)式可知,若要求某区试能鉴别出的品种间差异为ò。,即要求DRD<ò。,则需满足 下式: (Z.+Z)W√2(G+r.+rs+yo)/小ysr< (6) 此即为约束方程。 1.3非线挂规威秘摸型 一个区试方案的优化,其实就是在(6)式的约束下求解(1)式目标函数值为最小时对应
方案优化的目的是找出年份数!试点数和重复数的最优组合方案"使试验达到一定的精确度 要求而所需试验费用又最少#为此"可以把试验费用最小作为目标"试验精确度达到一定要 求作为约束条件来分别构建目标函数和约束方程$%& # ’(’ 目标函数 一次区试的试验费用包括试验实施过程中)即田间种植管理与性状的调查!测量或测定 等*所消耗的人力!财力和物力的总和#一般来说"在要观测的性状和小区面积固定的情况 下"这些消耗主要取决于试验中小区总数的多少#因此"可以把区试中的小区总数最少作为 优化的目标"于是"区试方案优化的目标函数可以表示为+ ,)-"."/*0 -./ )1* 其中 -为年份数!.为试点数!/为重复数#优化的目的就是在试验精度达到一定要求的前提 下合理搭配年份数!试点数和重复数"使得此函数值最小#一次区试中"各点次试验的参试品 种 是一样的"所以 -./最小就相当于小区总数最少#至于对试验精度的具体要求"则体现在 下面的约束方程中# ’(2 约束方程 区试的主要目的是鉴别品种间差异"在统计上是通过两个样本平均数差数的假设测验 来完成的#由统计学$11&可知"在一定的显著水平 3下"要以一定的概率 145)也称统计功效* 鉴别出两个平均数间的真实差异 6"所需样本容量 7为+ 70)83985*% : % ;<6 % )%* 83和 85分别为 3和 5所对应的标准正态分布)=分布*的离差值": % ; 为总体观测值差数的方 差#若 : % ; 未知"往往由两个或多个样本的合并方差来估计"这时"8应采用 >分布的离差"但 如果样本容量较大"依然可以近似采用 =分布# 对于年份数为 -!试点数为 .!重复数为 /的区试来说")%*式中的 70 -./"6为试验能鉴 别出的品种间真实差异": % ; 为品种观测值差数的方差#若把区试看作是对参试品种在众多 年份!试点和重复上进行的随机抽样"则根据多年多点联合方差分析)年份!试点随机*中品 种项期望均方的组成$1&可知"品种平均数的方差为+ : %@?0): % A9/: % BCD9 /.: % BC9 /-: % BD*<-./ )E* : % A为误差方差": % BCD!: % BC!: % BD分别为品种F年份F地点!品种F年份!品种F地点的互作方 差#另由抽样分布的原理$1&可知+: % ;0%7: %@?G又因 70 -./"所以有+ : % ;0%): % A9 /: % BCD9 /.: % BC9 /-: % BD* )H* 把上式代入)%*中"便可求出一定 3和 5水平下"年份数为 -!试点数为 .!重复数为 /的 区试所能鉴别出的品种间真实差异)用符号 ;I;表示"意为 JA>AK>LMNAOALNJPQQAOARKA*为+ ;I;060)S39S5* %):% A9 /:% BCD9 /.:% BC9 /-:% T BD*<-./ )U* 据)U*式可知"若要求某区试能鉴别出的品种间差异为 6V"即要求 ;I;W6V"则需满足 下式+ )S39S5* %):% A9 /:% BCD9 /.:% BC9 /-:% T BD*<-./W6V )X* 此即为约束方程# ’(Y 非线性规划模型 一个区试方案的优化"其实就是在)X*式的约束下求解)1*式目标函数值为最小时对应 %X 中 国 农 业 科 学 EE卷 万方数据
4期 张群远等:利用非线性规划进行作物品种区域试验方案的优化 的y、5、r值,其完整的规划模型如下: 目标函数:Minf(y,s,r)=ysr (7) 约束条件:(Z.十Z)W2(o+r.+rso+y)/ysr<6。 (8) y≤y≤y2,51≤s≤s,r≤r≤r2;y,s,r均为整数 (9) (9)式为另外增加的一些约束条件,其中”和y2、51和2、1和r2分别是对y、5、r实际可行 的取值范围的限制,又由于y、5r均为正整数,所以求解可采用简单的穷举法巴。 实际应用中模型参数的确定 应用此规划模型的关键,在于模型中的各参数的确定。这些参数包括方差组分σ、品、品 和元,分布值Z。和Za,精度要求。以及当y2152rr2等。能否合理地确定或估计这些 参数,直接关系到优化结果的好坏。 2.1方差组分G品、函、品和品的估计 方差组分、、品、因不同类型(包括不同作物和不同区域)的区试而异,需要针对 具体作物和区域来进行估计。也就是说,方案优化应针对不同类型的区试进行,不同区试的 最佳y、5,”是不同的。对于某特定的区试来说,这些方差组分的真值无法得知,只能通过试 验来估计。然而,要通过专门的试验来估计它们有一定困难,因为这需要较长的年份、较多的 试点和大量的品种。所以,实际中有效的办法是利用以往区试的资料来估计,但估计时应注 意以下两个问题。 (1)在选用资料时,一方面,所用区试资料应尽量多一些,因为较少资料估计的方差组分 不可靠:另一方面,不能因一味追求资料多而利用太陈旧的资料,因为太旧的资料是在较耳 的气候和栽培条件下获得的,品种特性及试验环境与当前区试都会有较大差别,以之估计的 方差组分难以代表现在区试中的各种变异特点。一般来说,应采用近5~10年来的区试资 料。 (2)在估计方法上,可按各轮区试分别作方差分析(ANOVA),然后由各轮分析合并求 出各方差组分,这在计算上易于实现,但常会遇到各轮分析的自由度不等的问题。另外,也可 以把几轮区试资料看作一套多年多点多品种的非均衡资料,采用最小范数二次无偏估计 (MINQUE)、最小方差二次无偏估计(MIVQUE)、极大似然(ML)估计或限制性极大似然 (RML)估计等直接估算各方差组分,这些方法在理论上相对较完备一些,但计算上不易实 现,尤其是ML和RML方法,计算量较大(数据量大时更是如此):相比之下,其中 MINQUE和MIVQUE法的计算量相对较小,目前在一般微机上可以完成。 2.2分布值Z。和Z:的确定 因为各方差组分由多年的区试资料估计得到,自由度较大,所以由这些组分按(4)式计 算出的品也就有较大的自由度,因此,Z。和Z,可由u分布近似决定。此时,约束方程(8)可 写为: (u.+ug)V2(2+rai+rsoi,+rya )/ysr <o 10) a一般取0.05,3一般取0.2(即统计功效为1一0.2=80%),所以,=1.65,=0.85。特殊 情况下,也想耨赛践中发生第一类和第二类错误的相对严重性作调整。可见,对区试精度 的要求,是由 a,B和ò。来共同体现的。区试精度的完整含义是在一定显著水平。下,试验有
的 !"#"$值%其完整的规划模型如下& 目标函数&’() *+!%#%$,- !#$ +., 约束条件&+/01/2, 3+43 51 $43 6781 $#43 671 $!43 9 68,:!#$;<= +>, !?@!@!3%#?@#@#3%$?@$@$3A!%#%$均为整数 +B, +B,式为另外增加的一些约束条件%其中 !?和 !3"#?和 #3"$?和 $3分别是对 !"#"$实际可行 的取值范围的限制%又由于 !"#"$均为正整数%所以求解可采用简单的穷举法C3D E F 实际应用中模型参数的确定 应用此规划模型的关键%在于模型中的各参数的确定E这些参数包括方差组分 4 3 5"4 3 67"4 3 68 和 4 3 678%分布值 /0和 /2%精度要求 <=以及 !?"!3"#?"#3"$?"$3等E能否合理地确定或估计这些 参数%直接关系到优化结果的好坏E FGH 方差组分 4 F I"4 F JK"4 F JL和 4 F JKL的估计 方差组分 4 3 5"4 3 67"4 3 68"4 3 678因不同类型+包括不同作物和不同区域,的区试而异%需要针对 具体作物和区域来进行估计E也就是说%方案优化应针对不同类型的区试进行%不同区试的 最佳 !"#"$是不同的E对于某特定的区试来说%这些方差组分的真值无法得知%只能通过试 验来估计E然而%要通过专门的试验来估计它们有一定困难%因为这需要较长的年份"较多的 试点和大量的品种E所以%实际中有效的办法是利用以往区试的资料来估计%但估计时应注 意以下两个问题E +?,在选用资料时%一方面%所用区试资料应尽量多一些%因为较少资料估计的方差组分 不可靠A另一方面%不能因一味追求资料多而利用太陈旧的资料%因为太旧的资料是在较早 的气候和栽培条件下获得的%品种特性及试验环境与当前区试都会有较大差别%以之估计的 方差组分难以代表现在区试中的各种变异特点E一般来说%应采用近 MN?=年来的区试资 料E +3,在估计方法上%可按各轮区试分别作方差分析+OPQRO,%然后由各轮分析合并求 出各方差组分%这在计算上易于实现%但常会遇到各轮分析的自由度不等的问题E另外%也可 以把几轮区试资料看作一套多年多点多品种的非均衡资料%采用最小范数二次无偏估计 +’SPTUV,"最小方差二次无偏估计+’SRTUV,"极大似然+’W,估计或限制性极大似然 +X’W,估计等直接估算各方差组分%这些方法在理论上相对较完备一些%但计算上不易实 现%尤 其 是 ’W和 X’W方 法%计 算 量 较 大 +数 据 量 大 时 更 是 如 此,A相 比 之 下%其 中 ’SPTUV和 ’SRTUV法的计算量相对较小%目前在一般微机上可以完成E FGF 分布值 Y0和 Y2的确定 因为各方差组分由多年的区试资料估计得到%自由度较大%所以由这些组分按+Z,式计 算出的 4 3 [ 也就有较大的自由度%因此%/0和 /2可由 \分布近似决定E此时%约束方程+>,可 写为& +]01]2, 3+43 51 $43 6781 $#43 671 $!43 9 68,:!#$;<= +?=, 0一般取 =G=M%2一般取 =G3+即统计功效为 ?^=G3->=_,%所以 ]0-?G‘M%]2-=G>ME特殊 情况下%也可根据实践中发生第一类和第二类错误的相对严重性作调整E可见%对区试精度 的要求%是由 0"2和 <=来共同体现的E区试精度的完整含义是在一定显著水平 0下%试验有 Z期 张群远等&利用非线性规划进行作物品种区域试验方案的优化 3. 万方数据
28 中国农业科学 33卷 1一B的概率能鉴别出来的品种间真实差异6。总之,a、B和ò。愈小,对区试精度的要求愈高 值得一提的是,这里“。与,采用的都是右尾值。因为区试的主要目的是测验新品种是 否显著地比对照增产一定百分数,故应该采用右尾测验。 2.3区试要求鉴别的真实差异,的确定 上面提及,所需鉴别差异δ。是区试精度要求的一个重要方面。6。的大小,与我们所规定 的新品种应比对照增产的显著百分数有关。也就是说,若区试中规定,新品种必须比对照增 产的显著百分数达D%以上才能推广,那么,一个区试所能鉴别的差异必须小于对照产量的 D%才符合精度要求。若某区试对照产量为YK,则所需鉴别差异为。=YK×D%,此时 (10)式可进一步改写为: (uuv2(+ro+rsoryo/ysr YCK (11) 这样,确定ò。的问题就成了估计Yx和规定D%的问题。按我国目前有关品种审定的规 定,D%一般为10%:Yx则可用近年区试中对照的均值来估计。 2.4年份数、试点数和重复数的可行性范围界值y1和y2,51和s2以及r1和r2的确定 一般说来,为提高新品种推广的速度,区试年份数应尽量少,不宜超过3年:为反映出基 因型与环境的互作特性,试点数至少要在2个以上,但不可能太多(譬如多于50个,大型的 国际性区试除外):至于重复数,至少2个,最多不超过10个。因此,一般情况下,可以取y1= 1,y2=3,51=2,s2=501=2,r2=10。实质上,这些取值并非真正的约束条件,只是把求解范 围初步确定在一个有实践意义的范围内,以减少穷举法求解的计算量。 实例分析 为说明上述规划方法的应用,现以我国黄河流域棉花品种区试为例进行方案的优化分 利用黄河流域1985~1996年共6轮常规棉区试的皮棉产量资料估计方差组分。试验涉 及12年、24个点以及45个品种,把所有资料看作一套年份×试点×品种的非均衡试验数 据,用MIVQUE法估计得到=1824.75(kg/ha)2,品=1316.25(kg/ha)2,说.=8768.25 (kg/ha)2,=6921.00(kg/ha)?。另根据该区试1989~1998年的试验结果,估计出对照品种 (中棉所12)的平均产量Ycx=1035kg/ha。其余参数根据上一节论述确定为:a=0.05,B= 0.2,=1.64,a=0.85,D%=10%,y=1,y2=3,51=2,52=50,m1=2,r2=10。把上述估值 和取值代入(7)、(9)和(11)式,即得到黄河流域棉花品种区试方案的非线性规划模型如下 目标函数:Min f(y,s,r)=ysr (12) 约束条件:0.003416√(6921.00+8768.25r+1824.75rs+1316.25y)/sr<10% (13) 1≤y≤3,2≤≤50,2≤r≤10:y,s,r均为整数 (14) 对以上模型求解得到最优解为y=3,s=22,r=2。相应计算和分析利用SAS6.12和 Excel97完成。 从求鳄绣费知,黄河流域棉花品种区试要达到10%的精度,且试验费用又最少,其最 佳方案是3年、22个点、2次重复。由(12)和(13)式可知,此方案中每个参试品种所用小区总
!"#的概率能鉴别出来的品种间真实差异 $%&总之’()#和 $%愈小’对区试精度的要求愈高& 值得一提的是’这里 *(与 *#采用的都是右尾值&因为区试的主要目的是测验新品种是 否显著地比对照增产一定百分数’故应该采用右尾测验& +,- 区试要求鉴别的真实差异 $.的确定 上面提及’所需鉴别差异 $%是区试精度要求的一个重要方面&$%的大小’与我们所规定 的新品种应比对照增产的显著百分数有关&也就是说’若区试中规定’新品种必须比对照增 产的显著百分数达 /0以上才能推广’那么’一个区试所能鉴别的差异必须小于对照产量的 /0才符合精度要求&若某区试对照产量为 123’则所需鉴别差异为 $%41235 /0’此时’ 6!%7式可进一步改写为8 6*(9*#7 :6;: <9 =;: >?@9 =A;: >?9 =B;: C >@7DBA= 123 E/0 6!!7 这样’确定 $%的问题就成了估计 123和规定 /0的问题&按我国目前有关品种审定的规 定’/0一般为 !%0F123则可用近年区试中对照的均值来估计& +,G 年份数)试点数和重复数的可行性范围界值 HI和 H+)JI和 J+以及 KI和 K+的确定 一般说来’为提高新品种推广的速度’区试年份数应尽量少’不宜超过 L年F为反映出基 因型与环境的互作特性’试点数至少要在 :个以上’但不可能太多6譬如多于 M%个’大型的 国际性区试除外7F至于重复数’至少 :个’最多不超过 !%个&因此’一般情况下’可以取 B!4 !’B:4L’A!4:’A:4M%’=!4:’=:4!%&实质上’这些取值并非真正的约束条件’只是把求解范 围初步确定在一个有实践意义的范围内’以减少穷举法求解的计算量& - 实例分析 为说明上述规划方法的应用’现以我国黄河流域棉花品种区试为例进行方案的优化分 析& 利用黄河流域 !NOMP!NNQ年共 Q轮常规棉区试的皮棉产量资料估计方差组分&试验涉 及 !:年):R个点以及 RM个品种’把所有资料看作一套年份5试点5品种的非均衡试验数 据’用 STUVWX法估计得到 ;Y: >?4!O:R,ZM6[\D]^7: ’;Y: >@4!L!Q,:M6[\D]^7: ’;Y: >?@4OZQO,:M 6[\D]^7: ’;Y: <4QN:!,%%6[\D]^7: &另根据该区试 !NONP!NNO年的试验结果’估计出对照品种 6中棉所 !:7的平均产量 1234!%LM[\D]^&其余参数根据上一节论述确定为8(4%,%M’#4 %,:’*(4!,QR’*#4%,OM’/04!%0’B!4!’B:4L’A!4:’A:4M%’=!4:’=:4!%&把上述估值 和取值代入6Z7)6N7和6!!7式’即得到黄河流域棉花品种区试方案的非线性规划模型如下8 目标函数8S_‘ a6B’A’=74 BA= 6!:7 约束条件8%,%%LR!QC6QN:!,%%9OZQO,:M=9!O:R,ZM=A9!L!Q,:M=B7DBA=E!%b 6!L7 !cBcL’:cAcM%’:c=c!%FB’A’=均为整数 6!R7 对以上模型求解得到最优解为 B4L’A4::’=4:&相应计算和分析利用 dedQ,!:和 Xfg<hNZ完成& 从求解结果可知’黄河流域棉花品种区试要达到 !%0的精度’且试验费用又最少’其最 佳方案是 L年)::个点):次重复&由6!:7和6!L7式可知’此方案中每个参试品种所用小区总 :O 中 国 农 业 科 学 LL卷 万方数据
4期 张群远等:利用非线性规划进行作物品种区域试验方案的优化 29 数为132个,试验的鉴别精度达9.98%,意味着该方案在0.05显著水平和80%的统计功效 下,能鉴别出超过对照产量9.98%以上的真实差异,即1035×9.98%=103.29kg/ha。以往 黄河流域棉花区试采用2年、20个左右的点、4次重复的方案。与最佳方案相比,试点数基本 合适,但年份数稍嫌不足,重复数过多。同理,由(12)和(13)式可知,以往方案中每个参试品 种所用小区总数为160个,试验的鉴别精度为12.03%。可见,以往的方案根据经验制定,与 优化得到的方案相比,所花费的小区数多出21%左右,但试验鉴别精度反而降低2.03%。在 +∞,r=+∞时,对(13)式左边求极限得10.32%。这说明,若以往方案保持年 份数2不变,只靠增加试点数和重复数来提高试验精度,效果并不明显。即使试点数和重复 数无限增加,鉴别精度也达不到10%。当然,区试增加1年,一方面可提高品种比较的精度 (同时还可提高品种稳定性分析的可靠性),但另一方面会减弱新品种推广的速度。为解决这 一矛盾,可采用“滚动式”的区试方案(目前我国不少区试已开始这样做),每年保留一部分有 希望的品种,剔出一些明显很差的品种,同时加入一部分新的参试品种。但这样做也应尽量 使有希望的品种和对照共同参试满3年,以保证它们和对照的比较有足够的精度。至于重复 数,该区试目前的4个重复似乎过多。由(13)式可知,y=3,s=22,r=4的方案,其鉴别精 度为9.82%,也只比r=2的最优方案提高0.16%。可见,增加2个重复对试验的鉴别精度 并无明显改进,所以,重复数为2就够了。事实上,前人研究也发现,区域试验的年份数和试 点数对试验精度的影响远远大于重复数的影响。 讨论 本文非线性规划模型的构建中,核心是建立区试精度的约束方程,因此,构建合理反映 区试精度的指标是整个优化问题的关键。Steel和Torrie曾指出,试验的精确度是以平均 数的标准误差的倒数来衡量的,即1=1/=n/2,所以,降低试验误差。和增加重复数n可 提高试验精确度;他们以及Cochran和Cox”曾研究了一定误差水平下鉴别一定差异所需 的重复数:Lin和Binnscc把Cochran和Cox的方法稍作改进后用于区试精度的研究:俞世 蓉和吴兆苏)曾采用Lin和Bins的方法研究了我国江苏淮南小麦区试的精确度;俞世蓉 和陆作楣等还研究了区试中在一定显著水平下欲鉴别的品种差异与误差变异系数大小的 关系,并对山东小麦区试的精度作分析 需要指出的是,以上这些对试验精度的研究皆基于单次或单年单点试验,均把试验误差 和试验精度看作是一致的。然而,区试往往是多年多点(或一年多点)试验,其整体精度不仅 与试验误差有关,还受基因型与环境互作等众多因素的影响,因此,仅用试验误差大小及其 相应指标来衡量区试精度是不够的。针对这一缺陷,孔繁玲和张群远等曾提出了区试中误 差精确度和品种比较精确度的概念及指标,但其指标中未考虑统计功效。本文引入统计功 效,提出了反映区试鉴别精度的指标DRD(见5式),并以之构建约束方程。DRD包含了显 著水平a、统计功效1一3、试验误差、基因型与环境互作氏、和民,乃至测验方法(u测 验还是:测验,一尾测验还是两尾测验等)等因素,可全面地反映一个区试的综合精度,是较 为合理的区试精度指标。若把DRD除以试验均值,消除单位的影响,得到相对DRD (RDRD,Relative DRD),便可在不同性状和不同区试间进行比较。 最后强鹅是,本文DD指标构建中确定品种均值方差的组成时,是把年份和试点 的。DRD所反映的区试精度是指品种比较的精度,也受方差分析模型的影响
数为 !"#个$试验的鉴别精度达 %&%’($意味着该方案在 )&)*显著水平和 ’)(的统计功效 下$能鉴别出超过对照产量 %&%’(以上的真实差异$即 !)"*+%&%’(,!)"&#%-./012以往 黄河流域棉花区试采用 #年3#)个左右的点34次重复的方案2与最佳方案相比$试点数基本 合适$但年份数稍嫌不足$重复数过多2同理$由5!#6和5!"6式可知$以往方案中每个参试品 种所用小区总数为 !7)个$试验的鉴别精度为 !#&)"(2可见$以往的方案根据经验制定$与 优化得到的方案相比$所花费的小区数多出 #!(左右$但试验鉴别精度反而降低 #&)"(2在 8, #$9,: ;$<,: ; 时$对5!"6式左边求极限得 !)&"#(2这说明$若以往方案保持年 份数 #不变$只靠增加试点数和重复数来提高试验精度$效果并不明显2即使试点数和重复 数无限增加$鉴别精度也达不到 !)(2当然$区试增加 !年$一方面可提高品种比较的精度 5同时还可提高品种稳定性分析的可靠性6$但另一方面会减弱新品种推广的速度2为解决这 一矛盾$可采用=滚动式>的区试方案5目前我国不少区试已开始这样做6$每年保留一部分有 希望的品种$剔出一些明显很差的品种$同时加入一部分新的参试品种2但这样做也应尽量 使有希望的品种和对照共同参试满 "年$以保证它们和对照的比较有足够的精度2至于重复 数$该区试目前的 4个重复似乎过多2由5!"6式可知$8, "$9, ##$<, 4的方案$其鉴别精 度为 %&’#($也只比 <, #的最优方案提高 )&!7(2可见$增加 #个重复对试验的鉴别精度 并无明显改进$所以$重复数为 #就够了2事实上$前人研究也发现$区域试验的年份数和试 点数对试验精度的影响远远大于重复数的影响?7@ 2 A 讨论 本文非线性规划模型的构建中$核心是建立区试精度的约束方程$因此$构建合理反映 区试精度的指标是整个优化问题的关键2BCDDE和 FGHHID ?!!@曾指出$试验的精确度是以平均 数的标准误差的倒数来衡量的$即 J,E/K #ML, N/K # $所以$降低试验误差 K #和增加重复数 N可 提高试验精确度O他们以及 PGQ0H1R和 PGL?S@曾研究了一定误差水平下鉴别一定差异所需 的重复数OTIR和 UIRRV ?!)@把 PGQ0H1R和 PGL的方法稍作改进后用于区试精度的研究O俞世 蓉和吴兆苏?"@曾采用 TIR和 UIRRV的方法研究了我国江苏淮南小麦区试的精确度O俞世蓉 和陆作楣等?4@还研究了区试中在一定显著水平下欲鉴别的品种差异与误差变异系数大小的 关系$并对山东小麦区试的精度作分析2 需要指出的是$以上这些对试验精度的研究皆基于单次或单年单点试验$均把试验误差 和试验精度看作是一致的2然而$区试往往是多年多点5或一年多点6试验$其整体精度不仅 与试验误差有关$还受基因型与环境互作等众多因素的影响$因此$仅用试验误差大小及其 相应指标来衡量区试精度是不够的2针对这一缺陷$孔繁玲和张群远等?*@曾提出了区试中误 差精确度和品种比较精确度的概念及指标$但其指标中未考虑统计功效2本文引入统计功 效$提出了反映区试鉴别精度的指标 WXW5见 *式6$并以之构建约束方程2WXW包含了显 著水平 Y3统计功效 !Z[3试验误差 K # D3基因型与环境互作 K # \]3K # \V和 K # \]V$乃至测验方法5^测 验还是 C测验$一尾测验还是两尾测验等6等因素$可全面地反映一个区试的综合精度$是较 为合理 的 区 试 精 度 指 标2若 把 WXW 除 以 试 验 均 值$消 除 单 位 的 影 响$得 到 相 对 WXW 5XWXW$XDE1CI\DWXW6$便可在不同性状和不同区试间进行比较2 最后需强调的是$本文 WXW指标构建中确定品种均值方差的组成时$是把年份和试点 效应看作随机的2WXW所反映的区试精度是指品种比较的精度$也受方差分析模型的影响2 4期 张群远等_利用非线性规划进行作物品种区域试验方案的优化 #% 万方数据