中同农业科学2002,35(4):365-371 Scientia Agncultura Sinica 作物品种区域试验统计分析模型的比较 张群远,孔繁玲 53 A (中四农大学植物传育种系,北京10009】 清要:通过对作物品种区城试验中有关品种×环流组合均值估计的主要统计分析模型进行戮迷和比较,改进发 出LR-PCA复合模型,并通过数据实例的交叉脸证对各种镁型的预测精度进行比较。结果表明,各种膜型的精度 茅者RPCA复合模型>AMI饿型>PCA模型>处理均值模型>问归模型>ANOVA加性主救模型:LRPA复 合模型的预满精度是算术平均值的1.55倍,比AMMI模型的情度提高了8.4%。景后对LR-PCA模型的应用问题作 7计论 关词:作物育种半:区试验:统计型:预测精度 Comparison of Statistical Models for Regional Crop Trial Analysis ZHANG Qun-yuan,KONG Fan-ling Abstract:Based on the review and comparison of several main statistical analysis models for estimating the variety-vmcl eans in regional,LR-PCAe mdel was propd and the predictive precisions of these models were compared by validation ta.Results showed that the order of model precisions was LR-PCA model AMMI model PCA model Treatment Means (TM)model >L ear Regression(LR)model ANOVA Additive Main Effeet model.The gain factor of LR-PCA model was 1.55,increased by 8.4%compared with AMMI Key words:Crop breeding science:Regional trial:Statistical Model:Predictive precision 作物品种区域试验(简称区试)的目的是对参试 磊等也在区试中对AMM!模型作了一些应用研 品种在多环境下的表现进行比较和评价,所以,如何 。从统计理论的角度看,要对品种×环境兰 准确估计各品种在各环境下的性状值(以下统称品 合均值作出估计或预测,有赖于具体的统计模型。 种×环境组合均值)为其统计分析的重要内容 我 本文对区试中品种×环境组合均值估计的主要模型 国区试中历来采用算术平均值,虽简易,但存在一定 作概述,比较和政进,并通过数据实例对各种模型的 局限。一方面,算术平均值要获得准确估值,需较多 预测精度进行比较,同时探讨各种模型的实际应用 重复数:另一方面,算术平均值是对品种试验表现的 事后描述,并非对品种未来表现的预测,而后者具有 1 模型的概述和比较 更重要的实践意义。近年来,国外不少研究表明, 些方法对品种×环境组合均值的预测精度往往高于 为便于论述,以下各种模型均以m个品种,5 算术平均值~引,其中加性主效乘式互作(additive 个环境(通常是地点或地点×年份的组合环境)、? main effects and multiplicative interaction,AMMI 次重复的区域试验为例,第;个品种在第j个环境 模型就是最主要的一种,已被CIMMYT和IRRI等 中的第k次重复观测值记为Y。各种模型的实质 国际性育种机构以及很多研究者广泛采用:我国王 就是把Y表达成不同的理论构成。 收璃日期:200006-15 善金项日:国家自然科学基全资勒啜日(3007m3 作者葡介:张群远(1970-),男,云南宜藏人,刷教授,博上,主要从事农业试验统计和数量奢传的教学和研究。Td:010-62893397:Fx:010 62892568:E-mail:(263.net 万方数据
中国农业科学2002,35(4):365 371 墅!!!!!!!竖!坐!!翌皇坐望 作物品种区域试验统计分析模型的比较 张群远,孔繁玲 55 (中国农业大学植物遗传育种系,北京100094) 摘要:通过对作物品种区域试验中有关品种×环境组合均值估计的主要统计分析模型进行概述和比较.改进提 出LR-PCA复合模型,并通过教据实例的交叉验证对各种模型的预测精度进行比较。结果表明.各种模型的精度鞭 亭为LR-PCA复台模型>AMMI模型>PCA模型>处理均值模型>回归横型>ANOVA加性主效模型;LRKIA复 台模型的预测精度是算术平均值的1 55倍,比AMMI模型的精度提高了8 4%。最后对LR—PCA模型的应用问题作 了讨论。 关键词:作物育种学;区域试验;统计模型;预测精度 Comparison of Statistical Models for Regional Crop Trial Analysis ZHANG Qun—yuan,KONG Fan—ling (Oepartrm,nt吖PlantGenetics andBreeding,GHinaAgriculturalUnivera妇.Beljin9100094) Abstract:Based on the review and comparison of several main atatistieal analysis n_cdels for estimating the variety—environment cell means in regional crop trials,a new statistical model,LR—PCA composite model WON prDpB剥,and the predictive preciNons of these models were compared by cr08s validation of a 5el of Pxamp】e da— ta.Resuhs showed that the order of model precisions wON LR—PCA model>AMMI model>PCA model> Treatment Means(TM)rflodel>Linear Regression(LR)model>ANOVA Additive Main Effect model.The gain[actor of LR-PCAmodelwasl.55.increased by 8.4%comparedwith^hnⅡI. Key words:Crop breeding science;Regional thai;Statistical Model;Predictive precision 作物品种区域试验(简称区试)的目的是对参试 品种在多环境下的表现进行比较和评价,所以,如何 准确估计备品种在各环境下的性状值(以下统称品 种X环境组合均值)为其统计分析的重要内容。我 国区试中历来采用算术平均值,虽简易,但存在一定 局限。一方面,算术平均值要获得准确估值,需较多 重复数;另一方面,算术平均值是对品种试验表现的 事后描述,并非对品种未来表现的预测,而后者具有 更重要的实践意义。近年来,国外不少研究表明,一 些方法对品种×环境组合均值的预测精度往往高于 算术平均值Hq】,其中加性主效乘式互作(additive main effects and multipficative interaction,AMMI) 模型就是最主要的一种,已被cIn皿仃T和IRRI等 国际性育种机构以及很多研究者广泛采用;我国王 磊等也在区试中对AMMl模型作r~些应用研 究14“j。从统计理论的角度看,要对品种×环境组 合均值作出估计或预测,有赖于具体的统计模型。 本文对区试中品种×环境组合均值估计的主要模型 作概述、比较和改进,并通过数据实例对各种模型的 预测精度进行比较,同时探讨各种模型的实际应用 问题。 1模型的概述和比较 为便于论述,以下各种模型均以m个品种,S 个环境(通常是地点或地点×年份的组合环境),r 次重复的区域试验为例,第i个品种在第j个环境 中的第女次重复观测值记为y“。各种模型的实质 就是把k*表达成不同的理论构成。 收藕日期:2000416—15 基盒项目:国家自然科学基金资助项VI(3fD70433) 作春简介:张群远(J970一),男,云南宣威^,副教授,博上,主要从事农业试验统计和数量遗传的教学和研究。Tel:010 62893397;Fax:010 62892568;E-rmihzhm蜒qtmyuan@263 net 万方数据
366 中国农业科学 35卷 1.1处理均值(TM)模型 直线回归(linear regression,LR)模型在区试中 我们常常用算术平均值来估计各品种在各环境 有着广泛的应用。Yats和Cochran9,Finlay和 下的表现,所依据的是最简单的一种线性模型: Wil-kinson1)、Eberhart和Russell u),Perkins和 Y=+e (1) Jinks2i,Freeman和Perkins)以及Tai等人不 4为第i个品种在第j个环境中的均值:e#为 断发展应用LR模型进行区试中的品种稳定性分 第:个品种在第)个环境中的第次重复观测值的 析。若以环境效应e:作为环境指数,则根据Eber 误差。以上模型通常称为处理均值(treatment hart和RuscelI以及Perkins和Jinks2的方法,区 means,TM)模型l,它把观测值表示为处理均值加 试中的LR模型可采用如下两种方式表达: 上误差的形式,实际分析中是用第个品种在第 Y读=μ+g+%,+6+e (7) 个环境中的算术平均值对一,作出估计,即 Yi=u+gi+e:+Breit ou+ei 8) 九=Vg=名Y (2) 民为品种;在环境中的均值对环境效应马的 Y即为第;个品种在第)个环境中的算术平均 回归系数:B为品种i的互作效应0,对环境效应g 值,它是的最佳线性无偏估计,具有最小二乘特 的回归系数(不难看出,B=1+B”):.为中的回 性。由于这一模型十分简单和可现,所以实际应用 归剩余部分,也即互作效应中无法由环蟑数应米线 中往往不对其作专门说明 性解释的部分。回归模型其实是把ANOVA模型 1,2方差分析(ANOVA)模型 中的互作9分解成了回归和剩余两部分(e+ 方若分析(analysis of variande.ANOVA)县我国 )。模型中除加性之外参数,还引人了乘式参数 目前区试中最主要的一种分析方法,它所依据的线 (B;e)。模型中g、g:和g的估计同ANOVA模 性可加模型统称为ANOVA模型。区试数据的 型,品和(1+B)由下式估计 ANOVA模型所依据的主要是组合内有重复观测值 的两向数据的线性可加模型?, ,若略去区组效应 A=1+,-(宫,空y (9) 其模型式可表达如下: ()-(/s (3) 区试中,母然LR模刑主要用于描述品种表现 “为观测值所属总体的均值:g为第;个品种 依环境的直线变化趋势,进行品种稳定性分析;但就 的效应:为第)个环境的效应:,为第个品种与 模型本身而言,也提供了一种回归预测各品种在名 第;个环境的基因型×环境(GE)互作效应。这 环境中的表现方法。结合(4)式和(7)式,得出处理 模型实质上是把TM棋型中的,分解为以上4种 均值的回归预测式如下: 构成,按照ANOVA的效应估计方法.1,它们可分 阳=r+g:+B躬=下+A(Y,-Y) (10) 别通过以下算式来估计: L.4主成分分析(PCA)模型 a=Y,g=Y-,,=了-7 主成分分析(principalmyis,,PCA) a=7-Y.-Y.+Y (4) 是利用高维变量间的相关性,通过坐标轴变换把主 了为试验总均值:Y为第:个品种的试验均 要信息压缩到少数几个低维变量上,以简化问题的 一种统计分析方法[5。Fisher和Mackenzie最早把 值:了,为第个环境的试验均值;T。同(2)式。根 PCA用于品种试验研究I6。PCA模型的基本形式 据ANOVA模型,结合(4)式可看出,对处理均值, 如下 可以有两种估计方法: %=+g+,=+y-Y (5) Yt=u+2A。Mnym+Bg+ew (11 =应+g+g+a=Yn (6) 入,为减去总均值后的品种×环境两向均值矩 (5)式只利用加性主效来估计处理均值0:(6) 阵的第n个PCA轴的奇异值(singular value)in为 式则考虑了互作,其估计结果与TM模型的(2)式 第n个轴的品种特征向量(eigenvector)中对应于品 致,不同的是,ANOVA模型还可估计出品种主 种i的元素:为第n个轴的环境特征向量中对应 效,环境主效和互作效应。 于环境j的元素:为处理均值的剩余部分;a为模 1.3直线回归LR)横型 型中所用的PCA轴数,最大可取值N为品种数m 万方数据
中国农业科学 35卷 1.I处理均值fTM)模型 我们常常用算术平均值来估计各品种在各环境 下的表现,所依据的是最简单的一种线性模型: %5舶+8班 (1) 如为第i个品种在第j个环境中的均值;E。*为 第i个品种在第J个环境中的第k次重复观测值的 误差。以上模型通常称为处理均值(treatment means,TM)模型…,它把观测值表示为处理均值加 上误差的形式,实际分析中是用第i个品种在第J 个环境中的算术平均值对m作出估计,即 五i=匕=.乏‰/r (2) Yi即为第i个品种在第J个环境中的算术平均 值,它是p4的最佳线性无偏估计,具有最小二乘特 性。由于这一模型十分简单和可现,所以实际应用 中往往不对其作专门说明。 1.2方差分析{,ANOVA)模型 方差分析(analysis of variance,ANOVA)是我国 目前区试中最主要的一种分析方法。它所依据的线 性可加模型统称为ANOVA模型。区试数据的 ANOVA模型所依据的主要是组合内有重复观测值 的两向数据的线性可加模型【7,…,若略去区组效应, 其模型式可表达如下: yim=F+曲+ej+00+eOk (3) 卢为观测值所属总体的均值;gl为第i个品种 的效应;e/为第J个环境的效应;00为第i个品种与 第i个环境的基因型×环境(GE)互作效应。这一 模型实质上是把TM模型中的Pd分解为以上4种 构成,按照ANOVA的效应估计方法[7舟1,它们可分 别通过以下算式来估计: 五=了,耋。=一Y:一一Y,e‘j=i,一一Y, a。=一Y。一E—E+7 (4) 7为试验总均值;i,为第i个品种的试验均 值;-,为第j个环境的试验均值;t,同(2)式。根 据ANOVA模型,结合(4)式可看出,对处理均值芦¨ 可以有两种估计方法: 五。,=五+主。+;,=Yi+■一Y (5) 五o=五十鱼+弓+ad=Yo (6) (s)式只利用加性主效来估计处理均值…;(6) 式则考虑了互作,其估计结果与TM模型的(2)式 一致,不同的是,A.NOVA模型还可估计出品种主 效、环境主效和互作效应。 1 3直线回归(LR)模型 直线回归(1inear删辩ssion.LR)模型在区斌中 有着广泛的应用。Yates和Coehranl9、Finlay和 Wil—kinson…J、Eberhart和Russell【II】、Perkins和 Jinksl”j、Freeman和Perkinstt3]以及1Ⅻ。14j等人不 断发展应用LR模型进行区试中的晶种稳定性分 析。若以环境效应竹作为环境指数,则根据Eberhart和RusseⅡlll o以及Perkins和Jink一”J的方法,区 试中的LR模型可采用如下两种方式表达: Yok=p+g。4-融i+8i+8址 t1) Yok=户+g,+ej+p?勺十%+6耻 (8) 雇为品种i在环境J中的均值对环境效应q的 回归系数;卢?为品种i的互作效应00x,i环境效应e/ 的回归系数(不难看出,且=1+岛’);Bij为以中的回 归剩余部分,也即互作效应中无法由环境效应来线 性解释的部分。回归模型其实是把ANOVA模型 中的互作或,分解成了回归和剩余两部分(IVej十 盈,)。模型中除加性之外参数,还引入了乘式参数 (雕q)。模型中儿gi和ei的估计同ANOVA模 型,岛和(1十口?)由下式估计: ∑yf,一一(∑Yi,)(∑K)/s 鼠=1十卢?=盥—}三÷L壬}÷一(9) ∑(K)2一(∑y。)2/s 区试中,虽然LR模型主要用于描述品种表现 依环境的直线变化趋势,进行品种稳定性分析;但就 模型本身而言,也提供了一种回归预测各品种在各 环境中的表现方法。结合(4)式和(7)式,得出处理 均值的回归预测式如下: 五。=五+罾。+向弓=z+怠(P,一丫) (10) 1.4主成分分析(FX3A}模型 主成分分析(p^nd砌oz:a'ntxllent8锄l徊s,PCA) 是利用高维变量问的相关性,通过坐标轴变换把主 要信息压缩到少数几个低维变量上,以简化问题的 一种统计分析方法[”j。Fisher和Mackenzie最早把 P(A用于品种试验研究【t6]。PCA模型的基本形式 如下: Yiik=p+薹^。Ui。h。+pv+。帅 (11) A。为减去总均值后的品种×环境两向均值矩 阵的第n个PCA轴的奇异值(singular value);‰为 第n个轴的品种特征向量(eigenveetor)中对应于品 种i的元素;v。为第n个轴的环境特征向量中对应 于环境j的元素;“为处理均值的剩余部分;n为模 型中所用的PCA轴数,最大可取值N为品种数m 万方数据
4期 张群远等:作物品种区续试验统计分析棋型的比较 367 和环境数s中的最小者,即a≤N:通常把√仄,和 矩阵受到横向总和与纵向总和均为0的限制,自由 √,分别称为品种i和环境j的第n个PCA得 度减少1个,所以,AMM模型巾a的最大可取值 分。该模型在实际应用中往往只取入值较大的前 为m-1和-1中的最小者。当a值确定时,结合(4) 几项,所以通常a<N。这时,a以后的N-a个C 式和(14)式可对区试的处理均值作出如下估计: 项被当作剩余归入中。CA模型中也引入了乘 吗-在+gt名+白iwmn=卫+可-下t 式参数(入n、4和ym),这些参数有多项,实际分析中 可加以选择;所以,PCA模型其实是- 个模型系列 (16) 对批(3)式和(11)式可看出,PCA模型相当于把 其中 、心和n的估值可通过对互作估值 ANOVA模型中g和8,之和分解为多个乘积项 (6,-Y。-T,-T,+Y)矩阵作SVD分解求得。 与离差,即 2模型的改进 -LR-PCA复合模型 gtg,+9=2入nmm+P5 (12) 从以上比较可看出,区试中各种模型都是基于 当a值确定时,结合(4)式和(11)式可对区试 观测值的两种分解方式—加性分解和乘式分解。 的处理均值作出如下估计: 乘式分解又主要通过回归和PCA的方法来实现 itg =u+=Y+ (13) 对TM模型中的,进行加性分解,即得到ANOVA 其中入、和yn的估值可通过对品种×环境 模型:进行PCA乘式分健,即得到PCA模型。对 两向值(Y,-T)矩阵进行奇异值分解((singular val- ANOVA模型中的,进行回归分解,即得到LR使 型:进行PCA分解,即得到AMI模型。总的看 ue decomposition,SVD)求得1。 来,加性分解、回归分解和PCA分解这3种分解方 实际应用中,由于对原始数据采取的中心化和 式各具特点,在区试分析中是有效和可行的,但目前 加权的方法不同,存在着多种PCA模型的变形1。 尚未全部结合在一起。若同时结合这3种分解方 AMM模型就是其中的一种。 式则可改进得到如下模型: 1.5加性主效乘式互作(AMM)横型 AMM模型由Williams提出18],Kem-pton首 Y=u名++g+p9n+4,+ 先在区试中应用9。Gauch和Zbd在区试中对 (17) AMM进行了大量研究1.20-2 I,表明AMMI在区 或Ym=u+g+g+月g,+上Ea Pigm+4 试分析中通常具有较高的预测精度,使得AMM1在 18) 区试中得到越来越多的应用。区试观测值的AM 这相当于对LR模型(7)式和(8)式中的回归离 M1模型如下: 差部分再讲行CA分解而得到.即 Y=μ++号+wrm+P%+(14) (19) 、a、和的含义与(11)式中的入、 因此,此模型可称为LR-PCA复合模型。其中 和p防对应,不同的是,AMMI模型把观测值减去 n为回归离差值矩阵的奇异值:P和qn分别为品 总均值外,又减去了品种效应和环境效应,才进 种特征向量和环墙特征向量:山为回归离差经PA PCA分解。所以,AMMI模型也称为双重中心化 分解后的剩余部分。该模型实质是对ANOVA模 (double centered)的PCA模型I,是ANOVA加性 型的互作部分,先作回归分解,再行PCA分解,其 模冠和PCA乘式模型的结合。其实质是对ANO VA模型,中的互作值进行PCA分解 即 模型参数的估计依次利用ANOVA分析,回归分析 和PCA分析即可。LR-PCA模型也是…个模型系 0。=2m3n+% (15) 列,模型中a的取值范围与PCA模型相同。a值 这样,AMMI模型 一方面保留了ANOVA模至 定后,结合(10)式和(17)式可对区试的处理均值作 中意义简明的加性主效部分,一定程度上克服了纯 出如下估计: 整PCA想冠不易解羅的缺点:一方面又利用PCA =++,+n9n=,+A(, 剖分了互作的信息,便于互作分析 与PCA模型 样,AMMI模型也是 (20) 一个模型系列。但由于互作值 Y)+sip.am 万方数据
4期 张群远等:作物品种区域试验统计分析模型的比较 和环境数s中的最小者,即n≤N;通常把‰~/i:和 。。~,A。分别称为品种i和环境J的第”个PCA得 分。该模型在实际应用中往往只取A。值较大的前 几项,所以通常a<N。这时,4以后的Ⅳ_n个PCA 项被当作剩余归入陆,中。PCA模型中也引入了乘 式参数(^。、Uin和v。),这些参数有多项,实际分析中 可加以选择;所以,PCA模型其实是一个模型系列。 对比(3)式和(11)式可看出,PCA模型相当于把 &NOVA模型中gi、o和或,之和分解为多个乘积项 与离差。即 口 gi+ej+Oo=墨A。ui。b。+Pi (12) 当日值确定时,结合(4)式和(11)式可对区试 的处理均值作出如下估计: i,,=i+薹i。Uin;,=Y+吕i扛。i。 (13) 其中A。、“;。和v,。的估值可通过对品种×环境 两向值(Yo—y)矩阵进行奇异值分解(singular val— He decomposition,svD)求得。1“。 实际应用中,由于对原始数据采取的中心化和 加权的方法不同,存在着多种PCA模型的变形-l“。 AMMI模型就是其中的一种。 1.5加性主效秉式互作(AMMI)模型 AMMI模型由Williams提出【Is],Kem-pton首 先在区试中应用【19]。Gauch和Zobel在区试中对 AMMI进行了大量研究[1·20~…,表明AM/vII在区 试分析中通常具有较高的预测精度,使得AMMl在 区试中得到越来越多的应用。区试观测值的AM— MI模型如下L1j: d y珊=p+gi+ej+互%叫,两。+%+eiik(14) ?In、Ⅻ¨zm和%的含义与(11)式中的x。“。 v。和阳对应,不同的是,AMMI模型把观测值减去 总均值外,又减去了品种效应和环境效应,才进行 PCA分解。所以,AMMI模型也称为双重中心化 (double centered)的PCA模型…,是ANOVA加性 模型和PCA乘式模型的结合。其实质是对ANO— VA模型e。,中的互作值进行PlEA分解,即 0ij 2互%‰铂+% (15) 这样。AMMI模型一方面保留了ANOVA模型 中意义简明的加性主效部分,一定程度上克服了纯 粹PCA模型不易解释的缺点;一方面又利用PCA 削分了互作的信息,便于互作分析。与PCA模型一 样,AMMI模型也是一个模型系列。但由于互作值 矩阵受到横向总和与纵向总和均为0的限制,自由 度减少1个,所以,AMMI模型巾口的最大可取值 为m一1和s一1中的最小者。当n值确定时,结合(4) 式和(14)式可对区试的处理均值作出如下估计: 忍=五+未+e‘i.蓦i。南。。弓。=z+弓一7+ 苎i…w i, (16) 其中‰、w,。和z。的估值可通过对互作估值 (O。=可。一一Y,一一Yj+Y)矩阵作SVD分解求得。 2模型的改进——LR.PCA复合模型 从以上比较可看出,区试中各种模型都是基于 观测值的两种分解方式——加性分解和乘式分解。 乘式分解又主要通过回归和PCA的方法来实现。 对TM模型中的地进行加性分解,即得到ANOVA 模型;进行PCA乘式分解,即得到PCA模型。对 ANOVA模型中的巩,进行回归分解,即得到LR模 型;进行PCA分解,即得到AMMI模型。总的看 来,加性分解、回归分解和PEA分解这3种分解方 式各具特点,在区试分析中是有效和可行的,但目前 尚未全部结合在一起。若同时结合这3种分解方 式,则可改进得到如下模型: 日 Y0k=口七gi{七e零J’善jtnPi以i.+中q q-£。诲 (17) 或Y城=p十gi+ej+0■+釜z。Pi鹕J。十‰+ e:m (18) 这相当于对LR模型(7)式和(8)式中的回归离 差部分再进行PCA分解而得到,即 %=墨r。p:。%+蛎 (19) 因此,此模型可称为LR.PCA复合模型。其中 “为回归离差值矩阵的奇异值;p:。和q,。分别为品 种特征向量和环境特征向量;十。为回归离差经PCA 分解后的剩余部分。该模型实质是对ANOVA模 型的互作部分e。先作回归分解,再行PcA分解+其 模型参数的估计依次利用ANOVA分析、回归分析 和PCA分析即可。LR—PCA模型也是一个模型系 列,模型中n的取值范围与PCA模型相同。a值确 定后,结合(10)式和(17)式可对区试的处理均值作 出如下估计: 五。=五+奇:+A匆十X÷囊:。而。=z+p。(髟一 y)+∑;囊:囊。(20) 万方数据
368 中国农业科学 35卷 其中r.、b和a的估值浦村对回白离差值 模形分别称为LR0.1RCA1、LRCA2... --Y,-a(, -Y)阵的SV1D分解求得: LR-PCA7模),采用估计式(20) 则可根据(9)式得到。 A.AMMI和LR PCA模型巾奇异值和特征 从模型构成上看,LR-PCA模型具有以下优点 向最的计算采用0R其法7 (1)LR模型在区试中广为熟知和应用,但模型 由F是比较预测精度,所以采用交又验证(cs 适合性不足,往往利余的离差较大。LR-PCA模型 validation)的方法。按照Gauch的做法L,把上述数 进一步对LR模型的剩余部分进行PCA分解, 据中各处理的4个重复随机分开,3个用于建模, 面可提高模型的适合性,另一方面又可对回归离差 个用于验证(称为1次分样)。对干每个模型的每次 部分作更深入的分析。 分样,根据以下公式计算反映模型精唐的各个指 (2)LR筷型中引人PCA后,并不改变其加性参 数和回归系数的估值。结合线性回归和P℃A分析, (I)预测差平方和均值根(root mean square pre. 可对GE互作的模式作出更全面的解释。 diction differences.RMSPD) (3)结合回归和P℃互作值进行分析,有利于 把更多的互作信息纳人模型中,提高模型对处理均 RMSPD=√(Y-Ya)2/ms (21) 值预测的精度。议是本文改进提出这一模型的主要 (2)有效重复数(,ER) 目的 ER=MSe/(RMSPDY-MSe) (22) (3)精度增指倍数(gain「actor,(GF) 3各种模型精度的比较 GF=ER/(r (23 以上公式中,Y为品种在环境;上的模型估 计(或预测)值;Y为验证观测值;ms为品种数和环 于区试中品种×环境组合均值的估计来说,预测精 境数的乘积,也即验证数据的总个数:MS为环境 度更重要。所以,下面通过数据实例对LRPC 内误差均方,由全部数据的联合方差分析获得]: 其它模型的预测精度进行比较。 1=3为建模数据的重复数。RMSPD是预测值 3.1数据和方法 和验证观褐值差值平方和均值的平方根,反陕了 鉴于AMM1是日前国际上较为流行的区试分 值和验证观测值之间的平均接近程度:有效重复 析方法,为便于比较论证,本文采用Gh的AMM 数ER是指某模型交叉验证中3个重复所达到的 专著1中作为典型引用的一套7个品种,1个环 测精度,相当于算术平均值要达到同等精度所需的 境,4次重复(即m=7,5=11,r=4)的大豆区试葱 重复数:精度增益倍数GF则是指某模型的预测精 据,进行模型精度比较(G山曾用这套数据对TM 度相当于算术平均值的倍数 每轮验证进行3000 模型和AM模型作了比较。致比较的模型如 次随机分样,对上述指标求平均,平均的RMSPD越 下: 小,FR和GF越大,表明模型预测值与验证数据起 (1)TM模型,采用估计式(2) 接近,精度越高。与Gaunch不同的是,考虑分样的 (2)ANOVA模型,采用估计式(S)。为与估计 随机误差,本文按以上方法对各种模型进行了20韩 式(6)相区别,在此称之为ANOVA加性主效模型 (共20×30000次分样)验证,计算20轮结果的均值 此时处理均值估计中不含互作成分:估计式(6)与 和标准差,以反映分样误差的大小。具体计算在 TM模型估计式(2)等价,不再单独列出 机上利用VB5,0编程实现,其中主要统计程序 (3)LR模型.采用估计式(10) (ANOVA,LR和PCA子程序)的运算结果均用SAS (4)CA系列模型(由于加=7,s=11.所以a 核算。按上述方法得到6类共23个模型的RM 取值从0到7,对应模型分别称为PCA0,PCA1 SPD、ER和GF指标的均值和标准差见表。 CA2.,.,.,PCA7模型),采用估计式(13) 3.2 模型精度分析 (5)AM系列模型(a取值从0到m-1=6, 从表中可看出,各轮交叉验证的结果比较稳定, 对应模型分别称为AMMIO、AMMI1、AMM位. 所得精度指标的标准差(SD)都很小,其中RMSPD AMMI6模型),采用估计式(16)。 的变异系数(CV)为0.035%-0.077%,其被动很 (6)LR-PCA系列模型(a取值从0到7,对应 小,这说明对本文所用数据而言,30000分样次数是 万方数据
中国农业科学 35卷 其中矗…P和q。的估值通过对回归离差值a。 =b—Y:一屈(y, Y)矩阵的SVD分解求得;B. 则可根据(9)式得到。 从模型构成I-看,LR-PCA模型具有以下优点: (1)LR模型在区试中广为熟知和应用,但模型 适合性不足,往往剩余的离差较大。I,R PCA模型 进一步对LR模型的剩余部分进行PCA分解,一方 面可提高模型的适合性,另一方面又可对回归离差 部分作更深入的分析。 (2)i。R模型中引入PCA后,并不改变其加性参 数和回归系数的估值。结合线性回归和PCA分析, 可对GE互作的模式作出更全面的解释。 (3)结合回归和PCA互作值进行分析,有利于 把更多的互作信息纳入模型中,提高模型对处理均 值预测的精度。这是本文改进提出这一模型的主要 目的。 3各种模型精度的比较 统计模型的精度有两种,即描述精度(postcfictive precision)和预测精度(predictive precision)[22 J。对 于区试中品种×环境组合均值的估计来说,预测精 度更重要。所以,下面通过数据实例对LR-PCA和 其它模型的预测精度进行比较。 3.1数据和方法 鉴于AMMI是目前国际上较为流行的区试分 析方法,为便于比较论证,本文采用Gauch的AMMI 专著-l一中作为典型引用的一套7个品种,11个环 境,4次重复(即m=7,S=11,r=4)的大豆区试数 据,进行模型精度比较(Gau,oh曾用这套数据对TM 模型和AMMI模型作了比较¨o)。欲比较的模型如 下: (1)TiM模型,采用估计式(2)。 (2)&NOVA模型,采用估计式(5)。为与估计 式(6)相区别,在此称之为ANOVA加性主效模型, 此时处理均值估计中不含互作成分;估计式(6)与 TM模型估计式(2)等价,不再单独列出。 (3)LR模型,采用估计式(10)。 (4)PCA系列模型(由于m=7,S=11,所以n 取值从0到7.对应模型分别称为PCA0、PCAl、 PCA2. .PCA7模型),采用估计式(13)。 (5)AMMI系列模型(a取值从0到m l=6, 对应模型分别称为AMMl0、AMMll、AMMl2…. MVlMl6模型),采用估计式(16)。 (6)LR—PCA系列模型(d取值从0到7,对应 模型分别称为LR-PCA0、LR—fjcA【、LR。FCA2…,. LR PCA7模型),采用估计式(20)。 PCA、AMMI和LR PCA模型巾奇异值和特征 向量的计算采用QR算法[”。 由r是比较预测精度,所以采用交叉验证(cross vaildation)的方法。按照Gauch的做法【l,把上述数 据中各处理的4个重复随机分开,3个用于建模,1 个用于验证(称为1次分样)。对于每个模型的每次 分样,根据以下公式计算反映模型精度的各个指 标…: (1)预测差平方和均值根(root lllean scluare pro— diction differences,RMSPD) 厂彳—■一———— RMSPD=、/E∑(P。Y。)2/ms (21) (2)有效重复数(effective replications,ER) ER-MSe/(RMSPDz—Mse) (22) (3)精度增益倍数(gain factor,GF) GF-ER/(r一1) (23) 以上公式中,P。为品种i在环境J上的模型估 计(或预测)值;Yi.为验证观测值;mS为品种数和环 境数的乘积,也即验证数据的总个数;MSe为环境 内误差均方,由全部数据的联合方差分析获得L81; r一1=3为建模数据的重复数。RMSPD是预测值 和验证观测值差值平方和均值的平方根,反映了预 测值和验证观测值之间的平均接近程度;有效重复 数ER是指某模型交叉验证中3个重复所达到的预 测精度,相当于算术平均值要达到同等精度所需的 重复数;精度增益倍数GF则是指某模型的预测精 度相当于算术平均值的倍数。每轮验证进行30000 次随机分样,对上述指标求平均,平均的RMSPD越 小,ER和GF越大,表明模型预测值与验证数据越 接近,精度越高。与Gaunch不同的是,考虑分样的 随机误差,本文按以上方法对各种模型进行了20轮 (共20×30000次分样)验证,计算20轮结果的均值 和标准差,以反映分样误差的大小。具体计算在微 机上利用VB5.0编程实现,其中主要统计程序 (ANOVA、I,R和P(A子程序)的运算结果均用SAS 核算。按上述方法得到6类共23个模型的RM— sPD、ER和GF指标的均值和标准差她表。 3.2模型精度分析 从表中可看出,各轮交叉验证的结果比较稳定, 所得精度指标的标准差(SD)都很小,其中RMSPD 的变异系数(CV)为0.035%~0.077%,其波动很 小,这说明对本文所用数据而言,30000分样次数是 万方数据
4期 张群远等:作物品种区域试验统计分析模型的比较 369 表6类横型的交叉验证结眼 Table Croes validation results of six types of models 被形 预测第平方和均值 有效重复数 精度增益倍数 fectiue Models RVSPDSD CV(%》 F+D (F±SD TM模型 367,21508±0.25907 0.071 3.00320±0.00976 1.00107±0.00564 480.90432±0.21424 0.045 0.7752±0.00071 0.25917=0.0041 LR柜和 471.76872±0.19283 0.041 0.83326±0.00072 0.27775±0.00042 94.877 0.03 0240240.0 379.98935±0.24723 0.06 23009+0.005 07m3+0.0035 PCA3 359.35230±0.23455 0.065 3.61655±0.01254 1.20552±0.10724 359.05948±0.261 0.7 3.4399±0.014 66±0,001 365 03881-0 0059 367.21508±0.25907 0.07 00320+0.00g7 1.0m107±0.0056 AMMI校型 480.90432±0.2142 0.04 0.77752±0.0007 0.25917±0.000 AMMI mode 0=0.2724 0.07 08174+00052 AMMI4 365.78073t0.25763 0.0 3.0999%±0.01030 1.033320.0059 AMMIS 365.61565t0.2581 0.07 3.11146±0.010 .03715±0.0060 0.7 306629:0261 0.062 5499R+00107 355.11943±0.25951 0.072 .05502±0.0172 ,35167±0.0099 LR-PCAS 363.83481±0.2519 3.2409 ±0.010 32±0. +0 00 61.3229+0.204 0.71 2.99615±0.009m 0.99872=0.0056 LR-PCA7 367.21507±0.25907 0.071 3.00320±0.00976 1.00107±0.00564 ·表示同一类校型系列中精废最高的使型 Indcates the moddl with the highest in then 足够的,其平均值受分样误差的影响很小,能够反映 效重复数为4.65,即该模型用3个重复所得估值的 各模型的精度特点。根据抽样分布的中心极限定律 精度相当于4.65个重复的算术平均值,其精度为算 可知,把以上SD和CV乘以V30000倍,可得到单次 术平均值的1.55倍,提高了55%。AMM1系列中, 分样的SD和CV。RMSPD单次分样的CV为 AMM2模型精度最高,其行效重复数和精度增益 6.12%-13.33%,说明单次分样会产生不小的误 倍数分别为4.29和1.43,精度比算术平均值提总 差,这也正是交义验证要进行多次(30000次)分样 43%。LR-PCA1和AMM2相比,有效重复数增 求平均的原因。此外,根据RMSPD的CV值还可 加了4.65-4.29=0.36个,精度增益倍数提高了 看出,不同模型对数据分样的稳定性存在一定差异。 1.55-1.43=0.12,精度提高幅度为(1.55-1.43) 相对而言,LR,ANOVA以及PCA取轴数少的模利 1.43×100%=8.4%。这些结果意味着,在区试数 稳定性较高。 据与本文所用数据基本相似的情况下,若精度要求 表中表明,各类模型按精度从大到小的顺序为 一定,用AMMI分折比用算术平均值分析可以节然 LR.PCA模型(IR-PCAI)>AMMI模型(AMM2) (1.43-1)1.43×100%=30.0%的试验小区重 >PCA模型(ICA4)>TM模型>LR模型>ANO 数,而用LR-PCA分析可节约(1.55-1)1.55× VA加件主效模应。总的说来,利用PCA分解的模 100%=35.5%的试验小区数,比AMM1又多节约 型精度较高。其中LR-PCA1模型精度最高,其有 5.5%。这对实际区试来说,是很有意义的 万方数据
4期 张群远等:作物品种区域试验统计分析模型的比较 369 表6类模型的交叉验证结果 Table Cross validation r∞ulb of six types of modds 模型 Models 预测差平^和均值根 Root m—square prediction difference 有效重复数 精度增益倍数 Effective replications (;ain faClOr$ RMSPD!SD CV(%) ER!SD C-F!SD 00107 1Il 110564 TM模删 Tr啪u1瑚t mBⅡB model 芷州A加性主教模型 A№VA additive mmneffect lilodeI LR模塑 Linear regr雌ion model PcA模型 PCA model AMMI摸礁 AMMI model LR.PCA复台模型 LR PCAeccapositc rHxlel I℃A0 PCAl P£A2 PCA3 PCA4’ PCA5 H、A6 PcA7 AMMl0 AMMn AMMl2。 AⅥM13 AMMl4 AⅢ15 AMMl6 LR。P【jA0 LR.PCAl LR PCA2 LR PCA3 I』R—PCA4 LR.PCA5 LR.PCA6 1.R.PCA7 367 215081 0 25907 0 071 3 00320 1 0 11D76 0 045 0 77752i 0 00071 0 25917=0 0004 0 041 0 83326±0 00072 0 27775 1 0 00042 0 1309010 00006 0 72035i 0 00062 2 34009±0 00586 3 61655 1 0 01254 3 64399 1 0.01416 3 148301 0 01055 3“642±0 01036 3 00320±0 00976 0 77752±0 00071 4 21993 1 0 01949 4 29158 10 01937 3 2452210 01083 3 09996 1 0 01030 3 11146±0 01039 3 00320±0 00976 0 83326 1 0 00(172 4 6469510.01859 4 05502 1 0 01720 3 24096 1 0 01094 3 0820l=0 00991 3 04504 10【)0991 2 99615 1 0 00977 3 00320 1 0 00976 表示同一类模型系州中精度最高的模型lndicams the model with the highesl precision in the洲e serial models 足够的,其平均值受分样误差的影响很小,能够反映 各模型的精度特点。根据抽样分布的中心极限定律 可知,把以上SD和CV乘以3,/3删倍,可得到单次 分样的SD和CV。RMSPD单次分样的cv为 6 12%~13.33%,说明单次分样会产生不小的误 差,这也正是交叉验证要进行多次(30000次)分样 求平均的原因。此外,根据RMSPD的CV值还町 看出,不同模型对数据分样的稳定性存在一定差异。 相对而言,LR、ANOVA以及PCA取轴数少的模型 稳定性较高。 表中表明,各类模型按精度从大到小的顺序为: LR—PCA模型(I.R—PCAl)>AMMI模型(AMMl2) >PCA模型(PCA4)>TM模型>LR模型>ANO— VA加性主效模型。总的说来,利用PCA分解的模 型精度较高。其中LR.PCAI模型精度最高,其有 效重复数为4.65,即该模型用3个重复所得估值的 精度相当于4.65个重复的算术平均值,其精度为算 术平均值的1.55倍,提高-广55%。AMMI系列中, AMMl2模型精度最高,其有效重复数和精度增益 倍数分别为4.29和1.43,精度比算术平均值提高 f-43%。LR-PCAl和AMMl2相比,有效重复数增 加了4 65 4.29=0 36个,精度增益倍数提高r l 55 1.43=0 12,精度提高幅度为(1 55 l 43)/ 1.43×100%=8.4%。这些结果意味着,在区试数 据与本文所用数据基本相似的情况下,若精度要求 一定,用AMMl分析比用算术平均值分析可以节约 (1 43 1)/1.43×100%=30 0%的试验小区重复 数,而用LR—PCA分析可节约(1 55~1)/1.55× 100%=35.5%的试验小区数,比AMMI又多节约 5.5%。这对实际区试来说,是很有意义的。 ㈣㈣鼢啪啷嗍{宝!耋㈣ⅢⅢ惭|宝嗍{耋㈣㈣㈣哪;詈|堇l宝㈣ ∞拍鲫H"胂%甜叭硝博嚣:金椰酣靶乃鸲驼佗他“矾 0 0 O 0 O O O O 0 0 0 0 O 0 O O 0 O 0 0 0 0 0 +;: ±=: ±:一±_I±:+一: ±±1I± 3 2 3 2 6 3●7 7 4 3 4 2 5 7 5 8 7 2 4●2 7 6●n 5自4 8 O●6 5 Z 3●O 7 9 6 3 3 0 7 O j O 0 5 4 9 8 i 9 6 0 0 3 7●7印●0 7野8 l 4 4同0●4 3 0 5 0 3 8 3 3 0 7 4 5 8 2 I 9 O 0 2 Z刀2 O 0 0 2 4 4 0 0 0 0 2 5 3 0 0 O 9 0 O 0 0 I l l 1 l O l 1 l l I l 0 1 l 1 l 1 0 |耋㈣!耋!耋噼㈣啪叭晰∽州哪唧州刚叫毗㈣㈣蝴㈣叭㈣ 1 ●O 3 5 9 9 9 7 4 l●5 3 3 7 3 l●8 8 4 4 7 8 8 2 5 5 4 4 0 2 4 6 7 6●O 8 3 5 6 4 3 4 0 0 2 7 4 1 6 6 9 4 2 2 8 7 8 9 2 6 9●O 6 0 9 3 1 4 3 6 5 5 5●7 6 4 5 5 5 9●5 5 5 5 6 5 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2,2 2 2 2 2 2 2 O 0 O 0 O 0 0 0 O 0 O O 0 0 0 O 0 0 0 0 0 0 0 -『±:;+~+~:~+f;;+~t±±±±±±+~+一 7 4 5 0 8 5 3 8 2 0 4 2 3 5 7 2 9 3 l 6 6 9 7 1 8 3翔4 1 9删,却●4 7 8 0 7蛋4 8 3 a 8 O 7 2 9 2 g 5 4野4 4 8昂叮5目8 6 9 4 O 4 Z, 6 2 8 5 5 9 4 l 0 4 7 7 8 1 l 6 i,3 4 8 2● 8 5 g 3 0 0 5 2 9 7 1 7 Z 6 2 7 6 l 8 0 S,2 4 l 9 9 9 5 5 7 0 3 3 3 5 5 7 L 0 5 3 6 6 7 7 ,9 7 5 5 6 6 6 8 5 5 6 6 6 6 7訇5 6 6 6 6 6 9 4 3 3 3 3 3 3 4 3 3甬,3 3 4 3 3 3 3,j 3 万方数据