作物品种区域试验统计分析模型的比较_张群远

作物品种区域试验统计分析模型的比较

张群远,孔繁玲

(中国农业大学植物遗传育种系,北京 100094)

摘要:通过对作物品种区域试验中有关品种×环境组合均值估计的主要统计分析模型进行概述和比较,改进提出LR -PCA 复合模型,并通过数据实例的交叉验证对各种模型的预测精度进行比较。结果表明,各种模型的精度顺序为LR -PCA 复合模型>AM M I 模型>PCA 模型>处理均值模型>回归模型>ANO VA 加性主效模型;LR -PCA 复合模型的预测精度是算术平均值的1.55倍,比A M M I 模型的精度提高了8.4%。最后对L R -PCA 模型的应用问题作了讨论。

关键词:作物育种学;区域试验;统计模型;预测精度

Comparison of Statistical Models for Regional Crop Trial Analysis

ZHANG Qun -yuan ,KONG Fan -ling

(Department of Plant G enetics and Breeding ,China Agricultural University ,Beijing 100094)

Abstract :Based on the review and comparison of several main statistical analy sis models for estimating the v ariety -environment cell means in regional crop trials ,a new statistical model ,LR -PCA composite model was

proposed ,and the predictive precisions of these models were compared by cross validation of a set of exam ple da -ta .Results show ed that the order of model precisions w as LR -PCA model >AM MI model >PCA model >Treatment M eans (TM )model >Linear Reg ression (LR )model >ANOVA Additive Main Effect model .The g ain facto r of LR -PCA model w as 1.55,increased by 8.4%compared with AMM I .

Key words :Crop breeding science ;Regional trial ;Statistical Model ;Predictive precision 收稿日期:2000-06-15

基金项目:国家自然科学基金资助项目(30070433)

作者简介:张群远(1970-),男,云南宣威人,副教授,博士,主要从事农业试验统计和数量遗传的教学和研究。Tel :010-********;Fax :010-********;E -mail :z hangqunyuan @https://www.360docs.net/doc/fa17305016.html,

作物品种区域试验(简称区试)的目的是对参试品种在多环境下的表现进行比较和评价,所以,如何准确估计各品种在各环境下的性状值(以下统称品种×环境组合均值)为其统计分析的重要内容。我国区试中历来采用算术平均值,虽简易,但存在一定局限。一方面,算术平均值要获得准确估值,需较多重复数;另一方面,算术平均值是对品种试验表现的事后描述,并非对品种未来表现的预测,而后者具有更重要的实践意义。近年来,国外不少研究表明,一些方法对品种×环境组合均值的预测精度往往高于算术平均值

[1~3]

,其中加性主效乘式互作(additive

main effects and multiplicative interaction ,AM MI )模型就是最主要的一种,已被CIM MYT 和IRRI 等国际性育种机构以及很多研究者广泛采用;我国王

磊等也在区试中对AM MI 模型作了一些应用研究[4~6]。从统计理论的角度看,要对品种×环境组合均值作出估计或预测,有赖于具体的统计模型。本文对区试中品种×环境组合均值估计的主要模型

作概述、比较和改进,并通过数据实例对各种模型的预测精度进行比较,同时探讨各种模型的实际应用问题。

1 模型的概述和比较

为便于论述,以下各种模型均以m 个品种,s 个环境(通常是地点或地点×年份的组合环境),r 次重复的区域试验为例,第i 个品种在第j 个环境中的第k 次重复观测值记为Y ijk 。各种模型的实质就是把Y ijk 表达成不同的理论构成。

中国农业科学 2002,35(4):365-371Scientia Ag ricultura Sinica

1.1 处理均值(TM )模型

我们常常用算术平均值来估计各品种在各环境下的表现,所依据的是最简单的一种线性模型:

Y ijk =μij +εijk

(1)

μij 为第i 个品种在第j 个环境中的均值;εijk 为第i 个品种在第j 个环境中的第k 次重复观测值的误差。以上模型通常称为处理均值(treatment means ,TM )模型[1],它把观测值表示为处理均值加上误差的形式,实际分析中是用第i 个品种在第j 个环境中的算术平均值对μij 作出估计,即

μij =Y ij =∑r

k =1

Y ijk /r (2)

Y ij 即为第i 个品种在第j 个环境中的算术平均值,它是μij 的最佳线性无偏估计,具有最小二乘特性。由于这一模型十分简单和可现,所以实际应用中往往不对其作专门说明。1.2 方差分析(ANOVA )模型

方差分析(analy sis of variance ,ANOVA )是我国目前区试中最主要的一种分析方法,它所依据的线性可加模型统称为ANOVA 模型。区试数据的

ANOVA 模型所依据的主要是组合内有重复观测值的两向数据的线性可加模型[7,8]

,若略去区组效应,

其模型式可表达如下:

Y ijk =μ+g i +e j +θij +εijk

(3)

μ为观测值所属总体的均值;g i 为第i 个品种的效应;e j 为第j 个环境的效应;θij 为第i 个品种与第j 个环境的基因型×环境(GE )互作效应。这一模型实质上是把TM 模型中的μij 分解为以上4种构成,按照ANOVA 的效应估计方法[7,8],它们可分别通过以下算式来估计:

μ,

g i =Y i -Y , e j =Y j - Y , θij = Y ij - Y i - Y j +

Y (4)

Y 为试验总均值;Y i 为第i 个品种的试验均值;Y j 为第j 个环境的试验均值;Y ij 同(2)式。根据ANOVA 模型,结合(4)式可看出,对处理均值μij 可以有两种估计方法:

μij = μ+ g i + e j =Y i +Y j -Y (5) μij = μ+ g i + e j + θij =

Y ij (6)

(5)式只利用加性主效来估计处理均值[1];(6)式则考虑了互作,其估计结果与TM 模型的(2)式

一致,不同的是,ANOVA 模型还可估计出品种主效、环境主效和互作效应。1.3 直线回归(LR )模型

直线回归(linear reg ression ,LR )模型在区试中有着广泛的应用。Yates 和Cochran [9]、Finlay 和Wil -kinson [10]、Eberhart 和Russell [11]、Perkins 和Jinks [12]、Freeman 和Perkins [13]以及Tai [14]等人不断发展应用LR 模型进行区试中的品种稳定性分析。若以环境效应e j 作为环境指数,则根据Eber -hart 和Russell [11]以及Perkins 和Jinks [12]的方法,区试中的LR 模型可采用如下两种方式表达:

Y ijk =μ+g i +βi e j +δi j +εij k (7)Y ijk =μ+g i +e j +β*i e j +δij +εijk

(8)

βi 为品种i 在环境j 中的均值对环境效应e j 的回归系数;β*

i 为品种i 的互作效应θij 对环境效应e j 的回归系数(不难看出,βi =1+β*i );δij 为θij 中的回归剩余部分,也即互作效应中无法由环境效应来线性解释的部分。回归模型其实是把ANOVA 模型中的互作θij 分解成了回归和剩余两部分(β*

i e j +δij )

。模型中除加性之外参数,还引入了乘式参数(β*i e j )。模型中μ、g i 和e j 的估计同ANOVA 模型,βi 和(1+β*

i )由下式估计:

βi =1

+ β*i =

∑s

j =1

Y ij Y j -(∑s

j =1Y ij )(∑s

j =1

Y j )/s ∑s j =1

(Y j )2

-(∑s

j =1

Y j )2

/s (9)

区试中,虽然LR 模型主要用于描述品种表现依环境的直线变化趋势,进行品种稳定性分析;但就模型本身而言,也提供了一种回归预测各品种在各环境中的表现方法。结合(4)式和(7)式,得出处理均值的回归预测式如下:

μij = μ+ g i + βi e j =Y i + βi ( Y j -Y )(10)

1.4 主成分分析(PCA )模型

主成分分析(principal components analysis ,PCA )是利用高维变量间的相关性,通过坐标轴变换把主要信息压缩到少数几个低维变量上,以简化问题的一种统计分析方法[15]。Fisher 和M ackenzie 最早把PCA 用于品种试验研究[16]。PCA 模型的基本形式如下:

Y ijk =μ+∑a

n =1

λn u in νj n +ρij +εi jk

(11)

λn 为减去总均值后的品种×

环境两向均值矩阵的第n 个PCA 轴的奇异值(singular value );μin 为第n 个轴的品种特征向量(eigenvector )中对应于品种i 的元素;νjn 为第n 个轴的环境特征向量中对应于环境j 的元素;ρij 为处理均值的剩余部分;a 为模型中所用的PCA 轴数,最大可取值N 为品种数m

366 中 国 农 业 科 学 35卷

和环境数s 中的最小者,即a ≤N ;通常把u in λn 和νjn λn 分别称为品种i 和环境j 的第n 个PCA 得分。该模型在实际应用中往往只取λn 值较大的前几项,所以通常a

g i +e j +θij =∑a

n =1

λn u in νjn +ρij

(12)

当a 值确定时,结合(4)式和(11)式可对区试的处理均值作出如下估计:

u ij = u +∑a

n =1

λn u i n νjn =Y +∑a

n =1 λn μin νjn (13)

其中λn 、u in 和νjn 的估值可通过对品种×环境两向值(Y ij -Y )矩阵进行奇异值分解(singular val -ue decomposition ,SVD )求得[17]

实际应用中,由于对原始数据采取的中心化和加权的方法不同,存在着多种PCA 模型的变形[15]

AMM I 模型就是其中的一种。1.5 加性主效乘式互作(AMMI )模型

AMM I 模型由Williams 提出[18]

,Kem -pton 首

先在区试中应用

[19]

。Gauch 和Zobel 在区试中对

AMM I 进行了大量研究[1,20~23]

,表明AM MI 在区试分析中通常具有较高的预测精度,使得AMM I 在区试中得到越来越多的应用。区试观测值的AM -M I 模型如下[1]:

Y ijk =μ+g i +e j +∑a

n =1ηn w i n z j n +φij +εijk (14)ηn 、w in 、z jn 和φij 的含义与(11)式中的λn 、u in 、νjn 和ρij 对应,不同的是,AMM I 模型把观测值减去总均值外,又减去了品种效应和环境效应,才进行PCA 分解。所以,AMM I 模型也称为双重中心化(double centered )的PCA 模型[1],是ANOVA 加性模型和PCA 乘式模型的结合。其实质是对ANO -VA 模型θij 中的互作值进行PCA 分解,即

θij =∑a

n =1

ηn w in z jn +φij

(15)

这样,AMM I 模型一方面保留了ANOVA 模型中意义简明的加性主效部分,一定程度上克服了纯

粹PCA 模型不易解释的缺点;一方面又利用PCA 剖分了互作的信息,便于互作分析。与PCA 模型一样,AM M I 模型也是一个模型系列。但由于互作值

矩阵受到横向总和与纵向总和均为0的限制,自由度减少1个,所以,AM MI 模型中a 的最大可取值

为m -1和s -1中的最小者。当a 值确定时,结合(4)式和(14)式可对区试的处理均值作出如下估计:

μij = μ+ g i + e j +∑a

n =1

ηn w in z jn =Y i +Y j -Y +∑a n =1

ηn w in z jn (16)

其中ηn 、w in 和z ij n 的估值可通过对互作估值( θij =

Y ij -Y i -Y j +Y )矩阵作SVD 分解求得。2模型的改进

LR -PCA 复合模型

从以上比较可看出,区试中各种模型都是基于观测值的两种分解方式加性分解和乘式分解。乘式分解又主要通过回归和PCA 的方法来实现。对TM 模型中的μij 进行加性分解,即得到ANOVA 模型;进行PCA 乘式分解,即得到PCA 模型。对ANOVA 模型中的θi j 进行回归分解,即得到LR 模型;进行PCA 分解,即得到AMM I 模型。总的看来,加性分解、回归分解和PCA 分解这3种分解方式各具特点,在区试分析中是有效和可行的,但目前尚未全部结合在一起。若同时结合这3种分解方式,则可改进得到如下模型:

Y ijk =μ+g i ++βi e j +∑a

n =1

τn p in q jn +ψij +εijk

(17)

或Y ijk =μ+g i +e j +β*i e j +∑a

n =1

τn p in q j n +ψij +εij k

(18)

这相当于对LR 模型(7)式和(8)式中的回归离

差部分再进行PCA 分解而得到,即

δij =∑a

n =1

τn p in q jn +ψij

(19)

因此,此模型可称为LR -PCA 复合模型。其中τn 为回归离差值矩阵的奇异值;p i n 和q jn 分别为品种特征向量和环境特征向量;ψij 为回归离差经PCA 分解后的剩余部分。该模型实质是对ANOVA 模型的互作部分θij 先作回归分解,再行PCA 分解,其

模型参数的估计依次利用ANOVA 分析、回归分析和PCA 分析即可。LR -PCA 模型也是一个模型系列,模型中a 的取值范围与PCA 模型相同。a 值确定后,结合(10)式和(17)式可对区试的处理均值作出如下估计:

μij = μ+ g i + βi e j +∑a

n =1

τn p in q jn =Y i + βi ( Y j - Y )+∑a

n =1

τn p in q jn

(20)

367

4期 张群远等:作物品种区域试验统计分析模型的比较

其中τn、p in和q jn的估值通过对回归离差值δij =Y ij-Y i-βi(Y j-Y)矩阵的SVD分解求得;βi 则可根据(9)式得到。

从模型构成上看,LR-PCA模型具有以下优点:

(1)LR模型在区试中广为熟知和应用,但模型适合性不足,往往剩余的离差较大。LR-PCA模型进一步对LR模型的剩余部分进行PCA分解,一方面可提高模型的适合性,另一方面又可对回归离差部分作更深入的分析。

(2)LR模型中引入PCA后,并不改变其加性参数和回归系数的估值。结合线性回归和PCA分析,可对GE互作的模式作出更全面的解释。

(3)结合回归和PCA互作值进行分析,有利于把更多的互作信息纳入模型中,提高模型对处理均值预测的精度。这是本文改进提出这一模型的主要目的。

3 各种模型精度的比较

统计模型的精度有两种,即描述精度(postdictive precisio n)和预测精度(predictive precision)[22]。对于区试中品种×环境组合均值的估计来说,预测精度更重要。所以,下面通过数据实例对LR-PCA和其它模型的预测精度进行比较。

3.1 数据和方法

鉴于AM MI是目前国际上较为流行的区试分析方法,为便于比较论证,本文采用Gauch的AMM I 专著[1]中作为典型引用的一套7个品种,11个环境,4次重复(即m=7,s=11,r=4)的大豆区试数据,进行模型精度比较(Gauch曾用这套数据对TM 模型和AMMI模型作了比较[1])。欲比较的模型如下:

(1)TM模型,采用估计式(2)。

(2)ANOVA模型,采用估计式(5)。为与估计式(6)相区别,在此称之为ANOVA加性主效模型,此时处理均值估计中不含互作成分;估计式(6)与TM模型估计式(2)等价,不再单独列出。

(3)LR模型,采用估计式(10)。

(4)PCA系列模型(由于m=7,s=11,所以a 取值从0到7,对应模型分别称为PCA0、PCA1、PCA2......PCA7模型),采用估计式(13)。

(5)AMM I系列模型(a取值从0到m-1=6,对应模型分别称为AMMI0、AMMI1、AMMI2...... AMM I6模型),采用估计式(16)。

(6)LR-PCA系列模型(a取值从0到7,对应模型分别称为LR-PCA0、LR-PCA1、LR-PCA2...... LR-PCA7模型),采用估计式(20)。

PCA、AM M I和LR-PCA模型中奇异值和特征向量的计算采用QR算法[17]。

由于是比较预测精度,所以采用交叉验证(cross validation)的方法。按照Gauch的做法[1],把上述数据中各处理的4个重复随机分开,3个用于建模,1个用于验证(称为1次分样)。对于每个模型的每次分样,根据以下公式计算反映模型精度的各个指标[1]:

(1)预测差平方和均值根(root mean square pre-diction differences,RMSPD)

RMSPD=∑

m

i=1

s

j=1

(Y ij-Y′ij)2/ms(21)

(2)有效重复数(effective replications,ER)

ER=M Se/(RM SPD2-MSe)(22)

(3)精度增益倍数(gain factor,GF)

GF=ER/(r-1)(23)

以上公式中,Y ij为品种i在环境j上的模型估计(或预测)值;Y′i j为验证观测值;ms为品种数和环境数的乘积,也即验证数据的总个数;MSe为环境内误差均方,由全部数据的联合方差分析获得[8]; r-1=3为建模数据的重复数。RMSPD是预测值和验证观测值差值平方和均值的平方根,反映了预测值和验证观测值之间的平均接近程度;有效重复数ER是指某模型交叉验证中3个重复所达到的预测精度,相当于算术平均值要达到同等精度所需的重复数;精度增益倍数GF则是指某模型的预测精度相当于算术平均值的倍数。每轮验证进行30000次随机分样,对上述指标求平均,平均的RMSPD越小,ER和GF越大,表明模型预测值与验证数据越接近,精度越高。与Gaunch不同的是,考虑分样的随机误差,本文按以上方法对各种模型进行了20轮(共20×30000次分样)验证,计算20轮结果的均值和标准差,以反映分样误差的大小。具体计算在微机上利用VB5.0编程实现,其中主要统计程序(ANOVA、LR和PCA子程序)的运算结果均用SAS 核算。按上述方法得到6类共23个模型的RM-SPD、ER和GF指标的均值和标准差见表。

3.2 模型精度分析

从表中可看出,各轮交叉验证的结果比较稳定,所得精度指标的标准差(SD)都很小,其中RM SPD 的变异系数(CV)为0.035%~0.077%,其波动很小,这说明对本文所用数据而言,30000分样次数是

368

中 国 农 业 科 学 35卷

表 6类模型的交叉验证结果

T able Cross validation results of six types of models

模型M odels

预测差平方和均值根

Root mean square prediction difference

RM SPD±SD CV(%)

有效重复数

Effective replications

ER±SD

精度增益倍数

Gain factors

GF±SD

TM模型367.21508±0.259070.0713.00320±0.009761.00107±0.00564 Treatment means model

ANOVA加性主效模型480.90432±0.214240.0450.77752±0.000710.25917±0.00041 ANOVA additive main effect model

LR模型471.76872±0.192830.0410.83326±0.000720.27775±0.00042 Linear regress ion model

PCA模型PCA0934.86717±0.330810.0350.13090±0.000060.04363±0.00003 PCA model PCA1491.52284±0.212800.0430.72035±0.000620.24012±0.00036

PCA2379.98935±0.247230.0652.34009±0.005860.78003±0.00339

PCA3359.35230±0.234550.0653.61655±0.012541.20552±0.00724

PCA4*359.05948±0.261590.0733.64399±0.014161.21466±0.00817

PCA5365.09515±0.256490.0703.14830±0.010551.04943±0.00609

PCA6365.54493±0.256490.0703.11642±0.010361.03881±0.00598

PCA7367.21508±0.259070.0713.00320±0.009761.00107±0.00564 AM M I模型AM M I0480.90432±0.214240.0450.77752±0.000710.25917±0.00041 AM M I model AM M I1353.74440±0.272410.0774.21993±0.019491.40664±0.01125

AM M I2*353.17814±0.262610.0744.29158±0.019371.43053±0.01118

AM M I3363.77842±0.248750.0683.24522±0.010831.08174±0.00625

AM M I4365.78073±0.257630.0703.09996±0.010301.03332±0.00595

AM M I5365.61585±0.258130.0713.11146±0.010391.03715±0.00600

AM M I6367.21507±0.259070.0713.00320±0.009761.00107±0.00564 LR-PCA复合模型LR-PCA0471.76872±0.192830.0410.83326±0.000720.27775±0.00042 LR-PCA composite model LR-PCA1*350.61629±0.216310.0624.64695±0.018591.54898±0.01073

LR-PCA2355.11943±0.259510.0734.05502±0.017201.35167±0.00993

LR-PCA3363.83481±0.251680.0693.24096±0.010941.08032±0.00632

LR-PCA4366.04036±0.250480.0683.08201±0.009911.02734±0.00572

LR-PCA5366.58436±0.256340.0703.04504±0.009911.01501±0.00572

LR-PCA6367.32289±0.260440.0712.99615±0.009770.99872±0.00564

LR-PCA7367.21507±0.259070.0713.00320±0.009761.00107±0.00564*表示同一类模型系列中精度最高的模型 Indicates the model w ith the highest precision in the same s erial models

足够的,其平均值受分样误差的影响很小,能够反映各模型的精度特点。根据抽样分布的中心极限定律可知,把以上SD和CV乘以30000倍,可得到单次分样的SD和CV。RMSPD单次分样的CV为6.12%~13.33%,说明单次分样会产生不小的误差,这也正是交叉验证要进行多次(30000次)分样求平均的原因。此外,根据RMSPD的CV值还可看出,不同模型对数据分样的稳定性存在一定差异。相对而言,LR、ANOVA以及PCA取轴数少的模型稳定性较高。

表中表明,各类模型按精度从大到小的顺序为: LR-PCA模型(LR-PCA1)>AMM I模型(AM MI2) >PCA模型(PCA4)>TM模型>LR模型>ANO-VA加性主效模型。总的说来,利用PCA分解的模型精度较高。其中LR-PCA1模型精度最高,其有效重复数为4.65,即该模型用3个重复所得估值的精度相当于4.65个重复的算术平均值,其精度为算术平均值的1.55倍,提高了55%。AMM I系列中, AM M I2模型精度最高,其有效重复数和精度增益倍数分别为4.29和1.43,精度比算术平均值提高了43%。LR-PCA1和AMM I2相比,有效重复数增加了4.65-4.29=0.36个,精度增益倍数提高了1.55-1.43=0.12,精度提高幅度为(1.55-1.43)/ 1.43×100%=8.4%。这些结果意味着,在区试数据与本文所用数据基本相似的情况下,若精度要求一定,用AM M I分析比用算术平均值分析可以节约(1.43-1)/1.43×100%=30.0%的试验小区重复数,而用LR-PCA分析可节约(1.55-1)/1.55×100%=35.5%的试验小区数,比AMM I又多节约5.5%。这对实际区试来说,是很有意义的。

369

4期 张群远等:作物品种区域试验统计分析模型的比较

常规PCA模型系列中,精度最高的是PCA4模型,其精度比LR-PCA1和AM M I2均低,但依然比算术平均值高,其精度增益倍数为1.21。但是,从所包含的PCA项数来说,PCA4模型包含了4项,不利于解释应用。AM M I2包含了2项,LR-PCA1只用了1项,信息压缩程度高,较为简洁。结合精度和PCA项数这两点来说,LR-PCA复合模型确实有其优越性。

精度最低的模型是ANOVA加性主效模型,其有效重复数仅为0.78,精度为算术平均值的26% (GF=0.26)。这说明,只根据主效,尚不足以确定各品种在各环境中的表现。这也是区试中除了对品种总均值(实质是品种主效)作多重比较外,还要进行品种稳定性和适应性分析的原因。LR模型的精度也较低,其有效重复数和精度增益倍数分别为0.83和0.28,为算术平均值的28%。这表明,直线回归模型并不一定能很好地预测品种表现。所以,实际区试中常常用回归系数来描述品种特性,进行稳定性分析,也就不尽合理。事实上,只有在回归模型的预测性较高时,回归系数才能真正反映品种特性。

TM模型用算术平均值作为估值,所以,理论上其有效重复数应为3,精度增益倍数应为1。表中分别为3.003和1.001,微小差异是由随机分样和计算误差所致。

另外,从表中还可看出各种模型间的关系。处理均值模型的精度与PCA7、AMM I6和LR-PCA7模型(这时它们的a均取最多的PCA项数,称为全模型)是一样的;AMM I0模型(a=0,无PCA项)相当于ANOVA加性主效模型;LR-PCA0模型(a= 0,无PCA项)相当于LR模型。这些关系从它们的模型式均可清楚地看出,在此不赘述。

4 讨论

AMM I模型是近些年来国际上用于区试分析的较为流行的模型,其预测精度高于算术平均值这一点,不少研究都已证实,只是精度提高的程度不同而已。事实上,PCA一类模型(包括PCA、AMM I和LR-PCA)的预测精度总是优于TM模型的算术平均值,至少相等,因为TM模型是它们取全模型时的特例。至于本文改进得到的LR-PCA模型的精度比AM MI模型高这一点,还需针对更多的各种类型的区试数据来不断应用和证实。但本文表明,和AMM I模型一样,LR-PCA模型的精度不会低于算术平均值,而且区试中确实存在着LR-PCA模型的精度高于AMM I的情况,这为实际应用中在AMM I 的基础上进一步提高区试分析精度提供了可能。目前,作者正在进一步研究该模型对于我国各种不同区试数据的分析精度特点和适用性。对于具有较高预测精度的数据来说,该模型的应用将是多方面的,这包括:

(1)获得各参试品种在各参试环境(通常是参试点)上的性状均值,这些均值可进一步用于品种适应地区的确定以及品种或环境的相似性研究(包括聚类分析)。

(2)根据品种的回归系数以及回归离差中品种和环境的PCA得分可对GE互作模式作深入解释,对品种稳定性进行评价;而且,结合图示的方法,可对品种和环境之间的关系作出直观的解释。

(3)利用类似于EM-AMM I的迭代方法[24],根据该模型还可以对缺失处理进行估计。总之,LR-PCA 模型结合了多种分解方式,同时保持了ANOVA、LR和PCA分析的特点,参数更为丰富灵活,而且精度较高,值得在区试中进一步探索和利用。

最后要补充说明的是,区试分析中还有一种更具一般性的线性可加模型,即混合线性模型,但由于该模型一般用处理非平衡数据,而且ANOVA模型本身就是这类模型的一种特例,所以本文未对混合线性模型作论述。不过,已有研究表明,利用混合模型的方法,也可以获得比算术平均和AMM I模型精度更高的估值[3,25]

致谢:中国水稻研究所的王磊博士提供了矩阵算法资料,特此致谢!

References:

[1] Gauch H G.S tatistical Anal ysis of Regional Yield T rials.New

York:Elsevier,1992.

[2] Cornel ius P L,et https://www.360docs.net/doc/fa17305016.html,ing the shifted multiplicative model to

search for“s eparability”in crop cultivar trial.Theor.Appl.

Genet.1992,84:161-172.

[3] Peipho H P.Best linear unbiased prediction(BLUP)for regional

trial s:a comparison to additive main effects and multiplicative in-

teraction(AM M I)anal ysis.Theor.Appl.Genet.1994,89:647

-654.

[4] Wang L,et al.AM M I model and its application to the regional

crop trial data anal ysis.Jou rnal of Application Fundamental and

Engineering S cience,1997,5(1):39-46.(in C hinese)

王 磊,等.AM M I模型及其在作物区试数据分析中的应用.

应用基础与工程科学学报,1997,5(1):39-46.

[5] Wang L,et https://www.360docs.net/doc/fa17305016.html,e of biplots to analyze genotype and environ-

m ent interaction.Sci.and Tech.Bulletin,1997,13(5):275-

280.(in Chinese)

王 磊,等.利用双标图分析GE交互作用.科技通报,1997,

370

中 国 农 业 科 学 35卷

13(5):275-280.

[6] W ang L,et al.AM M I graphs use in the palnt variety trial data

analys is.Journal of Nanjing Agric.Univ.1998,21(2):18-23.

(in Chinese)

王 磊,等.作物品种区试数据分析的主效可加互作可乘模型

(AM M I)图形.南京农业大学学报,1998,21(2):18-23. [7] Searle S R,et al.Variance Components.New York:John Wiley

&Sons,1992:19-33.

[8] M o H D.Statistics for Agricultural Experimen ts(2nd ed.).

Shanghai:S hanghai S cience and Technol ogy Press,1992:260-

278.(in Chinese)

莫惠栋.农业试验统计(第二版).上海:上海科学技术出版社,

1992:260-278.

[9] Yates F,et al.The anal ysis of groups of experiments.J.Agric.

Sci.1938,28:556-580.

[10] Finlay K W,et al.The analysis of adaptation in a pl ant-breeding

programme.Aust.J.Agric.Res.1963,14:742-754.

[11] Eberhart S A,et al.S tability parameters for comparing varieties.

C rop Science,1966,6:36-40.

[12] Perkins J M,et al.Environmental and genotype-environmental

components of variabil ity.Heredity,1968,23:339-356. [13] Freeman G H,et al.Environmental and genotype-environmental

components of variabil ity.Heredity,1971,27:15-23.

[14] Tai G C C.Genotypic stabil ity anal ysis and its application to

po4tato regional trials.C rop S cience,1971,11:184-190. [15] Jolliffe I T.Principal Component Analysis.New York:S pringer-

Verlag.1986.[16] Fisher R A,et al.Studies in crop variation.II.The manu rial re-

sponse of different potato varieties.J.Ag ric.Sci.Cambridge,

1923,23:311-320.

[17] Press W H,et al.Numerical Recipes.London:Cambridge Univ.

Press,1986:52-64.

[18] Williams E J.The interpretation of interactions in factorial exper-

iments.Biometrica,1952,39:65-81.

[19] Kempton R A.The use of biplots in interpreting variety by envi-

ronmen interactios.J.Agric.Sci.Cambridge,1984,103:123-

135.

[20] Gauch H G.M odel selection and val idation foryield trials with in-

teraction.Biometrics,1988,44:705-701.

[21] Gauch H G.Full and reduced model s for yield trials.Theor.Ap-

pl.Genet.1990,80:153-160.

[22] Gauch H G,et al.Predictive and postdictive success of statistical

analyses of yield trials.Theor.Appl.Genet.1988,76:1-10.

[23] Gauch H G,et al.Accuracy and selection success in yield trial

analyses.T heor.Appl.Genet.1989,77:473-481.

[24] Gauch H G,et al.Im puting mis sing yield trial data.Theor.Ap-

pl.Genet.1990,79:753-761.

[25] Zheang Q Y,et https://www.360docs.net/doc/fa17305016.html,parison of the p redictive accu racy of

arithmetic means and BLUPs and AM M I estimates in regional

crop trials.Acta Agronomica S inica.2001,27(4):429-433.

(in Chines e)

张群远,等.品种区域试验中算术平均值,BLUP和AM M I估

值的精度比较.作物学报.2001,27(4):429-433.

371

4期 张群远等:作物品种区域试验统计分析模型的比较

相关文档
最新文档