作物学报 Val.32,o.1 1-6页 ACTA AGRONOMICA SINICA m1-6Jan.,2006 回归分析中的病态矩阵及其改进 莫惠栋 (扬州大学数量遗传研究室,江苏扬州25009 摘要:在回归分析中,信息矩阵XX的行列式值(XX)如果近于0,就会造成其逆阵(XX)~的极度膨胀,进而大大 增加回归系数的误差均方,影响回归配合的稳健性和精确度。因而d(X'X近于0的XX被称为“病态矩阵”。本文提 出以X变数的相关矩阵R的行列式值为综合指标,当d(R)在区间[-0.01,0.01]和[-0.0001,0.0001]但非0时,可分 别认为其对应的XX是“病态的”和“严重病态的”。X”X的病态源于X矩阵的高度列依赖,可用简单相关系数、多重法 定系数和状态指数度量其列依赖程度。为了改进或消除XX的病态,建议选用(1)简化原回归模型,(2)增加新的资料 (3)对回归系数添加限制条件,(4)采用诸如脊回归、广义逆M-国归等非常规回归程序。简要讨论了病态诊断的重要性 和病态改进的评价。 关健词:回归分析:病态矩阵:病态的诊断和改进 中图分类号:0332:11·4 Ill-conditioned Matrix and Its Improvement in Regression MO Hui-Dong Abstract:Inre ion analys the ation matrix is an important factor be of b the determinant value of X',det(),is close to zero the inverse of the'()will extremely inflate,the error mean square for regression coefficient will largely increase and in consequence the regression fitting will be poor robustness and low precision.Thus the matrix X'K of det('x)0 is called "ill-conditioned matrix".In this paper the determinant value of correlative matrix R of A variables,det(R),is used as a synthetic index for ill-conditioning,i.e.if the det (R)lies in the intervals[-0.01.0.01]and[-0.0001,0.0001]but the matrix 'r can be earded as ill-conditioned and se ously ill-conditioned The ill- ed X'X sults in Y Thre eria tipl in e depend ey.In the ill-c ng of four methods e (1)to reduce the original re (2)to collect the new data,(3)to add the restrictive condition for regression coefficients and (4)to adopt the non-customary regression procedure such as the ridge regression and the generalized inverseM sion,are suggested.The importance of diagnosing the ill- conditioning and the evaluation for improved ill-conditioning are also discussed briefly. Key words:Regression analysis:Ill-conditioned matrix:Diagnosis and improvement of ill-conditioning 式(1)和(2)中的X为自变数的n×m(表示m行 1奇异矩阵和病态矩阵 列,下同)矩阵:X为X的转置矩阵:XX为对称的 m×m方阵:(XX)·1为X"X的逆阵:y为依变数的 线性回归分析的正规方程组可写成 n×1向量:b为待解元的m×1向量。这里的n为 XXb-XY (1) 观察值组数,m为待估计的回归系数数。在试验统 其最小平方解则为 计和数量遗传学科,往往特称以上的X为模型矩阵 b=(XXXY (2) 或设计矩阵,XX为信息矩阵 主物绕计学和数量遗传
!"#$%&,’"$( ))$ ( * + ,-.$,&//+ 作 物 学 报 0120 0345’56710 87’710 第 %& 卷 第 ( 期 &//+ 年 ( 月 ( 9 + !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 页 回归分析中的病态矩阵及其改进 莫惠栋" (扬州大学数量遗传研究室,江苏扬州 &&://;) 摘 要:在回归分析中,信息矩阵 !<! 的行列式值 =>(? !<!)如果近于 /,就会造成其逆阵( !<!)* ( 的极度膨胀,进而大大 增加回归系数的误差均方,影响回归配合的稳健性和精确度。因而 =>(? !< ! 近于 / 的 !< ! 被称为“病态矩阵”。本文提 出以 ! 变数的相关矩阵 " 的行列式值为综合指标,当 =>(? ")在区间[ * /$/(,/$/(]和[ * /$///(,/$///(]但非 / 时,可分 别认为其对应的 !<! 是“病态的”和“严重病态的”。 !<! 的病态源于 ! 矩阵的高度列依赖,可用简单相关系数、多重决 定系数和状态指数度量其列依赖程度。为了改进或消除 !<! 的病态,建议选用(()简化原回归模型,(&)增加新的资料, (%)对回归系数添加限制条件,(@)采用诸如脊回归、广义逆 # * 回归等非常规回归程序。简要讨论了病态诊断的重要性 和病态改进的评价。 关键词:回归分析;病态矩阵;病态的诊断和改进 中图分类号:A%%&;8(( B @ !""#$%&’()(%&*’ +,)-(. ,&’ !)/ !01-%2*0*&) (& 3*4-*//(%& 65 CDEFG".H (I-J"K-?"KL "M AD-.?E?-?EN> 3>.>?EOP,Q-.HRS"D T.EN>KPE?L,Q-.HRS"D &&://;,,E-.HPD,1SE.-) 56/)-,$):7. K>HK>PPE". -.-#LPEP,?S> E.M"KU-?E". U-?KEV !<! EP -. EU)"K?-.? M-O?"K J>O-DP> "M $ W( !<!)* ( !< % X 7M ?S> =>?>KUE.-.? N-#D> "M !< !,=>(? !< !),EP O#"P> ?" R>K" ,?S> E.N>KP> "M ?S> !< !,( !< !)* (,YE## >V?K>U>#L E.M#-?>,?S> >KK"K U>-. PZD-K> M"K K>HK>PPE". O">MMEOE>.? YE## #-KH>#L E.OK>-P>,-.= E. O".P>ZD>.O> ?S> K>HK>PPE". ME??E.H YE## J> )""K K"JDP?.>PP -.= #"Y )K>OEPE". X 2SDP ?S> U-?KEV !<! "M =>(? !<!)#/ EP O-##>=“E##FO".=E?E".>= U-?KEV”X 7. ?SEP )-)>K ?S> =>?>KUE.-.? N-#D> "M O"KK>#-?EN> U-?KEV " "M ! N-KE-J#>P,=>(? "),EP DP>= -P - PL.?S>?EO E.=>V M"K E##FO".=E?E".E.H,E X > X EM ?S> =>(? ")#E>P E. ?S> E.?>KN-#[P / $/(,/ $/(]-.=[ / $///(,/ $///(]JD? .".R>K", ?S> O"KK>P)".=E.H U-?KEV !< ! O-. J> K>H-K=>= -P E##FO".=E?E".>= -.= P>KE"DP#L E##FO".=E?E".>=, K>P)>O?EN>#LX 2S> E##FO".=E?E".>= !< ! K>PD#?P MK"U ?S> #E.>-K =>)>.=>.OL -U".H O"#DU.P E. ! U-?KEV X 2SK>> =E-H."P?EO OKE?>KE-,E.O#D=E.H #E.>-K O"KK>#-?E". O">MMEOE>.?,UD#?E)#> =>?>KUE.-?E". O">MMEOE>.? -.= O".=E?E". E.=>V, O-. U>-PDK> ?S> =>HK>> "M ?S> O"#DU. =>)>.=>.OL X 7. "K=>K ?" EU)K"N> "K >#EUE.-?> ?S> E##FO".=E?E".E.H "M !< !, M"DK U>?S"=P,E X > X(()?" K>=DO> ?S> "KEHE.-# K>HK>PPE". U"=>#,(&)?" O"##>O? ?S> .>Y =-?-,(%)?" -== ?S> K>P?KEO?EN> O".=E?E". M"K K>HK>PPE". O">MMEOE>.?P -.=(@)?" -=")? ?S> .".FODP?"U-KL K>HK>PPE". )K"O>=DK> PDOS -P ?S> KE=H> K>HK>PPE". -.= ?S> H>.>K-#ER>= E.N>KP># * K>HK>PPE".,-K> PDHH>P?>= X 2S> EU)"K?-.O> "M =E-H."PE.H ?S> E##F O".=E?E".E.H -.= ?S> >N-#D-?E". M"K EU)K"N>= E##FO".=E?E".E.H -K> -#P" =EPODPP>= JKE>M#L X 7*8 9%-’/:4>HK>PPE". -.-#LPEP;7##FO".=E?E".>= U-?KEV;GE-H."PEP -.= EU)K"N>U>.? "M E##FO".=E?E".E.H : 奇异矩阵和病态矩阵 线性回归分析的正规方程组可写成 !<!$ W !<% (() 其最小平方解则为 $ W( !<!)* ( !<% (&) 式(()和(&)中的 ! 为自变数的 " [ #(表示 " 行 # 列,下同)矩阵;!< 为 ! 的转置矩阵;!< ! 为对称的 # [ # 方阵;( !<!)* (为 !<! 的逆阵;% 为依变数的 " [ ( 向量;$ 为待解元的 # [ ( 向量。这里的 " 为 观察值组数,# 为待估计的回归系数数。在试验统 计和数量遗传学科,往往特称以上的 ! 为模型矩阵 或设计矩阵,!<! 为信息矩阵[( 9 %] 。 "基金项目:国家自然科学基金(%;+\/%;()资助。 作者简介:莫惠栋((;%@* ),男,浙江温岭人,教授,博士生导师,研究方向:生物统计学和数量遗传学。]FU-E#:US=&^;;%_ L-S"" X O"UX O. 4>O>EN>(=万方数据 收稿日期):&//:F/&F/&;0OO>)?>(= 接受日期):&//:F/:F(^$
作 物 学 报 第32卷 需要指出的是,式())并不是普骗成立的。一种 接危害。 21不能精确估计回归参数 一或某些列元素正好是另一或另一些列元素的线 回归系数的误差均方为 性函数。这称为共线性或多重共线性(collinearity o V(b,)=s'c multicollinearity),X的共线性必然导致XX的列间 上式的2为离回归均方,c为(XX)·1中的主对角 和行间存在共线性,并使X'X为奇异(singular),即 线(第i行i列)元素。故(XX)的膨胀必使回归 其行列式值为0 系数具有很大的误差,导致本来可能较好配合的回 det('x)=0 (3) 归模型知配合失败 由于在计算待解元b时,都要用到以d(XX)为除 例1设有以下资料: 数,故当式(3)成立时,X'X将无逆,b将无解,或者 44777171 说无确定解。 X21616494950.4151.41 以上结论在数学上可能是早已明确的,但应用 Y192037393638 上仍常被忽视。例如近年一些学者建议的复杂遗传 用二元回归模型E()=。+月,X+2X进行配合 模型(即X矩阵)就存在明显的共线性。这类模型 [此例X,=X,故也可以说用多项式回归模型E(Y) 如果不添加限制条件,就不可能进行常规的回归分 析。 =民+月X+品,X作配合,结果相同]。这里的 在回归分析中,还存在近似于但不同于式(3)的 4 16 191 另一类情况,即虽然det(X'x)≠0,但近于0 16 > det(X'X) 49 X= Y 符合式(4)的XX,通常称为病态矩阵或近奇异矩 1 7 49 2079 阵。病态矩阵是由X的列间存在高度的线性依 7.1 50.41 赖引起的,它对回归分析的影响尚缺少研究。本文 7.1 50.41 38 试图从应用统计学角度,研讨病态矩阵的问题以及 由之得正规方程组和解为 如何发现XX为病态而做出相应改进的方法,供应 6 36.2 230.82 189.0 用回归分析的研究者参考。 36.2 230.82 1529.822 6, 1213.4 由于回归资料数量级的千差万别,“近于0”的 1230.83 1529.822 10396.3362 .b2 8078.34 数量界限至今尚不明确。在数学专业文献中,亦只 b XY 是将方程组“参数的小改变会引起解的大改变”定义 为病态矩阵们,并未涉及“大”和“小”的具体界限 8574.1602 -3357.8456 303.74341 189.0 -3357.8456 1315.1877 -118.9789 1213.4 为便于分析研究,本文提出的建议标准为,当X'X 中的元素以标准化变量一线性相关系数,表示时 303.7434 ,118.9789 10.7641 8078.34 (即将XX变换为相关矩阵R)刀,若 (Xx)- XY det(R)=0+0.01 (5 -151.18631 即在-0.01-0.01区间内但非0,可认为“近于0” 63.5315 对应于该R的XX为病态:若 -5.2150」 det(R)=0±0.000 (6 即在-0.0001-0.0001区间内但非0,则认为“非常 即有二元回归方程V= -151.1863+65.5315X 近于0”,对应于该R的X'X为严重病态。de(R)> 5.2150X,。其有关标准误为s。=113.4078,s, 10.011的XX则视为良态”。 4.4162,5=4.0182:二元决定系数为R2=0.9897。 上述结果表明,本例X和X,的变异已能说明 2病态矩阵的问题 Y变异的98.97%,但bb,和b2都与0无显著若 病态矩阵只是近于奇异,故仍能进行回归分析 异,即上述二元回归无显著意义。进一步分析可知, 但结果不可靠。这主要由于d(XX)为小值,而对 上述结果正是源于X中X,和X2的高度线性依赖 XX求逆时必须用到该小值为除数,因而造成(X 其r=0.99996937,导敛d(R)=0.6125×10-,XX x)中元索联棉的极度“膨胀”。由之产生以下直 具有严重病态
需要指出的是,式(!)并不是普遍成立的。一种 例外情形是 ! 的列间存在完全的线性依赖,即它的 某一或某些列元素正好是另一或另一些列元素的线 性函数。这称为共线性或多重共线性("#$$%&’()%*+ #) ,-$*%"#$$%&’()%*+)。 ! 的共线性必然导致 !. ! 的列间 和行间存在共线性,并使 !. ! 为奇异(/%&0-$()),即 其行列式值为 1 [2] 3’(* !.!)4 1 (5) 由于在计算待解元 " 时,都要用到以 3’(* !.!)为除 数,故当式(5)成立时,!. ! 将无逆," 将无解,或者 说无确定解。 以上结论在数学上可能是早已明确的,但应用 上仍常被忽视。例如近年一些学者建议的复杂遗传 模型(即 ! 矩阵)就存在明显的共线性。这类模型, 如果不添加限制条件,就不可能进行常规的回归分 析[6] 。 在回归分析中,还存在近似于但不同于式(5)的 另一类情况,即虽然 3’(* !.!)!1,但近于 1 3’(* !.!)" 1 (2) 符合式(2)的 !. !,通常称为病态矩阵或近奇异矩 阵[6,7] 。病态矩阵是由 ! 的列间存在高度的线性依 赖引起的,它对回归分析的影响尚缺少研究。本文 试图从应用统计学角度,研讨病态矩阵的问题以及 如何发现 !.! 为病态而做出相应改进的方法,供应 用回归分析的研究者参考。 由于回归资料数量级的千差万别,“近于 1”的 数量界限至今尚不明确。在数学专业文献中,亦只 是将方程组“参数的小改变会引起解的大改变”定义 为“病态矩阵”[7] ,并未涉及“大”和“小”的具体界限。 为便于分析研究,本文提出的建议标准为,当 !. ! 中的元素以标准化变量—线性相关系数 ! 表示时 (即将 !.! 变换为相关矩阵 #)[8] ,若 3’(* #)4 1 9 1 :1; (6) 即在 < 1 :1; = 1 :1; 区间内但非 1,可认为“近于 1”, 对应于该 # 的 !.! 为病态;若 3’(* #)4 1 9 1 :111; (7) 即在 < 1 :111; = 1 :111; 区间内但非 1,则认为“非常 近于 1”,对应于该 # 的 !.! 为严重病态。3’(* #)> ? 1 :1; ? 的 !.! 则视为“良态”。 ! 病态矩阵的问题 病态矩阵只是近于奇异,故仍能进行回归分析, 但结果不可靠。这主要由于 3’(* !. !)为小值,而对 !.! 求逆时必须用到该小值为除数,因而造成( !. !)< ; 中元素取值的极度“膨胀”。由之产生以下直 接危害。 ! "# 不能精确估计回归参数 回归系数的误差均方为[8] "( #$)4 % ! &$$ 上式的 % ! 为离回归均方,&$$ 为( !. !)< ; 中的主对角 线(第 $ 行 $ 列)元素。故( !. !)< ; 的膨胀必使回归 系数具有很大的误差,导致本来可能较好配合的回 归模型却配合失败。 例 # 设有以下资料: ’; 2 2 8 8 8 @; 8 @; ’! ;7 ;7 2A 2A 61 @2; 6; @2; ( ;A !1 58 5A 57 5B 用二元回归模型 C( ()4!1 D!; ’; D!! ’! 进行配合 [此例 ’! 4 ’! ;,故也可以说用多项式回归模型 C( () 4!1 D!; ’; D!! ’! ; 作配合,结果相同]。这里的 ! 4 ; 2 ;7 ; 2 ;7 ; 8 2A ; 8 2A ; 8 :; 61 :2; ; 8 :; 61 :2; $ 4 ;A !1 58 5A 57 5B 由之得正规方程组和解为 7 57:! !51:B! 57:! !51:B! ;6!A:B!! !51 @B5 ;6!A @B!! ;15A7:557! #1 #; # ! 4 ;BA:1 ;!;5:2 B18B:52 !.! " 4 !.$ #1 #; # ! 4 B682 @;71! < 5568 @B267 515 @8252 < 5568 @B267 ;5;6 @;B88 < ;;B @A8BA 515 @8252 < ;;B @A8BA ;1 @872; ;BA:1 ;!;5:2 B18B:52 " 4 ( !.!)< ; !.$ 4 < ;6; :;B75 75 :65;6 < 6 :!;61 即有 二 元 回 归 方 程 ( E 4 < ;6; :;B75 D 76 :65;6 ’; < 6 :!;61 ’!。其 有 关 标 准 误 为 %#1 4 ;;5 :218B,%#; 4 22 :2;7!,%#! 4 2 :1;B!;二元决定系数为 )! 4 1 :ABA8。 上述结果表明,本例 ’; 和 ’! 的变异已能说明 ( 变异的 AB @ A8F,但 #1、#; 和 #! 都与 1 无显著差 异,即上述二元回归无显著意义。进一步分析可知, 上述结果正是源于 ! 中 ’; 和 ’! 的高度线性依赖, 其 ! 4 1 :AAAA7A58,导致 3’(* #)4 1 :7;!6 G ;1 < 2,!.! 具有严重病态。 ! 作 物 学 报 第 5! 卷 万方数据
第1期 莫惠栋:回归分析中的病态矩阵及其改进 2.2约数误差可能左右分析结果 3.1相关系数法 约数误差(roundoff error)是指统计运算过程中 计算x矩阵的任一X列和X列(i≠)的线性 因中间数字的有效位数不足而造成背离应有意义的 相关系数r或决定系数2。X,和X列的,=±1为 结果。例如计算10x=(alb)-(cld),设a= 完全线性依赖,=0为完全独立。作者认为,如1r 10000,b=0.03,c=16666.6663,d=0.05,中间数字 >0.99应视为两列间有高度线性依赖,必导致X" 均保持8位,则(a1b)=333333.33,(c1d)= 是现病本。此方法最篇单,但不能提供若干列间 333333.33,x=0:但较精确结果却是10°x=(ad- 杂依赖的信息,即不能发现多重的共线性:而小的 bc)/bd=(500-499.999989)/0.0015=0.007333,x 1,值也不一定表示不存在共线性。 =7333!在回归分析中,当作为除数的de(XX)=0 3.2 多元决定系数法 时,极易发生类似以上的约数误差。所以Freund在 若定义:是X矩阵的X,列依其他(m-1)列 检查了大量回归资料后曾警告说,许多合理的结论 X(≠i)的(m-1)元决定系数,则当XX可逆时可 有时完全是由变化无常的约数误差造成)。 以证明: 在实践上,人们常用“双精度算法”以减少约数 R:=1-1/c (7) 误差的干扰。研究认为,双精度使计算机工作的数 式(7)的c:为X的相关矩阵R逆阵R的主对角线 字密度比通常加倍,如作为标准技术将浪费时间,而 元素。当X列独立于所有X,列时=1,并随着X 且也不是必须的谨慎:只要XX存在病态,约数误 列对所有X列线性依赖程度的增加而增大,直至完 差仍会常常发生5。所以,关键还是在于发现矩阵 全依赖时c。→ 病态和改进病态矩阵。 例2 Mather和Jinks的6世代加性-显性.上位 性遗传模型的设计矩阵x及其相关矩阵R为 3矩阵病态的诊断 1 0 0 前述d(R)是度量X'X矩阵全体共线性程度 1-1 0 1 0 0 的一个综合指标。X'X的病态源于X中的高度列 0 1 0 X= 依赖,必须具体检查X矩阵,才能发现不同列间的 10 1/2 0 0 线性依赖程度。这称为X矩阵的病态诊断,基本方 112 1/2 1414 14 法如下。 1/214 14 14 0 0 0 0 0 0 0.447214 0 0 0 1 -0.903738 0 0.932568 R= -0.903738 0 0.705431 00.447214 0 0 0 0 0.932568 -0.932568 由R可求得其行列式值dt(R)=0.004009,表明该 间的1r1都不大于0.94,不足以直接导致XX呈病 模型的信息矩阵XX是病态的。但乙的任何两列 态。由R可得其逆阵R为 0 0 0 0 0 1.25 -0.559018 0 100.22996849.055972 0 -58.865651 R= 0 0 49.055972 26.000242 0 -27.406641 0 -0.559018 0 0 1.25 0 58.865651 27.406641 0 36.562729 故根据式(7)进而得R=1-11=0,R=1-1/1.25= 0.961539,R=0.2和R%=0.972650。这表明X中 0.2,R店方额据10.229968=0.9023.R= 的第1列完全独立于其余5列,第2列变异则有
! "! 约数误差可能左右分析结果 约数误差(!"#$%"&& ’!!"!)是指统计运算过程中 因中间数字的有效位数不足而造成背离应有意义的 结果。 例 如 计 算 ()* ! +( ", # )-( $, % ),设 " + ()))),# + ) . )/,$ + (**** . ***/,% + ) 0)1,中间数字 均保 持 2 位,则( ", # )+ ////// 0//,( $, % )+ ////// 0//,! + );但较精确结果却是 ()* ! +( "% - #$), #% +( 1)) - 344 0444424),) 0))(1 + ) 0))5///,! + 5///!在回归分析中,当作为除数的 %’(6 !7!)!) 时,极易发生类似以上的约数误差。所以 8!’#$% 在 检查了大量回归资料后曾警告说,许多合理的结论 有时完全是由变化无常的约数误差造成[2] 。 在实践上,人们常用“双精度算法”以减少约数 误差的干扰。研究认为,双精度使计算机工作的数 字密度比通常加倍,如作为标准技术将浪费时间,而 且也不是必须的谨慎;只要 !7 ! 存在病态,约数误 差仍会常常发生[1] 。所以,关键还是在于发现矩阵 病态和改进病态矩阵。 # 矩阵病态的诊断 前述 %’(6 ")是度量 !7 ! 矩阵全体共线性程度 的一个综合指标。 !7 ! 的病态源于 ! 中的高度列 依赖,必须具体检查 ! 矩阵,才能发现不同列间的 线性依赖程度。这称为 ! 矩阵的病态诊断,基本方 法如下。 # "$ 相关系数法 计算 ! 矩阵的任一 &’ 列和 &( 列( ’" ()的线性 相关系数 ) 或决定系数 ) 9。 &’ 和 &( 列的 ) + : ( 为 完全线性依赖,) + ) 为完全独立。作者认为,如 ; ) ; < ) 044 应视为两列间有高度线性依赖,必导致 !7 ! 呈现病态。此方法最简单,但不能提供若干列间复 杂依赖的信息,即不能发现多重的共线性;而小的 ; ) ; 值也不一定表示不存在共线性。 # "! 多元决定系数法 若定义 *9 ’ 是 ! 矩阵的 &’ 列依其他( + - ()列 &(( (" ’)的( + - ()元决定系数,则当 !7! 可逆时可 以证明[5] : *9 ’ + ( - (,$7’’ (5) 式(5)的 $7’’ 为 ! 的相关矩阵 " 逆阵 " - ( 的主对角线 元素。当 &’ 列独立于所有 &( 列时 $7’’ + (,并随着 &’ 列对所有 &( 列线性依赖程度的增加而增大,直至完 全依赖时 $7 ’’ # =。 例 ! >?6@’! 和 AB$CD 的 * 世代加性E 显性E 上位 性遗传模型的设计矩阵 ! [4] 及其相关矩阵 " 为 ! + ( ( ) ( ) ) ( - ( ) ( ) ) ( ) ( ) ) ( ( ) (,9 ) ) (,3 ( (,9 (,9 (,3 (,3 (,3 ( -(,9 (,9 - (,3 (,3 (,3 " + ( ) ) ) ) ) ) ( ) ) ) .3359(3 ) ) ) ( - ) .4)/5/2 ) ) .4/91*2 ) ) - ) .4)/5/2 ( ) - ) .5)13/( ) ) .3359(3 ) ) ( ) ) ) ) .4/91*2 - ) .4/91*2 ) ( 由 " 可求得其行列式值 %’(6 ")+ ) 0))3))4,表明该 模型的信息矩阵 !7 ! 是病态的。但 # 的任何两列 间的 ; ) ; 都不大于 ) . 43,不足以直接导致 !7 ! 呈病 态。由 " 可得其逆阵 " - (为 " + ( ) ) ) ) ) ) ( .91 ) ) - ) .114)(2 ) ) ) ()) .9944*2 34 .)11459 ) - 12 .2*1*1( ) ) 34 .)11459 9* .)))939 ) - 95 .3)**3( ) - ) .114)(2 ) ) ( .91 ) ) ) - 12 .2*1*1( - 95 .3)**3( ) /* .1*9594 故根据式(5)进而得 *9 ( + ( - (,( + ),*9 9 + ( - (,(091 + ) 09,*9 / + ( - (,()) . 9944*2 + ) 044))9/,*9 3 + ) 04*(1/4,*9 1 + ) 09 和 *9 * + ) 0459*1)。这表明 ! 中 的第 ( 列 完 全 独 立 于 其 余 1 列,第 9 列 变 异 则 有 第 ( 期 莫惠栋:回归分析中的病态矩阵及其改进 / 万方数据
作 物」 报 第32卷 20%可为其余5列的变异所说明,第3列变异则有 对之作状态指数分析得表1结果(具体过程见文献 99.0023%可为其余5列的变异所说明,等等。以第 [10])。在表1中,=5799时的9=9s=1,清楚 3列对其余5列的线性依赖度最高,其次为第6列。 地表明X中的X,和X,(第4和第5列)为完全线性 多元决定系数法对于评价X的某一列对其余 依赖:而4=16的94=924=0.994和94=0.95 (m-1)列的线性依赖程度很有效,但不能反映多列 则表明X,、X2和X,的高线性依赖。可以验证此结 与多列间的线性依赖度 果:用决定系数法求得上述10X中X,和X,的2 3.3状态指数法 1,X依X2和X,的R2=0.982,表明X和X,可相 此法由Belsley最先提出o,被认为是评价多列 互说明100%的变异,而X,的变异则有98.2%可被 间线性依赖度的最有效方法幻。它包括计算X中 X,和X,的变异所说明。这与表1结果相符。 各列的状态指数和分解回归系数方差的构成?: 表1 应用状态指数法评价X矩阵列间的性依赖度 两个部分。 Eval ence degr nong colum 3.3.1计算状态指数 以列平衡的(columnequ X matrix by condition index -ilibrate)X.矩阵(即X的每列元素均除以该列平 状态指数· (6)的比率g,portions,d(与) 方和的根值或标准差)为基础,作奇异值分解,得到 (.) v(b) () X.x=U.xDV' (8) 0.000 0.000 0.000 0.00 0.000 式(8)中的D.x。为对角阵,即 :■1 0.00 0.00s 0.00 0.00 0.00 Da。=diag(41'42…,Hn) (9 0.001 0.00 0.04 0.0 其中=1,2,,m)为X第j列的奇异值,且非 =16 79 负。由之可得m个状态指数 .000 .000 1.000 (10) the 式(10)中的4为%中的最大值。片,愈近于0, 将愈大,表示X列间的线性依赖度愈高。 4病态矩阵的改进 3.3.2分解回归系数方差V(b)的构成 当XX 可逆时, 改进或消除病态矩阵的病态,可能有多种方法, 较为普适者如下。 G-2V(B)=(X'X)-1=VD-2V (11) 对于第i个回归系数6,则 4.1简化原来的回归模型 当发现X任两列的1≥0.99或第i列依其余 +…+ 各列的R≥0.99时,表明原回归模型存在过参数 erization)情形,应毫不犹豫地删除第i列 =g+a++.手12 及与之关联的,。这时,X对Y的总回归决定度几 以上为V中的第i行列元素,9,为(b:)属于 乎不变,但XX的病态却可消除。这是改进病态最 直截了当的方法。 状态指数的成数(比率),具有9:≥0和三9:=1。 例4已知例1资料的X,和X2列的r>0.99。 X列间的线性依赖由和,推断,大的表示高 若别去X:列,即改用回归模型E(了)=凡+月,X,配 线性依赖,而该行的大?,则表示高线性依赖的列 合,则 (回归系数)。 x-47771 11 例3设有经过列平衡处理的X矩阵 -733 553 430 -3 -3 Y=[192037393638] 139 -477 501 3 由以上X和y可得回归方程=-4.0293 -498 10X= 654 -119 47 47 5.8888X1和5m=2.3332,51=0.3762,Y依X的线 -119 456 -716 252 252 性回归为极显著。应注意,本例的Y依X的线性决 30 55 -167 816 -816 定系数r2=0.9839,与例1的二元决定系数R 万方0据 -83 5 518 518 0.9897仅相差0.0058,表明别除X对回归预测的
!"#可为其余 $ 列的变异所说明,第 % 列变异则有 && ’""!%#可为其余 $ 列的变异所说明,等等。以第 % 列对其余 $ 列的线性依赖度最高,其次为第 ( 列。 多元决定系数法对于评价 ! 的某一列对其余 ( ! ) *)列的线性依赖程度很有效,但不能反映多列 与多列间的线性依赖度。 ! "! 状态指数法 此法由 +,-.-,/ 最先提出[*"] ,被认为是评价多列 间线性依赖度的最有效方法[$] 。它包括计算 ! 中 各列的状态指数!" 和分解回归系数方差的构成 #$" 两个部分。 % 0% 0* 计算状态指数!" 以列平衡的(12-345,63 78-89:;<,)!% = ! 矩阵(即 ! 的每列元素均除以该列平 方和的根值或标准差)为基础,作奇异值分解,得到 !% = ! > "% = ! #! = ! $? ! = ! (@) 式(@)中的 #! = ! 为对角阵,即 #! = ! > A8;(B "*,"!,…,"!) (&) 其中"(" " > *,!,…,!)为 ! 第 " 列的奇异值,且非 负。由之可得 ! 个状态指数 !" > "4;C D "" (*") 式(*")中的"4;C为 "" 中的最大值。"" 愈近于 ",!" 将愈大,表示 &" 列间的线性依赖度愈高。 % 0% 0! 分解回归系数方差 ’( %)的构成 当 !?! 可逆时, #) ! ’( %)>( !?!)) * > $#) ! $? (**) 对于第 $ 个回归系数 ($ 则 #) ! ’( ($)> ) ! $* " ! * E ) ! $! " ! ! E … E ) ! $! " ! ! >( #$* E #$! E … E #$!)! ! " > * ) ! $" " ! " (*!) 以上 )$" 为 $! = ! 中的第 $ 行 " 列元素,#$" 为 ’( ($)属于 状态指数!" 的成数(比率),具有 #$" "" 和! ! " > * #$" > *。 ! 列间的线性依赖由!" 和 #$" 推断,大的 !" 表示高 线性依赖,而该!" 行的大 #$" 则表示高线性依赖的列 (回归系数)。 例 ! 设有经过列平衡处理的 ! 矩阵[*"] *"% ! > ) F%% $$% G%" ) % ) % *%& ) GFF $"* % % ($G ) G&@ ) **& GF GF ) **& G$( ) F*( !$! !$! %" $$ ) *(F ) @*( ) @*( G" ) @% &$ $*@ $*@ 对之作状态指数分析得表 * 结果(具体过程见文献 [*"])。在表 * 中,!$ > $F&& 时的 #G$ > #$$ > *,清楚 地表明 ! 中的 &G 和 &($ 第 G 和第 $ 列)为完全线性 依赖;而 !G > *( 的 #*G > #!G > " ’&&G 和 #%G > " ’&$% 则表明 &*、&! 和 &% 的高线性依赖。可以验证此结 果:用决定系数法求得上述 *" % ! 中 &G 和 &$ 的 * ! > *,&* 依 &! 和 &% 的 +! > " ’&@!,表明 &G 和 &$ 可相 互说明 *""#的变异,而 &* 的变异则有 &@ 0 !# 可被 &! 和 &% 的变异所说明。这与表 * 结果相符。 表 # 应用状态指数法评价 ! 矩阵列间的线性依赖度 $%&’( # )*%’+%,-./ ,0( ’-.(%1 2(3(.2(.4( 2(/1(( %56./ 46’+5.7 68 ! 5%,1-9 &: 46.2-,-6. -.2(9 状态指数# H25A8<825 85A,C# (!") ’( ($)的比率 #$" I:2J2:<825. #$" 2K ’( (") ’( (*) ’( (!) ’( (%) ’( (G) ’( ($) !* > * " 0 """ " 0 """ " 0 """ " 0 """ " 0 """ !! > * " 0 ""$ " 0 ""$ " 0 """ " 0 """ " 0 """ !% > * " 0 ""* " 0 ""* " 0 "GF " 0 """ " 0 """ !G > *( " 0 &&G " 0 &&G " 0 &$% " 0 """ " 0 """ !$ > $F&& " 0 """ " 0 """ " 0 """ * 0 """ * 0 """ L34 * 0 """ * 0 """ * 0 """ * 0 """ * 0 """ 注:# 取约整数。 M2<,:# N235A,A <2 <O, 5,;:,.< 85<,B,:0 ; 病态矩阵的改进 改进或消除病态矩阵的病态,可能有多种方法, 较为普适者如下。 ; "# 简化原来的回归模型 当发现 ! 任两列的 P * P "" ’&& 或第 $ 列依其余 各列的 +! $ "" ’&& 时,表明原回归模型存在过参数 (2Q,:J;:;4,<,:8R;<825)情形,应毫不犹豫地删除第 $ 列 及与之关联的 ($ 。这时,! 对 & 的总回归决定度几 乎不变,但 !?! 的病态却可消除。这是改进病态最 直截了当的方法。 例 ; 已知例 * 资料的 &* 和 &! 列的 * S " ’&&。 若删去 &! 列,即改用回归模型 T( ,)>$" E$* &* 配 合,则 !? > * * * * * * [ ] G G F F F ’* F ’* &? >[*& !" %F %& %( %@] 由以上 ! 和 & 可得回归方程 , U > ) G ’"!&% E $ ’@@@@ &* 和 -(" > ! ’%%%!,-(* > " ’%F(!,, 依 & 的线 性回归为极显著。应注意,本例的 , 依 & 的线性决 定系数 * ! > " ’&@%&,与例 * 的二元决定系数 +! > " ’&@&F 仅相差 " 0 ""$@,表明删除 &! 对回归预测的 G 作 物 学 报 第 %! 卷 万方数据
第1期 莫惠栋:回归分析中的病态矩阵及其改进 5 准确性并无明显影响:但本例de(R)=1又表明,例 得到二元回归方程V=-35.8369+183402X. 1发生的高度线性依赖已完全消除。本例还表明 11250X.和 -4.7502, 1.4711,5 =0.1085 XX的是否病态与所配模型直接关联:同一资料, 二元决定系数R'=0.9865。这说明X的变异可 对模型E(Y)=月。+月,X,+B,X2,XX为病态:而对 定y变异的9865,且3个回归系数都极显著, 模型E(Y)=A+B,X,X'X是良态。 合二元线性方程非常话合。讲一步计算可得,(R) 例5例2资料X中的第3列对其余各列的线 =0.0270,表明扩大X的观察范围(仅增1个样 性依赖度最高(:=99.0%),若删除第3列就是不 点),例1中XX的病态即已转变成良态。 估计显性效应,损失较大。求其次,可牺牲第6列 43添加限条件 (R:=97.3%),即不估计显性×显性互作。这时 如果能对回归系数的取值给予合理的线性限 制,可将该限制条件直接加入XX。这时,原XX f1 1 0 0 0 的病态、甚至奇异,都可能得到桥正而成为良态 0 0 0.44721 例设以A、、3种抗菌液喷其种柑 R=0 0 -0.903738 0 0 橘树各2株,观察指标为各树的病情指数Y。当应 0 =0.903738 1 用回归模型E(Y)=B。+B,X,+3X2+3,X,分析资 L00.447214 0 0 料(如果A,X1=1:如果B,X2=1:如果C,X=1)时 0 0 0 0 X。X:X,X: 0.25 .0550 11001 [Yu R=0 0 5.4567984.931516 0 1100 0 0 4.9315165.456798 010 -0.559018 0 0 1.25 Y= 1010 进而可得d(R)=0.146606和R=0,R=0.2,R 1001 =0.816742,R:=0.816742,R:=0.2。说明别除例2 1001 中X的第6列,XX即成为良态,列3和4对其余 其正规方程组是 各列的线性依赖度也变小。 4.2增加新的资料 6 2 2 21[bo SY. 对病态的XX,如要保持原回归模型,收集、补 0 0 b. 充适当的新资料有时也是改进病态的一种有效方法。 0 0 b SY 例6例1资料的病态主要是由X,的7和7.】 0 b SY,. 近似于相等数值所引起。如果新增一组观察值X, =10,X2=100和Y=35,仍配合模型E(Y)=B。+ 月X+月X2,则有 注意上述的det(XX)-0,为奇异(由X中的 X。=X,+X,+X,引起),不能做出回归分析。解决 16 此问题的一个简便方法是删去上述正规方程中的任 1 4 16 49 一方程,加入一个对国归系数的限制方程,例如此处 X 49 可以采用06。+b,+b2+b,=0。这样,改进后的正 17.1 50.41 6 规方程组可以是 171 50.41 0 1 10 100 35 220 「14.907171 -4.521055 0.318973 224.0 20 -4.521055 1.429840 -0.104018 1563.4 200 2 L0.318973 -0.104018 0.007777. L11578.34 6222b。 b= (XX)-1 XY 0 -35.8369 0 18.3402 2 万方59 0111
准确性并无明显影响;但本例 !"(# !)$ % 又表明,例 % 发生的高度线性依赖已完全消 除。本 例 还 表 明 "&" 的是否病态与所配模型直接关联:同一资料, 对模型 ’( !)$!( )!% "% )!* "*,"& " 为病态;而对 模型 ’( !)$!( )!% "%,"&" 是良态。 例 ! 例 * 资料 " 中的第 + 列对其余各列的线 性依赖度最高( #* + $ ,, -(. ),若删除第 + 列就是不 估计显性效应,损失较大。求其次,可牺牲第 / 列 ( #* / $ ,0 -+. ),即不估计显性 1 显性互作。这时 ! $ % % ( ( ( ( ( ( ( (-220*%2 ( ( % 3 (-,(+0+4 ( ( ( 3 (-,(+0+4 % ( ( (-220*%2 ( ( % !3 % $ % ( ( ( ( ( (-*5 ( ( 3 (-55,(%4 ( ( 5-25/0,4 2-,+%5%/ ( ( ( 2-,+%5%/ 5-25/0,4 ( ( 3 (-55,(%4 ( ( %-*5 进而可得 !"(# !)$ ( -%2//(/ 和 #* % $ (,#* * $ ( -*,#* + $ ( -4%/02*,#* 2 $ ( -4%/02*,#* 5 $ ( -*。说明删除例 * 中 " 的第 / 列,"& " 即成为良态,列 + 和 2 对其余 各列的线性依赖度也变小。 " #$ 增加新的资料 对病态的 "&",如要保持原回归模型,收集、补 充适当的新资料有时也是改进病态的一种有效方法。 例 % 例 % 资料的病态主要是由 "% 的 0 和 0 -% 近似于相等数值所引起。如果新增一组观察值 "% $ %(,"* $ %(( 和 ! $ +5,仍配合模型 ’( !)$!( ) !% "% )!* "*,则有 " $ % 2 %/ % 2 %/ % 0 2, % 0 2, % 0 -% 5( -2% % 0 -% 5( -2% % %( %(( # $ %, *( +0 +, +/ +4 +5 $( $% $ * $ %2-,(0%0% 3 2-5*%(55 (-+%4,0+ 3 2-5*%(55 %-2*,42( 3 (-%(2(%4 (-+%4,0+ 3 (-%(2(%4 (-((0000 **2-( %5/+-2 %%504-+2 $ $ ( "&")3 % "&# $ 3 +5 -4+/, %4 -+2(* 3 % -%*5, 得到 二 元 回 归 方 程 ! 6 $ 3 +5 -4+/, ) %4 -+2(* "% 3 % -%*5, "* 和 %$( $ 2 -05(*,%$% $ % -20%%,%$* $ ( -%(45, 二元决定系数 #* $ ( -,4/5。这说明 " 的变异可决 定 ! 变异的 ,4 -/5. ,且 + 个回归系数都极显著,配 合二元线性方程非常适合。进一步计算可得 !"(# !) $ ( -(*0(,表明扩大 " 的观察范围(仅增 % 个样本 点),例 % 中 "&" 的病态即已转变成良态。 " #& 添加限制条件 如果能对回归系数的取值给予合理的线性限 制,可将该限制条件直接加入 "& "。这时,原 "& " 的病态、甚至奇异,都可能得到矫正而成为良态。 例 ’ 设以 &、’、( + 种抗菌液喷洒某品种柑 橘树各 * 株,观察指标为各树的病情指数 !。当应 用回归模型 ’( !)$!( )!% "% )!* "* )!+ "+ 分析资 料(如果 &,"% $ %;如果 ’,"* $ %;如果 (,"+ $ %)时, " $ "( "% "* "+ % % ( ( % % ( ( % ( % ( % ( % ( % ( ( % % ( ( % # $ !%% !%* !*% !** !+% ! +* 其正规方程组是 / * * * * * ( ( * ( * ( * ( ( * $( $% $* $ + $ "!·· "!% · "!* · "!+ · "&" $ $ "&# 注意上述的 !"(# "& ")$ (,为奇异(由 " 中的 "( $ "% ) "* ) "+ 引起),不能做出回归分析。解决 此问题的一个简便方法是删去上述正规方程中的任 一方程,加入一个对回归系数的限制方程,例如此处 可以采用 ( $( ) $% ) $* ) $+ $ (。这样,改进后的正 规方程组可以是 ( % % % * * ( ( * ( * ( * ( ( * $( $% $* $ + $ ( "!% · "!* · "!+ · 或 / * * * * * ( ( * ( * ( ( % % % $( $% $* $ + $ "!- - "!%- "!*- ( ,…… 等。 第 % 期 莫惠栋:回归分析中的病态矩阵及其改进 5 万方数据