第三讲通径分析 PATH ANALYSIS 基本知识 适宜资料:多个自变量x与一个依变量y呈线性相关关系 分析目的:分析多个自变量x与一个依变量y的相关关系,并把各自变量x与y的总关系(影响), 即相关系数r分解为x对y的直接作用(通经系数Py)及间接作用,并利用通经系数比较各x1对作用程 度的相对大小。 三、分析思路:把各自变量x对y的综合作用(简单相关系数r)剖分为直接作用及间接作用,利用 相关系数阵计算通经系数。 四、分析方法:共六大步骤见后 在生物界中,数量性状间的关系往往是彼此相关的。从统计学上讲,研究多个相关变量间的关系,可 根据相关变量间是因果关系或平行关系,采用不同的统计分析方法。若变量间互为因果而呈平行关系时, 多采用相关分析。若变量间因果分明,多采用多元线性回归分析。如第一讲中因果分明,产蛋率为果,各 环境参数为因。然而,相关变量内的这两种分析方法都存在一定的局限性。如简单相关系数固然可以用来 度量两变量间的相关密切程度。但其中也包含有其他相关变量对它们的影响。因此,多少包含有虚伪的成 分了。尤其在分析原因对结果作用方面。相关系数无法表明。就此而言,多元回归分析中的偏回归系数, 在一定程度上可指出各原因对结果的直接作用,但因带有不同单位,故不能直接比较各原因对结果的作用 大小,即使单位相同,若各原因(自变量)的变异度(标准差)不同,也是无法比较的。何况偏回归系数 也不能解释与其他相关原因共同对结果的作用。为此,1921年S· Wright发表了一篇“相关与相关原因” 的论文,文中对相关系数进行剖分,找出了用来表明各原因对结果所起直接作用大小的统计量,即通径系 数。之后,该方法不断得到应用和完善,成为具有直观、精确等特点的一种重要分析方法。 第一节通径分析的基本原理 通径分析的基本原理与性质 为叙述方便,先讨论两个原因(自变量)x1,x2及结果(依变量)y三个相关变量,后再推广至 般。假设x1,x2与y间存在线性关系,则x1,x2与y的回归方程为 y=bo +b,x,+b =bo+baxI+b2X?+e (2-2) (2-2)式中bo为常数项,b,b分别为y对x,x2的偏回归系数,e为与各变量相互独立的误差 项(或剩余项)。x1,x2间存在相关,则(2-2)式的关系可用图1示之
9 第三讲 通径分析 PATH ANALYSIS 基本知识 一、适宜资料:多个自变量 xi 与一个依变量 y 呈线性相关关系。 二、分析目的:分析多个自变量 xi 与一个依变量 y 的相关关系,并把各自变量 xi 与 y 的总关系(影响), 即相关系数 rij 分解为 xi 对 y 的直接作用(通经系数 Piy)及间接作用,并利用通经系数比较各 xi 对作用程 度的相对大小。 三、分析思路:把各自变量 xi 对 y 的综合作用(简单相关系数 rij)剖分为直接作用及间接作用,利用 相关系数阵计算通经系数。 四、分析方法:共六大步骤见后。 在生物界中,数量性状间的关系往往是彼此相关的。从统计学上讲,研究多个相关变量间的关系,可 根据相关变量间是因果关系或平行关系,采用不同的统计分析方法。若变量间互为因果而呈平行关系时, 多采用相关分析。若变量间因果分明,多采用多元线性回归分析。如第一讲中因果分明,产蛋率为果,各 环境参数为因。然而,相关变量内的这两种分析方法都存在一定的局限性。如简单相关系数固然可以用来 度量两变量间的相关密切程度。但其中也包含有其他相关变量对它们的影响。因此,多少包含有虚伪的成 分了。尤其在分析原因对结果作用方面。相关系数无法表明。就此而言,多元回归分析中的偏回归系数, 在一定程度上可指出各原因对结果的直接作用,但因带有不同单位,故不能直接比较各原因对结果的作用 大小,即使单位相同,若各原因(自变量)的变异度(标准差)不同,也是无法比较的。何况偏回归系数 也不能解释与其他相关原因共同对结果的作用。为此,1921 年 S·Wright 发表了一篇“相关与相关原因” 的论文,文中对相关系数进行剖分,找出了用来表明各原因对结果所起直接作用大小的统计量,即通径系 数。之后,该方法不断得到应用和完善,成为具有直观、精确等特点的一种重要分析方法。 第一节 通径分析的基本原理 一、通径分析的基本原理与性质 为叙述方便,先讨论两个原因(自变量)x1 ,x2 及结果(依变量)y 三个相关变量,后再推广至一 般。假设 x1 ,x2 与 y 间存在线性关系,则 x1 ,x2 与 y 的回归方程为: 0 1 1 2 2 y ˆ = b + b x + b x (2—1) 或 y=b0+b1x1+b2x2+e (2—2) (2—2)式中 b0 为常数项,b1 ,b2 分别为 y 对 x1 ,x2 的偏回归系数,e 为与各变量相互独立的误差 项(或剩余项)。x1 ,x2 间存在相关,则(2—2)式的关系可用图 1 示之
图1通径图 图1中,单箭头表示自变量与依变量间存在的因果关系,方向由原因到结果,称为通径。双箭头表示 自变量间存在的平行关系,称为相关线, 若不考虑误差项e,(2-2)式可改写成为: bo+bixI+b2x2 (2-3) 其中: bo=y-be5-b2x2 y=bo +b,x,+b2x2 将(2-3)式减(2-4)式可得 y-y=b1(x1-x1)+b2(x2-x2) 将(2-5)式两边平方后求和,并遍除以n-1,可得 ∑(y-y)2_12(x1-元) ∑(x,-x b2 +2b1b2 ∑(x1-x1)(x2-x2) S2=bs4 +b2S4+2b,b, COV12 (2-6)式两边同除以S2得: COL (2-7) (2-7)式中b1Sx/Sy,b2SxSy为标准偏回归系数,也叫通径系数,分别记作P1,Py2,用来 表示x,x2对y影响的相对重要性。由于是不带单位的相关系数,故可直接用于比较对结果影响的大小。 [注:偏回归系数b本身并不能反映自变量的相对重要性,其原因有(1)是b带有具体单位,单位不同 无法比较:(2)是即使单位相同,若x的变异度不同也不能比较。但若对b进行标准化,即在分子和分母 分别除以y和x的标准差,就可以消除单位和变异度不同的影响,获得一个表示x对y影响相对重要性的 统计数一一通径系数Py:Py=b /(n b 其统计意义是:若x增加一个标准差单位 y将增加(P)0)或减少(P〈0)P个标准差单位。]通径系数的平方称为决定系数,表示各原因 对结果相对的决定程度,即: 因为-9可/(5: 所以(2—7)式可改写成 dy. 1+dy 2+2 Py. 1 Py.2 [12=1 (2-8) 其中2PyPy2r12可以看成相关原因x1,x共同对结果y的相对决定程度,称为相关原因x1,x2共
10 图 1 通径图 图 1 中,单箭头表示自变量与依变量间存在的因果关系,方向由原因到结果,称为通径。双箭头表示 自变量间存在的平行关系,称为相关线, 若不考虑误差项 e,(2—2)式可改写成为: y= b0+b1x1+b2x2 (2—3) 其中: 0 1 1 2 2 0 1 1 2 2 y b b x b x b y b x b x = + + = − − (2—4) 将(2—3)式减(2—4)式可得: ( ) ( ) 1 1 1 2 2 2 y − y = b x − x + b x − x (2—5) 将(2—5)式两边平方后求和,并遍除以 n-1,可得: 1 ( )( ) 2 1 ( ) 1 ( ) 1 ( ) 1 1 2 2 1 2 2 2 2 2 2 2 2 1 1 1 2 − − − + − − + − − = − − n x x x x b b n x x b n x x b n y y 即 1 2 12 2 2 2 2 2 1 2 2 1 2 Sy = b Sx + b Sx + b b COV (2—6) (2—6)式两边同除以 2 y S 得: 2 1 1 2 1 2 1 2 12 1 2 2 2 2 1 = + + y x x x y x y x y x S S COV S S b S S b S S b S S b (2—7) (2—7)式中 b1 Sx1/Sy,b2 Sx2/Sy 为标准偏回归系数,也叫通径系数,分别记作 Py.1 ,Py.2 ,用来 表示 x1,x2 对 y 影响的相对重要性。由于是不带单位的相关系数,故可直接用于比较对结果影响的大小。 注:偏回归系数 bi 本身并不能反映自变量的相对重要性,其原因有(1)是 bi 带有具体单位,单位不同 无法比较;(2)是即使单位相同,若 xi 的变异度不同也不能比较。但若对 bi 进行标准化,即在分子和分母 分别除以 y 和 xi 的标准差,就可以消除单位和变异度不同的影响,获得一个表示 xi 对 y 影响相对重要性的 统计数——通径系数 Py.i:Py.i=bi ( ) ( ) y x i x y ss ss b ss n ss n i i = − − 1 1 1 1 ,其统计意义是:若 xi 增加一个标准差单位, y 将增加(Py.i 0)或减少(Py.i 0)Py.i 个标准差单位。 通径系数的平方称为决定系数,表示各原因 对结果相对的决定程度,即: 2 1 1 2 .1 .1 = = y y y S Sx d P b , 2 2 2 2 2 2 = = y y y S Sx d P b 因为 1 2 1 2 1 2 12 12 12 12 1 ( 1)( 1) x x x x x x S S COV n n SS SS n SP r SP SS SS = − − − = = 所以(2—7)式可改写成 dy.1+dy.2+2 Py.1 Py.2 r12=1 (2—8) 其中 2 Py.1 Py.2 r12 可以看成相关原因 x1 ,x2 共同对结果 y 的相对决定程度,称为相关原因 x1 ,x2 共
同对结果y的决定系数,记为d1,所以(2-8)式又可写成 由(2—9)式可推广到一般,即,如果相关变量x1,x.…,xm,y间存在线性关系,复回归方程为: 且x1,x,…,xm两两相关,即r12≠0,r3≠0,…,rm1,m≠0,不考虑e时,则x1,x2…,xm对结 果y的决定系数之和加上两两相关原因共同对结果y的决定系数等于1,即 dy1+dy2+…+dym+dy2+dy13+…+dlym1m=1 (2-10) 简写为 ∑d, 其中 d i =p, dy. j =2Pyi Py ri (i, j=l,2,", m, isi 若考虑误差项e,则Σd+Σdy≠1,而把1-∑dy-∑d叫作误差对结果y的决定系数,记为dy 如果ds的绝对值较大,说明可能还有一些对结果影响较大的原因未被考虑进去。显然,误差项到y的通 径系数: P 对于(2-1)式,为求b,b2可得下列两个方程 SS,bi+SPI2b2=SP (2-11) SP21b1+SS2b2=SP2y (2-12) 先对以上两式的各项除以n-1后,(2-11)式再除以SxSy,(2-12)式除以Sx2Sy可得 S. Co S,S SS-s, Ss cova\S1 SS SS Py. 1 +r12Py.2=Tly (2-13) [21 Py. 1+ Py.2=T2y (2-14) (2-13)式中,Py为x1对y的直接作用;r12Py2为x1通过x2对y的间接作用,即x1与y的相关系 数ry可剖分为x对y的直接作用和x通过x2对y的间接作用。类似的(2-14)式也是将x2与y的相关 系数r2y剖分为x2对y的直接作用Py和x2通过x1对y间接作用r2Py1。 推广到一般,即一个依变量y与m个自变量的情形,则有: Pr 1+n2P2+1i3.3+.+im Py.m =riy P2+F23 r2,P,+H2、P,+P,+…+PP rm P +rm2P2 +rm3P33+.+Pm=rm 、通径分析的基本步骤 综上所述,通径分析可按以下步骤进行
11 同对结果 y 的决定系数,记为 dy.12 ,所以(2—8)式又可写成: dy.1+dy.2+dy.12=1 (2—9) 由(2—9)式可推广到一般,即,如果相关变量 x1 ,x2…,xm,y 间存在线性关系,复回归方程为: y= b0+b1x1+b2x2+…+bmxm 且 x1 ,x2,…,xm两两相关,即 r12≠0,r13≠0,…,rm-1, m≠0,不考虑 e 时,则 x1 ,x2…,xm对结 果 y 的决定系数之和加上两两相关原因共同对结果 y 的决定系数等于 1,即 : dy.1+dy.2+…+dy.m+dy.12+dy.13+…+dy.m-1 m=1 (2—10) 简写为: . . 1 1 + = = y ij m i j y i m i d d 其中 2 dy.i = Py.i , dy.ij=2Py.i Py.j rij (i,j=1,2,…,m,i<j ) 若考虑误差项 e,则 ∑dy.i+∑dy.ij≠1,而把 1-∑dy.i-∑dy.ij 叫作误差对结果 y 的决定系数,记为 dy.e。 如果 dy.e 的绝对值较大,说明可能还有一些对结果影响较大的原因未被考虑进去。显然,误差项到 y 的通 径系数: Py.e = d y.e 对于(2—1)式,为求 b1,b2 可得下列两个方程: SS1b1+SP12b2=SP1y (2—11) SP21b1+SS2b2=SP2y (2—12) 先对以上两式的各项除以 n-1 后,(2-11)式再除以 Sx1Sy,(2-12)式除以 Sx2Sy 可得: + = + = x y y x x y x y x x x x y y y x x x x x y x S S COV S S S S b S S b S S COV S S COV S S b S S COV S S S S b 2 2 1 2 2 1 2 1 2 1 1 2 1 1 2 1 2 21 1 2 12 1 即: Py.1 +r12Py.2=r1y (2—13) r21Py.1+ Py.2=r2y (2—14) (2-13)式中,Py.1 为 x1 对 y 的直接作用;r12Py.2 为 x1 通过 x2 对 y 的间接作用,即 x1 与 y 的相关系 数 r1y 可剖分为 x1 对 y 的直接作用和 x1 通过 x2 对 y 的间接作用。类似的(2—14)式也是将 x2 与 y 的相关 系数 r2y 剖分为 x2 对 y 的直接作用 Py.2 和 x2 通过 x1 对 y 间接作用 r21Py.1 。 推广到一般,即一个依变量 y 与 m 个自变量的情形,则有: + + + + = + + + + = + + + + = + + + + = m y m y m y y m my y y y m y m y y y y m y m y y y y m y m y r P r P r P P r r P r P P r P r r P P r P r P r P r P r P r P r 1 .1 2 .2 3 .3 . 31 .1 32 .2 .3 3 . 3 21 .1 .2 23 .3 2 . 2 .1 12 .2 13 .3 1 . 1 (2—15) 二、通径分析的基本步骤 综上所述,通径分析可按以下步骤进行:
1、计算各变量间的相关系数 2、对(2-15)方程组,按(1-16)式进行通径系数的计算 3、作出通径图,标上各通径系数及相关系数 4、由方程组(2-15)计算各原因(自变量)对结果(依变量)的直接作用和间接作用,并进行分析 5、计算决定系数,进行决定程度分析,计算Pye并标在通径图上 6、对各通径系数进行显著性检验,剔除不显著的自变量,为建立最优回归方程提供依据,并算出总贡 献率R2(相关指数)。 第二节实例分析 全模型法通径分析(计算全部自变量的通经系数,再进行显著性检验,去掉不显著的自变量) 例1采用第一讲的例1资料为例,为方便起见,自变量顺序为干球温度(ⅹ1)、湿球温度(x)、露点 温度(x3)、相对温度(x),依变量为周平均产量率(y,共5个相关变量,着重分析各原因与结果间(y) 的详细关系。 计算各变量间的相关系数(见2—1表) 表2-1变量间的相关系数r 0.9944 0.9312 0.2287 0.7910 0.9642 0.3275 0.7325 0.5557 0.5615 -0.2648 2、计算通径系数 由(2-15)式可得以下正规方程组 Pn1+0.9944P2+0.9312P3+0.2287P4=0.7910 09944P1+P2+0.9642P3+0.3275P,4=0.7325 0.9312P1+0.9642P2+P3+0.55574=0.5615 02287P+0.3275P2+0.55573,3+P4=02648 解上述方程组,可得各通径系数,求解方法仍可采用(1-16)式的求解求逆紧凑法进行,即对下例增 广矩阵(相关阵R)进行4次消去变换,可得解 0.9944093120.22870.7910 0.99441 0.96420.32750.732 R0)=0.93120.96421 0.55570.5615 0.22870.32750.55571 -0.2648 0.79100.73250.5615-0.26481 对x1的消去变换L=0,K=1
12 1、计算各变量间的相关系数。 2、对(2—15)方程组,按(1—16)式进行通径系数的计算。 3、作出通径图,标上各通径系数及相关系数。 4、由方程组(2—15)计算各原因(自变量)对结果(依变量)的直接作用和间接作用,并进行分析。 5、计算决定系数,进行决定程度分析,计算 Py.e 并标在通径图上。 6、对各通径系数进行显著性检验,剔除不显著的自变量,为建立最优回归方程提供依据,并算出总贡 献率 R 2(相关指数)。 第二节 实例分析 一、全模型法通径分析(计算全部自变量的通经系数,再进行显著性检验,去掉不显著的自变量) 例 1 采用第一讲的例 1 资料为例,为方便起见,自变量顺序为干球温度(x1)、湿球温度(x2)、露点 温度(x3)、相对温度(x4),依变量为周平均产量率(y),共 5 个相关变量,着重分析各原因与结果间(y) 的详细关系。 1、计算各变量间的相关系数 (见 2—1 表) 表 2—1 变量间的相关系数 rij x2 x3 x4 y x1 0.9944 0.9312 0.2287 0.7910 x2 0.9642 0.3275 0.7325 x3 0.5557 0.5615 x4 -0.2648 2、计算通径系数 由(2—15)式可得以下正规方程组 + + + = + + + = + + + = + + + = 0.2287 0.3275 0.5557 0.2648 0.9312 0.9642 0.5557 0.5615 0.9944 0.9642 0.3275 0.7325 0.9944 0.9312 0.2287 0.7910 .1 .2 .3 .4 .1 .2 .3 .4 .1 .2 .3 .4 .1 .2 .3 .4 y y y y y y y y y y y y y y y y P P P P P P P P P P P P P P P P 解上述方程组,可得各通径系数,求解方法仍可采用(1—16)式的求解求逆紧凑法进行,即对下例增 广矩阵(相关阵 R (0))进行 4 次消去变换,可得解。 − − = 0.7910 0.7325 0.5615 0.2648 1 0.2287 0.3275 0.5557 1 0.2648 0.9312 0.9642 1 0.5557 0.5615 0.9944 1 0.9642 0.3275 0.7325 1 0.9944 0.9312 0.2287 0.7910 (0) R 对 x1 的消去变换 L=0,K=1
0.9944 0.931202287 0.7910 0.99440.01116900382150.100081-0.054070 0.931200382150.1328670.3427350.175079 0.22870.1000810.3427350.947696 0.445702 0.7910-0.054070-0.17079-04457020.374319 对x2的消去变换L=1,K=2 8953353 89032143-2471164-86817265.604968 89032143895335334215248960605-4.841078 R()=2.471164 3.421524000211300003050009923 8.681726 8.9606050.0003050.050910.038798 -5.60496848410780009923003877990.1125619 对x3的消去变换L=2,K=3 297957196-4090.5215116950497 8.32502617.209967 4090.521556299070916192730718466727-20.90913 R)=116950497-161973071473260770.143454696167 8.325026 8466727 0.1443450.0508660.037366 -1720996720.90913-46961670.0373660.0659618 对x4的消去变换L=3,K=4 4342.094 5476.235381145.880627163.6658323.325504 5476.235385631480991595.24661-1664516-27.128761 R(4)=1145880627159524661473670382728377545901316 163.66583 1664516 2.83775196594980.7345968 23.324504 7.128761 4.59013160.73459680.0385129 解得: P1=23.3255,Py2=-27.1288,P3=4.5902,P4=0.7346 3、作出通径图 By2=-27.1288 4、计算x对y的直接作用及间接作用。间接作用依下式计算 ,i≠j)(2-16) 如x1通过x2对y的间接作用为
13 − − − − − − − − − − = 0.7910 0.054070 0.17079 0.445702 0.374319 0.2287 0.100081 0.342735 0.947696 0.445702 0.9312 0.038215 0.132867 0.342735 0.175079 0.9944 0.011169 0.038215 0.100081 0.054070 1 0.9944 0.9312 0.2287 0.7910 (1) R 对 x2 的消去变换 L=1,K=2 − − − − − − − − = 5.604968 4.841078 0.009923 0.0387799 0.1125619 8.681726 8.960605 0.000305 0.05091 0.038798 2.471164 3.421524 0.002113 0.000305 0.009923 89.032143 89.53353 3.421524 8.960605 4.841078 89.53353 89.032143 2.471164 8.681726 5.604968 (2) R 对 x3 的消去变换 L=2,K=3 − − − − − − − − − − = 17.209967 20.90913 4.696167 0.037366 0.0659618 8.325026 8.466727 0.144345 0.050866 0.037366 1169.50497 1619.73071 473.260777 0.144345 4.696167 4090.5215 5629.90709 1619.273071 8.466727 20.90913 2979.57196 4090.5215 1169.50497 8.325026 17.209967 (3) R 对 x4 的消去变换 L=3,K=4 − − − − − − − − − − = 23.324504 27.128761 4.5901316 0.7345968 0.0385129 163.66583 166.4516 2.83775 19.659498 0.7345968 1145.880627 1595.24661 473.6703827 2.83775 4.5901316 5476.23538 5631.48099 1595.24661 166.4516 27.128761 4342.0943 5476.23538 1145.880627 163.66583 23.325504 (4) R 解得: Py.1=23.3255, Py.2= -27.1288, Py.3=4.5902 ,Py.4=0.7346 3、作出通径图 x1 Py.1=23.3255 Py.2= -27.1288 x2 y Py.3=4.5902 Py.4=0.7346 x3 x4 e 4、计算 xi 对 y 的直接作用及间接作用。间接作用依下式计算: Pi→j→y=rijPyj (i,j=1,2,…m,i≠j) (2-16) 如 x1 通过 x2 对 y 的间接作用为: