(三)两个样本平均数之差的分布 如果有两个正态分布总体,其平均数分别为u1和u2,方差分别为G和 G2,那么从这两个正态分布总体中抽取的容量分别为n1和n2的两个独立样 本的平均数之差x1-x2也一定服从正态分布,其数学期望为μ1,-μ2,方 差为+2。上面所讲的两个样本独立,是指一个样本中各单位的抽取对 另一个样本中各单位的抽取没有影响。 (四)样本比率的分布 当总体服从二项分布时,它的所有单位可以分戍两类,每一类具有一个 特定的属性或特征。例如合格品或不合格品,男学生或女学生等习惯上,往 往是只指定其中一个属性或特征,具备这一同性或特征的单位称“成功”的 单位,不具备这一属性或特征的单位就称为“失败”的单位。 在二项分布总体中,成功单位数与总体全部单位数之比称为总体比率 记作p。从二项分布总体中抽样,样本中成功单位数与样本容量之比称为样 本比率,记作p。样本比率是个随机变量,当样本容量很大时近似服从正态 分布,其分布的数学期望等于总体比率为p,方差等于凹-P。须注意,样 本比率p的抽样分布要近似为止态分布,样本容量n必须很大,并且要满足 np和n(1-p)大于5。 此外,还有一些常用的抽样分布,如:t分布、F分布、x2分布等
(三)两个样本平均数之差的分布 如果有两个正态分布总体,其平均数分别为μ1 和μ2,方差分别为s1 2 和 s2 2 ,那么从这两个正态分布总体中抽取的容量分别为 n1 和 n2 的两个独立样 本的平均数之差 x1 - x2 也一定服从正态分布,其数学期望为μ1,-μ2,方 差为 s1 s 2 1 2 2 n n1 + 。上面所讲的两 个样本独立,是指一个样本中各单位的抽取对 另一个样本中各单位的抽取没有影响。 (四)样本比率的分布 当总体服从二项分布时,它的所有单位可以分戍两类,每一类具有一个 特定的属性或特征。例如合格品或不合格品,男学生或女学生等习惯上,往 往是只指定其中一个属性或特征,具备这一同性或特征的单位称“成功”的 单位,不具备这一属性或特征的单位就称为“失败”的单位。 在二项分布总体中,成功单位数与总体全部单位数之比称为总体比率, 记作 p。从二项分布总体中抽样,样本中成功单位数与样本容量之比称为样 本比率,记作 p。样本比率是个随机变量,当样本容量很大时近似服从正态 分布,其分布的数学期望等于总体比率为 p,方差等于 p p n (1- ) 。须注意,样 本比率 p 的抽样分布要近似为止态分布,样本容量 n 必须很大,并且要满足 np 和 n(1-p)大于 5。 此外,还有一些常用的抽样分布,如:t 分布、F 分布、x 2 分布等
第五节回归分析和相关分析 元线性回归 (一)一元回归分析和相关分析 我们已经知道变量间一般具有两种关系,即函数关系和相关关系。回归 分析则是处理具有相关关系的变量之间的统计方法。一般当两个变量有统计 相关关系时,对应自变量Ⅹ的每一个值X,应变量Y有许多可能取的值。为 找出X和Y之间的定量关系,一个自然的想法是,取X=x。时所有Y值的平 均值(记作Y)作为对应X=x0时Y的代表值,亦即取 Y=E(YX=Xo) 其中(Yx=x)表示在X=x条件下,Y的条件期望。同样的,对应 于X=x1,有Y1=E(Yx=x1)作为X=x1时Y的代表值。一般说来,对于任 何一个X的可能取值x,我们都可以相应取Y=E(YX=x),当x变化时,上 式右边是x的函数 可以记为: Y=f (x)=E(Y X=X) 公式(1)就叫做应变量Y关于自变量调的回归方程。或者得称做Y关于X 的回归函数。Y对调的回归方程反映了在X取值变动时,Y平均状态的变化情 况 怎样从几何图形上确定f(x)的曲线类型来反映变量之间的关系,这个 问题比较复杂。在实际应用中往往一是依据专业理论知识和以往的经验,二 是用观察数据作散点图来分析其主要的变化趋势,由此确定函数的类型。 (二)一元线性回归方程 回归方程最简单的一种情况,就是线性回归方程。在线性回归方程中, 当自变量只有一个时称作一元线性回归方程;自变量不止一个时,称作多无 线性回归方程。 如果一个应变量与一个自变量有相关关系,根据观察数据作散点图时, 它们的关系具有直线趋势,则可用一无线性回归直线去进行拟合。 (三)相关系数及其显著性检验 建立回归方程时,可以根据观察点配合一个直线方程表示y和调之间的 关系。显然,此时所配的直线是毫无意义的,这就需要给出一个数量性的指 标来描述两个变量间线性相关的密切程度,这个指标就是相关系数,常用字 母r表示。所求相关系数的公式为 ∑xy:-C∑x)∑y:) 由于b=,”,故相关系数r和回归系数数b有下列关系
第五节 回归分析和相关分析 一、一元线性回归 (一)一元回归分析和相关分析 我们已经知道变量间一般具有两种关系,即函数关系和相关关系。回归 分析则是处理具有相关关系的变量之间的统计方法。一般当两个变量有统计 相关关系时,对应自变量 X 的每一个值 X,应变量 Y 有许多可能取的值。为 找出 X 和 Y 之间的定量关系,一个自然的想法是,取 X=x。时所有 Y 值的平 均值(记作 Y0)作为对应 X=x0 时 Y 的代表值,亦即取 Y = E(Y X = x ) 0 其中((Y X = x ) 0 )表示在 X=x0 条件下,Y 的条件期望。同样的,对应 于 X=x1,有 Y1= E(Y X = x ) 1 作为 X=x1 时 Y 的代表值。一般说来,对于任 何一个 X 的可能取值 x,我们都可以相应取Y = E(YX = x),当 x 变化时,上 式右边是 x 的函数, 可以记为: Y=f(x)=E(Y|X=x) ① 公式(1)就叫做应变量 Y 关于自变量调的回归方程。或者得称做 Y 关于 X 的回归函数。Y 对调的回归方程反映了在 X 取值变动时,Y 平均状态的变化情 况。 怎样从几何图形上确定 f(x)的曲线类型来反映变量之间的关系,这个 问题比较复杂。在实际应用中往往一是依据专业理论知识和以往的经验,二 是用观察数据作散点图来分析其主要的变化趋势,由此确定函数的类型。 (二)一元线性回归方程 回归方程最简单的一种情况,就是线性回归方程。在线性回归方程中, 当自变量只有一个时称作一元线性回归方程;自变量不止一个时,称作多无 线性回归方程。 如果一个应变量与一个自变量有相关关系,根据观察数据作散点图时, 它们的关系具有直线趋势,则可用一无线性回归直线去进行拟合。 (三)相关系数及其显著性检验 建立回归方程时,可以根据观察点配合一个直线方程表示 y 和调之间的 关系。显然,此时所配的直线是毫无意义的,这就需要给出一个数量性的指 标来描述两个变量间线性相关的密切程度,这个指标就是相关系数,常用字 母 r 表示。所求相关系数的公式为: r lxy l l x y n x y x n x y n y xx yy i i i i i i i i = = - - - å å å å å å å 1 1 1 2 2 2 2 ( )( ) [ ( ) ][ ( ) ] ② 由于 b l l xy xx = ,故相关系数 r 和回归系数数 b 有下列关系:
bI 显然r和b的符号是一致的。 r丨≤1,而且r的值反映了r和y的内在联系。现分析如下: 1.当r=±1时,所有点全在一条直线(即驾临直线)上。此时,称x 与y完全线性相关。当x=1时称为完全正相关;当r=-1时,称为完全负 相关 2.当0<|rl<1时,这种情况很普遍,此时x和y存在一定的线性相关。 当r>0时,称x和y是正相关;当r<0时,称x和y是负相关。 3当r=0时,此时b=0,故回归直线是与x轴平行的直线,说明y的 变化和x无关,此时x和y无线性相关。 采用观察值计算出的是样本相关系数,要说明两总体变量是否具有线性 相关,一般还需作假设检验。 设:H:总体相关系数为0 H1:总体相关系数不为0 检验统计量为: F 可以证明,当H0成立时统计量F是服从具有自由度为(1,n-2)的F 分布,因而给出显著性水平。a(通常a=0.01或0.05)。当F≥Fa(1,n 2)时,则拒绝H0,即说明两变量之间线性相关关系是显著的;反之,若F <Fa(1,n-2),则接受Ho,说明两变量线性相关关系不显著 (四)一元线性回归的方差分析 用最小二乘方求得一个回归方程后,其效果如何,方程所揭示的变量变 动规律强不强,能否利用它根据自变量ⅹ的取值来预报(或控制)应变量y 的取值,以及预报的精度如何等等。为此需要进行方差分析。 把观蔡值y与平均数y之间的离差平方和称为总偏差平方和,记作S SS=∑(y:-y 其中y=1 把观察值y;与拟合值y的离差平方和称为误差平方和,记作SS。,即 S=∑(y:-y (i=1,2 n为按回归方程计算出的yi的拟合值(理论值)。 把拟合值y与y的离差平方和称为回归平方和,记作SR,即
r bl l l xx xx yy = ③ 显然 r 和 b 的符号是一致的。 |r|≤1,而且 r 的值反映了 r 和 y 的内在联系。现分析如下: 1.当 r=±1 时,所有点全在一条直线(即驾临直线)上。此时,称 x 与 y 完全线性相关。当 x=1 时称为完全正相关;当 r=-1 时,称为完全负 相关。 2.当 0<|r|<1 时,这种情况很普遍,此时 x 和 y 存在一定的线性相关。 当 r>0 时,称 x 和 y 是正相关;当 r<0 时,称 x 和 y 是负相关。 3.当 r=0 时,此时 b=0,故回归直线是与 x 轴平行的直线,说明 y 的 变化和 x 无关,此时 x 和 y 无线性相关。 采用观察值计算出的是样本相关系数,要说明两总体变量是否具有线性 相关,一般还需作假设检验。 设:H0:总体相关系数为 0 H1:总体相关系数不为 0 检验统计量为: F r r = n - - 2 2 1 ( 2) ④ 可以证明,当 H0 成立时统计量 F 是服从具有自由度为(1,n-2)的 F 分布,因而给出显著性水平。a(通常 a=0.01 或 0.05)。当 F≥Fa(1,n -2)时,则拒绝 H0,即说明两变量之间线性相关关系是显著的;反之,若 F <Fa(1,n-2),则接受 H0,说明两变量线性相关关系不显著。 (四)一元线性回归的方差分析 用最小二乘方求得一个回归方程后,其效果如何,方程所揭示的变量变 动规律强不强,能否利用它根据自变量 x 的取值来预报(或控制)应变量 y 的取值,以及预报的精度如何等等。为此需要进行方差分析。 把观蔡值 yi 与平均数 y之间的离差平方和称为总偏差平方和,记作 Ss 总。即: SS y y y n y i i n i i n 总 其中 = - = = = - å å ( ) 2 1 1 1 把观察值 yi 与拟合值 y 的离差平方和称为误差平方和,记作 SSe,即: SS y y e i = ( - )2 i n = å 1 y i(i=1,2,……n 为按回归方程计算出的 yi 的拟合值(理论值)。 把拟合值 y 与 y 的离差平方和称为回归平方和,记作 SSR,即:
可以证明SSa=SSR+SS, 即有 ∑y;-2=∑+(y)-y) 因为 ∑(a+bx1-a-bx)2 ∑(x,-x) b21= bl 所以知道b和xy即可得到S8则SS=88总一SR 要求回归方程解释y和ⅹ变动规律的能力强,就等价于要求回照排误差 要小,即要求误差平方和SS。由于观察数据给定后,总偏差平方和S总是 一个常量,因此,一个回归方程的效果好坏(即解释能力的强弱)取决于SS 和Ss,或者说取决于S8在总偏差平方和SS总中的比例。这个比例越 大,误差越小,回归效果就越好 比值 =r2,从而SS sss=s-Ss=1l-y=l(1-r2)。通过这些关系式,可以 进一步理解相关系数的意义,并且很容易看出|r≤1。实际上,回归平方 和S是总平方和SS总=1y中的一部分,而误差平方和又不能为负数,因此 S≤S8=1y故由r3SS1,即|rl≤1。 每一个平方和都有一个自由度同它相联系,总偏差平方和的自由度为 1,因为在计算∑(y;-y)2的偏差平方和时消失了一个自由度 误差平方和自由度为n-2,因为在∑(y-y)=∑(y;-a-bx)公 式中,其中参数a和b是由观察资料计算的,因而消失两个自由度。 回归平方和∑()-y)2的自由度为1因为对具有一个自变量的回 归方程来说。回归平方和自由度为1。 由此可知自由度也可分解,即总偏差平方和自由度=误差平方和自由度 十回归平方和自由度。 这种将平方和及自由度分解后进行分析的方法称方差分析法。 元回归的方差分析是将回归平方和与误差平方和各自除以自己的自由 度后加以比较,然后对这个方差比作显著性检验。如果检验结果是显著的, 说明调和y存在着线性关系,回归效果显著。反之,则说明调和y不存在线 性关系,回归效果不显著。为此,可用检验统计量为 这个统计量
SSR yi y = ( - )2 可以证明 即有 因为 总 i n R e i i n i i n R yy i i xx xy SS SS SS y y y y SS l y y a bx a bx b x x b l bl = = = å å å å å å = + - = + - = = - = + - - = - = = 1 2 1 2 1 2 2 2 2 2 , : ( $) ( ) ) : ($ $) ( ) ( ) 所以知道 b 和 lxy 即可得到 SSR,则 SSe=SS 总-SSR。 要求回归方程解释 y 和 x 变动规律的能力强,就等价于要求回照排误差 要小,即要求误差平方和 SSe。由于观察数据给定后,总偏差平方和 Ss 总是 一个常量,因此,一个回归方程的效果好坏(即解释能力的强弱)取决于 SSR 和 SSe,或者说取决于 SSR 在总偏差平方和 SS 总中的比例 SS SS R 总 。这个比例越 大,误差越小,回归效果就越好。 比值 = = = ,从而 = = , 总 总 SS SS bl l l l l r SS r SS r l R xy yy xy 2 xx yy 2 R 2 2 yy SS SS SS SS l r yy l 1 r e e R yy l 2 gg = 总 - = - = ( - 2)。 通过这些关系式,可以 进一步理解相关系数的意义,并且很容易看出|r|≤1。实际上,回归平方 和 SSR 是总平方和 SS 总=1yy 中的一部分,而误差平方和又不能为负数,因此 SSR≤SS 总=lyy 故由 r SS SS 1 2= R ≤ 总 ,即|r|≤1。 每一个平方和都有一个自由度同它相联系,总偏差平方和的自由度为 n -1,因为在计算 (yi-y )2 å 的偏差平方和时消失了一个自由度。 误差平方和自由度为 n -2,因为在 (y -y )= (y -a-bx) 1 i 2 å å 公 式中,其中参数 a 和 b 是由观察资料计算的,因而消失两个自由度。 回归平方和 (y$)i-y )2 å 的自由度为 1,因为对具有一个自变量的回 归方程来说。回归平方和自由度为 1。 由此可知自由度也可分解,即总偏差平方和自由度=误差平方和自由度 十回归平方和自由度。 这种将平方和及自由度分解后进行分析的方法称方差分析法。 一元回归的方差分析是将回归平方和与误差平方和各自除以自己的自由 度后加以比较,然后对这个方差比作显著性检验。如果检验结果是显著的, 说明调和 y 存在着线性关系,回归效果显著。反之,则说明调和 y 不存在线 性关系,回归效果不显著。为此,可用检验统计量为: F SS SS n R e = - / / 1 2 这个统计量
Iw(n-2 (n-2) 即为相关系数r的显著性检验时用的统计量④式。给定显著性水平a后, 查表Fa(1,n-2),当F≥F(1,n-2),表明回归效果显著;反之,则不 显著,即x和y不存在线性关系。另外,从上述介绍可知,对于一无线性回 归问题,方差分析法和相关系数显著性检验法是一致的,因此只须采用其中 之一即可。 (五)一元线性回归的预测 若已求得回归方程ya+b,则当x=x0时,对应的预报对象y的点预 测值为y=a+bx。但是,由于各种因素的影响,在x=x。时,实际上观察 到的数值y。-般不会恰好是,它们之间总是存在着一定的们差,即预测误 差。为了掌握预报的精度,要对误差的变动范围作出测定。 通常用估计标准误差来说明y与y的差异程度,在大样本时,其公式 为 (y1-)2 此式计算比较繁琐,通常采用下式: y 一般若y为正态分布,当n较大,并且x0不远离x时,可以证明当n 较小,通常n<30时,则若给定置信概率(即可靠度)1-a,可以证明yo的 预测区间为: Fo-t(n-2)S ≤y0≤y+t +1+X-x0)2其中,可通过查分布表得到 ∑(x 实际上大样本预测区问的公式和小样本预测区问的公式是一致的,因为 当n增大时,小样本公式中的概式趋近于1,t分布趋近于正态分布,在正态 分布下,概率度为1的置信概率是0.6287,概率度为2的置信概率是0.9545 概率度为3的置信概率是0.9973 二、多元线性回归 (一)多元线性回归的计算方法 当所要研究的经济变量的变化是几个重要因素共同作用的结果时,要选 取几个自变量来建立回归方程,这就是多元回归问题。多无线性回归同一无 线性回归的方法相似,但计算要繁琐得多 如果两个自变量(用x1和x2表示)分别同一个应变量(用y表示)呈 线性相关时,可用二无线性回归方程描述
F SS SS n rl n r l r r n R e yy yy = - = - - = - - / / ( ) ( ) ( ) 1 2 2 1 2 2 2 2 2 2 即为相关系数 r 的显著性检验时用的统计量④式。给定显著性水平 a 后, 查表 Fa(1,n-2),当 F≥Fa (1,n-2),表明回归效果显著;反之,则不 显著,即 x 和 y 不存在线性关系。另外,从上述介绍可知,对于一无线性回 归问题,方差分析法和相关系数显著性检验法是一致的,因此只须采用其中 之一即可。 (五)一元线性回归的预测 若已求得回归方程 y$=a+b ,则当 x=x0 时,对应的预报对象 y 的点预 测值为 y$ a bx 0= + 0。但是,由于各种因素的影响,在 x=x0 时,实际上观察 到的数值 y0 一般不会恰好是 y$0,它们之间总是存在着一定的们差,即预测误 差。为了掌握预报的精度,要对误差的变动范围作出测定。 通常用估计标准误差来说明 y$ i与 y i 的差异程度,在大样本时,其公式 为: S y y n yx i i = - - å( $ ) (5) 2 2 此式计算比较繁琐,通常采用下式: Syx y a y b x y n i i i i = - - - å å å å 2 2 (6) 一般若 y 为正态分布,当 n 较大,并且 x0 不远离 x 时,可以证明当 n 较小,通常 n<30 时,则若给定置信概率(即可靠度)1-a,可以证明 y0 的 预测区间为: $ ( )S ( ) ( ) $ ( )S ( ) ( ) y t n n x x x x y y t n n x x x x t t a yx i a xy i a 0 2 0 2 2 0 0 2 0 0 2 2 1 1 2 1 1 2 2 - - + + - - £ £ + - + + - å - 其中 可通过查 分布表得到。 实际上大样本预测区问的公式和小样本预测区问的公式是一致的,因为 当 n 增大时,小样本公式中的概式趋近于 1,t 分布趋近于正态分布,在正态 分布下,概率度为 1 的置信概率是 0.6287,概率度为 2 的置信概率是 0.9545, 概率度为 3 的置信概率是 0.9973。 二、多元线性回归 (一)多元线性回归的计算方法 当所要研究的经济变量的变化是几个重要因素共同作用的结果时,要选 取几个自变量来建立回归方程,这就是多元回归问题。多无线性回归同一无 线性回归的方法相似,但计算要繁琐得多。 如果两个自变量(用 x1 和 x2 表示)分别同一个应变量(用 y 表示)呈 线性相关时,可用二无线性回归方程描述: