第六章相关与回归分析(一)教学自的相关与回归分析是一种常用的统计分析方法。通过本章的学习使学生对相关的概念、类型有一定的认识,掌握相关程度的测定方法、判定相关的类别以及回归分析的基本方法。(二)基本要求要求了解相关的概念、类型,掌握相关程度的测定方法,学会线性回归分析的方法及检验。(三)教学要点1、相关关系的概念、种类和特点:2、回归分析的概念、种类和特点:3、线性相关关系、相关程度的测定及判断;4、一元线性回归方程的配合、估计标准误差的计算及说明。(四)本章的重点1、相关关系与函数关系的区分;2、相关关系的判断及测定;3、估计标准误差的计算;(五)教学时数6课时(六)教学内容本章共分三节:第一节相关与回归分析的基本概念一、相关关系与函数关系1.相关关系相关关系是指现象之间确实存在的,但关系值不固定的相互依存关系。即对于某一变量的每一个数值,另一变量有若干个数值与之相适应。如:身高1.75米的人可以表现为许多不同的体重:再如,施肥量与亩产之间,一定的施肥量,其亩产数值可能各不相同。2.函数关系函数关系反映着现象之间存在着严密的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对立,如:S=2圆的面积S与半径r是函数关系,1值发生变化,则有确定的s值与之对应。二、相关关系的种类(一)根据相关关系的程度划分,可分为不相关、完全相关和不完全相关1.不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。2.完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。3.不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象。(二)根据相关关系的方向划分,可分为正相关和负相关1.正相关。指两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。2.负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因
第六章 相关与回归分析 (一)教学目的 相关与回归分析是一种常用的统计分析方法。通过本章的学习使学生对相关的概念、类 型有一定的认识,掌握相关程度的测定方法、判定相关的类别以及回归分析的基本方法。 (二)基本要求 要求了解相关的概念、类型,掌握相关程度的测定方法,学会线性回归分析的方法及检 验。 (三)教学要点 1、相关关系的概念、种类和特点; 2、回归分析的概念、种类和特点; 3、线性相关关系、相关程度的测定及判断; 4、一元线性回归方程的配合、估计标准误差的计算及说明。 (四)本章的重点 1、相关关系与函数关系的区分; 2、相关关系的判断及测定; 3、估计标准误差的计算; (五)教学时数 6 课时 (六)教学内容 本章共分三节: 第一节 相关与回归分析的基本概念 一、相关关系与函数关系 1.相关关系 相关关系是指现象之间确实存在的,但关系值不固定的相互依存关系。即对于某一变量 的每一个数值,另一变量有若干个数值与之相适应。如:身高 1.75 米的人可以表现为许多 不同的体重;再如,施肥量与亩产之间,一定的施肥量,其亩产数值可能各不相同。 2.函数关系 函数关系反映着现象之间存在着严密的依存关系,在这种关系中,对于某一变量的一个 数值,都有另一变量的确定的值与之对立, 如: 2 s = r 圆的面积 S 与半径 r 是函数关系,r 值发生变化,则有确定的 s 值与之对应。 二、相关关系的种类 (一)根据相关关系的程度划分,可分为不相关、完全相关和不完全相关 1.不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量 x 变动时, 因变量 y 的数值不随之相应变动。 2.完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的 关系称为完全相关。即因变量 y 的数值完全随自变量 x 的变动而变动,它在相关图上表现为 所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数 关系是相关关系的一种特殊情况。 3.不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大 多数相关关系属于不完全相关,是统计研究的主要对象。 (二)根据相关关系的方向划分,可分为正相关和负相关 1.正相关。指两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量 x 的值增加(或减少),因变量 y 的值也相应地增加(或减少),这样的关系就是正相关。 2.负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因
变量随之减小(或增大)。(三)根据自变量的多少划分,可分为单相关和复相关1.单相关。两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。2.复相关。三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。(四)根据变量间相互关系的表现形式划分,直线相关(或线性相关)和曲线(或非线性)相关1.直线相关(或线性相关)。当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。2.曲线(或非线性)相关。在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。三、相关分析(一)相关分析的主要内容相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向。(二)相关关系的判断1.相关表在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表。2.相关图把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。3.相关系数相关图可以帮助我们直观了解相关关系,但这只是初步的判断,是相关分析的开始。为了说明现象之间相关关系的密切程度,就要计算相关系数。相关系数是直线相关条件下说明两个现象之间相关关系密切程度的统计分析指标。四、相关系数1.简单相关系数的含义反映两个变量之间线性相关密切程度和相关方向的统计测定,它是其他相关系数形成的基础。2.简单相关系数的计算E(x-x)(y-)(8.1)/(x-x)2(-)2nExy-EEy(8.2)或化简为:r=nEx-(Ex).nE2-(Zy)3.相关系数的性质1)相关系数的取值范围在-1和+1之间,即:-1≤r≤12)计算结果,若r为正,则表明两变量为正相关:若r为负,则表明两变量为负相关。3)相关系数r的数值越接近于1(-1或+1),表示相关系数越强:越接近于0,表示相关系数越弱。如果r=1或-1,则表示两个现象完全直线性相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。4)判断两变量线性相关密切程度的具体标准为:
变量随之减小(或增大)。 (三)根据自变量的多少划分,可分为单相关和复相关 1.单相关。两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变 量。 2.复相关。三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的 自变量和因变量。 (四)根据变量间相互关系的表现形式划分,直线相关(或线性相关)和曲线(或非线性) 相关 1.直线相关(或线性相关)。当相关关系的自变量 x 发生变动,因变量 y 值随之发生大 致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。 2.曲线(或非线性)相关。在两个相关现象中,自变量 x 值发生变动,因变量 y 也随之 发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称 为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线 等非直线形式。 三、相关分析 (一)相关分析的主要内容 相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示 现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切 程度和方向。 (二)相关关系的判断 1.相关表 在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一 张表上,以观察它们之间的相互关系,这种表就称为相关表。 2.相关图 把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相 关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。 3.相关系数 相关图可以帮助我们直观了解相关关系,但这只是初步的判断,是相关分析的开始。为 了说明现象之间相关关系的密切程度,就要计算相关系数。相关系数是直线相关条件下说明 两个现象之间相关关系密切程度的统计分析指标。 四、相关系数 1.简单相关系数的含义 反映两个变量之间线性相关密切程度和相关方向的统计测定,它是其他相关系数形成的 基础。 2.简单相关系数的计算 − − − − = 2 2 ( ) ( ) ( )( ) x x y y x x y y r (8.1) 或化简为: ( ) ( ) 2 2 2 2 − − − = n x x n y y n xy x y r (8.2) 3.相关系数的性质 1)相关系数的取值范围在-1 和+1 之间,即:–1≤r≤ 1 2)计算结果,若 r 为正,则表明两变量为正相关;若 r 为负,则表明两变量为负相关。 3)相关系数 r 的数值越接近于 1(–1 或+1),表示相关系数越强;越接近于 0,表示相 关系数越弱。如果 r=1 或–1,则表示两个现象完全直线性相关。如果 r=0,则表示两个现 象完全不相关(不是直线相关)。 4)判断两变量线性相关密切程度的具体标准为:
0≤<0.3,称为微弱相关;0.3≤叫<0.5,称为低度相关;0.5≤<0.8,称为显著相关;0.8≤<1称为高度相关。4、样本相关系数的显著性检验检验两个变量之间是否存在线性相关关系,等价于对回归系数β,的检验,采用t检验,具体步骤为:提出假设:H。:p=0;H,:p±0rvn-2计算检验的统计量:t="(8.3)~t(n-2)Vi-r2若%,拒绝Ho若t%,接受H第二节简单线性相关与回归分析一、回归分析的概念相关关系能说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。也就是说,它不能说明两个变量之间的一般数量关系值。回归分析,是指在相关分析的基础上,把变量之间的具体变动关系模型化,求出关系方程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。通过回归分析,可以将相关变量之间不确定、不规则的数量关系一般化、规范化。从而可以根据自变量的某一个给定值推断出因变量的可能值(或估计值)。回归分析包括多种类型,根据所涉及变量的多少不同,可分为简单回归和多元回归。简单回归又称一元回归,是指两个变量之间的回归。其中一个变量是自变量,另一个变量是因变量。根据变量变化的表现形式不同,回归分析也可分为直线回归和曲线回归。对具有直线相关关系的现象配之以直线方程进行回归分析,即直线回归:对具有曲线相关关系的现象配之以曲线方程进行回归分析,则称为曲线回归。二、一元线性回归模型1.一元线性回归模型y=β+βx+8(8.4)模型中,y是x的线性函数(部分)加上误差项。线性部分反映了由于x的变化而引起的y的变化:误差项是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性;β。和β,称为模型的参数。2.一元线性回归模型基本假定1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=β。+β,x2)对于所有的x值,ε的方差α2都相同3)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,α2)3.一元线性回归方程
0 r 0.3 ,称为微弱相关; 0.3 r 0.5 ,称为低度相关; 0.5 r 0.8 ,称为 显著相关; 0.8 r 1 称为高度相关。 4、样本相关系数的显著性检验 检验两个变量之间是否存在线性相关关系,等价于对回归系数 1 的检验,采用 t 检验, 具体步骤为: 提出假设: H0 : = ; H1: 0 计算检验的统计量: ~ ( 2) 1 2 2 − − − = t n r r n t (8.3) 若t> 2 t ,拒绝 H0 若t< 2 t ,接受 H1 第二节 简单线性相关与回归分析 一、回归分析的概念 相关关系能说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个 变量将会发生多大量的变化。也就是说,它不能说明两个变量之间的一般数量关系值。 回归分析,是指在相关分析的基础上,把变量之间的具体变动关系模型化,求出关系方 程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。通过 回归分析,可以将相关变量之间不确定、不规则的数量关系一般化、规范化。从而可以根据 自变量的某一个给定值推断出因变量的可能值(或估计值)。 回归分析包括多种类型,根据所涉及变量的多少不同,可分为简单回归和多元回归。简 单回归又称一元回归,是指两个变量之间的回归。其中一个变量是自变量,另一个变量是因 变量。 根据变量变化的表现形式不同,回归分析也可分为直线回归和曲线回归。对具有直线相 关关系的现象配之以直线方程进行回归分析,即直线回归;对具有曲线相关关系的现象配之 以曲线方程进行回归分析,则称为曲线回归。 二、一元线性回归模型 1.一元线性回归模型 y = + x + 0 1 (8.4) 模型中,y 是 x 的线性函数(部分)加上误差项。线性部分反映了由于 x 的变化而引起 的 y 的变化;误差项 是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性; 0 和 1 称为模型的参数。 2.一元线性回归模型基本假定 1)误差项ε是一个期望值为 0 的随机变量,即 E(ε)=0。对于一个给定的 x 值,y 的 期望值为 E y x 0 1 ( ) = + 2)对于所有的 x 值,ε的方差 2 都相同 3)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 , 2 ) 3.一元线性回归方程
(8.5)E(y)=β+β,x描述y的平均值或期望值如何依赖于x的方程称为回归方程。方程的图示是一条直线,因此也称为直线回归方程。β。是回归直线在y轴上的截距,是当x-O时y的期望值:β,是直线的斜率,称为回归系数,表示当每变动一个单位时,y的平均变动值。4.估计的回归方程J=βo+βx(8.6)总体回归参数β和β是未知的,必需利用样本数据去估计。用样本统计量β。和β代替回归方程中的未知参数β。和β,就得到了估计的回归方程。三、回归方程的参数估计一最小二乘法使因变量的观察值与估计值之间的离差平方和达到最小来求得β。和β的方法。即Q(βo,β)=(yi-)=e =最小。可解得:1=l1=1B==l.i-(8.7)n2x-(2xi-1β=J-βx四、回归方程的检验1.回归方程的显著性检验检验自变量和因变量之间的线性关系是否显著。具体方法是将回归离差平方和(SSR)同剩余离差平方和(SS加以比较,应用F检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存在线性关系:如果不显著,两个变量之间不存在线性关系。具体步骤如下:1)提出假设H。:线性关系不显著2)计算检验统计量F(,-)SSR/1-F=(8.8)~F(1,n-2)SSE/n-22(v,- /n-2i=l3)确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值F。作出决策:若F≥Fa,拒绝H。:若F<F,接受H。2.拟合优度检验
E y x 0 1 ( ) = + (8.5) 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。方程的图示是一条直 线,因此也称为直线回归方程。 0 是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值; 1 是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。 4.估计的回归方程 y x 0 1 ˆ ˆ ˆ = + (8.6) 总体回归参数 0 和 1 是未知的,必需利用样本数据去估计。用样本统计量 0 ˆ 和 1 ˆ 代 替回归方程中的未知参数 0 和 1 ,就得到了估计的回归方程。 三、回归方程的参数估计—最小二乘法 使因变量的观察值与估计值之间的离差平方和达到最小来求得 0 和 1 的方法。即 = − = = 最小 = = n i i n i i Q y y e 1 2 1 2 0 1 ) ( ˆ) ˆ , ˆ ( 。可解得: = − − − = = = = = = y x n x x n x y x y n i n i i i n i i n i i n i i i 0 1 1 1 2 1 1 1 1 ˆ ˆ ˆ (8.7) 四、回归方程的检验 1.回归方程的显著性检验 检验自变量和因变量之间的线性关系是否显著。具体方法是将回归离差平方和(SSR) 同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著,如果是显 著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。具体步骤 如下: 1)提出假设 H0 :线性关系不显著 2)计算检验统计量 F ( ) ( ) ~ (1 , 2) ˆ 2 ˆ 1 2 1 1 2 1 2 − − − − = − = = = F n y y n y y SSE n SSR F n i i n i i (8.8) 3)确定显著性水平 ,并根据分子自由度 1 和分母自由度 n-2 找出临界值 F 作出决策: 若 F F ,拒绝 H0 ;若 F< F ,接受 H0 2.拟合优度检验
Z(,-)Z(-)SSRi=l1lr2:=1-(8.9)SST6-(-i=li=l反映回归直线的拟合程度,取值范围在[0,1]之间。r2→1,说明回归方程拟合的越好;r2→0,说明回归方程拟合的越差。3.回归系数的显著性检验1)提出假设H。:β,=0(没有线性关系)H,:β + 0 (有线性关系)2)计算检验的统计量Bi ~ (n-2)1=4S(8.10)3)确定显著性水平α,并进行决策Itbta/2,拒绝H:1tka/2,接受H。复习思考题1、什么是相关关系?相关关系与函数关系有何区别?2、什么是单相关、复相关和偏相关?请各举一例说明。3、简述相关分析与回归分析的联系与区别。4、在相关与回归分析时应注意哪些基本原则?
( ) ( ) ( ) ( ) = = = = − − = − − − = = n i i n i i n i i n i i y y y y y y y y SST SSR r 1 2 1 2 1 2 1 2 2 ˆ ˆ 1 ˆ (8.9) 反映回归直线的拟合程度,取值范围在 [ 0 , 1 ] 之间。 2 r →1,说明回归方程拟合 的越好; 2 r →0,说明回归方程拟合的越差。 3.回归系数的显著性检验 1)提出假设 H0 : 1 = 0 (没有线性关系) H1 : 1 0 (有线性关系) 2)计算检验的统计量 ~ ( 2) ˆ 1 ˆ 1 = t n − S t (8.10) 3)确定显著性水平 ,并进行决策 t> 2 t ,拒绝 H0 ; t< 2 t ,接受 H0 复习思考题 1、什么是相关关系?相关关系与函数关系有何区别? 2、什么是单相关、复相关和偏相关?请各举一例说明。 3、简述相关分析与回归分析的联系与区别。 4、在相关与回归分析时应注意哪些基本原则?