恋石河子大学 匹子电】 贱性相头与国归 第十章 第一节线性相关 第二节线性圆归 线性相关与回归 第三节线性相关与国归的区刮和联条 Linear Correlation Regression 第三节普极相关 预防医学首东升 战性相美(linear correlation) 线性相头的基本念 。线性构关inea 二、线性相关条教 性 三,相头象的普性检脸 日的 ▣持点:纯计奚集 一、我性相关的基本概念 对Y值所代表出来。卷或友。制12击 。 平身高与骨长资制的周周所示 。 1
第十章 线性相关与回归 (Linear Correlation & Regression ) (Linear Correlation & Regression ) (Linear Correlation & Regression ) (Linear Correlation & Regression ) 预防医学系 芮东升 1 线性相关与回归 线性相关与回归 线性相关与回归 线性相关与回归 第一节 线性相关 第二节 线性回归 第三节 线性相关与回归的区别和联系 线性相关与回归的区别和联系 线性相关与回归的区别和联系 线性相关与回归的区别和联系 第三节 等级相关 2 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 二、线性相关系数 二、线性相关系数 二、线性相关系数 二、线性相关系数 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 线性相关(linear correlation) 3 � 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由散点图直观的说明。 目的: 研究 两个变量X,Y数量上的相关关系。 数量上的相关关系。 数量上的相关关系。 数量上的相关关系。 � 特点:统计关系 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 4 150 160 170 180 190 52 50 48 46 44 42 40 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 为直观地判断两个变量之间的关系,可在直角坐标系中把每 对(Xi,Yi)值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如 )值所代表的点绘出来,形成散点图。例如12名男青 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 年身高与前臂长资料绘制的散点图如图所示: 5 6
一个量X由小到大(或由大到小, 而增大,有直线上升的趋 与y的变化 。4、非线性相关:点的排列呈现某种曲线趋势: 民载装紫布关雀质和害切金皮。可以用湘 热顶10华特在 2有装 ···相关系数的意义与计算 相关系数的特点 1、意义:相关系数 1相关系数是一个无量纲的数值且 1≤r≤1: 以符号表示样本相关系数,符号表示其总体相关系数, 2r>0为正相关r<0为负相关 2.计算:样本相关系数的计算公式为 3/虺接近于1.说明相关性越好/越接近于 0,说明相关性磁差, ∑(r-r-万 V∑r-∑y-)√LL
若一个变量X由小到大(或由大到小),另 由小到大(或由大到小),另 由小到大(或由大到小),另 由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有 ,也就是这两个变量之间有 ,也就是这两个变量之间有 ,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 男青年身高与前臂长散点呈直线趋势,即男青 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 年身材高,前臂亦长,说明身高与前臂长之间存 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为 在线性相关关系我们把这种关系称为直线相关。 7 � 1、正相关:y随x的增大而增大,有直线上升的趋 势,x与y的变化是同向的; � 2、负相关:y随x的增大而减少,有直线下降的 趋势,x与y的变化是反向的; � 3、零相关:无论x增大或减少,y的大小均不受 影响; � 4、非线性相关:点的排列呈现某种曲线趋势; 两变量间线性相关的性质和密切程度,可以用相 关系数 r 表示 8 线性相关用于双变量正态资料 双变量正态资料 双变量正态资料 双变量正态资料。它的性质可由散点图直 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的 观地说明。散点图中点的分布即线性相关的方向和相关之 间的密切程度,可分为以下几种情况: ,可分为以下几种情况: ,可分为以下几种情况: ,可分为以下几种情况: 1. 1. 1. 1.正相关 2.负相关 3.无相关 9 y x r =-1 y x r =-0.8 y x r =-0.6 y x r =-0.4 10 相关系数的意义与计算 1、意义:相关系数 、意义:相关系数 、意义:相关系数 、意义:相关系数(correlation coefficient correlation coefficient correlation coefficient correlation coefficient)又称 Pearson Pearson Pearson Pearson积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 积差相关系数,用来说明两个随机变量间线性相关 关系的密切程度与相关方向。 关系的密切程度与相关方向。 关系的密切程度与相关方向。 关系的密切程度与相关方向。 以符号r表示样本相关系数,符号 表示其总体相关系数。 2. 计算:样本相关系数的计算公式为 xx yy xy L L L X X Y Y X X Y Y r = − − − − = ∑ ∑ ∑ 2 2 ( ) ( ) ( )( ) 11 相关系数的特点 1.相关系数r是一个无量纲的数值,且 -1≤r≤1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接近于 0,说明相关性越差. 12
侧0.1从男青平卷体中减执构取11名男青牛想成 -1891. -959 -50 -2810 -5185。代入公式(10-2》.得: 按公式(10-1)计算相关系数 是香相美?方向和密切程度? ● 三、相关款的显着性检脸 ,r= r=7 与首画讲的其电晚计量一杯,根每样本资料计算出 桌的相兴象数同样存在抽样福返。即银设在一个X与Y 1≤p≤0 p=0 通过样本计算的「值存在抽样证差, 只有假设检脸才能推新体相程及方向。 常用的检脸方法有两种: 第一种方 1.换自直接附表11的界值表得到P值。 即身商与背长之同不存在相关系 :身高与胃长之间存在相关 2.用假设检验法,计算统计量,其公式为: 2.计算统计量 1-r v=n-2 1,0.8012,白由度1-29 n-2 3.查工界值表。朝使计给论 查界值表《表1。 。因为x 0.05,按 水漆拒绝 接受 可以认为男青年身高与 长之间存在正相关关系
例10.1 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, ,分别测量每个男青年的身高和前臂长, 身高和前臂长均以 身高和前臂长均以 身高和前臂长均以 身高和前臂长均以cm为单位,测量结果如下表 为单位,测量结果如下表 为单位,测量结果如下表 为单位,测量结果如下表 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 所示,试计算身高与前臂长之间的相关系数。 编号 身高(cm) 前臂长(cm) XY X2 Y2 (X) (Y) 1 170 47 7990 28900 2209 2 173 42 7266 29929 1764 3 160 44 7040 25600 1936 4 155 41 6355 24025 1681 5 173 47 8131 29929 2209 6 188 50 9400 35344 2500 7 178 47 8366 31684 2209 8 183 46 8418 33489 2116 9 180 49 8820 32400 2401 10 165 43 7095 27225 1849 11 166 44 3174 28561 2116 合计 1891 500 86185 326081 22810 13 解: , =1891, =89599, =500, =22810, =86185。代入公式(10-2),得: 1000 .909 11 1891 326081 ( ) 2 2 2 = ∑ − = − = ∑ nX L XX X 82 .727 11 500 22810 ( ) 2 2 2 = ∑ − = − = ∑ nY LYY Y 按公式(10-1)计算相关系数 是否相关?方向和密切程度? 14 r = ? r = ? 通过样本计算的 r 值存在抽样误差, 只有假设检验才能推断 只有假设检验才能推断 只有假设检验才能推断 只有假设检验才能推断 15 总体相关程度及方向。 相关程度及方向。 相关程度及方向。 相关程度及方向。 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 与前面讲的其它统计量一样,根据样本资料计算出 来的相关系数同样存在 来的相关系数同样存在 来的相关系数同样存在 来的相关系数同样存在抽样误差。即假设在一个 。即假设在一个 。即假设在一个 。即假设在一个X与Y 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 无关总体中作随机抽样,由于抽样误差的影响,所得 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 的样本相关系数也常常不等于零。 因此要判断两个变量 因此要判断两个变量 因此要判断两个变量 因此要判断两个变量X与Y是否真的存在相关关系, 是否真的存在相关关系, 是否真的存在相关关系, 是否真的存在相关关系, 仍需根据作总体相关系数ρ是否为零的假设检验。 16 常用的检验方法有两种 常用的检验方法有两种 常用的检验方法有两种 常用的检验方法有两种: 1.按自由度直接查附表 按自由度直接查附表 按自由度直接查附表 按自由度直接查附表11的界值表,得到 的界值表,得到 的界值表,得到 的界值表,得到P 值。 n 2 1 r r 0 t 2 r − − − = ν = n − 2 2.用假设检验法,计算统计量 ,其公式为: 17 第一种方法 1. 建立检验假设 : ,即身高与前臂长之间不存在相关关系 : ;即身高与前臂长之间存在相关关系 2. 计算统计量 =11, =0.8012,自由度 =11-2=9, 3.查 r 界值表,得统计结论 查 r 界值表(附表 11), 得 ,因为 r > ,故 P<0.005,按 水准拒绝 H 0 接受 H 1 ,可以认为男青年身高与前 臂长之间存在正相关关系。 18
第二种方法 四、进行线性相头分的注意事项 1.建立同样的检验假设 2.计算统计量 ,或性和头表添西个支量之洞的和玉头集是取向 作舟新。 v11-29 2。物头票数的计算只遂用于根文量正毒分车的 3.查界值表,得统计结论 情形,女暴资件不原从正春分布,应光通过其量 在界位表。得 ,P<0.005.结要 支禁。使之亚点化。再根每变换佳计算相吴◆ 查界值表一致。 ●●·慎用相关的情形 ●●●慎用相关的情形 ⊙ 异常值 份层资料 (问、分层资料 四、进行线性相美分斯的注意事项 四、进行线性相美分斯的注意事项 3绿插公或计第出的和长集长风是解本和兴集 关集的曹细橙成和方向,两两个李物之司的关 杂脱可能是候存国暴美集,七可能仅是物互件 随的教量层杂。秀不可面为两李物河的湘兵泰 教有统计争意义,就认为两者之调春在着国暴 吴季,要运明丙事物洞确实存在阳暴关条,西 须凭香香走知识如以明明
第二种方法 1. 建立同样的检验假设 2. 计算统计量 4 .017 11 2 1 0 .8012 0 .8012 0 2 = − − − t r = ν=11-2=9 3. 查界值表,得统计结论 查 界值表,得 , ,P < 0.005,结果与 查 界值表一致。 19 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 线性相关表示两个变量之间的相互关系是双向 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 的,分析两个变量之间到底有无相关关系可首 先绘制散点图,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 ,散点图呈现出直线趋势时,再 作分析。 ⒉ 相关系数的计算只适用于 相关系数的计算只适用于 相关系数的计算只适用于 相关系数的计算只适用于双变量正态分布 双变量正态分布 双变量正态分布 双变量正态分布的 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 情形,如果资料不服从正态分布,应先通过变量 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 变换,使之正态化,再根据变换值计算相关系 数,如果不符合条件应进行 数,如果不符合条件应进行 数,如果不符合条件应进行 数,如果不符合条件应进行秩相关计算。 20 慎用相关的情形 21 (a)异常值 (b)分层资料 (c) 、(d)分层资料 慎用相关的情形 22 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 依据公式计算出的相关系数仅是样本相关系 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 数,它是总体相关系数的一个估计值,与总体 相关系数之间存在着 相关系数之间存在着 相关系数之间存在着 相关系数之间存在着抽样误差,要判断两个事 ,要判断两个事 ,要判断两个事 ,要判断两个事 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作 物之间有无相关及相关的密切程度,必须作假 设检验。 23 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 相关分析是用相关系数来描述两个变量间相互 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 关系的密切程度和方向,而两个事物之间的关 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 系既可能是依存因果关系,也可能仅是相互伴 随的数量关系。 随的数量关系。 随的数量关系。 随的数量关系。决不可因为两事物间的相关系 决不可因为两事物间的相关系 决不可因为两事物间的相关系 决不可因为两事物间的相关系 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 数有统计学意义,就认为两者之间存在着因果 关系,要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 要证明两事物间确实存在因果关系,必 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 须凭借专业知识加以阐明。 24
第二节线性国归(linear regression) 无老都:08,结衣1高文量意七和吴和 2.已知:r=0.8,P<c,地论:而文量曹切和头。 一、线性回归的美本瓶金 3.已知:r=0.08,P<a,t论:? 二、或性国归方程的计算 三、戴性国归方程的显普性检脸 四、进行线性回归分新的注意事项 1≤≤0 0蓝 ·●·历史背景 ●●o 。儿子身高(英寸)与父亲身高(X,英寸) 存在线性关系: P=33.73+0516Y 量.发现: 来说 而是 个子父代的子代的平均身高不是更矮,面是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 “回归”已成为表示变量之间某种数量依存关 系的统计学术语,并且行生出“回归方密 “回归系数”等统计学概念。如研究糖尿病人血 糖与其胰岛素水平的关系,研究儿童年龄与体 重的关系等
思考题: 1. 已知:r=0.8 , r=0.8 , r=0.8 , r=0.8 ,结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 2.已知:r=0.8,P<α,结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 结论:两变量密切相关。 3.已知:r=0.08,P<α,结论:? 25 一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 一、线性回归的基本概念 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 二、线性回归方程的计算 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 三、线性回归方程的显著性检验 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 四、进行线性回归分析的注意事项 第二节 线性回归(linear regression) linear regression) linear regression) linear regression) 26 英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐 明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他 和英国统计学家 Karl Pearson对上千个家庭的身高、臂长等指标做了 测量,发现: 历史背景: 27 � 儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系: � 也即高个子父代的子代在成年之后的身高平均 来说不是更高,而是稍矮于其父代水平,而矮 个子父代的子代的平均身高不是更矮,而是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 ˆY X = + 33.73 0.516 28 29 “回归”已成为表示变量之间某种数量依存关 系的统计学术语,并且衍生出“回归方程” “回归系数”等统计学概念。如研究糖尿病人血 糖与其胰岛素水平的关系,研究儿童年龄与体 重的关系等。 30