2015/1/9 课程设置 ▣x▣ 恋石饵于大学 课时:理论课:22学时 实习课:10学时 第十一章 ■ 线性相关与回归 联系方式:预防医学系卫生统计学教研室 Tel.:2057153 (Linear Correlation Regression) Baidu贴吧:yx(讨i论、答疑.作业 tto://tis 预防医学朵 大学精品课程网站一教学资源一(ppt、wmv) 线性回归与相关 线性相关('linear correlation) 第一节战性国归 一、贱性相头的机台 第二节线性相关 二、贱性相兴泰散反计养 第三节注意事项 三、湘泰款的假设松脸 进行贱性相分斯的注意事项 一、贱性相英的基本瓶念 一、线性相头的基本舰会 为直见地州断两个史量之间的英泰,可在直角业梅 ■线性相头linear correlation)又称简单相关 象中起春对(代Y)值所代表的点瞻出来,形成散点 (imple correlation),用于级支量玉态分布 bivariate normal distribution)'抖。共性质可 山数点国直现的说明。 目的: 研两个支量Y量上的相兴泰。 ■特点:计条 图21名男青年身高与臂长点因 1
2015/1/9 1 第十一章 线性相关与回归 (Linear Correlation & Regression ) 预防医学系 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 联系方式:预防医学系卫生统计学教研室 Tel.: 2057153 Baidu贴吧:yfyxx (讨论、答疑、作业) http://tieba.baidu.com/f?kw=yfyxx# 大学精品课程网站→教学资源→(ppt、wmv) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 2 线性回归与相关 第一节 线性回归 第二节 线性相关 第三节 注意事项 3 一、线性相关的概念 二、线性相关系数及计算 三、相关系数的假设检验 四、进行线性相关分析的注意事项 线性相关(linear correlation) 4 Karl Pearson 线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性质可 由散点图直观的说明。 目的: 研究 两个变量X,Y数量上的相关关系。 特点:统计关系 一、线性相关的基本概念 5 一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标 系中把每对(Xi ,Yi)值所代表的点绘出来,形成散点 图。 6 40 42 44 46 48 50 52 150 160 170 180 190 身高(cm) 前臂长(cm) 图11-2 11名男青年身高与前臂长散点图
2015/1/9 若一个文量X小大(戴由大小), 地由小到大 器青年者高与普曾长最点里直此烧,即易者 平身村高,香曾亦长,说丽贵高与看臂长之间存 在戴性相兴鼻条底幻北达种其泰貅为直或相弄。 ■ 成植和兵用手规文业是杰善科。老的触看可★教表菌重 01、正英: 见地远丽·最志圆中或的会车甲能性湘兵的中内和湘养之 。2、责和英:y碱×的通大而成少,者直戴下降的 23无 楚身,X与y的史化灵反向的, r-I 03、来湘其:无论×增火戒减少,y的火小均不是 ⊙4、非气位扣头:点的标列显呢茶种曲感规身: 天李麦天台不也L可以是 -0 a ●·●相关条数的意义与计算 益*支安 r-0.4 「表示枰本相头条款,。表示其卷体相兴集款, 2。计算:拆来湘美泰款的计算会式为 ∑(X-x)Y-) r= L ∑x-xΣW-77V
2015/1/9 2 7 若一个变量X由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青 年身材高,前臂亦长,说明身高与前臂长之间存 在线性相关关系我们把这种关系称为直线相关。 8 1、正相关:y随x的增大而增大,有直线上升的趋 势,x与y的变化是同向的; 2、负相关:y随x的增大而减少,有直线下降的 趋势,x与y的变化是反向的; 3、零相关:无论x增大或减少,y的大小均不受 影响; 4、非线性相关:点的排列呈现某种曲线趋势; 两变量间线性相关的性质和密切程度,可以用相 关系数 r 表示 9 线性相关用于双变量正态资料。它的性质可由散点图直 观地说明。散点图中点的分布即线性相关的方向和相关之 间的密切程度,可分为以下几种情况: 1.正相关 2.负相关 3.无相关 10 y x r =-1 y x r =-0.8 y x r =-0.6 y x r =-0.4 11 相关系数的意义与计算 1、意义:相关系数(correlation coefficient)又称Pearson积 差相关系数,用来说明两个随机变量间线性相关关系 的密切程度与相关方向。 r表示样本相关系数,ρ表示其总体相关系数。 2. 计算:样本相关系数的计算公式为 xx yy xy L L L X X Y Y X X Y Y r 2 2 ( ) ( ) ( )( ) 12
2015/1/9 ●●…相头象数的将点 例11-2从易者年春体中咸机热聚1名男者年服成 1.相关余款r是一个无量朝的款值,且 所赤,成计拜贵高与面骨长之闲的角丢素成 -1<r<1: 2.r>0为正湘兴,r<0为负湘头: 3/地换近于1,远明湘美性越好./施楼 近于0,说明相美性越是. 本制: n=11∑x=191∑yr-50∑XY=6185 x-3260s1∑y=2810 r= -Xxe-∑Y-32s1-159t-1ma0w n-2.2Y-2sn--27m -2w-222w1gw-m4s 230.455 “7oi0yx27z-a0 -1≤p≤0 P=0 是否相关?方向和密切程度? 三、相关条散的假设检验 青用的检脸方法者两种: 与首看面始它计量一,表拆本资计出 1,换成直热女附表1的不值表,得列P值 来的相头桑款阿解存在抽得福盖。即额凝在一个X务/ 无美恶体中作酸机格坪,南于格杯品是的野响,所得 t,= y=n-2 圆此要剑断雨个史量冯没香真的存在相英兴泰, n-2 仍需根播保春体湘兴泰戴,更香为本的假设检脸。 3
2015/1/9 3 相关系数的特点 1.相关系数r是一个无量纲的数值,且 -1≤r≤1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接 近于0,说明相关性越差. 13 例11-2 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长, 身高和前臂长均以cm为单位,测量结果如下表 所示,试计算身高与前臂长之间的相关系数。 编号 身高(cm) 前臂长(cm) XY X 2 Y 2 (X) (Y) 1 170 47 7990 28900 2209 2 173 42 7266 29929 1764 3 160 44 7040 25600 1936 4 155 41 6355 24025 1681 5 173 47 8131 29929 2209 6 188 50 9400 35344 2500 7 178 47 8366 31684 2209 8 183 46 8418 33489 2116 9 180 49 8820 32400 2401 10 165 43 7095 27225 1849 11 166 44 3174 28561 2116 合计 1891 500 86185 326081 22810 14 是否相关?方向和密切程度? 15 本例: X=1891 2 X =326081 Y=500 2 Y =22810 n 11 XY=86185 2 2 2 ( ) 1891 326081 1000.909 11 XX X l X n 2 2 2 ( ) 500 22810 82.727 11 YY Y l Y n ( )( ) 1891 500 86185 230.455 11 XY X Y l XY n 230.455 0.8009 1000.909 82.727 r r = ? r = ? 通过样本计算的 r 值存在抽样误差, 只有假设检验才能推断 16 总体相关程度及方向。 三、相关系数的假设检验 与前面讲的其它统计量一样,根据样本资料计算出 来的相关系数同样存在抽样误差。即假设在一个X与Y 无关总体中作随机抽样,由于抽样误差的影响,所得 的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系, 仍需根据作总体相关系数ρ是否为零的假设检验。 17 常用的检验方法有两种: 1.按自由度直接查附表11的界值表,得到P 值。 (略) n 2 1 r r 0 t 2 r n 2 2.用假设检验法,计算统计量 ,其公式为: 18
2015/1/9 ▣对1-2计算得的r值进检脸 (3)确定P值,作出结论 (1)走立检脸 Ho:P■0,即高与长之不在性兴 查t界值表,得to.0052.9=3.690. t>to.o052.9P<0.005,拒绝H0,接 a=0.05 受H1,认为男青年身高与前臂长之问 2)计晚计量 存在正相关关象。 1=108009-01 1-1Q80092 =4013=11-2=9 V11-2 四、进行贱性相关分斯的注意事项 ●●●慎用相关的情形 人。感位相兵表示而个支壹之闲的相亚关泰是反向 ,分斯两个变量之到者无湘兴可 ⊙ 先恰制款点國,最点图置观出直威旋多财,再 之和兴象款的计第只道用于《史量正春会中的 情形,知暴资料不眼从正春分南,虚先通此史量 史换,使之正高化,养换据史换值计算湘吴泰散, (a)异常值 ■ ●·。慎用相关的情形 回、 进行熊性相美分新的注意事项 3.依据会式计算出的相英乐教仅是拆本湘 英泰款,老是落体湘兴象款的一个估计值, 与落体湘英条散之间存在香抽柳额差,要 判断两个事物之间者无相头及湘美的唐切 (、(d分层资料 4
2015/1/9 4 19 对例11-2计算得到的 r 值进行假设检验: (1)建立检验假设 H0 :ρ=0,即身高与前臂长之间不存在线性相关系 H1 :ρ≠0,即身高与前臂长之间存在线性相关关系 α=0.05 (2)计算统计量 2 0 8009 0 4 013 1 0 8009 11 2 | . | t . ( . ) 11 2 9 (3)确定 P 值,作出结论 查 t 界值表,得t0.005/2,9=3.690, t>t0.005/2,9,P<0.005,拒绝H0,接 受H1 ,认为男青年身高与前臂长之间 存在正相关关系。 四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向 的,分析两个变量之间到底有无相关关系可首 先绘制散点图,散点图呈现出直线趋势时,再 作分析。 ⒉ 相关系数的计算只适用于双变量正态分布的 情形,如果资料不服从正态分布,应先通过变量 变换,使之正态化,再根据变换值计算相关系数, 如果不符合条件应进行秩相关计算。 21 慎用相关的情形 22 (a)异常值 (b)分层资料 (c) 、(d)分层资料 慎用相关的情形 23 四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相 关系数,它是总体相关系数的一个估计值, 与总体相关系数之间存在着抽样误差,要 判断两个事物之间有无相关及相关的密切 程度,必须作假设检验。 24
2015/1/9 回、进行贱性相头分斯的注意事项 悬考题: 1.已知:r=0.8,陆论:两史量雷切湘头。 兵泰的唐切准度和方雨,两两个事物之闲的兴 2.已知:r=0.8,P<a,地论:两文量言切湘其。 集能可能是徐存圆毒英象,也可急仅是物互佛 3.已知:r=0.08,P<a,熊论:? 有能计争意义,就从为西青之间海在着国品 兵泰,要证用雨事物闲确去春在国条吴条,西 须觉香专业知汉如以阔丽。 1≤0忘0 0 第二节性国归(linear regression) 历史背景: 一、贱性国归的基本瓶会 二、感性四归方短的计算 共国人失学家F.Galton首次在《自然遗传》 三、贱性国归方程的饭设检脸 一书中,提出華调明了“和头”和“和关乳 教”两个龈念,为相美冷蓝室了燕础。其后 回、进行性国归分新的注意事项 地和英国统计学家Karl Pea n对上千个家庭 的身高。臂长等指标做了测量,发观: 数 0儿子身高,英寸)与父亲身高X,英寸) 存在 Y=33.73+0.516X 0也即高个子父代的子代在成年之后的身高平均 精缕 的 高不 是 于共父代水 alton将种趋匈于种族 定的现象称之“四加”。 5
2015/1/9 5 四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互 关系的密切程度和方向,而两个事物之间的关 系既可能是依存因果关系,也可能仅是相互伴 随的数量关系。决不可因为两事物间的相关系 数有统计学意义,就认为两者之间存在着因果 关系,要证明两事物间确实存在因果关系,必 须凭借专业知识加以阐明。 25 思考题: 1. 已知:r=0.8 ,结论:两变量密切相关。 2.已知:r=0.8,P<α,结论:两变量密切相关。 3.已知:r=0.08,P<α,结论:? 26 一、线性回归的基本概念 二、线性回归方程的计算 三、线性回归方程的假设检验 四、进行线性回归分析的注意事项 第二节 线性回归(linear regression) 27 英国人类学家 F.Galton首次在《自然遗传》 一书中,提出并阐明了“相关”和“相关系 数”两个概念,为相关论奠定了基础。其后, 他和英国统计学家 Karl Pearson对上千个家庭 的身高、臂长等指标做了测量,发现: 历史背景: 28 Francis Galton 儿子身高(Y,英寸)与父亲身高(X,英寸) 存在线性关系: 也即高个子父代的子代在成年之后的身高平均 来说不是更高,而是稍矮于其父代水平,而矮 个子父代的子代的平均身高不是更矮,而是稍 高于其父代水平。Galton将这种趋向于种族稳 定的现象称之“回归”。 ˆ Y X 33.73 0.516 29 30