第6讲线性相关和回归 赵耐青 在实际研究中,经常要考察两个指标之间的关系,即:相关 性。现以体重与身高的关系为例,分析两个变量之间的相关性。 要求身高和体重呈双正态分布,既:在身高和体重平均数的附近 的频数较多,远离身高和体重平均数的频数较少。 样本相关系数计算公式(称为 Pearson相关系数) ∑(X-Xy-y) (X 1.考察随机模拟相关的情况 显示两个变量相关的散点图程序 simu ado(本教材配套程序,使用见 前言)。命令为 Simar样本量总体相关系数 如显示样本量为100,p=0的散点图 本例命令为 timur1000
第 6 讲 线性相关和回归 赵耐青 在实际研究中,经常要考察两个指标之间的关系,即:相关 性。现以体重与身高的关系为例,分析两个变量之间的相关性。 要求身高和体重呈双正态分布,既:在身高和体重平均数的附近 的频数较多,远离身高和体重平均数的频数较少。 样本相关系数计算公式(称为 Pearson 相关系数): ( ) ( ) ( )( ) 2 2 XX YY XY L L L X X Y Y X X Y Y r = − − − − = (1) 1. 考察随机模拟相关的情况。 显示两个变量相关的散点图程序 simur.ado(本教材配套程序,使用见 前言)。命令为 simur 样本量 总体相关系数 如显示样本量为 100,=0 的散点图 本例命令为 simur 100 0
如显示样本量为200,p=08的散点图 本例命令为 tImur2000.8 如显示样本量为200,p=099的散点图 本例命令为smur200099
如显示样本量为 200,=0.8 的散点图 本例命令为 simur 200 0.8 y1 y 2 -4 -2 0 2 4 -4 -2 0 2 如显示样本量为 200,=0.99 的散点图 本例命令为 simur 200 0.99 y1 y 2 -4 -2 0 2 -2 -1 0 1 2
如显示样本量为200,p=099的散点图 本例命令为 sImul2000.99 例1.测得某地15名正常成年男子的身高x(cm)、体重y(kg)如 试计算x和y之间的相关系数r并检验H:p=0vsH1:p≠0。 =0.05
y1 y 2 -4 -2 0 2 4 -4 -2 0 2 4 如显示样本量为 200,=-0.99 的散点图 本例命令为 simur 200 -0.99 y1 y 2 -4 -2 0 2 4 -4 -2 0 2 4 例 1. 测得某地 15 名正常成年男子的身高 x(cm)、体重 y(kg)如 试计算 x 和 y 之间的相关系数 r 并检验 H0:=0 vs H1: 0。 =0.05
数据格式为 176.0 175.0 172.0 170.0 173.0 168.0 172.0 明4868642 170.0 172.0 173.0 168.0 60.0 171.0 68.0 172.0 76.0 173.0 Stata命令 pwcorr变量1变量2…变量m,sig 本例命令 pwcorr X y,sig pwcorrxy, sig y 1.0000 y 0.59941.0000 Pearson相关系数=0.5994,P值=00182<0.05,因此可以认为身高与体 重呈正线性相关
数据格式为 X Y 171.0 58.0 176.0 69.0 175.0 74.0 172.0 68.0 170.0 64.0 173.0 68.5 168.0 56.0 172.0 54.0 170.0 62.0 172.0 63.0 173.0 67.0 168.0 60.0 171.0 68.0 172.0 76.0 173.0 65.0 Stata 命令 pwcorr 变量 1 变量 2 … 变量 m,sig 本例命令 pwcorr x y,sig pwcorr x y,sig | x y -------------+------------------ x | 1.0000 | | y | 0.5994 1.0000 | 0.0182 | Pearson 相关系数=0.5994,P 值=0.0182<0.05,因此可以认为身高与体 重呈正线性相关
注意: Pearson相关系数又称为线性相关系数并且要求X和Y双正态 分布,通常在检查中要求X服从正态分布并且Y服从正态分布。 如果不满足双正态分布时,可以计算 Spearman相关系数又称为非参 数相关系数。 Spearman相关系数的计算基本思想为:用Ⅹ和Y的秩代替它们的原 始数据,然后代入 Pearson相关系数的计算公式并且检验与 Pearson 相关系数类同 Stata实现 spearman Number fobs 15 Spearman'srho 0.6552 Test of Ho: x and y are independent Prob>t 0.0080 stata计算结果与手算的结果一致。结论为身高与体重呈正相关,并且 有统计学意义 直线回归 例2为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁 至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8 岁,每个层抽10个男孩,共抽60个男孩。资料如下 60个男孩的身高资料如下 龄 3岁 4岁5岁6 7岁8岁 92.5 96.5 106.0 115.5125.5 121.5 身 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124
注意:Pearson 相关系数又称为线性相关系数并且要求 X 和 Y 双正态 分布,通常在检查中要求 X 服从正态分布并且 Y 服从正态分布。 如果不满足双正态分布时,可以计算 Spearman 相关系数又称为非参 数相关系数。 Spearman 相关系数的计算基本思想为:用 X 和 Y 的秩代替它们的原 始数据,然后代入 Pearson 相关系数的计算公式并且检验与 Pearson 相关系数类同。 Stata 实现 spearman x y Number of obs = 15 Spearman's rho = 0.6552 Test of Ho: x and y are independent Prob > |t| = 0.0080 stata 计算结果与手算的结果一致。结论为身高与体重呈正相关,并且 有统计学意义。 直线回归 例 2 为了研究 3 岁至 8 岁男孩身高与年龄的规律,在某地区在 3 岁 至 8 岁男孩中随机抽样,共分 6 个年龄层抽样:3 岁,4 岁,…,8 岁,每个层抽 10 个男孩,共抽 60 个男孩。资料如下: 60 个男孩的身高资料如下 年龄 3 岁 4 岁 5 岁 6 岁 7 岁 8 岁 身 高 92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0