“回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子 高的儿子的倾向,同样地,个子低的父亲确有 生出个子低的儿子的倾向。得到的具体规律如 下 v=a+bx+u j=843310.516x 如此以来,高的伸进了天,低的缩入了地。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男子的平均身高,即“回归” 见1889年 E Galton的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律n
11 “回归”一词的由来 • 从图上虽可看出,个子高的父亲确有生出个子 高的儿子的倾向,同样地,个子低的父亲确有 生出个子低的儿子的倾向。得到的具体规律如 下: • 如此以来,高的伸进了天,低的缩入了地。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男子的平均身高,即“回归”—— 见1889年F.Gallton的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律 y x y a bx u ˆ = 84.33+ 0.516 = + +
最小二乘法的思路 1.为了精确地描述Y与X之间的关系,必须使 用这两个变量的每一对观察值,才不至于以点 概面(作到全面)。 2.Y与X之间是否是直线关系(协方差或相关 系数)?若是,将用一条直线描述它们之间的 关系。 3.在Y与X的散点图上画出直线的方法很多 任务?—找出一条能够最好地描述Y与Ⅹ 代表所有点)之间的直线 4.什么是最好?一找出判断“最好”的原则 最好指的是找一条直线使得这些点到该直线的 纵向距离的和(平方和)最小
12 最小二乘法的思路 • 1.为了精确地描述Y与X之间的关系,必须使 用这两个变量的每一对观察值,才不至于以点 概面(作到全面)。 • 2.Y与X之间是否是直线关系(协方差或相关 系数)?若是,将用一条直线描述它们之间的 关系。 • 3.在Y与X的散点图上画出直线的方法很多。 • 任务?——找出一条能够最好地描述Y与X (代表所有点)之间的直线。 • 4.什么是最好?—找出判断“最好”的原则。 • 最好指的是找一条直线使得这些点到该直线的 纵向距离的和(平方和)最小
三种距离 纵向距离14=y-=y-a-bx 4x:y横向距离 纵向距离 跑离 A为实际点,B为拟 合直线上与之对应 的点
13 三种距离 y x 纵 向 距 离 横向距离 距离 (x y ) i i A , (x y ) i i B , ˆ A为实际点,B为拟 合直线上与之对应 的点 u y y y xi i i i i 纵向距离 = − ˆ = −a −b
距离是度量实际值与拟合值 是否相符的有效手段 点到直线的距离—点到直线的垂直线 的长度。 横向距离——点沿(平行)X轴方向到直 线的距离 纵向距离—点沿(平行)Y轴方向到直 线的距离。也就是实际观察点的Y坐标减 去根据直线方程计算出来的Y的拟合值 这个差数以后称为误差——残差(剩 余)
14 距离是度量实际值与拟合值 是否相符的有效手段 • 点到直线的距离——点到直线的垂直线 的长度。 • 横向距离——点沿(平行)X轴方向到直 线的距离。 • 纵向距离——点沿(平行)Y轴方向到直 线的距离。也就是实际观察点的Y坐标减 去根据直线方程计算出来的Y的拟合值。 • 这个差数以后称为误差——残差(剩 余)