距离加权最近邻算法 对k-近邻算法的一个改进是对k个近邻的贡献加权,越 近的距离赋予越大的权值,比如: f(x)← arg max∑w(,f(x) 为了处理査询点x恰好匹配某个训练样例x,从而导致 d(xxy)2为0的情况,令这种情况下的)等于fx),如果 有多个这样的训练样例,我们使用它们占多数的分类 也可以用类似的方式对实值目标函数进行距离加权, 用下式替代表8-1中的计算式,w;的定义与前相同 f(r)<<,f(x) 203.12.18机器学习-基于实例的学习作者: Mitchel译者:曾华军等讲者:陶晓鹏11
2003.12.18 机器学习-基于实例的学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 11 距离加权最近邻算法 • 对k-近邻算法的一个改进是对k个近邻的贡献加权,越 近的距离赋予越大的权值,比如: • 为了处理查询点xq恰好匹配某个训练样例xi,从而导致 d(xq ,xi ) 2为0的情况,令这种情况下的 等于f(xi ),如果 有多个这样的训练样例,我们使用它们占多数的分类 • 也可以用类似的方式对实值目标函数进行距离加权, 用下式替代表8-1中的计算式,wi的定义与前相同 = k i i i v V q f x w v f x 1 ( ) arg max ( , ( )) 2 ( , ) 1 q i i d x x w = ( ) q f x = = k i i k i i i q w w f x f x 1 1 ( ) ( )
距离加权最近邻算法(2) k近邻算法的所有变体都只考虑k个近邻用以分 类查询点,如果使用按距离加权,那么可以允 许所有的训练样例影响x的分类,因为非常远 的实例的影响很小 ·考虑所有样例的唯一不足是会使分类运行得更 慢 如果分类一个新实例时,考虑所有的训练样例, 我们称为全局法;如果仅考虑靠近的训练样例, 称为局部法 当式子84应用于全局法时,称为 Shepard法 2003.12.18机器学习-基于实例的学习作者: Mitchell译者:曾华军等讲者:陶晓鹏 12
2003.12.18 机器学习-基于实例的学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 12 距离加权最近邻算法(2) • k-近邻算法的所有变体都只考虑k个近邻用以分 类查询点,如果使用按距离加权,那么可以允 许所有的训练样例影响xq的分类,因为非常远 的实例的影响很小 • 考虑所有样例的唯一不足是会使分类运行得更 慢 • 如果分类一个新实例时,考虑所有的训练样例, 我们称为全局法;如果仅考虑靠近的训练样例, 称为局部法 • 当式子8.4应用于全局法时,称为Shepard法
对k-近邻算法的说明 距离加权的k-近邻算法对训练数据中的噪声有很好的 健壮性,通过取k个近邻的加权平均,可以消除孤立的 噪声样例的影响 k-近邻的归纳偏置是:一个实例的分类x与在欧氏空间 中它附近的实例的分类相似 ·k-近邻方法的一个实践问题:维度灾害 许多学习方法,比如决策树方法,选择部分属性作出判断, 而k-近邻方法中实例间的距离是根据实例的所有属性计算的 实例间距离会被大量的不相关属性所支配,可能导致相关属 性的值很接近的实例相距很远 2003.12.18机器学习-基于实例的学习作者: Mitchell译者:曾华军等讲者:陶晓鹏 13
2003.12.18 机器学习-基于实例的学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 13 对k-近邻算法的说明 • 距离加权的k-近邻算法对训练数据中的噪声有很好的 健壮性,通过取k个近邻的加权平均,可以消除孤立的 噪声样例的影响 • k-近邻的归纳偏置是:一个实例的分类xq与在欧氏空间 中它附近的实例的分类相似 • k-近邻方法的一个实践问题:维度灾害 – 许多学习方法,比如决策树方法,选择部分属性作出判断, 而k-近邻方法中实例间的距离是根据实例的所有属性计算的 – 实例间距离会被大量的不相关属性所支配,可能导致相关属 性的值很接近的实例相距很远