11.2单峰子集的分离方法 ■投影方法(续) 确定合适的坐标系统 n启发式的方法:使投影{v4y}的方差最大,方差 越大,类之间分离的程度也可能越大 满足这样要求的是样本协方差矩阵的最大特征 值对应的特征向量 ■存在问题:这样选择的v有时并不能产生多峰 的边缘密度函数
11.2 单峰子集的分离方法 投影方法(续) 确定合适的坐标系统 ui 启发式的方法:使投影{uiTy }的方差最大,方差 越大,类之间分离的程度也可能越大 满足这样要求的ui 是样本协方差矩阵的最大特征 值对应的特征向量 存在问题:这样选择的 ui 有时并不能产生多峰 的边缘密度函数
11.2单峰子集的分离方法 投影方法(续) 算法步骤 1.计算样本协方差阵的最大特征值对应的特征向量 l1,把样本数据投影到v上 2.用直方图法求边缘概率密度函数 3找到边缘概率密度函数的各个谷点,在这些谷点 上作垂直于u的超平面把数据划分成几个子集 4.如果没有谷点,则用下一个最大的特征值代替 5.对所得到的各个子集进行同样的过程,直至每个 子集都是单峰为止
11.2 单峰子集的分离方法 投影方法(续) 算法步骤 1.计算样本协方差阵的最大特征值对应的特征向量 ui ,把样本数据投影到 ui 上 2.用直方图法求边缘概率密度函数 3.找到边缘概率密度函数的各个谷点,在这些谷点 上作垂直于 ui 的超平面把数据划分成几个子集 4.如果没有谷点,则用下一个最大的特征值代替 5.对所得到的各个子集进行同样的过程,直至每个 子集都是单峰为止
11.2单峰子集的分离方法 ■单峰子集分离的迭代算法 考虑数据S有一个划分 S=∪T 其中互不相交,且|FN,∑N=N=S 加权的类条件概率密度为 N f(y=t p(yr)
11.2 单峰子集的分离方法 单峰子集分离的迭代算法 考虑数据S有一个划分 ( | ) ( | ) | | , | | , 1 i i i i i i i i i c i p y N N f y N N N S S Γ = Γ Γ Γ = = = = Γ ∑ = 加权的类条件概率密度为 其中 互不相交,且 U
11.2单峰子集的分离方法 ■单峰子集分离的迭代算法(续) 两个子集(类)之间的“距离” f(r)-f(yIr Ppc 日标:使 J=∫∑∑(yr)-(0y1)(y)d 最大
11.2 单峰子集的分离方法 单峰子集分离的迭代算法(续) 两个子集(类)之间的“距离” [ ] [ ] 最大 目标:使 ∫ ∑ ∑ ∫ = = = Γ − Γ Γ − Γ J f y f y p y dy f y f y p y dy c i c j i j i j ( | ) ( | ) ( ) ( | ) ( | ) ( ) 1 1 2 2
11.2单峰子集的分离方法 ■单峰子集分离的迭代算法(续) 考虑把y从r中移到r中造成J的改变 A=[2]P(y)dy +2c[f(IT)-fyIr)]4f, p(y)dy 其中A=-4f1 K(yy),k()是估计核
11.2 单峰子集的分离方法 单峰子集分离的迭代算法(续) 考虑把yk从Γi中移到 Γj中造成 J 的改变 其中 ( , ), (,)是估计核 1 2 [ ( | ) ( | )] ( ) [2 ] ( ) 2 K y y K N f f c f y f y f p y dy J c f p y dy i j k i j i i ∆ = −∆ = + Γ − Γ ∆ ∆ = ∆ ∫ ∫