后验概率的非参数估计 假设一个X附近的区域R,能够包括进k个样本,其中k个属 于类别o,则 Pn(x, wi) 后验概率 Pn(X,wi Pn(x 决策 Parzen窗估计:选择k/k最大的类别a kn近邻估计:选择k最大的类别 k-近邻分类器
后验概率的非参数估计 • 假设一个x附近的区域R,能够包括进k个样本,其中ki个属 于类别 ,则 • 后验概率 • 决策 • Parzen窗估计:选择 最大的类别 • kn -近邻估计:选择 最大的类别 i / i k k i i k i k-近邻分类器
最近邻规则 k=1时的k近邻决策 把x判断为与其距离最近的训练样本X所属的类别 ·给定训练集D 1^2,… ,其中包括n个来自c个不 同类别的样本 ·对测试样本X,如果ⅹ⊕D是距离最近(根据某种距 离度量)的训练样本,则最近邻(1NN)规则为 如果ⅹ属于类别⑨,则判断x的类别为 最近邻规则是次优的方法,通常的误差率比最小 可能的误差率(即贝叶斯误差率)要大
最近邻规则 • k=1时的k-近邻决策 • 把x判断为与其距离最近的训练样本x’所属的类别 • 给定训练集 ,其中包括n个来自c个不 同类别的样本 • 对测试样本x,如果 是距离x最近(根据某种距 离度量)的训练样本,则最近邻(1-NN)规则为 • 最近邻规则是次优的方法,通常的误差率比最小 可能的误差率(即贝叶斯误差率)要大 如果xk属于类别 ,则判断x的类别为
最近邻规则 直观理解 ·当样本个数非常大时,可认为x距离x足够近,以使得 P(|x)≈P(1|x) 即最近邻规则是对真实后验概率的一个有效近似
最近邻规则 • 直观理解 • 当样本个数非常大时,可认为x’距离x足够近,以使得 即最近邻规则是对真实后验概率的一个有效近似 ( | ') ( | ) P P i i x x
Voronoi网格 ·最近邻规则把特征空间分成 个个网格单元结构,称为 Vorono网格 每一个单元包含一个训练样本 点x ·该单元中任意一点x,到x的 距离均小于到其他训练样本点 的距离 该单元中所有样本点均判别为 x所属的类别
Voronoi网格 • 最近邻规则把特征空间分成 一个个网格单元结构,称为 Voronoi网格 • 每一个单元包含一个训练样本 点x’ • 该单元中任意一点x,到x’的 距离均小于到其他训练样本点 的距离 • 该单元中所有样本点均判别为 x’所属的类别
最近邻规则的误差率 给定训练集D={x1,x2,…x},其中包括n个来自c个不 同类别的样本 ·对测试样本x,设x∈D是距离x最近的训练样本 x和X的类别标记分别为和q 条件误差概率9mX,X)=P(≠9x,X) ∑ P(=0,≠0|X,Xk) ∑ P(=0|X)P(≠0|xk) ∑P=01×)1-P(q=a1X)
最近邻规则的误差率 • 给定训练集 ,其中包括n个来自c个不 同类别的样本 • 对测试样本x,设 是距离x最近的训练样本 • x和xk的类别标记分别为 和 • 条件误差概率