信息检索与数据挖掘 2019年4月16日 Rocchio方法进行向量空间分类的思路 ·相关反馈和文本分类的主要区别在于: ·在文本分类中,训练集作为输入的一部分事先给定 ·在相关反馈中,训练集在交互中创建 ·Rocchio分类(Rocchio classification)方法 ·利用质心(centroid)来定义分类边界。一个类别c的质 心可以通过类中文档向量的平均向量或者质心向量来计 算,即 )-.) ·其中,D是文档集D中属于类别c的文档子集:D。=d: <d,c>∈D}。这里将归一化的文档向量记为→v(d
信息检索与数据挖掘 2019年4月16日 Rocchio方法进行向量空间分类的思路 • 相关反馈和文本分类的主要区别在于: • 在文本分类中,训练集作为输入的一部分事先给定 • 在相关反馈中,训练集在交互中创建 • Rocchio 分类(Rocchio classification)方法 • 利用质心(centroid)来定义分类边界。一个类别c 的质 心可以通过类中文档向量的平均向量或者质心向量来计 算,即 • 其中,Dc是文档集D中属于类别c 的文档子集:Dc={d: <d,c> ∈ D}。这里将归一化的文档向量记为→ v(d) 17
信息检索与数据挖掘 2019年4月16日 Rocchio.算法 ·()计算每个类的中心向量 。中心向量是所有文档向量的算术平均 ·(2)将每篇测试文档分到离它最近的那个中心向量 TRAINROCCHIO(C,D) 1 for each ci∈C 2 doD-{d:(d,G〉∈D} mode time complexity 3 西←向∑deD,(d training e(D Lave +Cv(Lave) 4 return {... testing Θ(La+|CMa)≈Θ(CMa) Rocchio.算法的时间复杂度 APPLYROCCHIO({,...,j},d) 与NB方法在训练上具有相同的时间复杂度 1 return arg minj(d) 18
信息检索与数据挖掘 2019年4月16日 Rocchio算法 • (1)计算每个类的中心向量 • 中心向量是所有文档向量的算术平均 • (2)将每篇测试文档分到离它最近的那个中心向量 Rocchio算法的时间复杂度 与NB方法在训练上具有相同的时间复杂度 18
信息检索与数据挖掘 2019年4月16日 Rocchio分类示例 表13-1用于参数估计的数据 文档ID 文档中的词 属于c=China类? 训练集 1 Chinese Beijing Chinese yes 2 ChineseChinese Shanghai yes J Chinese Macao yes 4 Tokyo Japan Chinese no 测试集 5 Chinese Chinese Chinese Tokyo Japan x aTx=bp a≈(0-0.71-0.711/31/31/3)T 表14-1表13-1中数据对应的文档向量及类别质心向量 b=-1/3 向量 词项权重 Chinese Japan Tokyo Macao Bejing Shanghai d 0 0 0 0 1.0 0 d 0 0 0 0 0 1.0 1(c)-d≈1.15 d 0 0 0 1.0 0 0 d 0 0.71 0.71 0 0 0 (c)-d=0.0 d 0 0.71 0.71 0 0 0 Be 0 0 0 0.33 0.33 0.33 0 0.71 0.71 0 0 0 19
信息检索与数据挖掘 2019年4月16日 Rocchio分类示例 {x | aTx = b} a ≈ (0 −0.71−0.71 1/3 1/3 1/3) T b = −1/3 19