信息增益 term的熵 该值越大,说明分布越均匀,越有可能出现在较多的类别中; 该值越小,说明分布越倾斜,词可能出现在较少的类别中 Entropy(t)=->P(c It)log P(c t) 信息增益(Information Gain,IG): ◆ 该term为整个分类所能提供的信息量 不考虑任何特征的熵和考虑该特征后的熵的差值 信息增益计算的是已知一个词t是否出现在一份文本中 对于目录预测有多少信息。 这里的定义是一个更一般的、针对多个目录的定义
信息增益 term的熵 该值越大,说明分布越均匀,越有可能出现在较多的类别中; 该值越小,说明分布越倾斜,词可能出现在较少的类别中 信息增益(Information Gain, IG): 该term为整个分类所能提供的信息量 不考虑任何特征的熵和考虑该特征后的熵的差值 信息增益计算的是已知一个词 t 是否出现在一份文本中 对于目录预测有多少信息。 这里的定义是一个更一般的、针对多个目录的定义。 = −∑ i i i Entropy(t) P(c | t)log P(c | t)
信息增益 Gain(t)=Entropy (S)-Expected Entropy(S,) -∑"P(c,)log P(c,)月 P(r)-P(c,Ir)log P(e) P(1)->P(c,11)log P(c,1)] t出现的概率 t不出现 Geo(.(e1)lo P,(c,11) P,(c) P,(c) 假定t出现时取第1 取第1个目录 时的概率 个目录的概率
信息增益 ( ){ ( | )log ( | )}] [ ( ){ ( | )log ( | )} { ( )log ( )} Gain(t) Entropy ( ) Expected Entropy( ) 1 1 1 P t P c t P c t P t P c t P c t P c P c S S i M i i i M i i i M i i t ∑ ∑ ∑ = = = − − + = − − = − = ∑ + ∑i r i r i r r i i r i r i r r i P c P c t P t P c t P c P c t G t P t P c t ( ) ( | ) ( ) ( | )log ( ) ( | ) ( ) ( ) ( | )log t 出现的概率 t 不出现 假定t 出现时取第i 个目录的概率 取第 i 个目录 时的概率
交叉熵(Cross Entropy) 相对熵:也称为KL距离(Kullback-Leibler divergence),反映了文本类别的概率分布和 在出现了某个特定词汇条件下的文本类别的概 率分布之间的距离,该值越大,词对文本类别 分布的影响也大。 CE(0=∑P(c,1)log- P(c,t) P(c) 交叉熵的定义与信息增益近似,不同之处在于 交叉熵只考虑一个词t出现时的影响。它的定 义为: C()=P()∑P(c,|)log P.(c t) P(c)
交叉熵(Cross Entropy ) 相对熵:也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和 在出现了某个特定词汇条件下的文本类别的概 率分布之间的距离,该值越大,词对文本类别 分布的影响也大。 交叉熵的定义与信息增益近似,不同之处在于 交叉熵只考虑一个词 t出现时的影响。它的定 义为: = ∑i r i r i r r i P c P c t C t P t P c t ( ) ( | ) ( ) ( ) ( | )log = ∑i i i i P c P c t CE t P c t ( ) ( | ) ( ) ( | )log
互信息(Mutual Information) 互信息(Mutual Information):MI越大t和c共 现程度越大 互信息的定义与交叉熵近似,,只是互信息不 考虑t出现的概率,它的定义为: Pt∧c)=lo P(tIc)=log A×N I(t,c)=log P(t)P(c) P(t) (A+C)(A+B) 4G0)=∑P(c)lt,c) i=l Max (t)=maxP(c)1(t,c)
互信息(Mutual Information) 互信息(Mutual Information):MI越大t和c共 现程度越大 互信息的定义与交叉熵近似,只是互信息不 考虑t出现的概率,它的定义为: ( )( ) log ( ) ( | ) log ( ) ( ) ( ) ( , ) log A C A B A N P t P t c P t P c P t c I t c + + × = = ∧ = ∑ = = m i AVG i i I t P c I t c 1 ( ) ( ) ( , ) ( ) max ( ) ( , ) 1 i i m MAX i I t P c I t c = =
x2统计量(念CHI): ■ X2统计量的定义可以从一个词t与一个目录c的 偶然事件表引出(假设文本的总数为N) ~C t A B X2(t,c)= N(AD-CB)2 ~tC D (A+C)(B+D)(A+B)(C+D) 度量两者(term和类别)独立性的缺乏程度 。x2越大,独立性越小,相关性越大 ■若AD<BC,则类和词独立,N=A+B+C+D mar(t)=max(tc) x2c0=∑P(c,)z2,c) i=l
χ2统计量(念CHI): χ2统计量的定义可以从一个词t与一个目录c的 偶然事件表引出(假设文本的总数为N ) 度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D A B C D t ~t c ~c ( )( )( )( ) ( ) ( , ) 2 2 A C B D A B C D N AD CB t c + + + + − χ = ( ) ( ) ( , ) 2 1 2 i m i i χ AVG t ∑P c χ t c = ( ) max { ( , )} = 2 1 2 i m MAX i χ t χ t c = =